SRE Magazine 012号に寄稿された記事を読みながら、SLOと2σテクニックについて話しました。
・アジャイルレトロスペクティブズ(第2版) https://www.ohmsha.co.jp/book/9784274233715/
・012号(2026/04/01) - SRE Magazine https://sre-magazine.net/magazines/12/
・SLOベースの監視は廃れるのか https://sre-magazine.net/articles/12/iwamot/
ゆるテクは @junichi_m_ と @hacktk がゆるーく技術の話をするポッドキャストです。
おたよりやコミュニティなど各種リンクはこちらから → https://yuru-tech.type.link/
感想
まだ感想はありません。最初の1件を書きましょう!
サマリー
今回のエピソードでは、SREマガジン12号に寄稿された「SLOベースの監視は廃れるのか」という記事を深掘りします。SLOの運用におけるメンテナンスの難しさや、エラーという曖昧なデータに基づく監視の課題について議論。代替案として「2σテクニック」が紹介され、その仕組みや正規分布との関連性、そしてSLOとの使い分けについて考察します。SLO文化が根付いた組織でこそ検討されるべき手法である可能性や、国内での普及状況についても触れ、SLO運用における新たな視点を提供します。
00:00
こんにちは、三長です。
こんにちは、博崎です。
ゆるテクは、ゆるーく技術の話をするポッドキャストです。よろしくお願いします。
よろしくお願いします。
はい、というわけで、今日も2人で何かこう話していければかなと思います。
はい、よろしくお願いします。
はい、お願いします。
アイスブレイク:アジャイルレトロスペクティブスの第2版について
でですね、でですね、ちょっと全然関係ないアイスブレイクしちゃうんですけど。
早速、はいはい。
最近、僕、新しく本を買いまして。
お、はいはい。
はい、って言って、めちゃめちゃ新しいという、去年の9月ぐらいに発売されている本なんですけど。
はい。
博崎さん、Agile Retrospectiveってご存知ですか?
えっとですね、恥ずかしながら名前しか。
はいはいはい。そう、名前はご存知ってぐらい、多分、なんかアジャイル開発とかスクラムガーとかって流行ってた頃に有名になってた本なのかなと思ってて。
うん。
あの本が、どうも去年の9月に第2版が出ていたようで。
それも知らなかったです。
僕も、もしかしたらXで見たかもなーって思いながら、改めて出会ったんです。
このタイミングで第2版を買って、今読み始めようってなってるっていう、どうでもいい情報の共有でした。
いや、どうでもよくはないですけど。
そうか。さすがに読むか?
アジャイルとかスクラムとか売ってる人は、全員読んでるんじゃないかぐらい有名な本だとは思ってるんで。
うんうんうん。
読むべきか?読むべきですか?
どうでしょう。まだ読んでないから、べき論は語れないんですけど、多分ボリュームでいくと、第1版の2倍から2.5倍になってそうなんですよね。
それ、本当ですか?
本当、びっくりした。
え、何ページなのこれ?
紙だと300ページちょい、だから2倍ぐらいか多分。
僕まだ読んでないんであれですけど、ざっと目次とか流し見した感じだと、結構ここ数年間で蓄積されてきたレトロスペクティブのHowの部分であったりとか、
そのHowを実際チームに導入する時のファシリテーションのコツであったりとか、そういうことをまず昔と比べると追加で書かれてるなーっていう印象があるのと、
あとちょっと興味深いところとして、リモートチームでレトロをやる時にどうしてこっかみたいなことについて一生割いてるので、結構時代に合わせてきたなーっていう感じがします。
そうです。逆にやっぱ本だからちょっと、逆にちょっと、時代にまだもう合わなくなってる感じがしませんか。多分世界的に出社回帰でしょ。
まあとはいえじゃない、とはいえとはいえみたいな。
まあそうですね、リモートはまだあるところにあるし。
ちなみにちょっと目次だけ見ると、リモートのショーのところは、目次だけなんで何についてこの中で話してるかわかんないですけど、
カメラの仕様について伝えるとか、割り込みのプロトコルを設定するとかって、よくあるカメラを写す写さないもそうだし、リモートで同時に喋り出すと結構わかんなくなるじゃないですか。
おそらくそういうところに対しての設計というか、ちゃんとした方がいいよねみたいなことを述べてるんだろうなーって思ってます。
あれですね、リモート始まった時とかに散々あちこちで言われて、このユルテクでも話した記憶がある。
そうそうそうそう。
何だっけ、カメラオンにしてくださいってわざわざ言いたくはないよねとかそういう会話してた気がしますね。
今思うとそれは言えたらええやんって感じではありますが。
みたいなことがいろいろ書かれてるので、多分個人的には前半は割とサクサク読み進めて、後半はこういうこともあるんだなって学びがあるといいなって思って、このタイミングで読み始めましたって感じです。
そうですね、読むか。レトロの本なんていくら読んでもいいですから。
いいこと言いますね。
それで言うとね、国内にも振り返りの本っていっぱいいい本が出てるので、全然どっちからでもいいんじゃないって思ったりはしますけど。
というちょっとしたアイスブレイクで、本題全然関係ない。
はい、終わりです。
何だっけ、割り込みのプロトコルを今ちゃんと設定してなかったかもしれない。
切り替えか。
いえいえ。
SREマガジン12号の紹介とSLOベースの監視について
今日ちょっと持ってきたネタとしては、ちょうどここ最近でSREマガジンの4月号。4月号って表現でいいんすかね。
これはまあ、何て言えばいい、12号。
12号がいいかな。
12号がいいか。
4月1日にマガジン発刊された12号があったので、ちょっとこれ眺めて、こうだこうだ2人で話せたらいいなってちょっと思ってますっていうところです。
全体的なサマライズでいくと、いくつか記事を寄稿していただけてるっていう部分もありつつ、それ以外でいうと結構海外のSREに関する記事の紹介、サマライズした上で紹介してくださってるみたいな感じになってますと。
海外記事に関してはサマライズ自体が結構わかりやすいので、そこに対して目を通すだけでも面白いと思うし、そこでより興味を持ったら原本というか本記事の方に行くといいのではとは思いますね。
そうですね。ちゃんと海外記事もあっていいですね。
そう、結構この辺って追いかけてるけどちょっとこぼしちゃうとか、ちょっとボリューム多いなって思って見えなかったりしたりするケースもあるんでありがたいですよね。
そうですね。
今日ちょっとそうですね、2人で話してみたいなって思ってるのが、その海外記事側ではなく、寄稿していただいてる方の記事を話してみたいなと思ってます。
はい。
タイトルがSLOベースの監視は廃れるのかっていう結構気になるようなタイトル。
そうですね。
はい。なんですけど、これに対してどう思います?廃れるんですかね?みたいな話をする前になんですが、そもそも論どうですかね?僕ら、僕もファクタケさんもこれまでのキャリアの中でしっかりSLOでやってきたかもっていう場面ってどれぐらいありました?
多分ですね、自分は三田さんと同じチームだったことがあると思うんですけど、あの時が一番マシにSLOを見ていた気がしますね。
あの時もデータドックで取られてるぐらいだったと思うんですけど。
ですよね、ですよね。
で、そのSLOを厳格に運用してはいなかったですよね。
そうですね。あくまで一つの指標というか、何か異常がありそうだよねぐらいの温度感で見てたぐらいですよね。
そうですね。その程度です。
SLO運用の難しさと課題:メンテナンスと曖昧なデータ
僕も結構そうですね、それに近しくて、そのファクタケさんと一緒のチームにいた頃のSLO運用もそうだし、それ以外でもCUJ、クリティカルユーザージャーニー作ってSLOを立てたりもするんですけど、
実際何でしょうね、どこでもよく言われてると思うんですけど、SLOって別に立てて終わりじゃなかったりするじゃないですか。
どっちかというとその後にSLO、定量的に数字を見て判断できる、できないであったりとか、その当時作ったSLOが妥当なのかどうかっていうのを定期的に検証してアップデートしていかなきゃいけないみたいなのが結構SLO運用の本質というか難しいところだろうなって思ってて。
最初なんて本当仮置きでしかないですよね。
よくわからんけど95%でエンチャーみたいなところがあったりするじゃないですか。
一旦このぐらいにして、こんな全然余裕だからもうちょっと上げようかとか、いい具合をまず探すところからですよね。
という感じで僕らの経験上もガチガチにSLO終わったら止めますとかってやってきてはいない中で、この方の記事の話をいくつかピックアップしていくと、
ざっと読んだ感じ、どこが難しい、何に限界を感じてるのみたいなところを書いてくださってるんですけど、一つ挙げてるのが、そもそもメンテナンスが難しいっていう話が上がってたんですよね。
これが多分完全に僕らがさっき話してた定義して終わりなんじゃなくて、ちゃんと見直してブラッシュアップしてアップデートしなきゃダメだよねみたいなところの話。
これしかも定期的な振り返りとかをやってたんですけど、いわゆる何がどうなったら値的にはこうしてった方がいいみたいな指針みたいなものってないと思ってて。
そこを自分たちで考えて、組織ごとにきっと方法があるでしょうから決めていかないといけないですよね。
そうなんですよね。しかも類似してるシステムとかがあったとしても、なかなかそういう細かい指針までって公開してるところもないんで、本当そこが体感というか感覚値になりがち。
でもほぼエアアップな状態であえて言うと、それこそがSLOの意味だったりしないかなぐらいは思いますけどね。そこで会話をすることということが意味であったりはしないかなと思うんですけどね。
確かにね。そこで会話して、そのサービスレベルの部分に対して考える、フォーカスする時間を作れてるっていう意味でも意味はあるかもしれないですよね。
そう思いました。
確かに確かに。あとはそこの意味とそれを継続的に続けていく部分の運用の難しさみたいなトレードオフなのかもしれないですよね。
そうだな、確かに。
ということがまず一つ課題点として挙げられてるのがありました。これは結構そうだよねって共感の部分が多い。
よく聞くというかですよね。
そう、よく聞くやつ。で、もう一つがこの観点は確かにそうだよ。読んでみて初めてそうだよねってなったんですけど、エラーという曖昧なデータに基づいてるってことが結構難しさを助長してるというか難しくしてるっていう話があるみたいで。
そうですね。なるほど。これは全然知らなかったな。SREコンで話されてたのかな。
みたいですね。しかも結構前ですよね、これ。
22って言うからそうなんですかね。
これ22、2022ってこと?
すごい前だ。
2022だと若干SREコン聞いてるか聞いてないか怪しいかもしれない。
自分は多分海外のSREコン一個も聞いたことないかもしれない。
そういった前から話されてることがあって、曖昧なデータに基づいてるからなんやねんみたいな話だと思うんですけど、例としてあれなんですよね。
多分状況によってはエラーが過大評価されちゃうケースもあるし、過小評価されちゃうケースもあるよねっていうことに問題意識を持ってるみたいですね。
これってあれなんですかね。もうちょっと具体的なパターンで言うと、例えばすげーでかい障害が起こってる時に因果関係とか全然ないのに出ちゃってるエラーに対してこいつまずいんじゃないかみたいな過大評価されるみたいなそういう話なんですかね。
えーこれ、その文脈はもうそれこそ公演の方を見てみないとわかんないと思いますけど、曖昧なデータにも、だからあれなんじゃないですかね。解像度が低いというか。
例えばその単純に何かわかんないですけど、404とか。
404はすごい、あれをエラーと言うのかわかんないですが、あれをもしエラーとするなら、その404と503では全然レベルが違うわけであって。
そうですね。
みたいなことなのかなと、自分はこれを見た時には思いましたけど。
よし、これは後でSREコンのベースのページ見ましょう。
とかとかそういった部分の、その2点があって結構SLOで監視していくって一定難しさもあるんじゃねっていうのが、このブログの記事で言いたいことっぽいんですよね。
代替案:2σテクニックの紹介と考察
そこに限界が来た時に、代わりにどういう風にやっていくといいんだろうっていう大体案が紹介されていて。
これ完全に初見でしたね。
そう、僕も初見でした。
初見じゃない人も結構いると思うんですけど、2SIGMAテクニックって言うんですかね。
このあれはSIGMAですか。
そういうテクニックがあって、それって何っていうと、この記事を書いてくれた方が簡単にまとめてくださってるんですけど、過去のパフォーマンスの平均値との差異が、これ2って読まない方がいいのかな。
標準偏差の2倍を超えてたら問題とするみたいな感じですよね。書いてある内容でいくと。
ちょっと自分がアホすぎるんですけど、この標準偏差の2倍というのは何かのマジックナンバーというか、意味のあるあれなんですかね。
それでいくと確か標準偏差自体は、データの平均値の散らばり具合、分散具合を確か表す統計の指標だったはずだから、分布取ったらその偏差が分かんじゃない、確か計算できたはずだと思う。
ちょっとこの辺統計から離れて久しいんで、ちょっとデタラメ情報かもしれないけど。なんか計算式あったんですよ。標準偏差の。分散のあれなんて言うんだっけ。ルートってなんて言うんだっけ。平方根。
平方根。
うん。分散の平方根、表現正しいのか。ルート分散って分散の平方根で正しい?
正しい?いや分かんないです。ちょっとどうだろう。
言葉で表現するときにどう表現するのか分からなくなっちゃってるんですけど、そういう計算があるから、たぶんそれで計算してって話なんじゃないかな。
この図を見ると、いわゆる外れ値のようなものを異常とみなす、中央値よりもあまりに離れてるやつを異常とみなすという風なテクニックなんじゃないかなと思うんですけど、
単純にこの標準偏差の2倍としている、2倍っていうのは別に特に理由はないのかな。それより上ぐらいはちょっと異常としていいでしょうぐらいの感覚なのかな。
じゃないかな。おそらくこれも原文読んだほうがいい、僕らが読んだほうがいいんですけど、いろいろ数値実験した結果、割と2あたりがちょうどよかった可能性はある気がしますけどね。
じゃあなんかあれか、学術的にその辺が異常とされることが多いとかじゃなくて、実数経験というか、そういうのに基づくあれか。
気になるとすれば、気になるというか、これはもう自分で調べていいって話なんですけど、この記事で引用してくれてる画像自体が、たぶんこれ正規分布っぽいじゃないですか。
もう完全に正規分布っすね、中央でだって、左右対称だから。
だから、どうなんだろう、そのアラートデータとか、エラーデータとか、メトリクスのデータとかが正規分布だったら、これは使えるのかって思ってるけど、正規分布じゃなくても使えるんだろうかって感じ。
そうですね。パフォーマンスをこういうあれにしたことがない気がする。正規分布になるか?
そうなの。
なんとなく。
そこがよく分かってなくて。
正規分布にならないけど、この左側がパフォーマンスが良い方のグラフじゃないですか、値じゃないですか。
こっちの方すごく少なくなりそうだけどな。右の方にロングテールでいきそう。
だからちょっとこの辺、今後こういうことが結構必要になってくるんだろうなっていうのはもう、薄々というか従事承知してるから、そろそろしっかり統計をアンラーニングしないとあかんのかなってなりますよね。
いや、自分はなりませんでした。
え、マジか。
やんなきゃダメかな。
どうせなら、なんでこういう設定にしたのっていう仕組みをちゃんと話せるようにしたいなって感じ。
そこ、それはすごい大事ですね。やっぱそれ、やんなきゃダメか。やりましょうか。
なんか言ってるんす。言ってるからこれでいいですよだとさすがにちょっと弱いよなって思うんで。
その根拠は、これがこうなってこうだからこうなんですっていう根拠はすごい自分は欲しい人間なんで、そうっすね。
そっかそっか。やるか。
みたいなことを使っていくと結構SLOの代替になっていく可能性はあるよねっていうのは書いてるんですよね。
2σテクニックの代替としての可能性と限界
これSLOの代替としての話なんだ。
だからSLOを運用しつつっていうよりはこれで気づけばいいんじゃないのって話ですよね。きっとね。
なるほど。
そういう記事が1個あって、ただ最後の結論の部分で少し記事書いてくれた方の考えも書かれてるんですけど、
速攻で廃れるかって言われたら、そうじゃないよねみたいなことはちゃんと書かれてました。
そうですね。ツールとかが出てきてないからか。
ただこれが出てくると結構その、分かんないですけど導入っていう意味でSLOとかよりは進みそうですよね。
導入が簡単だからってことですか?
これ僕があまり好きじゃない方向なんですけど、さっきSLOの運用していくとか、組織でそういうことを話していくのが大事だよねみたいな話もちょっと2人でしてたじゃないですか。
そこに価値を感じない人だと、そういうの全部やらなくていいんだったらこれ入れた方が早くねとかでサクッと導入されちゃいそうだなって思ったりはしてる。
なるほど。楽だからってことですねつまり。
そう。
確かにね、さっき自分がこれが大体になるのかって思ったのが単一指標というか、ここ超えてたら異常ねみたいなのって、状況の変化に弱そうなイメージがちょっと一瞬出たんだけど、そんなことないんだっけ?
それは弱そうだと思ったし、なんかこうユースケースどんな時までこれで対応できて、どういう部分がカバーできないんだろうかはまだイメージついてないかもしれないです、僕も。
ずっとあれですよね、さっきのエラーという曖昧なデータっていうのが、自分の言ってるエラーの内容によってその重さが違うんじゃないかみたいな意味だとすると、これはパフォーマンスという軸でしか見てないから、エラーを見れてないんじゃないかという感じはしますね。
そこがどうなんだろう、エラーの発生件数とかをまた分布作って、そういう見方をするのかって話になるかもしれないですよね。
それごとに作るのか、これを。
なのかなって思ってました。
エラーの発生量とかで見れるのか、そうか。
その件数が多分平均値とって、さっきの指標で数字式値割ってたらとかって話なんじゃないですかね。
でもその場合でも、積算するエラーの種類は人間が考えなきゃいけないですよね。
おそらくそうだと思う。
さっきの例で言うと、404が100個あるのと503が100個あるのでは意味が違うので。
なるほどね。
難しそう。
この辺、SLOをやってた時のエラーバジェットの消費率とかを見ていくとかもあるわけじゃないですか。
あの辺との使い分けというか、このパターンになる場合は事前に検知するってどうやるんだろうなとかは、
この記事だけからだとわからないので、ちゃんと提案してる人の文章を一回読もうかなって思いましたね。
そうですね。
2σテクニックの普及状況と今後の展望
しかし面白いですね。
いろんな考え方が出てくるといいですね。
面白い。しかもそれがまさかの2022年に話をされてた内容だと思わなかったんで。
これは日本国内の情報はそれなりにキャッチしてるつもりだけど、
全然これが出てきてる見えないのは日本だからなのか、
それともこの手法自体があんまり受けられない感じなのかどうでしょうね。
それは気になりますよね。どっちなんだろう。
もしかしたら2022年だから出た当時みんないろいろ試してみて、これダメだねってなったのかもしれないし。
あとはなんだかんだ、たぶんここに疑問を持つって、一定SRE文化が根付いた状態なのかなって思ってて。
なるほど。
SLOやってもないのにSLOよりこっちやろうってなかなかたぶんならないじゃないですか。
SLOを運用してみないとSLOの難しいところわかんないですよね。
そうそう。っていうのもあって、こういう情報は目にしてたけども、
でもまずは自分たちとしてはSLOを入れてみようをみんな一生懸命だったのかなとも思ったりはする。
なるほどね。それっぽいな。
っていう記事が寄稿されていてすごく知らなかったなって学びいっぱいになって、
かつこの辺ちょっとインプットしようっていう気づきも得られたので、僕は大変満足でした。
次がちゃんと調べようまであるからいいですね。ありがたい。
ありがたい。それ以外も冒頭に話した国内外のSRE記事も紹介してくださってるんで、
きっとみんな興味があるやつとかはあるんだろうなって思うから、ぜひぜひ読んでみてほしいですよね。
まとめと番組からのお知らせ
そうですね。ゆるテクはSREマガジンを応援しています。
応援しています。勝手に応援しています。
そんなわけで今日はSREマガジンの紹介とその中の一記事についてピックアップしてお話しさせていただきました。
ちょうどキリもいいのでこの辺りにしようかなと思いますが、ゆるテクでは感想や話してほしいことなども募集しています。
Xでハッシュゆるテクをつけて投稿していただくか、Nixie2のコミュニティまでコメントお願いします。
今日はありがとうございました。
ありがとうございました。
25:30
コメント
スクロール