特にここを変えたとかいうところって何かありますか?
そうですね。インフラとSREをうちは明確に分けているのが
SREってさっきも言ったインフラと開発の狭間に落ちた カスクみたいなのを、ちゃんと情報の都合というか
考えながら改善するみたいなのをミッションにしたかったので、 インフラだけ触るんじゃなくて情報やるっていう
明確な意思を持ってやってました。 両方のスキルセットというか、持っているような人だけを
最初はSREチームのメンバーとして入れて、 改善活動をやるミッションでやったり。
そうそう、まさにそこを聞きたかったんですけど、 スキルセットを持っている人って限られると思うんですよね。
アプリケーションのアプローチの考え方が分かっている インフラエンジニアじゃないと多分できないようなことってあると思うんですよ。
そういった時に、もともといたメンバーのインフラのチームからSREチームを専任したのか、
それともアプリケーション側の人を専任したのか、どっちなんですか?
そうですね、最初はアプリの人の中でインフラの方も ある程度理解がありそうな人を専任してしてあげるっていうのをやってました。
なるほど。
総代さんと竹澤さんに聞きたいんですけど、 そういう人選というか携わったことってあります?
そういったチームを作るみたいな。
僕はCTOやってるから、チーム作ったり役割作ったり考えたりするのは 割と普段からやってるって言うんですけど、
さっき土屋さんも言ってたけど、ボールの間を拾うって、 人間の気持ちというかやる気みたいなのに任せるってやっぱり継続しないんですよね。
だから、仕組み化で解決するっていうので、 チームを作るっていうのもすごい分かるし、
リッケージで言えば逆にエンジニアで言うとソフトウェア側、 バックエンドエンジニア側ができるだけバックエンドのタスクを拾うように、
逆にそっちの力学を強くするみたいなのもあって。
だからSREっていうチームを作るんじゃなくて、 君らはロールがSREじゃなくて、振る舞いとしてSREをやるんだよ。
SREするんだよっていう感じで、 必要なものは自分で用意しましょうっていう感じでリッケージをやったりとかするんで。
ここって答えがないからし、さっき赤瀬さん言った通り、 アプリケーションのことも分かってたりとか、ビジネスのことも分かってたりとか、
結局インフラとSREの間拾えないじゃんって話があったら、 誰でもできる話じゃないんで、
結局他の会社がこうやってるから、僕らも同じようにやれば うまくいくだけじゃないのがすげえ難しいとこだなと。
そうそうそう、まさにそうだと思ってて、 結局今総代さんも言ってたけど、
アプリケーションのことだけじゃなく、インフラのことだけじゃなく、 ドメイン知識もないといけないじゃないですか。
そこがなんか難しそうだなと思ってて、 だから他の会社のSREの方がやられてることが、
実写で実践してもマッチしないことなんて山のようにあって、
なのでSREと一言に言っても、それぞれの会社で 全然やってることは違うじゃないですか。
そこら辺がちょっと難しいよなと思って。
竹田さん、会社でSREのチームってあるんですか?
そうですね、あるところもあればないところとかも、 もちろんあるんですけど、いくつかの会社とか見てるんで、
あるところもあればないところもあるんですけど、 でも今、SREって、
自分のブログにも書いたりとか、よくお話もするんですけど、 いわゆるインフラって捉えるところと、
品質というか、物を良くするために何でもやるぞっていう、 その活動のことを指すのと全然捉え方が違うんですよね。
SREって。でも自分の場合はその後者の方もとにかく みんなでやるぞっていうのをやっていて、
そこと合致する、自分たちのプロダクトをもうちょっと ちゃんと見つめ直したいんだっていうところは、
そういうチームを作って一緒にやっていくっていうことを 今ずっとやってますね。
スキルセット的なところだと、そんなに高度なものは 要求していなくてやっぱり、
まあちょっと今いっぱい話すと話すことなくなっちゃうので、 あまり言わないですけど。
でもその自分たちのドメインを理解するのはもちろん、 それはもう理解してないと意味がないので、
あとは自分たちのシステムとか、利害関係者って どういうことを期待してて、どういうことをやると
失望しちゃうのか。 アート・オブ・SLOってワークショップあって、
そこにもあるんですけど、本にも書いてあると思うんですけど。 そこをきちんと見つけて、どういうふうにアプローチしていくかって、
自分たちで考えられる人たちを集めてやることが多いですね。 もしくはそこにちょっと知識とかパワーが足りないっていうところは、
そこを一緒に動かして、一緒に応援して組織を作っていく みたいなことを結構やってますね、今。
自分の会社で言うとSREっていないんですよ。 インフラエンジニアみたいな呼び名なんですけど、
SREっていうキーワードを聞いたときにセットで出てくる言葉が、 さっき竹澤さんもおっしゃいましたけど、SLOっていうキーワードがあるじゃないですか。
SLO、SLIですね。SLAもありますけど。 こやつらは何なんですか?
いい質問ですね。
ネットとかにいっぱいあると思うんですよ。SLO、SLIについて。 ニューレリックとかデータドックとかで計測できるよっていうのがあると思うんですけど、
あれはあくまで、HOWの話なんですよ。 曽大さんとかよく好きだと思いますけどね。
あれはHOWとかの話であって、なんであれをやるかっていうと、 自分たちのユーザーの目線に立ってみたときに、
どういうことが起きたら、何パーセント以上起きたら ユーザーやめちゃうよねっていうところまで落として、
それは可視化するとこの値だよねっていうところをやるんですよ。 あれはモニタリングをバンバンバンバンやって、
とりあえずリクエストレスポンス早いぜ、イエーイ、 みたいなことをやりたいんじゃなくて、
それが意味のあるところと意味のないところってあるんですよね、当然。 それはユーザー側、つまりインタラクションを理解してウェブサイトがどうなってる。
ウェブサイトだけの話じゃないですよ、SLO、SLIっていうのは。 なんですけど、利害関係者の人、使っている方たちがどこがヘイトに溜まるポイントなのか、
ワークショップで言うとアンハッピーなポイントがあるんですけど、 あれをうまく見つけて、そこに行かないようにそのSLIメニューっていうのがいくつかあって、
どういうところを我々は注力して計測するとか、どういう判断をする。 SLOはそのSLIを元にして、SLOはこれです。
これは我々は守らなければいけませんよっていうのを指標にして、 その指標を使って、ここからすごい大事なんですけど、その指標を使って、
その組織のあり方とか、ものづくりの仕方とかを変えていくっていうものなんですよね。 あのSLI、SLOっていうのはそういうのに使うものです。
エラーバジェットはもうちょっとそれがうまく回ってきたら、 どれだけ改善に当てるかっていうのをやればいいんですけど、
急にやりだすと多分あまりうまく進まないんで、みたいなやつですね。
キーワードに引っ張られて、本来やるべき活動じゃないところなんか頑張りそうで。
そうそうそう。だからよく話聞きに行くと、 エンジンXとかでログが取ってるんですよって。
なるほど。じゃあそのログは何を表してるログなのかって話を聞くと、 いやアプリケーションで取れるのはこれなんですよねみたいな話をよくされて、
いや、それをやりたいわけじゃないよね。
APIをいくら早く変えそうが、フロントエンドめちゃくちゃ遅かったら、 それユーザーやめますよね。
じゃあ計測するとこリクエストレスポンスじゃないじゃんみたいな話だった。
そんな感じでインタラクションを全部理解して、 自分たちのユーザーは、ユーザーって言ってもお金を払ってる人払ってない人を 区別も結構するんですけど。
それは事業のドメインによって違うんですけどね。 その人たちがハッピーになるところをどこなのか。
それをきちんと見つけましょうっていう感じ。 そのリクエストレスポンスがどこまで取ってるかバーってもらって、
これはユーザーがどういうところをするときのものに当たるのかみたいな話を結構して、 そこからも煮詰めていくっていうことをよくやってます。
それをひたすら頑張るっていうね。
さっきZoeさんもチームの立ち上げの時に、
SRの方の話をチロッとされたかもしれないですけど、 それは擦り合わせて決めるみたいなことをやったんですよね。
そうですね。相竹さんがおっしゃってるように僕も、 うちも結構複数のプロダクトを扱ってるんですけど、
プロダクトの性質によって重要なメトリクスというか、 そうじゃないメトリクスみたいなのとかが全然違かったりして、
B2Bっぽいやつだとやっぱ記事ページみたいなところの レスポンススピードとかが大事だし、
画像とか出てないとめっちゃ困るんですけど、 一方でB2Bみたいなサービスだと、
サービスのコアみたいなところがもうちょっと違う、 集計した数値とかの信頼性みたいなところが重要になってくるので、
集計するロジックの妥当性というかが大事だよねみたいなのを、 各プロダクトごとにちょっとずつ擦り合わせていくみたいなのをやってました。
SRE活動とはみたいなのが本当ふわふわしてて、 本とか記事とか本当たくさんあるけど、
結局会社ごとにやってることは全然違うので、 それによってSRE活動って全く違うじゃないですか。
実際みんなどんなことやってるんだろうなっていうのが気になってて。
相大さんのところにはSREっているんですか?
さっきも言ったけど、 SREっていうロールを置いてるっていうわけじゃないんですけど、
SREが他の会社さんでインフラ面倒みたいなのとか、 自分たちのサービスの信頼を上げる仕事をやっていかないといけないから、
明確にロールはあなたはSREで決めてるわけじゃないけど、 やってる仕事が多分SREって呼ばれるようになって、
仕事をする人とかタスクってのがあって、 興味的にも他の会社でSREやってる人が、
うちの会社に立ち上がってくれてるパターンもあるし、 うちのバックエンドエンジニアの人がそれをやってるパターンもあるけど、
さっきのSLOの話あったんですけど、 サービスを良くしていくっていうのは、
ユーザーが困らないために ここは絶対守りましょうし、
ユーザーさんが喜ぶために こうやっていきましょうと。
あとはプラットフォームエンジニアが、 僕らのこの前の65回でも話題になってて、
チームを良くしていくと最終的にサービスも良くなるし、 サービスを良くするためにここを良くしなきゃいけない。
僕らはSREの文脈として結構やってて、 一番分かりやすいのはデプロイ。
CICD良くしていくとか、テスト早くするとか、
あと、うちだとあるんだけど、 AWSのコストを毎日スラックに投稿して、
スコアが上がってる、下がってるとか、
思ってないところで値段が上がってるから、 これは使い方間違ってるみたいなことも見える化したりとか、
そういう風なところもSREの文脈として やってたりっていうのはありますね。
やっていいっすね。
単純にコストのやつ、良いな。 真似しようかな。
やってないよ。
コストやるな。
月1ぐらいでは見るんですけどね。
グラフにするとめちゃくちゃ良いです。 増えてる時点というかすぐ分かるから。
あとちょっとさっき竹澤さんが、 ちょこっとだけ話したけど、
アートウェアSLをワークショップって、 僕全然知らなかったんですよ。
こんなのあるんですね。
ありますあります。 これ絶対やったほうがいいですよ。
このワークショップやると、 SREって何かっていうのがすごいはっきり分かるんですよ。
これおすすめです。
グーグルのページにそういうスライドとか、 ワークショップの資料が上がってて。
ありますあります。
日本語訳も途中までされてると思うんですけどね。
スピーカーノートついてるんで、 誰でもやろうと思えばやれると思います。
そうなんですか。
自分はそれ結構何回もやってるんで、
よくファシリテーターとして呼ばれてやるんですけど。
なんかテキストみたいなのに沿ってやる感じなんですかね、 この提供されている。
そうですね。
スライドはストーリーというか、 SREって何っていうところから、
SLO SLIとかESLIって何みたいなところを やって掘っていくんですけど。
一通りやった後に実際にゲームの課金ですね。
アプリのゲームの課金の題材を使って、
急にESLIをみんなで選びましょうってやるんですよ。
チームに分かれてインタラクションどうなんだっけとか。
初めて見るやつ。
初めて見る前に一応ハンドブックがあるので、
それを事前に渡して中身を読んでもらったり。
読んでない人向けにも事前に説明するんですけど。
どういうSLIが考えられるかやってもらう感じですね。
それ終わったら答え合わせとかは別にしなくて、
一番大事なのはどこがどういう風になって何が大事なのかって、
チームでディスカッションしてもらって、
それをアウトプットしてもらうことが一番大事なので。
合ってる合ってないは別にあんまどうでもいい。
どうでもよくないですけどね。
真面目にやってるところはちゃんとやりますけど。
そこは重視ではなくて、
どういうコミュニケーションをしてどういうことを考えてたか
っていうのがやっぱりすごい大事にしてる。