「SRE 見習い」として参加してきました。
(SRE チーム立ち上げを画策して、1 年目は見事失敗、ただいま再挑戦中の身です。)
ちょっと遅めの開始時間だったので寄り道してきました。
ちょっと寄り道。 pic.twitter.com/6AbKr9VQPO
— hmatsu47(まつ) (@hmatsu47) 2020年1月25日
(うっかり SRE NEXT 2020 本編で写真を撮り忘れたので、このブログ記事での写真はこれだけです…。)
新橋から豊洲まで、バス(業 10 系統)が出ていたので、バスに揺られて現地に到着。
ヨガが始まった直後に現地入りしました。
今回参加したセッションは以下のとおりです。
- [A0] 分散アプリケーションの信頼性観測技術に関する研究(坪内 佑樹さん)
- [C1] 絶え間なく変化するメルカリ・メルペイにおけるSREの組織と成長(渋谷 充宏さん/高木 潤一郎さん)
- [B2] 計画的に負荷リスクを排除するためのキャパシティプランニング(赤野 裕喜さん)
- [A3] freee のエンジニアは障害から何を学び、どう改善しているのか?(坂井 学さん)
- [A4] 日経電子版SREチーム立ち上げ中(Osamu Takayasu さん)
- [A6] SREがセキュアなWebシステムを構築、維持するためにやれることはなにか(清水 勲さん)
- [A7] サイト信頼性エンジニアリングの原則(山口能迪さん)
- [A8] Webサービスを1日10回デプロイするための取り組み(藤原 俊一郎さん)
- [A9] パネルディスカッション(関根 達夫さん/玉川 竜司さん/樽石 将人さん/田中 慎司さん)
資料や当日のツイートが、すでにまとめられていました(ありがたや)。
- 【SRE Next 2020】発表資料まとめ
- SRE NEXT 2020 まとめ(オープンニング前)
- SRE NEXT 2020 まとめ(前半戦)
- SRE NEXT 2020 まとめ(後半戦)
- SRE NEXT 2020 まとめ(懇親会)
いつものように実況ツイートしていましたので、ここでは手短に一言ずつ書きます。
- 地理分散とネットワーク遅延と合意形成。Google SRE 本にも 1 章割いて Paxos が取り上げられてた(確か)とおりこれは重要な問題。
- SRE に限らず、少人数組織で「1 人が先に走ってワザを身に着ける」スタイルでやっていくと、2 人目以降との「圧倒的な差」が「溝」となってかえってチーム化が難しくなる問題。これをどう解決するのか、自分の中では答えが出ていない(「放任しても勝手に伸びる人」が入ってくるのを待つしかないのか…)。
- キャパシティプランニング、「推測より実測」のための仕組みづくりが素晴らしい(やってみたい)。
- たとえ数年程度でも、ある程度「歴史」があって力量のあるメンバーがいると、その人たち頼みでトラブル対応がうまく回ってしまい、かえって仕組化が遅れる問題。↑で挙げた「2 人目がなかなか出て来ない」問題に通ずるものが。「結果だけ見ていてはいけない」典型例か。
- 「数年」を超えてもっと歴史があるサービスに SRE を組み込む難しさ、すごくわかる(つらい)。
- セキュリティも幅広い知見とサービス各層への関与が必要な分野なので、やっぱり SRE が取り組むべき、となってくるのかな…(なんとなく予感はしていた)。
- ポストモーテム大事。そして、「人に原因を求めない」、大事。
- デプロイ頻度、仕組みづくりとともに、組織風土や文化についてフォーカスした話も聞きたい。
- 「SRE」もいろいろ。定義に縛られすぎないようにしたい。
- 全体を通して振り返り。SLI/SLO とエラーバジェット(を導入する意味を組織の人たちに理解してもらうこと)はやっぱり大事だな、と実感。周囲に理解を得られるまでの道のりは険しい。
懇親会は、特に企画などのない純粋な「懇親会」だったので、かえって新鮮な感じがしました。これはこれで良いです。
ちょっと疲れましたが、いろいろ考えさせられながらも最後まで楽しんだ一日でした。