エントリー済み

完璧なSLOより、会話できるSLOを 〜2度の失敗を経て辿り着いたシンプルなSLO運用〜

初級者 - Beginner SRE

SLO運用が浸透しない・何から始めたら良いかわからない、といった課題をお持ちの組織は多いのではないでしょうか?EightではインフラSLOから始まり主要APIのSLO、PdMを交えたユーザージャーニーベースのSLOを策定しました。2度の失敗を経て、SLO運用の核心は「継続的な小さな改善とSLOを基にした会話」だと気づきました。

過去の取り組みでは10個以上のジャーニーを定義しましたが、バーンレートアラートは対応方法が不明で機能せず、ダッシュボードはSREしか見ておらず、形骸化していきました。

現在、SLO作成時には小さく成果を出すためにあえて意思決定者を絞り、エラーバジェットやバーンレートの概念は捨てています。SLOの状態を基に素早く改善サイクルを回すシンプルな運用に変えました。未達時には原因と改善案を調査し開発者に提案もしくは閾値を変更、必要に応じて開発者からPdMを巻き込んでいます。何をすれば良いかわからないという課題は消え、SLOを起点に会話が生まれるようになりました。

SLO運用に悩む全ての方へ、3年以上に渡る試行錯誤のリアルと辿り着いた答えをお伝えします。

Speaker

Kazuhiro Fujiwara

Sansan株式会社

SRE

新卒でアマゾンウェブサービスジャパン合同会社に入社。約4年半ソリューションアーキテクトとして働き、社内コミュニティではオブザーバビリティ領域をメインに活動していた。
その後Sansan株式会社に入社し、EightのSREとしてインフラ領域だけでなく、アプリケーション領域にもコミットできるように日々活動中。