そのSLO99.9%、本当に必要ですか?   〜優先度付きSLOによる責任共有の設計思想〜

Proposal: (エントリー済み)

中級者 - Intermediate   SRE  

我々は必要のないことに時間をかけてないか?と疑問を持ったのは、CSに「解約の原因はエラーレートではなく機能不足です」と言われたときでした。
SREもDevも時間は有限です。Devチーム数がSRE数を超えると、SREが平等にリソースを割くのは難しくなります。
GoogleのProduct-Focused Reliability for SREでは「ビジネスやユーザーにとって最も重要なことに焦点を当て、優先順位を付ける」と提唱しています。精度の高いSLOは優先度を決定でき、それがリソース最適化に寄与します。

この理論に加え、SREとDevが別々のSLOに責任を持つことで同じ目標を共有する組織設計論を話します。組織が大きくなると発生する、受託のような関係を回避しつつ、SREもDevも互いに本番環境に対してバランスを取れる状態が、今後求められる姿です。

本セッションでは、理論について話しつつ
・精度の高いSLOとは
・複数SLOでSREもDevも責任共有する状態とは
・SREが支援係になりすぎないようにするには

3年以上にわたり運用してきたCUJテンプレートと実際のSLO例も共有します。

VTRyo
株式会社Topotal
SRE

2017年頃からSREとして活動。スタートアップやメガベンチャーのProduct SREを経て、現在は株式会社TopotalにてSRE as a Serviceに従事。SREとして支援する形で、幅広い業界の信頼性向上に取り組んでいます。SRE組織に関すること、SLI/SLO、開発者組織に対するEnabling活動が得意です。週末は間借りスリランカカレー店を営業しています。