我々は必要のないことに時間をかけてないか?と疑問を持ったのは、CSに「解約の原因はエラーレートではなく機能不足です」と言われたときでした。
SREもDevも時間は有限です。Devチーム数がSRE数を超えると、SREが平等にリソースを割くのは難しくなります。
GoogleのProduct-Focused Reliability for SREでは「ビジネスやユーザーにとって最も重要なことに焦点を当て、優先順位を付ける」と提唱しています。精度の高いSLOは優先度を決定でき、それがリソース最適化に寄与します。
この理論に加え、SREとDevが別々のSLOに責任を持つことで同じ目標を共有する組織設計論を話します。組織が大きくなると発生する、受託のような関係を回避しつつ、SREもDevも互いに本番環境に対してバランスを取れる状態が、今後求められる姿です。
本セッションでは、理論について話しつつ
・精度の高いSLOとは
・複数SLOでSREもDevも責任共有する状態とは
・SREが支援係になりすぎないようにするには
3年以上にわたり運用してきたCUJテンプレートと実際のSLO例も共有します。