CFPは終了しました。採択結果はこちら

大きな組織に本気でSLOを導入し運用するということ、その難しさ

Proposal: (不採択)

中級者   Operation / Monitoring / Logging

DMMのプラットフォーム開発本部という部署ではSLI/SLO導入の推進活動を行っており、長いチームだと現在では1年以上の運用実績があります。

DMMという大きな組織にSLOを導入する際には多種多様なチームがおり、サポート活動やガイドラインの設定、計装やSaaSの仕様など多くの活動をし多くの壁にあたりました。
今回はただ導入した話ではなく、実際の長期間のSLO運用をしないと見えてこない多くの課題点・反省点や、それに対してどう考えるべきなのかの問題提起・共有を含めて、導入を主導して進め続けている自分から発表させてもらおうと思います。

Jun Kudo
合同会社DMM.com
SRE

東京大学大学院工学系研究科修了後、合同会社DMM.comに新卒入社(2021)。
プラットフォーム開発本部にてSREチームとして、インシデント対応フローの改善やポストモーテムの徹底、SLI/SLO導入などを含めた信頼性の向上施策を進めている。