このセッションはSLOの「導入」ではなく、形骸化させないための「ポリシーとガバナンス」に焦点を当てます。SLO違反(Breach)時に実効的なアクションが取れず悩む多くのSREに対し、実践的な知見を提供することが目的です。
前半においては、Error Budget消費や機能開発停止など、教科書的なBreach Response Policyの選択肢を網羅的に解説し、基礎知識を整理します。
後半はメルカリにおけるケーススタディです。複数事業・多数のマイクロサービスという環境下におけるSLO運用で直面していた課題、そして「User Journey SLOの2ヶ月連続違反でReliability P0(最優先対応)を発動し、事業責任者が説明責任を持つ」という独自の組織横断ポリシーをどう策定し、合意形成したのか。その背景と思考プロセスを深掘りし、それによる学びを紹介します。
【対象と得られる知見】
SLO運用に悩むSREやエンジニアリーダーを対象に、自組織のフェーズに合わせた実効性のあるポリシー設計の勘所や、事業側との合意形成のヒントを持ち帰っていただきます。
株式会社メルカリ
SRE
バックエンドエンジニアとしてキャリアをスタートするも、ひょんなことからReliabilityに身をささげる人生に。現職メルカリには2019年に入社し、現在はフリマアプリサービスとしてのメルカリの信頼性を担保するMarketplace SREチームに所属。Rubyが好きで、Rails関連のOSSであるRailsAdmin/CarrierWaveのコミッタ。