8年にわたり運用し、現在1000クラスタ超まで成長したKaaSにおいて、プロダクトフェーズの変化や体制の縮小に伴い直面したSREの「理想と現実」の変遷を共有します。
拡大期に導入したError Budgetが、体制縮小により認知負荷として重荷となり形骸化に至った経緯。そして、少数精鋭で生き残るために舵を切った徹底的なトイル削減のリアル。これら「理想」の挫折と「現実」への適応の軌跡を、具体的な事例とともに解説します。
主な事例:
・失敗談:体制縮小に伴うError Budgetの形骸化と運用継続の諦め
・事例:1000クラスタ規模のノイズを排除するSLI計測の実装(Cloudprober)
・事例:AI(MCP)によるアラートトリアージと一次対応コスト7割削減の実践
本セッションはSREの現実と向き合う方々に向けて、フェーズや体制に応じたプラクティスとの距離感とその実践事例をご紹介します。理想を追うことに疲弊せず、現場の状況に適応した現実的なSREの実践について、本セッションを通して皆様と一緒に考える一助となれば幸いです。
LINEヤフー株式会社
ソフトウェアエンジニア
2023年ヤフー株式会社(現LINEヤフー株式会社)に入社。以降、1000クラスタを超える国内最大規模のプライベート Kubernetes as a Service の開発・運用に従事。