エントリー済み

善意では回らない:長期障害体制の作り方

初級者 - Beginner Cloud Native SRE

去年の11月、Mackerelの時系列データベースで短期ストレージのデータが消失する障害が発生しました。長期ストレージにはデータが残っていたものの、復旧用の仕組みは存在せず、読み出し速度の制約の中でコピー用アプリケーションを開発する必要があり、復旧は二週間に及びました。本セッションでは、その過程で露呈した体制上の課題を共有します。有志任せの交代制の限界、通常業務との並行による規律の崩れ、遅れたポストモーテム。さらに、終わりの見えない復旧がもたらす責任感と焦燥感という心理的負荷にも触れます。教科書的なSREの理論と現場の摩擦を照らしあはせながら、初心者が明日から整備すべき体制設計の要点を具体例とともに示します。

Speaker

Inoue Sachirou

株式会社はてな

Webアプリケーションエンジニア

.。oO(さっちゃんですよヾ(〃l _ l)ノ゙☆)
はてなでオブザーバビリティプラットフォームMackerelを作っています。