デプロイ時にPodがUnhealthyとなり、一時的にサービスが利用不可となる障害が発生しました。原因はオンラインDDLと長時間SQLの競合によるMySQLメタデータロック待機です。
本セッションでは、障害の再発防止に向けたアプリ側との対話とガードレール構築の取り組みを解説します。
対話では、安全重視のlock_wait_timeoutを提案するSREと、マイグレーションの成功率を重視する開発者の議論を経て、着地点を見出す過程を説明します。また高負荷プロダクトの有識者を交え、リスクの高い変更を判定するための基準を定量化した背景も共有します。
こうした基準を定めても、知見が点在し風化しては再発を防げません。そこで、AIで情報を整理しBackstageへ集約することで、開発者が迷わずにルールを参照できる環境を整えました。さらにGitHub Actionsを活用し、スキーマ変更が検知された際にプルリクエストへ自動で警告を掲示するガードレールを実装しました。
開発者に過度な意識を強いることなく、安全な道へ自然に誘導する開発者体験と信頼性を両立させるための実践的な仕組みを共有します。
株式会社マネーフォワード
SRE
2023年7月株式会社マネーフォワードに入社し、福岡拠点に所属。バックエンドエンジニアを経て、現在はクラウド経費/クラウド債務支払のSREを担当しています。プロダクトとSREの経験をもとに、信頼性と生産性の向上に取り組んでいます。