これまでの取り組みによって、当社はオンコール対応の改善や、ポストモーテム文化が浸透しつつあります。
しかし、実際の障害対応の現場ではいまだに「ちびっこサッカー」のようなカオスな状況が散見されます。誰がインシデントをリードするのか曖昧なまま、全員が同じ情報に飛びつき、WarRoom 立ち上げにも手間取り、チャットや口頭、ドキュメントページなど、情報の流れもバラバラになることがあります。
本セッションでは、この状況を変えるために取り組んだ「AI支援とツール整備を組み込んだ障害対応訓練」の実践を紹介します。New Relic / GitHub / Atlassian と連携した Slack Bot により自然言語でシステム状況や変更履歴を問い合わせられるようにし、WarRoomはMSFormからワンアクション起動が可能で、PagerDuty Status Page で社内へのアナウンスを可能としました。これらのツールを準備した上で、各チームが効果的に利用できるように障害対応訓練を実施した取り組みとその中での学びを紹介します。
イオンスマートテクノロジー株式会社
SRE
新人時代をSIerのネットワークエンジニアとして金融系プロジェクトでハードワークを経験し、事業会社のインフラエンジニアやSREとしての経験を積んで2024年03月よりASTへジョイン。好きなトップバリュは「トップバリュベストプライス ゆでたパスタにまぜるだけペペロンチーノ」好きな空間は「イオンシネマ」。