エントリー済み

Kubernetesクラスタアップデートから始めるナレッジ継承:経験者ほぼ不在での実践

全て - Any Platform Engineering

経験者がほぼ不在の中、100を超えるサービスが稼働するEKSクラスタのブルーグリーンアップデートをチームで完遂し、アップデート経験者を増やした実践事例です。
人員交代によりアップデート経験者がほぼ不在となる中、アップデートが差し迫っていました。
開発環境、ステージング環境、本番環境で作業者を意図的に分け、各担当者がドキュメントを更新しナレッジを蓄積しました。動作確認方法はNotionに集約し分担体制を構築しました。結果、アップデートの完了とともに、経験者を増やすことに成功しました。
一方でTerraformの環境差分によりIngressの障害が発生し、数十分のダウンタイムが生じました。サービス開発者がダウンタイムの影響を確認する状況が生じました。 この経験からSLOの定義・告知、スケジュール早期周知を決め、アップデートの影響を開発者が対応できるようプラットフォームとして整備しました。
本発表では、Kubernetesクラスタアップデートに課題を感じているエンジニア・マネージャを対象に、人員交代環境でのアップデート継続戦略・失敗事例・再発防止策を持ち帰っていただけます。

Speaker

Kanji Takahashi

Sansan株式会社

グループマネジャー

2017年にSansan株式会社に入社。研究開発部にて自然言語処理を活用したエンジン開発や運用に取り組む。最近は、研究開発活動の効率化やサービス化促進のために、Platform EngineeringやMLOpsに取り組んでいる。