「アプリ更新時に必ず10秒ダウンタイムが発生する」「月に一度、謎の500エラーが急増する」…皆さんのクラスタにも、そんな“原因究明が放置された障害”はありませんか?Kubernetes上の障害は自己回復することも多く、調査の難しさから根本原因の究明が見送られがちです。
しかし、その原因は必ずどこかのログに痕跡を残しています。本セッションでは、こうした厄介な障害を解決に導き、より一歩クラスタを堅牢で信頼できるようにするための障害調査のためのログ分析のノウハウを紹介します。コンテナログだけでなく、kubeletのログやcontainerdのログ、kube-apiserverの監査ログまでを横断的に活用するために必要な特定の環境、ツールに依存しない背景知識を解説し、また我々のチームが普段の障害調査のために開発したトラブルシューティングのためのKubernetesのためのOSSのログビューアであるKubernetes History Inspector( https://github.com/GoogleCloudPlatform/khi ) を用いて実際の問題解決での役立て方を解説します。
Google Cloud Japan所属のテクニカル・ソリューションズ・エンジニア。
Google Cloudのお客様への技術サポートの一環として、GKEをはじめとするKubernetesクラスタ上の障害の原因究明の効率化のため、OSSのログビジュアライザKubernetes History Inspector(https://github.com/GoogleCloudPlatform/khi)を開発している。風が吹けば桶屋が儲かるような発生機序が複雑な障害の原因究明が大好き。