Kubernetes環境で予期せぬ障害が発生した際、その根本原因調査(RCA)には高度で属人的な知識が要求されます。監査ログ、kubeletのログ、イベントなどを時系列で脳内に繋ぎ合わせる作業は、熟練のエンジニアでも多大な労力を消費します。
Google Cloudの技術サポートでは、Google Kubernetes Engineを主として多様な環境の障害調査を支援しています。多くの場合、「相談を受けて初めてそのクラスタを知る」という初見の状況から調査を開始します。
この認知負荷の高い状況でも誰でも熟練エンジニアの様に迅速なRCAを行うため、私たちはKubernetes上のRCAのためのログビューア「Kubernetes History Inspector(KHI)」を開発、OSSとして公開しました。本セッションでは、このツールが生まれた現場の必要性から、RCAにおけるリソースごとのログの時系列解析及びログ分析のためのPlatform Engineeringという概念を提唱しその背景技術や効果を紹介し、視聴者様の環境におけるログ解析に活用可能な新たな可能性を与える視点を提供します。
Google Cloud Japan LLC
Technical Solutions Engineer
Google Cloud Japan所属のテクニカル・ソリューションズ・エンジニア。
Google Cloudのお客様への技術サポートの一環として、GKEをはじめとするKubernetesクラスタ上の障害の原因究明の効率化のため、OSSのログビジュアライザKubernetes History Inspector(https://github.com/GoogleCloudPlatform/khi)を開発している。風が吹けば桶屋が儲かるような発生機序が複雑な障害の原因究明が大好き。