証拠は消さないで!Kubernetesのノード障害とフェールオーバーと原因調査

Kubernetesクラスターでノード障害が発生した場合、通常、障害ノードは削除されて切り替えが行われます。ノードの削除は、ノード上で動作するステートフルアプリケーションでデータ破壊が起こるのを避けるためのフェンシングの目的で行われますが、障害の原因究明の前にノードが削除されることで原因調査が難航するリスクがあります。このセッションでは、この問題を解決するために、MachineHealthCheckのExternal Remediation機能やfence_kdumpなどのフェンシング機能を用いた、フェールオーバーの時間の短縮と原因究明を両立する代替手段のアイディアを共有します。

Masaki Kimura/Keisuke Saito

登壇者プロフィール

Masaki Kimura/Keisuke Saito

日立製作所

技師/企画員

mkimuram/-


日立製作所に所属。Kubernetes関連のコミュニティ活動を実施し、過去にRaw Block Volume機能・CSI機能のGA昇格・CrossNamespaceVolumeDataSourceのAlpha昇格などに貢献。 日立製作所に所属。OpenShiftのマネージドサービスの提供に従事。サービスの信頼性・可用性の向上のためのマシン管理・スケーリングの改善に取り組んでいる。