Kubernetesのワーカーノードを自動修復するために必要だったこと

Proposal (採択)

中級者   Operation / Monitoring / Logging    

CyberAgentではプライベートクラウド上で多数のKubernetesクラスタが稼働しており、ノードの自動修復機能を実装することで運用コストを削減しました。本発表では、似たような自動修復を実現したいオンプレミスKubernetesの運用者にむけて、KubernetesにおけるノードのNotReadyの定義から、OverlayFSで実現した再起動でディスクの変更が揮発する仕組みまで紹介します。

Hiroki Kawahara
株式会社サイバーエージェント
エンジニア

CyberAgentのCIU(CyberAgent Infrastructure Unit)に今年度新卒入社しました。主な業務内容は、プライベートKubernetes基盤であるAKEの開発と、機械学習基盤の開発です。学生時代はICTトラブルシューティングコンテストの運営をしたりしていました。夜は自宅ラックから聞こえるファンの音とともに寝ています。