100万コンテナのKubernetesプラットフォームを5年間スケーラブルに運用するために乗り越えていること

Track A 2023/12/12 13:20-14:00

中級者   Operation / Monitoring / Logging    

LINEヤフーで稼働するKubernetes as a ServiceではGAから5年で100万を超えるコンテナが1200クラスタで稼働しており、日々成長しています。

20数名でメンバーを増やすことなくスケールさせるために遭遇した課題や乗り越え方、今後の取り組みを紹介します。

1. 導入したSREのプラクティス
2. 長年運用することで遭遇する課題や障害、その落とし穴
3. プラットフォームエンジニアリングも見据えたセルフサービス化

発表を通じてSREチームがスケールの壁を乗り越える一助になると幸いです

Tsuzuki Tsuchiya/ Daisuke Kobayashi
LINEヤフー株式会社
SRE/ SRE team manager

- 土谷 続季(Twitter _tsuzu_)
2022年にヤフー株式会社に新卒入社し、全社横断のKubernetes as a Serviceの開発、運用に従事しています。
自動化促進による運用改善とSREの実践を進めています。

- 小林 大輔(Twitter daiskob)

社内プライベートクラウド上でKubernetes as a Serviceを提供するSREチーム所属。

Kubernetesに関するo11yや、利用者の開発体験が向上するマネージドサービスの提供に従事しています。
カーネルやLinuxの仕組みに興味があります。

Splatoonとロードバイクが趣味で毎週走っています。