データ処理・対話クエリ・管理ジョブが同居する「なんでも来い」クラスタは、見える化と合意されたSLOがなければ渋滞します。
本セッションではApache YuniKornの階層キュー(重み/上限/プリエンプション)とギャングスケジューリングで混在ワークロードを公平に回す設計と運用を紹介。
Prometheus/Grafanaでのダッシュボード設計(単位・軸・変数)と、SLO逸脱時の是正フローまで具体例で示します。
どんな人向け?
- 1クラスタを複数チームで安全に共有したいプラットフォーム/SRE
- 「職人芸」から合意と再現性で回す運用へ切り替えたい人
キーワード
YuniKorn / SLO / Kubernetes / Prometheus / Grafana / Queue Design / Multi‑tenant
インターネット広告のインフラチームで、7年弱、オンプレ・クラウドを問わずデータ基盤のインフラ開発・管理に携わってきました。
2025年8月より、インターネットインフラサービスを提供する企業で ソフトウェア開発エンジニアとして勤務しています。
プライベートでは、以下のコミュニティーのオーガナイザーとして活動しています。
Rancher JP :https://rancherjp.connpass.com/
Cloud Native JP : https://cnjp.connpass.com/
Open Table Format Study Group Tokyo : https://otfsg.vercel.app/
※今回の話は所属会社での話ではなく、これまでの経験を元にしたものです