YuniKorn×SLOで作る“ともにスケール”な共有クラスタ運用

Proposal: (エントリー済み)

中級者   Operation / Monitoring / Logging

データ処理・対話クエリ・管理ジョブが同居する「なんでも来い」クラスタは、見える化と合意されたSLOがなければ渋滞します。

本セッションではApache YuniKornの階層キュー(重み/上限/プリエンプション)とギャングスケジューリングで混在ワークロードを公平に回す設計と運用を紹介。

Prometheus/Grafanaでのダッシュボード設計(単位・軸・変数)と、SLO逸脱時の是正フローまで具体例で示します。

どんな人向け?
- 1クラスタを複数チームで安全に共有したいプラットフォーム/SRE
- 「職人芸」から合意と再現性で回す運用へ切り替えたい人

キーワード
YuniKorn / SLO / Kubernetes / Prometheus / Grafana / Queue Design / Multi‑tenant

Yasukazu Nagatomi
さくらインターネット株式会社
ソフトウェア開発エンジニア

インターネット広告のインフラチームで、7年弱、オンプレ・クラウドを問わずデータ基盤のインフラ開発・管理に携わってきました。
2025年8月より、インターネットインフラサービスを提供する企業で ソフトウェア開発エンジニアとして勤務しています。

プライベートでは、以下のコミュニティーのオーガナイザーとして活動しています。
Rancher JP :https://rancherjp.connpass.com/
Cloud Native JP : https://cnjp.connpass.com/
Open Table Format Study Group Tokyo : https://otfsg.vercel.app/

※今回の話は所属会社での話ではなく、これまでの経験を元にしたものです