単一Kubernetesクラスタで実現する AI/ML 向けクラウドサービス

Proposal: (エントリー済み)

上級者   Security

PFNでは、AI/MLワークロード向けのクラウドサービスである「Preferred Computing Platform (PFCP)」をマルチテナントKubernetes基盤として提供しています。これらのワークロードで用いられるMN-CoreやGPUは貴重な計算リソースであるため、それらを無駄なく・効率よく利用することが重要です。クラスタをテナントごとに構築する場合は、個々のクラスタのリソースの空きを他テナントに融通しづらく、計算リソースの利用効率が低下します。PFCPは全テナントが同一のマルチテナント基盤を利用することでこの課題を解決し、より高い利用効率を実現します。一方で、同一の基盤上でテナントを安全かつ公平に収容する様々な仕組みが求められます。

本セッションでは、このようなマルチテナント基盤で重要となる、Kubernetes APIレベルでの権限分離とその強制、同一ホスト上でのプロセス・データの分離、同一ネットワーク内での通信分離等のアイソレーション技術、限られた計算リソースの公平制御、および課金システムについて、その実現のための技術と設計思想について説明します

Toru Komatsu
株式会社Preferred Networks
エンジニア

株式会社 Preferred Networks で巨大な ML/DL ワークロードを支える Kubernetes クラスタをいいかんじにする仕事をしてます。OSS活動も行っており、containers/youki の作者、containerd/runwasi と opencontainers/runtime-spec のメンテナ、 Kubernetes の SIG-Scheduling のメンバーです。