28GB超の巨大コンテナイメージをセキュアかつ爆速で起動するための基盤構築・運用の秘訣

Proposal: (エントリー済み)

中級者   Hybrid Cloud / Multi Cloud

PFNでは生成AIなどの研究開発をオンプレミスKubernetesクラスタでおこなっています。スムーズに研究開発を進められるよう、CUDAやPyTorchなどが全部入りの28GBを超える開発用コンテナイメージを使うことが多く、巨大なイメージを開発者体験を損なうことなく低コストに運用する技術が必要です。本セッションでは、4年間のオンプレミス機械学習クラスタ運用で培ったPFNのコンテナイメージ運用ノウハウを紹介します。

- ハイブリッドクラウドに対応した効率的なオンプレミスキャッシュ基盤
- セキュリティを確保しつつユーザの認知負荷を下げるイメージレジストリ認証・認可基盤
- Dockerfileの変更を必要としない、巨大なコンテナイメージのサイズ削減

Hidehito Yabuuchi
株式会社Preferred Networks
エンジニア

社内向けの機械学習プラットフォームと社外向けのクラウドサービス双方の開発・運用に携わる。
とくに Kubernetes スケジューラ、コンテナイメージレジストリ、CI/CD プラットフォームなどを主に担当。