PFNでは生成AIなどの研究開発をオンプレミスKubernetesクラスタでおこなっています。スムーズに研究開発を進められるよう、CUDAやPyTorchなどが全部入りの28GBを超える開発用コンテナイメージを使うことが多く、巨大なイメージを開発者体験を損なうことなく低コストに運用する技術が必要です。本セッションでは、4年間のオンプレミス機械学習クラスタ運用で培ったPFNのコンテナイメージ運用ノウハウを紹介します。
- ハイブリッドクラウドに対応した効率的なオンプレミスキャッシュ基盤
- セキュリティを確保しつつユーザの認知負荷を下げるイメージレジストリ認証・認可基盤
- Dockerfileの変更を必要としない、巨大なコンテナイメージのサイズ削減