生成AI向け機械学習クラスタ構築のレシピ 北海道石狩編

Track C 2024/06/15 15:20-16:00

中級者   ML / HPC   アーカイブ視聴可  

LLMを含む生成AIモデル学習の競争が激化しており、高い計算能力を持つクラスタを早く構築し使い勝手よく提供することがより重要になっています。生成AIのモデル学習向けにさらなる計算リソースを得るため、我々はさくらインターネット石狩データセンターのNVIDIA H100 GPUベアメタルサーバサービスを用いてKubernetesクラスタを構築しています。本発表ではこの新たな生成AI向け機械学習クラスタをどのように短期間で構築したのか、設計思想や構成から具体的なテクニックまで我々のこれまでのオンプレミス機械学習クラスタの構築と運用の経験を織りまぜながらお話しします。

Sho Shimizu / Yuichiro Ueno
株式会社Preferred Networks
エンジニア

Sho Shimizu
株式会社Preferred NetworksでAI/ML向けのKubernetesクラスタの開発と運用を行っています。AI/ML向けに高速な通信を実現するためのCNI pluginの設計、開発を行うなどコンテナネットワーキング領域を中心にその周辺領域を主に担当しています。前職ではSoftware Defined Networking (SDN) の研究開発をしていて、オープンソースSDNコントローラの開発にも携わっていました。

Yuichiro Ueno
2021/04 に PFN に新卒で入社後、機械学習向け計算基盤を開発・運用しています。スーパーコンピュータを始めとした高性能計算、性能最適化、分散システムに興味があります。