生成AI向け機械学習クラスタ構築のレシピ 北海道石狩編

Track C 2024/06/15 15:20-16:00

中級者   ML / HPC    

LLMを含む生成AIモデル学習の競争が激化しており、高い計算能力を持つクラスタを早く構築し使い勝手よく提供することがより重要になっています。生成AIのモデル学習向けにさらなる計算リソースを得るため、我々はさくらインターネット石狩データセンターのNVIDIA H100 GPUベアメタルサーバサービスを用いてKubernetesクラスタを構築しています。本発表ではこの新たな生成AI向け機械学習クラスタをどのように短期間で構築したのか、設計思想や構成から具体的なテクニックまで我々のこれまでのオンプレミス機械学習クラスタの構築と運用の経験を織りまぜながらお話しします。

Sho Shimizu
株式会社Preferred Networks
エンジニア

株式会社Preferred NetworksでAI/ML向けのKubernetesクラスタの開発と運用を行っています。AI/ML向けに高速な通信を実現するためのCNI pluginの設計、開発を行うなどコンテナネットワーキング領域を中心にその周辺領域を主に担当しています。前職ではSoftware Defined Networking (SDN) の研究開発をしていて、オープンソースSDNコントローラの開発にも携わっていました。