Kubernetesクラスタにおける生成AIモデル学習のノウハウ

Proposal: (不採択)

中級者   ML / HPC

PFNでは2024年6月に生成AI向け機械学習クラスタを構築し、その成果をCNDS 2024で共有しました。利用され始めると広帯域ロスレスネットワークで期待したパフォーマンスが得られない等の問題が発生しました。直近のクラスタ利用の成果として10億パラメータの小型モデルである"PLaMo Lite"を発表しました。日本語性能を評価する各種ベンチマークにおいて、同程度のパラメータ数のモデルと比べて圧倒的に高い性能を示しています。また今後30億パラメータのモデル開発を計画しています。
本発表ではクラスタ運用の視点から「生成AI向けクラスタ構築後に発生したトラブルと解決策」、利用の視点から「Kubernetesでの生成AIモデルの学習ノウハウ」を共有します。

Sho Shimizu
株式会社Preferred Networks
エンジニア

株式会社Preferred NetworksでAI/ML向けのKubernetesクラスタの開発と運用を行っています。AI/ML向けに高速な通信を実現するためのCNI pluginの設計、開発を行うなどコンテナネットワーキング領域を中心にその周辺領域を主に担当しています。前職ではSoftware Defined Networking (SDN) の研究開発をしていて、オープンソースSDNコントローラの開発にも携わっていました。

Yuta Hirokawa
株式会社Preferred Elements
エンジニア

株式会社Preferred Elementsにて大規模基盤モデルの開発に関わっています。主にストレージ、データセット、チェックポインティングなどの学習で使用する各機能の開発、データセット前処理環境の構築と運用を担当しています。前職まではHigh Performance Computing (HPC) 分野のエンジニアとして科学計算ソフトウェアの高速化や最適化を行っていました。