PFNでは2024年6月に生成AI向け機械学習クラスタを構築し、その成果をCNDS 2024で共有しました。利用され始めると広帯域ロスレスネットワークで期待したパフォーマンスが得られない等の問題が発生しました。直近のクラスタ利用の成果として10億パラメータの小型モデルである"PLaMo Lite"を発表しました。日本語性能を評価する各種ベンチマークにおいて、同程度のパラメータ数のモデルと比べて圧倒的に高い性能を示しています。また今後30億パラメータのモデル開発を計画しています。
本発表ではクラスタ運用の視点から「生成AI向けクラスタ構築後に発生したトラブルと解決策」、利用の視点から「Kubernetesでの生成AIモデルの学習ノウハウ」を共有します。
株式会社Preferred Elementsにて大規模基盤モデルの開発に関わっています。主にストレージ、データセット、チェックポインティングなどの学習で使用する各機能の開発、データセット前処理環境の構築と運用を担当しています。前職まではHigh Performance Computing (HPC) 分野のエンジニアとして科学計算ソフトウェアの高速化や最適化を行っていました。