OSSを駆使したパブリックGPUクラウドの実装と実態

OSSを駆使したパブリックGPUクラウドの実装と実態 Tweet

Proposal: (不採択)

中級者 ML / HPC

FPTではベトナムでNVIDIA GPUを使ったパブリッククラウドも提供しています。さらに今年の4月に日本でもリージョンを立ち上げ、NVIDIA H200のクラウドサービスを開始します。これらのクラウドはOpenStack・KubernetesをはじめとしたCloud Native OSSのコミュニティ版を駆使して構築されています。
OpenStackの話もしたいところですが、本セッションではGPUクラウドにフォーカスを当てます。ベアメタル・VM・コンテナのそれぞれでのGPU割り当ての実装、学習や推論といったワークロードの性能・電力の最適化などのチューニングや運用でのトラブルなどをお話します。また年々新しいGPUがリリースされる中、AIアプリやLLMの開発側としてどう対応するべきか、プラットフォームエンジニアとして今後どのような技術と経験をしていくべきかを私自身のキャリアを振り返りつつ考察します。オンプレGPU基盤を構築運用する方だけでなく、エンジニアの方々にとって有益なセッションにしようと思っています。

Takashi Torii

FPT Japan

シニアマネージャー

NECで通信装置の開発からキャリアをスタート。研究所で分散システムをやっている2010年ごろにOpenStackと出会い、社内でOpenStackコミュニティチームを作りグローバルでコントリビューションTop10入りを果たす。また日本でのユーザー会立上げやイベントに尽力し、2015年のOpenStack Summit Tokyoを誘致。その後DellEMC・デロイトでクラウド領域のコンサルタントとして様々な業界でのクラウドシステムについて構想策定から設計実装まで関わる。今年からFPT Japanに移り、AI事業の立ち上げに従事。