エントリー済み

MLOps現場の3つの壁:データ・モデル・運用で直面した失敗と再現可能な突破口

全て - Any Cloud Native SRE

「データのサイロ化が原因でモデル開発が遅延した」「今の組織規模に適した実験管理ツールの選び方がわからない」「MLOpsに必要な観測対象や再学習のトリガーをどのように構築すればいいかわからない」—— これらの悩みはMLOpsの現場からよく聞かれます。

MLOpsが導入されていない組織では、データに限らずモデル開発に関する一連の作業はサイロ化しやすいです。サイロ化はエンジニア間の実験結果の共有難易度を高めるとともに、どのモデルをデプロイするかという意思決定のハードルを大きく高めてしまいます。また、適切な実験管理ができていないと、データドリフトをはじめとするMLOpsにおけるオブザーバビリティの実装ができません。そして、オブザーバビリティが適切に実装されていない場合、クラウドインフラのコストが余分にかかってしまい、運用を続けることができなくなってしまいます。

本講演では、データ、モデル開発、運用の3つを軸に、クラウドインフラでMLOpsを構築し、常に変化する環境に適応したモデルを提供し続ける手法を共有します。

Speaker

Daisuke Akagawa

株式会社スリーシェイク

MLエンジニア

Pythonを用いた画像処理・機械学習・AIシステムの開発を専門とし、7年以上の実務経験を持つ。流体解析AIのリードエンジニアとして、モデル開発からインフラ構築・CI/CD整備まで一貫して担当した経験を持つほか、生成AI(大規模言語モデル・拡散モデル)の開発・運用にも従事。直近ではMLOpsの導入支援やAIエージェント開発にも取り組んでいる。

モデルを作るだけでなく、それを「使えるプロダクト」にするところまで――バックエンド(FastAPI)やフロントエンド(React)、クラウド基盤(Google Cloud / AWS)まで幅広くカバーし、利用者目線のシステム構築を大切にしている。