組織事情によりデータをS3とGCSの双方で保管しており、AWS上で大規模VLM学習を行う際、GCSからのデータ取得にかかるクラウド間転送コストが課題でした。数十TBのデータを繰り返し読み込むため、大きなコストが発生し研究者にとって大規模実験への心理的障壁にもなっていました。
これに対し、prefix不定かつデータ棚卸が必要な組織制約下での柔軟な解としてGCS互換APIを持つProxyを構築しました。研究者のコードは変更不要でリクエストはlocalhost上のProxyがS3キャッシュから返却します。キャッシュミス時のみGCSから取得するため、2回目以降のクラウド間転送は発生しません。各ノードで独立動作しマルチノード分散学習にも対応します。
結果、約$18,000の削減を実現しました。localhost+HTTPの構成により既存の認証フローをそのまま活かしTLS証明書管理も不要です。localhostプロセスとして運用し、現在はk8s Job基盤へサイドカー導入も進めています。
本講演では、技術詳細のみならず個別対応をO(N)からO(1)に変える仕組み化の設計思想についてもお話しします。
Sansan株式会社
MLOps/Platform Engineer
Sansan株式会社研究開発部に 2024年新卒入社し Architect Group にて Platform エンジニアとして従事。
EKS 上でのアプリケーション基盤運用やコスト効率・運用持続可能性を考慮したMLシステム設計を専門とする。
過去に研究者として約120ノード960GPU規模の分散学習の設計・実行を経験。