近年、生成AIや大規模モデルの実運用において、推論基盤の設計とスケーラビリティ確保は最重要課題となっています。CyberAgentではオンプレミスのGPUとKubernetesを用いて機械学習基盤を社内向けに提供しており、LLMをはじめとした推論ワークロード向けのマネージドサービスも提供しています。
本セッションでは、弊社基盤におけるJob基盤と推論基盤のユースケースや運用方針の違いと設計指針、KServeを活用したLLMのデプロイ方法と、推論モデル特有のリクエスト頻度変動への対応やGPUクオータ管理の課題など、実際の運用で直面した課題とそのためのOSS活用を共有します。
OpenAI API互換やvLLM活用といったユーザー側の使いやすさから、GPUリソース効率化やオートスケーリングといった運用者視点まで、幅広く掘り下げます。
本セッションを通して、LLM推論基盤を自前で運用する上での課題やKubernetes活用について知っていただけたら幸いです。
関連テーマ: GPU/KServe/Knative/vLLM/KEDA/Kueue/プライベートクラウド