How to Schedule Machine Learning Workloads Nicely In Kubernetes   シェア

(Day2) 09/09 15:00-15:40 - Track F

中級者   ML / GPGPU / HPC   アーカイブ視聴可

Kubernetesにおける機械学習(バッチ)ジョブのスケジューリングについては世界中で様々な取り組みがなされており、OSSも複数公開されています。Kubernetes本体においてもsig-schedulingにおいて、kube-scheduler(デフォルトスケジューラ)の柔軟性・拡張性を高めるべく開発が推進されています。本公演ではそうした取組やOSSを紹介すると共に、Kubernetesクラスタにおいて機械学習ジョブをうまくスケジューリングするために考慮すべきポイント、それらがどのように実現されるかを解説します。

大村 伸吾
株式会社Preferred Networks
Engineer

中堅SIer, Web系スタートアップを経て、 2018年1月より現職。Preferred Networksでエンジニアとして従事。分散システム 、コンテナ技術全般に興味がある。PFNでは深層学習向け大規模GPU Kuberntes クラスタのスケジューラの開発運用に携わっており、Kubernetes プロジェクト(sig-scheduling)へも積極的に参加している。