How to Schedule Machine Learning Workloads Nicely In Kubernetes

Kubernetesにおける機械学習(バッチ)ジョブのスケジューリングについては世界中で様々な取り組みがなされており、OSSも複数公開されています。Kubernetes本体においてもsig-schedulingにおいて、kube-scheduler(デフォルトスケジューラ)の柔軟性・拡張性を高めるべく開発が推進されています。本公演ではそうした取組やOSSを紹介すると共に、Kubernetesクラスタにおいて機械学習ジョブをうまくスケジューリングするために考慮すべきポイント、それらがどのように実現されるかを解説します。

大村 伸吾

登壇者プロフィール

大村 伸吾

株式会社Preferred Networks

Engineer

everpeace

everpeace


中堅SIer, Web系スタートアップを経て、 2018年1月より現職。Preferred Networksでエンジニアとして従事。分散システム 、コンテナ技術全般に興味がある。PFNでは深層学習向け大規模GPU Kuberntes クラスタのスケジューラの開発運用に携わっており、Kubernetes プロジェクト(sig-scheduling)へも積極的に参加している。