Kubernetes で実現する最先端 AI プラットフォームへの挑戦
サイバーエージェントでは国内で初めて NVIDIA DGX H100 を導入し、LLM を含む大規模 AI 開発向けの機械学習基盤の構築を行いました。 ここ数年で機械学習に要求される計算リソースは飛躍的に増加しており、この急速な変化に対応するために Kubernetes と高速なインターコネクトネットワーク (400GbE x8) や OpenMPI などの HPC 技術を組み合わせたアーキテクチャを採用しています。 本セッションでは、近年の機械学習トレンドが基盤に求める要件と、その要件をハードウェア・ソフトウェアの両面でどのように満たしているのかについてお話いたします。
Mizuki Urushida
登壇者プロフィール
Mizuki Urushida
株式会社サイバーエージェント
ソフトウェアエンジニア
サイバーエージェントに 2018 年新卒入社。グループ IT 推進本部 CIU 所属。入社当初はプライベートクラウドの開発・運用を経験。現在はそのクラウドを生かした社内サービスとして Kubernetes + Kubeflow を用いた機械学習基盤、Kubernetes のマネージドサービスの開発に従事。また、2021 年から開発と並行して機械学習基盤のプロダクトオーナーも務める。