100万コンテナのKubernetesプラットフォームを5年間スケーラブルに運用するために乗り越えていること

LINEヤフーで稼働するKubernetes as a ServiceではGAから5年で100万を超えるコンテナが1200クラスタで稼働しており、日々成長しています。 20数名でメンバーを増やすことなくスケールさせるために遭遇した課題や乗り越え方、今後の取り組みを紹介します。 1. 導入したSREのプラクティス 2. 長年運用することで遭遇する課題や障害、その落とし穴 3. プラットフォームエンジニアリングも見据えたセルフサービス化 発表を通じてSREチームがスケールの壁を乗り越える一助になると幸いです

Tsuzuki Tsuchiya/ Daisuke Kobayashi

登壇者プロフィール

Tsuzuki Tsuchiya/ Daisuke Kobayashi

LINEヤフー株式会社

SRE/ SRE team manager

daiskob

daiskoba


- 土谷 続季(Twitter _tsuzu_) 2022年にヤフー株式会社に新卒入社し、全社横断のKubernetes as a Serviceの開発、運用に従事しています。 自動化促進による運用改善とSREの実践を進めています。 - 小林 大輔(Twitter daiskob) 社内プライベートクラウド上でKubernetes as a Serviceを提供するSREチーム所属。 Kubernetesに関するo11yや、利用者の開発体験が向上するマネージドサービスの提供に従事しています。 カーネルやLinuxの仕組みに興味があります。 Splatoonとロードバイクが趣味で毎週走っています。