Kubernetesのワーカーノードを自動修復するために必要だったこと

CyberAgentではプライベートクラウド上で多数のKubernetesクラスタが稼働しており、ノードの自動修復機能を実装することで運用コストを削減しました。本発表では、似たような自動修復を実現したいオンプレミスKubernetesの運用者にむけて、KubernetesにおけるノードのNotReadyの定義から、OverlayFSで実現した再起動でディスクの変更が揮発する仕組みまで紹介します。

Hiroki Kawahara

登壇者プロフィール

Hiroki Kawahara

株式会社サイバーエージェント

エンジニア

h-otter


CyberAgentのCIU(CyberAgent group Infrastructure Unit)に今年度新卒入社しました。主な業務内容は、プライベートKubernetes基盤であるAKEの開発と、機械学習基盤の開発です。学生時代はICTトラブルシューティングコンテストの運営をしたりしていました。夜は自宅ラックから聞こえるファンの音とともに寝ています。