WHITEPLUS TechBlog

株式会社ホワイトプラスのエンジニアによる開発ブログです。

GKEの新機能と不具合情報まとめ 2024年8月

2024年8月にGKEのReleaseNoteに流れてきた情報から、新機能と変更内容、stableチャンネルに影響のありそうな不具合情報のみをまとめて紹介します。

8月はいくつか目立つリリースがあった月です。k8s 1.31に対応したことに加え、カスタムコンピューティングクラスの登場によってスケール時のノードの選択やワークロードの配置などがより詳細に制御できるようになりました。1つのクラスターで多数のワークロードを動かしている大規模な環境にとっては料金の節約や安定性向上など多数の恩恵がありそうですね。

新機能

8/27

addon-resizerが実行されているGKE Metrics Serverの更新がクラスタのコントロールプレーンで行えるようになります

以前はワーカーノードで行われていました。
1.30.3-gke.1451000以降で適用されます。

8/21

persistent diskのオプションとしてHyperdisk MLが利用可能になりました

GKE 1.30.2-gke.1394000以降のStandardクラスタとAutopilotクラスタで利用可能です。

Hyperdisk MLは多数の仮想マシンに高い集約スループットを同時に提供するため、大量のデータにアクセスする必要があるAI/MLワークロードを実行したい場合に最適な高性能ストレージソリューションです。

8/20

Kubernetes 1.31がRapid channelで利用可能になりました

Kubernetes 1.31の変更内容については公式のリリースノートを参照してください。

github.com

C4 machine familyが利用可能になりました

Standardクラスタでは1.29.2-gke.1521000以降で利用でき、Autopilotクラスタでは1.30.3-gke.1225000以降でワークロードのスケジューリング時にPerformance compute classを使用することで利用できます。
また、Cluster autoscalerとnode auto-provisioningは1.30.3-gke.1225000以降でサポートされます。

8/16

ノードプールはグローバルインスタンステンプレートの代わりにリージョナルインスタンステンプレートを使用するようになります

GKE 1.29.7-gke.1238000-1.30, 1.30.3-gke.1571000以降のバージョンから適用されます。

8/13

カスタムコンピューティングクラスが利用できるようになりました

カスタムコンピューティングクラスは1.30.3-gke.1451000以降で利用でき、コンピューティングクラスの優先順位付けやオートスケールの制御などワークロードに対して最適な構成を細かく宣言的に定義できます。

cloud.google.com

上記ドキュメントに例が多数記載されていますが、下記の設定でSpot VMが使用できないときは通常のVMを使うように設定できたりします。

spec:
  ...
  priorities:
  - machineFamily: n2
    spot: true
    minCores: 64
  - machineFamily: n2
    spot: true
  - machineFamily: n2
    spot: false

8/2

NVIDIA GPU OperatorがGKEのContainer-Optimized OSとUbuntuのNodeで利用できるようになりました

GKEマネージドGPUノードの代替として利用できます。
マルチクラウド構成を行う場合や既にNVIDIA GPU Operatorを使用している場合などでGKEを利用しやすくなりました。

8/1

GKE AutopilotでNCCL Fast Socketを有効にできるようになりました

NCCL Fast SocketはNVIDIA Collective Communication Library (NCCL)のパフォーマンスを向上させるために設計されたトランスポートレイヤープラグインです。
有効にするにはGKE Autopilotの1.30.2-gke.1023000以降を使用する必要があります。

GKE Autopilot 1.30.2-gke.1023000以降ではGoogle Virtual NIC (gVNIC)が自動的にインストールされるようになりました