2024年10月にGKEのReleaseNoteに流れてきた情報から、新機能と変更内容、stableチャンネルに影響のありそうな不具合情報のみをまとめて紹介します。
先月のリリースが少なかった影響か10月は多数のリリースが行われました。中でも GKE control plane authority
によってコントロールプレーンのaudit logを見ることができるようになったり、メトリクスが追加されたことにより観測できる範囲が増えたりと、安定運用に繋がる機能が強化されたことは嬉しく思います。
新機能
10/31
Cloud Tensor Processing Unit (TPU) v3のマシンタイプが利用可能になりました
GKE 1.31.1-gke.1146000以降が対象で、これらのTPU VMs (ct3-hightpu-4t and ct3p-hightpu-4t) はus-east1-d, europe-west4-a, us-central1-a, us-central1-b, us-central1-fで利用できます。
GKE control plane authorityが利用可能になりました
GKE 1.31.1-gke.1846000以降で利用でき、GKEコントロールプレーンの強化された可視性、セキュリティ制御、およびカスタマイズを提供します。
詳細は以下のドキュメントを参照してください。
10/30
GKE External LoadBalancer Servicesの重み付けロードバランシングがプレビューで利用可能になりました
重み付けロードバランシングは稼働しているPodの数に基づいてノードにトラフィックを分配する方法です。
10/29
ノードとワークロードの起動待ち時間を測定するための3つの新しいメトリクスが追加されました
kubernetes.io/node/latencies/startup
- GCEインスタンスのCreationTimestampから初めてKubernetesノードがReadyになるまでの総スタートアップレイテンシ
kubernetes.io/pod/latencies/pod_first_ready
- イメージのプルを含むPodのエンドツーエンドの起動レイテンシ(Pod CreatedからReadyまで)
- このメトリクスはGKE 1.31.1-gke.1678000以降で利用できます
kubernetes.io/autoscaler/latencies/per_hpa_recommendation_scale_latency_seconds
- HPAスケーリング推奨レイテンシ
- メトリクスが作成されてから対応するスケーリング推奨がAPIサーバーに適用されるまでの時間
- 以下のバージョン以降のクラスターで利用できます
- 1.30.4-gke.1348001
- 1.31.0-gke.1324000
- HPAスケーリング推奨レイテンシ
ノードプールのインスタンスグループマネージャはデフォルトで修復時の更新が有効になりました
これによりSpot VMのプリエンプト時にラベルが維持されるようになります。 GKE 1.30.5-gke.1523000, 1.31.1-gke.1869000以降で作成した場合に適用されます。
10/28
H100 80GB GPUがアタッチされたA3 Edge (a3-edgegpu-8g) がGKE Standardクラスタで利用可能になりました
10/17
NVIDIA H100 80GB GPUが小型マシンタイプで使用できるようになりました
以下のマシンタイプで使用できるようになります。
- a3-highgpu-1g (1 GPU)
- a3-highgpu-2g (2 GPUs)
- a3-highgpu-4g (4 GPUs)
これらのマシンタイプはDynamic Workload Scheduler Flex Start mode、Spot VMs in GKE Standard mode、Spot Pods in GKE Autopilot modeでも使用できます。
また、マシンタイプ a3-highgpu-8g, a3-megagpu-8g(8 GPU H100 80GB)は引き続きサポートされます。
GKE Gateway controller (2024-R2) が利用可能になりました
以下の新機能が利用できます
- ReferenceGrant
- 内部ゲートウェイのCloud Armor backend security policy
- マルチクラスターゲートウェイのRegion選択
- シングルクラスターゲートウェイのトラフィックベースオートスケーリング
GKEゲートウェイはGateway API v1.1.0に準拠しています。
GKEゲートウェイコントローラの詳細については以下のドキュメントを参照してください。
TPUスライスノードでノードにシャットダウンが迫っていることを警告するSIGTERMシグナルが利用可能になりました
GKE 1.29.1-gke.1425000以降で利用可能です。
シャットダウン通知は最大で5分まで設定できます。以下のドキュメントを参照し、この通知時間枠内でワークロードを終了するように設定する必要があります。
10/16
kube_pod_resource_request
メトリクスと kube_pod_resource_limit
メトリクスがscheduler metrics packageの一部としてエクスポートされます
GKE 1.31.1-gke.1621000以降が対象になります。
10/15
GKE Autopilotクラスターで複数のネットワークインターフェイスを持つワークロードを作成できるようになりました
以下のバージョンで利用可能です。
- 1.29.5-gke.1091000 and later
- 1.30.1-gke.1280000 and later
VPC Peeringベースのクラスタを新規作成する場合、kube-apiserverからノードへのトラフィックはKonnectivityサービスを経由します
1.27以降が対象になります。
既存のVPC PeeringベースのクラスタはKonnectivityサービスを使用するように徐々に移行します。
10/4
k8s 1.31で追加されたベータAPIはGKE 1.31.1-gke.1361000以降で利用できます
対象は以下のAPIです。
- networking.k8s.io/v1beta1/ipaddresses
- networking.k8s.io/v1beta1/servicecidrs
両方のAPIを同時に有効にするとGKEクラスタのMultiple Service CIDRsが有効になります。
ベータフェーズでは重複するIPアドレスの範囲で起こりうる問題を回避するために、予約IPアドレス範囲 34.118.224.0/20
でのみService CIDRを作成することができます。
Ray Operator on GKEは1.29 以降で利用できるようになりました
Ray Operator は、Ray アプリケーションの管理と拡張を可能にする GKE アドオンです。
詳細については、Ray Operator のドキュメントを参照してください。
10/1
Parallelstore CSIドライバをallowlisted general availability (GA)でサポートしました
Googleサポートチームに連絡することでGA条件でサービスを利用することができます。
ParallelstoreはAI/MLのトレーニングを高速化し、個々の計算クライアントを飽和させることに優れているため、高価な計算リソースを効率的に使用できます。
GPU, TPUノードでシャットダウンが事前に通知されるようになります
これによりGPU, TPUのワークロードを正常に終了されることができるようになります。 GKE 1.30.3-gke.1639000以降、1.31.0-gke.1058000以降で使用できます。
修正
10/31
Kubernetes issue #126578が修正されました
endpoint resourcesやkube-dnsが古いクラスターは影響を受けている可能性があります。
endpoint resourcesが不正なPod IPを持つ場合は影響を受けている可能性が非常に高いです。
以下のバージョンで修正されました。
- 1.28.14-gke.1115000
- 1.29.9-gke.1207000
- 1.30.5-gke.1171000
- 1.31.1-gke.1414000
10/15
1.30以降のGKE AutopilotクラスタでAppArmorプロファイルを設定するパートナーワークロードが拒否されることがある問題が修正されました
以下のパートナーワークロードが対象となっています。
- Prisma Defender
- Wiz Runtime Sensor
- Sentinel One Agent
- Checkpoint CloudGuard
- Aqua Security Enforcer and Splunk OTEL Collector
以下のバージョンで修正されています。
- 1.30.5-gke.1355000 and later
- 1.31.1-gke.1621000 and later
先月までの新機能と不具合情報
先月までの内容は以下のリンク先で確認できます。