WHITEPLUS TechBlog

株式会社ホワイトプラスのエンジニアによる開発ブログです。

GKEの新機能と不具合情報まとめ 2024年10月

2024年10月にGKEのReleaseNoteに流れてきた情報から、新機能と変更内容、stableチャンネルに影響のありそうな不具合情報のみをまとめて紹介します。

先月のリリースが少なかった影響か10月は多数のリリースが行われました。中でも GKE control plane authority によってコントロールプレーンのaudit logを見ることができるようになったり、メトリクスが追加されたことにより観測できる範囲が増えたりと、安定運用に繋がる機能が強化されたことは嬉しく思います。

新機能

10/31

Cloud Tensor Processing Unit (TPU) v3のマシンタイプが利用可能になりました

GKE 1.31.1-gke.1146000以降が対象で、これらのTPU VMs (ct3-hightpu-4t and ct3p-hightpu-4t) はus-east1-d, europe-west4-a, us-central1-a, us-central1-b, us-central1-fで利用できます。

GKE control plane authorityが利用可能になりました

GKE 1.31.1-gke.1846000以降で利用でき、GKEコントロールプレーンの強化された可視性、セキュリティ制御、およびカスタマイズを提供します。
詳細は以下のドキュメントを参照してください。

cloud.google.com

10/30

GKE External LoadBalancer Servicesの重み付けロードバランシングがプレビューで利用可能になりました

重み付けロードバランシングは稼働しているPodの数に基づいてノードにトラフィックを分配する方法です。

10/29

ノードとワークロードの起動待ち時間を測定するための3つの新しいメトリクスが追加されました

  • kubernetes.io/node/latencies/startup
    • GCEインスタンスのCreationTimestampから初めてKubernetesノードがReadyになるまでの総スタートアップレイテンシ
  • kubernetes.io/pod/latencies/pod_first_ready
    • イメージのプルを含むPodのエンドツーエンドの起動レイテンシ(Pod CreatedからReadyまで)
    • このメトリクスはGKE 1.31.1-gke.1678000以降で利用できます
  • kubernetes.io/autoscaler/latencies/per_hpa_recommendation_scale_latency_seconds
    • HPAスケーリング推奨レイテンシ
      • メトリクスが作成されてから対応するスケーリング推奨がAPIサーバーに適用されるまでの時間
    • 以下のバージョン以降のクラスターで利用できます
      • 1.30.4-gke.1348001
      • 1.31.0-gke.1324000

ノードプールのインスタンスグループマネージャはデフォルトで修復時の更新が有効になりました

これによりSpot VMのプリエンプト時にラベルが維持されるようになります。 GKE 1.30.5-gke.1523000, 1.31.1-gke.1869000以降で作成した場合に適用されます。

10/28

H100 80GB GPUがアタッチされたA3 Edge (a3-edgegpu-8g) がGKE Standardクラスタで利用可能になりました

10/17

NVIDIA H100 80GB GPUが小型マシンタイプで使用できるようになりました

以下のマシンタイプで使用できるようになります。

  • a3-highgpu-1g (1 GPU)
  • a3-highgpu-2g (2 GPUs)
  • a3-highgpu-4g (4 GPUs)

これらのマシンタイプはDynamic Workload Scheduler Flex Start mode、Spot VMs in GKE Standard mode、Spot Pods in GKE Autopilot modeでも使用できます。
また、マシンタイプ a3-highgpu-8g, a3-megagpu-8g(8 GPU H100 80GB)は引き続きサポートされます。

GKE Gateway controller (2024-R2) が利用可能になりました

以下の新機能が利用できます

  • ReferenceGrant
  • 内部ゲートウェイのCloud Armor backend security policy
  • マルチクラスターゲートウェイのRegion選択
  • シングルクラスターゲートウェイのトラフィックベースオートスケーリング

GKEゲートウェイはGateway API v1.1.0に準拠しています。

GKEゲートウェイコントローラの詳細については以下のドキュメントを参照してください。

cloud.google.com

TPUスライスノードでノードにシャットダウンが迫っていることを警告するSIGTERMシグナルが利用可能になりました

GKE 1.29.1-gke.1425000以降で利用可能です。

シャットダウン通知は最大で5分まで設定できます。以下のドキュメントを参照し、この通知時間枠内でワークロードを終了するように設定する必要があります。

cloud.google.com

10/16

kube_pod_resource_request メトリクスと kube_pod_resource_limit メトリクスがscheduler metrics packageの一部としてエクスポートされます

GKE 1.31.1-gke.1621000以降が対象になります。

10/15

GKE Autopilotクラスターで複数のネットワークインターフェイスを持つワークロードを作成できるようになりました

以下のバージョンで利用可能です。

  • 1.29.5-gke.1091000 and later
  • 1.30.1-gke.1280000 and later

VPC Peeringベースのクラスタを新規作成する場合、kube-apiserverからノードへのトラフィックはKonnectivityサービスを経由します

1.27以降が対象になります。
既存のVPC PeeringベースのクラスタはKonnectivityサービスを使用するように徐々に移行します。

10/4

k8s 1.31で追加されたベータAPIはGKE 1.31.1-gke.1361000以降で利用できます

対象は以下のAPIです。

  • networking.k8s.io/v1beta1/ipaddresses
  • networking.k8s.io/v1beta1/servicecidrs

両方のAPIを同時に有効にするとGKEクラスタのMultiple Service CIDRsが有効になります。
ベータフェーズでは重複するIPアドレスの範囲で起こりうる問題を回避するために、予約IPアドレス範囲 34.118.224.0/20 でのみService CIDRを作成することができます。

Ray Operator on GKEは1.29 以降で利用できるようになりました

Ray Operator は、Ray アプリケーションの管理と拡張を可能にする GKE アドオンです。
詳細については、Ray Operator のドキュメントを参照してください。

10/1

Parallelstore CSIドライバをallowlisted general availability (GA)でサポートしました

Googleサポートチームに連絡することでGA条件でサービスを利用することができます。
ParallelstoreはAI/MLのトレーニングを高速化し、個々の計算クライアントを飽和させることに優れているため、高価な計算リソースを効率的に使用できます。

GPU, TPUノードでシャットダウンが事前に通知されるようになります

これによりGPU, TPUのワークロードを正常に終了されることができるようになります。 GKE 1.30.3-gke.1639000以降、1.31.0-gke.1058000以降で使用できます。

修正

10/31

Kubernetes issue #126578が修正されました

endpoint resourcesやkube-dnsが古いクラスターは影響を受けている可能性があります。 endpoint resourcesが不正なPod IPを持つ場合は影響を受けている可能性が非常に高いです。
以下のバージョンで修正されました。

  • 1.28.14-gke.1115000
  • 1.29.9-gke.1207000
  • 1.30.5-gke.1171000
  • 1.31.1-gke.1414000

10/15

1.30以降のGKE AutopilotクラスタでAppArmorプロファイルを設定するパートナーワークロードが拒否されることがある問題が修正されました

以下のパートナーワークロードが対象となっています。

  • Prisma Defender
  • Wiz Runtime Sensor
  • Sentinel One Agent
  • Checkpoint CloudGuard
  • Aqua Security Enforcer and Splunk OTEL Collector

以下のバージョンで修正されています。

  • 1.30.5-gke.1355000 and later
  • 1.31.1-gke.1621000 and later

先月までの新機能と不具合情報

先月までの内容は以下のリンク先で確認できます。

blog.wh-plus.co.jp