WHITEPLUS TechBlog

株式会社ホワイトプラスのエンジニアによる開発ブログです。

GKEの新機能と不具合情報まとめ 2024年7月

2024年7月にGKEのReleaseNoteに流れてきた情報から、新機能と変更内容、stableチャンネルに影響のありそうな不具合情報のみをまとめて紹介します。

7月は月末に大きなリリースがあり、Extended release channelという有料の延長サポートが使用可能になりました。有料ではありますが10ヶ月追加でマイナーバージョンを使用することができバージョンアップ対応の猶予ができます。標準のサポート期間でバージョンアップ対応を終えることがベストですが、何らかの事情によって間に合わないときに役立ちそうです。

新機能

7/31

GKE Standard clusterにExtended release channelが追加されました

Extended release channelを使用することでマイナーバージョンのサポート終了後に有料で延長サポートを受けることができ、セキュリティパッチを受け取ることができます。
Extended release channelはGKE 1.27以降で使用できます。

cloud.google.com

7/26

GKE 1.30.1-gke.115600以降でGPU node poolsを作成するときに gpu-driver-version を指定しなかった場合、GKEバージョンに対応したデフォルトのGPUドライバをインストールするようになります

GPUドライバを手動でインストールしたい場合は gpu-driver-version=disabled を指定する必要があります。

7/25

GKE 1.30.2-gke.1100以降でスパムログを削減するためにkubeletのログから _CMDLINE フィールドが削除されます

_CMDLINE の情報が必要な場合は以下の2つの方法でアクセスできます。

  1. NodeにSSHして ps aux | grep kubelet を実行します
  2. Cloud Loggingで以下のフィルタを適用します
resource.type="k8s_node"
log_name="projects/{PROJECT_ID}/logs/kubelet"
resource.labels.cluster_name="{CLUSTER_NAME}"
SEARCH("`FLAG:`")

7/16

Compute Engine Flexible CUDsはGKE AutopilotおよびCloud Run SKUを含むように拡張されました

これにより従来のGKE Autopilot CUDは2024年10月15日に販売終了となります。
それ以前に購入されたGKE Autopilot CUDはその期間中引き続き適用されます。

7/8

Ray Operator on GKEがRapidチャンネルで一般に利用可能になりました

Ray OperatorはRayアプリケーションの管理と拡張を可能にするGKEアドオンです。
RayはAI/MLとPythonアプリケーションをスケーリングするためのオープンソースの統合コンピュートフレームワークで、AI/ML用のコンピュートランタイムを複数のコンピュートノードに分散するための一連のライブラリを提供します。

7/3

GKE上の新しいノードにデータやコンテナイメージをプリロードできるようになりました

これによりワークロードのデプロイと自動スケーリングを高速化できます。

GKE Managed DCGM (NVIDIA Data Center GPU Manager) Metrics Packageがプレビュー利用ができるようになりました

GKE 1.30.1-gke.1204000以降のStandardおよびAutopilotクラスタで利用可能です。

GKE Managed DCGM exporterによって生成されたメトリクスがGoogle Cloud Managed Service for Prometheusによって収集されます。

修正

7/31

GKE Autopilotでephemeral storageの要求に関する問題が修正されました

1.28.6-gke.1317000以降でephemeral storageの要求の合計が10GiBを超える場合はワークロードが拒否されるようになります。
1.28.6-gke.1317000以前のバージョンで10GiBを超える要求をした場合、ワークロードは受け入れられていましたが10GiB以上使用するとワークロードが退去していました。

7/24

Anthos Service Meshが有効でGoogle Cloud Storage FUSE CSI driver volumesを使用するPodで発生していたスケジューリングの問題が修正されました

以下のようなエラーメッセージが表示されていました。

Pod "your-pod-name" is invalid: [spec.volumes[x].name: Duplicate value: "gke-gcsfuse-tmp", spec.initContainers[x].name: Duplicate value: "gke-gcsfuse-sidecar"]

GKE 1.29.4-gke.1542000以降で発生していて1.29.7-gke.1008000で修正されました。