WHITEPLUS TechBlog

株式会社ホワイトプラスのエンジニアによる開発ブログです。

GKEの新機能と不具合情報まとめ 2025年3月

2025年3月にGKEのReleaseNoteに流れてきた情報から、新機能と変更内容、stableチャンネルに影響のありそうな不具合情報のみをまとめて紹介します。

3月は大きなリリースや変更はなく小さな改善が主でした。HPAのdecisionsに関するログが見られるようになったのは有り難い改善です。また、k8sのJobSetに関するメトリクスも取得できるようになったので使用している場合はしっかりと監視していきたいですね。

新機能

3/28

GKE コンピュートクラス内のnodeSystemConfigフィールドを使用して、sysctlsやhuge pagesなどの特定のkubeletおよびLinuxカーネルパラメータをカスタマイズできるようになりました

1.32.1-gke.1729000以降が対象です。
また、priorityDefaultsフィールドを使用して、コンピュートクラス内の個々のルールで省略されているフィールドのデフォルト値を指定できるようになりました。

3/21

4つの新しいメトリクスを追加料金なしでエクスポートするようになりました

これらの新しいメトリクスは、GKE TPU NodePoolsとJobSetsを監視するためのものです。

  • kubernetes.io/node_pool/accelerator/times_to_recover
    • 回復期間の分布
    • NodePoolがダウンタイムから回復するための1回の回復操作を示しています
    • GKEマルチホストTPUノードプールにのみ適用されます
  • kubernetes.io/jobset/times_between_interruptions
    • ジョブセットの最後の割り込み終了から現在の割り込み開始までの時間の分布
    • 最後の割り込みと現在の割り込みの間の単一の時間を示しています
    • GPU/TPUを持つノードで実行され、単一の複製ジョブを持つジョブセットにのみ適用されます
  • kubernetes.io/jobset/times_to_recover
    • 回復期間の分布
    • JobSetがダウンタイムから回復するための1回の回復操作を示しています
    • GPU/TPUを持つノードで実行され、単一の複製ジョブを持つジョブセットにのみ適用されます
  • kubernetes.io/jobset/uptime
    • ジョブセットが利用可能な合計時間
    • GPU/TPUを持つノードで実行され、単一の複製ジョブを持つジョブセットにのみ適用されます

Autopilotクラスタは自動的に新しいパフォーマンスHPAプロファイルを使用するようになります

1.32.1-gke.1729000以降が対象です。
新しいプロファイルはgke-metrics-agent Daemonsetを介して自動スケーリングメトリクスをルーティングすることで、1,000個までの HorizontalPodAutoscalerオブジェクトのCPUメトリクスとメモリメトリクスをより高速に自動スケーリングできるようにします。
パフォーマンスHPAプロファイルを無効にすることで以前のオートスケーリングプロファイルに戻すことができます。

3/14

JobSetメトリクスが利用できるようになりました

1.32.1-gke.1357001以降の新しいGKE StandardとAutopilotクラスタで自動的に利用できます。
既存のクラスタではアップグレード後に手動で有効にする必要があります。

JobSetのメトリクスについては以下のドキュメントで詳しく解説されているので興味があれば読んでみてください。

cloud.google.com

3/7

Horizontal Pod Autoscalerのdecisionsのログを有効にできるようになりました

1.31.5-gke.1090000以降または1.32.1-gke.1260000以降で利用できます。

これらのログには個別のメトリクスに基づくアトミック勧告、連結されたHPAのdecisionsによる最終勧告が含まれます。
ログはCloud Loggingに保存されます。

Startup Latencyダッシュボードが利用できるようになりました

GKEコンソールのDeployment detailsとCluster detailsページのObservabilityタブで利用できます。
これによりKubernetesワークロードとノードのスタートアップレイテンシを監視できるようになりました。

このダッシュボードはGKEワークロードの起動レイテンシの追跡、トラブルシューティング、最適化に役立ちます。

変更、非推奨

3/21

外部ロードバランサーサービスはデフォルトでゾーンネットワークエンドポイントグループ(NEG)バックエンドを使用します

1.32.2-gke.1652000以降で作成したバックエンドサービスベースの外部LoadBalancerサービスにのみ適用されます。
既存のLoadBalancerサービスは影響を受けません。

不具合、セキュリティイシュー

3/18

Cloud Storage FUSE CSIドライバボリュームを使用するPodのスケジュールに失敗する問題が修正されました

1.32.2-gke.1182000から1.32.2-gke.1297000を実行しているクラスタで、hostNetworkがtrueかつCloud Storage FUSE CSIドライバのバージョンがv1.12.2より前の場合に問題が発生していました。

1.32.2-gke.1297001以降で修正されています。

先月までの新機能と不具合情報

先月までの内容は以下のリンク先で確認できます。

blog.wh-plus.co.jp