WHITEPLUS TechBlog

株式会社ホワイトプラスのエンジニアによる開発ブログです。

GKEの新機能と不具合情報まとめ 2025年2月

2025年2月にGKEのReleaseNoteに流れてきた情報から、新機能と変更内容、stableチャンネルに影響のありそうな不具合情報のみをまとめて紹介します。

2月はメトリクスや推奨、クラスタ通知といった運用面で便利になる新機能が追加されました。より安定した運用ができるようになるため有り難い改善ですね。また、Identity Service for GKEが非推奨になったりwhenUnsatisfiableのデフォルト値が変更になったりもしているため影響がないか確認する必要があります。

新機能

2/28

新しい推奨NODE_SA_MISSING_PERMISSIONSがGKE Recommendationsのポートフォリオに追加されました

この新しい推奨を使用して通常のクラスタ運用に重要なIAMパーミッションが欠落しているサービスアカウントを持つクラスタを特定できます。

組織がデフォルトのサービスアカウントへの自動ロール付与を無効にしている場合、作成されたデフォルトのGKEノードのサービスアカウントは必要なパーミッションを取得できません。重要なパーミッションが欠落しているとロギングやモニタリングなどの重要な指標が取得できず、クラスタの運用が難しくなる可能性があります。

2/27

GKE Autopilotパートナープログラムでパートナーが特定のパートナーのワークロードに対応する許可リストを作成および管理できるようになりました

GKE 1.32.1-gke.1729000以降で利用できます。

2/25

ノードとノードプールの状態をチェックするための3つの新しいメトリクスが追加されました

  • kubernetes.io/node/status_condition
    • node status condition fieldの状態
    • ノードコントローラが最後のnode-monitor-grace-period期間内にノードから応答しなかった場合ReadyフィールドのステータスはUnknownになります
    • GKE 1.32.1-gke.1260000以降で利用可能です
  • kubernetes.io/node_pool/multi_host/available
    • マルチホストNodePoolの可用性
    • ノードプール内のすべてのノードが利用可能な場合に値はTrueに、いずれかのノードが利用できない場合にFalseになります
    • このメトリクスはマルチホストTPUノードプールでのみ利用可能です
  • kubernetes.io/node_pool/status
    • ノードプールの現在のステータス
    • ステータスの更新はGKE APIの操作完了後に行われます
    • このメトリクスはマルチホストTPUノードプールでのみ利用可能です

2/20

GKE Managed NVIDIA Data Center GPU Manager (DCGM) Metrics PackageはGAになりました

GKE 1.32.0-gke.1764000以降を実行しているStandardおよびAutopilotクラスタの両方で利用可能です。
GKE 1.32.1-gke.1357000 以降でGKE Managed NVIDIA DCGMは新しいクラスタでデフォルトオンとなります。

GKE Managed DCGMはNVIDIA GPUの使用率、パフォーマンス、および健全性を監視するためのメトリックスセットを提供します。
これらのメトリクスはGoogle Cloud Managed Service for Prometheusによって収集され、Kubernetes ClustersページのObservabilityタブまたはCloud Monitoringでメトリクスチャートを表示できます。

GKE は以下のリソースラベルをノードプールに自動的に追加します

  • goog-gke-accelerator-type
    • ノードプールで使用されるアクセラレータタイプ
  • goog-gke-tpu-node-pool-type
    • TPUノードプールタイプ
    • single-host、multi-host
  • goog-gke-node-pool-provisioning-model
    • ノードプールのプロビジョニングモデル
    • on demand、by reservation、Spot VMs

2/6

GKE External LoadBalancer Services の重み付けロードバランシングがGAになりました

GKE 1.31.0-gke.1506000以降で利用可能です。

重み付けロードバランシングは稼働しているPodの数によってNodeにトラフィックを分配する方法です。
詳細は重み付けロードバランシングを参照してください。

2/4

GKEクラスタ通知に以下の新機能が追加されました

GKEが送信するさまざまなタイプのクラスタ通知とその受信方法の詳細についてはクラスタ通知を参照してください。

2/3

2025年2月3日からGKEはワーカーノード上で実行されるシステムワークロードが使用する service-{PROJECT_ NUMBER}@gcp-sa-gkenode.iam.gserviceaccount.com という新しいサービスエージェントを作成します

このサービスエージェントはデフォルトでGKEがこれらのノードを操作するために必要な最小限の権限のみを持ち、GKEが管理するワークロードとお客様のワークロードを分離するのに役立ちます。
GKEが管理するシステムのワークロードは今後のGKEバージョンでこのサービスエージェントの使用を開始します。

変更、非推奨

2/21

GKE 1.33以降では新しいGKE compute class specificationでwhenUnsatisfiableフィールドを省略した場合デフォルト値はDoNotScaleUpになります

GKE 1.33より前ではデフォルト値はScaleUpAnywayです。このフィールドを省略した既存のcompute classはクラスタをバージョン1.33以降にアップグレードしてもデフォルト値として引き続きScaleUpAnywayを使用します。
whenUnsatisfiableフィールドの詳細については優先度ルールが適用されない場合のスケーリング動作の定義を参照してください。

2/20

GKE 1.27.16-gke.2440000以降の新しいGKE 1.27パッチバージョンはCOS 109でビルドされます

GKEはCOS 105を使用するパッチバージョンからCOS 109を使用するパッチバージョンにノードを自動アップグレードしません。
手動でノードを1.27.16-gke.2440000以降にアップグレードした場合、GKEは通常どおりノードの自動アップグレードを継続します。
コントロールプレーンのアップグレードは影響を受けず、拡張サポートの終了に向けた次のマイナーバージョンへのクラスタの自動アップグレードは通常どおり続行されます。
詳細は延長サポート期間中のContainer-Optimized OSのアップデートを参照してください。

2/19

2025年7月1日以降新しい組織はIdentity Service for GKEでクラスタを作成できなくなります。

既存の組織では引き続きIdentity Service for GKEを使用できますが、Workforce Identity Federationに移行することをお勧めします。

Workforce Identity Federationは外部IDプロバイダからGKEクラスタへのアクセスを構成するために推奨される方法です。Google Cloud製品全体で外部IdPを管理するための単一のホスト型ソリューションを提供します。
Identity Service for GKEとは異なりWorkforce Identity Federationはクラスタにコンポーネントをインストールしません。

不具合、セキュリティイシュー

2/4

イメージストリーミング機能のバグにより、ワークロードがコンテナイメージデータにアクセスしたとき特定のシナリオで認証関連のエラーが発生しました

以下のバージョンで修正されています。

  • 1.32.0-gke.1448000 and above.
  • 1.31.4-gke.1183000 and above.
  • 1.30.8-gke.1261000 and above.

Google Secret Manager Provider for Secret Store CSI Driverにセキュリティの脆弱性が発見されました

この脆弱性により攻撃者がCSIドライバのKubernetesサービスアカウントトークンにアクセスできる可能性があります。
詳細はGCP-2025-006 セキュリティ情報を参照してください。

先月までの新機能と不具合情報

先月までの内容は以下のリンク先で確認できます。

blog.wh-plus.co.jp