2024年4月にGKEのReleaseNoteに流れてきた情報から、新機能と変更内容、stableチャンネルに影響のありそうな不具合情報のみをまとめて紹介します。
新機能
4/30
containerd設定ファイルを使用して証明書を使用したprivate image registriesへのアクセス設定ができるようになりました
GKE AutopilotのAcceleratorコンピュートクラスで1 つのノードに複数のGPUポッドがスケジューリングできるようになりました
GKE 1.29.2-gke.1355000以降で使用できます。
同じノードに複数の GPU ポッドをスケジューリングするにはノードセレクタ gke-accelerator-count
にPodのGPU requestよりも大きい値を指定する必要があることに注意してください。
GKE上でRAG(Retrieval Augmented Generation)アプリケーションを開発・展開するためのQuick Start SolutionとReference Architectureが利用可能になりました
これによりGKE上でRetrieval Augmented Generation (RAG) アプリケーションを展開できるようになります。
RAGは大規模言語モデル(LLM)の応答精度を高めるための一般的なアプローチで、ドメイン固有のデータセットやプライベートなデータセットに適していて、LLMに追加のコンテキストを提供します。
4/29
デュアルスタックLoadBalancer ServicesがGAになりました
Cloud DNSのadditive VPC scopeがプレビューで利用可能になりました。
additive VPC scopeを使用するとCloud DNS (cluster scope)を使用しながら、Compute Engine VMやCloud VPN、Cloud Interconnectを使用して接続されたオンプレミスクライアントなどVPC内の他のリソースからヘッドレスサービスが解決 (resolve) できるようになります。
4/26
PodでLinux huge pagesが使用可能になりました
ノードシステム構成ファイルで設定できます。
GKE Standardクラスタでnested VMがサポートされました
これによりPodでAndroidエミュレータを動かすこともできるようになりました。
制限事項などはドキュメントを参照してください。
GKE SandboxでNVIDIA GPU (H100, A100, L4, and T4) がプレビューとしてサポートされました
StandardとAutopilotクラスタで使用でき、GKE 1.29.2-gke.1108000以上が必要になります。
4/16
Z3 machine familyが使用可能になりました
Z3はストレージに最適化されたマシンタイプです。 Standardクラスタでは1.25以降でサポートされていますが、ノードの自動プロビジョニングを使用する場合は1.29以降が必要になります。 GKE Autopilotでは1.29以降でサポートされています。 なお、Z3マシンはホストのメンテナンス中にgracefully terminateするため注意が必要です。
4/12
GPUDirect-TCPXがGKE 1.27以降で使用可能になりました
GPUDirect-TCPXを使用するとGPUとの間でパケットペイロードを転送するために必要なオーバーヘッドが削減され、スケール時のスループットが大幅に改善します。
4/10
GKEスタンダードクラスタ 1.29以降でN4 machine familyが使用可能になりました
N4は価格とパフォーマンスのバランスがとれたマシンタイプの第四世代です。 なお、N4 machine familyではConfidential GKE nodesとローカルSSDはサポートされていません。 ブートディスクとしてはhyperdisk-balancedのみがサポートされています。
4/9
GKE Autopilotクラスタ 1.29.2-gke.1521000以降でCloud Tensor Processing Units (TPUs)が使用可能になりました
4/5
GPU NVIDIA Multi-Process Service (MPS)が1.27.7-gke.1088000以降で使用可能になりました
NVIDIA MPSにより複数のワークロードが1つのNVIDIA GPUハードウェアアクセラレータを共有することができます。
4/3
GKEコンプライアンスダッシュボードにコンプライアンス評価を表示するようになりました
現在はプレビューで、コンプライアンス評価にはCIS Kubernetes Benchmark 1.5、Pod Security Standards (PSS) Baseline、PSS Restricted standardsが含まれます。
脅威検知が利用可能になりました
現在はプレビューで、エンタープライズクラスタで使用できます。
コントロールプレーンに対する脅威がGKEのダッシュボードに表示されるようになります。
4/2
GKEクラスタのObservabilityタブにTPUメトリクスのダッシュボードが追加されました
不具合
stableチャンネルに影響のある不具合はありませんでした。