2025年4月にGKEのReleaseNoteに流れてきた情報から、新機能と変更内容、stableチャンネルに影響のありそうな不具合情報のみをまとめて紹介します。
4月はAI/ML関連のリリースが少しあっただけで全体のリリース数は少なかったです。AI/ML関連で非推奨が告知されたため利用している場合は確認する必要があります。
新機能
4/17
GKE Inference Gatewayが利用可能になりました
GKE上の生成AIワークロードのパフォーマンス、効率、および可観測性が大幅に向上します。
GKE Inference Gatewayは以下の機能を提供します。
- パフォーマンスの向上
- 推論に最適化されたロードバランシングによりAIサービングのテールレイテンシが短縮され、AIサービングのスループットが向上します
- 効率的なリソース利用
- 共有アクセラレータ上で複数のLoRAファインチューニングモデルの高密度マルチワークロードサービングを可能にし、より高いGPU/TPU利用率を実現します
- 操作の簡素化
- モデルを考慮したルーティング、モデル固有のサービング優先度、統合AIセーフティなどの機能があります
- 観測性の強化
- 推論要求に対して観測可能性のゴールデンシグナルが提供されます
4/3
リソース要求や制限のないワークロードを特定するのに役立つinsightsとrecommendationsを提供するようになりました
また、これらのワークロードに必要なリソースを指定できるようになりました。
コンテナに対するCPUとメモリの要求と制限を設定することは信頼性とパフォーマンスを向上させるためのベストプラクティスであり、ワークロードによるリソース利用とそのコストを理解し最適化するために必要な前提条件です。
4/2
自動アプリケーションモニタリングがGKE 1.28以降でGAになりました
有効にするとGoogle Cloud Managed Service for Prometheusで主要なメトリクスが自動的に収集され、サポートされているワークロードを監視できるダッシュボードが使用できます。
自動アプリケーションモニタリングは6つの新しいAIモデルサーバー(NVIDIA Triton、vLLM、TGI、JetStream、TorchServe、TensorFlow Serving)をサポートしています。
非推奨
4/24
Saxmlが非推奨になりました
Saxmlの更新は行われませんがデプロイすることは引き続き可能です。
JetStreamへの移行を推奨します。
先月までの新機能と不具合情報
先月までの内容は以下のリンク先で確認できます。