Vertex AI の生成 AI の割り当てとシステムの上限

このドキュメントでは、生成 AI サービスを使用するさまざまな方法と、対応する割り当てシステムについて説明します。次のトピックについて説明します。

使用量モデルと割り当てモデル

生成 AI サービスは、従量課金制(PayGo)またはプロビジョニングされたスループットで専用容量を予約する 2 つの方法で使用できます。使用するモデルに応じて、従量課金制の使用量は、標準のプロジェクトごとの割り当てまたは動的な共有割り当てシステムのいずれかの対象となります。

次の表に、これらのオプションの比較を示します。

オプション 説明 長所 ユースケース
標準割り当ての従量課金制(PayGo) 以前のモデルのプロジェクトごと、リージョンごとのリクエスト上限。 個々のプロジェクトの予測可能な上限。 Gemini 以外のモデルまたは以前の Gemini モデルを使用するアプリケーション。
動的共有割り当て(DSQ)を使用した従量課金制(PayGo) 容量は、特定のモデルとリージョンについてすべてのお客様の間で動的に共有されます。管理するプロジェクトごとの割り当てはありません。 割り当ての管理や増加のリクエストは不要です。柔軟性があり、使用可能な容量に応じて自動的にスケーリングされます。 パフォーマンスの変動を許容できる開発、テスト、アプリケーション。新しいモデルを使用するほとんどの PayGo シナリオで推奨されます。
プロビジョンド スループット 特定のモデル用に予約された専用のコンピューティング容量。前払いで支払われます。 専用スループット、予測可能な高パフォーマンス、安定したレイテンシ。 高可用性と予測可能なサービスレベルを必要とする本番環境ワークロード。

モデル別の割り当てシステム

次のモデルは、動的共有割り当て(DSQ)をサポートしています。

次の以前の Gemini モデルは DSQ をサポートしています。

  • Gemini 1.5 Pro
  • Gemini 1.5 Flash

Gemini 以外のモデルと以前の Gemini モデルでは、標準の割り当てシステムが使用されます。詳細については、Vertex AI の割り当てと上限をご覧ください。

機能固有の割り当てと上限

このセクションでは、特定の生成 AI 機能の割り当てと上限について説明します。

チューニング済みモデルの割り当て

チューニング済みモデルの推論は、ベースモデルと同じ割り当てを共有します。チューニング済みモデルの推論に個別の割り当てはありません。

チューニング ジョブは Vertex AI Pipelines を使用します。詳細については、Vertex AI Pipelines の割り当てと上限をご覧ください。

テキスト エンベディングの上限

各リクエストには、最大 250 個の入力テキスト(入力テキストごとに 1 つのエンベディングを生成)と、リクエストごとに 20,000 個のトークンを指定できます。エンベディングの計算には、各入力テキストの最初の 2,048 トークンのみが使用されます。gemini-embedding-001 の場合、割り当てgemini-embedding という名前で一覧表示されます。

1 ベースモデル、1 分あたりのコンテンツ埋め込み入力トークン数

以前のエンベディング モデルは主に RPM 割り当てによって制限されていましたが、Gemini エンベディング モデルの割り当てでは、プロジェクトごとに 1 分あたりに送信できるトークンの数が制限されます。

割り当て
1 分あたりのコンテンツ入力トークンを埋め込む 5,000,000

Vertex AI Agent Engine の上限

各リージョンの特定のプロジェクトの Vertex AI Agent Engine には、次の上限が適用されます。
説明 上限
1 分あたりの Vertex AI Agent Engine の作成、削除、更新回数 10
1 分あたりの Vertex AI Agent Engine セッションの作成、削除、更新回数 100
Query または StreamQuery Vertex AI Agent Engine(1 分あたり) 60
1 分あたりの Vertex AI Agent Engine セッションにイベントを追加する 300
Vertex AI Agent Engine リソースの最大数 100
1 分あたりの Vertex AI Agent Engine メモリリソースの作成、削除、更新回数 100
1 分あたりの Vertex AI Agent Engine Memory Bank からの取得、一覧表示、取得 300

バッチ予測

バッチ推論ジョブの割り当てと上限は、すべてのリージョンで同じです。

Gemini モデルの同時バッチ推論ジョブの上限

Gemini モデルのバッチ推論に事前定義された割り当て上限はありません。バッチサービスは、モデルのリアルタイムの可用性と、そのモデルに対するすべてのお客様の需要に基づいて動的に割り当てられる、大規模な共有リソースプールへのアクセスを提供します。アクティブなユーザーが増え、モデルの容量が飽和状態になると、バッチリクエストが容量不足のためにキューに登録されることがあります。

Gemini 以外のモデルのバッチ推論ジョブの同時実行数の割り当て

次の表に、同時実行バッチ推論ジョブ数の割り当てを示します。これは Gemini モデルには適用されません。
割り当て
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
送信されたタスク数が指定された割り当てを超えると、タスクはキューに配置され、割り当て容量が使用可能になると処理されます。

Vertex AI RAG Engine

RAG Engine を使用して検索拡張生成(RAG)を実行するサービスごとに、次の割り当てが適用されます。割り当ては 1 分あたりのリクエスト数(RPM)で測定されます。
サービス 割り当て 指標
RAG Engine データ マネジメント API 60 RPM VertexRagDataService requests per minute per region
RetrievalContexts API 1,500 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1,500 RPM Online prediction requests per base model per minute per region per base_model

指定できる追加のフィルタは base_model: textembedding-gecko です。
次の上限が適用されます。
サービス 上限 指標
同時に可能な ImportRagFiles リクエスト 3 RPM VertexRagService concurrent import requests per region
ImportRagFiles リクエストあたりの最大ファイル数 10,000 VertexRagService import rag files requests per region

その他のレート制限と割り当てについては、Vertex AI の生成 AI のレート制限をご覧ください。

Gen AI Evaluation Service

Gen AI Evaluation Service は、モデルベースの指標のデフォルトの判定モデルとして gemini-2.0-flash を使用します。モデルベースの指標の 1 回の評価リクエストで、Gen AI Evaluation Service に対して基盤となるリクエストが複数発生する場合があります。各モデルの割り当てはプロジェクトごとに計算されます。つまり、モデル推論とモデルベースの評価のために gemini-2.0-flash に送信されるリクエストはすべて割り当てにカウントされます。次の表に、Gen AI Evaluation Service と基盤となるジャッジモデルの割り当てを示します。
リクエストの割り当て デフォルトの割り当て
1 分あたりの Gen AI Evaluation Service リクエスト 1 プロジェクト、1 リージョンあたり 1,000 件のリクエスト

base_model: gemini-2.0-flash の 1 分あたりのオンライン予測リクエスト数
リージョンとモデル別の割り当てをご覧ください。

Gen AI Evaluation Service の使用中に割り当てに関するエラーが発生した場合は、割り当ての増加をリクエストする必要があります。詳細については、割り当ての表示と管理をご覧ください。

上限
Gen AI Evaluation Service リクエストのタイムアウト 60 秒

新しいプロジェクトで Gen AI Evaluation Service を初めて使用する場合は、初期設定による遅延が発生することがあります(通常は 2 分以内)。最初のリクエストが失敗した場合は、数分待ってから再試行してください。その後の評価リクエストは通常、60 秒以内に完了します。

モデルベースの指標の入力トークンと出力トークンの上限は、判定モデルとして使用されるモデルによって異なります。モデルのリストについては、 Google モデルをご覧ください。

次のステップ