フィードバックを送信
Vertex AI の生成 AI の割り当てとシステムの上限
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
このドキュメントでは、生成 AI サービスを使用するさまざまな方法と、対応する割り当てシステムについて説明します。次のトピックについて説明します。
使用量モデルと割り当てモデル
生成 AI サービスは、従量課金制(PayGo) またはプロビジョニングされたスループットで専用容量を予約する 2 つの方法で使用できます。使用するモデルに応じて、従量課金制の使用量は、標準のプロジェクトごとの割り当てまたは動的な共有割り当てシステムのいずれかの対象となります。
次の表に、これらのオプションの比較を示します。
オプション
説明
長所
ユースケース
標準割り当ての従量課金制(PayGo)
以前のモデルのプロジェクトごと、リージョンごとのリクエスト上限。
個々のプロジェクトの予測可能な上限。
Gemini 以外のモデルまたは以前の Gemini モデルを使用するアプリケーション。
動的共有割り当て(DSQ) を使用した従量課金制(PayGo)
容量は、特定のモデルとリージョンについてすべてのお客様の間で動的に共有されます。管理するプロジェクトごとの割り当てはありません。
割り当ての管理や増加のリクエストは不要です。柔軟性があり、使用可能な容量に応じて自動的にスケーリングされます。
パフォーマンスの変動を許容できる開発、テスト、アプリケーション。新しいモデルを使用するほとんどの PayGo シナリオで推奨されます。
プロビジョンド スループット
特定のモデル用に予約された専用のコンピューティング容量。前払いで支払われます。
専用スループット、予測可能な高パフォーマンス、安定したレイテンシ。
高可用性と予測可能なサービスレベルを必要とする本番環境ワークロード。
モデル別の割り当てシステム
次のモデルは、動的共有割り当て(DSQ) をサポートしています。
次の以前の Gemini モデルは DSQ をサポートしています。
Gemini 1.5 Pro
Gemini 1.5 Flash
Gemini 以外のモデルと以前の Gemini モデルでは、標準の割り当てシステムが使用されます。詳細については、Vertex AI の割り当てと上限 をご覧ください。
機能固有の割り当てと上限
このセクションでは、特定の生成 AI 機能の割り当てと上限について説明します。
チューニング済みモデルの割り当て
チューニング済みモデルの推論は、ベースモデルと同じ割り当てを共有します。チューニング済みモデルの推論に個別の割り当てはありません。
チューニング ジョブは Vertex AI Pipelines を使用します。詳細については、Vertex AI Pipelines の割り当てと上限 をご覧ください。
テキスト エンベディングの上限
各リクエストには、最大 250 個の入力テキスト(入力テキストごとに 1 つのエンベディングを生成)と、リクエストごとに 20,000 個のトークンを指定できます。エンベディングの計算には、各入力テキストの最初の 2,048 トークンのみが使用されます。gemini-embedding-001
の場合、割り当て は gemini-embedding
という名前で一覧表示されます。1 ベースモデル、1 分あたりのコンテンツ埋め込み入力トークン数
以前のエンベディング モデルは主に RPM 割り当てによって制限されていましたが、Gemini エンベディング モデルの割り当てでは、プロジェクトごとに 1 分あたりに送信できるトークンの数が制限されます。
割り当て
値
1 分あたりのコンテンツ入力トークンを埋め込む
5,000,000
Vertex AI Agent Engine の上限
各リージョンの特定のプロジェクトの Vertex AI Agent Engine には、次の上限が適用されます。
説明
上限
1 分あたりの Vertex AI Agent Engine の作成、削除、更新回数
10
1 分あたりの Vertex AI Agent Engine セッションの作成、削除、更新回数
100
Query
または StreamQuery
Vertex AI Agent Engine(1 分あたり)
60
1 分あたりの Vertex AI Agent Engine セッションにイベントを追加する
300
Vertex AI Agent Engine リソースの最大数
100
1 分あたりの Vertex AI Agent Engine メモリリソースの作成、削除、更新回数
100
1 分あたりの Vertex AI Agent Engine Memory Bank からの取得、一覧表示、取得
300
バッチ予測
バッチ推論ジョブの割り当てと上限は、すべてのリージョンで同じです。
Gemini モデルの同時バッチ推論ジョブの上限
Gemini モデルのバッチ推論に事前定義された割り当て上限はありません。バッチサービスは、モデルのリアルタイムの可用性と、そのモデルに対するすべてのお客様の需要に基づいて動的に割り当てられる、大規模な共有リソースプールへのアクセスを提供します。アクティブなユーザーが増え、モデルの容量が飽和状態になると、バッチリクエストが容量不足のためにキューに登録されることがあります。
Gemini 以外のモデルのバッチ推論ジョブの同時実行数の割り当て
次の表に、同時実行バッチ推論ジョブ数の割り当てを示します。これは Gemini モデルには適用されません。
割り当て
値
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs
4
送信されたタスク数が指定された割り当てを超えると、タスクはキューに配置され、割り当て容量が使用可能になると処理されます。Vertex AI RAG Engine
RAG Engine を使用して検索拡張生成(RAG)を実行するサービスごとに、次の割り当てが適用されます。割り当ては 1 分あたりのリクエスト数(RPM)で測定されます。
サービス
割り当て
指標
RAG Engine データ マネジメント API
60 RPM
VertexRagDataService requests per minute per region
RetrievalContexts
API
1,500 RPM
VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko
1,500 RPM
Online prediction requests per base model per minute per region per base_model
指定できる追加のフィルタは base_model: textembedding-gecko
です。
次の上限が適用されます。
サービス
上限
指標
同時に可能な ImportRagFiles
リクエスト
3 RPM
VertexRagService concurrent import requests per region
ImportRagFiles
リクエストあたりの最大ファイル数
10,000
VertexRagService import rag files requests per region
その他のレート制限と割り当てについては、Vertex AI の生成 AI のレート制限 をご覧ください。
Gen AI Evaluation Service
Gen AI Evaluation Service は、モデルベースの指標のデフォルトの判定モデルとして gemini-2.0-flash
を使用します。モデルベースの指標の 1 回の評価リクエストで、Gen AI Evaluation Service に対して基盤となるリクエストが複数発生する場合があります。各モデルの割り当てはプロジェクトごとに計算されます。つまり、モデル推論とモデルベースの評価のために gemini-2.0-flash
に送信されるリクエストはすべて割り当てにカウントされます。次の表に、Gen AI Evaluation Service と基盤となるジャッジモデルの割り当てを示します。
リクエストの割り当て
デフォルトの割り当て
1 分あたりの Gen AI Evaluation Service リクエスト
1 プロジェクト、1 リージョンあたり 1,000 件のリクエスト
base_model: gemini-2.0-flash
の 1 分あたりのオンライン予測リクエスト数
リージョンとモデル別の割り当て をご覧ください。
Gen AI Evaluation Service の使用中に割り当てに関するエラーが発生した場合は、割り当ての増加をリクエストする必要があります。詳細については、割り当ての表示と管理 をご覧ください。
上限
値
Gen AI Evaluation Service リクエストのタイムアウト
60 秒
新しいプロジェクトで Gen AI Evaluation Service を初めて使用する場合は、初期設定による遅延が発生することがあります(通常は 2 分以内)。最初のリクエストが失敗した場合は、数分待ってから再試行してください。その後の評価リクエストは通常、60 秒以内に完了します。
モデルベースの指標の入力トークンと出力トークンの上限は、判定モデルとして使用されるモデルによって異なります。モデルのリストについては、 Google モデル をご覧ください。
次のステップ
フィードバックを送信
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンス により使用許諾されます。コードサンプルは Apache 2.0 ライセンス により使用許諾されます。詳しくは、Google Developers サイトのポリシー をご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2025-08-19 UTC。
ご意見をお聞かせください
[[["わかりやすい","easyToUnderstand","thumb-up"],["問題の解決に役立った","solvedMyProblem","thumb-up"],["その他","otherUp","thumb-up"]],[["わかりにくい","hardToUnderstand","thumb-down"],["情報またはサンプルコードが不正確","incorrectInformationOrSampleCode","thumb-down"],["必要な情報 / サンプルがない","missingTheInformationSamplesINeed","thumb-down"],["翻訳に関する問題","translationIssue","thumb-down"],["その他","otherDown","thumb-down"]],["最終更新日 2025-08-19 UTC。"],[],[]]