本頁說明如何為 Cloud Run 服務設定 GPU。 GPU 非常適合用於 AI 推論工作負載,例如大型語言模型 (LLM) 或其他需要大量運算資源的非 AI 用途,例如影片轉碼和 3D 算繪。Google 提供 NVIDIA L4 GPU,內含 24 GB 的 GPU 記憶體 (VRAM),與執行個體記憶體不同。
Cloud Run 上的 GPU 為全代管服務,不需要額外的驅動程式或程式庫。GPU 功能提供隨選可用性,無須預訂,與 Cloud Run 中的隨選 CPU 和隨選記憶體運作方式類似。如果 Cloud Run 服務已設定為使用 GPU,當服務閒置時,執行個體可以縮減至零,節省費用。
附加 L4 GPU 並預先安裝驅動程式的 Cloud Run 執行個體,大約會在 5 秒內啟動,屆時容器中執行的程序就能開始使用 GPU。
每個 Cloud Run 執行個體可設定一個 GPU。如果您使用 Sidecar 容器,請注意 GPU 只能附加至一個容器。
支援的地區
asia-southeast1
(新加坡)asia-south1
(孟買) 。這個區域僅開放給受邀對象。如對這個區域有興趣,請與 Google 帳戶團隊聯絡。europe-west1
(比利時)二氧化碳排放量低2
europe-west4
(荷蘭)二氧化碳排放量低
us-central1
(愛荷華州)二氧化碳排放量低
us-east4
(北維吉尼亞州)
支援的 GPU 類型
每個 Cloud Run 執行個體最多可使用一個 L4 GPU。L4 GPU 已預先安裝下列驅動程式:
- 目前的 NVIDIA 驅動程式版本:535.216.03 (CUDA 12.2)
價格影響
如需 GPU 定價詳細資料,請參閱 Cloud Run 定價。請注意下列規定和考量事項:
- 不會按要求次數收費。如要使用 GPU 功能,必須採用以執行個體為依據的計費方式,即使執行個體處於閒置狀態,系統也會以全額費率收取最低執行個體費用。
- GPU 可用區備援機制和非可用區備援機制的費用不同。如要瞭解 GPU 定價詳細資料,請參閱 Cloud Run 定價。
- 最少須使用 4 個 CPU 和 16 GiB 的記憶體。
- 系統會針對執行個體生命週期的整個期間收取 GPU 費用。
GPU 可用區備援機制選項
根據預設,Cloud Run 會在單一區域內的多個可用區部署服務。這項架構具有固有的復原能力:如果某個可用區發生中斷,Cloud Run 會自動將流量從受影響的可用區,重新導向至同一區域內運作正常的可用區。
使用 GPU 資源時,請注意 GPU 資源有特定的容量限制。在可用區服務中斷期間,GPU 工作負載的標準容錯移轉機制會仰賴剩餘正常運作的可用區,是否具備足夠的未使用 GPU 容量。由於 GPU 資源有限,這項容量可能無法隨時供應。
如要提高可用區服務中斷時,GPU 加速運算服務的可用性,您可以專為 GPU 設定可用區備援機制:
啟用可用區備援機制 (預設):Cloud Run 會在多個可用區為服務預留 GPU 容量。這項功能可大幅提高服務成功處理從受影響可用區重新導向流量的機率,在可用區發生故障時提供更高的可靠性,但每秒 GPU 的費用較高。
可用區備援機制已關閉:Cloud Run 會盡可能為 GPU 工作負載嘗試容錯移轉。只有在當時有足夠的 GPU 容量時,流量才會轉送至其他可用區。這個選項無法保證容錯移轉情境的預留容量,但每秒 GPU 的費用較低。
服務水準協議
Cloud Run GPU 的服務等級協議 (SLA) 取決於服務使用的可用區備援機制或非可用區備援機制選項。詳情請參閱 SLA 頁面。
申請提高配額
首次在某個區域使用 Cloud Run nvidia-l4
GPU 的專案,在建立第一個部署作業時,系統會自動授予 3 個 GPU 配額 (關閉可用區備援)。如需更多 Cloud Run GPU,請為 Cloud Run 服務申請提高配額。請使用下列按鈕提供的連結,申請所需配額。
需要配額 | 配額連結 |
---|---|
已關閉可用區備援機制的 GPU (價格較低) | 申請不具備可用區備援機制的 GPU 配額 |
已啟用可用區備援機制的 GPU (價格較高) | 申請可用區備援 GPU 配額 |
如要進一步瞭解如何要求增加配額,請參閱「如何增加配額」。
事前準備
在 Cloud Run 中使用 GPU 時,請注意下列規定和限制:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Cloud Run API.
- 要求所需配額。
- 請參閱「最佳做法:在 Cloud Run 中使用 GPU 進行 AI 推論」,瞭解如何建構容器映像檔及載入大型模型。
- 請確認 Cloud Run 服務具有下列設定:
- 將帳單設定變更為以執行個體為依據的計費模式。請注意,設定為以執行個體為準計費的服務仍可縮減至零。
- 為服務設定至少 4 個 CPU,建議設定 8 個 CPU。
- 設定至少 16 GiB 的記憶體,建議使用 32 GiB。
- 判斷並設定 GPU 用量的最佳並行上限。
- 「執行個體數量上限」必須設為低於每個區域每個專案的 GPU 配額。請參閱「關於 GPU 和執行個體數量上限」。
-
Cloud Run 開發人員 (
roles/run.developer
) - Cloud Run 服務 -
服務帳戶使用者 (
roles/iam.serviceAccountUser
) - 服務身分 前往 Google Cloud 控制台的 Cloud Run:
從選單中選取「服務」,然後按一下「部署容器」,設定新服務。如要設定現有服務,請按一下該服務,然後點選「Edit and deploy new revision」(編輯及部署新修訂版本)。
如要設定新服務,請填寫初始服務設定頁面,然後按一下「容器、磁碟區、網路與安全性」,展開服務設定頁面。
按一下「容器」分頁標籤。
- 請按照「事前準備」中的建議,設定 CPU、記憶體、並行、執行環境和啟動探查。
- 勾選「GPU」核取方塊,然後從「GPU type」(GPU 類型) 選單選取 GPU 類型,並從「Number of GPUs」(GPU 數量) 選單選取 GPU 數量。
- 新服務預設會啟用區域備援功能。如要變更目前的設定,請選取 GPU 核取方塊,顯示「GPU 備援機制」選項。
- 選取「無可用區備援機制」即可關閉這項功能
- 選取「可用區備援」,開啟可用區備援機制。
按一下 [Create] (建立) 或 [Deploy] (部署)。
- SERVICE:Cloud Run 服務的名稱。
- IMAGE_URL:容器映像檔的參照,例如
us-docker.pkg.dev/cloudrun/container/hello:latest
。如果您使用 Artifact Registry,則必須先建立存放區 REPO_NAME。網址格式為LOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG
。 - SERVICE:Cloud Run 服務的名稱。
- IMAGE_URL:容器映像檔的參照,例如
us-docker.pkg.dev/cloudrun/container/hello:latest
。如果您使用 Artifact Registry,則必須先建立存放區 REPO_NAME。網址格式為LOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG
。 - CPU:CPU 數量。您必須指定至少
4
個 CPU。 - MEMORY:記憶體大小。您必須指定至少
16Gi
(16 GiB)。 - GPU_NUMBER:值
1
(一)。如果未指定這個值,但存在 GPU_TYPE,則預設值為1
。 - GPU_TYPE:GPU 類型。如未指定,但存在 GPU_NUMBER,則預設為
nvidia-l4
(nvidiaL
4 小寫 L,而非數值 14)。 - MAX_INSTANCE:執行個體數量上限。這個數字不得超過專案的 GPU 配額。
- GPU_ZONAL_REDUNDANCY:
no-gpu-zonal-redundancy
可關閉區域備援,gpu-zonal-redundancy
則可開啟區域備援。 如要建立新服務,請略過這個步驟。 如要更新現有服務,請下載其 YAML 設定:
gcloud run services describe SERVICE --format export > service.yaml
更新
nvidia.com/gpu:
屬性和nodeSelector:
:
run.googleapis.com/accelerator:apiVersion: serving.knative.dev/v1 kind: Service metadata: name: SERVICE spec: template: metadata: annotations: autoscaling.knative.dev/maxScale: 'MAX_INSTANCE' run.googleapis.com/cpu-throttling: 'false' run.googleapis.com/gpu-zonal-redundancy-disabled: 'GPU_ZONAL_REDUNDANCY' spec: containers: - image: IMAGE_URL ports: - containerPort: CONTAINER_PORT name: http1 resources: limits: cpu: 'CPU' memory: 'MEMORY' nvidia.com/gpu: '1' # Optional: use a longer startup probe to allow long starting containers startupProbe: failureThreshold: 1800 periodSeconds: 1 tcpSocket: port: CONTAINER_PORT timeoutSeconds: 1 nodeSelector: run.googleapis.com/accelerator: GPU_TYPE
更改下列內容:
- SERVICE:Cloud Run 服務的名稱。
- IMAGE_URL:容器映像檔的參照,例如
us-docker.pkg.dev/cloudrun/container/hello:latest
。如果您使用 Artifact Registry,則必須先建立存放區 REPO_NAME。網址格式為LOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG
。 - CONTAINER_PORT:為服務設定的容器通訊埠。
- CPU:CPU 數量。您必須指定至少
4
個 CPU。 - MEMORY:記憶體大小。您必須指定至少
16Gi
(16 GiB)。 - GPU_TYPE:值
nvidia-l4
(nvidia-L
4 小寫 L,而非數值 14)。 - MAX_INSTANCE:執行個體數量上限。這個數字不得超過專案的 GPU 配額。
- GPU_ZONAL_REDUNDANCY:
false
可開啟 GPU 可用區備援機制,true
則可關閉。
使用下列指令建立或更新服務:
gcloud run services replace service.yaml
- SERVICE:Cloud Run 服務的名稱。
- GPU_ZONAL_REDUNDANCY:
false
可開啟 GPU 可用區備援機制,true
則可關閉。 - IMAGE_URL:容器映像檔的參照,例如
us-docker.pkg.dev/cloudrun/container/hello:latest
。如果您使用 Artifact Registry,則必須先建立存放區 REPO_NAME。網址格式為LOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG
。 - CPU:CPU 數量。您必須指定至少
4
個 CPU。 - MEMORY:記憶體大小。您必須指定至少
16Gi
(16 GiB)。 - GPU_TYPE:值為
nvidia-l4
(nvidia-L
4 小寫 L,而非數值 14)。 前往 Google Cloud 控制台的 Cloud Run:
按一下感興趣的服務,開啟「服務詳細資料」頁面。
按一下「Revisions」(修訂版本) 分頁標籤。
在右側的詳細資料面板中,GPU 設定會列在「容器」分頁下方。
使用下列指令:
gcloud run services describe SERVICE
在傳回的設定中找出 GPU 設定。
前往 Google Cloud 控制台的 Cloud Run:
從選單中選取「服務」,然後按一下「部署容器」,設定新服務。如要設定現有服務,請按一下該服務,然後點選「Edit and deploy new revision」(編輯及部署新修訂版本)。
如要設定新服務,請填寫初始服務設定頁面,然後按一下「容器、磁碟區、網路與安全性」,展開服務設定頁面。
按一下「容器」分頁標籤。
- 取消勾選 GPU 核取方塊。
按一下 [Create] (建立) 或 [Deploy] (部署)。
如要建立新服務,請略過這個步驟。 如要更新現有服務,請下載其 YAML 設定:
gcloud run services describe SERVICE --format export > service.yaml
刪除
nvidia.com/gpu:
和nodeSelector: run.googleapis.com/accelerator: nvidia-l4
行。使用下列指令建立或更新服務:
gcloud run services replace service.yaml
- 「執行個體數量上限」設定會限制每個服務的執行個體數量。這項設定不得高於每個專案在每個區域的 GPU 配額。
- 每個區域每項專案允許的 GPU 配額。這會限制同一區域中各項服務的執行個體數量。
必要的角色
如要取得設定及部署 Cloud Run 服務所需的權限,請要求管理員在服務中授予下列 IAM 角色:
如需與 Cloud Run 相關聯的 IAM 角色和權限清單,請參閱 Cloud Run IAM 角色和 Cloud Run IAM 權限。如果 Cloud Run 服務與Google Cloud API (例如 Cloud 用戶端程式庫) 介接,請參閱服務身分設定指南。 如要進一步瞭解如何授予角色,請參閱部署權限和管理存取權。
設定含 GPU 的 Cloud Run 服務
變更任何設定都會建立新的修訂版本。除非您明確做出更新,變更這項設定,否則後續的修訂版本也會自動取得這個設定。
您可以使用 Google Cloud 控制台、Google Cloud CLI 或 YAML 設定 GPU。
控制台
gcloud
如要建立啟用 GPU 的服務,請使用 gcloud run deploy 指令:
gcloud run deploy SERVICE \ --image IMAGE_URL \ --gpu 1
更改下列內容:
如要更新服務的 GPU 設定,請使用 gcloud run services update 指令:
gcloud run services update SERVICE \ --image IMAGE_URL \ --cpu CPU \ --memory MEMORY \ --no-cpu-throttling \ --gpu GPU_NUMBER \ --gpu-type GPU_TYPE \ --max-instances MAX_INSTANCE --GPU_ZONAL_REDUNDANCY
更改下列內容:
YAML
Terraform
如要瞭解如何套用或移除 Terraform 設定,請參閱「基本 Terraform 指令」。
在 Terraform 設定中,將下列項目新增至google_cloud_run_v2_service
資源:resource "google_cloud_run_v2_service" "default" {
provider = google-beta
name = "SERVICE"
location = "europe-west1"
template {
gpu_zonal_redundancy_disabled = "GPU_ZONAL_REDUNDANCY"
containers {
image = "IMAGE_URL"
resources {
limits = {
"cpu" = "CPU"
"memory" = "MEMORY"
"nvidia.com/gpu" = "1"
}
}
}
node_selector {
accelerator = "GPU_TYPE"
}
}
}
更改下列內容:
查看 GPU 設定
如要查看 Cloud Run 服務目前的 GPU 設定:
控制台
gcloud
移除 GPU
您可以使用 Google Cloud 控制台、Google Cloud CLI 或 YAML 移除 GPU。
控制台
gcloud
如要移除 GPU,請使用 gcloud run services update 指令,將 GPU 數量設為 0
:
gcloud run services update SERVICE --gpu 0
將 SERVICE 替換為 Cloud Run 服務名稱。
YAML
程式庫
根據預設,所有 NVIDIA L4 驅動程式庫都會掛接在 /usr/local/nvidia/lib64
下方。Cloud Run 會自動將這個路徑附加至含 GPU 容器的 LD_LIBRARY_PATH
環境變數 (即 ${LD_LIBRARY_PATH}:/usr/local/nvidia/lib64
)。動態連結器就能找到 NVIDIA 驅動程式庫。連結器會依您在 LD_LIBRARY_PATH
環境變數中列出的順序,搜尋及解析路徑。您在這個變數中指定的任何值,都會優先於預設的 Cloud Run 驅動程式程式庫路徑 /usr/local/nvidia/lib64
。
如要使用高於 12.2 的 CUDA 版本,最簡單的方法是依附於已安裝向前相容套件的較新 NVIDIA 基本映像檔。你也可以手動安裝 NVIDIA 前向相容性套件,並將這些套件新增至 LD_LIBRARY_PATH
。請參閱 NVIDIA 的相容性矩陣,判斷哪些 CUDA 版本與提供的 NVIDIA 驅動程式版本 (535.216.03) 向前相容。
關於 GPU 和執行個體數量上限
GPU 執行個體數量限制有兩種: