本頁說明 Model Armor 的重要概念。
Model Armor 範本
您可以透過 Model Armor 範本,設定 Model Armor 篩選提示和回應的方式。這些篩選器和門檻可自訂,適用於不同的安全和安全性信心水準,方便您控管要標記的內容。
門檻代表信賴水準。也就是說,Model Armor 對於提示或回覆是否含有違規內容的信心程度。舉例來說,您可以建立範本,透過 HIGH
門檻篩選出含有仇恨內容的提示,也就是 Model Armor 判斷提示含有仇恨內容的信心水準很高。LOW_AND_ABOVE
門檻表示對該聲明有任何程度的信心 (LOW
、MEDIUM
和 HIGH
)。
Model Armor 篩選器
Model Armor 提供多種篩選器,協助您提供安全無虞的 AI 模型。以下是篩選器類別的詳細說明。
負責任的 AI 安全性篩選器
系統會根據上述信賴度,篩選下列類別的提示和回覆:
類別 | 定義 |
---|---|
仇恨言論 | 針對特定身分和/或受保護特質發表負面或有害言論。 |
騷擾 | 針對他人發表含有威脅、恐嚇、霸凌、辱罵或惡意意圖的言論。 |
情色露骨內容 | 提及性行為或其他猥褻情事的內容。 |
危險內容 | 宣傳有害商品、服務與活動,或是提供接觸管道。 |
系統預設會套用兒少性虐待內容 (CSAM) 篩選器,且無法關閉。
提示詞注入和越獄偵測
提示插入是一種安全漏洞,攻擊者會在文字輸入內容 (提示) 編寫特殊指令來誘騙 AI 模型。這樣一來,AI 可能忽視正常指令、透露私密/機密資訊,或是執行非預先設定的動作。就 LLM 而言,越獄是指略過模型內建的安全通訊協定和道德規範。這會導致 LLM 生成原本設計要避免的內容,例如有害、不道德和危險內容。
啟用提示注入和越獄偵測功能後,Model Armor 會掃描提示和回覆中的惡意內容。如果偵測到這類內容,Model Armor 會封鎖提示或回覆。
Sensitive Data Protection
您可能會不慎或刻意將個人姓名或地址等私密資料傳送給模型,或在模型的回應中提供這類資料。
Sensitive Data Protection 是一項 Google Cloud 服務,可協助您探索、分類及去識別化機密資料。Sensitive Data Protection 可辨識機密元素、內容和文件,協助您降低 AI 工作負載資料外洩的風險。您可以在 Model Armor 中直接使用機密資料防護功能,轉換、權杖化及遮蓋敏感元素,同時保留非敏感內容。Model Armor 可接受現有的檢查範本,這些範本是類似藍圖的設定,可簡化掃描和識別業務及法規遵循需求相關機密資料的程序。這樣一來,您就能確保使用 Sensitive Data Protection 的其他工作負載之間維持一致性及互通性。
Model Armor 提供兩種模式,可設定 Sensitive Data Protection:
基本 Sensitive Data Protection 設定:這個模式可直接指定要掃描的私密/機密資料類型,簡化 Sensitive Data Protection 的設定程序。這項功能支援六個類別,分別是
CREDIT_CARD_NUMBER
、US_SOCIAL_SECURITY_NUMBER
、FINANCIAL_ACCOUNT_NUMBER
、US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER
、GCP_CREDENTIALS
、GCP_API_KEY
。基本設定僅允許檢查作業,不支援使用 Sensitive Data Protection 範本。詳情請參閱「基本 Sensitive Data Protection 設定」。進階 Sensitive Data Protection 設定:這個模式可啟用 Sensitive Data Protection 範本,提供更靈活的自訂功能。機密資料保護範本是預先定義的設定,可讓您指定更精細的偵測規則和去識別化技術。進階設定支援檢查和去識別化作業。
雖然可以為 Sensitive Data Protection 設定信賴度,但運作方式與其他篩選器的信賴度略有不同。如要進一步瞭解 Sensitive Data Protection 的信賴度層級,請參閱「Sensitive Data Protection 比對可能性」。如要進一步瞭解 Sensitive Data Protection,請參閱「Sensitive Data Protection 總覽」。
惡意網址偵測
惡意網址通常會偽裝成合法網址,因此成為網路釣魚攻擊、散布惡意軟體及其他網路威脅的強大工具。舉例來說,如果 PDF 內含惡意網址,可用於入侵處理 LLM 輸出的任何下游系統。
啟用惡意網址偵測功能後,Model Armor 會掃描網址,判斷是否為惡意網址。這樣一來,您就能採取行動,防止系統傳回惡意網址。
Model Armor 信賴度
您可以為負責任的 AI 安全類別 (即露骨色情、危險、騷擾和仇恨言論)、提示注入和越獄,以及敏感資料保護 (包括主題性) 設定信賴度。
如果信心水準允許使用精細的門檻,Model Armor 會將其解讀為:
- 高:判斷訊息是否含有高機率的內容。
- 中等以上:判斷郵件是否含有中等或高機率的內容。
- 低等以上:判斷郵件是否含有低、中或高機率的內容。
定義強制執行類型
強制執行定義偵測到違規情事後會發生的情況。如要設定 Model Armor 處理偵測結果的方式,請設定強制執行類型。Model Armor 提供下列強制執行類型:
- 僅檢查:檢查違反設定的要求,但不加以封鎖。
- 檢查並封鎖:封鎖違反設定的要求。
如要有效使用 Inspect only
並取得實用洞察資訊,請啟用 Cloud Logging。
如果未啟用 Cloud Logging,Inspect only
不會產生任何實用資訊。
透過 Cloud Logging 存取記錄檔。依服務名稱篩選
modelarmor.googleapis.com
。找出與範本中啟用的作業相關的項目。詳情請參閱「使用記錄檔探索工具查看記錄檔」。
PDF 審查
PDF 中的文字可能含有惡意和敏感內容。Model Armor 可以篩選 PDF,防範提示注入和越獄活動,並檢查是否含有機密資料和惡意網址。
Model Armor 底價設定
雖然 Model Armor 範本可為個別應用程式提供彈性,但機構通常需要在所有 AI 應用程式中建立基本防護等級。這時會使用 Model Armor 底層設定。這些規則會規定在 Google Cloud 資源階層中特定位置 (也就是機構、資料夾或專案層級) 建立的所有範本,都必須符合最低要求。
詳情請參閱「Model Armor 樓層設定」。
後續步驟
- 瞭解 Model Armor 總覽。
- 瞭解 Model Armor 範本。
- 瞭解 Model Armor 底限設定。
- 清除提示和回覆中的敏感資訊。
- 瞭解 Model Armor 稽核記錄。
- 排解 Model Armor 問題。