Panoramica di Model Armor

Model Armor è un servizio Google Cloud progettato per migliorare la sicurezza delle tue applicazioni AI. Funziona controllando in modo proattivo i prompt e le risposte degli LLM, proteggendo da vari rischi e garantendo pratiche di AI responsabile. Che tu stia implementando l'AI nel tuo ambiente cloud o anche su provider cloud esterni, Model Armor può aiutarti a prevenire input dannosi, verificare la sicurezza dei contenuti, proteggere i dati sensibili, mantenere la conformità e

Architettura

Architettura di Model Armor Questo diagramma dell'architettura mostra un'applicazione che utilizza Model Armor per proteggere un LLM e un utente. I passaggi seguenti spiegano il flusso di dati.

  1. Un utente fornisce un prompt all'applicazione.
  2. Model Armor ispeziona il prompt in entrata per individuare contenuti potenzialmente sensibili.
  3. Il prompt (o il prompt pulito) viene inviato al LLM.
  4. L'LLM genera una risposta.
  5. Model Armor esamina la risposta generata per rilevare contenuti potenzialmente sensibili.
  6. La risposta (o la risposta pulita) viene inviata all'utente. Model Armor invia una descrizione dettagliata dei filtri attivati e non attivati nella risposta.

Model Armor filtra sia l'input (prompt) sia l'output (risposte) per impedire all'LLM di essere esposto a contenuti dannosi o sensibili o di generarli.

Casi d'uso

Model Armor ha diversi casi d'uso in più settori:

  • Sicurezza

    • Ridurre il rischio di divulgazione di proprietà intellettuale (IP) sensibile e informazioni che consentono l'identificazione personale (PII) che potrebbero essere incluse nei prompt o nelle risposte dei LLM.
    • Proteggi da attacchi di prompt injection e jailbreaking, impedendo ad attori malintenzionati di manipolare i sistemi di AI per eseguire azioni indesiderate.
    • Scansiona il testo nei PDF alla ricerca di contenuti sensibili o dannosi.
  • Sicurezza e AI responsabile

    • Impedisci al chatbot di consigliare soluzioni della concorrenza, mantenendo l'integrità del brand e la fedeltà dei clienti.
    • Le organizzazioni possono filtrare i post sui social media generati dalla loro AIA che contengono messaggi dannosi, come contenuti pericolosi o che incitano all'odio.

Modelli Model Armor

I modelli Model Armor ti consentono di configurare il modo in cui Model Armor controlla prompt e risposte. Funzionano come insiemi di filtri e soglie personalizzati per diversi livelli di confidenza di sicurezza, consentendo di controllare quali contenuti vengono segnalati.

Le soglie rappresentano i livelli di confidenza, ovvero il grado di certezza di Model Armor che il prompt o la risposta includano contenuti illeciti. Ad esempio, puoi creare un modello che filtri i prompt per contenuti che incitano all'odio con una soglia HIGH, il che significa che Model Armor segnala un'alta confidenza che il prompt contenga contenuti che incitano all'odio. Una soglia LOW_AND_ABOVE indica qualsiasi livello di confidenza (LOW, MEDIUM e HIGH) nel fare questa affermazione.

Per saperne di più, consulta Modelli Model Armor.

Livelli di affidabilità di Model Armor

Puoi impostare i livelli di confidenza per le categorie di sicurezza dell'AI responsabile (contenuti sessualmente espliciti, pericolosi, di molestie e incitamento all'odio), il rilevamento di prompt injection e jailbreak e la protezione dei dati sensibili (inclusa l'attualità).

Per i livelli di confidenza che consentono soglie granulari, Model Armor li interpreta nel seguente modo:

  • Alto: identifica se il messaggio include contenuti con un'alta probabilità.
  • Medio e superiore: identifica se il messaggio contiene contenuti con una probabilità media o alta.
  • Soglia bassa e superiore: identifica se il messaggio contiene contenuti con una probabilità bassa, media o alta.

Filtri Model Armor

Model Armor offre una serie di filtri per aiutarti a fornire modelli di AI sicuri e protetti. Sono disponibili le seguenti categorie di filtri.

Filtro di sicurezza AI responsabile

Puoi esaminare i prompt e le risposte ai livelli di confidenza sopra indicati per le seguenti categorie:

Categoria Definizione
Incitamento all'odio Commenti negativi o dannosi rivolti all'identità e/o agli attributi protetti.
Molestie Commenti minacciosi, intimidatori, prepotenti o illeciti rivolti a un altro individuo.
Contenuti sessualmente espliciti Contiene riferimenti ad atti sessuali o ad altri contenuti osceni.
Contenuti pericolosi Promuovono o consentono l'accesso a beni, servizi e attività dannosi.

Il filtro per il materiale pedopornografico viene applicato per impostazione predefinita e non può essere disattivato.

Rilevamento di prompt injection e jailbreaking

Il prompt injection è una vulnerabilità della sicurezza in cui i malintenzionati creano comandi speciali all'interno dell'input del testo (il prompt) per ingannare un modello di AI. L'AI potrebbe ignorare le istruzioni abituali, rivelare informazioni sensibili o eseguire azioni per le quali non è stata progettata. Il jailbreaking nel contesto degli LLM si riferisce all'atto di bypassare i protocolli di sicurezza e le linee guida etiche integrati nel modello. Ciò consente all'LLM di generare risposte che in origine era progettato per evitare, come contenuti dannosi, non etici e pericolosi.

Quando il rilevamento di prompt injection e jailbreak è abilitato, Model Armor esegue la scansione di prompt e risposte alla ricerca di contenuti dannosi. Se viene rilevato, Model Armor blocca il prompt o la risposta.

Sensitive Data Protection

La protezione dei dati sensibili è un servizio Google Cloud per aiutarti a scoprire, classificare e anonimizzare i dati sensibili. Sensitive Data Protection può identificare elementi, contesto e documenti sensibili per aiutarti a ridurre il rischio di perdita di dati in entrata e in uscita dai carichi di lavoro di AI. Puoi utilizzare Sensitive Data Protection direttamente in Model Armor per trasformare, tokenizzare e oscurare gli elementi sensibili mantenendo il contesto non sensibile. Model Armor può accettare modelli di ispezione esistenti, ovvero configurazioni che fungono da progetti per semplificare il processo di scansione e identificazione dei dati sensibili specifici per la tua attività e le tue esigenze di conformità. In questo modo, puoi garantire coerenza e interoperabilità tra gli altri carichi di lavoro che utilizzano Sensitive Data Protection.

Model Armor offre due modalità per la configurazione di Sensitive Data Protection:

  • Configurazione di base: in questa modalità, configuri Sensitive Data Protection specificando i tipi di dati sensibili da cercare. Questa modalità supporta le seguenti categorie:

    • Numero della carta di credito
    • Numero di previdenza sociale (SSN) statunitense
    • Numero di conto finanziario
    • Numero individuale di identificazione del contribuente (ITIN) statunitense
    • Google Cloud credenziali
    • Google Cloud Chiave API

    La configurazione di base consente solo le operazioni di ispezione e non supporta l'utilizzo dei modelli di Sensitive Data Protection. Per maggiori informazioni, vedi Configurazione di base di Sensitive Data Protection.

  • Configurazione avanzata: questa modalità offre maggiore flessibilità e personalizzazione tramite i modelli di Sensitive Data Protection. I modelli di protezione dei dati sensibili sono configurazioni predefinite che ti consentono di specificare regole di rilevamento e tecniche di anonimizzazione più granulari. La configurazione avanzata supporta sia le operazioni di ispezione che di anonimizzazione.

I livelli di confidenza per Sensitive Data Protection funzionano in modo leggermente diverso rispetto a quelli per gli altri filtri. Per ulteriori informazioni sui livelli di confidenza per Sensitive Data Protection, consulta Probabilità di corrispondenza di Sensitive Data Protection. Per ulteriori informazioni su Sensitive Data Protection in generale, consulta la panoramica di Sensitive Data Protection.

Rilevamento di URL dannosi

Gli URL dannosi sono spesso camuffati per sembrare legittimi, il che li rende uno strumento potente per attacchi di phishing, distribuzione di malware e altre minacce online. Ad esempio, se un PDF contiene un URL dannoso incorporato, può essere utilizzato per compromettere qualsiasi sistema downstream che elabora gli output LLM.

Quando il rilevamento di URL dannosi è attivato, Model Armor analizza gli URL per identificare se sono dannosi. In questo modo puoi intervenire e impedire la restituzione di URL dannosi.

Definisci il tipo di applicazione

L'applicazione definisce cosa succede dopo il rilevamento di una violazione. Per configurare il modo in cui Model Armor gestisce i rilevamenti, imposta il tipo di applicazione. Model Armor offre i seguenti tipi di applicazione:

  • Solo ispezione: esamina le richieste che violano le impostazioni configurate, ma non le blocca.
  • Ispeziona e blocca: blocca le richieste che violano le impostazioni configurate.

Per utilizzare in modo efficace Inspect only e ottenere insight preziosi, abilita Cloud Logging. Se Cloud Logging non è abilitato, Inspect only non fornirà informazioni utili.

Accedi ai log tramite Cloud Logging. Filtra in base al nome del servizio modelarmor.googleapis.com. Cerca le voci relative alle operazioni che hai attivato nel modello. Per saperne di più, consulta Visualizzare i log utilizzando Esplora log.

Impostazioni del piano di Model Armor

Sebbene i modelli Model Armor offrano flessibilità per le singole applicazioni, le organizzazioni spesso devono stabilire un livello di base di protezione per tutte le loro applicazioni di AI. È qui che vengono utilizzate le impostazioni minime di Model Armor. Fungono da regole che definiscono i requisiti minimi per tutti i modelli creati in un punto specifico della gerarchia delle risorse Google Cloud (ovvero a livello di organizzazione, cartella o progetto).

Per ulteriori informazioni, vedi Impostazioni del piano Model Armor.

Supporto dei linguaggi

I filtri Model Armor supportano la sanificazione di prompt e risposte in più lingue.

Esistono due modi per attivare il rilevamento multilingue:

Controllo dei documenti

Il testo nei documenti può includere contenuti sensibili e dannosi. Model Armor può analizzare i seguenti tipi di documenti per rilevare sicurezza, tentativi di prompt injection e jailbreak, dati sensibili e URL dannosi:

  • PDF
  • CSV
  • File di testo: TXT
  • Documenti Microsoft Word: DOCX, DOCM, DOTX, DOTM
  • Diapositive Microsoft PowerPoint: PPTX, PPTM, POTX, POTM, POT
  • Fogli Microsoft Excel: XLSX, XLSM, XLTX, XLTM

Model Armor rifiuta le richieste di scansione dei file in formato RTF di dimensioni pari o inferiori a 50 byte, perché è molto probabile che questi file non siano validi.

Prezzi

Model Armor può essere acquistato come parte integrante di Security Command Center o come servizio autonomo. Per informazioni sui prezzi, consulta la pagina Prezzi di Security Command Center.

Token

I modelli di AI generativa suddividono il testo e altri dati in unità chiamate token. Model Armor utilizza il numero totale di token nei prompt e nelle risposte dell'AI ai fini della determinazione del prezzo. Model Armor limita il numero di token elaborati in ogni prompt e risposta.

Model Armor ha limiti di token variabili a seconda del filtro specifico. Quando il prompt o la risposta supera il limite di token, il filtro Sensitive Data Protection restituisce EXECUTION_SKIPPED. Tutti gli altri filtri, se la richiesta o la risposta supera il limite di token, restituiscono MATCH_FOUND se vengono trovati contenuti dannosi e EXECUTION_SKIPPED se non vengono trovati contenuti dannosi.

Filtro Limite di token
Prompt injection e rilevamento di jailbreaking 10.000
AI responsabile 10.000
Materiale pedopornografico 10.000
Sensitive Data Protection Fino a 130.000

Passaggi successivi