Model Armor è un servizio Google Cloud progettato per migliorare la sicurezza delle tue applicazioni AI. Funziona controllando in modo proattivo i prompt e le risposte degli LLM, proteggendo da vari rischi e garantendo pratiche di AI responsabile. Che tu stia implementando l'AI nel tuo ambiente cloud o anche su provider cloud esterni, Model Armor può aiutarti a prevenire input dannosi, verificare la sicurezza dei contenuti, proteggere i dati sensibili, mantenere la conformità e
Architettura
Questo diagramma dell'architettura mostra un'applicazione che utilizza Model Armor
per proteggere un LLM e un utente. I passaggi seguenti spiegano il flusso di dati.
- Un utente fornisce un prompt all'applicazione.
- Model Armor ispeziona il prompt in entrata per individuare contenuti potenzialmente sensibili.
- Il prompt (o il prompt pulito) viene inviato al LLM.
- L'LLM genera una risposta.
- Model Armor esamina la risposta generata per rilevare contenuti potenzialmente sensibili.
- La risposta (o la risposta pulita) viene inviata all'utente. Model Armor invia una descrizione dettagliata dei filtri attivati e non attivati nella risposta.
Model Armor filtra sia l'input (prompt) sia l'output (risposte) per impedire all'LLM di essere esposto a contenuti dannosi o sensibili o di generarli.
Casi d'uso
Model Armor ha diversi casi d'uso in più settori:
Sicurezza
- Ridurre il rischio di divulgazione di proprietà intellettuale (IP) sensibile e informazioni che consentono l'identificazione personale (PII) che potrebbero essere incluse nei prompt o nelle risposte dei LLM.
- Proteggi da attacchi di prompt injection e jailbreaking, impedendo ad attori malintenzionati di manipolare i sistemi di AI per eseguire azioni indesiderate.
- Scansiona il testo nei PDF alla ricerca di contenuti sensibili o dannosi.
Sicurezza e AI responsabile
- Impedisci al chatbot di consigliare soluzioni della concorrenza, mantenendo l'integrità del brand e la fedeltà dei clienti.
- Le organizzazioni possono filtrare i post sui social media generati dalla loro AIA che contengono messaggi dannosi, come contenuti pericolosi o che incitano all'odio.
Modelli Model Armor
I modelli Model Armor ti consentono di configurare il modo in cui Model Armor controlla prompt e risposte. Funzionano come insiemi di filtri e soglie personalizzati per diversi livelli di confidenza di sicurezza, consentendo di controllare quali contenuti vengono segnalati.
Le soglie rappresentano i livelli di confidenza, ovvero il grado di certezza di Model Armor
che il prompt o la risposta includano contenuti illeciti. Ad esempio, puoi creare un modello che filtri i prompt per contenuti che incitano all'odio con una soglia HIGH
, il che significa che Model Armor segnala un'alta confidenza che il prompt contenga contenuti che incitano all'odio. Una soglia LOW_AND_ABOVE
indica qualsiasi livello di
confidenza (LOW
, MEDIUM
e HIGH
) nel fare questa affermazione.
Per saperne di più, consulta Modelli Model Armor.
Livelli di affidabilità di Model Armor
Puoi impostare i livelli di confidenza per le categorie di sicurezza dell'AI responsabile (contenuti sessualmente espliciti, pericolosi, di molestie e incitamento all'odio), il rilevamento di prompt injection e jailbreak e la protezione dei dati sensibili (inclusa l'attualità).
Per i livelli di confidenza che consentono soglie granulari, Model Armor li interpreta nel seguente modo:
- Alto: identifica se il messaggio include contenuti con un'alta probabilità.
- Medio e superiore: identifica se il messaggio contiene contenuti con una probabilità media o alta.
- Soglia bassa e superiore: identifica se il messaggio contiene contenuti con una probabilità bassa, media o alta.
Filtri Model Armor
Model Armor offre una serie di filtri per aiutarti a fornire modelli di AI sicuri e protetti. Sono disponibili le seguenti categorie di filtri.
Filtro di sicurezza AI responsabile
Puoi esaminare i prompt e le risposte ai livelli di confidenza sopra indicati per le seguenti categorie:
Categoria | Definizione |
---|---|
Incitamento all'odio | Commenti negativi o dannosi rivolti all'identità e/o agli attributi protetti. |
Molestie | Commenti minacciosi, intimidatori, prepotenti o illeciti rivolti a un altro individuo. |
Contenuti sessualmente espliciti | Contiene riferimenti ad atti sessuali o ad altri contenuti osceni. |
Contenuti pericolosi | Promuovono o consentono l'accesso a beni, servizi e attività dannosi. |
Il filtro per il materiale pedopornografico viene applicato per impostazione predefinita e non può essere disattivato.
Rilevamento di prompt injection e jailbreaking
Il prompt injection è una vulnerabilità della sicurezza in cui i malintenzionati creano comandi speciali all'interno dell'input del testo (il prompt) per ingannare un modello di AI. L'AI potrebbe ignorare le istruzioni abituali, rivelare informazioni sensibili o eseguire azioni per le quali non è stata progettata. Il jailbreaking nel contesto degli LLM si riferisce all'atto di bypassare i protocolli di sicurezza e le linee guida etiche integrati nel modello. Ciò consente all'LLM di generare risposte che in origine era progettato per evitare, come contenuti dannosi, non etici e pericolosi.
Quando il rilevamento di prompt injection e jailbreak è abilitato, Model Armor esegue la scansione di prompt e risposte alla ricerca di contenuti dannosi. Se viene rilevato, Model Armor blocca il prompt o la risposta.
Sensitive Data Protection
La protezione dei dati sensibili è un servizio Google Cloud per aiutarti a scoprire, classificare e anonimizzare i dati sensibili. Sensitive Data Protection può identificare elementi, contesto e documenti sensibili per aiutarti a ridurre il rischio di perdita di dati in entrata e in uscita dai carichi di lavoro di AI. Puoi utilizzare Sensitive Data Protection direttamente in Model Armor per trasformare, tokenizzare e oscurare gli elementi sensibili mantenendo il contesto non sensibile. Model Armor può accettare modelli di ispezione esistenti, ovvero configurazioni che fungono da progetti per semplificare il processo di scansione e identificazione dei dati sensibili specifici per la tua attività e le tue esigenze di conformità. In questo modo, puoi garantire coerenza e interoperabilità tra gli altri carichi di lavoro che utilizzano Sensitive Data Protection.
Model Armor offre due modalità per la configurazione di Sensitive Data Protection:
Configurazione di base: in questa modalità, configuri Sensitive Data Protection specificando i tipi di dati sensibili da cercare. Questa modalità supporta le seguenti categorie:
- Numero della carta di credito
- Numero di previdenza sociale (SSN) statunitense
- Numero di conto finanziario
- Numero individuale di identificazione del contribuente (ITIN) statunitense
- Google Cloud credenziali
- Google Cloud Chiave API
La configurazione di base consente solo le operazioni di ispezione e non supporta l'utilizzo dei modelli di Sensitive Data Protection. Per maggiori informazioni, vedi Configurazione di base di Sensitive Data Protection.
Configurazione avanzata: questa modalità offre maggiore flessibilità e personalizzazione tramite i modelli di Sensitive Data Protection. I modelli di protezione dei dati sensibili sono configurazioni predefinite che ti consentono di specificare regole di rilevamento e tecniche di anonimizzazione più granulari. La configurazione avanzata supporta sia le operazioni di ispezione che di anonimizzazione.
I livelli di confidenza per Sensitive Data Protection funzionano in modo leggermente diverso rispetto a quelli per gli altri filtri. Per ulteriori informazioni sui livelli di confidenza per Sensitive Data Protection, consulta Probabilità di corrispondenza di Sensitive Data Protection. Per ulteriori informazioni su Sensitive Data Protection in generale, consulta la panoramica di Sensitive Data Protection.
Rilevamento di URL dannosi
Gli URL dannosi sono spesso camuffati per sembrare legittimi, il che li rende uno strumento potente per attacchi di phishing, distribuzione di malware e altre minacce online. Ad esempio, se un PDF contiene un URL dannoso incorporato, può essere utilizzato per compromettere qualsiasi sistema downstream che elabora gli output LLM.
Quando il rilevamento di URL dannosi è attivato, Model Armor analizza gli URL per identificare se sono dannosi. In questo modo puoi intervenire e impedire la restituzione di URL dannosi.
Definisci il tipo di applicazione
L'applicazione definisce cosa succede dopo il rilevamento di una violazione. Per configurare il modo in cui Model Armor gestisce i rilevamenti, imposta il tipo di applicazione. Model Armor offre i seguenti tipi di applicazione:
- Solo ispezione: esamina le richieste che violano le impostazioni configurate, ma non le blocca.
- Ispeziona e blocca: blocca le richieste che violano le impostazioni configurate.
Per utilizzare in modo efficace Inspect only
e ottenere insight preziosi, abilita Cloud Logging.
Se Cloud Logging non è abilitato, Inspect only
non fornirà informazioni utili.
Accedi ai log tramite Cloud Logging. Filtra in base al nome del servizio
modelarmor.googleapis.com
. Cerca le voci relative alle operazioni che hai
attivato nel modello. Per saperne di più, consulta
Visualizzare i log utilizzando Esplora log.
Impostazioni del piano di Model Armor
Sebbene i modelli Model Armor offrano flessibilità per le singole applicazioni, le organizzazioni spesso devono stabilire un livello di base di protezione per tutte le loro applicazioni di AI. È qui che vengono utilizzate le impostazioni minime di Model Armor. Fungono da regole che definiscono i requisiti minimi per tutti i modelli creati in un punto specifico della gerarchia delle risorse Google Cloud (ovvero a livello di organizzazione, cartella o progetto).
Per ulteriori informazioni, vedi Impostazioni del piano Model Armor.
Supporto dei linguaggi
I filtri Model Armor supportano la sanificazione di prompt e risposte in più lingue.
- Il filtro Sensitive Data Protection supporta l'inglese e altre lingue a seconda degli infoTypes che hai selezionato.
I filtri AI responsabile e Rilevamento di prompt injection e jailbreaking sono testati nelle seguenti lingue:
- Cinese (mandarino)
- Inglese
- Francese
- Tedesco
- Italiano
- Giapponese
- Coreano
- Portoghese
- Spagnolo
Questi filtri possono funzionare in molte altre lingue, ma la qualità dei risultati potrebbe variare. Per i codici lingua, vedi Lingue supportate.
Esistono due modi per attivare il rilevamento multilingue:
Attiva per ogni richiesta: per un controllo granulare, attiva il rilevamento multilingue in base alla richiesta quando sanitizzi un prompt dell'utente e sanitizzi una risposta del modello.
Attiva una sola volta: se preferisci una configurazione più semplice, puoi attivare il rilevamento multilingue come configurazione una tantum a livello di modello Model Armor utilizzando l'API REST. Per saperne di più, vedi Creare un modello Model Armor.
Controllo dei documenti
Il testo nei documenti può includere contenuti sensibili e dannosi. Model Armor può analizzare i seguenti tipi di documenti per rilevare sicurezza, tentativi di prompt injection e jailbreak, dati sensibili e URL dannosi:
- CSV
- File di testo: TXT
- Documenti Microsoft Word: DOCX, DOCM, DOTX, DOTM
- Diapositive Microsoft PowerPoint: PPTX, PPTM, POTX, POTM, POT
- Fogli Microsoft Excel: XLSX, XLSM, XLTX, XLTM
Model Armor rifiuta le richieste di scansione dei file in formato RTF di dimensioni pari o inferiori a 50 byte, perché è molto probabile che questi file non siano validi.
Prezzi
Model Armor può essere acquistato come parte integrante di Security Command Center o come servizio autonomo. Per informazioni sui prezzi, consulta la pagina Prezzi di Security Command Center.
Token
I modelli di AI generativa suddividono il testo e altri dati in unità chiamate token. Model Armor utilizza il numero totale di token nei prompt e nelle risposte dell'AI ai fini della determinazione del prezzo. Model Armor limita il numero di token elaborati in ogni prompt e risposta.
Model Armor ha limiti di token variabili a seconda del filtro specifico.
Quando il prompt o la risposta supera il limite di token, il filtro Sensitive Data Protection
restituisce EXECUTION_SKIPPED
. Tutti gli altri filtri, se la richiesta o la risposta
supera il limite di token, restituiscono MATCH_FOUND
se vengono trovati contenuti dannosi e
EXECUTION_SKIPPED
se non vengono trovati contenuti dannosi.
Filtro | Limite di token |
---|---|
Prompt injection e rilevamento di jailbreaking | 10.000 |
AI responsabile | 10.000 |
Materiale pedopornografico | 10.000 |
Sensitive Data Protection | Fino a 130.000 |
Passaggi successivi
- Scopri di più sui modelli Model Armor.
- Scopri di più sulle impostazioni di base di Model Armor.
- Scopri di più sugli endpoint Model Armor.
- Sanitizza prompt e risposte.
- Scopri di più sui log di controllo di Model Armor.
- Risolvi i problemi di Model Armor.