Descripción general de Model Armor

Model Armor es un servicio de Google Cloud diseñado para mejorar la seguridad de tus aplicaciones de IA. Funciona examinando de forma proactiva las instrucciones y respuestas de los LLM, protegiendo contra diversos riesgos y garantizando prácticas IA responsable. Ya sea que implementes IA en tu entorno de nube o incluso en proveedores externos, Model Armor puede ayudarte a evitar entradas maliciosas, verificar la seguridad del contenido, proteger los datos sensibles, mantener el cumplimiento y

Arquitectura

Arquitectura de Model Armor En este diagrama de arquitectura, se muestra una aplicación que usa Model Armor para proteger un LLM y un usuario. En los siguientes pasos, se explica el flujo de datos.

  1. Un usuario proporciona una instrucción a la aplicación.
  2. Model Armor inspecciona la instrucción entrante en busca de contenido potencialmente sensible.
  3. La instrucción (o instrucción saneada) se envía al LLM.
  4. El LLM genera una respuesta.
  5. Model Armor inspecciona la respuesta generada en busca de contenido potencialmente sensible.
  6. La respuesta (o respuesta saneada) se envía al usuario. Model Armor envía una descripción detallada de los filtros activados y no activados en la respuesta.

Model Armor filtra tanto la entrada (instrucciones) como la salida (respuestas) para evitar que el LLM se exponga a contenido sensible o malicioso, o lo genere.

Casos de uso

Model Armor tiene varios casos de uso en múltiples industrias:

  • Seguridad

    • Mitiga el riesgo de que se filtre información sensible de propiedad intelectual (IP) y de identificación personal (PII) que se incluya en las instrucciones o respuestas de los LLM.
    • Protege contra ataques de inyección de instrucciones y jailbreaking, lo que impide que los actores maliciosos manipulen los sistemas de IA para realizar acciones no deseadas.
    • Analiza el texto de los PDFs en busca de contenido sensible o malicioso.
  • Seguridad y IA responsable

    • Evita que tu chatbot recomiende soluciones de la competencia para mantener la integridad de la marca y la lealtad de los clientes.
    • Las organizaciones pueden filtrar las publicaciones en redes sociales generadas por su IA que contengan mensajes dañinos, como contenido peligroso o que incite al odio.

Plantillas de Model Armor

Las plantillas de Model Armor te permiten configurar cómo Model Armor examina las instrucciones y respuestas. Funcionan como conjuntos de filtros y umbrales personalizados para diferentes niveles de confianza en la seguridad, lo que permite controlar qué contenido se marca.

Los umbrales representan niveles de confianza, es decir, el nivel de confianza de Model Armor en que la instrucción o la respuesta incluyen contenido ofensivo. Por ejemplo, puedes crear una plantilla que filtre las instrucciones para detectar contenido ofensivo con un umbral de HIGH, lo que significa que Model Armor informa un alto nivel de confianza en que la instrucción contiene contenido ofensivo. Un umbral de LOW_AND_ABOVE indica cualquier nivel de confianza (LOW, MEDIUM y HIGH) para hacer esa afirmación.

Para obtener más información, consulta Plantillas de Model Armor.

Niveles de confianza de Model Armor

Puedes establecer niveles de confianza para las categorías de seguridad de la IA responsable (contenido sexual explícito, peligroso, hostigamiento y discurso de odio), la detección de inyección de instrucciones y jailbreaking, y la protección de datos sensibles (incluida la actualidad).

En el caso de los niveles de confianza que permiten umbrales detallados, Model Armor los interpreta de la siguiente manera:

  • Alto: Identifica si el mensaje tiene contenido con una alta probabilidad.
  • Probabilidad media y superior: Identifica si el mensaje tiene contenido con una probabilidad media o alta.
  • Baja y superior: Identifica si el mensaje tiene contenido con una probabilidad baja, media o alta.

Filtros de Model Armor

Model Armor ofrece una variedad de filtros para ayudarte a proporcionar modelos de IA seguros. Están disponibles las siguientes categorías de filtros.

Filtro de seguridad de IA responsable

Puedes filtrar las instrucciones y respuestas en los niveles de confianza mencionados anteriormente para las siguientes categorías:

Categoría Definición
Incitación al odio o a la violencia Comentarios negativos o dañinos que se orientan a la identidad o los atributos protegidos.
Acoso Comentarios amenazantes, intimidantes, de bullying o abusivos dirigidos a otra persona.
Sexualmente explícito Incluye referencias a actos sexual o a otro contenido obsceno.
Contenido peligroso Promueve o habilita el acceso a bienes, servicios y actividades perjudiciales.

El filtro de material de abuso sexual infantil (CSAM) se aplica de forma predeterminada y no se puede desactivar.

Detección de inyección de instrucciones y jailbreak

La inyección de instrucciones es una vulnerabilidad de seguridad en la que los atacantes crean comandos especiales en la entrada de texto (la instrucción) para engañar a los modelos de IA. De ese modo, la IA podría pasar por alto sus instrucciones habituales, revelar información sensible o realizar acciones para las que no se diseñó. En el contexto de los LLM, el jailbreaking se refiere a la acción de eludir los protocolos de seguridad y los lineamientos éticos integrados en el modelo. Esto permite que el LLM genere respuestas que originalmente se diseñaron para evitar, como contenido dañino, poco ético y peligroso.

Cuando se habilita la detección de inyección de instrucciones y jailbreaking, Model Armor analiza las instrucciones y las respuestas en busca de contenido malicioso. Si se detecta, Model Armor bloquea la instrucción o la respuesta.

Protección de datos sensibles

Sensitive Data Protection es un Google Cloud servicio que te ayuda a descubrir, clasificar y desidentificar datos sensibles. Sensitive Data Protection puede identificar elementos, contexto y documentos sensibles para ayudarte a reducir el riesgo de filtración de datos que entran y salen de las cargas de trabajo de IA. Puedes usar la Protección de datos sensibles directamente en Model Armor para transformar, asignar tokens y ocultar elementos sensibles, y, al mismo tiempo, conservar el contexto no sensible. Model Armor puede aceptar plantillas de inspección existentes, que son configuraciones que actúan como planos para optimizar el proceso de análisis e identificación de datos sensibles específicos para tu empresa y tus necesidades de cumplimiento. De esta manera, puedes tener coherencia e interoperabilidad entre otras cargas de trabajo que usan la Protección de datos sensibles.

Model Armor ofrece dos modos para la configuración de Sensitive Data Protection:

  • Configuración básica: En este modo, configuras la Protección de datos sensibles especificando los tipos de datos sensibles que se deben analizar. Este modo admite las siguientes categorías:

    • Número de tarjeta de crédito
    • Número de seguridad social (SSN) de EE.UU.
    • Número de cuenta financiera
    • Número de identificación fiscal individual (ITIN) de EE.UU.
    • Google Cloud credentials
    • Google Cloud Clave de API

    La configuración básica solo permite operaciones de inspección y no admite el uso de plantillas de Sensitive Data Protection. Para obtener más información, consulta Configuración básica de la Protección de datos sensibles.

  • Configuración avanzada: Este modo ofrece más flexibilidad y personalización a través de las plantillas de Protección de datos sensibles. Las plantillas de protección de datos sensibles son configuraciones predefinidas que te permiten especificar reglas de detección y técnicas de desidentificación más detalladas. La configuración avanzada admite operaciones de inspección y desidentificación.

Los niveles de confianza de Sensitive Data Protection funcionan de una manera ligeramente diferente a los de otros filtros. Para obtener más información sobre los niveles de confianza de Sensitive Data Protection, consulta Probabilidad de coincidencias de Sensitive Data Protection. Para obtener más información sobre Sensitive Data Protection en general, consulta la descripción general de Sensitive Data Protection.

Detección de URLs maliciosas

Las URLs maliciosas suelen disfrazarse para parecer legítimas, lo que las convierte en una herramienta potente para los ataques de phishing, la distribución de software malicioso y otras amenazas en línea. Por ejemplo, si un PDF contiene una URL maliciosa incorporada, se puede usar para comprometer cualquier sistema posterior que procese los resultados del LLM.

Cuando se habilita la detección de URLs maliciosas, Model Armor analiza las URLs para identificar si son maliciosas. Esto te permite tomar medidas y evitar que se muestren URLs maliciosas.

Define el tipo de aplicación

La aplicación de políticas define lo que sucede después de que se detecta un incumplimiento. Para configurar cómo Model Armor controla las detecciones, debes establecer el tipo de aplicación. Model Armor ofrece los siguientes tipos de aplicación:

  • Solo inspeccionar: Inspecciona las solicitudes que incumplen la configuración establecida, pero no las bloquea.
  • Inspeccionar y bloquear: Bloquea las solicitudes que incumplen la configuración establecida.

Para usar Inspect only de manera eficaz y obtener estadísticas valiosas, habilita Cloud Logging. Si Cloud Logging no está habilitado, Inspect only no proporcionará información útil.

Accede a tus registros a través de Cloud Logging. Filtra por el nombre del servicio modelarmor.googleapis.com. Busca entradas relacionadas con las operaciones que habilitaste en tu plantilla. Para obtener más información, consulta Visualiza los registros con el Explorador de registros.

Configuración de Model Armor Floor

Si bien las plantillas de Model Armor brindan flexibilidad para las aplicaciones individuales, las organizaciones suelen necesitar establecer un nivel de protección de referencia en todas sus aplicaciones de IA. Aquí es donde se usan los parámetros de configuración de límite inferior de Model Armor. Actúan como reglas que definen requisitos mínimos para todas las plantillas creadas en un punto específico de la jerarquía de recursos Google Cloud (es decir, a nivel de la organización, la carpeta o el proyecto).

Para obtener más información, consulta Configuración de la protección del modelo.

Idiomas admitidos

Los filtros de Model Armor admiten la limpieza de instrucciones y respuestas en varios idiomas.

Existen dos formas de habilitar la detección de varios idiomas:

Revisión de documentos

El texto de los documentos puede incluir contenido sensible y malicioso. Model Armor puede analizar los siguientes tipos de documentos para detectar seguridad, intentos de inyección de instrucciones y jailbreaking, datos sensibles y URLs maliciosas:

  • PDF
  • CSV
  • Archivos de texto: TXT
  • Documentos de Microsoft Word: DOCX, DOCM, DOTX y DOTM
  • Diapositivas de Microsoft PowerPoint: PPTX, PPTM, POTX, POTM y POT
  • Hojas de Microsoft Excel: XLSX, XLSM, XLTX, XLTM

Model Armor rechaza las solicitudes para analizar archivos en formato de texto enriquecido que tienen un tamaño de 50 bytes o menos, ya que es muy probable que estos archivos no sean válidos.

Precios

Model Armor se puede comprar como parte integrada de Security Command Center o como un servicio independiente. Para obtener información sobre los precios, consulta Precios de Security Command Center.

Tokens

Los modelos de IA generativa dividen el texto y otros datos en unidades llamadas tokens. Model Armor usa la cantidad total de tokens en las instrucciones y respuestas de IA para determinar los precios. Model Armor limita la cantidad de tokens procesados en cada instrucción y respuesta.

Model Armor tiene límites de tokens variables según el filtro específico. Cuando el mensaje o la respuesta superan el límite de tokens, el filtro de Protección de datos sensibles devuelve EXECUTION_SKIPPED. Todos los demás filtros, si la instrucción o la respuesta superan el límite de tokens, devuelven MATCH_FOUND si se encuentra contenido malicioso y EXECUTION_SKIPPED si no se encuentra contenido malicioso.

Filtro Límite de tokens
Detección de inyección de instrucciones y jailbreak 10,000
IA responsable 10,000
Material de abuso sexual infantil 10,000
Sensitive Data Protection Hasta 130,000

¿Qué sigue?