Guía de detección de idioma

Ejemplo de IU que muestra una oración de entrada en francés que se identifica correctamente como francés en el resultado.

La tarea Detector de idioma de MediaPipe te permite identificar el idioma de un texto. Esta tarea opera en datos de texto con un modelo de aprendizaje automático (AA) y genera una lista de predicciones, en la que cada predicción consiste en un código de idioma ISO 639-1 y una probabilidad.

Pruébala.

Comenzar

Para comenzar a usar esta tarea, sigue una de estas guías de implementación para tu plataforma de destino. En estas guías específicas de la plataforma, se explica una implementación básica de esta tarea, incluido un modelo recomendado y un ejemplo de código con las opciones de configuración recomendadas:

Detalles de la tarea

En esta sección, se describen las capacidades, las entradas, las salidas y las opciones de configuración de esta tarea.

Funciones

Umbral de puntuación: Filtra los resultados según las puntuaciones de predicción.
Etiqueta la lista de entidades permitidas y la lista de bloqueo: Especifica las categorías detectadas.

Entradas de tareas	Resultados de las tareas
El detector de lenguaje acepta el siguiente tipo de datos de entrada: String	El detector de idiomas genera una lista de predicciones que contiene lo siguiente: Código de idioma: Es un código de idioma o configuración regional ISO 639-1 (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) (p.ej., "en" para inglés, "uz" para uzbeko, "ja-Latn" para japonés (romaji)) como una cadena. Probabilidad: Es la puntuación de confianza de esta predicción, expresada como una probabilidad entre cero y uno como valor de punto flotante.

Entradas de tareas

Resultados de las tareas

El detector de lenguaje acepta el siguiente tipo de datos de entrada:

String

El detector de idiomas genera una lista de predicciones que contiene lo siguiente:

Código de idioma: Es un código de idioma o configuración regional ISO 639-1 (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) (p.ej., "en" para inglés, "uz" para uzbeko, "ja-Latn" para japonés (romaji)) como una cadena.

Probabilidad: Es la puntuación de confianza de esta predicción, expresada como una probabilidad entre cero y uno como valor de punto flotante.

Opciones de configuración

Esta tarea tiene las siguientes opciones de configuración:

Nombre de la opción	Descripción	Rango de valores	Valor predeterminado
`max_results`	Establece la cantidad máxima opcional de predicciones de idioma con la puntuación más alta que se mostrarán. Si este valor es menor que cero, se muestran todos los resultados disponibles.	Cualquier número positivo	`-1`
`score_threshold`	Establece el umbral de puntuación de predicción que anula el que se proporciona en los metadatos del modelo (si corresponde). Se rechazan los resultados por debajo de este valor.	Cualquier número de punto flotante	Sin establecer
`category_allowlist`	Establece la lista opcional de códigos de idioma permitidos. Si no está vacío, se filtrarán las predicciones de idioma cuyo código de idioma no esté en este conjunto. Esta opción es mutuamente excluyente con `category_denylist` y el uso de ambas genera un error.	Cualquier cadena	Sin establecer
`category_denylist`	Establece la lista opcional de códigos de idioma que no están permitidos. Si no está vacío, se filtrarán las predicciones de idioma cuyo código de idioma esté en este conjunto. Esta opción es mutuamente excluyente con `category_allowlist` y si usas ambas, se genera un error.	Cualquier cadena	Sin establecer

Modelos

Ofrecemos un modelo predeterminado y recomendado cuando comienzas a desarrollar con esta tarea.

Modelo de detector de idioma (recomendado)

Este modelo se diseñó para ser ligero (315 KB) y usa una arquitectura de clasificación de redes neuronales basada en incorporaciones. El modelo identifica el idioma con un código de idioma ISO 639-1 y puede identificar 110 idiomas. Para obtener una lista de los idiomas compatibles con el modelo, consulta el archivo de etiquetas, en el que se enumeran los idiomas por su código ISO 639-1.

Nombre del modelo	Forma de entrada	Tipo de cuantización	Tarjeta de modelo	Versiones
Detector de idioma	Cadena UTF-8	ninguno (float32)	info	Más reciente

Comparativas de tareas

Estas son las comparativas de tareas de toda la canalización según los modelos previamente entrenados anteriores. El resultado de la latencia es la latencia promedio en el Pixel 6 con CPU o GPU.

Nombre del modelo	Latencia de la CPU	Latencia de la GPU
Detector de idioma	0.31 ms	-