Ti presentiamo Google AI Edge Portal: esegui il benchmarking dell'IA di Edge su larga scala. Registrati per richiedere l'accesso durante l'anteprima privata.

Questa pagina è stata tradotta dall'API Cloud Translation.

Guida al rilevamento della lingua

Interfaccia utente di esempio che mostra una frase di input in francese identificata correttamente come francese nell'output.

L'attività Rilevamento lingua di MediaPipe ti consente di identificare la lingua di un testo. Questa attività opera sui dati di testo con un modello di machine learning (ML) e genera un elenco di previsioni, in cui ogni previsione è costituita da un codice lingua ISO 639-1 e da una probabilità.

Prova!

Inizia

Per iniziare a utilizzare questa attività, segui una di queste guide all'implementazione per la tua piattaforma di destinazione. Queste guide specifiche per la piattaforma illustrano un'implementazione di base di questa attività, incluso un modello consigliato e un esempio di codice con le opzioni di configurazione consigliate:

Android - Esempio di codice - Guide
Python - Esempio di codice - Guida
Web - Esempio di codice - Guida

Dettagli attività

Questa sezione descrive le funzionalità, gli input, gli output e le opzioni di configurazione di questa attività.

Funzionalità

Soglia di punteggio: filtra i risultati in base ai punteggi di previsione.
Etichetta lista consentita e lista bloccata: specifica le categorie rilevate

Input delle attività	Output delle attività
Il Rilevamento lingua accetta il seguente tipo di dati di input: Stringa	Il Rilevamento lingua genera un elenco di previsioni contenente: Codice lingua: un codice lingua/impostazioni internazionali ISO 639-1 (https://it.wikipedia.org/wiki / Lista_dei_codici_ISO_639-1) (ad es. "it" per l'italiano, "uz" per l'uzbeko, "ja-Latn" per il giapponese (romaji)) sotto forma di stringa. Probabilità: il punteggio di confidenza per questa previsione, espresso come probabilità tra zero e uno come valore in virgola mobile.

Input delle attività

Output delle attività

Il Rilevamento lingua accetta il seguente tipo di dati di input:

Stringa

Il Rilevamento lingua genera un elenco di previsioni contenente:

Codice lingua: un codice lingua/impostazioni internazionali ISO 639-1 (https://it.wikipedia.org/wiki / Lista_dei_codici_ISO_639-1) (ad es. "it" per l'italiano, "uz" per l'uzbeko, "ja-Latn" per il giapponese (romaji)) sotto forma di stringa.

Probabilità: il punteggio di confidenza per questa previsione, espresso come probabilità tra zero e uno come valore in virgola mobile.

Opzioni di configurazione

Questa attività ha le seguenti opzioni di configurazione:

Nome opzione	Descrizione	Intervallo di valori	Valore predefinito
`max_results`	Imposta il numero massimo facoltativo di previsioni linguistiche con il punteggio più alto da restituire. Se questo valore è inferiore a zero, vengono restituiti tutti i risultati disponibili.	Qualsiasi numero positivo	`-1`
`score_threshold`	Imposta la soglia del punteggio di previsione che sostituisce quella fornita nei metadati del modello (se presenti). I risultati inferiori a questo valore vengono rifiutati.	Qualsiasi stato mobile	Non impostato
`category_allowlist`	Imposta l'elenco facoltativo dei codici lingua consentiti. Se non è vuoto, le previsioni linguistiche il cui codice lingua non è presente in questo insieme verranno escluse. Questa opzione è mutuamente esclusiva con `category_denylist` e l'utilizzo di entrambe genera un errore.	Qualsiasi stringa	Non impostato
`category_denylist`	Imposta l'elenco facoltativo dei codici lingua non consentiti. Se non è vuoto, le previsioni linguistiche il cui codice lingua è in questo insieme verranno escluse. Questa opzione è mutuamente esclusiva con `category_allowlist` e l'utilizzo di entrambe genera un errore.	Qualsiasi stringa	Non impostato

Modelli

Quando inizi a sviluppare con questa attività, offriamo un modello predefinito consigliato.

Modello di rilevamento della lingua (consigliato)

Questo modello è progettato per essere leggero (315 KB) e utilizza un'architettura di classificazione delle reti neurali basata su embedding. Il modello identifica la lingua utilizzando un codice lingua ISO 639-1 e può identificare 110 lingue. Per un elenco delle lingue supportate dal modello, consulta il file delle etichette, che elenca le lingue in base al codice ISO 639-1.

Nome modello	Forma di input	Tipo di quantizzazione	Scheda del modello	Versioni
Rilevatore di lingua	stringa UTF-8	none (float32)	informazioni	Ultime notizie

Benchmark delle attività

Ecco i benchmark delle attività per l'intera pipeline in base ai modelli preaddestrati sopra riportati. Il risultato della latenza è la latenza media su Pixel 6 che utilizza la CPU / GPU.

Nome modello	Latenza della CPU	Latenza GPU
Rilevamento della lingua	0,31 ms	-