L'attività Rilevamento lingua di MediaPipe ti consente di identificare la lingua di un testo. Questa attività opera sui dati di testo con un modello di machine learning (ML) e genera un elenco di previsioni, in cui ogni previsione è costituita da un codice lingua ISO 639-1 e da una probabilità.
Per iniziare a utilizzare questa attività, segui una di queste guide all'implementazione per la tua piattaforma di destinazione. Queste guide specifiche per la piattaforma illustrano un'implementazione di base di questa attività, incluso un modello consigliato e un esempio di codice con le opzioni di configurazione consigliate:
Questa sezione descrive le funzionalità, gli input, gli output e le opzioni di configurazione di questa attività.
Funzionalità
Soglia di punteggio: filtra i risultati in base ai punteggi di previsione.
Etichetta lista consentita e lista bloccata: specifica le categorie rilevate
Input delle attività
Output delle attività
Il Rilevamento lingua accetta il seguente tipo di dati di input:
Stringa
Il Rilevamento lingua genera un elenco di previsioni contenente:
Codice lingua: un codice lingua/impostazioni internazionali ISO 639-1 (https://it.wikipedia.org/wiki / Lista_dei_codici_ISO_639-1) (ad es. "it" per l'italiano, "uz" per l'uzbeko, "ja-Latn" per il giapponese (romaji)) sotto forma di stringa.
Probabilità: il punteggio di confidenza per questa previsione, espresso come probabilità tra zero e uno come valore in virgola mobile.
Opzioni di configurazione
Questa attività ha le seguenti opzioni di configurazione:
Nome opzione
Descrizione
Intervallo di valori
Valore predefinito
max_results
Imposta il numero massimo facoltativo di previsioni linguistiche con il punteggio più alto da restituire. Se questo valore è inferiore a zero, vengono restituiti tutti i risultati disponibili.
Qualsiasi numero positivo
-1
score_threshold
Imposta la soglia del punteggio di previsione che sostituisce quella fornita
nei metadati del modello (se presenti). I risultati inferiori a questo valore vengono rifiutati.
Qualsiasi stato mobile
Non impostato
category_allowlist
Imposta l'elenco facoltativo dei codici lingua consentiti. Se non è vuoto,
le previsioni linguistiche il cui codice lingua non è presente in questo insieme verranno
escluse. Questa opzione è mutuamente esclusiva con
category_denylist e l'utilizzo di entrambe genera un errore.
Qualsiasi stringa
Non impostato
category_denylist
Imposta l'elenco facoltativo dei codici lingua non consentiti. Se non è vuoto, le previsioni linguistiche il cui codice lingua è in questo insieme verranno escluse. Questa opzione è mutuamente esclusiva con category_allowlist e
l'utilizzo di entrambe genera un errore.
Qualsiasi stringa
Non impostato
Modelli
Quando inizi a sviluppare con questa attività, offriamo un modello predefinito consigliato.
Modello di rilevamento della lingua (consigliato)
Questo modello è progettato per essere leggero (315 KB) e utilizza un'architettura di classificazione delle reti neurali basata su embedding. Il modello identifica la lingua utilizzando un
codice lingua
ISO 639-1 e può identificare 110 lingue. Per un elenco delle lingue supportate dal
modello, consulta il
file delle etichette,
che elenca le lingue in base al codice ISO 639-1.
Ecco i benchmark delle attività per l'intera pipeline in base ai modelli preaddestrati sopra riportati. Il risultato della latenza è la latenza media su Pixel 6 che utilizza la CPU / GPU.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Mancano le informazioni di cui ho bisogno","missingTheInformationINeed","thumb-down"],["Troppo complicato/troppi passaggi","tooComplicatedTooManySteps","thumb-down"],["Obsoleti","outOfDate","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Problema relativo a esempi/codice","samplesCodeIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-01-13 UTC."],[],[],null,["The MediaPipe Language Detector task lets you identify the language of a piece of text. This\ntask operates on text data with a machine learning (ML) model and outputs a list\nof predictions, where each prediction consists of an\n[ISO 639-1](https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) language code\nand a probability.\n\n[Try it!arrow_forward](https://mediapipe-studio.webapps.google.com/demo/language_detector)\n\nGet Started\n\nStart using this task by following one of these implementation guides for your\ntarget platform. These platform-specific guides walk you through a basic\nimplementation of this task, including a recommended model, and code example\nwith recommended configuration options:\n\n- **Android** - [Code example](https://github.com/google-ai-edge/mediapipe-samples/tree/main/examples/language_detector/android) - [Guide](./android)\n- **Python** - [Code example](https://colab.research.google.com/github/googlesamples/mediapipe/blob/main/examples/language_detector/python/%5BMediaPipe_Python_Tasks%5D_Language_Detector.ipynb) - [Guide](./python)\n- **Web** - [Code example](https://codepen.io/mediapipe-preview/pen/RweLdpK) - [Guide](./web_js)\n\nTask details\n\nThis section describes the capabilities, inputs, outputs, and configuration\noptions of this task.\n\nFeatures\n\n- **Score threshold** - Filter results based on prediction scores\n- **Label allowlist and denylist** - Specify the categories detected\n\n| Task inputs | Task outputs |\n|-------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|\n| Language Detector accepts the following input data type: - String | Language Detector outputs a list of predictions containing: - Language code: An ISO 639-1 (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) language / locale code (e.g. \"en\" for English, \"uz\" for Uzbek, \"ja-Latn\" for Japanese (romaji)) as a string. \u003c!-- --\u003e - Probability: the confidence score for this prediction, expressed as a probability between zero and one as floating point value. |\n\nConfigurations options\n\nThis task has the following configuration options:\n\n| Option Name | Description | Value Range | Default Value |\n|----------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------|---------------|\n| `max_results` | Sets the optional maximum number of top-scored language predictions to return. If this value is less than zero, all available results are returned. | Any positive numbers | `-1` |\n| `score_threshold` | Sets the prediction score threshold that overrides the one provided in the model metadata (if any). Results below this value are rejected. | Any float | Not set |\n| `category_allowlist` | Sets the optional list of allowed language codes. If non-empty, language predictions whose language code is not in this set will be filtered out. This option is mutually exclusive with `category_denylist` and using both results in an error. | Any strings | Not set |\n| `category_denylist` | Sets the optional list of language codes that are not allowed. If non-empty, language predictions whose language code is in this set will be filtered out. This option is mutually exclusive with `category_allowlist` and using both results in an error. | Any strings | Not set |\n\nModels\n\nWe offer a default, recommended model when you start developing with this task.\n| **Attention:** This MediaPipe Solutions Preview is an early release. [Learn more](/edge/mediapipe/solutions/about#notice).\n\nLanguage detector model (recommended)\n\nThis model is built to be lightweight (315 KB) and uses embedding-based, neural\nnetwork classification architecture. The model identifies language using an\n[ISO 639-1](https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) language\ncode, and can identify 110 languages. For a list of languages supported by the\nmodel, see the\n[label file](https://storage.googleapis.com/mediapipe-tasks/language_detector/labels.txt),\nwhich lists languages by their ISO 639-1 code.\n\n| Model name | Input shape | Quantization type | Model card | Versions |\n|---------------------------------------------------------------------------------------------------------------------------------------------|--------------|-------------------|---------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------|\n| [Language Detector](https://storage.googleapis.com/mediapipe-models/language_detector/language_detector/float32/1/language_detector.tflite) | string UTF-8 | none (float32) | [info](https://storage.googleapis.com/mediapipe-assets/LanguageDetector%20Model%20Card.pdf) | [Latest](https://storage.googleapis.com/mediapipe-models/language_detector/language_detector/float32/1/language_detector.tflite) |\n\nTask benchmarks\n\nHere's the task benchmarks for the whole pipeline based on the above\npre-trained models. The latency result is the average latency on Pixel 6 using\nCPU / GPU.\n\n| Model Name | CPU Latency | GPU Latency |\n|-------------------|-------------|-------------|\n| Language Detector | 0.31ms | - |"]]