Créer un data store multimédia

Cette page explique comment créer un data store pour les données multimédias et y importer des données.

Avant de commencer

Assurez-vous de procéder comme suit :

Choisissez la procédure en fonction de votre source de données

Pour créer un data store multimédia et importer des documents, accédez à la section correspondant à la source que vous prévoyez d'utiliser :

Importer des données depuis BigQuery

Console

Pour utiliser la console Google Cloud afin de créer un data store multimédias et d'importer des documents et des événements utilisateur depuis BigQuery, procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page Applications d'IA.

    AI Applications

  2. Accédez à la page Datastores.

  3. Cliquez sur Créer un datastore.

  4. Sur la page Source, sélectionnez BigQuery.

  5. Sélectionnez Media – Table BigQuery contenant des données média structurées comme type de données à importer.

  6. Dans le champ Chemin d'accès dans BigQuery, cliquez sur Parcourir, sélectionnez les données BigQuery que vous avez préparées pour l'ingestion, puis cliquez sur Sélectionner. Vous pouvez également saisir l'emplacement directement dans le champ Chemin d'accès BigQuery.

  7. Si vos données se trouvent dans le schéma Google prédéfini, sélectionnez Schéma Google prédéfini, cliquez sur Continuer, puis passez à l'étape 11.

  8. Si vos données se trouvent dans votre propre schéma, sélectionnez Schéma personnalisé, puis cliquez sur Continuer.

  9. Examinez le schéma détecté et utilisez le menu Propriétés clés pour attribuer des propriétés aux champs de votre schéma.

  10. Cliquez sur Continuer.

    Vous ne pouvez pas continuer tant que les propriétés de clé requises ne sont pas mappées. Elles sont indiquées par des coches vertes  au lieu de points d'exclamation orange .

  11. Saisissez un nom pour votre data store, puis cliquez sur Créer.

Importer depuis Cloud Storage

Console

Pour utiliser la console Google Cloud afin de créer un data store multimédia et d'importer des documents depuis Cloud Storage, procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page Applications d'IA.

    AI Applications

  2. Accédez à la page Datastores.

  3. Cliquez sur Créer un datastore.

  4. Sur la page Source, sélectionnez Cloud Storage.

  5. Sélectionnez Données multimédias structurées (JSONL contenant des fichiers multimédias) comme type de données à importer.

  6. Dans la section Sélectionnez un dossier ou un fichier à importer, sélectionnez Dossier ou Fichier.

  7. Cliquez sur Parcourir, sélectionnez les données que vous avez préparées pour l'ingestion, puis cliquez sur Sélectionner. Vous pouvez également saisir l'emplacement directement dans le champ gs://.

  8. Si vos données se trouvent dans le schéma Google prédéfini, sélectionnez Schéma Google prédéfini, cliquez sur Continuer, puis passez à l'étape 11.

  9. Si vos données se trouvent dans votre propre schéma, sélectionnez Schéma personnalisé, puis cliquez sur Continuer.

  10. Examinez le schéma détecté et utilisez le menu Propriétés clés pour attribuer des propriétés aux champs de votre schéma.

  11. Cliquez sur Continuer.

    Vous ne pouvez pas continuer tant que les propriétés de clé requises ne sont pas mappées. Elles sont indiquées par des coches vertes  au lieu de points d'exclamation orange .

  12. Saisissez un nom pour votre data store, puis cliquez sur Créer.

Importer des documents à l'aide de l'API

Si vous utilisez le schéma prédéfini Google, vous pouvez importer vos documents en envoyant une requête POST à la méthode REST Documents:import, et en utilisant l'objet InlineSource pour spécifier vos données.

Pour obtenir un exemple de format de document JSON, consultez la section Format de document JSON.

Exigences d'importation

Voici les exigences à respecter pour importer des documents multimédias à l'aide de l'API :

  • Chaque document doit figurer sur une ligne distincte.

  • Le nombre maximal de documents dans une même importation est de 100.

Procédure

Pour importer des documents multimédias à l'aide de l'API, procédez comme suit :

  1. Créer un datastore

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "MEDIA"
    }'
    

    Remplacez les éléments suivants :

    • PROJECT_ID : ID de votre projet Google Cloud .
    • DATA_STORE_ID : ID du data store Vertex AI Search que vous souhaitez créer. Cet ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.
    • DATA_STORE_DISPLAY_NAME : nom à afficher du data store Vertex AI Search que vous souhaitez créer.
  2. Créez le fichier JSON de votre document et appelez-le ./data.json :

    {
    "inlineSource": {
    "documents": [
      { DOCUMENT_1 },
      { DOCUMENT_2 }
    ]
    }
    }
    
  3. Appelez la méthode POST :

    curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     --data @./data.json \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"

    Remplacez les éléments suivants :

    • PROJECT_ID : par l'ID du projet.
    • DATA_STORE_ID : ID de votre data store.

Format des documents JSON

Les exemples suivants montrent des entrées Document au format JSON.

Fournissez un document entier sur une seule ligne. Chaque document doit figurer sur une ligne distincte.

Champs obligatoires minimum :

{
   "id": "sample-01",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Objet complet :

{
   "id": "child-sample-0",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Surveiller l'importation et afficher les données

  1. Pour vérifier l'état de l'ingestion, accédez à la page Datastores, puis cliquez sur le nom de votre datastore pour afficher des informations détaillées sur la page Données.

  2. Cliquez sur l'onglet Activité.

    Lorsque la colonne "État" de l'onglet Activité passe de En cours à Importation terminée, l'ingestion est terminée.

    Selon la taille de vos données, l'ingestion peut prendre de quelques minutes ou plusieurs heures.

  3. Cliquez sur Documents pour afficher les données que vous avez importées.

Importer des événements utilisateur

Pour importer des événements utilisateur dans votre data store média :

Étapes suivantes