Wenn Sie einen Datenspeicher erstellen und Daten für benutzerdefinierte Empfehlungen aufnehmen möchten, rufen Sie den Abschnitt für die gewünschte Quelle auf:
BigQuery
Sie haben zwei Möglichkeiten, Datenspeicher aus BigQuery-Tabellen zu erstellen:
Einmalige Aufnahme: Sie importieren Daten aus einer BigQuery-Tabelle in einen Datenspeicher. Die Daten im Datenspeicher ändern sich nur, wenn Sie sie manuell aktualisieren.
Regelmäßige Aufnahme: Sie importieren Daten aus einer oder mehreren BigQuery-Tabellen und legen eine Synchronisierungshäufigkeit fest, die bestimmt, wie oft die Datenspeicher mit den neuesten Daten aus dem BigQuery-Dataset aktualisiert werden.
In der folgenden Tabelle werden die beiden Möglichkeiten zum Importieren von BigQuery-Daten in Vertex AI Search-Datenspeicher verglichen.
Einmalige Aufnahme | Regelmäßige Aufnahme |
---|---|
Allgemein verfügbar (GA) | Öffentliche Vorschau |
Die Daten müssen manuell aktualisiert werden. | Die Daten werden automatisch alle 1, 3 oder 5 Tage aktualisiert. Daten können nicht manuell aktualisiert werden. |
Vertex AI Search erstellt einen einzelnen Datenspeicher aus einer Tabelle in BigQuery. | Vertex AI Search erstellt einen Datenconnector für ein BigQuery-Dataset und einen Datenspeicher (als Entitätsdatenspeicher bezeichnet) für jede angegebene Tabelle. Für jeden Datenconnector müssen die Tabellen denselben Datentyp (z. B. strukturiert) haben und sich im selben BigQuery-Dataset befinden. |
Daten aus mehreren Tabellen können in einem Datenspeicher kombiniert werden, indem zuerst Daten aus einer Tabelle und dann weitere Daten aus einer anderen Quelle oder BigQuery-Tabelle aufgenommen werden. | Da der manuelle Datenimport nicht unterstützt wird, können die Daten in einem Entitätsdatenspeicher nur aus einer BigQuery-Tabelle stammen. |
Die Zugriffssteuerung für Datenquellen wird unterstützt. | Die Zugriffssteuerung für Datenquellen wird nicht unterstützt. Die importierten Daten können Zugriffssteuerungen enthalten, diese werden jedoch nicht berücksichtigt. |
Sie können einen Datenspeicher entweder über dieGoogle Cloud Console oder die API erstellen. | Sie müssen die Console verwenden, um Daten-Connectors und die zugehörigen Datenspeicher für Entitäten zu erstellen. |
CMEK-kompatibel. | CMEK-kompatibel. |
Einmaliger Import aus BigQuery
Wenn Sie Daten aus einer BigQuery-Tabelle aufnehmen möchten, gehen Sie so vor, um einen Datenspeicher zu erstellen und Daten entweder über die Google Cloud Konsole oder die API aufzunehmen.
Bevor Sie Ihre Daten importieren, lesen Sie den Artikel Daten für die Aufnahme vorbereiten.
Console
So verwenden Sie die Google Cloud Konsole zum Erfassen von Daten aus BigQuery:
Rufen Sie in der Google Cloud Console die Seite KI-Anwendungen auf.
Rufen Sie die Seite Datenspeicher auf.
Klicken Sie auf
Datenspeicher erstellen.Wählen Sie auf der Seite Quelle die Option BigQuery aus.
Wählen Sie im Abschnitt Welche Art von Daten importieren Sie? den Datentyp aus, den Sie importieren möchten.
Wählen Sie im Abschnitt Synchronisierungshäufigkeit die Option Einmal aus.
Klicken Sie im Feld BigQuery-Pfad auf Durchsuchen, wählen Sie eine Tabelle aus, die Sie für den Import vorbereitet haben, und klicken Sie dann auf Auswählen. Alternativ können Sie den Tabellenspeicherort direkt in das Feld BigQuery-Pfad eingeben.
Klicken Sie auf Weiter.
Wenn Sie strukturierte Daten einmalig importieren:
Felder Schlüsselattributen zuordnen
Wenn wichtige Felder im Schema fehlen, fügen Sie sie mit Neues Feld hinzufügen hinzu.
Weitere Informationen finden Sie unter Automatische Erkennung und Bearbeitung.
Klicken Sie auf Weiter.
Wählen Sie eine Region für Ihren Datenspeicher aus.
Geben Sie einen Namen für den Datenspeicher ein.
Klicken Sie auf Erstellen.
Wenn Sie den Status der Aufnahme prüfen möchten, rufen Sie die Seite Datenspeicher auf und klicken Sie auf den Namen des Datenspeichers, um Details dazu auf der Seite Daten anzeigen zu lassen. Wenn sich die Statusspalte auf dem Tab Aktivität von Wird ausgeführt in Import abgeschlossen ändert, ist die Aufnahme abgeschlossen.
Je nach Größe der Daten kann die Datenaufnahme einige Minuten bis mehrere Stunden dauern.
REST
So erstellen Sie einen Datenspeicher über die Befehlszeile und importieren Daten aus BigQuery:
Datenspeicher erstellen.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
Ersetzen Sie Folgendes:
PROJECT_ID
: die ID Ihres Google Cloud Projekts.DATA_STORE_ID
: Die ID des Vertex AI Search-Datenspeichers, den Sie erstellen möchten. Diese ID darf nur Kleinbuchstaben, Ziffern, Unterstriche und Bindestriche enthalten.DATA_STORE_DISPLAY_NAME
: Der Anzeigename des Vertex AI Search-Datenspeichers, den Sie erstellen möchten.
Daten aus BigQuery importieren
Wenn Sie ein Schema definiert haben, achten Sie darauf, dass die Daten diesem Schema entsprechen.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA", "aclEnabled": "BOOLEAN" }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Ersetzen Sie Folgendes:
PROJECT_ID
: die ID Ihres Google Cloud Projekts.DATA_STORE_ID
: Die ID des Vertex AI Search-Datenspeichers.DATASET_ID
: die ID des BigQuery-Datasets.TABLE_ID
: die ID der BigQuery-Tabelle.- Wenn sich die BigQuery-Tabelle nicht unter PROJECT_ID befindet, müssen Sie dem Dienstkonto
service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
die Berechtigung „BigQuery Data Viewer“ für die BigQuery-Tabelle erteilen. Wenn Sie beispielsweise eine BigQuery-Tabelle aus dem Quellprojekt „123“ in das Zielprojekt „456“ importieren, erteilen Sie die Berechtigungenservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
für die BigQuery-Tabelle im Projekt „123“.
- Wenn sich die BigQuery-Tabelle nicht unter PROJECT_ID befindet, müssen Sie dem Dienstkonto
DATA_SCHEMA
: Optional. Mögliche Werte sinddocument
undcustom
. Der Standardwert istdocument
.document
: Die BigQuery-Tabelle, die Sie verwenden, muss dem standardmäßigen BigQuery-Schema entsprechen, das unter Daten für die Aufnahme vorbereiten bereitgestellt wird. Sie können die ID jedes Dokuments selbst definieren, während Sie alle Daten in den jsonData-String einfügen.custom
: Es wird jedes BigQuery-Tabellenschema akzeptiert und Vertex AI Search generiert automatisch die IDs für jedes importierte Dokument.
ERROR_DIRECTORY
: Optional. Ein Cloud Storage-Verzeichnis für Fehlerinformationen zum Import, z. B.gs://<your-gcs-bucket>/directory/import_errors
. Google empfiehlt, dieses Feld leer zu lassen, damit Vertex AI Search automatisch ein temporäres Verzeichnis erstellt.RECONCILIATION_MODE
: Optional. Mögliche Werte sindFULL
undINCREMENTAL
. Der Standardwert istINCREMENTAL
. Wenn SieINCREMENTAL
angeben, werden Daten aus BigQuery inkrementell in Ihrem Datenspeicher aktualisiert. Dadurch wird ein Upsert-Vorgang ausgeführt, bei dem neue Dokumente hinzugefügt und vorhandene Dokumente durch aktualisierte Dokumente mit derselben ID ersetzt werden. Wenn SieFULL
angeben, werden die Dokumente in Ihrem Datenspeicher vollständig neu indexiert. Mit anderen Worten: Neue und aktualisierte Dokumente werden Ihrem Datenspeicher hinzugefügt und Dokumente, die nicht in BigQuery enthalten sind, werden aus Ihrem Datenspeicher entfernt. Der ModusFULL
ist hilfreich, wenn Sie Dokumente, die Sie nicht mehr benötigen, automatisch löschen möchten.AUTO_GENERATE_IDS
: Optional. Gibt an, ob Dokument-IDs automatisch generiert werden sollen. Wenn dieser Wert auftrue
gesetzt ist, werden Dokument-IDs auf Grundlage eines Hash der Nutzlast generiert. Beachten Sie, dass generierte Dokument-IDs bei mehreren Importvorgängen möglicherweise nicht konsistent bleiben. Wenn Sie IDs bei mehreren Importvorgängen automatisch generieren, empfiehlt Google dringend,reconciliationMode
aufFULL
zu setzen, um einheitliche Dokument-IDs zu erhalten.Geben Sie
autoGenerateIds
nur an, wennbigquerySource.dataSchema
aufcustom
festgelegt ist. Andernfalls wird der FehlerINVALID_ARGUMENT
zurückgegeben. Wenn SieautoGenerateIds
nicht angeben oder auffalse
festlegen, müssen SieidField
angeben. Andernfalls schlägt der Import der Dokumente fehl.ID_FIELD
: Optional. Gibt an, welche Felder die Dokument-IDs sind. Bei BigQuery-Quelldateien gibtidField
den Namen der Spalte in der BigQuery-Tabelle an, die die Dokument-IDs enthält.Geben Sie
idField
nur an, wenn (1)bigquerySource.dataSchema
aufcustom
festgelegt ist und (2)auto_generate_ids
auffalse
festgelegt oder nicht angegeben ist. Andernfalls wird der FehlerINVALID_ARGUMENT
zurückgegeben.Der Wert des BigQuery-Spaltennamens muss vom Typ „String“ sein, zwischen 1 und 63 Zeichen lang sein und RFC-1034 entsprechen. Andernfalls schlägt der Import der Dokumente fehl.
C#
Weitere Informationen finden Sie in der Referenzdokumentation zur AI Applications C# API.
Richten Sie zur Authentifizierung bei AI Applications Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Datenspeicher erstellen
Dokumente importieren
Go
Weitere Informationen finden Sie in der Referenzdokumentation zur AI Applications Go API.
Richten Sie zur Authentifizierung bei AI Applications Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Datenspeicher erstellen
Dokumente importieren
Java
Weitere Informationen finden Sie in der Referenzdokumentation zur AI Applications Java API.
Richten Sie zur Authentifizierung bei AI Applications Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Datenspeicher erstellen
Dokumente importieren
Node.js
Weitere Informationen finden Sie in der Referenzdokumentation zur AI Applications Node.js API.
Richten Sie zur Authentifizierung bei AI Applications Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Datenspeicher erstellen
Dokumente importieren
Python
Weitere Informationen finden Sie in der Referenzdokumentation zur AI Applications Python API.
Richten Sie zur Authentifizierung bei AI Applications Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Datenspeicher erstellen
Dokumente importieren
Ruby
Weitere Informationen finden Sie in der Referenzdokumentation zur AI Applications Ruby API.
Richten Sie zur Authentifizierung bei AI Applications Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Datenspeicher erstellen
Dokumente importieren
Mit BigQuery verbinden und Daten regelmäßig synchronisieren
Bevor Sie Ihre Daten importieren, lesen Sie den Artikel Daten für die Aufnahme vorbereiten.
In der folgenden Anleitung wird beschrieben, wie Sie einen Datenconnector erstellen, der ein BigQuery-Dataset mit einem Vertex AI Search-Datenconnector verknüpft, und wie Sie für jeden Datenspeicher, den Sie erstellen möchten, eine Tabelle im Dataset angeben. Datenspeicher, die untergeordnete Elemente von Daten-Connectors sind, werden als Entitätsdatenspeicher bezeichnet.
Die Daten aus dem Dataset werden regelmäßig mit den Datenspeichern der Entitäten synchronisiert. Sie können die Synchronisierung täglich, alle drei Tage oder alle fünf Tage festlegen.
Console
So erstellen Sie mit der Google Cloud Console einen Connector, der Daten regelmäßig aus einem BigQuery-Dataset mit Vertex AI Search synchronisiert:
Rufen Sie in der Google Cloud Console die Seite KI-Anwendungen auf.
Klicken Sie im Navigationsmenü auf Datenspeicher.
Klicken Sie auf Datenspeicher erstellen.
Wählen Sie auf der Seite Quelle die Option BigQuery aus.
Wählen Sie den Typ der Daten aus, die Sie importieren.
Klicken Sie auf Regelmäßig.
Wählen Sie die Synchronisierungshäufigkeit aus, also wie oft der Vertex AI Search-Connector mit dem BigQuery-Dataset synchronisiert werden soll. Sie können die Häufigkeit später ändern.
Klicken Sie im Feld BigQuery-Datasetpfad auf Durchsuchen und wählen Sie das Dataset aus, das die Tabellen enthält, die Sie für den Import vorbereitet haben. Alternativ können Sie den Speicherort der Tabelle direkt in das Feld BigQuery-Pfad eingeben. Das Format für den Pfad ist
projectname.datasetname
.Klicken Sie im Feld Zu synchronisierende Tabellen auf Durchsuchen und wählen Sie dann eine Tabelle mit den Daten aus, die Sie für Ihren Datenspeicher benötigen.
Wenn das Dataset weitere Tabellen enthält, die Sie für Datenspeicher verwenden möchten, klicken Sie auf Tabelle hinzufügen und geben Sie auch diese Tabellen an.
Klicken Sie auf Weiter.
Wählen Sie eine Region für Ihren Datenspeicher aus, geben Sie einen Namen für den Daten-Connector ein und klicken Sie auf Erstellen.
Sie haben jetzt einen Data Connector erstellt, der Daten regelmäßig mit dem BigQuery-Dataset synchronisiert. Außerdem haben Sie einen oder mehrere Entitätsdatenspeicher erstellt. Die Datenspeicher haben dieselben Namen wie die BigQuery-Tabellen.
Wenn Sie den Status der Aufnahme prüfen möchten, rufen Sie die Seite Datenspeicher auf und klicken Sie auf den Namen des Daten-Connectors, um Details dazu auf der Seite Daten > Tab Aktivität der Datenaufnahme anzeigen zu lassen. Wenn sich die Statusspalte auf dem Tab Aktivität von Wird ausgeführt in Erfolgreich ändert, ist die erste Aufnahme abgeschlossen.
Je nach Größe der Daten kann die Datenaufnahme einige Minuten bis mehrere Stunden dauern.
Nachdem Sie Ihre Datenquelle eingerichtet und Daten zum ersten Mal importiert haben, synchronisiert der Datenspeicher Daten aus dieser Quelle in der Häufigkeit, die Sie bei der Einrichtung ausgewählt haben. Etwa eine Stunde nach dem Erstellen des Daten-Connectors erfolgt die erste Synchronisierung. Die nächste Synchronisierung erfolgt dann etwa 24, 72 oder 120 Stunden später.
Nächste Schritte
Wenn Sie Ihren Datenspeicher an eine App anhängen möchten, erstellen Sie eine App und wählen Sie Ihren Datenspeicher aus. Folgen Sie dazu der Anleitung unter Benutzerdefinierte Empfehlungs-App erstellen.
Informationen zum Abrufen von Empfehlungen nach der Einrichtung Ihrer App und Ihres Datenspeichers finden Sie unter Empfehlungen abrufen.
Cloud Storage
Sie haben zwei Möglichkeiten, Datenspeicher aus Cloud Storage-Tabellen zu erstellen:
Einmalige Aufnahme: Sie importieren Daten aus einem Cloud Storage-Ordner oder einer Cloud Storage-Datei in einen Datenspeicher. Die Daten im Datenspeicher ändern sich nur, wenn Sie sie manuell aktualisieren.
Regelmäßige Aufnahme: Sie importieren Daten aus einem Cloud Storage-Ordner oder einer Cloud Storage-Datei und legen eine Synchronisierungshäufigkeit fest, die bestimmt, wie oft der Datenspeicher mit den neuesten Daten von diesem Cloud Storage-Speicherort aktualisiert wird.
In der folgenden Tabelle werden die beiden Möglichkeiten zum Importieren von Cloud Storage-Daten in Vertex AI Search-Datenspeicher verglichen.
Einmalige Aufnahme | Regelmäßige Aufnahme |
---|---|
Allgemein verfügbar (GA) | Öffentliche Vorschau |
Die Daten müssen manuell aktualisiert werden. | Die Daten werden automatisch alle ein, drei oder fünf Tage aktualisiert. Daten können nicht manuell aktualisiert werden. |
Vertex AI Search erstellt einen einzelnen Datenspeicher aus einem Ordner oder einer Datei in Cloud Storage. | Vertex AI Search erstellt einen Datenconnector und verknüpft einen Datenspeicher (einen Entitätsdatenspeicher) damit für die angegebene Datei oder den angegebenen Ordner. Jeder Cloud Storage-Datenconnector kann einen einzelnen Entity-Datenspeicher haben. |
Daten aus mehreren Dateien, Ordnern und Buckets können in einem Datenspeicher kombiniert werden, indem Sie zuerst Daten von einem Cloud Storage-Speicherort und dann weitere Daten von einem anderen Speicherort aufnehmen. | Da der manuelle Datenimport nicht unterstützt wird, können die Daten in einem Entity-Datenspeicher nur aus einer Cloud Storage-Datei oder einem Cloud Storage-Ordner stammen. |
Die Zugriffssteuerung für Datenquellen wird unterstützt. Weitere Informationen finden Sie unter Zugriffssteuerung für Datenquellen. | Die Zugriffssteuerung für Datenquellen wird nicht unterstützt. Die importierten Daten können Zugriffssteuerungen enthalten, diese werden jedoch nicht berücksichtigt. |
Sie können einen Datenspeicher entweder über dieGoogle Cloud Console oder die API erstellen. | Sie müssen die Console verwenden, um Daten-Connectors und die zugehörigen Datenspeicher für Entitäten zu erstellen. |
CMEK-kompatibel. | CMEK-kompatibel. |
Einmaliger Import aus Cloud Storage
Wenn Sie Daten aus Cloud Storage aufnehmen möchten, gehen Sie so vor, um einen Datenspeicher zu erstellen und Daten entweder über die Google Cloud Console oder die API aufzunehmen.
Bevor Sie Ihre Daten importieren, lesen Sie den Artikel Daten für die Aufnahme vorbereiten.
Console
So verwenden Sie die Console zum Erfassen von Daten aus einem Cloud Storage-Bucket:
Rufen Sie in der Google Cloud Console die Seite KI-Anwendungen auf.
Rufen Sie die Seite Datenspeicher auf.
Klicken Sie auf
Datenspeicher erstellen.Wählen Sie auf der Seite Quelle die Option Cloud Storage aus.
Wählen Sie im Bereich Ordner oder Datei für Import auswählen die Option Ordner oder Datei aus.
Klicken Sie auf Durchsuchen, wählen Sie die Daten aus, die Sie für die Aufnahme vorbereitet haben, und klicken Sie dann auf Auswählen. Alternativ können Sie den Standort direkt in das Feld
gs://
eingeben.Wählen Sie aus, welche Art von Daten Sie importieren.
Klicken Sie auf Weiter.
Wenn Sie strukturierte Daten einmalig importieren:
Felder Schlüsselattributen zuordnen
Wenn wichtige Felder im Schema fehlen, fügen Sie sie mit Neues Feld hinzufügen hinzu.
Weitere Informationen finden Sie unter Automatische Erkennung und Bearbeitung.
Klicken Sie auf Weiter.
Wählen Sie eine Region für Ihren Datenspeicher aus.
Geben Sie einen Namen für den Datenspeicher ein.
Optional: Wenn Sie unstrukturierte Dokumente ausgewählt haben, können Sie Parsing- und Chunking-Optionen für Ihre Dokumente auswählen. Informationen zum Vergleichen von Parsern finden Sie unter Dokumente parsen. Informationen zum Aufteilen von Dokumenten in Chunks finden Sie unter Dokumente für RAG in Chunks aufteilen.
Für den OCR-Parser und den Layout-Parser können zusätzliche Kosten anfallen. Preise für Document AI-Funktionen
Wenn Sie einen Parser auswählen möchten, maximieren Sie Optionen für die Dokumentverarbeitung und geben Sie die gewünschten Parseroptionen an.
Klicken Sie auf Erstellen.
Wenn Sie den Status der Aufnahme prüfen möchten, rufen Sie die Seite Datenspeicher auf und klicken Sie auf den Namen des Datenspeichers, um Details dazu auf der Seite Daten anzeigen zu lassen. Wenn sich die Statusspalte auf dem Tab Aktivität von Wird ausgeführt in Import abgeschlossen ändert, ist die Aufnahme abgeschlossen.
Je nach Größe der Daten kann die Datenaufnahme einige Minuten oder mehrere Stunden dauern.
REST
So erstellen Sie einen Datenspeicher über die Befehlszeile und erfassen Daten aus Cloud Storage:
Datenspeicher erstellen.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
Ersetzen Sie Folgendes:
PROJECT_ID
: die ID Ihres Google Cloud Projekts.DATA_STORE_ID
: Die ID des Vertex AI Search-Datenspeichers, den Sie erstellen möchten. Diese ID darf nur Kleinbuchstaben, Ziffern, Unterstriche und Bindestriche enthalten.DATA_STORE_DISPLAY_NAME
: Der Anzeigename des Vertex AI Search-Datenspeichers, den Sie erstellen möchten.
Daten aus Cloud Storage importieren.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "gcsSource": { "inputUris": ["INPUT_FILE_PATTERN_1", "INPUT_FILE_PATTERN_2"], "dataSchema": "DATA_SCHEMA", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Ersetzen Sie Folgendes:
PROJECT_ID
: die ID Ihres Google Cloud Projekts.DATA_STORE_ID
: Die ID des Vertex AI Search-Datenspeichers.INPUT_FILE_PATTERN
: Ein Dateimuster in Cloud Storage, das Ihre Dokumente enthält.Für strukturierte Daten oder unstrukturierte Daten mit Metadaten ist ein Beispiel für das Eingabedateimuster
gs://<your-gcs-bucket>/directory/object.json
und ein Beispiel für ein Muster, das mit einer oder mehreren Dateien übereinstimmt,gs://<your-gcs-bucket>/directory/*.json
.Ein Beispiel für unstrukturierte Dokumente ist
gs://<your-gcs-bucket>/directory/*.pdf
. Jede Datei, die dem Muster entspricht, wird zu einem Dokument.Wenn
<your-gcs-bucket>
nicht unter PROJECT_ID aufgeführt ist, müssen Sie dem Dienstkontoservice-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
die Berechtigungen „Storage-Objekt-Betrachter“ für den Cloud Storage-Bucket gewähren. Wenn Sie beispielsweise einen Cloud Storage-Bucket aus dem Quellprojekt „123“ in das Zielprojekt „456“ importieren, gewähren Sieservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
-Berechtigungen für den Cloud Storage-Bucket im Projekt „123“.DATA_SCHEMA
: Optional. Die Werte sinddocument
,custom
,csv
undcontent
. Der Standardwert istdocument
.document
: Unstrukturierte Daten mit Metadaten für unstrukturierte Dokumente hochladen. Jede Zeile der Datei muss eines der folgenden Formate haben. Sie können die ID jedes Dokuments definieren:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
{ "id": "<your-id>", "structData": <JSON object>, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
custom
: JSON für strukturierte Dokumente hochladen. Die Daten sind nach einem Schema organisiert. Sie können das Schema angeben. Andernfalls wird es automatisch erkannt. Sie können den JSON-String des Dokuments in einem einheitlichen Format direkt in jede Zeile einfügen. Vertex AI Search generiert dann automatisch die IDs für jedes importierte Dokument.content
: Unstrukturierte Dokumente (PDF, HTML, DOC, TXT, PPTX) hochladen Die ID jedes Dokuments wird automatisch als die ersten 128 Bit von SHA256(GCS_URI) generiert, die als Hexadezimalstring codiert sind. Sie können mehrere Eingabedateimuster angeben, solange die übereinstimmenden Dateien das Limit von 100.000 Dateien nicht überschreiten.csv
: Fügen Sie Ihrer CSV-Datei eine Kopfzeile hinzu, in der jeder Header einem Dokumentfeld zugeordnet ist. Geben Sie den Pfad zur CSV-Datei mit dem FeldinputUris
an.
ERROR_DIRECTORY
: Optional. Ein Cloud Storage-Verzeichnis für Fehlerinformationen zum Import, z. B.gs://<your-gcs-bucket>/directory/import_errors
. Google empfiehlt, dieses Feld leer zu lassen, damit Vertex AI Search automatisch ein temporäres Verzeichnis erstellt.RECONCILIATION_MODE
: Optional. Mögliche Werte sindFULL
undINCREMENTAL
. Der Standardwert istINCREMENTAL
. Wenn SieINCREMENTAL
angeben, werden die Daten aus Cloud Storage in Ihrem Datenspeicher inkrementell aktualisiert. Dadurch wird ein Upsert-Vorgang ausgeführt, bei dem neue Dokumente hinzugefügt und vorhandene Dokumente durch aktualisierte Dokumente mit derselben ID ersetzt werden. Wenn SieFULL
angeben, werden die Dokumente in Ihrem Datenspeicher vollständig neu indexiert. Das bedeutet, dass Ihrem Datenspeicher neue und aktualisierte Dokumente hinzugefügt werden und Dokumente, die nicht in Cloud Storage enthalten sind, aus Ihrem Datenspeicher entfernt werden. Der ModusFULL
ist hilfreich, wenn Sie Dokumente, die Sie nicht mehr benötigen, automatisch löschen lassen möchten.AUTO_GENERATE_IDS
: Optional. Gibt an, ob Dokument-IDs automatisch generiert werden sollen. Wenn dieser Wert auftrue
gesetzt ist, werden Dokument-IDs auf Grundlage eines Hash der Nutzlast generiert. Beachten Sie, dass generierte Dokument-IDs bei mehreren Importvorgängen möglicherweise nicht konsistent bleiben. Wenn Sie IDs bei mehreren Importvorgängen automatisch generieren, empfiehlt Google dringend,reconciliationMode
aufFULL
zu setzen, um einheitliche Dokument-IDs beizubehalten.Geben Sie
autoGenerateIds
nur an, wenngcsSource.dataSchema
aufcustom
odercsv
festgelegt ist. Andernfalls wird der FehlerINVALID_ARGUMENT
zurückgegeben. Wenn SieautoGenerateIds
nicht angeben oder auffalse
festlegen, müssen SieidField
angeben. Andernfalls können die Dokumente nicht importiert werden.ID_FIELD
: Optional. Gibt an, welche Felder die Dokument-IDs sind. Bei Cloud Storage-Quelldokumenten gibtidField
den Namen in den JSON-Feldern an, die Dokument-IDs sind. Wenn{"my_id":"some_uuid"}
beispielsweise das Feld für die Dokument-ID in einem Ihrer Dokumente ist, geben Sie"idField":"my_id"
an. Dadurch werden alle JSON-Felder mit dem Namen"my_id"
als Dokument-IDs identifiziert.Geben Sie dieses Feld nur an, wenn (1)
gcsSource.dataSchema
aufcustom
odercsv
festgelegt ist und (2)auto_generate_ids
auffalse
festgelegt oder nicht angegeben ist. Andernfalls wird der FehlerINVALID_ARGUMENT
zurückgegeben.Der Wert des Cloud Storage-JSON-Felds muss vom Typ „string“ sein, zwischen 1 und 63 Zeichen lang sein und RFC-1034 entsprechen. Andernfalls können die Dokumente nicht importiert werden.
Der von
id_field
angegebene JSON-Feldname muss vom Typ „String“ sein, zwischen 1 und 63 Zeichen lang sein und RFC-1034 entsprechen. Andernfalls können die Dokumente nicht importiert werden.
C#
Weitere Informationen finden Sie in der Referenzdokumentation zur AI Applications C# API.
Richten Sie zur Authentifizierung bei AI Applications Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Datenspeicher erstellen
Dokumente importieren
Go
Weitere Informationen finden Sie in der Referenzdokumentation zur AI Applications Go API.
Richten Sie zur Authentifizierung bei AI Applications Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Datenspeicher erstellen
Dokumente importieren
Java
Weitere Informationen finden Sie in der Referenzdokumentation zur AI Applications Java API.
Richten Sie zur Authentifizierung bei AI Applications Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Datenspeicher erstellen
Dokumente importieren
Node.js
Weitere Informationen finden Sie in der Referenzdokumentation zur AI Applications Node.js API.
Richten Sie zur Authentifizierung bei AI Applications Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Datenspeicher erstellen
Dokumente importieren
Python
Weitere Informationen finden Sie in der Referenzdokumentation zur AI Applications Python API.
Richten Sie zur Authentifizierung bei AI Applications Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Datenspeicher erstellen
Dokumente importieren
Ruby
Weitere Informationen finden Sie in der Referenzdokumentation zur AI Applications Ruby API.
Richten Sie zur Authentifizierung bei AI Applications Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Datenspeicher erstellen
Dokumente importieren
Mit Cloud Storage verbinden und regelmäßig synchronisieren
Bevor Sie Ihre Daten importieren, lesen Sie den Artikel Daten für die Aufnahme vorbereiten.
In der folgenden Anleitung wird beschrieben, wie Sie einen Daten-Connector erstellen, der einen Cloud Storage-Speicherort mit einem Vertex AI Search-Daten-Connector verknüpft, und wie Sie einen Ordner oder eine Datei an diesem Speicherort für den Datenspeicher angeben, den Sie erstellen möchten. Datenspeicher, die untergeordnete Elemente von Daten-Connectors sind, werden als Entitätsdatenspeicher bezeichnet.
Die Daten werden regelmäßig mit dem Entitätendatenspeicher synchronisiert. Sie können die Synchronisierung täglich, alle drei Tage oder alle fünf Tage festlegen.
Console
Rufen Sie in der Google Cloud Console die Seite KI-Anwendungen auf.
Rufen Sie die Seite Datenspeicher auf.
Klicken Sie auf Datenspeicher erstellen.
Wählen Sie auf der Seite Quelle die Option Cloud Storage aus.
Wählen Sie aus, welche Art von Daten Sie importieren.
Klicken Sie auf Regelmäßig.
Wählen Sie die Häufigkeit der Synchronisierung aus, um festzulegen, wie oft der Vertex AI Search-Connector mit dem Cloud Storage-Speicherort synchronisiert werden soll. Sie können die Häufigkeit später ändern.
Wählen Sie im Bereich Ordner oder Datei für Import auswählen die Option Ordner oder Datei aus.
Klicken Sie auf Durchsuchen, wählen Sie die Daten aus, die Sie für die Aufnahme vorbereitet haben, und klicken Sie dann auf Auswählen. Alternativ können Sie den Standort direkt in das Feld
gs://
eingeben.Klicken Sie auf Weiter.
Wählen Sie eine Region für Ihren Daten-Connector aus.
Geben Sie einen Namen für den Daten-Connector ein.
Optional: Wenn Sie unstrukturierte Dokumente ausgewählt haben, können Sie Parsing- und Chunking-Optionen für Ihre Dokumente auswählen. Informationen zum Vergleichen von Parsern finden Sie unter Dokumente parsen. Informationen zum Aufteilen von Dokumenten in Chunks finden Sie unter Dokumente für RAG in Chunks aufteilen.
Für den OCR-Parser und den Layout-Parser können zusätzliche Kosten anfallen. Preise für Document AI-Funktionen
Wenn Sie einen Parser auswählen möchten, maximieren Sie Optionen für die Dokumentverarbeitung und geben Sie die gewünschten Parseroptionen an.
Klicken Sie auf Erstellen.
Sie haben jetzt einen Datenconnector erstellt, der Daten regelmäßig mit dem Cloud Storage-Speicherort synchronisiert. Sie haben auch einen Entitätsdatenspeicher mit dem Namen
gcs_store
erstellt.Wenn Sie den Status der Aufnahme prüfen möchten, rufen Sie die Seite Datenspeicher auf und klicken Sie auf den Namen des Daten-Connectors, um Details dazu auf der Seite Daten anzeigen zu lassen.
Tab Datenaufnahmeaktivität Wenn sich die Statusspalte auf dem Tab Aktivität zur Datenaufnahme von Wird ausgeführt in Erfolgreich ändert, ist die erste Aufnahme abgeschlossen.
Je nach Größe der Daten kann die Datenaufnahme einige Minuten bis mehrere Stunden dauern.
Nachdem Sie Ihre Datenquelle eingerichtet und Daten zum ersten Mal importiert haben, werden Daten aus dieser Quelle in der Häufigkeit synchronisiert, die Sie bei der Einrichtung ausgewählt haben. Etwa eine Stunde nach dem Erstellen des Daten-Connectors erfolgt die erste Synchronisierung. Die nächste Synchronisierung erfolgt dann etwa 24, 72 oder 120 Stunden später.
Nächste Schritte
Wenn Sie Ihren Datenspeicher an eine App anhängen möchten, erstellen Sie eine App und wählen Sie Ihren Datenspeicher aus. Folgen Sie dazu der Anleitung unter Benutzerdefinierte Empfehlungs-App erstellen.
Informationen zum Abrufen von Empfehlungen nach der Einrichtung Ihrer App und Ihres Datenspeichers finden Sie unter Empfehlungen abrufen.
Strukturierte JSON-Daten mit der API hochladen
So laden Sie ein JSON-Dokument oder -Objekt direkt über die API hoch:
Bevor Sie Ihre Daten importieren, müssen Sie sie für die Aufnahme vorbereiten.
REST
So erstellen Sie einen Datenspeicher und importieren strukturierte JSON-Daten über die Befehlszeile:
Datenspeicher erstellen.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
Ersetzen Sie Folgendes:
PROJECT_ID
: die ID Ihres Google Cloud Projekts.DATA_STORE_ID
: Die ID des Empfehlungsdatenspeichers, den Sie erstellen möchten. Diese ID darf nur Kleinbuchstaben, Ziffern, Unterstriche und Bindestriche enthalten.DATA_STORE_DISPLAY_NAME
: Der Anzeigename des Empfehlungsdatenspeichers, den Sie erstellen möchten.
Optional: Geben Sie Ihr eigenes Schema an. Wenn Sie ein Schema angeben, erhalten Sie in der Regel bessere Ergebnisse. Weitere Informationen finden Sie unter Schema bereitstellen oder automatisch erkennen lassen.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/schemas/default_schema" \ -d '{ "structSchema": JSON_SCHEMA_OBJECT }'
Ersetzen Sie Folgendes:
PROJECT_ID
: die ID Ihres Google Cloud Projekts.DATA_STORE_ID
: die ID des Empfehlungsdatenspeichers.JSON_SCHEMA_OBJECT
: Ihr JSON-Schema als JSON-Objekt, z. B.:{ "$schema": "https://json-schema.org/draft/2020-12/schema", "type": "object", "properties": { "title": { "type": "string", "keyPropertyMapping": "title" }, "categories": { "type": "array", "items": { "type": "string", "keyPropertyMapping": "category" } }, "uri": { "type": "string", "keyPropertyMapping": "uri" } } }
Importieren Sie strukturierte Daten, die dem definierten Schema entsprechen.
Es gibt verschiedene Möglichkeiten, Daten hochzuladen:
Laden Sie ein JSON-Dokument hoch.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
Ersetzen Sie
JSON_DOCUMENT_STRING
durch das JSON-Dokument als einzelnen String. Dies muss dem JSON-Schema entsprechen, das Sie im vorherigen Schritt angegeben haben, z. B.:```none { \"title\": \"test title\", \"categories\": [\"cat_1\", \"cat_2\"], \"uri\": \"test uri\"} ```
Laden Sie ein JSON-Objekt hoch.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
Ersetzen Sie
JSON_DOCUMENT_OBJECT
durch das JSON-Dokument als JSON-Objekt. Dies muss dem JSON-Schema entsprechen, das Sie im vorherigen Schritt angegeben haben, z. B.:```json { "title": "test title", "categories": [ "cat_1", "cat_2" ], "uri": "test uri" } ```
Mit einem JSON-Dokument aktualisieren.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
Mit einem JSON-Objekt aktualisieren.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
Nächste Schritte
Wenn Sie Ihren Datenspeicher an eine App anhängen möchten, erstellen Sie eine App und wählen Sie Ihren Datenspeicher aus. Folgen Sie dazu der Anleitung unter Benutzerdefinierte Empfehlungs-App erstellen.
Hier finden Sie eine Vorschau der Empfehlungen nach der Erstellung der App und des Datenspeichers.
Datenspeicher mit Terraform erstellen
Sie können Terraform verwenden, um einen leeren Datenspeicher zu erstellen. Nachdem der leere Datenspeicher erstellt wurde, können Sie Daten in den Datenspeicher aufnehmen. Verwenden Sie dazu die Google Cloud Console oder API-Befehle.
Informationen zum Anwenden oder Entfernen einer Terraform-Konfiguration finden Sie unter Grundlegende Terraform-Befehle.
Informationen zum Erstellen eines leeren Datenspeichers mit Terraform finden Sie unter
google_discovery_engine_data_store
.