Mit dem Gen AI Evaluation Service können Sie Ihre Large Language Models (LLMs) anhand Ihrer eigenen Kriterien anhand verschiedener Messwerte bewerten. Sie können Inferenzzeiteingaben, LLM-Antworten und zusätzliche Parameter angeben. Der Gen AI Evaluation Service gibt dann Messwerte zurück, die für die Bewertungsaufgabe spezifisch sind.
Die Messwerte umfassen sowohl modellbasierte Messwerte wie PointwiseMetric
und PairwiseMetric
als auch In-Memory-berechnete Messwerte wie rouge
, bleu
und Messwerte für Tool-Funktionsaufrufe.
PointwiseMetric
und PairwiseMetric
sind generische modellbasierte Messwerte, die Sie mit Ihren eigenen Kriterien anpassen können.
Da der Dienst die Vorhersageergebnisse direkt aus Modellen als Eingabe verwendet, kann der Bewertungsdienst sowohl Inferenz als auch die anschließende Bewertung für alle von Vertex AI unterstützten Modelle durchführen.
Weitere Informationen zum Bewerten eines Modells finden Sie unter Übersicht über den Gen AI Evaluation Service.
Beschränkungen
Für den Auswertungsdienst gelten die folgenden Einschränkungen:
- Beim ersten Aufruf des Bewertungsdienstes kann es zu einer Verzögerung kommen.
- Für die meisten modellbasierten Messwerte wird Gemini 2.0 Flash-Kontingent verwendet, da der Gen AI Evaluation Service
gemini-2.0-flash
als zugrunde liegendes Judge-Modell verwendet, um diese modellbasierten Messwerte zu berechnen. - Für einige modellbasierte Messwerte wie MetricX und COMET werden andere Modelle für maschinelles Lernen verwendet. Daher wird kein gemini-2.0-flash-Kontingent verbraucht.
Beispielsyntax
Syntax zum Senden eines Bewertungsaufrufs.
curl
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}:evaluateInstances \ -d '{ "pointwise_metric_input" : { "metric_spec" : { ... }, "instance": { ... }, } }'
Python
import json from google import auth from google.api_core import exceptions from google.auth.transport import requests as google_auth_requests creds, _ = auth.default( scopes=['https://www.googleapis.com/auth/cloud-platform']) data = { ... } uri = f'https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}:evaluateInstances' result = google_auth_requests.AuthorizedSession(creds).post(uri, json=data) print(json.dumps(result.json(), indent=2))
Parameterliste
Parameter | |
---|---|
|
Optional: Eingabe, um zu prüfen, ob die Vorhersage genau mit der Referenz übereinstimmt. |
|
Optional: Eingabe zum Berechnen des BLEU-Scores durch Vergleich der Vorhersage mit der Referenz. |
|
Optional: Eingabe zum Berechnen der |
|
Optional: Eingabe zur Bewertung der Sprachbeherrschung einer einzelnen Antwort. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, eine kohärente, leicht verständliche Antwort zu geben. |
|
Optional: Eingabe zur Bewertung des Sicherheitslevels einer einzelnen Antwort. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, Informationen bereitzustellen oder zu referenzieren, die nur im Eingabetext enthalten sind. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, Anweisungen vollständig auszuführen. |
|
Optional: Eingabe, um allgemein die Fähigkeit einer einzelnen Antwort zu bewerten, Text zusammenzufassen. |
|
Optional: Eingabe zum Vergleich der allgemeinen Qualität von Zusammenfassungen zweier Antworten. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, eine Zusammenfassung zu erstellen, die die erforderlichen Details enthält, um den Originaltext zu ersetzen. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, eine prägnante Zusammenfassung zu erstellen. |
|
Optional: Eingabe zur Bewertung der allgemeinen Fähigkeit einer einzelnen Antwort zur Beantwortung von Fragen anhand eines als Referenz dienenden Textkörpers. |
|
Optional: Eingabe für den Vergleich der allgemeinen Fähigkeit zweier Antworten zur Beantwortung von Fragen anhand eines als Referenz dienenden Textkörpers. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, auf die Stellung einer Frage mit relevanten Informationen zu antworten. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, bei der Beantwortung einer Frage wichtige Details anzugeben. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, eine Frage richtig zu beantworten. |
|
Optional: Eingabe für eine allgemeine punktweise Bewertung. |
|
Optional: Eingabe für eine allgemeine paarweise Bewertung. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, einen gültigen Tool-Aufruf vorherzusagen. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, einen Tool-Aufruf mit dem richtigen Tool-Namen vorherzusagen. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, einen Tool-Aufruf mit korrekten Parameternamen vorherzusagen. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, einen Tool-Aufruf mit korrekten Parameternamen und ‑werten vorherzusagen |
|
Optional: Eingabe, die mit COMET bewertet werden soll. |
|
Optional: Eingabe, die mit MetricX ausgewertet werden soll. |
ExactMatchInput
{ "exact_match_input": { "metric_spec": {}, "instances": [ { "prediction": string, "reference": string } ] } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. |
|
Optional: LLM-Antwort. |
|
Optional: Goldene LLM-Antwort als Referenz. |
ExactMatchResults
{ "exact_match_results": { "exact_match_metric_values": [ { "score": float } ] } }
Ausgabe | |
---|---|
|
Bewertungsergebnisse pro Instanzeingabe. |
|
Eines der folgenden Betriebssysteme:
|
BleuInput
{ "bleu_input": { "metric_spec": { "use_effective_order": bool }, "instances": [ { "prediction": string, "reference": string } ] } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Gibt an, ob n-Gramm-Ordnungen ohne Übereinstimmung berücksichtigt werden sollen. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. |
|
Optional: LLM-Antwort. |
|
Optional: Goldene LLM-Antwort als Referenz. |
BleuResults
{ "bleu_results": { "bleu_metric_values": [ { "score": float } ] } }
Ausgabe | |
---|---|
|
Bewertungsergebnisse pro Instanzeingabe. |
|
|
RougeInput
{ "rouge_input": { "metric_spec": { "rouge_type": string, "use_stemmer": bool, "split_summaries": bool }, "instances": [ { "prediction": string, "reference": string } ] } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Zulässige Werte:
|
|
Optional: Gibt an, ob der Porter-Stemmer zum Entfernen von Wortsuffixen verwendet werden soll, um die Übereinstimmung zu verbessern. |
|
Optional: Gibt an, ob Zeilenumbrüche zwischen Sätzen für rougeLsum hinzugefügt werden sollen. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. |
|
Optional: LLM-Antwort. |
|
Optional: Goldene LLM-Antwort als Referenz. |
RougeResults
{ "rouge_results": { "rouge_metric_values": [ { "score": float } ] } }
Ausgabe | |
---|---|
|
Bewertungsergebnisse pro Instanzeingabe. |
|
|
FluencyInput
{ "fluency_input": { "metric_spec": {}, "instance": { "prediction": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus der LLM-Antwort. |
|
Optional: LLM-Antwort. |
FluencyResult
{ "fluency_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
CoherenceInput
{ "coherence_input": { "metric_spec": {}, "instance": { "prediction": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus der LLM-Antwort. |
|
Optional: LLM-Antwort. |
CoherenceResult
{ "coherence_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
SafetyInput
{ "safety_input": { "metric_spec": {}, "instance": { "prediction": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus der LLM-Antwort. |
|
Optional: LLM-Antwort. |
SafetyResult
{ "safety_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
GroundednessInput
{ "groundedness_input": { "metric_spec": {}, "instance": { "prediction": string, "context": string } } }
Parameter |
Beschreibung |
|
Optional: GroundednessSpec Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: GroundednessInstance Bewertungseingabe, bestehend aus Inferenz-Eingaben und der entsprechenden Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
GroundednessResult
{ "groundedness_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
FulfillmentInput
{ "fulfillment_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenz-Eingaben und der entsprechenden Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Anweisung, die zur Inferenzzeit verwendet wird. |
FulfillmentResult
{ "fulfillment_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
SummarizationQualityInput
{ "summarization_quality_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenz-Eingaben und der entsprechenden Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Anweisung, die zur Inferenzzeit verwendet wird. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
SummarizationQualityResult
{ "summarization_quality_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
PairwiseSummarizationQualityInput
{ "pairwise_summarization_quality_input": { "metric_spec": {}, "instance": { "baseline_prediction": string, "prediction": string, "instruction": string, "context": string, } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenz-Eingaben und der entsprechenden Antwort. |
|
Optional: LLM-Antwort des Basismodells. |
|
Optional: LLM-Antwort des Kandidatenmodells. |
|
Optional: Anweisung, die zur Inferenzzeit verwendet wird. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
PairwiseSummarizationQualityResult
{ "pairwise_summarization_quality_result": { "pairwise_choice": PairwiseChoice, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
SummarizationHelpfulnessInput
{ "summarization_helpfulness_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenz-Eingaben und der entsprechenden Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Anweisung, die zur Inferenzzeit verwendet wird. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
SummarizationHelpfulnessResult
{ "summarization_helpfulness_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
SummarizationVerbosityInput
{ "summarization_verbosity_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenz-Eingaben und der entsprechenden Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Anweisung, die zur Inferenzzeit verwendet wird. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
SummarizationVerbosityResult
{ "summarization_verbosity_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
QuestionAnsweringQualityInput
{ "question_answering_quality_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenz-Eingaben und der entsprechenden Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Anweisung, die zur Inferenzzeit verwendet wird. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
QuestionAnsweringQualityResult
{ "question_answering_quality_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
PairwiseQuestionAnsweringQualityInput
{ "question_answering_quality_input": { "metric_spec": {}, "instance": { "baseline_prediction": string, "prediction": string, "instruction": string, "context": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenz-Eingaben und der entsprechenden Antwort. |
|
Optional: LLM-Antwort des Basismodells. |
|
Optional: LLM-Antwort des Kandidatenmodells. |
|
Optional: Anweisung, die zur Inferenzzeit verwendet wird. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
PairwiseQuestionAnsweringQualityResult
{ "pairwise_question_answering_quality_result": { "pairwise_choice": PairwiseChoice, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
QuestionAnsweringRelevanceInput
{ "question_answering_quality_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenz-Eingaben und der entsprechenden Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Anweisung, die zur Inferenzzeit verwendet wird. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
QuestionAnsweringRelevancyResult
{ "question_answering_relevancy_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
QuestionAnsweringHelpfulnessInput
{ "question_answering_helpfulness_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenz-Eingaben und der entsprechenden Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Anweisung, die zur Inferenzzeit verwendet wird. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
QuestionAnsweringHelpfulnessResult
{ "question_answering_helpfulness_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
QuestionAnsweringCorrectnessInput
{ "question_answering_correctness_input": { "metric_spec": { "use_reference": bool }, "instance": { "prediction": string, "reference": string, "instruction": string, "context": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Gibt an, ob die Referenz in der Auswertung verwendet wird. |
|
Optional: Bewertungseingabe, bestehend aus Inferenz-Eingaben und der entsprechenden Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Goldene LLM-Antwort als Referenz. |
|
Optional: Anweisung, die zur Inferenzzeit verwendet wird. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
QuestionAnsweringCorrectnessResult
{ "question_answering_correctness_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
PointwiseMetricInput
{ "pointwise_metric_input": { "metric_spec": { "metric_prompt_template": string }, "instance": { "json_instance": string, } } }
Parameter | |
---|---|
|
Erforderlich: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Erforderlich: Eine Prompt-Vorlage, die den Messwert definiert. Sie wird durch die Schlüssel/Wert-Paare in instance.json_instance gerendert. |
|
Erforderlich: Bewertungseingabe, bestehend aus json_instance. |
|
Optional: Die Schlüssel/Wert-Paare im JSON-Format. Beispiel: {"key_1": "value_1", "key_2": "value_2"}. Damit wird metric_spec.metric_prompt_template gerendert. |
PointwiseMetricResult
{ "pointwise_metric_result": { "score": float, "explanation": string, } }
Ausgabe | |
---|---|
|
|
|
|
PairwiseMetricInput
{ "pairwise_metric_input": { "metric_spec": { "metric_prompt_template": string }, "instance": { "json_instance": string, } } }
Parameter | |
---|---|
|
Erforderlich: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Erforderlich: Eine Prompt-Vorlage, die den Messwert definiert. Sie wird durch die Schlüssel/Wert-Paare in instance.json_instance gerendert. |
|
Erforderlich: Bewertungseingabe, bestehend aus json_instance. |
|
Optional: Die Schlüssel/Wert-Paare im JSON-Format. Beispiel: {"key_1": "value_1", "key_2": "value_2"}. Damit wird metric_spec.metric_prompt_template gerendert. |
PairwiseMetricResult
{ "pairwise_metric_result": { "score": float, "explanation": string, } }
Ausgabe | |
---|---|
|
|
|
|
ToolCallValidInput
{ "tool_call_valid_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. |
|
Optional: LLM-Antwort des Kandidatenmodells, die ein JSON-serialisierter String mit den Schlüsseln { "content": "", "tool_calls": [ { "name": "book_tickets", "arguments": { "movie": "Mission Impossible Dead Reckoning Part 1", "theater": "Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30", "num_tix": "2" } } ] } |
|
Optional: Goldene Modellausgabe im selben Format wie die Vorhersage. |
ToolCallValidResults
{ "tool_call_valid_results": { "tool_call_valid_metric_values": [ { "score": float } ] } }
Ausgabe | |
---|---|
|
wiederholt |
|
|
ToolNameMatchInput
{ "tool_name_match_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. |
|
Optional: LLM-Antwort des Kandidatenmodells, die ein JSON-serialisierter String mit den Schlüsseln |
|
Optional: Goldene Modellausgabe im selben Format wie die Vorhersage. |
ToolNameMatchResults
{ "tool_name_match_results": { "tool_name_match_metric_values": [ { "score": float } ] } }
Ausgabe | |
---|---|
|
wiederholt |
|
|
ToolParameterKeyMatchInput
{ "tool_parameter_key_match_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. |
|
Optional: LLM-Antwort des Kandidatenmodells, die ein JSON-serialisierter String mit den Schlüsseln |
|
Optional: Goldene Modellausgabe im selben Format wie die Vorhersage. |
ToolParameterKeyMatchResults
{ "tool_parameter_key_match_results": { "tool_parameter_key_match_metric_values": [ { "score": float } ] } }
Ausgabe | |
---|---|
|
wiederholt |
|
|
ToolParameterKVMatchInput
{ "tool_parameter_kv_match_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. |
|
Optional: LLM-Antwort des Kandidatenmodells, die ein JSON-serialisierter String mit den Schlüsseln |
|
Optional: Goldene Modellausgabe im selben Format wie die Vorhersage. |
ToolParameterKVMatchResults
{ "tool_parameter_kv_match_results": { "tool_parameter_kv_match_metric_values": [ { "score": float } ] } }
Ausgabe | |
---|---|
|
wiederholt |
|
|
CometInput
{ "comet_input" : { "metric_spec" : { "version": string }, "instance": { "prediction": string, "source": string, "reference": string, }, } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional:
|
|
Optional: Quellsprache im BCP-47-Format. Beispiel: „de“. |
|
Optional: Zielsprache im BCP-47-Format. Beispiel: „es“ |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. Die genauen Felder, die für die Bewertung verwendet werden, hängen von der COMET-Version ab. |
|
Optional: LLM-Antwort des Kandidatenmodells. Dies ist die Ausgabe des LLM, die bewertet wird. |
|
Optional: Ausgangstext. Die Antwort wird in der Originalsprache angezeigt, aus der die Vorhersage übersetzt wurde. |
|
Optional: Die Grundwahrheit, mit der die Vorhersage verglichen wird. Die Sprache ist dieselbe wie die der Vorhersage. |
CometResult
{ "comet_result" : { "score": float } }
Ausgabe | |
---|---|
|
|
MetricxInput
{ "metricx_input" : { "metric_spec" : { "version": string }, "instance": { "prediction": string, "source": string, "reference": string, }, } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional:
Eines der folgenden Betriebssysteme:
|
|
Optional: Quellsprache im BCP-47-Format. Beispiel: „de“. |
|
Optional: Zielsprache im BCP-47-Format. Beispiel: „de“. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. Die genauen Felder, die für die Bewertung verwendet werden, hängen von der MetricX-Version ab. |
|
Optional: LLM-Antwort des Kandidatenmodells. Dies ist die Ausgabe des LLM, die bewertet wird. |
|
Optional: Der Quelltext in der Originalsprache, aus der die Vorhersage übersetzt wurde. |
|
Optional: Die Grundwahrheit, mit der die Vorhersage verglichen wird. Sie ist in derselben Sprache wie die Vorhersage. |
MetricxResult
{ "metricx_result" : { "score": float } }
Ausgabe | |
---|---|
|
|
Beispiele
Ausgabe bewerten
Im folgenden Beispiel wird gezeigt, wie Sie die Gen AI Evaluation API aufrufen, um die Ausgabe eines LLM anhand verschiedener Bewertungsmetriken zu bewerten, darunter:
summarization_quality
groundedness
fulfillment
summarization_helpfulness
summarization_verbosity
Python
Go
Ausgabe bewerten: Qualität der paarweisen Zusammenfassung
Im folgenden Beispiel wird gezeigt, wie Sie die Gen AI Evaluation Service API aufrufen, um die Ausgabe eines LLM anhand eines paarweisen Vergleichs der Zusammenfassungsqualität zu bewerten.
REST
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- PROJECT_ID: .
- LOCATION: Die Region, in der die Anfrage verarbeitet werden soll.
- PREDICTION: LLM-Antwort.
- BASELINE_PREDICTION: LLM-Antwort des Basismodells.
- INSTRUCTION: Die Anweisung, die zur Inferenzzeit verwendet wird.
- CONTEXT: Inferenzzeittext, der alle relevanten Informationen enthält, die in der LLM-Antwort verwendet werden können.
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/LOCATION:evaluateInstances \
JSON-Text der Anfrage:
{ "pairwise_summarization_quality_input": { "metric_spec": {}, "instance": { "prediction": "PREDICTION", "baseline_prediction": "BASELINE_PREDICTION", "instruction": "INSTRUCTION", "context": "CONTEXT", } } }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/LOCATION:evaluateInstances \"
PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/LOCATION:evaluateInstances \" | Select-Object -Expand Content
Python
Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Python-API-Referenzdokumentation.
Go
Go
Bevor Sie dieses Beispiel anwenden, folgen Sie den Go Schritten zur Einrichtung in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Go API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
ROUGE-Wert abrufen
Im folgenden Beispiel wird die Gen AI Evaluation Service API aufgerufen, um den ROUGE-Score einer Vorhersage abzurufen, die anhand einer Reihe von Eingaben generiert wurde. Für die ROUGE-Eingaben wird metric_spec
verwendet, wodurch das Verhalten der Metrik bestimmt wird.
REST
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- PROJECT_ID: .
- LOCATION: Die Region, in der die Anfrage verarbeitet werden soll.
- PREDICTION: LLM-Antwort.
- REFERENCE: Goldene LLM-Antwort als Referenz.
- ROUGE_TYPE: Die Berechnung, die zum Ermitteln des ROUGE-Scores verwendet wird. Zulässige Werte finden Sie unter
metric_spec.rouge_type
. - USE_STEMMER: Gibt an, ob der Porter-Stemmer zum Entfernen von Wortsuffixen verwendet werden soll, um die Übereinstimmung zu verbessern. Zulässige Werte finden Sie unter
metric_spec.use_stemmer
. - SPLIT_SUMMARIES: Legt fest, ob zwischen
rougeLsum
-Sätzen neue Zeilen eingefügt werden. Zulässige Werte finden Sie untermetric_spec.split_summaries
.
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/REGION:evaluateInstances \
JSON-Text der Anfrage:
{ "rouge_input": { "instances": { "prediction": "PREDICTION", "reference": "REFERENCE.", }, "metric_spec": { "rouge_type": "ROUGE_TYPE", "use_stemmer": USE_STEMMER, "split_summaries": SPLIT_SUMMARIES, } } }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/REGION:evaluateInstances \"
PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/REGION:evaluateInstances \" | Select-Object -Expand Content
Python
Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Python-API-Referenzdokumentation.
Go
Go
Bevor Sie dieses Beispiel anwenden, folgen Sie den Go Schritten zur Einrichtung in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Go API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Nächste Schritte
- Eine ausführliche Dokumentation finden Sie unter Bewertung ausführen.