Usare il riscrittore di prompt

Prova la generazione di immagini (Vertex AI Studio)

Provare Imagen in un Colab

Per aiutarti a scrivere prompt più efficaci, Imagen su Vertex AI offre uno strumento di riscrittura dei prompt basato su LLM. Il riscrittore di prompt aggiunge dettagli al tuo prompt per aiutarti a generare immagini di qualità superiore. Ad esempio, se fornisci il prompt "un cane che corre", il riscrittore di prompt potrebbe migliorarlo in "una foto di alta qualità di un golden retriever che corre gioiosamente in un campo verde durante una giornata di sole".

Questa pagina mostra come utilizzare il riscrivitore di prompt per migliorare i prompt di generazione di immagini con la console Google Cloud o l'API REST.

La disattivazione del riscrittore di prompt potrebbe influire sulla qualità delle immagini generate e sulla loro corrispondenza con il prompt. Questa funzionalità è attivata per impostazione predefinita per le seguenti versioni del modello:

  • imagen-4.0-generate-preview-06-06 (anteprima)
  • imagen-4.0-fast-generate-preview-06-06 (anteprima)
  • imagen-4.0-ultra-generate-preview-06-06 (anteprima)
  • imagen-3.0-generate-002

La risposta dell'API include il prompt riscritto solo se il prompt originale contiene meno di 30 parole.

Utilizzare il prompt rewriter

Per utilizzare il prompt rewriter:

Console

  1. Nella console Google Cloud , vai alla pagina Vertex AI > Media Studio.

    Vai a Media Studio

  2. Fai clic su Imagen. Viene visualizzata la pagina di generazione di immagini di Imagen Media Studio.

  3. Nel riquadro Impostazioni, modifica le seguenti opzioni:

    • Modello: scegli un modello tra le opzioni disponibili.

      Per saperne di più sui modelli disponibili, consulta Modelli Imagen.

    • Numero di risultati: regola il cursore o inserisci un valore compreso tra 1 e 4.

    • Nella casella Prompt negativo, inserisci un prompt che descriva ciò che non vuoi che venga generato nell'immagine.

  4. Nella casella Scrivi il prompt, fai clic su Aiutami a scrivere.

    Viene visualizzata la finestra Migliora il mio prompt.

  5. Nella casella Prompt attuale, scrivi il prompt e fai clic su Migliora.

    Il prompt riscritto viene visualizzato nella casella Prompt migliorato. Puoi modificare il prompt avanzato o utilizzarlo così com'è.

  6. Fai clic su Inserisci per utilizzare il prompt visualizzato.

    Il prompt viene inserito nella casella Scrivi il tuo prompt.

  7. Fai clic su Genera.

REST

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

  • PROJECT_ID: il tuo Google Cloud ID progetto.
  • MODEL_VERSION: La versione del modello di generazione di immagini da utilizzare.

    Per ulteriori informazioni sulle versioni e sulle funzionalità del modello, vedi Versioni del modello.

  • LOCATION: la regione del progetto. Ad esempio, us-central1, europe-west2 o asia-northeast3. Per un elenco delle regioni disponibili, consulta Località dell'AI generativa su Vertex AI.
  • TEXT_PROMPT: Il prompt di testo che guida le immagini generate dal modello. Prima di generare le immagini, questo prompt di base viene migliorato con maggiori dettagli e un linguaggio descrittivo utilizzando lo strumento di riscrittura dei prompt basato su LLM.
  • IMAGE_COUNT: il numero di immagini generate. Valori interi accettati: 1-4. Il valore predefinito è 4.
  • enhancePrompt: un valore booleano per abilitare il miglioramento dei prompt basato su LLM. Per impostazione predefinita, questo valore è impostato su true.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_VERSION:predict

Corpo JSON della richiesta:

{
  "instances": [
    {
      "prompt": "TEXT_PROMPT"
    }
  ],
  "parameters": {
    "sampleCount": IMAGE_COUNT,
    "enhancePrompt": true
  }
}

Per inviare la richiesta, scegli una di queste opzioni:

curl

Salva il corpo della richiesta in un file denominato request.json, ed esegui questo comando:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_VERSION:predict"

PowerShell

Salva il corpo della richiesta in un file denominato request.json, ed esegui questo comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_VERSION:predict" | Select-Object -Expand Content
Se il miglioramento dei prompt è attivato, la risposta include un campo prompt aggiuntivo che mostra il prompt migliorato e l'immagine generata associata:
  {
    "predictions": [
      {
        "mimeType": "MIME_TYPE",
        "prompt": "ENHANCED_PROMPT_1",
        "bytesBase64Encoded": "BASE64_IMG_BYTES_1"
      },
      {
        "mimeType": "MIME_TYPE",
        "prompt": "ENHANCED_PROMPT_2",
        "bytesBase64Encoded": "BASE64_IMG_BYTES_2"
      }
    ]
  }

Ad esempio, la seguente risposta di esempio è per una richiesta con "sampleCount": 2 e "prompt": "A raccoon wearing formal clothes, wearing a top hat. Oil painting in the style of Vincent Van Gogh.". La risposta restituisce due oggetti di previsione, ciascuno con il prompt avanzato e i byte dell'immagine generata codificati in base64.

{
  "predictions": [
    {
      "mimeType": "image/png",
      "prompt": "An oil painting in the style of Vincent van Gogh, depicting a raccoon adorned
        in a finely tailored tuxedo, complete with a crisp white shirt and a bow tie. The raccoon
        also sports a classic top hat, perched jauntily on its head. The painting uses thick,
        swirling brushstrokes characteristic of van Gogh, with vibrant hues of blue, yellow, and
        green in the background, contrasting with the dark tones of the raccoon's attire. The light
        source is subtly placed, casting a dramatic shadow of the raccoon's attire onto the surface
        it sits upon, further enhancing the depth and dimensionality of the composition. The
        overall impression is one of a whimsical and sophisticated character, a raccoon elevated to
        a higher class through its formal attire, rendered in van Gogh's iconic style.",
      "bytesBase64Encoded": "BASE64_IMG_BYTES"
    },
    {
      "mimeType": "image/png",
      "prompt": "An oil painting in the style of Vincent van Gogh featuring a raccoon in a
        dapper suit, complete with a black jacket, crisp white shirt, and a black bow tie. The
        raccoon is wearing a black top hat, adding a touch of elegance to its ensemble. The
        painting is rendered with characteristic van Gogh brushwork, utilizing thick, impasto
        strokes of color. The background is a swirl of blues, greens, and yellows, creating a
        vibrant yet slightly chaotic atmosphere that contrasts with the raccoon's formal attire.
        The lighting is dramatic, casting sharp shadows and highlighting the textures of the fabric
        and the raccoon's fur, enhancing the sense of realism within the fantastical scene. The
        composition focuses on the raccoon's proud posture, highlighting the whimsical contrast of
        a wild animal dressed in formal attire, captured in the unique artistic language of van
        Gogh. ",
      "bytesBase64Encoded": "BASE64_IMG_BYTES"
    }
  ]
}

Passaggi successivi