Usar o reescritor de comandos

Testar a geração de imagens (Vertex AI Studio)

Testar o Imagen em um Colab

Para ajudar você a escrever comandos mais eficazes, o Imagen na Vertex AI oferece uma ferramenta de reescrita de comandos baseada em LLM. O reescritor de comandos adiciona detalhes ao seu comando para ajudar você a gerar imagens de maior qualidade. Por exemplo, se você fornecer o comando "um cachorro correndo", o reescritor de comandos poderá melhorar para "uma foto de alta qualidade de um golden retriever correndo alegremente por um campo verde em um dia ensolarado".

Nesta página, mostramos como usar o reescritor de comandos para melhorar seus comandos de geração de imagens com o console do Google Cloud ou a API REST.

Desativar o reescritor de comandos pode afetar a qualidade das imagens geradas e a correspondência com o comando. Esse recurso é ativado por padrão para as seguintes versões de modelo:

A resposta da API inclui o comando reescrito apenas se o comando original tiver menos de 30 palavras.

Usar o reescritor de comandos

Para usar o reescritor de comandos, faça o seguinte:

Console

  1. No console do Google Cloud , acesse a página Vertex AI > Media Studio.

    Acessar o Media Studio

  2. Clique em Imagen. A página de geração de imagens do Imagen Media Studio é exibida.

  3. No painel Configurações, ajuste as seguintes opções:

    • Modelo: escolha um modelo entre as opções disponíveis.

      Para mais informações sobre os modelos disponíveis, consulte Modelos do Imagen.

    • Número de resultados: ajuste o controle deslizante ou insira um valor entre 1 e 4.

    • Na caixa Comando negativo, insira um comando que descreva o que você não quer que seja gerado na imagem.

  4. Na caixa Escreva seu comando, clique em Quero ajuda para escrever.

    A janela Aprimorar meu comando é exibida.

  5. Na caixa Comando atual, escreva seu comando e clique em Melhorar.

    O comando reescrito é exibido na caixa Comando aprimorado. Você pode editar o comando aprimorado ou usá-lo como está.

  6. Clique em Inserir para usar o comando exibido.

    O comando é inserido na caixa Escreva seu comando.

  7. Clique em Gerar.

REST

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

  • PROJECT_ID: o ID do projeto do Google Cloud .
  • MODEL_VERSION: a versão do modelo de geração de imagens a ser usada.

    Para mais informações sobre versões e recursos do modelo, consulte Versões do modelo.

  • LOCATION: a região do seu projeto. Por exemplo, us-central1, europe-west2 ou asia-northeast3. Para uma lista de regiões disponíveis, consulte IA generativa em locais da Vertex AI.
  • TEXT_PROMPT: o comando de texto que orienta quais imagens o modelo gera. Antes de serem geradas, esse comando de base é aprimorado com mais detalhes e linguagem descritiva usando a ferramenta de alteração de comando baseada em LLM.
  • IMAGE_COUNT: o número de imagens geradas. Valores inteiros aceitos: 1 a 4. Valor padrão: 4.
  • enhancePrompt: booleano para ativar o aprimoramento de comandos com base em LLMs. Por padrão, esse valor é definido como true.

Método HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_VERSION:predict

Corpo JSON da solicitação:

{
  "instances": [
    {
      "prompt": "TEXT_PROMPT"
    }
  ],
  "parameters": {
    "sampleCount": IMAGE_COUNT,
    "enhancePrompt": true
  }
}

Para enviar a solicitação, escolha uma destas opções:

curl

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_VERSION:predict"

PowerShell

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_VERSION:predict" | Select-Object -Expand Content
Com o aprimoramento de comandos ativado, a resposta inclui um campo prompt adicional que mostra o comando aprimorado e a imagem gerada associada:
  {
    "predictions": [
      {
        "mimeType": "MIME_TYPE",
        "prompt": "ENHANCED_PROMPT_1",
        "bytesBase64Encoded": "BASE64_IMG_BYTES_1"
      },
      {
        "mimeType": "MIME_TYPE",
        "prompt": "ENHANCED_PROMPT_2",
        "bytesBase64Encoded": "BASE64_IMG_BYTES_2"
      }
    ]
  }

Por exemplo, a amostra de resposta a seguir é para uma solicitação com "sampleCount": 2 e "prompt": "A raccoon wearing formal clothes, wearing a top hat. Oil painting in the style of Vincent Van Gogh.". A resposta retorna dois objetos de previsão, cada um com o comando aprimorado e os bytes de imagem gerados codificados em base64.

{
  "predictions": [
    {
      "mimeType": "image/png",
      "prompt": "An oil painting in the style of Vincent van Gogh, depicting a raccoon adorned
        in a finely tailored tuxedo, complete with a crisp white shirt and a bow tie. The raccoon
        also sports a classic top hat, perched jauntily on its head. The painting uses thick,
        swirling brushstrokes characteristic of van Gogh, with vibrant hues of blue, yellow, and
        green in the background, contrasting with the dark tones of the raccoon's attire. The light
        source is subtly placed, casting a dramatic shadow of the raccoon's attire onto the surface
        it sits upon, further enhancing the depth and dimensionality of the composition. The
        overall impression is one of a whimsical and sophisticated character, a raccoon elevated to
        a higher class through its formal attire, rendered in van Gogh's iconic style.",
      "bytesBase64Encoded": "BASE64_IMG_BYTES"
    },
    {
      "mimeType": "image/png",
      "prompt": "An oil painting in the style of Vincent van Gogh featuring a raccoon in a
        dapper suit, complete with a black jacket, crisp white shirt, and a black bow tie. The
        raccoon is wearing a black top hat, adding a touch of elegance to its ensemble. The
        painting is rendered with characteristic van Gogh brushwork, utilizing thick, impasto
        strokes of color. The background is a swirl of blues, greens, and yellows, creating a
        vibrant yet slightly chaotic atmosphere that contrasts with the raccoon's formal attire.
        The lighting is dramatic, casting sharp shadows and highlighting the textures of the fabric
        and the raccoon's fur, enhancing the sense of realism within the fantastical scene. The
        composition focuses on the raccoon's proud posture, highlighting the whimsical contrast of
        a wild animal dressed in formal attire, captured in the unique artistic language of van
        Gogh. ",
      "bytesBase64Encoded": "BASE64_IMG_BYTES"
    }
  ]
}

A seguir