Criar stream

Nesta seção, você aprenderá a criar um stream. O Datastream usa esse stream para transferir dados de um banco de dados Oracle, MySQL, SQL Server ou PostgreSQL de origem para o BigQuery ou o Cloud Storage.

A criação de um stream inclui o seguinte:

  • Como definir as configurações da transmissão.
  • Selecione o perfil de conexão que você criou para sua origem Oracle, MySQL, SQL Server, PostgreSQL, Salesforce (Prévia) ou MongoDB (Prévia) (o perfil de conexão de origem) ou crie um perfil de conexão de origem, caso não tenha criado um.
  • Configure informações sobre o banco de dados de origem para o fluxo especificando as tabelas e os esquemas no banco de dados de origem que o Datastream:
    • Pode ser transferido para o destino.
    • esteja impedido de ser transferido para o destino;
  • Determinar se o Datastream preencherá dados históricos, bem como as alterações em andamento no destino ou apenas as alterações nos dados. Ao ativar o preenchimento histórico, você pode especificar esquemas e tabelas no banco de dados de origem que o Datastream não pode preencher no destino.

  • Selecione o perfil de conexão que você criou para o BigQuery ou Cloud Storage (o perfil de conexão de destino) ou crie um perfil de conexão de destino se você ainda não tiver feito isso.

  • Configurar informações sobre o destino do stream. Exemplos dessas informações:

    • Para o BigQuery:
      • Os conjuntos de dados em que o Datastream vai replicar esquemas, tabelas e dados de um banco de dados de origem.
    • Para o Cloud Storage:
      • A pasta do bucket de destino para o qual o Datastream transferirá esquemas, tabelas e dados de um banco de dados de origem.
  • Validação do stream para garantir que ele será executado com êxito. Como validar verificações de stream:

    • Indica se a fonte está configurada corretamente para permitir que o Datastream faça streaming de dados.
    • Se a transmissão pode se conectar à origem e ao destino.
    • A configuração completa do stream.

Definir configurações do stream

  1. Acesse a página Streams no Google Cloud Console.

    Acessar a página "Mural"

  2. Clique em CRIAR STREAM.

  3. Use a tabela a seguir para preencher os campos da seção Definir detalhes do fluxo da página Criar fluxo:

    CampoDescrição
    Nome do fluxoInsira o nome de exibição do stream.
    ID do streamO Datastream preenche esse campo automaticamente com base no nome do stream que você inserir. É possível manter o ID gerado automaticamente ou alterá-lo.
    RegiãoSelecione a região em que o stream é armazenado. Assim como todos os recursos, os streams são salvos em uma região. A seleção de região não afeta a capacidade do stream de se conectar ao banco de dados de origem ou ao destino, mas pode afetar a disponibilidade se a região tiver um período de inatividade. Recomendamos manter todos os recursos do fluxo na mesma região dos dados de origem para otimizar o custo e a performance.
    Tipo de origem

    Selecione o tipo de perfil especificado ao criar um perfil de conexão para sua origem Oracle, MySQL, SQL Server, PostgreSQL, Salesforce (prévia) ou MongoDB (prévia). Se você ainda não criou um perfil de conexão para o banco de dados de origem, crie um agora.

    Tipo de destinoSelecione o tipo de perfil que você especificou ao criar um perfil de conexão para um destino do BigQuery ou do Cloud Storage. Se você ainda não criou um perfil de conexão para o destino, crie um agora.
    Criptografia

    Por padrão, seus dados são criptografados com uma chave gerenciada pelo Google Cloud. Se você quiser gerenciar a criptografia, use uma chave de criptografia gerenciada pelo cliente (CMEK):

    1. Marque a caixa de seleção Chave do Cloud KMS.
    2. No menu suspenso Tipo de chave, selecione Cloud KMS e escolha sua CMEK.

    Se você não encontrar sua chave, clique em INSERIR NOME DO RECURSO DA CHAVE para fornecer o nome do recurso da chave que você quer usar. Por exemplo, é possível inserir projects/my-project-name/locations/my-location/keyRings/my-keyring/cryptoKeys/my-key no campo Nome do recurso de chave e clicar em SALVAR.

  4. Também é possível usar rótulos para organizar os recursos do Datastream.

    1. Para criar um rótulo, clique em ADICIONAR MARCADOR e insira o par de chave-valor.
    2. Para remover o rótulo, clique no ícone da lixeira à direita da linha que contém esse rótulo.
  5. Se quiser, adicione políticas de alertas ao stream. As políticas de alertas definem quando e como você quer receber notificações sobre falhas de transmissão.

    1. Para criar uma política de alertas, clique em Adicionar política de alertas.
    2. A página Criar política de alertas aparece no Cloud Monitoring. Nesta página, você define a política de alertas caso o stream falhe.

    Para mais informações sobre políticas de alertas, consulte Gerenciar políticas de alertas baseadas em métricas.

  6. Revise os pré-requisitos necessários que são gerados automaticamente para refletir como o ambiente precisa estar preparado para um stream. Esses pré-requisitos podem incluir como configurar o banco de dados de origem e como conectá-lo ao destino. É melhor concluir esses pré-requisitos nessa etapa, mas é possível concluí-los a qualquer momento antes do teste ou do início da transmissão. Para mais informações sobre esses pré-requisitos, consulte Fontes.

  7. Clique em CONTINUAR. O painel Definir perfil de conexão da página Criar stream é exibido para seu tipo de banco de dados de origem.

Especificar informações sobre o perfil de conexão de origem

  1. Se você criou um perfil de conexão de origem para o Oracle, MySQL, SQL Server, PostgreSQL, Salesforce (prévia) ou MongoDB (prévia), selecione-o na lista de perfis de conexão.

    Se você não tiver criado um perfil de conexão de origem, crie um clicando em CRIAR PERFIL DE CONEXtO na parte inferior da lista suspensa. Depois siga as mesmas etapas de Criar perfis de conexão

  2. Clique em EXECUTAR TESTE para verificar se o banco de dados de origem e o Datastream podem se comunicar entre si.

    Se o teste falhar, o problema associado ao perfil de conexão será exibido. Consulte a página Diagnosticar problemas para ver as etapas de solução de problemas. Faça as alterações necessárias para corrigir o problema e teste novamente.

  3. Clique em CONTINUAR. O painel Configurar origem da transmissão é exibido na página Criar stream.

Configurar informações sobre o banco de dados de origem para o fluxo

Configurar um banco de dados de origem do PostgreSQL

  1. Defina as propriedades de replicação do banco de dados de origem do PostgreSQL. Na seção Propriedades de replicação, especifique as seguintes propriedades:
    1. No campo Nome do slot de replicação, insira o nome do slot criado especificamente para este stream. O servidor de banco de dados usa esse slot para enviar eventos ao Datastream.
    2. No campo Nome da publicação, insira o nome da publicação criada no banco de dados. Uma publicação é um grupo de todas as tabelas de que você quer replicar as mudanças usando esse stream.
  2. Na seção Selecionar objetos a serem incluídos, use o menu suspenso Objetos para incluir para especificar as tabelas e esquemas no banco de dados de origem que o Datastream pode transferir para o destino.
    • Se você quiser que o Datastream transfira todas as tabelas e esquemas, selecione Todas as tabelas de todos os esquemas.
    • Se você quiser que o Datastream transfira apenas tabelas e esquemas específicos, selecione Esquemas e tabelas específicos e marque as caixas de seleção dos esquemas e das tabelas que você quer que o Datastream extraia.
    • Se você quiser fornecer uma definição textual das tabelas e esquemas que o Datastream transferir, selecione Personalizado e, no campo Critérios de correspondência de objetos, insira os esquemas e as tabelas que você quer que o Datastream extraia. Se o banco de dados tiver um grande número de tabelas e esquemas, recomendamos usar a opção Personalizado porque algumas tabelas e esquemas podem não estar incluídos na lista de objetos a serem extraídos.
  3. Se quiser, expanda o nó Selecionar objetos a serem excluídos. No campo Objetos a serem excluídos, insira as tabelas e os esquemas no banco de dados de origem que você quer restringir ao Datastream. A lista Objetos a serem excluídos tem precedência sobre a lista Objetos a serem incluídos. Se um objeto atender aos critérios das listas de inclusão e exclusão, ele será excluído do fluxo.
  4. Se quiser, expanda o nó Escolher o modo de preenchimento dos dados históricos e faça uma das seguintes seleções:
    • Selecione a opção Automático para fazer streaming de todos os dados existentes, além das alterações dos dados, da origem para o destino. No campo Objetos excluídos do preenchimento automático, insira as tabelas e os esquemas no banco de dados de origem que você quer impedir que o Datastream preencha no destino.
    • Selecione a opção Manual para transmitir apenas as alterações dos dados para o destino.
  5. Clique em CONTINUAR. O painel Definir perfil de conexão da página Criar stream é exibido para seu tipo de destino.

Configurar um banco de dados de origem do MySQL

  1. Na seção Selecionar objetos a serem incluídos, use o menu suspenso Objetos para incluir para especificar as tabelas e esquemas no banco de dados de origem que o Datastream pode transferir para o destino.
    • Se você quiser que o Datastream transfira todas as tabelas e esquemas, selecione Todas as tabelas de todos os esquemas.
    • Se você quiser que o Datastream transfira apenas tabelas e esquemas específicos, selecione Esquemas e tabelas específicos e marque as caixas de seleção dos esquemas e das tabelas que você quer que o Datastream extraia.
    • Se você quiser fornecer uma definição textual das tabelas e esquemas que o Datastream transferir, selecione Personalizado e, no campo Critérios de correspondência de objetos, insira os esquemas e as tabelas que você quer que o Datastream extraia. Se o banco de dados tiver um grande número de tabelas e esquemas, recomendamos usar a opção Personalizado porque algumas tabelas e esquemas podem não estar incluídos na lista de objetos a serem extraídos.
  2. Se quiser, expanda o nó Selecionar objetos a serem excluídos. No campo Objetos a serem excluídos, insira as tabelas e os esquemas no banco de dados de origem que você quer restringir ao Datastream. A lista Objetos a serem excluídos tem precedência sobre a lista Objetos a serem incluídos. Se um objeto atender aos critérios das listas de inclusão e exclusão, ele será excluído do fluxo.
  3. Especifique o método de CDC para seu stream:
    • Replicação baseada em GTID (IDs de transação global): selecione esse método se quiser que o Datastream ofereça suporte a failovers e replicação contínua, independentemente das mudanças no cluster de banco de dados.
    • Replicação baseada em binlog: selecione esse método para ler e replicar mudanças diretamente dos arquivos de registro binário de uma instância de banco de dados selecionada. Não é possível alternar um stream em execução para uma instância de origem ou réplica diferente usando esse método de CDC.
  4. Se quiser, expanda o nó Escolher o modo de preenchimento dos dados históricos e faça uma das seguintes seleções:
    • Selecione a opção Automático para fazer streaming de todos os dados existentes, além das alterações dos dados, da origem para o destino. No campo Objetos excluídos do preenchimento automático, insira as tabelas e os esquemas no banco de dados de origem que você quer impedir que o Datastream preencha no destino.
    • Selecione a opção Manual para transmitir apenas as alterações dos dados para o destino.
  5. Clique em CONTINUAR. O painel Definir perfil de conexão da página Criar stream é exibido para seu tipo de destino.

Configurar um banco de dados Oracle de origem

  1. Na seção Selecionar objetos a serem incluídos, use o menu suspenso Objetos para incluir para especificar as tabelas e esquemas no banco de dados de origem que o Datastream pode transferir para o destino.
    • Se você quiser que o Datastream transfira todas as tabelas e esquemas, selecione Todas as tabelas de todos os esquemas.
    • Se você quiser que o Datastream transfira apenas tabelas e esquemas específicos, selecione Esquemas e tabelas específicos e marque as caixas de seleção dos esquemas e das tabelas que você quer que o Datastream extraia.
    • Se você quiser fornecer uma definição textual das tabelas e esquemas que o Datastream transferir, selecione Personalizado e, no campo Critérios de correspondência de objetos, insira os esquemas e as tabelas que você quer que o Datastream extraia. Se o banco de dados tiver um grande número de tabelas e esquemas, recomendamos usar a opção Personalizado porque algumas tabelas e esquemas podem não estar incluídos na lista de objetos a serem extraídos.
  2. Se quiser, expanda o nó Selecionar objetos a serem excluídos. No campo Objetos a serem excluídos, insira as tabelas e os esquemas no banco de dados de origem que você quer restringir ao Datastream. A lista Objetos a serem excluídos tem precedência sobre a lista Objetos a serem incluídos. Se um objeto atender aos critérios das listas de inclusão e exclusão, ele será excluído do fluxo.
  3. Especifique o método de CDC para seu stream:
    • LogMiner: selecione esse método para consultar registros de refazer arquivados usando a API LogMiner. O LogMiner é compatível com a maioria das opções disponíveis para o Oracle, como opções de criptografia e compactação.
    • Leitor binário (versão prévia): selecione esse método para extrair mudanças diretamente dos registros do Oracle. Isso permite uma replicação mais rápida de grandes bancos de dados Oracle e reduz a latência e o overhead. Ao selecionar essa opção, um menu suspenso adicional é mostrado. Selecione como você quer acessar os arquivos de registro do Oracle:
      • Gerenciamento automático de armazenamento (ASM): selecione essa opção se o banco de dados usar o ASM. Verifique se você selecionou a caixa de seleção Ativar o acesso do ASM para o leitor binário e preencheu os detalhes da sua instância do ASM no perfil de conexão de origem.
      • Diretórios de banco de dados: selecione essa opção se você não usa o ASM para armazenar seus arquivos de registro. Se você selecionar diretórios de banco de dados, precisará informar os nomes dos diretórios de redo log e de registros arquivados.
  4. Se quiser, expanda o nó Escolher o modo de preenchimento dos dados históricos e faça uma das seguintes seleções:
    • Selecione a opção Automático para fazer streaming de todos os dados existentes, além das alterações dos dados, da origem para o destino. No campo Objetos excluídos do preenchimento automático, insira as tabelas e os esquemas no banco de dados de origem que você quer impedir que o Datastream preencha no destino.
    • Selecione a opção Manual para transmitir apenas as alterações dos dados para o destino.
  5. Clique em CONTINUAR. O painel Definir perfil de conexão da página Criar stream é exibido para seu tipo de destino.

Configurar um banco de dados de origem do SQL Server

  1. Na seção Selecionar objetos a serem incluídos, use o menu suspenso Objetos para incluir para especificar as tabelas e esquemas no banco de dados de origem que o Datastream pode transferir para o destino.
    • Se você quiser que o Datastream transfira todas as tabelas e esquemas, selecione Todas as tabelas de todos os esquemas.
    • Se você quiser que o Datastream transfira apenas tabelas e esquemas específicos, selecione Esquemas e tabelas específicos e marque as caixas de seleção dos esquemas e das tabelas que você quer que o Datastream extraia.
    • Se você quiser fornecer uma definição textual das tabelas e esquemas que o Datastream transferir, selecione Personalizado e, no campo Critérios de correspondência de objetos, insira os esquemas e as tabelas que você quer que o Datastream extraia. Se o banco de dados tiver um grande número de tabelas e esquemas, recomendamos usar a opção Personalizado porque algumas tabelas e esquemas podem não estar incluídos na lista de objetos a serem extraídos.
  2. Se quiser, expanda o nó Selecionar objetos a serem excluídos. No campo Objetos a serem excluídos, insira as tabelas e os esquemas no banco de dados de origem que você quer restringir ao Datastream. A lista Objetos a serem excluídos tem precedência sobre a lista Objetos a serem incluídos. Se um objeto atender aos critérios das listas de inclusão e exclusão, ele será excluído do fluxo.
  3. Especifique o método de CDC para seu stream:
    • Registros de transação: selecione esse método para processar mudanças diretamente dos registros do banco de dados. Esse método oferece o melhor desempenho e é mais eficiente, mas requer outras etapas de configuração.
    • Tabelas de mudanças: selecione esse método para processar mudanças de tabelas de mudanças dedicadas. Esse método é mais fácil de configurar e tem menos limitações, mas oferece menor capacidade de processamento e produz uma carga maior no banco de dados do que o método de registros de transações.
  4. Se quiser, expanda o nó Escolher o modo de preenchimento dos dados históricos e faça uma das seguintes seleções:
    • Selecione a opção Automático para fazer streaming de todos os dados existentes, além das alterações dos dados, da origem para o destino. No campo Objetos excluídos do preenchimento automático, insira as tabelas e os esquemas no banco de dados de origem que você quer impedir que o Datastream preencha no destino.
    • Selecione a opção Manual para transmitir apenas as alterações dos dados para o destino.
  5. Clique em CONTINUAR. O painel Definir perfil de conexão da página Criar stream é exibido para seu tipo de destino.

Configurar uma organização de origem do Salesforce (pré-lançamento)

  1. Na seção Selecionar objetos a serem incluídos, use o menu suspenso Objetos para incluir para especificar os objetos e campos na sua organização que você quer que o Datastream transfira para o destino.
    • Se você quiser que o Datastream transfira todos os objetos, selecione Todos os objetos.
    • Se você quiser que o Datastream transfira apenas objetos específicos, selecione Objetos específicos e marque as caixas de seleção dos objetos que você quer que o Datastream extraia.
    • Se você quiser fornecer uma definição textual dos objetos que o Datastream vai transferir, selecione Personalizado e, no campo Critérios de correspondência de objetos, insira os objetos que você quer que o Datastream extraia. Insira os objetos como uma lista separada por vírgulas, usando o formato [object].[field]. Se o banco de dados tiver um grande número de objetos, recomendamos usar a opção Personalizada, porque algumas tabelas e esquemas podem não estar incluídos na lista de objetos a serem extraídos.
  2. Defina o valor do intervalo de pesquisa em minutos. O Datastream usa esse valor para verificar se há alterações de dados na sua organização do Salesforce. Quanto maior o valor, menor o custo e a carga na sua organização. Quanto menor o valor, mais atualizados estarão os dados no destino.
  3. Se quiser, expanda o nó Selecionar objetos a serem excluídos. No campo Objetos a serem excluídos, insira os objetos e campos na organização de origem que você quer restringir ao Datastream. A lista Objetos a serem excluídos tem precedência sobre a lista Objetos a serem incluídos. Se um objeto atender aos critérios das listas de inclusão e exclusão, ele será excluído do fluxo.
  4. Se quiser, expanda o nó Escolher o modo de preenchimento dos dados históricos e faça uma das seguintes seleções:
    • Selecione a opção Automático para replicar todos os dados existentes, além das alterações, da origem para o destino. No campo Objetos excluídos do preenchimento automático, insira os objetos na organização de origem que você quer impedir que o Datastream preencha no destino.
    • Selecione a opção Manual para replicar apenas as mudanças nos dados para o destino.
  5. Clique em CONTINUAR. O painel Definir perfil de conexão da página Criar stream é exibido para seu tipo de destino.

Configurar um banco de dados de origem do MongoDB (prévia)

  1. Na seção Selecionar objetos a serem incluídos, use o menu suspenso Objetos para incluir para especificar os bancos de dados e as coleções que você quer que o Datastream transfira para o destino.
    • Se você quiser que o Datastream transfira todas as coleções, selecione Todos os bancos de dados e coleções.
    • Se você quiser que o Datastream transfira apenas coleções específicas, selecione Bancos de dados e coleções específicos e marque as caixas de seleção das coleções que você quer que o Datastream extraia.
    • Se você quiser fornecer uma definição textual das coleções que o Datastream vai transferir, selecione Personalizado e, no campo Critérios de correspondência de objetos, insira as coleções que você quer que o Datastream extraia. Insira os objetos como uma lista separada por vírgulas, usando o formato [collection].[field]. Se o banco de dados tiver um grande número de objetos, recomendamos usar a opção Personalizada, porque algumas tabelas e esquemas podem não estar incluídos na lista de objetos a serem extraídos.
  2. Se quiser, expanda o nó Escolher o modo de preenchimento dos dados históricos e faça uma das seguintes seleções:
    • Selecione a opção Automático para replicar todos os dados existentes, além das alterações, da origem para o destino. No campo Objetos excluídos do preenchimento automático, insira os objetos na organização de origem que você quer impedir que o Datastream preencha no destino.
    • Selecione a opção Manual para replicar apenas as mudanças nos dados para o destino.
  3. Clique em CONTINUAR. O painel Definir perfil de conexão da página Criar stream é exibido para seu tipo de destino.

Selecione um perfil de conexão de destino

  1. Se você criou um perfil de conexão de destino, selecione-o na lista de perfis de conexão.

    Se você não tiver criado um perfil de conexão de destino, crie um clicando em CRIAR PERFIL DE CONEXtO na parte inferior da lista suspensa. Depois siga as mesmas etapas de Criar perfis de conexão

  2. Clique em CONTINUAR. O painel Configurar destino do stream é exibido na página Criar stream.

Configurar informações sobre o destino do stream

Nesta seção, descrevemos as informações necessárias para configurar seu destino do BigQuery ou do Cloud Storage.

Destino no BigQuery

  1. Na seção Especificar como o Datastream deve transmitir para um conjunto de dados do BigQuery, selecione uma das seguintes opções no menu suspenso Agrupamento de esquemas:

    • Conjunto de dados para cada esquema: o Datastream cria um conjunto de dados do BigQuery para cada esquema de origem com base no nome do esquema.

      Se você selecionar essa opção, para cada esquema no banco de dados de origem, o Datastream vai criar um conjunto de dados no projeto que contém o fluxo.

      Além disso, se você selecionar a opção Conjunto de dados para cada esquema, será necessário informar o seguinte:

      1. Na seção Tipo de local, especifique onde você quer armazenar seus dados no BigQuery. Selecione Região para especificar um único local geográfico ou Multirregião para especificar uma área maior que contém duas ou mais regiões. Se sua prioridade for otimizar custos e desempenho, selecione Região e mantenha seus conjuntos de dados com outros recursos do Google Cloud que você gerencia. Se quiser limites de cota mais altos, selecione Multirregião para permitir que o BigQuery use várias regiões em um grupo. Quando você seleciona Região, o campo usa como padrão a região selecionada para o fluxo.
      2. (Opcional) No campo Prefixo do conjunto de dados, defina um prefixo para o conjunto de dados criado pelo stream. A string especificada é adicionada ao nome do esquema de origem. Por exemplo, se o esquema for chamado de <mySchema> e você definir o prefixo do conjunto de dados como <myPrefix>, o Datastream vai criar um conjunto de dados chamado <myPrefix><mySchema>.
      3. Expanda a seção Mostrar opções avançadas de criptografia.
      4. Especifique como você quer que seus dados sejam criptografados no BigQuery selecionando uma chave de criptografia gerenciada pelo Google ou pelo cliente.

    • Um único conjunto de dados para todos os esquemas: o Datastream cria todas as tabelas no conjunto de dados do BigQuery especificado. Cada tabela criada pelo Datastream recebe um nome que combina o nome do esquema de origem e o nome da tabela, separados por um sublinhado (por exemplo, <mySchemaName>_<myTableName>). Os conjuntos de dados disponíveis são agrupados por região. Também é possível criar um novo conjunto de dados.

  2. Especifique o Modo de gravação de stream. Selecione o modo de gravação para definir como os dados são gravados e processados no BigQuery:

    • Mesclar: selecione essa opção se quiser que seus dados sejam sincronizados com a origem.
    • Somente anexar: selecione essa opção se quiser manter todos os dados históricos dos eventos de mudança.
  3. Especifique o limite de inatividade dos dados. Disponível apenas quando o modo Mesclar é selecionado na etapa anterior. Selecione um limite para equilibrar o desempenho e o custo das consultas do BigQuery em comparação com a atualização de dados. O BigQuery aplica as mudanças em segundo plano de maneira contínua ou no ambiente de execução da consulta, de acordo com o limite de desatualização. Uma inatividade menor (dados mais recentes) pode aumentar os custos de processamento do BigQuery.

  4. Clique em CONTINUAR. Aparecerá a página Criar detalhes da transmissão e a página Criar stream.

Destino de tabelas do BigLake Iceberg

  1. Na seção Especificar como o Datastream deve transmitir para um conjunto de dados do BigQuery, selecione como você quer que o Datastream crie novos esquemas e tabelas no menu suspenso Agrupamento de esquemas:

    • Conjunto de dados para cada esquema: o Datastream cria um conjunto de dados do BigQuery para cada esquema de origem com base no nome do esquema.

      Se você selecionar essa opção, para cada esquema no banco de dados de origem, o Datastream vai criar um conjunto de dados no projeto que contém o fluxo.

      Além disso, se você selecionar a opção Conjunto de dados para cada esquema, será necessário informar o seguinte:

      1. Na seção Tipo de local, especifique onde você quer armazenar seus dados no BigQuery. Selecione Região para especificar um único local geográfico ou Multirregião para especificar uma área maior que contém duas ou mais regiões. Se sua prioridade for otimizar custos e desempenho, selecione Região e mantenha seus conjuntos de dados com outros recursos do Google Cloud que você gerencia. Se quiser limites de cota mais altos, selecione Multirregião para permitir que o BigQuery use várias regiões em um grupo. Quando você seleciona Região, o campo usa como padrão a região selecionada para o fluxo.
      2. (Opcional) No campo Prefixo do conjunto de dados, defina um prefixo para o conjunto de dados criado pelo stream. A string especificada é adicionada ao nome do esquema de origem. Por exemplo, se o esquema for chamado de <mySchema> e você definir o prefixo do conjunto de dados como <myPrefix>, o Datastream vai criar um conjunto de dados chamado <myPrefix><mySchema>.
      3. Expanda a seção Mostrar opções avançadas de criptografia.
      4. Especifique como você quer que seus dados sejam criptografados no BigQuery selecionando uma chave de criptografia gerenciada pelo Google ou pelo cliente.

    • Um único conjunto de dados para todos os esquemas: o Datastream cria todas as tabelas no conjunto de dados do BigQuery especificado. Cada tabela criada pelo Datastream recebe um nome que combina o nome do esquema de origem e o nome da tabela, separados por um sublinhado (por exemplo, <mySchemaName>_<myTableName>). Os conjuntos de dados disponíveis são agrupados por região. Também é possível criar um novo conjunto de dados.

  2. Na seção Definir a conexão do Datastream com as tabelas do BigLake Iceberg, forneça as seguintes informações:

    • No menu suspenso ID da conexão, selecione o identificador da conexão do BigQuery que você criou e quer usar para seu fluxo. Para informações sobre como criar uma conexão de recurso do Cloud no BigQuery, consulte Configurar tabelas do BigLake Iceberg no BigQuery.

    • Insira ou selecione o endereço URI do bucket que você criou no Cloud Storage. Para informações sobre como criar um bucket do Cloud Storage, consulte Criar um bucket.

  3. Analise o Formato do arquivo e o Formato da tabela. O Datastream é compatível com o formato de arquivo Parquet e o formato de tabela Iceberg.

  4. Analise o Modo de gravação de stream. O Datastream só aceita o modo de gravação Somente anexar ao fazer streaming para tabelas do BigLake Iceberg.

  5. Clique em CONTINUAR. Aparecerá a página Criar detalhes da transmissão e a página Criar stream.

Destino no Cloud Storage

  1. Opcionalmente, no campo Prefixo do caminho do stream, insira a pasta do bucket de destino em que o Datastream transferirá esquemas, tabelas e dados de um banco de dados de origem.

    Por exemplo, se você quiser que o Datastream transfira dados do banco de dados de origem para a pasta /root/example no bucket de destino, insira /root/example no campo Prefixo do caminho do stream.

  2. No campo Formato de saída, escolha o formato de arquivos gravados no Cloud Storage.

  3. Opcional. Se você selecionar o formato JSON, duas caixas de seleção vão aparecer:

    1. Inclua um arquivo de esquema de tipos unificados no caminho do arquivo: se você marcar essa caixa de seleção, o Datastream gravará dois arquivos no Cloud Storage: um arquivo de dados JSON e um arquivo de esquema Avro. O arquivo de esquema tem o mesmo nome do arquivo de dados, com uma extensão .schema. Se você não marcar essa caixa de seleção, o Datastream gravará apenas o arquivo de dados JSON no Cloud Storage. Por padrão, essa caixa de seleção não é marcada.
    2. Ativar compactação de gzip: se você marcar esta caixa de seleção, o Datastream usará o utilitário gzip para compactar os arquivos que o Datastream grava no Cloud Storage. Se você não marcar essa caixa de seleção, o Datastream gravará os arquivos no Cloud Storage sem compactá-los. Por padrão, essa caixa de seleção é marcada.
  4. Clique em CONTINUAR. Aparecerá a página Criar detalhes da transmissão e a página Criar stream.

Criar o stream

  1. Verifique os detalhes do stream, bem como os perfis de conexão de origem e de destino que serão usados para transferir dados de um banco de dados de origem para um destino.
  2. Clique emEXECUTAR VALIDAÇÃO para validar o stream. Ao validar um stream, o Datastream verifica se a origem está configurada corretamente, verifica se o stream pode se conectar à origem e ao destino e verifica a configuração de ponta a ponta do stream.

    1. Se o banco de dados de origem for Oracle, o Datastream realizará as seguintes verificações:

      ChecagemDescrição
      Validade da lista de objetosO Datastream verifica se a lista de exclusão não substitui a lista de inclusão.
      Encaminhar conectividade do túnel SSHO Datastream verifica se ele pode se conectar a um Bastion Host por meio de um túnel SSH de encaminhamento.
      Conectividade com o banco de dados OracleO Datastream verifica se ele pode se conectar ao banco de dados Oracle de origem.
      Permissões do usuário da OracleO Datastream verifica se o usuário usado para se conectar ao banco de dados de origem tem todas as permissões necessárias para recuperar esquemas, tabelas e dados do banco de dados. Assim, o Datastream pode fazer streaming dessas informações para o destino.
      Configuração do modo de geração de registrosO Datastream verifica se o modo de geração de registros do banco de dados Oracle está definido como ARCHIVELOG.
      Configuração adicional da geração de registrosO Datastream verifica se a geração de registros complementares está ativada nas tabelas do banco de dados que estão sendo transmitidas da origem para o destino.
      Configuração da CDC do OracleO Datastream verifica se o método de CDC selecionado está em conformidade com a configuração do banco de dados.
      Configuração de registros do arquivoO Datastream verifica se a geração de registros do arquivo está configurada na origem e se os arquivos de registros estão presentes.
      Permissões do Cloud Storage (para destinos do Cloud Storage) O Datastream verifica se ele tem as permissões necessárias para gravar no bucket de destino no Cloud Storage.
    2. Se o banco de dados de origem for o MySQL, o Datastream realizará as seguintes verificações:

      ChecagemDescrição
      Permissões de replicaçãoO Datastream verifica se ele tem permissões para replicar um banco de dados MySQL.
      Versão do banco de dadosO Datastream verifica se a versão do banco de dados MySQL é compatível. Para informações sobre as edições compatíveis, consulte Versões.
      Configuração do formato do registro binárioO Datastream verifica se o formato de registro binário do banco de dados do MySQL está definido como ROW.
      A geração de registros binários está ativadaO Datastream verifica se os arquivos de registros binários estão configurados corretamente e se há arquivos de registros presentes.
      Configuração de imagem de linha de registro binárioO Datastream verifica se a imagem de linha do binlog está definida como FULL.
      Compactação do binlog desativadaO Datastream verifica se a compactação de log binário está desativada.
      Atualizações de réplica ou escravo de registro ativadasO Datastream verifica se as atualizações de réplica ou escravo do registro estão ativadas.
      Configuração do modo GTID (applies only to GTID-based CDC)O Datastream verifica se o modo GTID está definido como ON se a replicação baseada em GTID for usada.
      GtidSet não contém GTIDs marcados (applies only to GTID-based CDC)O Datastream verifica se o conjunto de GTID não contém GTIDs marcados.
      Permissões do Cloud Storage (para destinos do Cloud Storage)O Datastream verifica se ele tem as permissões necessárias para gravar no bucket de destino no Cloud Storage.
      Verificação de avisosDescrição
      Configuração de dias de expiração de registros, segundos de expiração de registros ou horas de retenção de binlogO Datastream verifica se expire_logs_days, binlog_expire_logs_seconds e binlog retention hours estão configurados com valores maiores que 7, 604800 e 168, respectivamente.
      Configuração máxima permitida de pacotesO Datastream verifica se o max_allowed_packet está definido como 1 GB.
      Aplicar a consistência do GTID ou o modo estrito do GTID (applies only to GTID-based CDC)O Datastream verifica se a consistência ou o modo estrito do GTID está ativado.
    3. Se o banco de dados de origem for PostgreSQL, o Datastream vai realizar as seguintes verificações:

      VerificaçãoDescrição
      Conectividade com o banco de dados PostgreSQLO Datastream verifica se ele pode se conectar ao banco de dados PostgreSQL de origem.
      A decodificação lógica está ativadaO Datastream verifica se o parâmetro wal_level do banco de dados PostgreSQL está definido como logical.
      Configuração do slot de replicaçãoO Datastream verifica se o slot de replicação do PostgreSQL existe e está ativo, se o Datastream tem as permissões necessárias para acessá-lo e se ele está configurado corretamente.
      Configuração da publicaçãoO Datastream verifica se a publicação existe e se as tabelas a serem replicadas para o fluxo estão incluídas nela.
      Permissões de preenchimentoO Datastream verifica se as tabelas necessárias para fazer o backfill de dados históricos existem e se ele tem as permissões necessárias para lê-las.
    4. Se o banco de dados de origem for o SQL Server, o Datastream realizará as seguintes verificações:

      VerificaçãoDescrição
      Edição do SQL ServerO Datastream verifica se a edição do banco de dados SQL Server de origem é compatível. Para informações sobre as edições compatíveis, consulte Versões.
      Permissões de usuário do SQL ServerO Datastream verifica se o usuário tem as permissões necessárias para acessar o banco de dados de origem do SQL Server.
      O CDC do SQL Server está ativadoO Datastream verifica se a CDC está ativada para o banco de dados e todas as tabelas incluídas no stream.
      Validações do banco de dados do SQL ServerO Datastream verifica se o banco de dados de origem está configurado corretamente, se todos os requisitos de replicação foram atendidos e se não há tipos de dados incompatíveis nas colunas.
      Permissões do Cloud Storage ou do BigQueryO Datastream verifica se o usuário tem as permissões necessárias para gravar no destino.
    5. Se o banco de dados de origem for o Salesforce (Prévia), o Datastream vai realizar as seguintes verificações:

      VerificaçãoDescrição
      Login com credenciaisO Datastream verifica se é possível fazer a autenticação com a organização do Salesforce do cliente usando as credenciais fornecidas.
      API BulkO Datastream verifica se tem as permissões necessárias para acessar a API Salesforce Bulk 2.0. A API Bulk 2.0 é necessária para ler grandes quantidades de dados.
      Verificação de avisosDescrição
      Limites da APIO Datastream calcula uma estimativa do uso esperado da API com base no número de objetos e no intervalo de sondagem selecionados. Se o número diário esperado de solicitações for maior do que o limite imposto pelo Salesforce, o Datastream vai emitir um aviso. Você ainda pode criar e executar o fluxo, mesmo que a verificação de validação não seja aprovada.
    6. Se o banco de dados de origem for o MongoDB (prévia), o Datastream vai realizar as seguintes verificações:

      VerificaçãoDescrição
      Permissões do usuárioO Datastream verifica se a função readAnyDatabase está atribuída ao usuário.
      Configurações de conexãoO Datastream usa o comando hello para verificar se as configurações de conexão são válidas.
      Versão do MongoDBO Datastream verifica se a versão do MongoDB é 5.0 ou mais recente.
      Permissões do Cloud Storage ou do BigQueryO Datastream verifica se o usuário tem as permissões necessárias para gravar no destino.
  3. Depois que todas as verificações de validação forem aprovadas, clique em CRIAR E INICIAR para criar e iniciar o fluxo imediatamente ou em CRIAR para criar o fluxo sem iniciar imediatamente.

    Se você não iniciar o stream agora, poderá iniciá-lo na página Streams clicando em INICIAR.

Após criar um stream, você pode ver informações detalhadas e de alto nível sobre ele.

A seguir