托管式连接概览

本文档概述了可用于将元数据从第三方来源导入 Dataplex Universal Catalog 的托管式连接流水线。

借助托管式连接,您可以大规模将元数据导入 Dataplex Universal Catalog。托管式连接流水线会从您的数据源提取元数据,然后将元数据导入 Dataplex Universal Catalog。如有必要,该流水线还会在您的Google Cloud 项目中创建 Dataplex Universal Catalog 条目组。您可以根据自己的需求编排工作流并安排导入作业。

您可以构建自己的自定义连接器,以从第三方来源提取元数据。例如,您可以构建一个连接器,以从 MySQL、SQL Server、Oracle、Snowflake、Databricks 等来源提取元数据。如需了解构建自定义连接器示例的步骤,请参阅开发用于元数据导入的自定义连接器。您还可以使用社区贡献的自定义连接器,这些连接器适用于各种第三方来源。

如需了解运行托管式连接流水线的步骤,请参阅使用 Workflows 从自定义来源导入元数据

托管式连接的运作方式

下图展示了托管式连接流水线。

托管式连接流水线。

概括来讲,托管式连接的运作方式如下:

  1. 您需要为数据源构建连接器

    连接器必须是一个可在 Dataproc Serverless 上运行的 Artifact Registry 映像。

  2. 您可以在编排平台 Workflows 中运行托管式连接流水线

  3. 托管式连接流水线会执行以下操作:

    1. 根据您的配置创建目标条目组(如果该条目组尚不存在)。
    2. 运行连接器。连接器会从您的数据源提取元数据,并生成可导入 Dataplex Universal Catalog 的元数据导入文件。
    3. 监控元数据提取的进度。
    4. 运行元数据导入作业,将元数据导入到 Dataplex Universal Catalog。
    5. 监控元数据导入作业的进度。

托管式连接流水线使用 Dataproc Serverless 运行连接器,并使用 Dataplex Universal Catalog 元数据导入 API 方法运行元数据导入作业。

您导入的元数据包含 Dataplex Universal Catalog 条目及其切面。如需详细了解 Dataplex Universal Catalog 元数据,请参阅 Dataplex Universal Catalog 中的数据目录管理简介

社区提供的自定义连接器

如需从第三方来源导入元数据,您可以使用社区贡献的自定义连接器。如需了解设置说明和有关连接器的更多信息,请参阅每个连接器的自述文件。

数据源 代码库
MySQL mysql-connector
Oracle oracle-connector
PostgreSQL postgresql-connector
雪花 snowflake-connector
SQL Server sql-server-connector

后续步骤