本文档概述了可用于将元数据从第三方来源导入 Dataplex Universal Catalog 的托管式连接流水线。
借助托管式连接,您可以大规模将元数据导入 Dataplex Universal Catalog。托管式连接流水线会从您的数据源提取元数据,然后将元数据导入 Dataplex Universal Catalog。如有必要,该流水线还会在您的Google Cloud 项目中创建 Dataplex Universal Catalog 条目组。您可以根据自己的需求编排工作流并安排导入作业。
您可以构建自己的自定义连接器,以从第三方来源提取元数据。例如,您可以构建一个连接器,以从 MySQL、SQL Server、Oracle、Snowflake、Databricks 等来源提取元数据。如需了解构建自定义连接器示例的步骤,请参阅开发用于元数据导入的自定义连接器。您还可以使用社区贡献的自定义连接器,这些连接器适用于各种第三方来源。
如需了解运行托管式连接流水线的步骤,请参阅使用 Workflows 从自定义来源导入元数据。
托管式连接的运作方式
下图展示了托管式连接流水线。
概括来讲,托管式连接的运作方式如下:
您需要为数据源构建连接器。
连接器必须是一个可在 Dataproc Serverless 上运行的 Artifact Registry 映像。
您可以在编排平台 Workflows 中运行托管式连接流水线。
托管式连接流水线会执行以下操作:
- 根据您的配置创建目标条目组(如果该条目组尚不存在)。
- 运行连接器。连接器会从您的数据源提取元数据,并生成可导入 Dataplex Universal Catalog 的元数据导入文件。
- 监控元数据提取的进度。
- 运行元数据导入作业,将元数据导入到 Dataplex Universal Catalog。
- 监控元数据导入作业的进度。
托管式连接流水线使用 Dataproc Serverless 运行连接器,并使用 Dataplex Universal Catalog 元数据导入 API 方法运行元数据导入作业。
您导入的元数据包含 Dataplex Universal Catalog 条目及其切面。如需详细了解 Dataplex Universal Catalog 元数据,请参阅 Dataplex Universal Catalog 中的数据目录管理简介。
社区提供的自定义连接器
如需从第三方来源导入元数据,您可以使用社区贡献的自定义连接器。如需了解设置说明和有关连接器的更多信息,请参阅每个连接器的自述文件。
数据源 | 代码库 |
---|---|
MySQL | mysql-connector |
Oracle | oracle-connector |
PostgreSQL | postgresql-connector |
雪花 | snowflake-connector |
SQL Server | sql-server-connector |