本指南将介绍如何使用 Sensitive Data Protection 检查 BigQuery 表,并将检查结果发送到 Data Catalog。
此外,您还可以执行数据分析,这与检查操作不同。您还可以将数据剖析发送到 Dataplex Universal Catalog。如需了解详情,请参阅根据数据剖析文件中的数据洞见在 Dataplex Universal Catalog 中标记表。
Data Catalog 是一项可伸缩的元数据管理服务,可帮助您快速发现、管理和了解 Google Cloud中的所有数据。
Sensitive Data Protection 与 Data Catalog 内置集成。使用敏感数据保护 操作检查 BigQuery 表中是否存在敏感数据时,它可以将结果以标记模板的形式直接发送到 Data Catalog。
在完成本指南的过程中,您将执行以下操作:
- 启用 Data Catalog 和 Sensitive Data Protection。
- 设置敏感数据保护功能以检查 BigQuery 表。
- 配置敏感数据保护检查,以将检查结果发送到 Data Catalog。
如需详细了解 Data Catalog,请参阅 Data Catalog 文档。
如果您想将数据分析操作(而非检查作业)的结果发送到 Dataplex Universal Catalog,请参阅有关分析组织、文件夹或项目的文档。
费用
在本文档中,您将使用 Google Cloud的以下收费组件:
- Sensitive Data Protection
- BigQuery
您可使用价格计算器根据您的预计使用情况来估算费用。
准备工作
在将 Sensitive Data Protection 检查结果发送到 Data Catalog 之前,请执行以下操作:
- 第 1 步:设置结算功能。
- 第 2 步:创建新项目并填充新的 BigQuery 表。(可选)
- 第 3 步:启用 Data Catalog。
- 第 4 步:启用敏感数据保护。
下面各小节将详细介绍每个步骤。
第 1 步:设置结算功能
如果您还没有结算账号,必须先设置一个。
第 2 步:创建新项目并填充新的 BigQuery 表(可选)
如果您是要为生产工作设置此功能,或者已经拥有要检查的 BigQuery 表,请打开包含该表的Google Cloud 项目并跳到第 3 步。
如果您是要试用此功能,且希望检查测试数据,请创建一个新项目。要完成此步骤,您必须拥有 IAM 的 Project Creator 角色。详细了解 IAM 角色。
- 前往 Google Cloud 控制台中的新建项目页面。
- 在结算账号下拉列表中,选择项目的结算账号。
- 在组织下拉列表中,选择要在其中创建项目的组织。
- 在位置下拉列表中,选择要在其中创建项目的组织或文件夹。
- 点击创建以创建项目。
接下来,下载并存储样本数据:
- 前往 GitHub 上的 Cloud Run functions 教程代码库。
- 选择一个包含示例数据的 CSV 文件,然后下载该文件。
- 接下来,前往 Google Cloud 控制台中的 BigQuery。
- 选择您的项目。
- 点击创建数据集。
- 点击创建表。
- 点击上传,然后选择您要上传的文件。
- 为表命名,然后点击创建表。
第 3 步:启用 Data Catalog
接下来,为您要使用敏感数据保护进行检查的 BigQuery 表所在的项目启用 Data Catalog。
如需使用 Google Cloud 控制台启用 Data Catalog,请执行以下操作:
- 注册应用以使用 Data Catalog。
- 在注册页面上的创建项目下拉列表中,选择要用于 Data Catalog 的项目。
- 选择项目后,点击继续。
您的项目现已启用 Data Catalog。
第 4 步:启用 Sensitive Data Protection
为已启用 Data Catalog 的同一项目启用 Sensitive Data Protection。
如需使用 Google Cloud 控制台启用 Sensitive Data Protection,请执行以下操作:
- 注册应用以使用 Sensitive Data Protection。
- 在注册页面上的创建项目下拉列表中,选择您在上一步中选择的那个项目。
- 选择项目后,点击继续。
您的项目现已启用 Sensitive Data Protection。
配置并运行 Sensitive Data Protection 检查作业
您可以使用 Google Cloud 控制台或 DLP API 配置并运行 Sensitive Data Protection 检查作业。
Data Catalog 标记模板与 BigQuery 表存储在同一项目和区域中。如果您要检查其他项目中的表,则必须在 BigQuery 表所在的项目中向敏感数据保护服务代理授予 Data Catalog TagTemplate Owner (roles/datacatalog.tagTemplateOwner
) 角色。
Google Cloud 控制台
如需使用敏感数据保护设置 BigQuery 表的检查作业,请执行以下操作:
在 Google Cloud 控制台的“敏感数据保护”部分,前往创建作业或作业触发器页面。
输入 Sensitive Data Protection 作业信息,然后点击继续以完成各个步骤:
在第 1 步:选择输入数据中,请于名称字段内输入值,为作业命名。在位置中,从存储类型菜单中选择 BigQuery,然后输入要检查的表的信息。系统已预先配置采样部分,以便针对您的数据运行示例检查。如果您有大量数据,可以调整限制行数的依据和最大行数字段以节省资源。如需了解详情,请参阅选择输入数据。
(可选)在第 2 步:配置检测中,配置要查找的数据类型(称为“infoType”)。在本演示中,请保留选中的默认 infoType。如需了解详情,请参阅配置检测。
在第 3 步:添加操作中,请启用保存到 Data Catalog。
(可选)在第 4 步:时间安排中,出于运行本演示的目的,请将菜单设置为无,以便仅运行一次检查。如需详细了解如何安排重复检查作业,请参阅时间安排。
点击创建。作业会立即运行。
DLP API
在本部分中,您将配置并运行敏感数据保护检查作业。
您在此配置的检查作业会指示 Sensitive Data Protection 检查上面第 2 步中描述的 BigQuery 样本数据或您自己的 BigQuery 数据。在指定的作业配置中,您也要指示 Sensitive Data Protection 将其检查结果保存到 Data Catalog。
第 1 步:记下您的项目标识符
前往 Google Cloud 控制台。
点击选择。
在请选择:下拉列表中,选择您已为其启用 Data Catalog 的组织。
在 ID 下方,复制您要检查的数据所在项目的项目 ID。也就是上文设置存储区步骤中所述的项目。
在名称下方,点击项目以将其选中。
第 2 步:打开 API Explorer 并配置作业
在
dlpJobs.create
方法的参考页面上转到 API Explorer。为继续参考这些说明,请右键点击以下链接,然后在新标签页或窗口中打开:在父级 (parent) 框中输入以下内容,其中的 project-id 是指您在上一步中记下的项目 ID:
projects/project-id
接下来,复制以下 JSON。在 API Explorer 中选择请求正文 (Request body) 字段的内容,然后粘贴 JSON 以替换相应内容。请务必将
project-id
、bigquery-dataset-name
和bigquery-table-name
占位符分别替换为实际的项目 ID、BigQuery 数据集和表名称。{ "inspectJob": { "storageConfig": { "bigQueryOptions": { "tableReference": { "projectId": "project-id", "datasetId": "bigquery-dataset-name", "tableId": "bigquery-table-name" } } }, "inspectConfig": { "infoTypes": [ { "name": "EMAIL_ADDRESS" }, { "name": "PERSON_NAME" }, { "name": "US_SOCIAL_SECURITY_NUMBER" }, { "name": "PHONE_NUMBER" } ], "includeQuote": true, "minLikelihood": "UNLIKELY", "limits": { "maxFindingsPerRequest": 100 } }, "actions": [ { "publishFindingsToCloudDataCatalog": {} } ] } }
如需详细了解可用的检查选项,请参阅检查存储空间和数据库中是否存在敏感数据。如需查看 Sensitive Data Protection 可以检查的信息类型的完整列表,请参阅 InfoType 参考文档。
第 3 步:执行启动检查作业的请求
按照上述步骤配置作业后,点击执行 (Execute) 以发送请求。如果请求成功,系统会显示一个响应,其中包含一个成功代码和一个 JSON 对象(指示您刚刚创建的敏感数据保护作业的状态)。
检查请求响应中包含检查作业的 ID("name"
键)和当前状态("state"
键)。由于您刚刚提交了请求,因此作业在此刻的状态为 "PENDING"
。
检查 Sensitive Data Protection 检查作业的状态
提交检查请求后,检查作业会立即开始。
Google Cloud 控制台
如需查看检查作业的状态,请执行以下操作:
在 Google Cloud 控制台中,打开 Sensitive Data Protection。
点击作业和作业触发器标签页,然后点击所有作业。
您刚刚运行的作业可能显示在列表顶部。查看状态列,确保其状态为完成。
您可以点击作业的作业 ID 以查看其结果。作业详情页面上列出的每个 infoType 检测器后面都会显示在内容中找到的匹配项数量。
DLP API
如需查看检查作业的状态,请执行以下操作:
点击以下按钮,在
dlpJobs.get
方法的参考页面上转到 API Explorer:在名称 (name) 框中,输入检查请求的 JSON 响应中的作业名称,其格式如下:
作业 ID 的格式为projects/project-id/dlpJobs/job-id
i-1234567890123456789
。如需提交请求,请点击执行。
如果响应 JSON 对象的 "state"
键指示作业为 "DONE"
,则表示检查作业已完成。
如需查看响应 JSON 的其余部分,请向下滚动页面。在 "result"
> "infoTypeStats"
下,列出的每种信息类型都应有相应的 "count"
。如果没有,请确保您输入的 JSON 准确无误,且数据的路径或位置正确无误。
检查作业完成后,您可以继续转到本指南的下一部分,在 Security Command Center 中查看检查结果。
在 Data Catalog 中查看 Sensitive Data Protection 检查结果
由于您已指示敏感数据保护功能将检查作业结果发送到 Data Catalog,因此您现可在 Data Catalog 界面中查看自动创建的标记和标记模板:
- 前往 Google Cloud 控制台中的 Data Catalog 页面。
- 搜索您检查过的表。
- 点击与您的表匹配的结果以查看该表的元数据。
下面的屏幕截图显示了示例表的 Data Catalog 元数据视图:

检查摘要
Sensitive Data Protection 的结果将包含在您所检查的表的摘要表单中。此摘要包含 infoType 总数,以及有关检查作业的摘要数据(包括日期和作业资源 ID)。
系统会列出已检查的所有 infoTypes
。有结果的 infoType 显示的计数大于零。
清理
为避免系统因本主题中使用的资源而向您的 Google Cloud 账号收取费用,请根据您使用的是样本数据还是您自己的数据,执行下列操作之一:
- 样本数据:删除您创建的项目。
- 您自己的数据:删除您创建的 Sensitive Data Protection 作业。
删除项目
为避免支付费用,最简单的方法是按照本主题中提供的说明删除您创建的项目。
如需删除项目,请执行以下操作:
- 在 Google Cloud 控制台中,前往“项目”页面。
- 在项目列表中,选择要删除的项目,然后点击删除项目。
- 在对话框中输入项目 ID,然后点击关停以删除项目。
使用此方法删除项目时,您创建的 Sensitive Data Protection 作业和 Cloud Storage 存储桶也会一并删除,且删除操作就此完成。您不用再按照以下部分中的说明操作。
删除敏感数据保护作业或作业触发器
如果您检查的是自己的数据,请删除刚刚创建的检查作业或作业触发器。
Google Cloud 控制台
在 Google Cloud 控制台中,打开 Sensitive Data Protection。
点击作业和作业触发器标签页,然后点击作业触发器标签页。
在要删除的作业触发器的操作列中,点击更多操作菜单(显示为纵向排列的三个点)
,然后点击删除。
(可选)您还可以删除运行过的作业的作业详情。 点击所有作业标签页,然后在要删除的作业的操作列中,点击更多操作菜单(显示为纵向排列的三个点)
,然后点击删除。DLP API
点击以下按钮,在
dlpJobs.delete
方法的参考页面上转到 API Explorer:在名称 (name) 框中,输入检查请求的 JSON 响应中的作业名称,其格式如下:
作业 ID 的格式为projects/project-id/dlpJobs/job-id
i-1234567890123456789
。
如果您创建了其他检查作业,或者想要确保已成功删除作业,可以列出现有的所有作业:
点击以下按钮,在
dlpJobs.list
方法的参考页面上转到 API Explorer:在父级框中,按以下格式输入项目标识符,其中 project-id 是指您的项目标识符:
projects/project-id
点击执行。
如果响应中未列出任何作业,则表明您已删除所有作业。如果响应中列出了作业,请对这些作业重复上述删除步骤。
后续步骤
- 详细了解 Sensitive Data Protection 中的
publishFindingsToCloudDataCatalog
操作。 - 详细了解如何根据 Sensitive Data Protection 结果在 Data Catalog 中创建自定义标记或列级标记。
- 详细了解如何使用 Sensitive Data Protection 检查存储库中是否存在敏感数据。
- 了解如何使用 Data Catalog。