课程: 学习数据分析:1. 基础知识

理解数据联接

课程: 学习数据分析:1. 基础知识

理解数据联接

作为数据分析师新手,最难理解的概念之一 就是如何将多个表中的数据联接起来。 实际上, 没有什么通用的方法适用于所有情况。 如果你是在使用已经建立起联接的数据集, 那当然再好不过了。 当你需要从多个表中获取数据时, 你通常需要使用查询把它们联接到一起。 另外,还要记住的一点就是, 能够处理多个数据集的软件, 通常都会提供联接数据集的方法。 在 Excel 中,这个方法 就是 LOOKUP 函数。 在数据库中, 这个方法就是查询语句。 为了联接数据集,你需要找到他们的共同点。 在最理想的情况下, 这个共同点是一个 能唯一标识信息的关键字段。 你可以用它来联接数据。 要注意,在查询中有不同类型的联接。 例如内联接、外联接和交叉联接。 联接的类型决定了最终的结果, 因此理解这些类型至关重要。 随着时间经验的积累, 你会自然地想要根据达到的效果 来选择合适的数据联接方式。 很多人在 Excel 中 使用 VLOOKUP 函数, 根据关键字段建立联接。 每次只是提取一个字段, 实际上,这就是创建联接, 尽管他们可能并没有意识到这一点。 现在,让我们深入了解不同的联接类型。 如果你在查询中将数据表联接起来, 但是没有指定关联字段, 那么就会产生交叉联接。 它会把一个表中的每条记录 和另外一个表中的每条记录进行匹配, 产生更多的纪录。 交叉联接在某些情况下确实有用, 如果说这是你的目的,这当然再好不过了。 但是在更多的时候, 交叉联接是发生在人们忘记在查询中 添加联接字段的时候。 假如你有两个数据表, 并且基于某个字段进行联接, 那么,默认的联接方式就是内联接。 内联接意味着, 只有两个数据表中的记录匹配的时候, 这些记录才会出现在查询结果中。 我们以销售订单列表 和所订购的产品清单为例, 你可以使用内联接把它们关联起来。 接下来是左联接和右联接, 它们之间的区别在于返回的记录 来源于哪个表。 重要的是要了解 左联接和右联接的作用, 而不是关注它们之间的差异。 左联接和右联接的全称是 左外联接和右外联接。 它们将返回一个表中的所有记录, 同时显示另外一个表中匹配的记录。 它意味着,你可以查看一个表中的所有记录, 无论它们在另外一个表中是否有匹配的记录。 因此,如果你的目标是展示一个产品列表, 并且要显示每个产品的订购状态, 那么,这种联接方式就最为适合。 当你开始处理数据, 并且获得了后台访问权限的时候, 你就会积累大量的数据联接经验。 每种数据处理工具 都提供了将数据联接在一起的方法, 并且它们通常都会在屏幕上显示提示信息, 帮助你理解得到的数据集结果。

内容