课程: 人工智能基础:机器学习
免费学习该课程!
今天就开通帐号,24,700 门业界名师课程任您挑!
K 均值聚类
另一种常见的机器学习算法 是 k 均值聚类。 这个算法经常会与 k 邻近算法混淆, 但它们唯一相同的就是都以字母 k 开头。 记住,k 邻近算法是监督机器学习算法, 根据你的已知内容分类数据, 但 k 均值聚类是无监督机器学习算法, 它是根据机器在数据中观察到的内容, 创建聚类。 举个例子,我们回到芝加哥的动物收容所。 收容所有一个宽敞的社交室, 所有狗都在那里玩耍。 狗的行为与人相似。 它们也有朋友,会一起聊天,一起玩耍。 每到社交时间, 它们就会自发组成不同的朋友群体。 现在假设收容所即将关闭, 所有狗将被分配到城市里三个不同的收容所。 动物收容所的组织者们聚在一起, 决定为了让狗更好地适应, 他们将根据朋友群体来分组。 收容所决定创建三个聚类。 这意味着 k 均值中的 k 是 3, 因为你需要将他们分成三个聚类。 假设机器学习算法已经开始。 首先,机器随机给三只狗涂上红色、 黄色和蓝色。 每种颜色代表基于它们社交群体的潜在聚类。 这些就是三只质心狗。 看看每只质心狗, 与它们周围所有狗之间的平均距离。 然后,机器将给这些质心狗最接近的狗, 套上相同颜色的项圈。 不难想象,由于这些质心狗是随机的, 因此很有可能划分的聚类不太合理。 也许三只质心狗都在同一个社交群里。 如果这样, 那么大多数狗与这三只质心狗之间, 会有很大的距离。 因此机器会反复尝试, 直到选到最佳的质心狗。 甚至可能一次尝试一个聚类。 每次迭代结束时,机器学习算法 检查每只狗与质心狗之间的方差。 选到好的质心狗后,把未知分类的狗 放到每个聚类就非常简单了。 把新狗放到社交区域, 只要衡量它和质心狗的距离, 就可以判断它最终会去哪个社交群体了。 此外,记住狗本身不会自觉分成三个聚类。 它们可能有五六个不同的社交群体, 但收容所只有三个,因此机器学习算法 必须尽力创建最能代表它们社交群体的聚类。 你还要注意观察, 确保在狗有这些社交群体倾向时, 使用 k 均值聚类。 如果狗从一个群体跳到另一个群体, 那就很难形成真正的聚类。 这通常叫数据的高度重叠。 k 均值的另一个挑战是对离群值非常敏感。 即使有的狗对和其他狗一起玩不感兴趣, 它还是会被分到三个聚类的其中一个。 在某种意义上,这只狗要被迫寻找朋友。 把狗分成三个聚类, 分别代表三个不同收容所, 这可能不是你日常会遇到的问题,但实际上, k…
随堂练习,边学边练
下载课堂讲义。学练结合,紧跟进度,轻松巩固知识。