首页 > 其他分享> 文章详细

【学习笔记】机器学习-无监督学习

2021-02-16 13:03:33 阅读：192 来源： 互联网

一、无监督学习（unsupervised learning）

无监督学习用于处理未被分类标记的样本集。
当缺乏足够的先验知识，因此难以人工标注类别;或是进行人工类别标注的成本太高时，可使用无监督学习。

所有数据只有特征向量没有标签，但是可以发现这些数据呈现出聚群的结构，本质是一个相似的类型的会聚集在一起。这样可以把这些没有标签的数据分成一个一个组合类。

聚类算法最主要的是划分方法和层次方法。

划分聚类算法通过优化评价函数把数据集分割为K个部分，它需要K作为输人参数。典型的分割聚类算法有K-means算法, K-medoids算法、CLARANS算法。

层次聚类由不同层次的分割聚类组成，层次之间的分割具有嵌套的关系。它不需要输入参数，这是它优于分割聚类算法的一个明显的优点，其缺点是终止条件必须具体指定。典型的分层聚类算法有BIRCH算法、DBSCAN算法和CURE算法等。

数据特征

相似度函数

在无监督学习中，数据特征和相似度函数都很重要。

K均值聚类算法接受一个未标记的数据集，然后将数据聚类成不同的组。

聚类算法会做两件事：簇分配和移动聚类中心

对于数据集中的每一个数据，按照距离K个中心点的距离，将其与距离最近的中心点关联起来，与同一个中心点关联的所有点聚成一类。

计算每一个组的平均值，将该组所关联的中心点移动到平均值的位置。