ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

聚类个数的选择:轮廓系数(计算公式和原理)

2022-02-01 18:31:09  阅读:202  来源: 互联网

标签:系数 dist max 样本 个数 计算公式 聚类 轮廓


轮廓系数是评估聚类效果的指标,取值范围为[-1,1],越接近1表示聚类效果越好。

在聚类时可用于聚类个数的选择。通过遍历簇数,计算对应轮廓系数,选择轮廓系数最大时对应的聚类模型。

  • Kmeans聚类:对于初始的中心个数进行遍历,寻找使得轮廓系数最大的聚类模型。
  • 层次聚类:每一层合并时计算一次轮廓系数,直到所有样本合并为一簇,选择轮廓系数最大时对应的簇数对聚类结果进行剪枝。

轮廓系数计算方法

  • 单一样本 i i i的轮廓系数: s ( i ) = b ( i ) − a ( i ) max ⁡ { a ( i ) , b ( i ) } s(i)=\frac{b(i)-a(i)}{\max\{a(i),b(i)\}} s(i)=max{a(i),b(i)}b(i)−a(i)​

    其中
    a ( i ) a(i) a(i): i i i所属簇内其它样本的平均距离,若簇内仅 i i i一个样本,则令 s ( i ) = 0 s(i)=0 s(i)=0
    i ∈ A , a ( i ) = a v e r a g e j ∈ A , j ≠ i ( d i s t ( i , j ) ) i \in A,a(i)=average_{j \in A,j \neq i}(dist(i,j)) i∈A,a(i)=averagej∈A,j​=i​(dist(i,j))

    b ( i ) b(i) b(i): i i i与其它簇的样本平均距离的最小值
    i ∈ A , C ≠ A , d i s t ( i , C ) = a v e r a g e j ∈ C ( d i s t ( i , j ) ) i \in A,C \neq A,dist(i,C)=average_{j \in C}(dist(i,j)) i∈A,C​=A,dist(i,C)=averagej∈C​(dist(i,j))
    b ( i ) = m i n C ≠ A d i s t ( i , C ) b(i)=min_{C \neq A} dist(i,C) b(i)=minC​=A​dist(i,C)

  • 聚类总体的轮廓系数:所有样本轮廓系数的平均值
    S = 1 N ∑ i = 1 N s ( i ) S=\frac{1}{N}\sum_{i=1}^Ns(i) S=N1​∑i=1N​s(i)

标签:系数,dist,max,样本,个数,计算公式,聚类,轮廓
来源: https://blog.csdn.net/M10150831/article/details/122745846

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有