[机器学习算法]关联分析

2020-01-23 16:05:53 阅读：293 来源： 互联网

频繁项集的产生

一般包含 $k$ k个项的数据集可能产生 $2^k-1$ 2k−1个频繁项集（不包括空集）。当 $k$ k足够大时，需要搜索的项集空间是指数规模的。下图展示了 $I=\{a, b, c, d\}$ I={a,b,c,d}的项集格结构lattice structure。

最笨的方法是挨个确定格结构中每个候选项集candidate itemset的支持度计数，需要进行 $\mathcal{O}(NMw)$ O(NMw)次比较，其中 $N$ N表示事务数， $M=2^k -1$ M=2k−1表示候选项集数， $w$ w是事务的最大宽度。

有如下方法可以降低产生频繁项集的计算复杂度：

减少候选项集的数目 $M$ M，比如下文介绍的先验apriori原理，可以不用计算支持度值而删除某些候选项集
减少比较次数：替代将每个候选项集和每个事务相匹配的方法，可以使用更高级的数据结构或者存储候选项集或者压缩数据集来减少比较次数

1.先验原理

先验原理：如果一个项集是频繁的，则它的所有子集都是频繁的；如果一个项集是非频繁的，则它的所有超集也一定是非频繁的。

2.`Apriori`算法的频繁项集产生

令 $C_k$ Ck为候选 $k$ k项集的集合，而 $F_k$ Fk为频繁 $k$ k项集集合，先验算法可表示为：

确定每个项的支持度，得到频繁 $1$ 1项集的集合 $F_1$ F1
使用上一次迭代发现的频繁 $k-1$ k−1项集产生新的候选 $k$ k项集
确定候选项的支持度计数，删去支持度计数小于minsup的所有候选项集
当没有新的频繁项集产生，即 $F_k = \varnothing$ Fk=∅时算法结束

3.计算复杂度

Apriori算法的计算复杂度受如下因素影响：

支持度阈值：降低支持度阈值通常将导致更多的频繁项集，算法需要扫描数据集的次数也将增多
项数（维度）：随着项数的增加，需要更多的空间存储箱的支持度计数
事务数：由于该算法需要反复扫描数据集，因此它的运行时间随着事务数增加而增加
事务的平均宽度：一方面频繁项集的最大长度随着事务平均宽度增加而增加，另一方面也会增加支持度计数时Hash树的遍历次数

规则产生

忽略前件或者后件为空的规则（ $\varnothing \rightarrow Y$ ∅→Y或 $Y \rightarrow \varnothing$ Y→∅），每个频繁项集可以产生多达 $2^k-2$ 2k−2个关联规则。关联规则可以这样提取：将项集 $Y$ Y划分为两个非空的子集 $X$ X和 $Y-X$ Y−X，使得 $X \rightarrow Y-X$ X→Y−X满足置信度阈值即可。

如果规则 $X \rightarrow Y-X$ X→Y−X不满足置信度阈值，则形如 $X' \rightarrow Y-X'$ X′→Y−X′的规则也一定不满足置信度阈值，其中 $X'$ X′是 $X$ X的子集。

1.基于置信度的剪枝

定理：如果 $X \rightarrow Y-X$ X→Y−X不满足置信度阈值，则形如 $X' \rightarrow Y-X'$ X′→Y−X′的规则也一定不满足置信度阈值，其中 $X'$ X′是 $X$ X的子集。

2.`Apriori`算法中规则的产生

Apriori算法采用一种逐层方法来产生关联规则，其中每层对应于规则后件中的项数。首先提取规则后件只含一个项的所有高置信度规则，使用这些规则来产生新的候选规则，如下图所示：

Reference

[1] 数据挖掘导论

TOMOCAT 发布了233 篇原创文章 · 获赞 72 · 访问量 279万+ 他的留言板关注

标签：机器,项集,频繁,算法,规则,置信度,关联,rightarrow
来源： https://blog.csdn.net/TOMOCAT/article/details/104076199

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

[机器学习算法]关联分析

相关概念

1.关联分析

2.购物篮数据

3.二元表示

4.项集和支持度计数

5.关联规则：支持度与置信度

6.关联规则发现

频繁项集的产生

1.先验原理

2.`Apriori`算法的频繁项集产生

3.计算复杂度

规则产生

1.基于置信度的剪枝

2.`Apriori`算法中规则的产生

Reference

ICode9

[机器学习算法]关联分析

相关概念

1.关联分析

2.购物篮数据

3.二元表示

4.项集和支持度计数

5.关联规则：支持度与置信度

6.关联规则发现

频繁项集的产生

1.先验原理

2.Apriori算法的频繁项集产生

3.计算复杂度

规则产生

1.基于置信度的剪枝

2.Apriori算法中规则的产生

Reference

2.`Apriori`算法的频繁项集产生

2.`Apriori`算法中规则的产生