数据挖掘-朴素贝叶斯算法

2020-12-02 18:03:36 阅读：220 来源： 互联网

微信搜索：“二十同学” 公众号，欢迎关注一条不一样的成长之路

我个人认为，在数据挖掘领域，分类算法是最为重要。它根据以往的数据来对新的数据做预测。垃圾邮件判断，潜在用户挖掘等都会用到分类算法。今天把总结朴素贝叶斯算法（NaiveBayes）的学习心得。

Bayes是谁
Thomas Bayes，英国数学家。约1701年出生于伦敦，做过神甫。1742年成为英国皇家学会会员。1761年4月7日逝世。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论，并创立了贝叶斯统计理论，对于统计决策函数、统计推断、统计的估算等做出了贡献。

Bayes定理
通俗来说就是：
已知事件B的发生概率P（B）
已知在事件B已经发生的情况下，事件A发生的概率P（A|B）
则可根据Bayes定理，计算事件A发生的条件下，事件B发生的概率P（B|A）。
计算方法为：
P（B|A）=P（A|B）× P（B）/ P（A）

NaiveBayes分类算法实例
门诊部一共就诊了6位患者，情况如下：

这时，来了第七位患者，一位“打喷嚏的工人”，请推断他得了啥病。

这就是一个分类问题。现状把所有患者分成了三类“感冒”“过敏”“脑震荡”，我们的目的是把“打喷嚏的工人”分到这三类中的一类中。具体做法为：根据Bayes定理，计算这个“打喷嚏的工人”患三种疾病的概率。

P（感冒|打喷嚏&工人）
= P（打喷嚏&工人|感冒）×P（感冒） / P（打喷嚏&工人）
= P（打喷嚏|感冒）× P（工人|感冒）× P（感冒） / P（打喷嚏）× P（工人）
= （2/3 × 1/3 × 1/2）/ （1/2 × 1/3）
= 66.7%

解释:

'&'项可以分成两个，是因为“症状”变量和“职业”变量是相互独立的，没什么联系
感冒的有3个，其中打喷嚏的2个，所以P（打喷嚏|感冒）=2/3
感冒的有3个，其中工人1个，所以P（工人|感冒）=1/3
一共六个人，感冒3个，所以P（感冒）=1/2
一共六个人，打喷嚏的3个，所以P（打喷嚏）=1/2
一共六个人，其中工人2个，所以P（工人）=1/3

按照这个方法，计算“打喷嚏的工人”另外两种疾病的概率；

P（过敏|打喷嚏&工人）
= P（打喷嚏&工人|过敏）×P（过敏） / P（打喷嚏&工人）
= P（打喷嚏|过敏）× P（工人|过敏）× P（过敏） / P（打喷嚏）× P（工人）
= （1 × 0 × 1/6）/ （1/2 × 1/3）
= 0%
P（脑震荡|打喷嚏&工人）
= P（打喷嚏&工人|脑震荡）×P（脑震荡） / P（打喷嚏&工人）
= P（打喷嚏|脑震荡）× P（工人|脑震荡）× P（脑震荡） / P（打喷嚏）× P（工人）
= （0 × 1/2 × 1/3）/ （1/2 × 1/3）
= 0%

可见，“打喷嚏的工人”患感冒概率66.7%，初步判断应该是感冒。但是一般的分类器都要根据具体业务设置阈值，对于人命关天的事，最好严格一些，比如95%以上才做出判断，那么这里最好的答案应该是“机器无法判断，建议去让医生看看”。

补充说明

算法叫做朴素贝叶斯（NaiveBayes），是因为算法是在太简单了
‘&’能分开两个概率相乘是因为变量的独立性，如果不独立的话，这样计算会有误差
分母项 P（打喷嚏）× P（工人）在每次计算中都一样，可以只互相比较分子计算的结果作出判断
例子中最初的6个病人的数据叫做训练集

训练集样本较小情况下的概率调整
P（打喷嚏|过敏）和P（工人|过敏）分别为1，0，实际中不可能是这样的，因为没有什么是一定不发生，也没有什么100%发生。出现这种情况是因为我们的样本太少，如果样本足够多，概率会相对靠谱。
在起步阶段，样本就是很少，为了避免0，1这种极端概率，需要人为做一些数学变换。
比如，对过敏来说，每个症状的初始概率都为50%，当来了一个过敏病人，如果出现打喷嚏，那么P（打喷嚏|过敏）的概率就提升一点点，反之如果不打喷嚏，则P（打喷嚏|过敏）的概率就下降一点点。
这样使得每一个概率都变得在（0，1）之间平滑变化，对其他的变量也这样处理。
在《Programming Collective Intelligence》这本书中给出了这个变换的公式，我套用到过敏来说就是：

P（打喷嚏|过敏）调整 =（1×0.5 + 打喷嚏数 × P（打喷嚏|过敏）） / （1+打喷嚏数）
所以调整后的概率为：
P（打喷嚏|过敏）调整 = （0.5 + 3 ×1 ）/（1+3 ）=87.5%
P（工人|过敏）调整 = （0.5 + 2 ×0）/ （1+2）=16.7%

所以，在上例中计算第二种疾病的时候，如果用调整后的概率结果如下：

P（过敏|打喷嚏&工人）
= P（打喷嚏&工人|过敏）×P（过敏） / P（打喷嚏&工人）
= P（打喷嚏|过敏）× P（工人|过敏）× P（过敏） / P（打喷嚏）× P（工人）
= （87.5% × 16.7% × 1/6）/ （1/2 × 1/3）

= 14.6%

连续变量处理
对于上例来说，不论是职业还是症状，都是离散变量，也就是取值数有限，这样都可以通过数个数的方式来计算概率（古典概率模型），但是如果出现连续型变量就不能靠数个数了，比如身高，可以有175cm 176cm 176.1cm 176.11cm，无穷尽……

处理方式一：离散化
身高来说，可以就精确到cm，那么基于现实世界从40cm（婴儿）到230cm（姚明）基本就够用了，可以数个数。要么就分段【小于100cm】【100-150cm】【150-180cm】……这样也可以。
处理方式二：利用变量的分布来计算概率
一般来说自然界中的大部分变量都是符合正态分布的，正态分布是一个钟型曲线，概率意义是，一次实验取到均值附近概率最大，去到远离均值的值的概率越来越小。那么可以计算样本的均值和标准差，利用Z值【（实际值-均值）/标准差】，查标准正态分布表，查出取到每个样本值的概率。
当然，如果明确知道变量属于某个其他分布，如泊松分布，那么就直接用分布函数求概率即可。

数学表达以备装B之需

非常感谢：点赞、收藏和评论

微信搜索：“二十同学” 公众号，或者直接扫一扫，关注一条不一样的成长之路

标签：概率,打喷嚏,感冒,贝叶斯,过敏,算法,工人,数据挖掘,脑震荡
来源： https://blog.csdn.net/qq_18298439/article/details/110492824

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

数据挖掘-朴素贝叶斯算法

微信搜索：“二十同学” 公众号，欢迎关注一条不一样的成长之路