ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

贝叶斯算法 — 朴素贝叶斯分类器— 过滤垃圾邮件 — 流失用户 — 用户画像

2019-08-05 21:02:08  阅读:272  来源: 互联网

标签:概率 用户 贝叶斯 分类器 垃圾邮件 先验概率 邮件


目录

应用

1. 胃疼胃癌

2. 过滤垃圾邮件

朴素贝叶斯分类器

概念介绍

朴素贝叶斯分类器原理

贝叶斯分类器的应用


公式

求得是后验概率,等式右侧为先验概率

贝叶斯定理本质:通过 先验概率 求 后验概率

应用

1. 胃疼胃癌

假设:H代表胃癌事件,X代表胃疼事件。则P(H | X)表示的是:当一个人胃疼时,是胃癌的概率有多少?  P(H | X)称为后验概率,我们利用贝叶斯公式的目的就是求得这个后验概率是多少。

先验概率获取途径:

①统计抽样,

②询问专家

P ( X | H)表示的是:胃癌发生时,胃疼的概率,假设是:85%。P ( X | H)称为先验概率,先验概率一般是由大量过去的经验总结得到,或者也可以通过抽样得到。

比如说:电商的28定律(20%的热门商品集中了80%的访问流量)就是一个总结得到的先验概率,当然我们也可以通过抽样,通过实验数据来得到这个结论,根据大数定律,当实验样本越大,越接近于正确结论。

P(H )表示的是:总人群患胃癌的概率:0.1%

P ( X)表示的是:总人群患胃疼的概率:40%

有了以上数据后,问:当一个人胃疼时,他患胃癌的概率 P(X | H )是多少?

结果是:0.85*0.001%0.4=0.002125=0.021

即当一个人胃疼时,是胃癌的概率是2.1%。这个概率是很小的。

2. 过滤垃圾邮件

比如我们要判断某一封邮件是否是垃圾邮件,

假设:H代表此邮件是垃圾邮件,X代表此邮件里出现了"美女"词汇。

P(H | X )表示的是:当一封邮件里出现"美女"词汇时,它是垃圾邮件的概率。

为了求得这个后验概率,我们需要知道P( X | H ) 、P ( H )、P(X )的概率

P(X | H)表示一封垃圾邮件里,出现"美女"词汇的概率。关键这个先验概率怎么求得,因为这个问题并不像胃癌案例那样受到广泛关注,所以并没有现成的先验概率供使用,所以这个概率需要我们通过实验样本来获取。

实现步骤:

1.从已有的垃圾邮件箱里随机收取100封垃圾邮件,然后统计每封垃圾邮件里,出现"美女"的次数,假设最后的结果:100封垃圾邮件里,有20封出现了"美女"。

则:P(X | H)=20%

当然,这个先验概率如果为了更准确,可以扩大样本数据或增加实验次数。

2.接下来求P( H )和P(X)

P(H )表示的是一封邮件是垃圾邮件的概率,

P ( X )表示的是一封邮件里出现"美女"的概率,

这两个也没有现成的先验概率,所以需要通过实验获取。

我们可以从邮件箱里(包含正常邮件和垃圾邮件),随机抽取500封邮件,然后统计有多少封是垃圾邮件,以及统计每逢邮件里出现 "美女"的次数。

假设:500封邮件里,出现了60封垃圾邮件。

500封邮件里,出现了200次"美女”

则: P(H)=60/500 %    P( X)=200/500 %

所以综上,我们可以利用贝叶斯来对邮件过滤,当收到一封邮件时,这封邮件包含了"美女"词汇,请问它是正常邮件还是垃圾邮件?

经计算可得:P(H | X)=0.2*(60/500)/ (200/500)=0.06=6%

总结:本例中,根据概率的阈值,来判定一封邮件是否是垃圾邮件。比如算得的概率是80%,则可以认定此邮件是垃圾邮件

即这封邮件是垃圾邮件的概率是6%,一般地,垃圾邮件设定的阈值在60%~100%。而6%<60%,所以这封邮件是一封正常邮件。

针对本例,如果换个条件,比如:P(X )表示的是一封邮件里出现"发票"的概率,

P(X | H)=0.9   一封垃圾邮件里出现"发票"的概率是90%

P(H)=0.2    一封邮件是垃圾邮件的概率是20%

P(X)=0.25  "发票"在邮件中出现的概率25%

最后算得:

当一封邮件含有 "发票"时,它是垃圾邮件的概率是 0.9*0.2/0.25=75%

它是垃圾邮件

贝叶斯公式实际可以做如下变形:

P(X | H)·  P(H)/P(X)=P(H | X)

先验概率   ·  似然比    = 后验概率

 

贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是:

1、已知类条件概率密度参数表达式和先验概率。

2、利用贝叶斯公式转换成后验概率。

3、根据后验概率大小进行决策分类。

朴素贝叶斯分类器

概念介绍

朴素贝叶斯分类器是基于贝叶斯条件概率论为基础的,总体思想是:给定一个样本点,判断它属于第一类还是第二类的概率高。

朴素贝叶斯分类器原理

利用贝叶斯原理实现的分类器,过滤垃圾邮件,当某一封邮件里同时出现 "贷款","发票”,"理财"词汇时,请问它是垃圾邮件吗?

朴素贝叶斯的理论是认为每个变量 X1X2……之间是相互独立的,即"发票"词汇的出现和"贷款"词汇的出现没有必然联系。朴素贝叶斯就是基于这种场景下来求解的,因为这种求解方式简单,不考虑相关复杂性(如果考虑相关性,P(X | H)的计算开销将会非常大,需要计算2^n -1次,n为变量个数),所以叫朴素贝叶斯。

贝叶斯分类器的应用

1.流失用户的预警

贝叶斯分类广泛应用在现实生活中,比如流失用户的预警。

我们可以先根据以往的数据建立学习集,得出流失用户的特征,比如上线频率低,充值次数、充值金额低等。我们可以利用贝叶斯分类器判断出当前哪些用户是将流失用户,然后可以推送一些优惠或是提高抽卡、装备爆率等措施挽留。

2.用户画像

比如为用户建立其用户画像,分析其具备哪些特点爱好,然后做定向推送。也可以用贝叶斯来实现,比如系统里一共有10个标签(分类),然后结合用户数据,根据贝叶斯公式算出此用户属于每个标签(分类)的概率,这里我们可以设定一个阈值,比如35%。当用户属于此标签的概率>=35%时,就把此标签贴给这个用户。以后,可以定期向用户推荐符合其爱好的信息。

3.人脑中的贝叶斯,此外,每个人的人脑也是一个贝叶斯分类器。

早好上,各位学同们!欢迎学来习数据挖掘。 ——研究表明,字符的顺序不一定能影响阅读

这是因为我们已经有丰富的阅读学习集,当我们看到 "早”,"好”,"上”时,组成的含义“早上好”并不是由实际顺序决定,而是由贝叶斯原理从大脑中已有的学习中得到的。所以说,贝叶斯无处不在。


如果您看到这了,请点个赞为自己的努力加油!!!

标签:概率,用户,贝叶斯,分类器,垃圾邮件,先验概率,邮件
来源: https://blog.csdn.net/m0_37657725/article/details/97114783

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有