朴素贝叶斯分类器
首先要清楚朴素贝叶斯分类器是基于“属性条件独立性假设”,即所有属性相互独立,换句话说就是,假设每个属性独立的对分类结果产生影响。
显然,朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率 P(C),并为每个属性估计条件概率P(xi | c)。说到底,朴素贝叶斯分类器就是由先验概率和条件概率组成。
1、 先验概率
其中D表示的是总共有多少个样本,Dc表示的是整体样本中c类样本的数量;
2、条件概率
在该式中,Dc所代表的意思与先验概率相同,即整体样本中c类样本的数量;Dc,xi 表示的是在c类样本的数量中第i个属性取值为xi的样本数量,就比如说:(红)苹果中(脆)苹果的数量。
其中,µc,i 表示的是第c类样本在第i个属性上取值的均值;σc,i 表示的是第c类样本在第i个属性上取值的方差。
3、举例
下面用一个实例来说明一下:
我们首先先给出训练集和测试数据;
首先先计算先验概率;
然后再计算条件概率;
这个地方需要注意一下,密度和甜度这种程度的属性需要使用概率密度函数来进行计算。
将好瓜与坏瓜的先验概率和条件概率分别进行累乘。
然后我们对累乘的结果进行比较,可以很明显看出来是好瓜的概率大于是坏瓜的概率,因此我们测试的瓜系统给出为好瓜。
最后还有一点就是,在累乘的过程中我们也可以看出如果有一个条件概率为零的话,那么我们相乘的结果就为零,那么这样来说就是毫无意义的,然后西瓜书上给出了另一个概念“拉普拉斯平滑”,即在先验概率和条件概率的分子上加一,然后在分母上加上样本的类别数(先验概率)或者某属性的可取值个数(条件概率)。
标签:概率,样本,贝叶斯,分类器,先验概率,朴素,属性 来源: https://blog.csdn.net/qwe1747133883/article/details/120659732
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。