ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

NLP学习(一)——朴素贝叶斯

2022-07-11 02:01:56  阅读:154  来源: 互联网

标签:NLP 模型 分类 贝叶斯 先验概率 Theta 朴素


贝叶斯方法

贝叶斯定理

  • 条件概率P(X|Y):表示事件B发生的情况下事件A发生的概率
  • 先验概率P(Y):指事情还未发生,求这件事情发生的可能性大小。
  • 后验概率P(Y|X):事件由某个因素引起的可能性大小。

贝叶斯公式:$$P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}$$
假设时间A表示机器学习任务中样本的取值状态为X,事件B表示机器学习模型参数\(\Theta\)的取值为\(\Theta_{i}\),则上述公式可转化为

\[P(\Theta_{i}|X)=\frac{P(\Theta)P(X|\Theta_{i})}{P(X)} \]

其中,\(P(\Theta_{i}|X)\)表示在样本取值X的情况下,模型参数取值为\(\Theta_{i}\)的条件概率。假设模型参数的各取值状态独立且互斥,则可得公式

\[P(\Theta_{i}|X)=\frac{P(\Theta)P(X|\Theta_{i})}{\sum \limits_{k}P(X|\Theta_{i})P(\Theta_{i})} \]

公式中的因子\(\frac{P(X|\Theta_{i})}{\sum \limits_{k}P(X|\Theta_{i})P(\Theta_{i})}\)仅与样本特征的取值状态X有关,用于将先验概率修正为后验概率。
因此,贝叶斯方法的求解思路为

\[后验概率=先验概率*样本信息 \]

通常情况下,模型对于单个样本的误差可以利用损失函数进行衡量,贝叶斯模型主要通过后验概率进行分类。

贝叶斯决策

在所有相关概率都已知的理想情况下,可以以整体条件风险最小化为准则选择最优类别完成分类任务,通常称为贝叶斯决策
训练样本X被错误分类的条件期望风险\(R(\Theta_{i}|X)\)定义为

\[R(\Theta_{i}|X)=\sum \limits_{j=1}^{n}\Lambda_{ij}\frac{P(\Theta_{i})P(X|\Theta_{i})}{P(X)} \]

其中,\(P(\Theta_{i})\)表示模型将样本X分类为\(\Theta_{i}\)的先验概率,\(\Lambda_{ij}\)为相应损失函数。

贝叶斯分类

通过对贝叶斯条件风险进行最小值优化的方式构造分类模型,这些模型成为贝叶斯分类模型

朴素贝叶斯

朴素的含义:假设样本的每个特征之间是相互独立的,不存在依赖关系。
根据条件,将贝叶斯公式改写为

\[P(\Theta_{i}|X)=\frac{P(\Theta)\prod \limits_{k=1}^{d}P(x_{k}|\Theta_{i})}{\prod \limits_{k=1}^{d}P(x_{k})} \]

高斯贝叶斯分类器(GaussianNB)

在高斯朴素贝叶斯中,每个特征都是连续的,并且都呈高斯分布。高斯分布又称为正态分布。 GaussianNB 实现了运用于分类的高斯朴素贝叶斯算法。特征的可能性(即概率)假设为高斯分布:
在这里插入图片描述

算法优缺点

优点

  • 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。
  • 对小规模的数据表现很好,能个处理多分类任务,适合增量式训练。
  • 对缺失数据不太敏感,算法也比较简单,常用于文本分类。

缺点

  • 理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立,
    这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。而在属性相关性较小时,朴素贝叶斯性能最为良好。
  • 需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。
  • 由于是通过先验和数据来决定后验的概率从而决定分类,所以分类决策存在一定的错误率。
  • 对输入数据的表达形式很敏感。

标签:NLP,模型,分类,贝叶斯,先验概率,Theta,朴素
来源: https://www.cnblogs.com/LogicG/p/16464567.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有