标签:NLP Good Turning 平滑 单词 概率 出现
目录
1.遇见的问题
这个平滑方法在语言模型里面应用较多。由于我们的词典库中,单词量非常大, 语料中基本上不会完全出现所有的词,因此,如何预测出现新词的概率?
2.Good Turning平滑
首先定义一个N(c):出现c次的单词的个数
比如N(1)=4,意思就是,出现1次的单词的个数为4。
那么对于没有出现过的单词,它们下次出现的概率,是所有出现次数为1的单词的数量,除以出现的单词总数。即P = N(1) / N
以此类推,对于出现过的单词,由于没出现的单词占据了一些概率,因此计算方式也发生了变化:
如下图所示:
3.实验数据
根据实际的实验数据,生成了如下表格:
每一列分别是:单词出现次数,对应次数的单词出现的数量,通过Good Turning计算的出现的概率,实际测试出现的概率。
可以看出,该平滑方法预测的概率相当准确。缺点是我们计算的时候会依赖于下一个数据,而下一个数据可能没有,可以使用机器学习拟合曲线,补充数据。
标签:NLP,Good,Turning,平滑,单词,概率,出现 来源: https://blog.csdn.net/Swayzzu/article/details/121373341
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。