ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

自然语言处理系列十二》中文分词》机器学习统计分词

2021-02-03 20:57:47  阅读:163  来源: 互联网

标签:实战 中文 概率 学习 自然语言 分词 统计 分布式


注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《分布式机器学习实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】

文章目录

自然语言处理系列十二

中文分词

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文的词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比英文要复杂得多、困难得多。

机器学习统计分词

因为大规模语料的建立,统计机器学习方法的研究与发展,基于统计的中文分词成为主流。我们从主要思想、步骤、和语言模型几个方面详细讲解。

  1. 主要思想
    基于统计的分词算法的主要核心是词是稳定的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻出现的概率或频率能较好地反映成词的可信度。可以对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可以认为此字组可能构成了一个词。该方法又称为无字典分词。
  2. 步骤
    建立统计语言模型。
    对句子进行单词划分,然后对划分结果进行概率统计,获得概率最大的分词方式。这里就用到了统计学习方法,如隐含马尔可夫(HMM)、条件随机场(CRF)等。
  3. 语言模型
    1)统计语言模型
    统计语言模型是自然语言处理的基础,被广泛应用于机器翻译、语音识别、印刷体或手写体识别、拼音纠错、汉字输入和文献查询等。
    2)模型原型
    语言的数学本质就是说话者将一串信息在头脑中做了一次编码,编码的结果是一串文字,而如果接受的人懂得这门语言,他就可以用这门语言的解码方式获得说话人想表达的信息。那么不免想到将编码规则教给计算机,这就是基于规则的自然语言处理。但是事实证明基于规则行不通,因为巨大的文法规则和语言的歧义性难以解决。所以出现了基于统计的自然语言处理(NLP)。基于统计的NLP的核心模型是通信系统加隐含马尔可夫模型。
    看一个句子是否合理,就看它的合理性有多少,就是它出现的概率大小:
    假定句子 S(W1,W2,…,Wn) Wi 代表词
    其概率为 P(S) = P(W1,W2,…,Wn)
    根据条件概率公式,每个词出现的概率等于之前每个词出现的条件概率相乘,于是
    P(W1,W2,…,Wn) = P(W1) · P(W1 | W2) · P(W3 | W1,W2) ··· P(Wn | W1,W2,…Wn-1)
    但是这样计算量太大,句子越长越麻烦,因此Andrey Markov 提出了一种偷懒的方法,即马尔可夫假设:假设任意一个词出现的概率只与它前面的一个词有关。
    因此 P(S) = P(W1) · P(W1 | W2) · P(W3 | W2) ··· P(Wn | Wn-1)
    这就是二元模型(Bigram Model), 相应的,高阶语言模型即任意一个词 Wi 出现的概率只与它前面的 i-1 个词有关。元数越高越准确,但相应越复杂,越难实现,我们一般使用三元模型就够了。
    那么如何计算这个概率呢,这就是统计语言模型的核心统计了,实际上是做了近似处理,即在统计量足够大的情况下:
    因为 P(Wi | Wi-1) = P(Wi-1,Wi) / P(Wi-1) = 联合概率 / 边缘概率
    =两个词一起出现的次数 / 单个词出现的次数
    3)零概率问题
    统计中可能出现没有统计到某个词(边缘概率为0)或者某两个词在一起的情况只出现了一次(联合概率为1)的情况,就会导致十分绝对的概率出现,模型就不可靠。直接的解决方法是增加统计的数据量,但是数据不够时。需要使用一个重新计算概率的公式,就是古德-图灵估计(Good-Turing Estimate)
    古德-图灵估计(Good-Turing Estimate)
    其原理是:对于没有出现的概率,我们从概率总量中分配一小部分给它们,看见的事件的概率总量就小于1,这样就不会出现概率为1和0的情况了。对应的语言模型也要做一些调整,最早由卡兹(S.M.Kate)提出,称为卡兹退避法(Kate backoff)。

接下来的自然语言处理系列将详细讲解隐马尔可夫模型HMM分词感知器分词CRF分词的原理,并给大家代码演示。

总结

此文章有对应的配套视频,其它更多精彩文章请大家下载充电了么app,可获取千万免费好课和文章,配套新书教材请看陈敬雷新书:《分布式机器学习实战》(人工智能科学与技术丛书)

【新书介绍】
《分布式机器学习实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】
新书特色:深入浅出,逐步讲解分布式机器学习的框架及应用配套个性化推荐算法系统、人脸识别、对话机器人等实战项目

【新书介绍视频】
分布式机器学习实战(人工智能科学与技术丛书)新书【陈敬雷】
视频特色:重点对新书进行介绍,最新前沿技术热点剖析,技术职业规划建议!听完此课你对人工智能领域将有一个崭新的技术视野!职业发展也将有更加清晰的认识!

【精品课程】
《分布式机器学习实战》大数据人工智能AI专家级精品课程

【免费体验视频】:
人工智能百万年薪成长路线/从Python到最新热点技术

从Python编程零基础小白入门到人工智能高级实战系列课

视频特色: 本系列专家级精品课有对应的配套书籍《分布式机器学习实战》,精品课和书籍可以互补式学习,彼此相互补充,大大提高了学习效率。本系列课和书籍是以分布式机器学习为主线,并对其依赖的大数据技术做了详细介绍,之后对目前主流的分布式机器学习框架和算法进行重点讲解,本系列课和书籍侧重实战,最后讲几个工业级的系统实战项目给大家。 课程核心内容有互联网公司大数据和人工智能那些事、大数据算法系统架构、大数据基础、Python编程、Java编程、Scala编程、Docker容器、Mahout分布式机器学习平台、Spark分布式机器学习平台、分布式深度学习框架和神经网络算法、自然语言处理算法、工业级完整系统实战(推荐算法系统实战、人脸识别实战、对话机器人实战)、就业/面试技巧/职业生涯规划/职业晋升指导等内容。

【充电了么公司介绍】

充电了么App是专注上班族职业培训充电学习的在线教育平台。

专注工作职业技能提升和学习,提高工作效率,带来经济效益!今天你充电了么?

充电了么官网
http://www.chongdianleme.com/

充电了么App官网下载地址
https://a.app.qq.com/o/simple.jsp?pkgname=com.charged.app

功能特色如下:

【全行业职位】 - 专注职场上班族职业技能提升

覆盖所有行业和职位,不管你是上班族,高管,还是创业都有你要学习的视频和文章。其中大数据智能AI、区块链、深度学习是互联网一线工业级的实战经验。

除了专业技能学习,还有通用职场技能,比如企业管理、股权激励和设计、职业生涯规划、社交礼仪、沟通技巧、演讲技巧、开会技巧、发邮件技巧、工作压力如何放松、人脉关系等等,全方位提高你的专业水平和整体素质。

【牛人课堂】 - 学习牛人的工作经验

1.智能个性化引擎:

海量视频课程,覆盖所有行业、所有职位,通过不同行业职位的技能词偏好挖掘分析,智能匹配你目前职位最感兴趣的技能学习课程。

2.听课全网搜索

输入关键词搜索海量视频课程,应有尽有,总有适合你的课程。

3.听课播放详情

视频播放详情,除了播放当前视频,更有相关视频课程和文章阅读,对某个技能知识点强化,让你轻松成为某个领域的资深专家。

【精品阅读】 - 技能文章兴趣阅读

1.个性化阅读引擎:

千万级文章阅读,覆盖所有行业、所有职位,通过不同行业职位的技能词偏好挖掘分析,智能匹配你目前职位最感兴趣的技能学习文章。

2.阅读全网搜索

输入关键词搜索海量文章阅读,应有尽有,总有你感兴趣的技能学习文章。

【机器人老师】 - 个人提升趣味学习

基于搜索引擎和智能深度学习训练,为您打造更懂你的机器人老师,用自然语言和机器人老师聊天学习,寓教于乐,高效学习,快乐人生。

【精短课程】 - 高效学习知识

海量精短牛人课程,满足你的时间碎片化学习,快速提高某个技能知识点。

上一篇:自然语言处理系列十一》中文分词》规则分词》正向最大匹配法、逆向最大匹配法、双向最大匹配法
下一篇:自然语言处理系列十三》中文分词》机器学习统计分词》隐马尔可夫模型HMM分词

标签:实战,中文,概率,学习,自然语言,分词,统计,分布式
来源: https://blog.csdn.net/weixin_52610848/article/details/113572101

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有