1 计算机语言学概论
计算机语言学:通过建立形式化的计算模型来分析、理解和处理自然语言的学科。
自然语言处理为了解决歧义等问题,常采用下面的对策。
交互式处理:人机互助进行处理。
受限语言:限定处理文本的领域。
受控语言:限定语言的词汇和句法,降低复杂度。
1.1 计算机语言学研究方法
研究方法:规则驱动的方法,数据驱动的方法和二者融合的方法。
规则驱动的方法:语言学家对语言规律总结,形成规则知识库。研制处理算法,利用规则处理自然语言,研究人员根据结果调整规则,改进处理结果。但是,很多基于规则的系统只能在很小的子集上表现良好,不能满足真实文本处理的要求。
数据驱动的方法(统计方法):建立语料库,研究人员对自然语言进行统计建模,利用统计技术或机器学习技术,训练统计语言模型,利用模型设计算法处理语言,根据结果改进模型。
在数据驱动的方法中,语言模型通常体现为一组参数,这些参数通常表示某个语言形式发生的概率值。
融合规则驱动和数据驱动的方法:两种方法的优劣不能简单评价,如何无缝结合尚需进一步探索。
1.2 计算机语言学研究中的评测问题
为了评价各种方法的有效性,必须进行客观公正的评测,客观公正的评测有助于引导计算语言学朝着一个健康的方向发展。
1.3 计算机语言学的应用
- 机器翻译 2. 人机对话 3. 信息检索 4. 信息提取 5. 自动文摘 6. 文本分类 7. 拼写检查 8音字转换
标签:计算机,语言学,规则,驱动,方法,概论,语言 来源: https://blog.csdn.net/tianyouououou/article/details/95358803
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。