ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

读书笔记(六)智能问答系统

2021-07-13 20:02:19  阅读:177  来源: 互联网

标签:基于 抽取 读书笔记 句法分析 兼类 智能 问答 分词


前言:本文是【读书笔记|大数据时代的数据挖掘】系列的第六篇,是关乎第六章智能问答系统的读书笔记。智能问答系统在我们的生活中很常见,比如智能音箱等。

目录

一、发展历史

  • 智能技术诞生于20c50s-60s。
  • 20c90s,检索式问答时代。搜索引擎等之类的。
  • 21c后,智能聊天机器人发展。

二、句法分析

1、中文分词技术

1987年第一个实现中文分词的系统CDWS,主要算法有以下几种:

  1. 词典法
    基于一定策略将待切分的字符串与词典中词条进行匹配,从而实现对字符串的切分。
    匹配原则:逐词匹配、最大匹配、最小匹配、最佳匹配。

  2. 统计法
    上下文中相邻字同时出现的次数越多,就月可能构成一个词。
    主要有

    • N-gram模型:假设第n个词的出现只与前面n-1个词相关;
    • 马尔可夫模型:假设第n个词的出现只与前面的几个词相关。如果认为与前面一个词相关,就是bi-gram,两个词就是tri-gram;
    • 隐马尔可夫模型.
  3. 语义理解法
    NLPIR分词;
    张华平博士开发,前身为ICTCLAS词法分析系统.

2、词的分类和兼类

  • 词的分类
    开放类:像名词和动词这样的,具有大量成员,而且包含的词的数量不限定;
    封闭类:介词、冠词、限定词等。

  • 词的标注集
    英语的词性标注集:最好的是brown语料库使用的brown标注集;
    中文词性标注集:目前还没有一个统一的,比较有影响力的有《现代汉语语法信息词典》。

  • 汉语词的兼类问题
    具有两类或两类以上的句法分布特征,这些词属于不同的分类就叫兼类。包括:同形不同音,同形同音不同义,同形同音的兼类词。

  • 分析方法
    主要是基于统计的方法。

3、汉语句法分析

  • 多叉多标记树形图分析法
    自动分词——自动标注(根据分析结果在字典中查找各词语的静态特征)——合一运算(把静态特征相容的词语合并成词组,并给出词组特征)————计算出句法功能特征,语义关系特征,逻辑关系特征,并输出最后的分析结果。

  • 汉语完全语法树

  • 汉语句型分析
    现根据谓语将句子分为两部分,对前面部分分析主状,后面分析宾语和补语,若句中出现兼语词或小句做宾语,则采用递归方法分析子句。

  • 一体化的汉语句法分析

三、问题理解

1、句法分析
2、问题分类
| 应用最广的向量空间模型
3、关键词扩展与抽取
4、答案抽取
词袋方法、模式匹配、基于语法结构的抽取方式、基于大数据的数据集扩展、基于数理逻辑的抽取、多模型结合的抽取方式

四、问题的检索

1、基于词法
2、基于句法
3、基于语义
4、常见问题集的问句检索

五、信息抽取

1、抽取的对象
结构化文本:按特定形式存储在数据库中,一般不需要做信息抽取的
半结构化文本:怎么书上没有介绍它的信息抽取方法呢
非结构化文本:一般智能提取一些简单的命名实体,需要预处理才可

2、抽取的种类
3、抽取的方法

  • 知识工程方法
  • 自动学习方法

六、知识库构建

体系结构
Tim Berners-Lee于2000年提出了语义网络的系统结构,共7层:

第一层unicode&URIunicode是一个字符集,URI是统一资源定位符
第二层XML+NS+XmlSchema精简的标准通用标记语言+命令空间+document data type的替代品
第三层RDF+RDF Schema资源描述框架
第四层本体向征在RDF基础上定义概念及其关系的描述
第五到第七层逻辑、证明、信任关系——

七、知识推理

在知识图谱上不断挖掘,不断完善的手段。包括三个方面:

  • 线索挖掘
  • 关系推理
  • 关系预测

标签:基于,抽取,读书笔记,句法分析,兼类,智能,问答,分词
来源: https://blog.csdn.net/weixin_49927325/article/details/118708856

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有