论文出处:2018paper of LREC
http://www.lrec-conf.org/proceedings/lrec2018/pdf/394.pdf
背景:多次表达式的复杂以及出现率非常大。动词表达式的歧义问题以及前人工作较为少。一般都做名词多词表达式。
基于上述背景:此实验主要是构建一个全新的动词多词表达式语料库,非充满技术含量的实验,主要方法是众包技术,人工注释,以及各种语法知识。
数据来源:华尔街日报大量英语文章的主体。开源:https://github.com/naist-cl-parsing/Verbal-MWE-annotations
格式如上图。
1.介绍:从华尔街日报中抽取了大量的VMWES并做好排序和初步筛选工作。
筛选规则有去掉be动词的以及带有名词的VMWES。
做好目录分类:介词动词,动词小品词,轻动词短语,动词加名词加介词,半固定结构。
2. 构建注释语料库:众包技术(用来消歧义)(众包技术:简单来说就是技术问题靠大家解决,分配给互联网上自愿完成任务的 个人) 详细可以看这里~
web注释平台,给专业人士一个平台对VMWES进行注释。对注释员进行非常严格的筛选。
3.检查:对于出现了重复及包含的问题: 进行合并或者取包含词(不是被包含那个)
4.展望:继续扩大语料库以及挖掘VMWES更多的信息。
我把我的注释PDF放在这里(我的资源)。(不知道为什么现在不能规定积分,默认了下载要五个积分。。)
第一次研读论文,经验不足,以此记录。
标签:多词,研读,语料库,动词,注释,VMWES,表达式 来源: https://blog.csdn.net/bensonrachel/article/details/89323694
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。