论文笔记 EMNLP 2020|Event Extraction by Answering (Almost) Natural Questions

2021-12-13 12:34:48 阅读：289 来源： 互联网

标签：触发抽取 Natural SEP Almost Answering 论元 token span

文章目录

1 简介

论文题目：Event Extraction by Answering (Almost) Natural Questions
论文来源：EMNLP 2020
论文链接：https://arxiv.org/pdf/2004.13625.pdf
代码链接：https://github.com/xinyadu/eeqa

1.1 动机

目前的事件抽取方法严重依赖实体信息来抽取论元，同时没有考虑不同论元角色之间的语义相似性。

1.2 创新

提出了一个基于问答的框架用于事件抽取，使用基于注释方案的提问策略(同时加入触发词信息)，提高了在ACE事件抽取任务的表现。

2 方法

在这里插入图片描述
模型的整体框架如上图，主要分为下面几个部分：

提问策略：将问答模型的输入格式定义为[CLS] question [SEP] sentence [SEP]，其中[CLS]为分类token，[SEP]是分隔符。
对于触发词检测，使用固定字面意思的短语作为问题(trigger、action、verb)，格式为[CLS] verb [SEP] sentence [SEP]。
对于论元抽取定义3种问题模板：
1)使用论元名称
2)基于论元提问，格式为[wh_word] is the [argument]?
3)基于注释方案的提问，利用ACE数据集中对每个论元角色的解释。
为了编码触发词信息，在问题中加入in [trigger]，格式为[wh_word] is the [argument] in [trigger]?(trigger为触发词检测阶段得到的具体触发词)。
问答模型：分别使用 B E R T T r BERT_{Tr} BERTTr和 B E R T A r g BERT_{Arg} BERTArg对触发词检测和论元抽取的输入训练进行编码，触发词检测通过参数 W t r W_{tr} Wtr进行分类(事件类型)。论元抽取通过参数 W s W_s Ws和 W e W_e We分类每一个token是否为论元span的开始和结尾，损失函数包括两个部分(对于没有论元span的实例,最小化第一个token([CLS])的概率)。公式如下，第一行为触发词检测：

论元span的动态阈值推理：首先通过算法1得到所有的有效候选论元span，约束如开始和结束位置合理、长度合理、概率大于第一个token，最后计算相对无回答分数na_score。然后通过算法2在验证集上得到动态的阈值，然后在测试集上选择大于阈值的论元。

3 实验

在ACE数据集上的实验效果：
在这里插入图片描述
在未看到的论元角色条件下(one-shot)的实验效果：

触发词检测中不同问题策略的影响：

论元抽取中不同问题策略的影响：

错误分析：

标签：触发,抽取,Natural,SEP,Almost,Answering,论元,token,span
来源： https://blog.csdn.net/o11oo11o/article/details/121895782

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。