首页 > 其他分享> 文章详细

神经网络在文章摘要生成中调研

2022-03-25 11:33:08 阅读：206 来源： 互联网

标签：形式 RNN Abstract 摘要神经网络使用 CNN 句子调研

前段时间因为需要，进行了神经网络在智能摘要的应用，正好写下来

1. 开放数据

1.开放数据

DUC， Daily Mail/CNN, Gigaword, LCSTS(唯一中文微博标题生成语料）^[1]

2.智能摘要形式^[2-4]

Extract (抽取式，优点：语法无误，缺点：压缩性不高，句子间衔接不够通顺）

Abstract（生成式，优点：通顺，压缩性高；缺点：重复，oov问题）

3.评价指标^[2-4]

Rouge-1

Rouge-2

Rouge-L

BLEU

4.训练目标构成^[2-4,14]

MLE

MRT（一般是Rouge-1）

相应问题惩罚项（重译，copy等）

5.模型发展

本文调研主要是智能标题的生成，headline形式对语义压缩要求较高，一般应该使用Abstract形式，故本文调研主要集中在神经网络在Abstract生成中应用

5.1 神经网络在Extract 形式的发展

a) Extract模型分类算法

SummaRuNNer便是一个典型的文本筛选网络^[7]，本文将文本摘要重要句子提取问题，变为一个分类问题（二分类），提取的句子为一个类型，不提取的句子为另一个类型。这种监督学习方法，需要标注，作者在此提出了免人工标注的一种近似方法，即根据rouge值得变化，没增加一个句子看rouge是否有变化，有标为提取句子。此处也使用了分层文本分类方法，分别是word层和sentence，两层均为双向rnn形式。达到了一个start of art的分数。

b) CNN的形式进行文章句子筛选^[6]

本文使用CNN进行文档筛选的建模，首先使用CNN建立一个无监督学习的CNNLM语言模型，该语言模型使用NCE方法训练，通过该模型的训练可以将句子表示成一个稠密的向量，然后再使用作者的divsect方法进行文本筛选，筛选出的结果，当时状态下最好。

c)分层抽取的形式， CNN + LSTM综合方法，适用于长文本。^[5]

文中作者通过cnn对句子进行压缩，变成稠密向量，然后将各个句子送入一个lstm，再利用基于attention的lstm进行每句话的分类，通过训练交叉熵获得参量变化。

5.2 Abstract 形式的发展

该形式的Abstract形式均使用 Seq2Seq框架，但细节上有变化

5.2.1 Encoder的变化

BOW、 CNN、 RNN、分层RNN等

5.2.2 Attention

soft Attention、分层attention、增加抑制重译信息的attention

5.2.3 Decoder

Feed Forward Neural Language Model、RNN（Beam Search， Greedy search）

5.2.4 具体问题

n OOV问题（处理方法：ignore，copy，mapping）

n 重复词问题（coverage）

n 较长文体（引入分层encoder机制）

n 句意压缩问题（引入MRT Rouge作为训练标准）

5.2.5 Abstract模型发展

a) 2015 Rush首先提出使用神经网络进行模型生成[8]，该方法达到一个当时start of art的精度。Encoder 使用了，BOW，CNN， Attention 方法， decoder使用了 Feed Forward Neural Language Model

b) 2016 Rush 的学生在Chopra [9]在此基础上 encoder使用CNN进行压缩，并且使用了Attention方法，解码阶段引入了RNN，该模型在Rush的基础上又有了进一步提升。

C） 2016年 Nallapati[10] 使用 seq2seq的rnn进行文本摘要生成，使用了分层RNN，RNN分别考虑了词层面和句子层面，并且分层RNN均使用了Attention形式，在Embedding的时候，计入了文本特征，TF ，IDF，命名实体及标注信息等。在考虑OOV问题时，引入了Copy机制。同时本文也制造了一个相关的较大数据集 CNN/Daily Mail

d）针对OOV问题哈工大和方舟实验室使用了COPYNET[11]

e）为解决OOV和重复问题，google的文章引入了 pointer network和 coverage（神经翻译机）来解决上述问题达到较好效果[12]

f）相对传统RNN 的训练使用的是MLE，因为评价标准是rouge，但训练目标函数却是MLE，存在偏差。因此Ayana使用MRT方法，以rouge-1作为优化手段，较传统的方法有较大提升[13]

5.3 Extract 和Abstract结合的形式^[14]

2018 Wan-Ting Hsu使用seq2seq网络分层网络进行重要abstract的筛选，重点考虑召回率，然后再在提取摘要的基础上生成新的通顺的摘要，该方法达到了新的高度。

首先使用预训练的抽取式网络进行abstract的抽取，然后再进行encoder 和decoder的使用生成新的abstract，并且在训练的时候将预训练的网络loss function加在一起进行微调，extract summarization也达到更好的效果。

模型中代价函数考虑了四项：摘要不一致性、coverage、还有extract的loss，以及Pointer-generator network生成模型的MLE 代价项。

5.4 和强化学习结合的Abstract结合的形式

作者此处使用policy gradient 的强化学习，因该方法可以适用于离散形式（目前强化在自然语言处理中和policy gradient结合较多，也有其他形式，但进行了离散的近似处理）。

作者基本的模型还是seq2seq模型，加入了注意力机制，并使用了抑制重译的方法（上一步译文中选中的word进行惩罚），并对于生僻字和oov问题使用了copy机制的 pointer network网络。对于强化学习中目标函数考虑了rouge和maximum likehood结合的形式

5.5 和GAN结合的Abstract结合的形式

Discrimator 是CNN形式，通过文本匹配筛选匹配进行鉴别，相应的目标函数为：

Generator 是seq2seq形式的构型，其目标函数包括 policy gradient的loss 和 MLE的loss

参数更新使用policy gradient方法进行更新

标签：形式,RNN,Abstract,摘要,神经网络,使用,CNN,句子,调研
来源： https://www.cnblogs.com/wubu/p/9521753.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9