ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

学习笔记之机器翻译与文本摘要1

2021-10-01 11:34:26  阅读:229  来源: 互联网

标签:抽取 摘要 Seq2Seq 机器翻译 生成式 文本 句子


提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录


前言

生成式模型的应用领域是机器翻译和文本摘要,核心思想使用Seq2Seq的模式解决问题。

一、文本摘要简介

文本摘要的方法分为抽取式、生成式和压缩式。

1、抽取式:

  1. 传统的抽取式方法有Lead-3(前三个句子)、Page_rank(将句子向量按照类似page_rank的方式设定权重,抽取权重最大的句子)、聚类(将句子向量的质心视作文章中心,抽取距离中心最近的几个句子),不太推荐。
  2. 比较推荐的方式是给每个句子打标签(1代表抽取),可以使用一个encoder+二分类的模式。
    这里使用人工打标比较麻烦,在已知文章摘要的前提下可以使用启发式打标签法。具体来讲就是先对每一个句子和摘要做ROUGE值,选择最大的作为第一个句子,后面开始遍历其他句子,如果使得ROUGE增大,标签为1,否则为0。
  3. 抽取式缺点在于摘要不够灵活,冗余信息比较多。好处在于比较通顺。

2、生成式:

鉴于抽取式的缺点。一般工业都使用生成式,生成式一般使用Seq2Seq模型。相对应的,生成式也有相应的缺点。

  1. OOV问题。就是生成的字可能不属于词典中。
  2. 重复。模型本身的缺陷
  3. 太灵活不知道说的是啥
  4. 长文本理解不了。

实际使用要结合抽取式的优点和生成式的优点

二、机器翻译简介

  1. 早期机器翻译是基于规则的。这样的好处是准确率还不错,但是规则太过繁琐,维护更新都太难。
  2. 后来是基于统计的。就是对于翻译过来的排列会通过统计出现的概率来决定。统计的方法的缺点是无法看到上下文。
  3. 基于机器学习模型的。也就是Seq2Seq的Encoder-Decoder的结构。其中RNN等encoder相对于基于统计的n-gram来讲更能关注长距离的信息。

机器翻译和文本摘要最大的不同是前者有两个语料库,后者只有一个。

三、Seq2Seq简介

  1. 一句话介绍Seq2Seq就是对于序列(可以是图像、文字、语音等等)可以通过编码器编码,再通过解码器解码输出序列(同样可以是图像、文字、语音等等)。
  2. encoder可以是RNN、LSTM、GRU、Tranformers等等。提升方法核心在于解决长距离关系,使用attention机制或者运用Transformers框架。
  3. 画一个示意图:
h1 h2 context S1 S2 S3 S4 <s> I love you <e>

不是特别精确哈。不过大体如此。

四、机器翻译实战

最主要需要注意的是模型训练阶段和模型使用阶段(inferece)的区别:训练阶段的是已知decoder的输出的可以一口气输入、输出。inferece阶段decoder的输入是一步一步学出来的。

总结

本文简单介绍了机器翻译和文本摘要。

标签:抽取,摘要,Seq2Seq,机器翻译,生成式,文本,句子
来源: https://blog.csdn.net/weixin_49528551/article/details/120575801

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有