ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

预训练综述 Pre-trained Models for Natural Language Processing: A Survey 阅读笔记

2021-10-08 15:30:45  阅读:352  来源: 互联网

标签:Pre BERT PTM Natural 语言 训练 Models 模型 任务


原文链接https://arxiv.org/pdf/2003.08271.pdf

此文为邱锡鹏大佬发布在arXiv上的预训练综述,主要写了预训练模型(PTM)的历史,任务分类,PTM的扩展,将PTM转换到下游任务的方式,PTM的资源与应用。

以下为OneNote笔记的copy。

1 导言

  • 非神经NLP方法通常严重依赖于离散的手工特征,而神经方法通常使用低维和密集的向量(也称为分布式表示)来隐式表示语言的句法或语义特征。
  • 尽管神经模型在NLP任务中取得了成功,但与计算机视觉(CV)领域相比,性能改进可能没有那么显著。主要原因是目前大多数受监督的自然语言处理任务的数据集都相当小(机器翻译除外)。深度神经网络通常具有大量的参数,这使得它们在这些小的训练数据上过于拟合,在实际应用中不能很好地推广。因此,许多自然语言处理任务的早期神经模型相对较浅,通常只有1个∼3个神经层
  • 本次调查的贡献可以概括如下:
    1. 全面综述了面向NLP的PTM,包括背景知识、模型架构、预培训任务、各种扩展、适应方法和应用。
    2. 新的分类方法:提出了一种面向自然语言处理的PTM分类方法,它从4个不同的角度对现有的PTM进行分类:1)表示类型,2)模型体系结构,3)预训练任务类型,4)特定场景类型的扩展。
    3. 资源丰富。我们收集了丰富的PTM资源,包括PTM的开源实现、可视化工具、语料库和论文列表。
    4. 未来的发展方向。讨论和分析了现有PTM的局限性。此外,我们还提出了未来可能的研究方向。
  • 调查的其余部分组织如下。
    • 第2节概述了PTM的背景、概念和常用符号。
    • 第3节简要介绍了临时技术转让的概况,并阐明了临时技术转让的分类。
    • 第4节提供了PTM的扩展。
    • 第5节讨论了如何将PTM的知识转移到下游任务。
    • 第6节给出了关于PTM的相关资源。
    • 第7节介绍了跨各种NLP任务的应用程序集合。
    • 第8节讨论了当前的挑战,并提出了未来的方向。
    • 第9部分对论文进行了总结。

2 背景

2.1 语言表征学习

  • 一个好的表示应该表达通用的先验,这些先验不是特定于任务的,但可能对学习机解决人工智能任务有用。在语言方面,一个好的表示应该捕捉隐藏在文本数据中的隐含语言规则和常识知识,如词汇意义、句法结构、语义角色,甚至语用学
  • 分布式表示的核心思想是用低维实值向量来描述文本的意义。向量的每个维度都没有对应的意义,而整体代表一个具体的概念。
  • 单词嵌入分类
    • 非上下文嵌入
      • 将离散的语言符号映射到分布式嵌入空间
      • 将在词汇表V中的词x,使用查找表

        标签:Pre,BERT,PTM,Natural,语言,训练,Models,模型,任务
        来源: https://blog.csdn.net/tagagi/article/details/120652663

        本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
        2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
        3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
        4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
        5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有