Recent Advances in Language Model Fine-tuning

2021-02-27 17:34:10 阅读：257 来源： 互联网

标签：tuning Language Advances 模型微调 al 训练 2018 et

本文是对近期有关大规模预训练语言模型方法的综述

对预训练语言模型（LM）进行微调已成为在自然语言处理中进行迁移学习的事实上的标准。在过去的三年中（Ruder，2018），微调（Howard＆Ruder，2018）取代了预训练嵌入特征提取的使用（Peters et al., 2018），而预训练语言模型也更受青睐在翻译（McCann et al., 2018）、自然语言推理（Conneau et al., 2017）和其他任务，因为预训练模型提高了样本效率和性能（Zhang and Bowman, 2018）。这些方法的经验成功导致了更大模型的发展 (Devlin et al., 2019; Raffel et al., 2020)。实际上，最近的模型是如此之大，以至于它们可以在不进行任何参数更新的情况下达到合理的性能 (Brown et al., 2020)。对zero-shot来说虽然有一定的局限性，但是，为了获得最佳性能或保持合理的效率，在实践中使用大型预训练的LM时，微调将继续成为惯常的操作方式。

在标准的迁移学习过程中，模型首先使用诸如掩码语言建模之类的语言模型损失在大量未标记数据上对模型进行预训练，然后用下游任务的标记数据对预训练模型使用交叉熵损失进行微调。

标准的预训练—微调过程 (adapted from (Ruder et al., 2019))

标签：tuning,Language,Advances,模型,微调,al,训练,2018,et
来源： https://www.cnblogs.com/sfnz/p/14456346.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Recent Advances in Language Model Fine-tuning