模型车牌生成器网页版_ELECTRA: 超越BERT, 19年最佳NLP预训练模型

2022-11-01 13:40:23 阅读：316 来源： 互联网

1. 简介

ELECTRA的全称是Efficiently Learning an Encoder that Classifies Token Replacements Accurately，先来直观感受一下ELECTRA的效果：

右边的图是左边的放大版，纵轴是GLUE分数，横轴是FLOPs (floating point operations)，Tensorflow中提供的浮点数计算量统计。从上图可以看到，同等量级的ELECTRA是一直碾压BERT的，而且在训练更长的步数之后，达到了当时的SOTA模型——RoBERTa的效果。从左图曲线上也可以看到，ELECTRA效果还有继续上升的空间。

2. 模型结构

NLP式的Generator-Discriminator

ELECTRA最主要的贡献是提出了新的预训练任务和框架，把生成式的Masked language model(MLM)预训练任务改成了判别式的Replaced token detection(RTD)任务，判断当前token是否被语言模型替换过。那么问题来了，我随机替换一些输入中的字词，再让BERT去预测是否替换过可以吗？可以的，因为我就这么做过，但效果并不好，因为随机替换太简单了。

那怎样使任务复杂化呢？。。。咦，咱们不是有预训练一个MLM模型吗？

于是，我们NLPer终于成功地把CV的GAN拿过来了！

Replaced Token Detection

因为判别器的任务相对来说容易些，RTD loss相对MLM loss会很小，因此加上一个系数，作者训练时使用了50。

3. 实验及结论

Weight Sharing

Smaller Generators

Training Algorithms

Two-stage training：即先训练生成器，然后freeze掉，用生成器的权重初始化判别器，再接着训练相同步数的判别器。

对比三种训练策略，得到下图：

Small model? Big model？

小ELECTRA的本事我们见过了，那大ELECTRA行吗？直接上图：

Efficiency Analysis

ELECTRA 15%：让判别器只计算15% token上的损失
Replace MLM：训练BERT MLM，输入不用[MASK]进行替换，而是其他生成器。这样可以消除这种pretrain-finetune直接的diff。
All-Tokens MLM：接着用Replace MLM，只不过BERT的目标函数变为预测所有的token，比较接近ELECTRA。

三种实验结果如下：

可以看到：

对比ELECTRA和ELECTRA 15%：在所有token上计算loss确实能提升效果
对比Replace MLM和BERT：[MASK]标志确实会对BERT产生影响，而且BERT目前还有一个trick，就是被替换的10%情况下使用原token或其他token，如果没有这个trick估计效果会差一些。
对比All-Tokens MLM和BERT：如果BERT预测所有token 的话，效果会接近ELECTRA

4. 总结

无意中发现了这篇还在ICLR盲审的ELECTRA，读完摘要就觉得发现了新大陆，主要是自己也试过Replaced Token Detection这个任务，因为平时任务效果的分析和不久前看的一篇文章，让我深刻感受到了BERT虽然对上下文有很强的编码能力，却缺乏细粒度语义的表示，我用一张图表示大家就明白了：

这是把token编码降维后的效果，可以看到sky和sea明明是天与海的区别，却因为上下文一样而得到了极为相似的编码。细粒度表示能力的缺失会对真实任务造成很大影响，如果被针对性攻击的话更是无力，所以当时就想办法加上更细粒度的任务让BERT去区分每个token，不过同句内随机替换的效果并不好，弱鸡的我也没有再往前想一步，不然就也ICLR了。相信这个任务很多人都想到过，不过都没有探索这么深入，这也告诫我们，idea遍地都是，往下挖才能有SOTA。

标签：模型,任务,训练,detection,实验,编码
来源：

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

模型车牌生成器网页版_ELECTRA: 超越BERT, 19年最佳NLP预训练模型

1. 简介

2. 模型结构

3. 实验及结论

4. 总结