标签:BERT task 系列 训练 模型 微调 tokens Further
1.Roberta
2.XLM
3.XLNet
4.Electra
https://mp.weixin.qq.com/s/um9jnDLGt5JejmVyeOSukw
5 Albert
https://mp.weixin.qq.com/s/um9jnDLGt5JejmVyeOSukw
6 调参技巧
6.1 How to Fine-Tune BERT for Text Classification 论文笔记
论文地址:How to Fine-Tune BERT for Text Classification?
实验主要在8个被广泛研究的数据集上进行,在BERT-base模型上做了验证。
文章的主要结论如下:
- 微调(fin-tune)策略 对于长文本,尝试了(1)取头部510 tokens,(2)尾部510 tokens,(3)头部128 tokens+尾部382
tokens,(4)分片并进行最大池化、平均池化、attention,发现方法(3)最好。因为文章的关键信息一般在开头和结尾。
分层训练,上层对文本分类更加重要。 灾难性遗忘:在下游finetune可能会遗忘预训练的知识。需要设置较小的学习率,如2e-5.
分层衰减学习率(Layer-wise Decreasing Layer
Rate),对下层设置更小的学习率可以得到更高的准确率,在lr=2e-5,衰减率ξ \xiξ=0.95
2. 继续预训练(Further Pretraining) 任务内(within-task) 和同领域(in-domain)的继续预训练可以大大提高准确率。 In-domain比within-task要好。
3. 多任务微调(Multi-task Finetuning) 在单任务微调之前的多任务微调有帮助,但是提升效果小于Further pretraining。
4. 小数据集 BERT对小数据集提升很大,这个大家都知道的。Further pretraining对小数据集也有帮助
标签:BERT,task,系列,训练,模型,微调,tokens,Further 来源: https://blog.csdn.net/weixin_36378508/article/details/109474560
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。