ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

美团推荐系统的文章

2022-06-23 21:02:37  阅读:158  来源: 互联网

标签:shot 模型 提示 美团 微调 few zero 文章 推荐


https://mp.weixin.qq.com/s/SCFzFIshY9a2wdsPnfffVA

从美团这篇推荐文章里看看一些信息

 

 

 

https://mp.weixin.qq.com/s/axgC09tpzx2p4tb0p7-fPA

NLP 的 不可能三角

 

对模型规模(缺 P1):

  • 一般在超大模型显示出极好的 zero/few-shot 能力和微调后强大的性能时发生。
  • 常用的方法是「知识蒸馏」。
  • 有两个问题:学生模型几乎不能达到教师模型的效果;模型太大会阻碍有效推理,使其作为教师模型不方便。

对较差的 zero/few-shot 能力(缺 P2):

  • 这是中等模型较为常见的:可以通过微调达到 SOTA,但 zero/few-shot 能力相对不足。
  • 方法是「通过其他模型生成伪标签和样例,或噪声注入扩充数据」。
  • 不过,伪数据质量的变化和不同任务中数据类型的多样性对普遍适用的解决方案提出了挑战。

对较差的有监督训练表现(缺 P3):

  • 这在超大模型微调时很典型,其中计算资源有限或训练数据量不足以对其进行微调。
  • 典型的策略是「Prompt 学习」,可以使用硬提示(离散文本模板)或软提示(连续模板),以便在微调期间仅更新硬提示词或软提示的参数。
  • 不过,该方法对 Prompt 的选择和训练数据格外敏感,依然不如中等大小 PLM(预训练语言模型) + 有监督。

 

标签:shot,模型,提示,美团,微调,few,zero,文章,推荐
来源: https://www.cnblogs.com/charlesblc/p/16406688.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有