标签:Transformer Attention 代码 attention Value vector 序列 self
1.Transformer
Transformer 是由 Google 团队在 17 年 6 月提出的 NLP 经典之作,由 Ashish Vaswani 等人在 2017 年发表的论文 Attention Is All You Need 中提出。
原文网址如下:
https://arxiv.org/pdf/1706.03762.pdf
Transfromer中使用了self-attention机制,那何为attention?
Attention其实就是一个当前的输入与输出的匹配度。
self-attention 具体原理
-
第一步,Encoder的每个输入单词创建三个向量,
即 Query vector, Key vector, Value vector,三个向量分别由embedding结果和权重矩阵相乘得到。 -
第二步,由q*k计算得分,得到关注度。
-
第三步,将数据处理的稳健,并进行softmax。
-
第四步,得分乘以Value向量值。
-
第五步,将value加权得到self-attention值。
标签:Transformer,Attention,代码,attention,Value,vector,序列,self 来源: https://blog.csdn.net/weixin_39490300/article/details/123168345
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。