标签:BERT Transformer transformer number 拆解 each block
基本结构
basic参数
or : total number of transformer blocks
or : number of units in each bottleneck layer, and number of units of each Q/K/V input
or : number of heads of each transformer block
or : input sequence length
derived参数
: dimension of each attention head,
: intermediate layer units of feed forward layer,
各参数在transformer block中的详细示意图如下(可双击放大):
Zoom in Feed Forward子模块
典型模型基本参数
应用 | 模型 | ||||
NLP | GPT-3 | 96 | 12288 | 96 | 2048 |
NLP | BERT_Base | 12 | 768 | 12 | 128/512 |
NLP | BERT_Large | 24 | 1024 | 16 | 128/512 |
RecSys | BST | 1 | 128(max) | 8 | 20 |
-
BST: Behavior Sequence Transformer
References
-
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
-
Deep Learning Recommendation Model for Personalization and Recommendation Systems
-
Behavior Sequence Transformer for E-commerce Recommendation in Alibaba
标签:BERT,Transformer,transformer,number,拆解,each,block 来源: https://www.cnblogs.com/Matrix_Yao/p/15062917.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。