Transformer block拆解

2021-07-26 19:00:26 阅读：328 来源： 互联网

标签：BERT Transformer transformer number 拆解 each block

Transformer block拆解

基本结构

Alt text

basic参数

or : total number of transformer blocks

or : number of units in each bottleneck layer, and number of units of each Q/K/V input

or : number of heads of each transformer block

or : input sequence length

derived参数

: dimension of each attention head,

: intermediate layer units of feed forward layer,

各参数在transformer block中的详细示意图如下(可双击放大)：

Alt text

Zoom in Feed Forward子模块

Alt text

典型模型基本参数

应用	模型
NLP	GPT-3	96	12288	96	2048
NLP	BERT_Base	12	768	12	128/512
NLP	BERT_Large	24	1024	16	128/512
RecSys	BST	1	128(max)	8	20

BST: Behavior Sequence Transformer

References

标签：BERT,Transformer,transformer,number,拆解,each,block
来源： https://www.cnblogs.com/Matrix_Yao/p/15062917.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Transformer block拆解

基本结构

Zoom in Feed Forward子模块

典型模型基本参数

References