Transformer 架构逐层功能介绍和详细解释

2022-01-09 12:03:03 阅读：202 来源： 互联网

多年来，深度学习一直在不断发展。深度学习实践高度强调使用大量参数来提取有关我们正在处理的数据集的有用信息。通过拥有大量参数，我们可以更容易地分类/检测某些东西，因为我们有更多的可以清楚地识别的数据。

目前为止深度学习中，特别是在自然语言处理领域的一个显着里程碑是语言模型的引入，它极大地提高了执行各种 NLP 任务的准确性和效率。

seq2seq模型是一种基于编码器-解码器机制的模型，它接收输入序列并返回输出序列作为结果。例如图像描述任务，输入给定的图像，输出则是为图像创建一个合理的描述。在这种情况下seq2seq 模型将图像像素向量（序列）作为输入，并逐字返回描述（序列）作为输出。

一些促进此类模型训练的重要 DL 算法包括RNN，LSTM，GRU。但随着时间的推移这些算法的使用逐渐消失，因为复杂性和一些缺点会随着数据集大小的增加而严重影响性能。这其中的重要的缺点包括较长的训练时间、梯度消失问题（当我们为大型数据集进一步训练模型时会丢失有关旧数据的信息）、算法的复杂性等。

Attention is all you need

在语言模型训练方面取代上述所有算法的爆发性概念之一是基于多头注意力的Transformer 架构。Transformer 架构最早是由谷歌在 2017 年的论文《Attention is all you need》中引入的。它受欢迎的主要原因是其架构引入了并行化。Transformer 利用了强大的 TPU 和并行训练，从而减少了训练时间。

以下是被传播最广泛的Transformer架构的可视化。

即使抽象了很多的细节，整个架构看起来还是非常庞大。这张图中每一层仍然隐藏着很多细节东西。我们在这篇文章中会介绍每一层以及它在整个架构中的作用。

Transformer 是一个用于 seq2seq 模型的编码器-解码器模型，左侧是输入，右侧是输出。在它内部使用的注意机制已成为语言模型的首要算法。

现在我们开始详细介绍每一层的作用。我们将使用带有简单句子“I am a student”及其法语翻译形式“Je suis étudiant”的语言翻译任务示例。

完整文章：

Transformer 架构逐层功能介绍和详细解释

标签：Transformer,架构,训练,模型,seq2seq,逐层,算法
来源： https://www.cnblogs.com/deephub/p/15780616.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Transformer 架构逐层功能介绍和详细解释

Attention is all you need

Transformer 架构逐层功能介绍和详细解释