李宏毅DLHLP.26.Audio BERT.2/2

2021-02-12 15:29:21 阅读：260 来源： 互联网

标签：BERT 768 level 李宏毅 attention ALBERT vector DLHLP.26 Audio

文章目录

介绍
AALBERT. BY 纪伯翰
Self-attentions By 杨书文

介绍

本门课程是2020年李宏毅老师新课：Deep Learning for Human Language Processing（深度学习与人类语言处理）
课程网站
 B站视频
公式输入请参考：在线Latex公式
上节课提到了李宏毅老师团队做的一个Mockingjay模型，在Mockingjay的后继工作有三个模型，上节课讲了一个，这节课讲剩下两个。

AALBERT. BY 纪伯翰

Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio Representation

Recap: ALBERT

是BERT的轻量化版本，用更少的参数来达到BERT的效果。主要有如下三点：
Factorize Embedding Matrix
Share Parameters across layer
Model Configuration between BERT

Factorize Embedding Matrix

参数减少，主要体现在：
Original BERT:
30000 x 768 = 23.04M

ALBERT:
30000 x128 = 3.8M
128 x 768 = 0.098M
Total: 3.898M
原始的BERT的词表大小是3W，每个词向量维度是768.
ALBERT先将768的输入降维到128，在进行计算时，先加一个投影层（简单的linear的变换），把128还原回768大小，这样做可以节省很多内存。
在这里插入图片描述

Share Parameters across layer

原始的BERT有12层transformer，参数都不一样。
ALBERT则把这12层transformer改为一个，然后loop 12次。这样做表现也没掉太多。这个是减少参数最大的地方。
在这里插入图片描述

Model Configuration between BERT

ALBERT提供了四种模型选择。下表中可以看到不同模型在设置上有什么不一样的地方。
在这里插入图片描述
二者在几个下游任务的表现：

这里虽然ALBERT看上去，它的xxlarge模型效果不错，而且参数量也没有BERT的large多，但是它的hidden layer维度很大，是4096，因此它的速度是要慢不少的。

AALBERT

先把AALBERT和ALBERT做一下比较：
在这里插入图片描述
ALBERT的输入带有Mask的句子，而AALBERT则是Mask的Mel Spectrogram。
与mockingjay的比较：

可以看到，在参数共享上二者有不同

预训练阶段，二者都是用mask过的mel spetrogram进行训练，得到结果经过最后那个黄色的predict head，得到的结果和groud truth进行L1 norm loss。
LibriSpeech 360 hours dataset, 500k step, batch size 48.
下面看下下游任务的效果：

Phoneme Classification

有两个场景：
Weighted-sum and fine-tune feature extraction
前者是将每一层设置一个权重，然后学习这个权重，每层的参数不变，最后将每层的结果加权求和做平均得到最后的表征。
在这里插入图片描述
后者是将下图中蓝色的部分的参数进行finetune

其实和mockingjay套路一样
分类器描述：Utilizing MLP classifier behind representation to train phoneme classification task.
结果：

不同训练数据量的实验

Speaker Identification

也有两种场景：
Utterance-level
Frame-level
前者：
一段声音信号经过模型会抽取得到一排vector，然后再对这一排vector应用一个mean pooling，合成一个vector，然经过linear classifier进行分类。
Utilizing mean pooling over an utterance to generate utterance-level representation.
Simple linear classifier need to train in the Utterance-level speaker identification

在这里插入图片描述
后者：
Classify Each frame-level representation to corresponding speaker.
Simple linear Classifier need to train in the frame-level speaker identification
不对抽取出来的vector做pooling操作，而是每个vector都做一次分类操作。

Overall Performance
在这里插入图片描述

Self-attentions By 杨书文

这一节主要是讲用Self-attention来训练reconstruction loss的原理，里面有很多可视化的内容，我就不写太细了，涉及到很多图。因为传统的attention任务中往往是有指定某个attention的对象，例如分辨男女，那么attention可能会关注声音频率，但是在BERT里面，并没有指明什么任务，直接用的是reconstruction loss为目标进行训练的，那么这样训练出来的模型attention到底是什么样子呢？

在这里插入图片描述
最后结论如下，全局attention还在研究中。

标签：BERT,768,level,李宏毅,attention,ALBERT,vector,DLHLP.26,Audio
来源： https://blog.csdn.net/oldmao_2001/article/details/113772330

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9