首页 > 其他分享> 文章详细

INVESTIGATING LOCAL AND GLOBAL INFORMATION FOR AUTOMATED AUDIO CAPTIONING WITH TRANSFER LEARNING

2022-02-21 22:57:59 阅读：189 来源： 互联网

标签：CAPTIONING INFORMATION AAC TRANSFER 音频主题抽象 CRNN CNN

Abstract & Introduction & Related Work

研究任务
自动音频字幕
已有方法和相关工作
面临挑战
创新思路
1. 本文首先提出了一个音频描述的主题模型
实验结论
发现局部信息和抽象表征的学习对AAC来说比全局信息和时间关系的学习更为关键

提出下面两种语音主题模型：

局部音频主题。(a) 声音事件，可由发声对象实体(“一个男性”)、发出声音的动词(“说话”)、声音的物理属性(“大声”)来描述
全局音频主题。(a) 声音场景，如准确的场景位置描述（“市中心”），和抽象的描述（“在远处”）。(b) 高层抽象，包括内容推断（“在一个会议上”），和情感表达（“恼人”）

TRANSFER LEARNING FOR AAC

我们在AT和ASC任务上实验了一个CNN和一个CRNN预训练编码器网络。我们打算探索抽象嵌入（CNN）或时间信息（CRNN）是否对AAC性能有更大的影响

AT 提供详细的音频事件信息，而ASC旨在描绘出环境的特征
在这里插入图片描述

AAC Model Architecture

在这里插入图片描述

Audio encoder

十层CNN来做audio tagging
五层CRNN来做声音事件检测

Text decoder

隐藏状态h，WE表示word embedding
在这里插入图片描述
c n c_n cn由embedding sequence跟前一秒的隐藏状态 h n − 1 h_{n-1} hn−1做注意力之后的总和得到
在这里插入图片描述

EXPERIMENTAL SETUP

Datasets

AudioSet
DCASE
Clotho
Audiocaps

System configuration

在这里插入图片描述

RESULTS AND DISCUSSION

在这里插入图片描述
实验结果表明局部声音主题比全局信息更重要

CONCLUSION

据观察，局部信息（AT）和抽象嵌入（CNN10）对ACC更为关键。我们希望在未来的工作中探索多任务训练等方法，以更好地解决字幕中的不同主题。主题融合也可以从粗放型转向精细型，例如，分别对声音事件的不同特征、关系、确切的和抽象的声学场景进行建模，同时对高级知识注入抽象

Remark

一个简单清晰又work的框架，用了迁移学习，总体还不错

标签：CAPTIONING,INFORMATION,AAC,TRANSFER,音频,主题,抽象,CRNN,CNN
来源： https://blog.csdn.net/Raki_J/article/details/123056891

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9