标签:CAPTIONING INFORMATION AAC TRANSFER 音频 主题 抽象 CRNN CNN
Abstract & Introduction & Related Work
- 研究任务
自动音频字幕 - 已有方法和相关工作
- 面临挑战
- 创新思路
- 本文首先提出了一个音频描述的主题模型
- 实验结论
发现局部信息和抽象表征的学习对AAC来说比全局信息和时间关系的学习更为关键
提出下面两种语音主题模型:
- 局部音频主题。(a) 声音事件,可由发声对象实体(“一个男性”)、发出声音的动词(“说话”)、声音的物理属性(“大声”)来描述
- 全局音频主题。(a) 声音场景,如准确的场景位置描述(“市中心”),和抽象的描述(“在远处”)。(b) 高层抽象,包括内容推断(“在一个会议上”),和情感表达(“恼人”)
TRANSFER LEARNING FOR AAC
我们在AT和ASC任务上实验了一个CNN和一个CRNN预训练编码器网络。我们打算探索抽象嵌入(CNN)或时间信息(CRNN)是否对AAC性能有更大的影响
AT 提供详细的音频事件信息,而ASC旨在 描绘出环境的特征
AAC Model Architecture
Audio encoder
十层CNN来做audio tagging
五层CRNN来做声音事件检测
Text decoder
隐藏状态h,WE表示word embedding
c
n
c_n
cn由embedding sequence跟前一秒的隐藏状态
h
n
−
1
h_{n-1}
hn−1做注意力之后的总和得到
EXPERIMENTAL SETUP
Datasets
- AudioSet
- DCASE
- Clotho
- Audiocaps
System configuration
RESULTS AND DISCUSSION
实验结果表明局部声音主题比全局信息更重要
CONCLUSION
据观察,局部信息(AT)和抽象嵌入(CNN10)对ACC更为关键。我们希望在未来的工作中探索多任务训练等方法,以更好地解决字幕中的不同主题。主题融合也可以从粗放型转向精细型,例如,分别对声音事件的不同特征、关系、确切的和抽象的声学场景进行建模,同时对高级知识注入抽象
Remark
一个简单清晰又work的框架,用了迁移学习,总体还不错
标签:CAPTIONING,INFORMATION,AAC,TRANSFER,音频,主题,抽象,CRNN,CNN 来源: https://blog.csdn.net/Raki_J/article/details/123056891
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。