ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Joint CTC/attention decoding for end-to-end speech recognition

2020-12-23 19:32:52  阅读:282  来源: 互联网

标签:end 解码 attention decoding ctc 序列 对齐


Joint CTC/attention decoding for end-to-end speech recognition

1. 论文摘要

端到端asr 的两种主流形式:(1)基于识别结果和声学特征之间atttention 方式;(2)基于ctc,通过马尔科夫假设利用动态规划来求解序列问题。
*思路:
传统基于attention的对齐方式自由度太高,asr任务大多数都是按照序列渐进对齐,因此考虑采用ctc-based 的对齐方式来指导解码。

2. 模型架构

在这里插入图片描述

  • 优化目标
    L M T L = λ l o g P c t c ( C ∣ X ) + ( 1 − λ ) l o g P a t t n ( C ∣ X ) L_{MTL} = \lambda logP_{ctc}(C|X)+(1-\lambda)logP_{attn} (C|X) LMTL​=λlogPctc​(C∣X)+(1−λ)logPattn​(C∣X)
    通过在encoder 端做CTC预测的辅助任务,保证speech 和label 之间的单调对齐。优化的时候将ctc 预测目标和decoder 端预测目标分别求ce loss, 然后根据比例加和。

  • 解码策略
    -传统的改进策略:
    在这里插入图片描述

    (1)加长度惩罚项, 防止解码序列太短。(对应第二项)
    (2)加入coverage term 对attention 进行限制。(对应第三项)
    在这里插入图片描述
    长度T 代表encoder 端长度, l 代表decoder 端序列长度。 防止decoder端attention 过度关注某一帧多次。
    (3)rescoring 方法:two pass
    先基于常规attention based 的概率分布的beam search 方法解码出一系列候选序列,基于这个序列做二次打分筛选。二次打分的时候,基于ctc 的概率和attention based概率两者加权,其中ctc 的概率是通过前向算法求得。
    在这里插入图片描述
    (4)one-pass decoding
    引入了ctc prefix probability, 表示所有将h 作为prefix 的目标序列的累计概率和。
    在这里插入图片描述
    ctc score 的定义
    在这里插入图片描述

  • 解码策略的伪代码
    在这里插入图片描述
    提前结束的操作
    在这里插入图片描述
    解释:当前还未完成的序列的最大值(从l-m 到 l)和已完成序列的最大得分之差在某一阈值范围之内,就提前中止。

  • ctc score 的算法伪代码
    在这里插入图片描述

标签:end,解码,attention,decoding,ctc,序列,对齐
来源: https://blog.csdn.net/pitaojun/article/details/111493883

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有