语音识别-初识

2022-01-26 11:00:10 阅读：241 来源： 互联网

标签：loss End 解码器初识 Speech 语音 CTC 所示识别

ASRT
https://blog.ailemon.net/2018/08/29/asrt-a-chinese-speech-recognition-system/
ASR-Automatic Speech Recognition &&&&&&&&&& Paddle Speech
涉及数据集：Aishell, wenetspeech, librispeech…
涉及方法：
① DeepSpeech2: End-to-End Speech Recognition in English and Mandarin;
② u2–Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech Recognition；
&&&&&&&&&&&&&&&
Conformer, Transformer, chunk-conformer
① SpeedySpeech: Efficient Neural Speech Synthesis (conformer);
&&&&&&&&&&&&&&&
其中解码方式还涉及，Attention, …and so on.
不同的解码方式，其 Character Error Rate - CER 也不尽相同。

About End to End :
E2E models combine the acoustic, pronunciation and language models into a single neural network, showing competitive results compared to conventional ASR systems.
There are mainly three popular E2E approaches, namely CTC, recurrent neural network transducer (RNN-T) and attention based encoder-decoder (AED).

模型包含三个部分，分别为共享的Encoder、CTC解码器、Attention解码器；

共享Encoder包含多层transformer或者conformer；
CTC解码器为一个全连接层和一个softmax层；
Attention解码器包含多层transformer层。

在这里插入图片描述
模型训练loss包含两个部分：CTC loss 和 AED loss，如下列公式所示，其中x为输入的声学特征，y为音频标注序列，第一项为 CTC loss，第二项为 AED loss。

为了支持流式语音识别，本文提出了Dynamic Chunk Training。为了使模型支持流式，需要限制共享Encoder看到未来信息。

如下图所示，(a)为标准的self attention，在每个输入时刻t都需要依赖整句的输入。针对这一问题，最简单的流式思路，限制当前时刻t只看到历史信息，不看任何未来信息，如图(b)所示，但该方案会极大的影响模型识别效果。而另外一种常用的思路，限制当前时刻t看到有限的未来时刻信息（比如看到未来C帧信息），如图©所示。

在模型训练中，Chunk的大小可以是固定的，也可以是动态调整的。

在这里插入图片描述

Last one ::
SoX（ Sound eXchange）是一个跨平台（Windows，Linux，MacOS 等）的命令行实用程序，可以将各种格式的音频文件转换为需要的其他格式。
SoX 还可以对输入的音频文件应用各种效果，也支持在大多数平台上播放和录制音频文件。

链接：https://www.jianshu.com/p/be8977de4a6b

标签：loss,End,解码器,初识,Speech,语音,CTC,所示,识别
来源： https://blog.csdn.net/qq_42563807/article/details/122684628

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

语音识别-初识