Kaldi：加权有限状态转换器 WFST

2020-11-29 20:59:07 阅读：490 来源： 互联网

补充前几天的中文分词
对一本小说进行分词

import jieba
from zhon.hanzi import punctuation
file = open('b.txt', 'r', encoding='utf-8')
data=file.read()
data = jieba.cut(data)
string = re.sub(r"[%s]+" %punctuation, "",data)
fW = open('a.txt', 'w', encoding='UTF-8')
fW.write(''.join(string))
fW.close()

原始数据jieba分词
在这里插入图片描述

去除标点
在这里插入图片描述

构图和解码

接下来开始基于WFST解码器的语音识别系统

HCLG 构建

组成	转换器	输入序列	输出序列
H	HMM	HMM的转移-id	单音子/三音子（triphone）
C	上下文相关	单音子/三音子	单音子（monophone）
L	发音词典	单音子	词（word）
G	语言模型	词	词（word）

构建G
以yesno为例，在local/ 中

该脚本对tg的语言模型进行了G构建操作

在这里插入图片描述对APRA格式的语言模型文件解压后，直接输入到apra2fst程序中，就得到目标输出G.fst

构建L
在utils/ 中

L的构图算法是由脚本 utils/lang/make_lexicon_fst_silprob.py，这个脚本用来构建不带静音概率的L，而utils/lang/make_lexicon_fst.py用来构建带静音概率的L，由变量silprob来控制构建哪一种
之后通过fstcompile进行编译，使用fstarcsort工具对生成的图按照输出标签做排序
合并得到LG.fst

在这里插入图片描述
4. 再进一步与字典的单音子与上下文相关转换器C.fst合并

5. 构造H.fst
6. 最后与HMM转换器H.fst合并得到HCLG.fst

总结：
在这里插入图片描述
通过HLCG的合并，把词典、声学模型、语言模型编译在一起，在识别之前产生识别用的静态解码网络，然后用WFST解码器，得到输入语音的解码效果

WFST解码

两种类型offline&online

离线解码
书中介绍的解码器是SimpleDecoder
我在看另外一篇博客还有介绍另一个解码器LatticeFasterDecoder
参考博客

SimpleDecoder
SimpleDecoder是Kaldi中最简单的解码器
gmm-decode-simple是一个基于SimpleDecoder实现的针对GMM声学模型的解码器
参考博文
程序需要输入GMM声学模型、HCLG解码图、声学特征，输出单词解码结果

标签：构建,解码,Kaldi,单音,解码器,fst,转换器,WFST
来源： https://blog.csdn.net/qq_45047246/article/details/108152115

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Kaldi：加权有限状态转换器 WFST

构图和解码

HCLG 构建

WFST解码