ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

OfficialKaldi(一)| 关于Kaldi项目(翻译注解)

2020-12-02 23:57:27  阅读:291  来源: 互联网

标签:OfficialKaldi 代码 Kaldi 工具包 语音 注解 配方 我们


 

什么是Kaldi?

Kaldi是使用C ++编写的语音识别工具包,并根据Apache License v2.0获得许可。Kaldi供语音识别研究人员使用。有关更详细的历史记录和贡献者列表,请参见Kaldi项目的历史记录

 

卡尔迪(Kaldi)这个名字

根据传说,卡尔迪是埃塞俄比亚的牧羊人,发现了咖啡植物。

 

Kaldi与其他工具箱

Kaldi的目标和范围与HTK相似。目标是拥有易于修改和扩展的用C ++编写的现代而灵活的代码。重要功能包括:

  • 与有限状态传感器(FST)的代码级集成

  • 我们根据OpenFst工具箱(将其用作库)进行编译。

 

  • 广泛的线性代数支持

  • 我们包括一个包装标准BLAS和LAPACK例程的矩阵库

 

  • 可扩展的设计

  • 我们尽可能以最通用的形式提供算法。例如,我们的解码器被模板化在一个对象上,该对象提供由(帧,fst-input-symbol)元组索引的分数。这意味着解码器可以从任何合适的分数源(例如神经网络)工作。

 

  • 公开许可证

  • 该代码是根据Apache 2.0许可的,Apache 2.0是可用的限制最少的许可证之一。

 

  • 完整食谱

  • 我们的目标是为构建语音识别系统提供完整的配方,这些配方可从语言数据库(LDC)提供的数据库中获得。

 

发布完整食谱的目标是Kaldi的重要方面。由于该代码是根据允许修改和重新发布的许可证公开提供的,因此,我们鼓励人们以与Kaldi自己的示例脚本类似的格式发布其代码以及脚本目录。

在给定时间限制的情况下,我们试图使Kaldi的文档尽可能完整,但是短期内我们不希望生成与HTK一样详尽的文档。特别是,HTKBook中有很多入门材料,它们为未入门者介绍了统计语音识别,这可能永远不会出现在Kaldi的文档中。Kaldi的许多文档都是以这样的方式编写的,即只有专家才能使用。考虑到我们的目标受众是语音识别研究人员或培训中的研究人员,将来我们希望使其更易于使用。通常,Kaldi并不是用于“假人”的语音识别工具包。它将允许您执行许多没有意义的操作。

 

卡尔迪的味道

在本节中,我们尝试总结Kaldi工具包的一些更通用的品质。在某种程度上,这描述了当前开发人员的目标,并描述了项目的当前状态。这并不意味着排除工作风格不同的研究人员的贡献。

  • 我们强调通用算法和通用配方

  • 所谓“通用算法”,是指诸如线性变换之类的事物,而不是某种特定于语音的事物。但是,如果更具体的算法有用,我们就不会太教条。

  • 我们希望可以在任何数据集上运行的配方,而不是必须定制的配方。

 

  • 我们更喜欢证明正确的算法

  • 配方的设计原则上永远不会以灾难性的方式失败。一直在努力避免可能会失败的配方和算法,即使它们在“正常情况下”也不会失败(例如:FST推压,通常可以帮助但可能导致崩溃或使某些情况变得更糟)情况)。

 

  • Kaldi代码已经过全面测试。

  • 目标是使所有或几乎所有代码都具有相应的测试例程。

 

  • 我们试图使简单的情况保持简单。

  • 在构建大型语音工具包时,存在代码可能成为很少使用的替代品的危险。我们试图通过以下方式构造工具箱来避免这种情况。每个命令行程序通常只适用于少数情况(例如,解码器可能仅适用于GMM)。因此,当您添加新类型的模型时,您将创建一个新的命令行解码器(调用相同的基础模板代码)。

 

  • Kaldi代码很容易理解。

  • 即使整个Kaldi工具包可能变得非常庞大,我们的目标还是要使它的每个部分都易于理解,而无需付出太多努力。如果可以提高某些部分的易理解性,我们将接受一些代码重复。

 

  • Kaldi代码易于重用和重构。

  • 我们的目标是使工具包尽可能松散地耦合。通常,这意味着任何给定的标头都应#include尽可能少的其他标头文件。特别是矩阵库仅依赖于另一个子目录中的代码,因此它几乎可以独立于所有Kaldi其余部分使用。

 

 

项目状况

当前,我们拥有用于大多数标准技术的代码和脚本,包括所有标准线性变换,MMI,增强型MMI和MCE判别训练,以及特征空间判别训练(例如fMPE,但基于增强型MMI)。我们为《华尔街日报》和《资源管理》以及《总机》提供了工作食谱。由于词汇和语言模型问题,“配电盘”配方尚未提供最新的结果–为此,我们不使用任何外部数据源。

注意:在我们打算将版本号用于Kaldi的主要发行版(“ v1”等)的早期阶段之后,我们意识到这些类型的发行版与自然的开发风格不太吻合,这是非常连续的。当前,我们仅维护“ master”开发分支,这是您应该使用的版本。另外,经常执行“ git pull”以保持其最新状态。有关更多详细信息,请参见下载和安装Kaldi

 

参考论文中的Kaldi

如果您想在论文中引用Kaldi,可以使用以下参考。

 
 

@INPROCEEDINGS { Povey_ASRU2011, 作者= {Povey,Daniel和Ghoshal,Arnab和Boulianne,Gilles和Burget,Lukas和Glembek,Ondrej和Goel,Nagendra和Hannemann,Mirko和Motlicek,Petr和Qian,Yanmin和Schwarz,Petr和Silovsky,Jan和Stemmer,Georg还有Vesely,Karel}, 关键字= {ASR,自动语音识别,GMM,HTK,SGMM}, 月=十二月 title = {卡尔迪语音识别工具包}, booktitle = {IEEE 2011自动语音识别和理解研讨会”, 年= {2011}, 发布者= {IEEE信号处理协会}, 位置= {美国夏威夷大岛希尔顿唯客乐渡假村}, note = {IEEE目录号:CFP11SRW-USB}, }

 

标签:OfficialKaldi,代码,Kaldi,工具包,语音,注解,配方,我们
来源: https://blog.csdn.net/qq_42734492/article/details/110506941

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有