数据堂《Kaldi语音识别》技术及开源语音语料库分享（上）

来源：数据堂 2019-07-02

前言：

数据堂自AI开源计划发起，面向高校和科研机构首次开源的【1505小时中文普通话语音数据集】，该数据集句标注准确率达到了98%，得到了很多开发者的认可。

不仅如此，数据堂基于此开源数据集还精选出了【200小时中文普通话语音数据】同期发布，并提供了基于Kaldi【200小时中文普通话语音数据】训练方法。该训练方法同时得到了广泛的关注及开发者的极度认可，并表示希望数据堂持续分享相关技术。

近日，数据堂AI开放实验室发起基于《Kaldi语音识别》技术的分享会，分享会也一同邀请到了北印和北工商实验室的同学参加。

分享会上，数据堂AI开放实验室语音识别数据处理技术研究同事详细的讲解了语音识别技术、语音识别引擎框架、其算法归纳、模型训练实战演示、语音识别技术未来的挑战，以及分享了目前开源的数据集中高质量的语音语料库。

以下为分享会主要内容回顾：

（因分享内容较多，本期只介绍前三章：语音识别技术、语音识别引擎框架、开源语音语料库。开源语音语料库整理了目前比较好的数据集，并且给出了查询地址，方便大家下载。）

一、语音识别技术

1.1 什么是语音识别ASR (Automatic Speech Recognition）

声波蕴含了更为丰富的信息，比如说话人性别、口音、年龄、情感等，语音识别即让机器把语音信号转变为相应的文本，进而达到机器自动识别和理解语音内容。输入一段随时间播放的信号序列，输出对应的一段文本序列。

——基本流程——

1.2 语音识别技术的应用

语音识别作为一种基础层感知类技术，既可以作为核心技术直接应用于终端产品，也可以仅作为一种感知类辅助技术集成于语音助手、车载系统、智慧医疗、智慧法院等场景的产品中。

——语音识别应用——

1.3 语音识别基本流程

1.3.1 信号预处理

信号预处理包括：滤波与采样、预加重、端点检测、分帧、加窗。

1.3.2 特征提取

包括：常用特征（MFCC、Fbank、pitch）、时频转换、共振峰/包络——MFCC、基音周期/精细结构——pitch、 FBank特征、三角滤波、MFCC特征、特征压缩、一段语音信号、滑动窗口、语谱图等。

1.3.3 解码

包含：声学模型（AM）、语言模型（LM）、词典（Lexicon）、解码器（Decoder）、维特比算法、词图（lattice）。

1.3.4 评价指标

包含：词错误率（Word Error Rate，WER）、字错误率（Character Error Rate，CER）、音素错误率（Phone Error Rate，PER）、句错误率（Sentence Error Rate，SER）。

例如：词错误率（Word Error Rate，WER）

- 将标准答案与识别结果对齐

- 用插入、删除、替换错误的总数除以标准答案的长度

- 标准答案：too young too simple sometimes naïve

- 识别结果： too young simple some times knife

- 错误：删除替换插入替换

- WER：4 / 6 = 66.7%

二、语音识别引擎框架

2.1 Hidden Markov Toolkit

Hidden Markov Toolkit由剑桥大学开发的早期经典的语音识别工具包，最早开发于1989年，使用C语言编写，代码和功能非常稳定，集成了最主流的语音识别技术，具有相对完善的文档手册HTK Book。

缺点：更新相对缓慢，缺乏易用的脚本系统，不方便上手

2.2 Microsoft Cognitive Toolkit

微软公司开发的工具箱，开源于2015年，强大的神经网络功能，定位于多种问题的组合，比如机器翻译+语音识别，是工具包中对Windows平台支持最好的。

缺点：不是完全专业的语音识别工具，需要配合Kaldi等工具使用，在持续的优化和更新中

2.3 CMU Sphinx

CMU Sphinx由卡内基梅隆大学开发，在Github和SourceForge平台同步更新，至今也有20多年的历史了，有C和Java两个版本，文档简单易读，贴近实践操作，适合做开发。

缺点：在Github上只有一个管理员维护，其他杂项处理程序（如pitch提取）没有kaldi丰富。

2.4 KAIDI

有全套的语音识别工具，由Dan Povey博士和捷克的BUT大学联合开发，最早发布于2011年，底层代码使用C++编写，接口采用shell和python，覆盖了统计模型和深度学习方法，灵活代码，易于扩展，开发者更为活跃。

缺点：由于贡献者比较多，所以会有不稳定或有问题的代码更新

三、开源语音语料库

3.1 LibriSpeech

当前衡量语音识别技术的最权威主流的开源数据集

1000小时英语有声读物

地址：

Librispeech: An ASR corpus based on public domain audio books

http://www.openslr.org/11/

3.2 牛津大学：VoxCeleb

地址：

VoxCeleb2: Deep Speaker Recognition 2018 VoxCeleb

3.3 清华大学：Thchs-30

时长30多小时，16kHz，16bits；安静室内，单麦克风；

设计目的：

- 增广863数据集（2001年，TCMSD）

- 提供语音识别基准实验

地址：

THCHS-30 : A Free Chinese Speech Corpus 2015 THCHS-30

3.4 数据堂：aidatatang_1505zh

时长1505小时，16kHz，16bits

安静室内或低噪室外，手机设备

采集区域覆盖全国34个省级行政区域

参与录音人数达6408人

录音内容超30万条口语化句子

标注准确率超过98%

数据堂1505小时中文普通话数据集

地址：

www.datatang.com

3.5 数据堂：aidatatang_200zh

时长200小时，16kHz，16bits

安静室内或低噪室外，手机设备

600位来自不同地区的说话人

标注准确率超过98%

训练集：验证集：测试集 = 7：1：2

地址：

数据堂官网：www.datatang.com

OpenSLR：http://www.openslr.org/62/

GitHub：https://github.com/datatang-ailab/aidatatang_200zh

KALDI：https://github.com/kaldi-asr/kaldi/tree/master/egs/aidatatang_200zh

以上是数据堂基于《Kaldi语音识别》技术及开源语音语料库分享会上的前三章主要内容，后三章内容：算法归纳、模型训练实战演示、语音识别技术未来的挑战将在下一期分享给大家。