【好数推荐】方言语音数据集

来源：数据堂 2021-12-07

随着人工智能应用领域的拓展，方言识别问题也越来越受到重视。但是方言与普通话不一样，方言语音识别要复杂得多。

中国的方言南北差异太大，哪怕同属于一个大的方言分区，也分歧异出，方言数据的采集，面临很多困难。一般来说，数据集的采集无非是字、词、句的搜罗，把该方言常用句子、词语通过文字、音标乃至语音的方式记录下来，集成一个数据库，供人工智能学习使用。但众多方言种类意味着需要收集的数据也是海量的，很难在短时间建立起全国通用的方言数据集。

面向方言识别技术的大规模应用，数据堂提前预知、布局，已采集涵盖八大方言区的数万小时以上的方言朗读、方言自然对话语音数据，可分秒交付，快速提高模型识别准确率，数据堂严格遵守相关规定，所采集的数据均已获得被采集人授权，数据堂致力于用高质量的数据推动方言识别技术的发展。

方言朗读语音数据集

东北方言语音数据集

所有发音人均使用东北方言朗读文本，录音内容丰富，覆盖近30多个领域的客户咨询以及短信文本。句子由专业标注人员人工转写校对，句准确率95%，可用于语音识别，声纹识别等任务。

获取数据样例：https://datatang.com/dataset/info/speech/49

四川方言语音数据集

来自四川盆地发音人在安静的室内环境下的录音数据，录音内容广泛，覆盖日常短信及多领域客户咨询。句子平均重复次数1.3次，平均句长12.5字。由四川本地人参与质检校对，文本转写更精准，匹配主流安卓、苹果系统手机。

获取数据样例：https://datatang.com/dataset/info/speech/52

粤语语音数据集

来自广东省发音人，在安静的室内环境下的录音数据。录音内容广泛，覆盖50 万句常用口语语句，包括微博高频词、日常用语等。句子平均重复次数1.5次，平均句长12.5字。匹配主流安卓、苹果系统手机，句准确率达95%，可用于语音识别，声纹识别等任务。

获取数据样例：https://datatang.com/dataset/info/speech/54

维吾尔语语音数据集

来自维吾尔族聚居区的人参与录制，男女均衡。录音内容为30万维语口语化句子，录音环境为安静的室内。所有句子均经过人工精准转写，准确率高。

获取数据样例：https://datatang.com/dataset/info/speech/46

河南方言语音数据集

由河南本地人员参与录音，口音正宗。录音内容广泛，覆盖日常短信及多领域客户咨询。同时由河南本地人参与质检校对，文本转写更精准，匹配主流安卓、苹果系统手机，可用于语音识别、声纹识别等任务。

获取数据样例：https://datatang.com/dataset/info/speech/48

方言自然对话语音数据集

四川方言自然对话语音数据集

近2000名四川本地发音人参与录制，录制时长约为800小时，以自然方式进行面对面交流，不限制话题进行自由发挥，领域广泛，语音自然流利，符合实际对话场景。人工转写文本，句准确率达95%，可应用于语音识别，声纹识别等任务。

获取数据样例：https://datatang.com/dataset/info/speech/1065

河南方言自然对话语音数据集

近1000名河南本地发音人参与录制，录制时长约为500小时，以自然方式进行面对面交流，针对指定的多个话题进行自由发挥，领域广泛，语音自然流利，符合实际对话场景。人工转写文本，句准确率达95%，可应用于语音识别，声纹识别等任务。

获取数据样例：https://datatang.com/dataset/info/speech/1113

粤语自然对话语音数据集

近1000名河南本地发音人参与录制，以自然方式进行面对面交流，针对指定的多个话题进行自由发挥，领域广泛，语音自然流利，符合实际对话场景。人工转写文本，句准确率达95%，可应用于语音识别，声纹识别等任务。

获取数据样例：https://datatang.com/dataset/info/speech/1026

未来方言识别会加强对方言字词、方言音标标准化建设，让AI更懂人们的声音。随着语音识别自适应能力增强，不受特定口音影响的语音识别技术将指日可待。

专业的人工智能数据服务提供商

销售热线：13051623904

数据堂官方微信

京ICP备11010828号-1 京公网安备 11010802026079号法律声明与隐私权政策

电话
留咨
合规

提交成功！感谢您支持数据堂。

确定

暂无数据

取消

呼叫

安全合规

数据堂符合并遵守数据保护条例对隐私数据保护的要求，并且已通过ISO27001信息安全管理体系、ISO9001质量管理体系认证。

手机格式错误

请填写姓名

请填写手机号码

请填写公司全称

请填写企业邮箱

需求描述格式错误

需求描述不能为空

联系我们

姓名

手机

公司名称

企业邮箱

需求

提交

点击下载

企业邮箱格式错误