zh

姓名格式错误

公司名称格式错误

数据堂严格遵守用户隐私条款,您所填写的信息我们会严格保密,请放心填写~

MLC-SLM 研讨会日程

日期&地点:8月22日14号码头-鹿特丹Ahoy会议中心
时段
活动
8:30-9:00
领取胸牌
9:00-10:00
主题演讲 1: Shinji Watanabe
Scaling Multilingual Speech Recognition: From a Handful to Thousands of Languages
10:00-10:30
休息时间
10:30-11:00
挑战赛总结+颁奖典礼
11:00-12:00
口头报告:
1.Seewo's Submission to MLC-SLM: Lessons learned from Speech Reasoning Language Models Speaker:Bo Li
2.Transsion Multilingual Speech Recognition System for MLC-SLM 2025 Challenge Speaker:Xiaoxiao Li
3.Triple X: A LLM-Based Multilingual Speech Recognition System for the INTERSPEECH2025 MLC-SLM Challenge Speaker:Miaomiao Gao
4.The TEA-ASLP System for Multilingual Conversational Speech Recognition and Speech Diarization in MLC-SLM 2025 Challenge Speaker:Hongfei Xue
12:00-13:00
午休
13:00-13:30
口头报告:
1.ILT: Iterative LORA Training through Focus-Feedback-Fix for Multilingual Speech Recognition Speaker:Qingliang Meng
2.BUT System for the MLC-SLM Challenge Speaker:Alexander Polok
13:30-14:30
主题演讲 2: Hung-yi Lee
Advancements in Spoken Language Model
14:30-15:00
休息时间
15:00-15:30
受邀演讲 1: Ming Li
Sequence-to-Sequence Neural Diarization under Online and Multi-modal Scenarios
15:30-16:00
受邀演讲 2: Shuai Wang
One Embedding Doesn’t Fit All: Rethinking Speaker Modeling for Various Speech Applications
16:00-16:30
受邀演讲 3: Pan Pan
Beyond Data Scarcity: Engineering Quality-First Data Pipelines in Different Training Stage
16:30-17:30
海报展示环节
参会报名渠道:

1.Interspeech官方报名通道(请在报名时选择Workshop on Multilingual Conversational Speech Language Model) 点击链接

2.临时报名通道 点击链接

报名费用50欧元,注册会员可享受workshop当天茶歇、午餐一份。
注:通过临时报名通道参会的会员需要进行现场缴费,仅支持现金。

主题演讲 1:
卡内基梅隆大学副教授
Scaling Multilingual Speech Recognition: From a Handful to Thousands of Languages
Shinji Watanabe is an Associate Professor at Carnegie Mellon University, Pittsburgh, PA. He received his B.S., M.S., and Ph.D. (Dr. Eng.) degrees from Waseda University, Tokyo, Japan. He was a research scientist at NTT Communication Science Laboratories, Kyoto, Japan, from 2001 to 2011, a visiting scholar at Georgia Institute of Technology, Atlanta, GA, in 2009, and a senior principal research scientist at Mitsubishi Electric Research Laboratories (MERL), Cambridge, MA USA from 2012 to 2017. Before Carnegie Mellon University, he was an associate research professor at Johns Hopkins University, Baltimore, MD, USA, from 2017 to 2020. His research interests include automatic speech recognition, speech enhancement, spoken language understanding, and machine learning for speech and language processing. He has published over 500 papers in peer-reviewed journals and conferences and received several awards, including the best paper award from ISCA Interspeech in 2024. He is a Senior Area Editor of the IEEE Transactions on Audio Speech and Language Processing. He was/has been a member of several technical committees, including the APSIPA Speech, Language, and Audio Technical Committee (SLA), IEEE Signal Processing Society Speech and Language Technical Committee (SLTC), and Machine Learning for Signal Processing Technical Committee (MLSP). He is an IEEE and ISCA Fellow.
主题演讲 2:
台湾大学教授
Advancements in Spoken Language Model
Hung-yi Lee is a professor of the Department of Electrical Engineering at National Taiwan University (NTU), with a joint appointment at the Department of Computer Science & Information Engineering of the university. His recent research focuses on developing technology that can reduce the requirement of annotated data for speech processing (including voice conversion and speech recognition) and natural language processing (including abstractive summarization and question answering). He won Salesforce Research Deep Learning Grant in 2019, AWS ML Research Award in 2020, Outstanding Young Engineer Award from The Chinese Institute of Electrical Engineering in 2018, Young Scholar Innovation Award from Foundation for the Advancement of Outstanding Scholarship in 2019, Ta-You Wu Memorial Award from Ministry of Science and Technology of Taiwan in 2019, and The 59th Ten Outstanding Young Person Award in Science and Technology Research & Development of Taiwan. He owns a YouTube channel teaching deep learning technology in Marian, which has more than 300,000 subscribers.
受邀演讲 1:
昆山杜克大学教授
Sequence-to-Sequence Neural Diarization under Online and Multi-modal Scenarios
Ming Li received his Ph.D. in Electrical Engineering from University of Southern California in 2013. He is currently a Professor of Electronical and Computer Engineering at Division of Natural and Applied Science and Principal Research Scientist at Digital Innovation Research Center at Duke Kunshan University. He is also an Adjunct Professor at School of Computer Science of Wuhan University. His research interests are in the areas of audio, speech and language processing as well as multimodal behavior signal analysis and interpretation. He has published more than 200 papers and served as the member of IEEE speech and language technical committee, APSIPA speech and language processing technical committee. He was an area chair at Interspeech 2016, Interspeech 2018, Interspeech 2020, SLT2022, Interspeech 2024, Interspeech 2025, ASRU 2025. He is the technical program co-chair at Odyssey 2022 and ASRU 2023. He is an editorial member of IEEE Transactions on Audio, Speech and Language Processing, Computer Speech and Language and APSIPA Transactions on Signal and Information Processing. Works co-authored with his colleagues have won first prize awards at Interspeech Computational Paralinguistic Challenges 2011, 2012 and 2019, ASRU 2019 MGB-5 ADI Challenge, Interspeech 2020 and 2021 Fearless Steps Challenges, VoxSRC 2021, 2022 and 2023 Challenges, ICASSP 2022 M2MeT Challenge, IJCAI 2023 ADD challenge, ICME 2024 ChatCLR challenge and Interspeech 2024 AVSE challenge. As a co-author, he has won the best paper award in DCOSS2009 and ISCSLP2014 as well as the best paper shortlist in Interspeech 2024. He received the IBM faculty award in 2016, the ISCA Computer Speech and Language 5-years best journal paper award in 2018 and the youth achievement award of outstanding scientific research achievements of Chinese higher education in 2020. He is a senior member of IEEE.
受邀演讲 2:
南京大学副教授
One Embedding Doesn’t Fit All: Rethinking Speaker Modeling for Various Speech Applications
Shuai Wang is a tenure-track Associate Professor at Nanjing University and an adjunct faculty member at the Chinese University of Hong Kong, Shenzhen (CUHK-SZ). He received his Ph.D. from Shanghai Jiao Tong University in 2020 and his B.Sc. from Northwestern Polytechnical University in 2014. Dr. Wang has published over 60 papers on speaker modeling and has received several honors, including the IEEE Ramaswamy Grant at ICASSP 2018, and first place in both VoxSRC 2019 and DIHARD 2019. He is the initiator of the open-source projects WeSpeaker and WeSep, which are widely adopted by both academia and industry.
受邀演讲 3:
NexdataAI业务总监
Beyond Data Scarcity: Engineering Quality-First Data Pipelines in Different Training Stage
Visionary leader and operational architect at Nexdata, Pan leverages over a decade of AI data expertise to lead elite teams in delivering end-to-end solutions for LLM, GenAI, and traditional AI models. She has successfully executed 1000+ projects by integrating global-scale multi-sensor data collection, AI-powered annotation, and a unified platform that streamlines the entire training data pipeline.

背景

目前,大语言模型(LLMs)在各种下游任务中均展现出卓越的性能,已成为语言理解和文本生成等任务的基础模型。近年来,研究者们开始关注如何将 LLMs 应用于语音和音频处理任务,如自动语音识别 (ASR)、音频字幕生成以及语音对话系统等新兴领域。

然而,构建强大的基于 LLM的语音对话系统,在很大程度上依赖于真实世界的对话语音数据。这些数据涵盖了人类语音交流的多种复杂场景,包括自然停顿、中断、说话者重叠和多样化的对话风格。此类数据的稀缺性,尤其是在多语种环境中,极大地限制了该领域的研究和发展。

真实对话语音数据不仅对于技术进步至关重要,还在构建能够理解多语种和长上下文内容的人工智能系统方面发挥关键作用。对于下一代人机交互系统而言,语音对话是核心的沟通方式,高质量的对话语音数据对于提升其准确性和自然度尤为重要。

因此,本次挑战赛/研讨会旨在通过发起多语种对话语音语言模型(MLC-SLM)的挑战,以及发布真实的多语种对话语音数据集来促进该方向的研究。

任务设定与评估

本次挑战赛包含两个任务,均要求参赛者探索基于 LLM 的语音模型的开发:

任务 I:多语种对话语音识别
目标:开发基于 LLM 的多语种 ASR 模型。
参赛者将获得每段对话的真实时间戳标注及说话者标签用于切分语音片段。
该任务的重点是优化多语种对话环境下的语音识别准确率。
任务 II:多语种对话语音日志与识别
目标:开发一个同时进行说话者日志(即识别谁在何时说话),又能进行语音识别(将语音转换为文本)的系统。
评估过程中不提供任何先验信息,如真实时间戳标注、预先切分的语音片段、说话者标签等。
该任务可以使用基于级联系统或端到端系统的方法。

对于任务 I,系统性能将基于不同语言的词错误率(WER)或字符错误率(CER)进行评估。

对于任务 II,性能将基于说话人日志错误率(DER)以及连接最小排列词错误率(tcpWER)或字符错误率(tcpCER)进行评估。DER用于确定在参考标注和日志结果之间的最佳说话人排列。然后,将同一说话人识别结果和参考进行连接,以计算tcpWER或tcpCER。所有提交将根据tcpWER或tcpCER进行排名。

重要日期(AOE 时间)

2025年3月10日:注册开放

2025年3月15日:训练数据发布

2025年4月1日:开发集和基线系统发布

2025年5月15日:评估集发布及 Leaderboard开放

2025年5月30日:Leaderboard冻结,论文提交系统(CMT)开放

2025年6月15日:论文提交截止

2025年7月1日:论文录用通知

2025年8月22日:研讨会日期

数据集描述

训练集

训练集(Train)包含11 种语言:英语(en)、法语(fr)、德语(de)、意大利语(it)、葡萄牙语(pt)、西班牙语(es)、日语(jp)、韩语(ko)、俄语(ru)、泰语(th)、越南语(vi)。

每段录音均由两位说话者就随机分配的主题进行对话。

对话自然流畅,说话者就每个主题进行有意义的对话。

使用 iPhone 等设备在安静的室内环境中录制。

每段录音都将为语音识别和说话者日志系统的开发提供真实时间戳标注和说话者标签。

任务I和任务II共享相同的训练集。

英语数据集包含来自不同地区的约 500 小时录音,包括美国、英国、澳大利亚、印度和菲律宾英语。其他语言各贡献约100小时,总共约 1500 小时的多语言对话语音数据。

语言
数据量(h)
采样率
英语-美式英语 100 16K
覆盖5个不同口音说英语,发音人来自美国、英国、菲律宾、澳大利亚、印度。性别、年龄多样,自然对话风格,标注词准确率98%
英语-英式英语 100 16K
覆盖5个不同口音说英语,发音人来自美国、英国、菲律宾、澳大利亚、印度。性别、年龄多样,自然对话风格,标注词准确率98%
英语-菲律宾英语 100 16K
覆盖5个不同口音说英语,发音人来自美国、英国、菲律宾、澳大利亚、印度。性别、年龄多样,自然对话风格,标注词准确率98%
英语-澳大利亚英语 100 16K
覆盖5个不同口音说英语,发音人来自美国、英国、菲律宾、澳大利亚、印度。性别、年龄多样,自然对话风格,标注词准确率98%
英语-印度英语 100 16K
覆盖5个不同口音说英语,发音人来自美国、英国、菲律宾、澳大利亚、印度。性别、年龄多样,自然对话风格,标注词准确率98%
法语 100 16K
手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率98%
德语 100 16K
手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率98%
意大利语 100 16K
手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率98%
日语 100 16K
手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注句准确率95%
韩语 100 16K
手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注句准确率95%
欧洲葡萄牙语 100 16K
手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率98%
俄语 100 16K
手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率98%
西班牙西班牙语 100 16K
手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率98%
泰语 100 16K
手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率97%
越南语 100 16K
手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率98%

开发集

开发集 (Dev) 与训练集设置相同,但每种语言包含约 4 小时的录音。任务I和任务II共享相同的开发集。

评估集

每个任务使用不同的评估集,分别指定为 Eval_1 和 Eval_2。具体来说,Eval_1 包括真实时间戳标注和说话者标签,使用 WER/CER 进行评估。Eval_2 不提供时间戳或说话者标签,因此需要使用说话者日志系统在识别之前对较长的录音进行分段。

参与者可以通过签署数据使用协议并提交至报名表单来访问数据集。提交后,数据下载链接将发送到您的电子邮件。

规则

所有参与者必须遵守以下规则。

外部资源使用:对于任务I 和 任务II,允许使用外部数据集和预训练模型(包括语音基础模型和大语言模型)。所有使用的外部资源必须是公开可获取的,并且在最终系统报告中应明确标明。

数据增强:允许在发布的训练集上进行数据增强,可能包括但不限于添加噪声或混响、速度扰动和音调修改。

禁止使用评估集:严禁以任何形式使用评估集。这包括但不限于使用评估集进行微调或训练模型。

多系统融合:参与者不得在任务I 和 任务II 中使用系统融合。提交的结果必须来自单个模型,而不是通过结果融合得出。

提交要求:所有参赛者必须提交其系统。提交内容包括最终识别结果、模型以及能够直接进行推理并获得最终结果的Docker容器等文件。详细的提交说明将在基线系统发布后提供。请注意,我们将公开那些确认参与但未提交任何文件的团队及其所属机构的名称。

主办方解释权:主办方对本规则拥有最终解释权,特殊情况由主办方酌情协调解释。

其他主题

除了挑战系统内容外,还鼓励参与者提交创新发和前瞻性研究论文。主题包括但不限于:

新颖的架构和算法:开发用于训练语音语言模型的新架构和算法。

音频数据处理管线:创新音频数据处理流程,促进多样化互联网数据的收集,以便训练语音语言模型。

自然且情感丰富的语音生成:设计用于生成更加自然且富有情感表达的对话语音的算法,提升对话系统的表现。

利用多轮对话历史:利用多轮对话历史来增强识别和分离结果的技术。

评估技术和基准:评估语音语言模型的创新评估技术或基准。

新数据集:创建用于训练语音和音频语言模型的新数据集,包括真实数据和合成数据。

数据访问和使用

已注册的参与者将有权访问训练和测试数据集。他们必须签署数据使用协议(见下文)、同意保密并遵守数据保护协议。数据集仅用于本次研讨会竞赛,严禁重新分发或任何其他用途。参与者有责任保护数据免受未经授权的访问。

数据许可协议 Data use agreement - nexdata

注册说明

参与者需进行注册。请上传已签署的数据使用协议并填写注册表单(谷歌表单或腾讯表单)。挑战赛将于2025年3月10日开始。

填写谷歌表单 填写腾讯表单

如需了解其他与注册相关的信息,请发送邮件至:
mlc-slmw@nexdata.ai

联系方式

基线系统

排行榜提交

论文提交指引

1.竞赛论文:
a.参赛者必须提交一篇简短的技术描述论文(同时参与两个任务的参赛者仅提交一篇论文即可)。
b.长度:2-4页正文+1页参考文献。
c.内容要求:
  i. 清晰的系统描述,以评估提交结果是否正确、合规。
  ii. 可复现的细节,包括使用的开源数据集和模型、数据增广策略、模型结构、训练配置等。
  iii. 消融实验结果,以验证方法的有效性。
d.所有参赛者都需要在研讨会上进行口头或者海报展示。
2.非竞赛论文:
a.长度:4页正文+ 1页参考文献。
b.主题:包括但不限于研讨会网站中罗列的主题。
3.作者工具包:
请使用提供的Interspeech 2022 LaTeX作者工具包 (https://www.interspeech2022.org/files/IS2022_paper_kit.zip) 提交所有论文。请注意,我们使用Interspeech 2022作者工具包以确保单盲评审。
4.提交平台
a.通过 CMT 会议系统 提交论文。
b.本次会议的同行评审流程由微软 CMT 服务管理。该服务由微软免费提供,所有费用由微软承担,包括 Azure 云服务以及软件开发和支持的费用。

奖项

奖金总额: 20,000美金(华为技术有限公司赞助)

本次比赛优秀团队奖金(每项任务):

第一名:5,000 美金

第二名:3,000 美金

第三名:2,000 美金

竞赛成绩

MLC-SLM Task I
Username
WER/CER
No.
Team Name
Institution
tenp1
9.6
1
TENP
Tencent Ethereal Audio Lab
sixteen-years
9.67
2
sixteen-years
Chinese Academy of Sciences
t-asr
9.83
3
T-ASR
SHENZHEN TRANSSION HOLDINGS CO.,LTD.
megaais
10.08
4
MegaAIS
Megatronix (Beijing) Technology Co., Ltd.
maxiaoai
10.56
5
MaXiaoAl
Mashang Consumer Finance Co., Ltd. (MSCF)
ntu_speechlab
10.58
6
NTU-Speechlab
Nanyang Technological University
cheryfsai
11.27
7
Cheryfs-AI
Chery HuiYin Motor Finance Service Co., Ltd.
seewo
11.57
8
seewo
Guangzhou Shirui Electronics Co., Ltd.
daominhtri
11.71
9
Cake By VPBank
Cake By VPBank
maybe
11.76
10
May
Shanghai Normal University
MLC-SLM Task II
Username
tcpWER/tcpCER
No.
Team Name
Institution
megaais
16.53
1
MegaAIS
Megatronix (Beijing) Technology Co., Ltd.
tenp1
17.49
2
TENP
Tencent Ethereal Audio Lab
seewo
17.67
3
seewo
Guangzhou Shirui Electronics Co., Ltd.
duke_kunshan
18.08
4
DKU
Duke Kunshan University
sixteen-years
19.27
5
sixteen-years
Chinese Academy of Sciences
cheryfsai
26.3
6
Cheryfs-AI
Chery HuiYin Motor Finance Service Co., Ltd.
saengthong
27.25
7
ST-ShinozakiLab
Institute of Science Tokyo
fosafer
31.68
8
FOSAFER_
RESEARCH
Beijing Fosafer Information Technology Co., Ltd.
voicecode
55.96
9
VoiceCode
VOICECODE TECHNOLOGY PTE. LTD.
517517
59.4
10
INFX
Zhejiang University

注意:此次成绩公示仅列出每项任务的前 10 个队伍结果,如需查询团队成绩请联系组委会。

地点

荷兰鹿特丹,鹿特丹阿霍伊会议中心14号码头

参加研讨会的注册费

注册费用:50欧元

组委会

冯俊兰,IEEE Fellow及首席科学家,中国移动(中国)

Eng-Siong Chng,教授,南洋理工大学(新加坡)

谢磊,教授,西北工业大学(中国)

Khalid Choukri,秘书长,欧洲语言资源协会(法国)

王帅,研究科学家,南京大学(中国)

肖龙帅,华为技术有限公司(中国)

Shinji Watanabe,副教授,卡内基梅隆大学(美国)

丰强泽,联合创始人兼数据科学家,Datatang(中国)

王大亮,数据科学家,Datatang(中国)

刘和鑫,博士后,南洋理工大学(新加坡)

郭鹏程,博士研究生,西北工业大学(中国)

穆秉甡,博士研究生,西北工业大学(中国)

孙照凯,硕士研究生,西北工业大学(中国)

媒体合作伙伴