zh

姓名格式错误

公司名称格式错误

数据堂严格遵守用户隐私条款,您所填写的信息我们会严格保密,请放心填写~

人机语音交互技术概述

来源: 数据堂


1 导言

2013年上映的美国电影《Her》中,女主角“Her”是一个人工智能操作系统,没有物理实体,只是通过语音、文字、图形等方式和男主角交互。“Her”给了孤独内向的男主角精神的慰藉,甚至和男主角发生了爱情。这部电影当然只是人类对未来人机语音交互的美好想象,但是我们正在向这个方向努力。智能音响、手机语音助手、电脑语音助手、自助语音客服等应用嵌入到我们的生活工作中,已经慢慢成为现在和未来的一部分。


自从1946年第一台电子计算机诞生,尤其是1956年人工智能概念的提出,人机交互方式就成为人类技术进步的重要标志之一。人机交互经过了早期的手工作业阶段、作业控制语言及交互命令语言阶段、图形用户界面(GUI)阶段,目前正在进入由图形交互、触屏交互、语音交互(VUI)等多通道多媒体的智能人机交互阶段,虚拟现实(VR)、增强现实(AR)、语音语义控制等多种技术应用其中。语言,作为人类之间交互的重要方式,自然也被期望成为人类和机器交互的方式。希望通过这篇文章,从技术应用角度,向各位介绍下人机语音交互的技术方案和技术现状。


2 人机语音交互框架及关键技术


人机语音交互框架

我们先来看一个经典的人机语音交互的处理框架:

图1 人机智能语音交互处理框架

人机语音交互有五个关键处理阶段:

1.机器接收到用户语音后,首先通过语音识别(ASR)将语音(voice)转换为文本(text),并且可保留语速、音量、停顿等语音本身的特征信息。

2.然后,机器通过自然语言理解(NLU)从文本(text)中理解用户意图。

3.再然后,机器通过对话管理(DM)决策接下来的动作,并更新对话状态。

4.再然后,机器通过自然语言生成(NLG)将决策后的动作生成为回复给用户的文本(text)。

5.最后,机器通过语音合成(TTS)将回复给用户的文本(text)转换为语音(voice),完成一次交互。


 人机语音交互技术


下面我们基于人机语音交互的逻辑架构,介绍下所用到的技术及当前水平。

图2 人机语音交互逻辑架构


当今人工智能的高速发展主要得益于三个要素的进步,即算力、算法和数据。算力对应“图2”中的基础设施层,算法对应“图2”中的算法层,数据得益于互联网产生的大量数据,以及数据库对结构化和非结构化数据的大容量存储及处理。我们这篇文章重点介绍应用,后续我们再开专题介绍下算力、算法和数据。


前面我们介绍到人机语音交互的五个处理阶段,基本上对应“图2”中的能力层,下面我们分别介绍下基本原理和当前水平。


语音识别

    语音识别是人机语音交互的第一步,主要作用是将用户的语音转换为文字,以便机器的结构化处理。语音识别的处理过程图示如下:

图3 语音识别处理过程

 语音为模拟信号,需经过麦克风(阵列)等设备采样处理后成为机器可处理的数字信号;然后经过特征提取,将信号从时域转换到频域;再利用提取到的特征向量,经过模式匹配最终转化为文本。其中模式匹配环节的声学模型和语言模型决定着最终识别的效果,声学模型和语言模型均需要利用标注之后的数据进行训练得到,目前多采用监督学习算法实现,优点是准确率高,缺点是需要人工介入且工作量大。


在实际应用中,除了关注所采用的机器学习算法和软件处理外,还需要重视语音采集环节,尤其远场交互场景(例如智能音响)。语音采集是语音识别的前置条件,如果采集的语音质量不高,即使算力再充足、算法再精妙、数据量再大质量再高,最终的识别准确率也不理想。所以在一些场景下需要通过提升麦克风降噪效果、采用麦克风阵列等方式提升语音采集质量。


 深度学习算法的应用,使语音识别成为人工智能最先突破的领域之一。当前,市场主流厂商的语音识别准确率超过了人类水平,手机、电脑、降噪麦克风(阵列)等场景优化后识别准确率高于95%,电话等场景优化后识别准确率高于85%,其他语音(压缩后存储录音等场景)优化后识别准确率高于80%。


 自然语言理解

自然语言理解(NLU)是基于自然语言处理(NLP)的相关技术实现的,两者之间的关系可表现为:

图4 自然语言理解与自然语言处理关系图示


语音识别后的文本,经过分词、词性标注、命名实体识别、依存句法分析等处理,并结合情感分析等结果,对用户意图进行识别。

当前,自然语言理解是人机语音交互中较弱的一环,暂时还无法应用到全场景交互中,但是在垂直领域(金融、医疗、教育等)可用,并且可解决部分客服、销售业务。在闲聊场景中,目前智能音响的应用比较深入,多个厂商的智能音响可支持百科问答、导购交互、日常聊天等功能。


 对话管理

 对话管理控制着人机语音交互的过程,负责维护、更新对话状态,并决策接下来的动作。下面这个图很好的说明了对话管理的作用:

图5 对话管理输入输出


对话管理(DM)接收来自于自然语言理解(NLU)的语义结果,并结合当前的语义环境(上下文环境),基于预设的对话状态,决策接下来的动作,并对语义环境进行更新,然后循环往复,直到结束交互。预设的对话状态即对话规则,例如对话流程、动作判断等多种形式的结合。


 由于语音交互的复杂性和随机性,导致对话管理难度很大。具体表现为预设对话状态的主观性、多轮对话的容错性、偏离对话状态的合理化处理、多场景切换与恢复等。和自然语言理解类似,当前对话管理在垂直领域和闲聊的部分场景应用较好,但是要应用到全场景交互中,挑战同样非常大。


自然语言生成

    自然语言生成(NLG)可视作语言理解(NLU)的逆过程,将向用户传达的概念、知识、数据、意图等信息转化为语言(文本),自然语言生成(NLG)一般包括6个步骤,如下图所示:

图6 自然语言生成步骤


内容确定作用是决定哪些信息需包含在正在构建的文本中,文本结构作用是决定合理的组织文本顺序,句子聚合作用是决定在单个句子中呈现的信息,语法化作用是找到合适的单词和短语来表达信息,参考表达式生成作用是识别需表达内容的领域并使用该领域词汇,语言实现作用是将所有的单词和短语组成格式良好的句子。


当前,人机语音交互中还未实现完全自动化的自然语言生成,在实际应用中多采用预先设计的文本模板来生成文本输出,例如在查询银行卡余额时,预设文本“您查询的银行卡余额为【金额】元”。


语音合成

语音合成(TTS)是人机语音交互的出口,目的是将自然语言生成后的文本或预设文本转换为语音,播报给用户。合成语音的自然度直接关系到交互体验。


语音合成的原理比较复杂,但是目前的技术和应用都很成熟。市场主流厂商中英文的语音合成效果超过了人类水平,中文自然度MOS值可达到4.5左右,英文自然度MOS值可达到4.2左右(人类平均水平为4.0)。


 在实际使用过程中,为了达到比较好的效果,也采用人工录音和语音合成结合的方式,预设的固定文本部分采用人工录音方式,动态变化部分采用语音合成方式。例如上述的“您查询的银行卡余额为【余额】元”,其中动态变化的“【余额】”采用语音合成方式,其余部分采用人工录音方式。


其他技术

 除了以上技术,还有一些技术也广泛应用于人机语音交互中,例如声纹识别、知识图谱等。


声纹识别是一种根据说话人语音波形识别说话人身份的生物识别技术。相比于人脸识别、虹膜识别、指纹识别等技术,声纹识别可以进行远程身份识别,用户不必和生物特征采集设备接触,即可完成识别过程。声纹识别的应用可分为身份确认(SV)和身份辨识(SI),身份确认(SV)是指根据一段语音确认是否为目标用户,是1:1比对的过程;身份辨识(SI)是指根据一段语音从一个集合中选取最匹配的用户,是1:N判别的过程。在智能音响中,可采用声纹识别进行用户身份识别(爸爸、妈妈、孩子),针对不同用户提供个性化服务。


 知识图谱是一种描述知识实体、实体与实体之间关联的结构化知识管理技术。知识图谱相比于传统的知识管理技术,能够将零散的知识有效聚合起来,方便检索、提取、调用、管理。知识图谱在人机语音交互中的应用,可以有效提升知识检索、知识生成的速度和准确度,如果结合自然语言生成技术,提供给用户的结果也更接近于人类表达。


(部分内容摘自网络,如有侵权,请联系删除。)

92

352