zh

姓名格式错误

公司名称格式错误

数据堂严格遵守用户隐私条款,您所填写的信息我们会严格保密,请放心填写~

语音交互技术通识整理

来源: 数据堂

语音识别

一般简称ASRAutomatic Speech Recognition,是将声音转化为文字的过程,相当于人类的耳朵。

声纹识别:与人独一无二的虹膜、指纹一样,每个人的声纹也是独有的

语音识别原理流程:输入——编码——解码——输出

语音识别的评价指标——识别率

远场语音识别(Farfield Voice Recognition),远场语音识别,简称远场识别,口语中可更简化为“远场”

语音激活检测(voice active detectionVAD

语音唤醒 (Keyword Spotting,简称KWS;或Voice TriggerVT

唤醒模式

【传统模式】先唤醒设备,等设备反馈后(提示音或亮灯),用户认为设备被唤醒了,再发出语音控制命令,缺点在于交互时间长;

One-shot】直接将唤醒词和工作命令一同说出,如“小雅小雅,我想听周杰伦的歌”;

Zero-shot】将常用用户指令设置为唤醒词,达到用户无感知唤醒,例如直接对车机说“导航到XX大厦”。

【多唤醒】主要满足用户个性化的需求,给设备起多个名字。

唤醒评价指标

【唤醒率】叫AI的时候,ta成功被唤醒的比率(注:喊ta的时候,ta不答应,叫做漏报)

【误唤醒率(误报)】没叫AI的时候,ta自己跳出来讲话的比率;

【唤醒词的音节长度】一般技术上要求,最少3个音节,如果音节太短,一般误唤醒率会比较高,小米的小爱音箱唤醒词“小爱同学”就是四个音节。

【唤醒响应时间】

【功耗(要低)】

【语音识别和语音唤醒的本地/云端策略】

麦克风阵列(Microphone Array

全双工(FullDuplex

【单工】ab说话,b只能听a

【半双工】参考对讲机,A:能不能听到我说话,overB:可以可以,over

【全双工】参考打电话,A:哎,老王啊!balabala……;Bbalabala……

纠错

【用户主动纠错】比如用户语音说“我们今天,不对,明天晚上吃啥?”,经过云端的自然语言理解过程,可以直接显示用户真正希望的结果“我们明天晚上吃啥”

AI来主动纠错】有3种方式,一是本地为主,二是本地+云端,三是云端为主

自然语言处理

一般简称NLPNatural Language Processing,是理解和处理文字的过程,相当于人类的大脑。通俗解释就是,让计算机能够理解和生成人类语言。

NLP里细分领域和技术实在太多,根据NLP的终极目标,大致可以分为自然语言理解(NLU)和自然语言生成(NLG)两种。

大致来说,NLP可以分为以下几个领域

【文本检索】多用于大规模数据的检索,典型的应用有搜索引擎

【机器翻译】跨语种翻译,该领域目前已较为成熟。目前谷歌翻译已用上机翻技术

【文本分类/情感分析】

【信息抽取】从不规则文本中抽取想要的信息,包括命名实体识别、关系抽取、事件抽取等。应用极广。

【序列标注】给文本中的每一个字/词打上相应的标签。是大多数NLP底层技术的核心,如分词、词性标注、关键词抽取、命名实体识别、语义角色标注等等。曾是HMMCRF的天下,近年来逐步稳定为BiLSTM-CRF体系。

【文本摘要】从给定的文本中,聚焦到最核心的部分,自动生成摘要。

【问答系统】接受用户以自然语言表达的问题,并返回以自然语言表达的回答。常见形式为检索式、抽取式和生成式三种。近年来交互式也逐渐受到关注。典型应用有智能客服

【对话系统】与问答系统有许多相通之处,区别在于问答系统旨在直接给出精准回答,回答是否口语化不在主要考虑范围内;而对话系统旨在以口语化的自然语言对话的方式解决用户问题。对话系统目前分闲聊式和任务导向型。前者主要应用有siri、小冰等;后者主要应用有车载聊天机器人。(对话系统和问答系统应该是最接近NLP终极目标的领域)

【知识图谱】从规则或不规则的文本中提取结构化的信息,并以可视化的形式将实体间以何种方式联系表现出来。图谱本身不具有应用意义,建立在图谱基础上的知识检索、知识推理、知识发现才是知识图谱的研究方向

【文本聚类】一个古老的领域,但现在仍未研究透彻。从大规模文本数据中自动发现规律。核心在于如何表示文本以及如何度量文本之间的距离

所涉及的基本技术

【分词】基本算是所有NLP任务中最底层的技术。不论解决什么问题,分词永远是第一步

【词性标注】判断文本中的词的词性(名词、动词、形容词等等),一般作为额外特征使用

【句法分析】分为句法结构分析和依存句法分析两种

【词干提取】从单词各种前缀后缀变化、时态变化等变化中还原词干,常见于英文文本处理

【命名实体识别】识别并抽取文本中的实体,一般采用BIO形式

【指代消歧】文本中的代词,如“他”“这个”等,还原成其所指实体

【关键词抽取】提取文本中的关键词,用以表征文本或下游应用

【词向量与词嵌入】把单词映射到低维空间中,并保持单词间相互关系不变。是NLP深度学习技术的基础

【文本生成】给定特定的文本输入,生成所需要的文本,主要应用于文本摘要、对话系统、机器翻译、问答系统等领域……

常用算法

tfidfBM25TextRankHMMCRFLSI、主题模型、word2vecGloVeLSTM/GRUCNNseq2seqAttention

语音合成

一般简称TTSText-To-Speech,是将文字转化为语音(朗读出来)的过程,相当于人类的嘴巴(和ASR是相反的)

实现方法

拼接法+参数法

评判标准

主观测试(自然度),以MOS为主

MOSMean Opinion Scores),专家级评测(主观);1-5分,5分最好

ABX,普通用户评测(主观)

客观测试

对合成系统产生的声学参数进行评估,一般是计算欧式距离等(RMSELSD

对合成系统工程上的测试:实时率(合成耗时/语音时长)、首包响应时间(用户发出请求到用户感知到的第一包到达时间)、内存占用、CPU占用、3*24小时crash率等。


(部分内容摘自网络,如有侵权,请联系删除。)

info

354