语音交互基础知识(语言唤醒、语音识别、语音理解和语音合成)

语音交互基础知识(语言唤醒、语音识别、语音理解和语音合成),第1张

目前的语音技术能力主要包含了四个方面:语音唤醒、语音识别、语音理解和语音合成

语音唤醒

语音唤醒指在待机的状态下,用户说出特定指令(唤醒词)使设备进入工作状态或完成某一操作;当前更多应用于手机、可穿戴设备、车载设备、智能家居等。

1、常见两种唤醒方式:“一呼一答”和“唤醒词+命令词”;即多轮对话(一次唤醒、一个任务、多轮交互)和连续对话(一次唤醒、多个任务,无需唤醒)

2、唤醒词设计原则:易唤醒、低误唤醒 、品牌性、易记易读性

3、华为和苹果手机语言助手唤醒交互:

· 手机的语音助手都是基于特定的人识别,非用户本人无法用同样的唤醒词唤醒手机语音指令,

· 采取的唤醒方式均为“一呼一答”

· 唤醒词设计,华为的“我的荣耀”基于品牌调性,但易读性不强

· 在语音交互过程中,用问答的方式给到用户强反馈,单纯的铃声不足以引起用户触达,通常情况下用户使用语音是在不方便查看手机或者有其他干扰的情况下的。

语音识别

语音识别技术,也被称为 自动语音识别 Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

1、语音识别包括两个阶段 :训练和识别。

训练阶段:收集大量的语音语料,经过预处理和特征提取后得到特征矢量参数,最后通过特征建模达到建立训练语音的参考模型库的目的。

识别阶段:将输入语音的特征矢量参数和参考模型库中的参考模型 进行相似性度量比较,把相似性最高的输入特征矢量作为识别结果输出。

2、语音识别对象:特定人识别(手机语音助手,设定只识别手机用户个人的声音)、非特定人识别(语音搜索,识别搜索词)。

特定人识别是指识别对象为专门的人,非特定人识别是指识别对象是针对大多数用户,一般需要采集多个人的语音进行录音和训练,经过学习,达到较高的识别率。

3、基于现有技术开发嵌入式语音交互系统,目前主要有两种方式:

一种是直接在嵌入式处理器中调用语音开发包;另一种是嵌入式处理器外围扩展语音芯片。第一种方法程序量大,计算复杂,需要占用大量的处理器资源,开发周期长;

第二种方法相对简单,只需要关注语音芯片的接口部分与微处理器相连,结构简单,搭建方便,微处理器的计算负担大大降低,增强了可靠性,缩短了开发周期。

语音理解

语义理解是指机器能够结合上下文,自然地理解用户的需求,并能给出正确以及人性化的反馈。

语音合成

语音合成是通过机械的,电子的方法产生人造语音技术。语音合成的关键点是真人音色模拟,一致性、流畅性、稳定和有情感。

语音合成,又称 文语转换(Text to Speech)技术 ,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、 数字信号处理 、计算机科学等多个学科技术,是 中文信息处理 领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

TTS结构

语言处理

在文语转换系统中起着重要的作用,主要模拟人对自然语言的理解过程——文本规整、词的切分、 语法分析 和 语义分析 ,使计算机对输入的文本能完全理解,并给出后两部分所需要的各种发音提示。

韵律处理

为合成语音规划出音段特征,如音高、音长和音强等,使合成语音能正确表达语意,听起来更加自然。

声学处理

根据前两部分处理结果的要求输出语音,即合成语音。

在语音聊天中,星星、月亮和太阳通常被用作表达不同的情感和意义。星星通常代表喜欢、爱慕或欣赏的感觉,表示对对方的赞美、喜爱和钦佩。因为星星在天空中闪烁,所以它们也可以表示闪烁的灿烂和不可思议的美丽。月亮通常代表浪漫的情感、温柔的爱和感性的情感。它可以表示对对方的深情、柔情和渴望。因为月亮在晚上的天空中导航和指引,所以它也可以象征指引和信仰。太阳通常代表希望、勇气和灵性力量。它可以表示对对方的信任、支持和鼓励。因为太阳是每天的明亮之源,所以它也可以象征希望和灵魂的深度。

情感因素对英语听力的影响如下:

1、注意力:情感状态会影响到听力者的注意力。当听力者情绪低落时,他们的注意力会分散,导致他们无法集中精力听取英语语音。相反,当听力者情绪高涨时,他们的注意力会更加集中,从而更容易理解和记忆英语语音。

2、接受能力:情感状态还会影响听力者的接受能力。当听力者情绪低落时,他们的接受能力会降低,导致他们难以理解和记忆英语语音。相反,当听力者情绪高涨时,他们的接受能力会增强,从而更容易理解和记忆英语语音。

3、情感态度:情感态度也会影响听力者对英语语音的理解和记忆。当听力者对英语语音持积极态度时,他们更容易理解和记忆英语语音。相反,当听力者对英语语音持消极态度时,他们可能会忽略一些重要的语音信息,从而导致理解和记忆困难。

4、情感反应:听力者的情感反应也会影响他们的听力。当听力者情绪低落时,他们可能会对某些英语语音产生负面的情感反应,从而导致理解和记忆困难。相反,当听力者情绪高涨时,他们可能会对某些英语语音产生积极的情感反应,从而更容易理解和记忆。情感因素是指影响人的情感状态和行为的各种因素,包括个体的性格、价值观、情绪、社会交往、文化背景、经历等。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/7991962.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-09-07
下一篇2023-09-07

发表评论

登录后才能评论

评论列表(0条)

    保存