语音交互基础知识（语言唤醒、语音识别、语音理解和语音合成）2024年_知识

目前的语音技术能力主要包含了四个方面：语音唤醒、语音识别、语音理解和语音合成

语音唤醒

语音唤醒指在待机的状态下，用户说出特定指令（唤醒词）使设备进入工作状态或完成某一操作；当前更多应用于手机、可穿戴设备、车载设备、智能家居等。

1、常见两种唤醒方式：“一呼一答”和“唤醒词+命令词”；即多轮对话（一次唤醒、一个任务、多轮交互）和连续对话（一次唤醒、多个任务，无需唤醒）

2、唤醒词设计原则：易唤醒、低误唤醒、品牌性、易记易读性

3、华为和苹果手机语言助手唤醒交互：

· 手机的语音助手都是基于特定的人识别，非用户本人无法用同样的唤醒词唤醒手机语音指令，

· 采取的唤醒方式均为“一呼一答”

· 唤醒词设计，华为的“我的荣耀”基于品牌调性，但易读性不强

· 在语音交互过程中，用问答的方式给到用户强反馈，单纯的铃声不足以引起用户触达，通常情况下用户使用语音是在不方便查看手机或者有其他干扰的情况下的。

语音识别

语音识别技术，也被称为自动语音识别 Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

1、语音识别包括两个阶段：训练和识别。

训练阶段：收集大量的语音语料，经过预处理和特征提取后得到特征矢量参数，最后通过特征建模达到建立训练语音的参考模型库的目的。

识别阶段：将输入语音的特征矢量参数和参考模型库中的参考模型进行相似性度量比较，把相似性最高的输入特征矢量作为识别结果输出。

2、语音识别对象：特定人识别（手机语音助手，设定只识别手机用户个人的声音）、非特定人识别（语音搜索，识别搜索词）。

特定人识别是指识别对象为专门的人，非特定人识别是指识别对象是针对大多数用户，一般需要采集多个人的语音进行录音和训练，经过学习，达到较高的识别率。

3、基于现有技术开发嵌入式语音交互系统，目前主要有两种方式：

一种是直接在嵌入式处理器中调用语音开发包；另一种是嵌入式处理器外围扩展语音芯片。第一种方法程序量大，计算复杂，需要占用大量的处理器资源，开发周期长；

第二种方法相对简单，只需要关注语音芯片的接口部分与微处理器相连，结构简单，搭建方便，微处理器的计算负担大大降低，增强了可靠性，缩短了开发周期。

语音理解

语义理解是指机器能够结合上下文，自然地理解用户的需求，并能给出正确以及人性化的反馈。

语音合成

语音合成是通过机械的，电子的方法产生人造语音技术。语音合成的关键点是真人音色模拟，一致性、流畅性、稳定和有情感。

语音合成，又称文语转换（Text to Speech）技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。

TTS结构

语言处理

在文语转换系统中起着重要的作用，主要模拟人对自然语言的理解过程——文本规整、词的切分、语法分析和语义分析，使计算机对输入的文本能完全理解，并给出后两部分所需要的各种发音提示。

韵律处理

为合成语音规划出音段特征，如音高、音长和音强等，使合成语音能正确表达语意，听起来更加自然。

声学处理

根据前两部分处理结果的要求输出语音，即合成语音。

情动唤醒（Emotional arousal）SPA是一种特定的SPA（Single-Page Application，单页面应用程序）设计模式。SPA是一种Web应用程序的架构模式，它通过使用动态加载的内容和异步数据交互，使用户能够在单个页面上无刷新地进行导航和操作。

情动唤醒SPA是在传统SPA模式的基础上添加了情感触发机制。它通过监测用户的情感状态或行为，根据用户的情感反馈动态地调整和呈现内容，以提供更加个性化和情感化的用户体验。这种设计模式旨在通过情感识别和情感响应来增强用户与应用程序之间的情感互动，以满足用户的情感需求，并提供更具共鸣和情感连接的用户体验。

具体来说，情动唤醒SPA可能利用情感识别技术（如面部表情识别、语音情感识别等）来感知用户的情感状态，并基于这些情感状态调整应用程序的界面、内容或交互方式，以更好地满足用户的情感需求。这样的设计可以使应用程序更加智能、敏感和亲密，进一步提升用户的参与度和满意度。

需要注意的是，情动唤醒SPA可能是一种概念或实验性的设计模式，并不一定在所有SPA应用程序中得到广泛应用。具体实现和应用方式可能会因开发者和应用场景而异。

自然语言处理是指利用人类交流所使用的自然语言与机器进行交互通讯的技术。

自然语言处理（Natural Language Processing，简称 NLP）是计算机科学、人工智能和语言学的交叉学科，旨在让计算机能理解和生成人类语言。它是计算机程序能够读懂、理解和生成人类语言的技术。

自然语言处理涵盖了语音识别、语音合成、自然语言理解、机器翻译、文本分类和情感分析等多个方面。

语音识别技术使计算机能够识别语音并将其转换为文本，在智能语音助手、智能音箱、智能家居控制等场景中有广泛应用。语音合成技术则使计算机能够生成语音，在语音助手、智能家居、汽车导航系统等场景中有广泛应用。

自然语言理解技术使计算机能够理解人类语言的语义，在问答系统、智能客服、搜索引擎、智能家居等场景中有广泛应用。

机器翻译技术使计算机能够自动翻译文本和语音，在移动应用、网站和跨境电商中广泛应用。

文本分类和情感分析技术使计算机能够自动分类和分析文本中的情感，在新闻聚合、社交媒体监测、客户反馈分析等场景中有广泛应用。这些技术的应用可以帮助企业更好地了解客户需求和市场趋势，提高市场营销和客户服务的效率和质量。

自然语言处理技术的发展也会带来一些挑战和问题，比如数据隐私和安全问题、道德和伦理问题等。在未来，自然语言处理技术将在更多领域得到广泛应用，改变我们的生活和工作方式。

欢迎分享，转载请注明来源：浪漫分享网

原文地址:https://hunlipic.com/qinggan/3979865.html

语音交互基础知识（语言唤醒、语音识别、语音理解和语音合成）

发表评论

评论列表（0条）