中文语音识别系统搭建流程笔记2024年_知识

标签：ASR， Python， Keras， CTC

最近在自己动手搭建一个中文语音识别系统，因为也是入门阶段，所以比较吃力，直到在GitHub上找到了一个已经在做的开源工程，找到了做下去的动力，附上原作者项目的GitHub地址： A Deep-Learning-Based Chinese Speech Recognition System

这位作者人非常好，给予了我不少启发。那么在这里也附上我自己工程的地址： ASR

现在工程还处于起步阶段，虽然跑出了一些结果，但并不是很出色，仍旧在做一些调整，有不错的结果的时候就去更新GitHub，那现在就以本文来梳理一下搭建的思路。

在最开始，先介绍一下我使用的数据集。

我所使用的数据集是清华大学THCHS30中文语音数据集。

data_thchs30tgz OpenSLR国内镜像 OpenSLR国外镜像

该数据集的介绍请参考 THCHS-30：一个免费的中文语料库

在该数据集中，已经分好训练集、验证集和测试集（分别在train、dev、和test文件夹中），其中训练集有10000个样例，验证集有893个样例，测试集有2495个样例，每个样例大约是10秒左右的语音段。

在thchs30这个文件夹里包含了索引性质的文件（cv和dev好像是一毛一样的）

wavtxt是音频文件的相对路径

通常来讲，语音识别常用的特征有MFCC、Fbank和语谱图。

在本项目中，暂时使用的是80维的Fbank特征，提取特征利用python_speech_features库，将特征提取后保存成npy文件。

提取特征在先前的文章中写了详细的做法：使用python_speech_features提取音频文件特征

将标签中的拼音转换成数字，例：a1为0，a2为1，以此类推。

以第一条数据为例：

lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2 zhang1 de5 di3 se4 si4 yue4 de5 lin2 luan2 geng4 shi4 lv4 de5 xian1 huo2 xiu4 mei4 shi1 yi4 ang4 ran2

转换到对应的数字列表就是：

597 910 1126 159 1121 451 191 505 1051 1209 208 215 874 939 1168 208 570 599 325 910 597 208 1072 420 1099 634 907 1140 14 829

同样，也将标签保存到npy文件中。

在该系统中我们使用的深度学习模型是由科大讯飞提出的称为全序列卷积神经网络（deep fully convolutional

neural network，DFCNN）模型，论文地址：语音识别技术的研究进展与展望

他的结构图如下所示：

对于损失函数，这里选择的是CTCLoss。

待更新

情动唤醒（Emotional arousal）SPA是一种特定的SPA（Single-Page Application，单页面应用程序）设计模式。SPA是一种Web应用程序的架构模式，它通过使用动态加载的内容和异步数据交互，使用户能够在单个页面上无刷新地进行导航和操作。

情动唤醒SPA是在传统SPA模式的基础上添加了情感触发机制。它通过监测用户的情感状态或行为，根据用户的情感反馈动态地调整和呈现内容，以提供更加个性化和情感化的用户体验。这种设计模式旨在通过情感识别和情感响应来增强用户与应用程序之间的情感互动，以满足用户的情感需求，并提供更具共鸣和情感连接的用户体验。

具体来说，情动唤醒SPA可能利用情感识别技术（如面部表情识别、语音情感识别等）来感知用户的情感状态，并基于这些情感状态调整应用程序的界面、内容或交互方式，以更好地满足用户的情感需求。这样的设计可以使应用程序更加智能、敏感和亲密，进一步提升用户的参与度和满意度。

需要注意的是，情动唤醒SPA可能是一种概念或实验性的设计模式，并不一定在所有SPA应用程序中得到广泛应用。具体实现和应用方式可能会因开发者和应用场景而异。

目前的语音技术能力主要包含了四个方面：语音唤醒、语音识别、语音理解和语音合成

语音唤醒

语音唤醒指在待机的状态下，用户说出特定指令（唤醒词）使设备进入工作状态或完成某一操作；当前更多应用于手机、可穿戴设备、车载设备、智能家居等。

1、常见两种唤醒方式：“一呼一答”和“唤醒词+命令词”；即多轮对话（一次唤醒、一个任务、多轮交互）和连续对话（一次唤醒、多个任务，无需唤醒）

2、唤醒词设计原则：易唤醒、低误唤醒、品牌性、易记易读性

3、华为和苹果手机语言助手唤醒交互：

· 手机的语音助手都是基于特定的人识别，非用户本人无法用同样的唤醒词唤醒手机语音指令，

· 采取的唤醒方式均为“一呼一答”

· 唤醒词设计，华为的“我的荣耀”基于品牌调性，但易读性不强

· 在语音交互过程中，用问答的方式给到用户强反馈，单纯的铃声不足以引起用户触达，通常情况下用户使用语音是在不方便查看手机或者有其他干扰的情况下的。

语音识别

语音识别技术，也被称为自动语音识别 Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

1、语音识别包括两个阶段：训练和识别。

训练阶段：收集大量的语音语料，经过预处理和特征提取后得到特征矢量参数，最后通过特征建模达到建立训练语音的参考模型库的目的。

识别阶段：将输入语音的特征矢量参数和参考模型库中的参考模型进行相似性度量比较，把相似性最高的输入特征矢量作为识别结果输出。

2、语音识别对象：特定人识别（手机语音助手，设定只识别手机用户个人的声音）、非特定人识别（语音搜索，识别搜索词）。

特定人识别是指识别对象为专门的人，非特定人识别是指识别对象是针对大多数用户，一般需要采集多个人的语音进行录音和训练，经过学习，达到较高的识别率。

3、基于现有技术开发嵌入式语音交互系统，目前主要有两种方式：

一种是直接在嵌入式处理器中调用语音开发包；另一种是嵌入式处理器外围扩展语音芯片。第一种方法程序量大，计算复杂，需要占用大量的处理器资源，开发周期长；

第二种方法相对简单，只需要关注语音芯片的接口部分与微处理器相连，结构简单，搭建方便，微处理器的计算负担大大降低，增强了可靠性，缩短了开发周期。

语音理解

语义理解是指机器能够结合上下文，自然地理解用户的需求，并能给出正确以及人性化的反馈。

语音合成

语音合成是通过机械的，电子的方法产生人造语音技术。语音合成的关键点是真人音色模拟，一致性、流畅性、稳定和有情感。

语音合成，又称文语转换（Text to Speech）技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。

TTS结构

语言处理

在文语转换系统中起着重要的作用，主要模拟人对自然语言的理解过程——文本规整、词的切分、语法分析和语义分析，使计算机对输入的文本能完全理解，并给出后两部分所需要的各种发音提示。

韵律处理

为合成语音规划出音段特征，如音高、音长和音强等，使合成语音能正确表达语意，听起来更加自然。

声学处理

根据前两部分处理结果的要求输出语音，即合成语音。

自然语言处理(NLP)有多种商用用途。

语音识别：在智能语音助手、智能音箱、智能家居控制等场景中，语音识别技术可以帮助用户通过语音与设备进行交互。

语音合成：可以用于语音助手、智能家居、汽车导航系统等场景，帮助用户通过语音控制和了解信息。

自然语言理解：可以用于问答系统、智能客服、搜索引擎、智能家居等场景，帮助用户理解自然语言语境，并自动提取信息。

机器翻译：在移动应用、网站和跨境电商中广泛应用，帮助用户翻译文本和语音，提高多语言交流的效率。

文本分类和情感分析：可用于新闻聚合、社交媒体监测、客户反馈分析等场景，帮助企业了解客户的需求和情绪，改善客户体验。

总之，自然语言处理技术在商业领域有着广泛的应用，包括语音识别、语音合成、自然语言理解、机器翻译、文本分类和情感分析等，能够帮助用户更好地理解和使用自然语言，并帮助企业更好地了解客户需求和情绪，提高客户体验。

1、SpeechEmotionRecognition，一个用PyTorch实现的语音情感识别模型。

2、speechpy，一个基于Python的语音信号处理库，它可以用于提取语音信号的MFCC、滤波器组、能量和零交叉率等特征。

语音识别技术的应用情况

目前的语音识别技术在以下方面仍有提升空间：多语言支持：目前大多数语音识别系统只支持英语或某些主要语言，对于少数语言的支持较差。环境噪声抵消：在复杂的环境中，如嘈杂的商场或高速公路，语音识别系统的准确性降低。

语音技术的应用已经成为一个具有竞争性的新兴高技术产业。语音识别技术发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已经大于98%，对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。

语音识别技术最常见的应用就是智能语音助手，如“小度在家”和“小爱同学”，它们可以帮助用户完成语音指令的识别、语音合成和自然语言理解等复杂工作。

就是VoiceUI在KeyUI的边上加上一个VoiceUI。

自动语音识别的应用说明

自动语音识别功能ASR(AutomaticSpeechRecognition)即语音识别技术，是指将人说话的语音信号转换为可被计算机程序所识别的文字信息，从而识别说话人的语音指令以及文字内容的技术。

语音识别应用场景有下面几个方面语音输入摆脱生僻字和拼音障碍，使用语音即时输入。略带口音的普通话、粤语四川话方言、英文，均可有效识别，并可根据句意自动纠错、自动断句添加标点，让输入更快捷，沟通交流更顺畅。

语音质检语音质检普遍被应用在智能外呼和客服领域。

语音识别技术的应用非常广泛，可以用于智能客服、智能家居、智能导航、智能汽车等领域。它可以帮助人们更快更准确地完成任务，提高工作效率。此外，它还可以用于语音识别软件，帮助人们更快更准确地输入文字，提高工作效率。

有好用的语音导览器介绍吗

您可以使用腾讯路宝，可以语音导航的！路宝产品的一个显著特征是，腾讯在与汽车厂商合作的基础上研发了“驾驶行为打分功能”。

讲解器语音导览。由一名解说员佩戴讲解器发射器带领一群佩戴接收器的参观者。以上第三，第四种方式大多都在室内展览，如博物馆、展览馆等，而讲解器室内室外皆适用。

博物馆讲解器将尽可能多地为博物馆提供导览服务。为了把有限的资源用在“刀刃”上，蓝牙团队讲解器进驻的场馆都经过筛选，体现历史文化价值、展品内容丰富的场馆成为优选。

团队语音导览，针对团队接待参观。团队语音导览，顾名思义便是针对有接待需求的展馆/景区，有专门的讲解员进行接待。

现在很多手机浏览器都支持语音呀，UC，QQ，海豚等，不过我觉得还是UC浏览器做得最好，用了很多年，习惯了也很好用。

旅游领域：在旅游领域，小鱼易连可以用于导游与游客之间的语音导览、景点介绍等。教育领域：在教育领域，小鱼易连可以用于学生之间的语音交流、教师与学生之间的语音互动等。

语音识别可以应用到哪些场景

1、此外，在智能家居领域，语音识别技术也得到了广泛应用，智能音箱可以通过语音指令控制家电，实现智能家居的场景搭建。除此之外，语音识别技术还可以被用于语音搜索、电话客服等领域。

2、语音识别技术的应用非常广泛，可以用于智能客服、智能家居、智能导航、智能汽车等领域。它可以帮助人们更快更准确地完成任务，提高工作效率。此外，它还可以用于语音识别软件，帮助人们更快更准确地输入文字，提高工作效率。

3、文字录入是语音识别最基本的应用，一般通过语音输入法进行。这方面做得较好的有IBM、微软、科大讯飞等，很多输入法都用的是讯飞的语音识别引擎。

4、语音识别是将语音精准识别为文字，可适用于手机语音输入、智能语音交互、语音指令、语音搜索等短语音交互场景。语音识别应用场景有下面几个方面语音输入摆脱生僻字和拼音障碍，使用语音即时输入。

5、GoogleAssistant：GoogleAssistant是谷歌公司的语音识别应用，它支持多种语言，可以帮助用户完成各种任务，如打电话、查询天气预报、播放音乐等。

6、未来语音识别技术的应用前景如下：智能家居：可以控制家里的灯，电视，空调等电器。智能汽车：可以控制汽车的导航，音乐，空调等系统。医疗：可以帮助医生快速记录病人的病历，并帮助病人自我诊断。

语音识别技术原理是什么及应用

所谓模型锻炼就是指依照一定的原则，从大量已知语音形式中获取一个最具特征的模型参数。而形式匹配则相反，是依据一定原则，将未知语音形式与模型库中的某一个模型取得最佳匹配。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。

语音识别技术是一种将语音转换为文本的技术。它通常包括两个主要步骤：语音预处理和语音识别。语音预处理步骤包括语音信号的采集、降噪、分帧、特征提取等操作。

语音识别技术，目标是将人类的语音中的词汇内容转换为计算机可读的输入。

语音识别控制系统是什么

1、语音控制系统可以用语言完成传统的按键操作，可以让驾驶员眼睛向前看，手不离方向盘，从而保证更高的安全性。语音控制功能是否好用，取决于语音识别的程度。

2、智能语音控制系统是什么原理1语音采集模块主要完成信号调理和信号采集等功能，它将原始语音信号转换成语音脉冲序列，因此该模块主要包括声/电转换、信号调理和采样等信号处理过程。

3、语音识别：给机器装上耳朵，使其能够听懂人的语音指令。智能语音识别系统：能够对语音识别到的信息进行进一步的处理，一般来说是将语音识别、NLP自然语言理解、知识库三方面与应用向结合。使用户通过自然的语言来控制相应设备。

4、语音识别控制系统是一项便利性配置，若揽胜星脉有语音识别控制系统，揽胜星脉车主可以按下方向盘上的语音按键或直接呼出，可以实现呼叫电话、控制音量、调节空调、查询路线等功能。

5、一汽-大众揽巡搭载的IQ科技互联系统是一大亮点，在消费者中得到了充分地认可。这个系统拥有着强大的语音识别控制功能，让车主可以通过自然语音与车机系统进行对话交流，系统会快速做出反应，获知客户的需求，并根据指令做出操作。

6、以下是相关介绍：定义：语音识别控制系统是一项便利性配置，若帕萨特有语音识别控制系统，帕萨特车主可以按下方向盘上的语音按键或直接呼出，可以实现呼叫电话、控制音量、调节空调、查询路线等功能。

欢迎分享，转载请注明来源：浪漫分享网

原文地址:https://hunlipic.com/qinggan/7474452.html

中文语音识别系统搭建流程笔记

发表评论

评论列表（0条）