浅谈语音识别技术论文2024年_知识

　语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务，对任何事都能够通过语音交互的方式。我整理了浅谈语音识别技术论文，欢迎阅读!

浅谈语音识别技术论文篇一

　语音识别技术概述

　作者：刘钰马艳丽董蓓蓓

　摘要：本文简要介绍了语音识别技术理论基础及分类方式，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别技术的发展前景和应用。

　关键词：语音识别;特征提取;模式匹配;模型训练

　Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to faceThen,the developing prospect ion and application of the speech-identification technology are discussed in the last part

　Keywords:Speech identification;Character Pick-up;Mode matching;Model training

　一、语音识别技术的理论基础

　语音识别技术：是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解)，其最终目标是实现人与机器进行自然语言通信。

　不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外，还涉及到语音识别单元的选取。

　(一) 语音识别单元的选取

　选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

　单词(句)单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

　音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。

　音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。

　(二) 特征参数提取技术

　语音信号中含有丰富的信息，但如何从中提取出对语音识别有用的信息呢特征提取就是完成这项工作，它对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。对于非特定人语音识别来讲，希望特征参数尽可能多的反映语义信息，尽量减少说话人的个人信息(对特定人语音识别来讲，则相反)。从信息论角度讲，这是信息压缩的过程。

　线性预测(LP)分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。

　Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。

　也有研究者尝试把小波分析技术应用于特征提取，但目前性能难以与上述技术相比，有待进一步研究。

　(三)模式匹配及模型训练技术

　模型训练是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，而模式匹配则是根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。

　语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络 (ANN)。

　DTW是较早的一种模式匹配和模型训练技术，它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统，目前已被HMM模型和ANN替代。

　HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性，其中一个是隐蔽的(不可观测的)具有有限状态的Markor链，另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样，语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述，而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点，HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数，简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数，简称CHMM)以及半连续隐马尔可夫模型(SCHMM，集DHMM和CHMM特点)。一般来讲，在训练数据足够的，CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法，并不断被完善，以增强HMM模型的鲁棒性。

　人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统，模拟了人类神经元活动的原理，具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的，但ANN又不个有HMM模型的动态时间归正性能。因此，现在已有人研究如何把二者的优点有机结合起来，从而提高整个模型的鲁棒性。

　二、语音识别的困难与对策

　目前，语音识别方面的困难主要表现在：

　(一)语音识别系统的适应性差，主要体现在对环境依赖性强，即在某种环境下采集到的语音训练系统只能在这种环境下应用，否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应，使用不方便。

　(二)高噪声环境下语音识别进展困难，因为此时人的发音变化很大，像声音变高，语速变慢，音调及共振峰变化等等，这就是所谓Lombard效应，必须寻找新的信号分析处理方法。

　(三)语言学、生理学、心理学方面的研究成果已有不少，但如何把这些知识量化、建模并用于语音识别，还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

　(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次，把这方面的现有成果用于语音识别，还有一个艰难的过程。

　(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决，识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

　三、语音识别技术的前景和应用

　语音识别技术发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已经大于98%，对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展，这些复杂的语音识别系统也已经完全可以制成专用芯片，大量生产。在西方经济发达国家，大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息，并且取得很好的结果。

　语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

　参考文献：

　[1]科大讯飞语音识别技术专栏语音识别产业的新发展企业专栏通讯世界,20072:(总l12期)

　[2]任天平,门茂深语音识别技术应用的进展科技广场河南科技,20052:19-20

　[3]俞铁城科大讯飞语音识别技术专栏语音识别的发展现状企业专栏通讯世界,20062 (总122期)

　[4]陈尚勤等近代语音识别西安: 电子科技大学出版社,1991

　[5]王炳锡等实用语音识别基础Practical Fundamentals of Speech Recognition北京:国防工业出版社,2005

　[6](美)L罗宾纳语音识别基本原理北京:清华大学出版社,1999

点击下页还有更多>>>浅谈语音识别技术论文

目前的语音技术能力主要包含了四个方面：语音唤醒、语音识别、语音理解和语音合成

语音唤醒

语音唤醒指在待机的状态下，用户说出特定指令（唤醒词）使设备进入工作状态或完成某一操作；当前更多应用于手机、可穿戴设备、车载设备、智能家居等。

1、常见两种唤醒方式：“一呼一答”和“唤醒词+命令词”；即多轮对话（一次唤醒、一个任务、多轮交互）和连续对话（一次唤醒、多个任务，无需唤醒）

2、唤醒词设计原则：易唤醒、低误唤醒、品牌性、易记易读性

3、华为和苹果手机语言助手唤醒交互：

· 手机的语音助手都是基于特定的人识别，非用户本人无法用同样的唤醒词唤醒手机语音指令，

· 采取的唤醒方式均为“一呼一答”

· 唤醒词设计，华为的“我的荣耀”基于品牌调性，但易读性不强

· 在语音交互过程中，用问答的方式给到用户强反馈，单纯的铃声不足以引起用户触达，通常情况下用户使用语音是在不方便查看手机或者有其他干扰的情况下的。

语音识别

语音识别技术，也被称为自动语音识别 Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

1、语音识别包括两个阶段：训练和识别。

训练阶段：收集大量的语音语料，经过预处理和特征提取后得到特征矢量参数，最后通过特征建模达到建立训练语音的参考模型库的目的。

识别阶段：将输入语音的特征矢量参数和参考模型库中的参考模型进行相似性度量比较，把相似性最高的输入特征矢量作为识别结果输出。

2、语音识别对象：特定人识别（手机语音助手，设定只识别手机用户个人的声音）、非特定人识别（语音搜索，识别搜索词）。

特定人识别是指识别对象为专门的人，非特定人识别是指识别对象是针对大多数用户，一般需要采集多个人的语音进行录音和训练，经过学习，达到较高的识别率。

3、基于现有技术开发嵌入式语音交互系统，目前主要有两种方式：

一种是直接在嵌入式处理器中调用语音开发包；另一种是嵌入式处理器外围扩展语音芯片。第一种方法程序量大，计算复杂，需要占用大量的处理器资源，开发周期长；

第二种方法相对简单，只需要关注语音芯片的接口部分与微处理器相连，结构简单，搭建方便，微处理器的计算负担大大降低，增强了可靠性，缩短了开发周期。

语音理解

语义理解是指机器能够结合上下文，自然地理解用户的需求，并能给出正确以及人性化的反馈。

语音合成

语音合成是通过机械的，电子的方法产生人造语音技术。语音合成的关键点是真人音色模拟，一致性、流畅性、稳定和有情感。

语音合成，又称文语转换（Text to Speech）技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。

TTS结构

语言处理

在文语转换系统中起着重要的作用，主要模拟人对自然语言的理解过程——文本规整、词的切分、语法分析和语义分析，使计算机对输入的文本能完全理解，并给出后两部分所需要的各种发音提示。

韵律处理

为合成语音规划出音段特征，如音高、音长和音强等，使合成语音能正确表达语意，听起来更加自然。

声学处理

根据前两部分处理结果的要求输出语音，即合成语音。

1、SpeechEmotionRecognition，一个用PyTorch实现的语音情感识别模型。

2、speechpy，一个基于Python的语音信号处理库，它可以用于提取语音信号的MFCC、滤波器组、能量和零交叉率等特征。

一、概念

语音识别是指将声音内容转换成文字的技术。

它是一门交叉的、非常复杂的学科，需要具备生理学、声学、信号处理、计算机科学、模式识别、语言学、心理学等相关学科的知识。

二、发展

随着科技的发展，语音识别技术在理论和应用方面都取得了重大突破，越来多的应用到了日常生活中。比如智能家居，车载娱乐，语音识别听写器、语音寻呼答疑平台、智能客服等。

三、简单应用原理

通常语音识别有两种工作模式，唤醒模式和识别模式。所谓唤醒模式，即应用处于待唤醒状态，此种状态引擎会一直在后台录音，用于判别是否有唤醒词，如果识别到唤醒词，即转为识别模式。所谓识别模式，是指我们说出的语音被转为文字以及带有特定格式的一段数据，即对于所识别到的语音进行结构化处理。处理后通常会以json的形式提供给外部应用进行再次解析处理，用于满足应用自身功能。

比如一些支持语音功能的智能家居，首先把应用唤醒（比如，小爱同学），然后说指令（比如，开空调）。语音识别引擎识别出语义，把结果（json数据）给到APP，APP把结构化的语义进行分类处理。再比如，如果想查询天气，语音说“明天天气如何”。识别引擎会根据位置信息，联网检索相关天气信息提供给APP。

注：

唤醒词：用于唤醒应用的特定语音，例如“hi，siri”，通常用户可以自定义

　　我们可以设想，在不久的将来坐在办公司里的经理会对电脑说：“嗨!伙计，帮我通知一下公司所有员工，今天下午3：00准时开会。”这是科学家在几十年前的设想，语音识别长久以来一直是人们的美好愿望，让计算机领会人所说的话，实现人机对话是发展人机通信的主要目标。进入2l世纪，随着计算机的日益普及，怎样给不熟悉计算机的人提供一个友好而又简易的操作平台，是我们非常感兴趣的问题，而语音识别技术就是其中最直接的方法之一。

　　20世纪80年代中期以来，新技术的逐渐成熟和发展使语音识别技术有了实质性的进展，尤其是隐马尔可夫模型(HMM)的研究和广泛应用，推动了语音识别的迅速发展，同时，语音识别领域也正处在一个黄金开发的关键时期，各国的开发人员正在向特定人到非特定人，孤立词汇向连接词，小词汇量向大词汇量来扩展研究领域，可以毫不犹豫地说，语音识别会让计算机变得“善解人意”，许多事情将不再是“对牛弹琴”，最终用户的口述会取代鼠标，键盘这些传统输入设备，只需要用户的嘴和麦克风就能实现对计算机的绝对控制。

　　1、隐马尔可夫模型HMM的引入

　　现在假定HMM是一个输出符号序列的统计模型，具有N个状态S1，S2⋯Sn，在一个周期内从一个状态转到另一个状态，每次转移时输出一个符号，转移到了哪个状态以及输出什么符号，分别由状态转移概率和转移时的输出概率来决定，由于只能观测到输出符号序列，不能观测到状态转移序列，因此成为隐藏的马尔可夫模型。

　　2、语音识别的特点

　　语音识别的意思是将人说话的内容和意思转换为计算机可读的输入，例如按键、二进制编码或者字符序列等。与说话人的识别不同，后者主要是识别和确认发出语音的人而非其中所包含的内容。语音识别的目的就是让机器听懂人类口述的语言，包括了两方面的含义：第一是逐字逐句听懂而不是转化成书面的语言文字；第二是对作者简介：贾聪，中国地质大学机械与电子信息学院。口述语言中所包含的命令或请求加以领会，做出正确回应，而不仅仅只是拘泥于所有词汇的正确转换。

　　3、语音识别系统的工作流程

　　一般来说，一套完整的语音识别系统其工作过程分为7步：①对语音信号进行分析和处理，除去冗余信息。②提取影响语音识别的关键信息和表达语言含义的特征信息。③紧扣特征信息，用最小单元识别字词。④按照不同语言的各自语法，依照先后次序识别字词。⑤把前后意思当作辅助识别条件，有利于分析和识别。⑥按照语义分析，给关键信息划分段落，取出所识别出的字词并连接起来，同时根据语句意思调整句子构成。⑦结合语义，仔细分析上下文的相互联系，对当前正在处理的语句进行适当修正。

　　4、音识别系统基本原理框图及原理

　　语音识别系统基本原理结构如图1所示。语音识别原理有三点：①对语音信号中的语言信息编码是按照幅度谱的时间变化来进行；②由于语音是可以阅读的，也就是说声学信号可以在不考虑说话人说话传达的信息内容的前提下用多个具有区别性的、离散的符号来表示；③语音的交互是一个认知过程，所以绝对不能与语法、语义和用语规范等方面分裂开来。

　　预处理，其中就包括对语音信号进行采样、克服混叠滤波、去除部分由个体发音的差异和环境引起的噪声影响，此外还会考虑到语音识别基本单元的选取和端点检测问题。反复训练是在识别之前通过让说话人多次重复语音，从原始语音信号样本中去除冗余信息，保留关键信息，再按照一定规则对数据加以整理，构成模式库。再者是模式匹配，它是整个语音识别系统的核心部分，是根据一定规则以及计算输入特征与库存模式之间的相似度，进而判断出输入语音的意思。

　　前端处理，先对原始语音信号进行处理，再进行特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征。

　　5、当前亟待解决的问题

　　语音识别系统的性能受到许多因素的影响，包括不同说话人的发音方式、说话方式、环境噪音、传输信道衰落等等。具体要解决的问题有四点：①增强系统的鲁棒性，也就是说如果条件状况变得与训练时很不相同，系统的性能下降不能是突变的。②增加系统的适应能力，系统要能稳定连续的适应条件的变化，因为说话人存在着年龄、性别、口音、语速、语音强度、发音习惯等方面的差异。所以，系统应该有能力排除掉这些差异。达到对语音的稳定识别。③寻求更好的语言模型，系统应该在语言模型中得到尽可能多的约束，从而解决由于词汇量增长所带来的影响。④进行动力学建模，语音识别系统提前假定片段和单词是相互独立的，但实际上词汇和音素的线索要求对反映了发声器官运动模型特点的整合。所以，应该进行动力学建模，从而将这些信息整合到语音识别系统中去。

　　6、统的组成和分类

　　根据识别的对象不同语音识别大致上可分为3类：对孤立词识别，对关键词识别和对连续语音识别。其中，孤立词识别的任务是识别事先已知的孤立的词；连续语音识别的任务则是识别任意的连续语音；连续语音流中的关键词检测针对的是连续语音，但它并不识别全③部文字，而只是检测已知的若干关键词在何处出现，根据针对的发音人，可以把语音识别技术分为特定人语音识别和非特定人语音识别，前者只能识别一个或几个人的语音，而后者则可以被任何人使用。

　　7、语音识别技术应用领域及前景展望

　　语音识别技术借助飞速发展的高速信息网，可实现计算机的全球联网和信息资源共享，因此被广泛应用的系统有：语音输入和控制系统，语音拨号系统、智能家电及玩具，智能电话查询系统，数据库检索等方面，在咨询服务、教育等行业，正潜移默化地改变和便利着我们的生活。此外，语音识别系统还在多媒体手机、个人掌上电脑、车载导航器GPS等方面有着巨大的应用和市场前景。

　　8、结语

　　语音识别是非常有发展潜力的一门学科，你可以设想。我们平时生活中很多地方都可以用到它，可以大大便利我们的生活和工作，比如智能手机，智能空调及冰箱，电动门，汽车导航，机器人控制，医疗设施，军事设备等。可以毫不夸张的说，21世纪将会是语音识别广泛流行和普及的时代，而语音识别产品和设备也会以其独特的魅力引领时代潮流，成为时代追逐的宠儿和焦点。

语音识别技术是一种将语音转换为文本的技术。它通常包括两个主要步骤：语音预处理和语音识别。

语音预处理步骤包括语音信号的采集、降噪、分帧、特征提取等操作。其中特征提取是指从语音信号中提取具有语音识别意义的信息，这些信息可以是声谱图、倒谱图等。

语音识别步骤使用机器学习算法，将特征提取出来的信息与语音库中的信息进行匹配，进而得到文本。这些算法包括HMM,DNN,RNN,CTC,Transformerandsoon。

语音识别技术可以分为两类，即基于模型的语音识别和基于统计的语音识别，HMM,DNN,RNN,CTC,Transformeristypicalmodel-basedmethodandGMM-HMM,i-vectoristypicalstatistical-basedmethod

语音情感识别和脸部情感识别相比,各有方便、技术成熟、直观、难以伪造的优势。语音识别技术的应用通常是在人机交互上，让机器通过是被和理解语音信号之后转化为相应的文本和命令然后进行执行。人脸识别网络技术使用通用的摄像机作为识别数据信息资源获取装置，以非接触的方式在识别研究对象未察觉的情况下完成识别发展过程。语音情感识别和脸部情感识别各具有以下优势：

1、语音情感识别优势。和脸部情感识别技术相比，语音识别技术的优势似乎更加明显，语音识别技术不会遗失和忘记数据，不用记忆，在应用的时候也比较方便。语音识别技术比较成熟，用户的接受度也很高，声音输入设备造价也很具有优势，在隐私问题上，语音识别技术也比较有保障，所以推广使用还是很有市场的。

2、脸部情感识别优势。人脸识别系统使用可以方便，人脸识别技术是以人脸图像为基础的，最直观的信息来源，便于人工确认和审核。人脸识别技术是独一无二的，与语音情感识别技术相比，人脸识别技术具有准确率高、难以伪造、误识别率和拒识率低的特点。

欢迎分享，转载请注明来源：浪漫分享网

原文地址:https://hunlipic.com/qinggan/4172640.html

浅谈语音识别技术论文

发表评论

评论列表（0条）