想用LabVIEW做一个简单的语音识别的东西,具体应该怎么操作

想用LabVIEW做一个简单的语音识别的东西,具体应该怎么操作,第1张

语音识别的基本过程 根据实际中的应用不同,语音识别系统可以分为:特定人与非特定人的识别、独立词与连续词的识别、小词汇量与大词汇量以及无限词汇量的识别。但无论那种语音识别系统,其基本原理和处理方法都大体类似。

1软件的安装

Via Voice在安装过程中会对机器硬件进行检测。如果未检测到所需的最低硬件标准(Pentium 166MMX和32M内存)就会产生文字提示。这时,可以选择继续安装而强行通过。之后,软件经过对麦克风的检测和简单的设定后,就可以顺利完成安装。软件安装完毕后,将在“控制面板”中产生“IBM Via Voice”的图标。双击此图标,即可对音频、用户信息及语音识别控制等进行设置。

2软件的使用

(1)IBM语音板

IBM语音板的界面如图所示。从上至下,依次为菜单条、控制条和类似记事本的中间区域,在这里,可以看到已输入的汉字。菜单条下的图形化控制按钮从左起依次为新建、打开、保存、打印、打印预览、查找、传送、剪切、复制、粘贴、日期、启动听写模式、停止听写、帮助,功能可谓应有尽有。下方白色的中间区域就是文字的输入和编排区。语音板是一个可以对人的语音进行识别,并将其转化为文本格式的字处理器。语音板的界面与Windows95中的写字板界面很相似,所不同的是:在语音板中,无需动手只需动口,就可以把相应的文本“说”到语音板的文档窗口中去。在进行听写时,您可以对输入的文本进行纠错。还可以对输入的文本进行口述语音来实现诸如打标点符号和“另起一段”、“另起一行”等编排工作。在语音板中,可以使用标准的字处理功能,如键入,编辑(剪切、拷贝、粘贴),格式(字体、段落风格等),对象的连接和嵌入(OLE)以及打印、保存文件等功能。另外,语音板特有的“传送”功能还可以让您把口述后的文本立即传送给其它的应用程序。语音板提供的编辑功能在很大程度上满足了文字处理时的各种需要。

(2)口音适应

我们每个人的发音都会因为生活环境和个人习惯等的不同而与标准发音之间存在一定的差异,这种差异的存在将使语音识别的准确率大打折扣。为了解决这个难题, Via Voice 中特设了“口音适应”功能让语音识别系统能够有机会熟悉我们的个人语音模式,以期达到更好的识别效果。完成口音适应的录音过程最多需要一个小时。可别怕这一点小小的麻烦,因为,在完成口音适应过程后,将极大地改善语音识别的准确率。那时候,那份自如和惬意,可就不是言语所能够表达的了。

(3)词汇表管理器

Via Voice的词汇表管理器使我们能够容易地查看我们个人词汇表中的全部词汇列表,也可以对其中不再需要的词汇进行删除。

(4)Via Vice的属性

随着我们进行听写次数的增加,Via Voice的纠错能力将逐渐增强,语音识别的效果将变得越来越好。如果是多人共用一台电脑,那么就有必要为每一个使用的人员建立一个“用户”,以保存各自的语音词汇表。在这里,我们还可以依照个人的习惯和需要,在识别灵敏度和识别性能上作出自己的选择。

(5)正确地设置寿克风

使用什么样的麦克风,对使用Via Voice进行语音识别的正确率,有着重要的影响。一个好的麦克风可以滤掉大部分背景噪声,并能在噪声交大的环境下有将地操作而不影响语音识别的正确率。使用Via Voice时所用的麦克风应该要为语音识别提供高质量的声音数据。办有对麦克风进行了正确的设置之后,我们才能让Via Voice接收和处理我们的声音。因此,在使用这种语音识别系统之前,使麦克风处于正常的工作状态是至关重要的事情。

和其它的大多数软件一样,尽可能多地掌握一些相关的经验和技巧,有助于你更好地使用ViaVoice40。以下就是几个相关的小技巧,希望对你能有所帮助:1太多太大的背景噪声容易使软件产生误识别。因此,最好在一个安静的房间内进行语音识别的操作,关上门也将有助于软件正确地识别理解。2不要对麦克风喊叫,另外用适中的语调口述也将有助于提高识别率。软件还提供了一个比较体贴的功能:在进行“口音适应”操作时,将会要求你按照要求朗读254个句子,朗读后机器经过学习训练将会大大提高识别的准确率。训练完毕后,软件会产生提示,可以用一张三寸盘将训练后的水平保存起来。一旦出现病毒感染或需重装系统时,借助备份可以很快让软件恢复到原来的识别水平。

希望能帮到你

  我们可以设想,在不久的将来坐在办公司里的经理会对电脑说:“嗨!伙计,帮我通知一下公司所有员工,今天下午3:00准时开会。”这是科学家在几十年前的设想,语音识别长久以来一直是人们的美好愿望,让计算机领会人所说的话,实现人机对话是发展人机通信的主要目标。进入2l世纪,随着计算机的日益普及,怎样给不熟悉计算机的人提供一个友好而又简易的操作平台,是我们非常感兴趣的问题,而语音识别技术就是其中最直接的方法之一。

  20世纪80年代中期以来,新技术的逐渐成熟和发展使语音识别技术有了实质性的进展,尤其是隐马尔可夫模型(HMM)的研究和广泛应用,推动了语音识别的迅速发展,同时,语音识别领域也正处在一个黄金开发的关键时期,各国的开发人员正在向特定人到非特定人,孤立词汇向连接词,小词汇量向大词汇量来扩展研究领域,可以毫不犹豫地说,语音识别会让计算机变得“善解人意”,许多事情将不再是“对牛弹琴”,最终用户的口述会取代鼠标,键盘这些传统输入设备,只需要用户的嘴和麦克风就能实现对计算机的绝对控制。

  1、隐马尔可夫模型HMM的引入

  现在假定HMM是一个输出符号序列的统计模型,具有N个状态S1,S2⋯Sn,在一个周期内从一个状态转到另一个状态,每次转移时输出一个符号,转移到了哪个状态以及输出什么符号,分别由状态转移概率和转移时的输出概率来决定,由于只能观测到输出符号序列,不能观测到状态转移序列,因此成为隐藏的马尔可夫模型。

  2、语音识别的特点

  语音识别的意思是将人说话的内容和意思转换为计算机可读的输入,例如按键、二进制编码或者字符序列等。与说话人的识别不同,后者主要是识别和确认发出语音的人而非其中所包含的内容。语音识别的目的就是让机器听懂人类口述的语言,包括了两方面的含义:第一是逐字逐句听懂而不是转化成书面的语言文字;第二是对作者简介:贾聪,中国地质大学机械与电子信息学院。口述语言中所包含的命令或请求加以领会,做出正确回应,而不仅仅只是拘泥于所有词汇的正确转换。

  3、语音识别系统的工作流程

  一般来说,一套完整的语音识别系统其工作过程分为7步:①对语音信号进行分析和处理,除去冗余信息。②提取影响语音识别的关键信息和表达语言含义的特征信息。③紧扣特征信息,用最小单元识别字词。④按照不同语言的各自语法,依照先后次序识别字词。⑤把前后意思当作辅助识别条件,有利于分析和识别。⑥按照语义分析,给关键信息划分段落,取出所识别出的字词并连接起来,同时根据语句意思调整句子构成。⑦结合语义,仔细分析上下文的相互联系,对当前正在处理的语句进行适当修正。

  4、音识别系统基本原理框图及原理

  语音识别系统基本原理结构如图1所示。语音识别原理有三点:①对语音信号中的语言信息编码是按照幅度谱的时间变化来进行;②由于语音是可以阅读的,也就是说声学信号可以在不考虑说话人说话传达的信息内容的前提下用多个具有区别性的、离散的符号来表示;③语音的交互是一个认知过程,所以绝对不能与语法、语义和用语规范等方面分裂开来。

  预处理,其中就包括对语音信号进行采样、克服混叠滤波、去除部分由个体发音的差异和环境引起的噪声影响,此外还会考虑到语音识别基本单元的选取和端点检测问题。反复训练是在识别之前通过让说话人多次重复语音,从原始语音信号样本中去除冗余信息,保留关键信息,再按照一定规则对数据加以整理,构成模式库。再者是模式匹配,它是整个语音识别系统的核心部分,是根据一定规则以及计算输入特征与库存模式之间的相似度,进而判断出输入语音的意思。

  前端处理,先对原始语音信号进行处理,再进行特征提取,消除噪声和不同说话人的发音差异带来的影响,使处理后的信号能够更完整地反映语音的本质特征提取,消除噪声和不同说话人的发音差异带来的影响,使处理后的信号能够更完整地反映语音的本质特征。

  5、当前亟待解决的问题

  语音识别系统的性能受到许多因素的影响,包括不同说话人的发音方式、说话方式、环境噪音、传输信道衰落等等。具体要解决的问题有四点:①增强系统的鲁棒性,也就是说如果条件状况变得与训练时很不相同,系统的性能下降不能是突变的。②增加系统的适应能力,系统要能稳定连续的适应条件的变化,因为说话人存在着年龄、性别、口音、语速、语音强度、发音习惯等方面的差异。所以,系统应该有能力排除掉这些差异。达到对语音的稳定识别。③寻求更好的语言模型,系统应该在语言模型中得到尽可能多的约束,从而解决由于词汇量增长所带来的影响。④进行动力学建模,语音识别系统提前假定片段和单词是相互独立的,但实际上词汇和音素的线索要求对反映了发声器官运动模型特点的整合。所以,应该进行动力学建模,从而将这些信息整合到语音识别系统中去。

  6、统的组成和分类

  根据识别的对象不同语音识别大致上可分为3类:对孤立词识别,对关键词识别和对连续语音识别。其中,孤立词识别的任务是识别事先已知的孤立的词;连续语音识别的任务则是识别任意的连续语音;连续语音流中的关键词检测针对的是连续语音,但它并不识别全③部文字,而只是检测已知的若干关键词在何处出现,根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。

  7、语音识别技术应用领域及前景展望

  语音识别技术借助飞速发展的高速信息网,可实现计算机的全球联网和信息资源共享,因此被广泛应用的系统有:语音输入和控制系统,语音拨号系统、智能家电及玩具,智能电话查询系统,数据库检索等方面,在咨询服务、教育等行业,正潜移默化地改变和便利着我们的生活。此外,语音识别系统还在多媒体手机、个人掌上电脑、车载导航器GPS等方面有着巨大的应用和市场前景。

  8、结语

  语音识别是非常有发展潜力的一门学科,你可以设想。我们平时生活中很多地方都可以用到它,可以大大便利我们的生活和工作,比如智能手机,智能空调及冰箱,电动门,汽车导航,机器人控制,医疗设施,军事设备等。可以毫不夸张的说,21世纪将会是语音识别广泛流行和普及的时代,而语音识别产品和设备也会以其独特的魅力引领时代潮流,成为时代追逐的宠儿和焦点。

一个完整的基于统计的语音识别系统可大致分为三部分:

(1)语音信号预处理与特征提取;

(2)声学模型与模式匹配;

(3)语言模型与语言处理、

语音信号预处理与特征提取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

语音识别一个根本的问题是合理的选用特征。特征参数提取的目的是对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息,同时对语音信号进行压缩。在实际应用中,语音信号的压缩率介于10-100之间。语音信号包含了大量各种不同的信息,提取哪些信息,用哪种方式提取,需要综合考虑各方面的因素,如成本,性能,响应时间,计算量等。非特定人语音识别系统一般侧重提取反映语义的特征参数,尽量去除说话人的个人信息;而特定人语音识别系统则希望在提取反映语义的特征参数的同时,尽量也包含说话人的个人信息。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。从目前使用的情况来看,梅尔刻度式倒频谱参数已逐渐取代原本常用的线性预测编码导出的倒频谱参数,原因是它考虑了人类发声与接收声音的特性,具有更好的鲁棒性(Robustness)。

也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。 声学模型通常是将获取的语音特征使用训练算法进行训练后产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。

声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。

以汉语为例:

汉语按音素的发音特征分类分为辅音、单元音、复元音、复鼻尾音四种,按音节结构分类为声母和韵母。并且由音素构成声母或韵母。有时,将含有声调的韵母称为调母。由单个调母或由声母与调母拼音成为音节。汉语的一个音节就是汉语一个字的音,即音节字。由音节字构成词,最后再由词构成句子。

汉语声母共有22个,其中包括零声母,韵母共有38个。按音素分类,汉语辅音共有22个,单元音13个,复元音13个,复鼻尾音16个。

目前常用的声学模型基元为声韵母、音节或词,根据实现目的不同来选取不同的基元。汉语加上语气词共有412个音节,包括轻音字,共有1282个有调音节字,所以当在小词汇表孤立词语音识别时常选用词作为基元,在大词汇表语音识别时常采用音节或声韵母建模,而在连续语音识别时,由于协同发音的影响,常采用声韵母建模。

基于统计的语音识别模型常用的就是HMM模型λ(N,M,π,A,B),涉及到HMM模型的相关理论包括模型的结构选取、模型的初始化、模型参数的重估以及相应的识别算法等。 语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。

语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。

按下方向盘上的语音按键或直接呼出,可以实现呼叫电话、控制音量、调节空调、查询路线、开关车窗、播放音乐等功能,是一项便利性配置。

百万购车补贴

凌阳61单片机实现RCL,由C语言编写,凌阳61板实现功能-,C++ Builder,单片机开发/SCM

autocad预览控件不需要安装autocad即可在界面浏览-,Delphi,绘图程序/Graph Drawing

本程序为基于matlab的小波分析的应用实例。-,matlab,界面编程/GUI Develop

高通brew平台上的BUIW控件中的ImageStaticWidget使用示例-,Visual C++,Static控件/Static control

客观合理化一天一片人体豆腐花规范化广泛非官方大哥大法国-,C++ Builder,界面编程/GUI Develop

本程序为基于matlab的插值分析与Euler解常微分方程的应用实例。-,matlab,界面编程/GUI Develop

用ASPNET做的酒店管理系统,该系统主要处理酒店日常运营中涉及的客户信息-,ASP,其他书籍/Other Books

EVC 读写INI文件 EVC 读写INI文件EVC 读写INI文件EVC 读写INI文件EVC 读写INI文件-,Visual C++,文件操作/File Operate

本程序介绍基于matlab的平方根及改进平方根算法。-,matlab,按钮控件/Button control

高通brew平台上的BUIW控件中的slider的示例程序-,Visual C++,界面编程/GUI Develop

塔顶地无可奈何花落去 人威风扫地雪 可耕地枯无可奈何花落去 无可奈何花落去饿-,Visual C++,GDI/图象编程/GDI-Bitmap

oblog31sql oblog31sql oblog31sql oblog31sql oblog31sql-,ASP,Web服务器/Web Server

MATLAB实现简单图象处理的程序,在matlab2006a上通过-,matlab,matlab例程/matlab

源码、运行程序、帮助文件、必须的数据库文件-,Windows_Unix,C#编程/CSharp

dos下的TCP/IP栈库函数,并提供了多种tcp/ip编程demo。 -,DOS,TCP/IP协议栈/TCP/IP Stack

MATLAB进入时显示的图标的程序实现,有动画效果!-,matlab,matlab例程/matlab

地方官梵蒂冈地方官法 方法方法方法方法方法 -,Unix_Linux,TreeView控件/TreeView

几个matlab的编程实例,对初学者有一定的帮助。-,matlab,界面编程/GUI Develop

用ASPNET做的客户管理系统,该系统以客户管理中涉及的销售管理,合同管理为主体-,ASP,其他书籍/Other Books

毕毕剥剥毕毕剥剥爸爸 毕毕剥剥毕毕剥剥爸爸 -,DOS,Static控件/Static control

将数据库的资料转档到EXCEL里进行保存-,Delphi,其他小程序/Other windows programs

数字图像中队图像进行模板匹配算法之前的预处理算法!-,Visual C++,图形/文字识别/Graph Recognize

存车处存车处存车处厂 滴滴答答滴滴答答得到 -,DOS,编辑框/EditBox

实数编码GA,也是从网上下载的。非要上传5个才能下载,哎,实在是没办法啊,这个也不知道能不能运行,不能的话请不要骂我哦,谢谢!!-,Visual C++,人工智能/AI-NN-PR

DS1302+AT89C2051的LED钟,可以显示年、周、月、日、小时、分钟、秒-,TEXT,其他小程序/Other windows programs

可耕地 唇形枯 要一地三三大哥有在一码元表的有遥有-,Visual C++,TreeView控件/TreeView

用JAVA写的遗传算法的例子,比较简单,如果解压缩的时候需要密码的话,应该是“1”。写的比较简单。是老早以前写的了。-,Java,人工智能/AI-NN-PR

汇编语言,用C51单片机实现交通灯控制!二极管模拟发光!-,Asm,单片机开发/SCM

通过串口控制步进电机控制器,实现联络,速度控制,步长-,Visual C++,串口编程/Com Port

绝佳的Tab View控件的方式之一,VC++60经过运行调试的,可直接使用-,Visual C++,TreeView控件/TreeView

以某中小规模汽车维修厂为案例,用ASPNET做的仓库管理系统-,ASP,其他书籍/Other Books

关机程序。。。。。。。。。。。。。。。。。-,Visual C++,Windows编程/Windows Develop

绝佳的Tab View控件的方式之二,VC++60经过运行调试的,可直接使用-,Visual C++,界面编程/GUI Develop

在VC6下基于OpenCV的轮廓检测程序,其中图像的二值化操作基于Canny和自适应阈值。通过trackbar来实现不同情况下的轮廓检测。-,Visual C++,图形/文字识别/Graph Recognize

绝佳的Tab View控件的方式之三,VC++60经过运行调试的,可直接使用-,Visual C++,界面编程/GUI Develop

用于首先获取需要下载的文件的大小,然后将其分块下载。-,Java,网络编程/WinSock-NDIS

用csocket模拟聊天室,可以在一台机子上模拟,也可以在不同机子上-,Visual C++,网络编程/WinSock-NDIS

这个好象也是从网络上找到一个基本遗传算法的例子,解压缩的时候如果需要密码的话,应该是“1”。-,Visual C++,人工智能/AI-NN-PR

本程序是运用java 语言 编写一款查看 网站源文件的程序 -,Java,其他/Other systems

使用C语言实现菜单控制的源程序,实现了学生成绩的管理.-,C-C++,界面编程/GUI Develop

在打开图像时,点击图像可在打开对话框中实时看到预览,绝好-,Visual C++,界面编程/GUI Develop

用ASPNET做的合同管理系统,该系统包括合同进展控制模块,员工管理模块,客户管理模块,项目管理模块,合同管理模块和合同统计模块等-,ASP,其他书籍/Other Books

语音识别与合成工具箱具有如下功能:时域分析,频域分析,LPC分析与合成等-,matlab,matlab例程/matlab

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/864780.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-07-10
下一篇2023-07-10

发表评论

登录后才能评论

评论列表(0条)

    保存