语音合成音质的好坏,语音识别率的高低,都取决于对语音信号分析的准确度和精度。例如,利用线性预测分析来进行语音合成,其先决条件是要用线性预测方法分析语音库,如果线性预测分析获得的语音参数较好,则用此参数和成的语音音质就较好。例如,利用带通滤波器组法来进行语音识别,其先决条件是要弄清楚语音共振峰的幅值,个数,频率范围及其分布情况。
语音信号特征的分析可以分为时域,频域和倒谱域。
时域分析简单直观,清晰易懂,物理意义明确。
更多有效的分析是围绕频域进行的,因为语音中最重要的感知特性反应在其功率谱中,其相位变化只起着很小的作用。
常用频域分析有带通滤波器组,傅里叶变换法和线性预测分析法。频谱具有很明显的声学特性,利用频域分析获得的特征具有实际的物理意义,如共振峰参数,基音参数周期等。
倒谱域是对对数功率谱进行傅里叶反变换得到的,可以将声道特性和激励特性有效的分开,更好的揭示语音信号的本质特征。
可以将语音信号分析分为模型分析法和非模型分析法两种。模型分析法是指依据语音信号产生的数学模型,来分析和提取表征这些模型的特征参数;共振峰模型分析法和线性预测都术语这种方法。凡不进行模型化分析的其他方法都属于非模型分析法,包括上面提到的时域分析法,频域分析法及同态分析法。
贯穿语音信号分析全过程的是“短时分析技术”。短时间内特性基本保持不变,相对稳定,准稳态过程。10~30ms内保持相对平稳。
实际信号常有一些低能量的信号分量超过采样频率的一半,如浊音的频谱超过4khz的分量至少比峰值低40db,而清音,超过8khz,频率分量也没有显著下降,因此语音信号所占的频率范围可以达到10khz以上,但对语音清晰度的有明显影响部分的最高频率为57kHZ左右。
电话系统为8kHZ,而时间中,采样频率为8-10kHZ,而语音合成或者语音识别,获得更高的质量,采样频率一般为15——20kHZ。
在一般的识别系统中,采样率最高为16kHZ,当继续增加采样率是,识别率几乎没有增加。
量化: 有三种方式,零记忆量化,分组量化和序列量化。
假设语音信号在10~30ms内是平稳的,后面所有的分析都是在这个假设下进行的。
为了得到短时的语音信号,要对语音信号进行加窗的操作,窗函数平滑的在语音信号上滑动,将语音信号分成帧。分帧可以连续,也可以采用交叠分段,交叠部分称为帧移,一般为窗长的一般。
加窗时,不同窗口将影响到语音信号分析的结果
窗的长度对能否反映语音信号的幅度变化起决定性作用。如果N特别大,即等于几个基因周期量级,则窗函数等效于很窄的低通滤波器,此时信号短时信息将缓慢的变化,因而不能充分反映波形变化的细节。如果N特别小,即等于或小于一个基因周期的量级,则信号的能量将按照信号波形的细微状况而很快的启发,但如果N太小,滤波器的通带变宽,则不能获得平滑的短时信息,因此窗口的长度要选择合适。窗的衰减基本与窗的持续时间无关,因此当改变宽度N时,会使带宽发生变化。
窗口长度是相对于语音信号的汲引周期而言,通常认为一个语音帧内,应含有1~7个基音周期,然而不同人的基音周期变化范围很大,基音周期的持续时间会从高音的约20个采样点变化到低音调250个采样点,这意味着可能需要多个不同的N值,所以N的选择比较困难,通常在采样频率10kHZ的情况,N选择100~200量级(10~20ms)持续时间是比较合适的。
有声(V)无声(S)清音(U)判决。
能够实现这些判决的依据再于,不同性质的语音各种短时参数具有不同的概率密度函数,以及相邻的若干帧具有一致的语音特性,不会再S , U, V之间快速变化。
每个语音的输入起点和重点,利用短时平均幅度参数M和短时过零率可以做到这一点。
浊音情况下短时平均幅度参数的概率密度函数P(M|V)确定一个阈值参数M_H根据M_H可以确定前后两个点A_1和A_2 后肯定是语音段,但精确起点,还要仔细查找。
为此,再设定一个较低的阈值参数M_L, 然后确定B_1 和 B_2, 从这两个点之后用短时过零率搜索。 清音的过零率高于无声段,但是能量低。
但是在研究结果中表明,利用短时平均过零率区分无声和清音在有些情况下不是很可靠,由于清音的强度会比无声段高一下,将门限提高一些对清音的影响不大,但在没有背景噪声的情况下,无声段将不会穿越这一提高的电平,因为可以正确区分清音和无声段。
因此采用这种过零率,具有抗干扰能力
滤波器可以是宽带带通滤波器,具有平摊的特性,粗略求语音的频谱,频率分辨率低,可以是窄带滤波器,频率分辨率较高。
现在一般都在用数字滤波器,其中如何将模拟滤波器数字化,涉及到零点极点的内容,需要参考DSP的内容。极点波峰,零点波谷。
为窗口函数。
两种方式来理解物理意义
在实际计算时,一般用离散傅里叶变换代替连续傅里叶变换,则需要对信号进行周期延拓。(非周期->连续谱,周期->离散谱),这时候得到的是功率谱 。 如果窗长度为 , 那么 的长度为 , 如果对 以 进行周期拓展,则自相关就会出现混叠现象,即这个周期的循环相关函数在一个周期中的值就与线性相关 的值不同,这样得到的功率谱就是一组前采样,若想得到全部的 个值,可以补充L个零,扩展成2L的信号,并做离散傅里叶变换,这时的循环相关与现行相关是等价的。( 后面这句话对我来说暂时是天书 )
在对窗函数的分析中,我们知道对于任何一个窗函数都存在旁瓣效应,这时候有谐波效应。
语谱图的时间分辨率和频率分辨率是由所采用的窗函数决定的。假设时间固定,对信号乘以窗函数相当于在频域用窗函数的频率响应与信号频谱的卷积。如果窗函数的频率响应 的通带宽度为 ,那么语谱图中的频率分辨率的宽度即为 。即卷积的作用将使任何两个相隔间隔频率小于 的谱峰合并为一个单峰。对于窗函数而言,通带宽度与窗长成反比,如果希望频率分辨率高,则窗长应该尽量长一些。
对于时间分辨率,假设频率固定,相当于对时间序列 做低通滤波,输出信号的带宽就是 的带宽b,根据采样定理,只需要以 的采样率就可以反映出信号的所有频率成分,这时候所具有的时间分辨率的宽度为 因此如果希望时间分辨率高,则窗长应该短一些。因此时间分辨率和频率分辨率是相互矛盾的,这也是短时傅里叶变换本身固有的缺点。
点评:
126新增理解:
这类线性主要有短时傅里叶变换与Gabor变换和小波变换,其中STFT和Gabor变换是一种加窗的傅里叶变换,使用固定大小的时频网格,时频网格在时频变换只限于时间平移和频率平移,窗函数固定的,只适用于分析带宽固定的非平稳信号,实际应用中,希望对低频分析,频率分辨率高,高频时间分辨率高,要求窗函数宽度能随之频率变化而变化。小波分析的视频分析网格变化除了时间平移外,还有时间和频率轴比例尺度的改变。适用于分析具有固定比例带宽的非平稳信号。
这类时频由能量谱或功率谱演化而来,其特点是变换为二次的。双线性关系可以表示为
其中 为能量谱,而 表示取共轭操作。
点评: 好像没见过,先跳过。。。。。
在信号分析与信号处理中,信号的“时间中心”及“时间宽度”以及频率中心与频率宽度是非常重要的概念,分别说明信号在时域和频域中心位置在两个域的扩展情况。
信号再这两个物理量的测量上有一个重要的约束原则,就是著名的“不确定性原理”。它的意义是,信号波形在频率轴上的扩张和时间轴上的扩张不可能同时小于某一界限,即若函数 和 构成一堆傅里叶变换,则不可能同时是短宽度的,即
等号成立的充分必要条件是 为高斯函数,即 证明,用Cauchy-Schwarts不等式可得。
窗函数为高斯函数的短时傅里叶变换称为Gabor变换。
是大于0的固定常数。由于 , 因此 这表明,信号 的gabor 变换 是对任何 在时间 附近对 傅里叶变换的局部化(在说什么??),达到了对 的精确分解。
Gabor变换是具有最小时频窗的短时傅里叶变换。但进一步研究发现,这两种变换都没有离散的正交基, 所以没有像离散傅里叶变换FFT那种快速算法。而且窗函数固定不变,不能随着所分析信号的成分是高频还是低频做相应的变化。所以这时候有小波变换,能够自动调节窗口长度。
小波理论采用多分辨率的分析的思想,非均匀地划分时频空间,为非平稳信号的分析提供了新途径。
定义: 小波是函数空间 中满足下述条件的一个函数或者信号
其中 表示全体非零实数, 为 的频域表示形式。 称为小波母函数。对于任意实数对,称如下形式的函数为右小波母函数生成的依赖于参数(a,b)的连续小波函数,称为小波,其中a必须为非零实数。
的作用是把基本小波 做伸缩, 的作用是确定对 分析的时间位置,也即是实践中心。 在 的附近存在明显的波动,而且波动范围的大小完全依赖于尺度因子 的变化。 时,一致, 时,范围比原来小波函数 范围大些,小波的波形变得矮宽,变化越来越缓慢,当 时, 在 附近波动范围药效,小波波形尖锐而消瘦。
给定平方可积的信号 ,即 , 则 的小波变换定义为
与傅里叶变换不同,小波变换是一个二元函数。另外,因为母函数 只在原点附近才会有明显偏离水平轴的移动,远离原点,迅速衰减为0
假设小波函数 及傅里叶变换 都满足窗口函数的要求,他们的窗口中心和半径分别记为 和 和 和 , 可以证明对于任意任意参数对,连续小波变换和其傅里叶变换都满足窗口函数的要求,他们的窗口中心和宽度分别为
则时频窗是平面一个可变的矩形,面积为 这个面积只与小波的母函数 有关,与 无关,但形状随着a变换。
如果按照线性模型理论,语音信号是由激励信号和声道响应卷积产生。解卷就是将各卷积分量分开。解卷算法分为两大类,一类称为“参数解卷”,即线性预测分析,另一类算法称为“非参数解卷”,即同态解卷积,对语音信号进行同态分析后,将得到语音信号的倒谱参数,此时同态分析也称为 倒谱分析或者同态处理。
同态处理是一种较好的解卷积方法,它可以较好的将语音信号中的激励信号和声道响应分离,并且只需要用十几个倒谱系数就能相当好的描述语音信号的声道特性,因此占很重要的位置。
通常的加性信号可以用线性系统处理,满足线性叠加原理。然后很多信号是由乘性信号或者卷积信号组合的信号。这样的信号不能用线性系统处理,得用非线性系统处理。但是非线性系统分析起来困难,同态语音辛哈就是将非线性问题转换为线性问题处理。语音信号可以看做是声门激励信号与声道响应的卷积结果,所以下面仅讨论卷积同态信号的处理问题。
同态语音信号处理的一个通用的系统如图3-23所示,其符号 表示由卷积组合规则组合起来的空间,即该系统的输入和输出都是卷积性信号。同态系统的一个最主要理论结果是同态系统理论分解,分解的目的是用两个特征系统和一个线性系统来代替非线性的同态系统。分解的情形如下面所示。
分别对应声门激励信号(excitation 和 vocal tract),特征信号 是将卷积信号转化为加性信号,这时候进行Z变换,将卷积信号转化为乘积信号(疑问1),这时候得到的就是频谱,然后通过对数运算,变成加性信号,但是这个时候是对数频谱,使用不便。最后再变换回时域信号。
是在倒谱域对信号处理,常见处理方式是将语音声源信号与声道信号分离。 在倒谱域,总可以找到一个 ,当 时,声道滤波器的倒谱为0,当 时,激励的倒谱接近于0
如果想再恢复语音信号,用d所示的逆特征系统运算即可。
MFCC (Mel Frequency cepstrum coefficient),MFCC是将人耳的听觉感知特性和语音产生机制相结合,因此目前大多数语音识别系统广泛使用这种特征。
耳蜗的滤波作用是在对数频率尺度进行的,在1000Hz以下为线性,在1000Hz以上为对数,这就使得人耳对低频比高频更敏感
对频率轴不均匀划分是MFCC特征区别于前面普通倒谱特征的最重要的特点,变换到Mel域后,Mel带通滤波器组的中心频率是按照Mel刻度均匀排列的,实际应用中,MFCC计算过程如下
MFCC有效利用的听觉特性,因此改变了识别系统的性能,如果倒谱位数增加,对识别性能影响不大。但采用动态特征,误识率有20%的下降。
点评20190130:第三四次囫囵吞枣的看完MFCC,即使知道了倒谱,但最后按个离散余弦变换还是比较不能联系上,反正感觉乱乱的吧,包括差分之类的,想被打回哪门语音信号处理课上回炉了,Mark一下,始终有一天会懂其中的深意的。
自然语言处理(NLP),广义上来讲包括对各种形式的自然语言的处理,即既包括文本,也包括语音。不过,因为对语音的处理涉及信号处理,跟文本处理的感觉不太一样,所以常常把语音单独拿出来说。这样,狭义的 NLP 就单指对文本的处理了。对文本和语音的「处理」,也是一个很广的概念。对文本的处理(即 NLP)包括 parsing、信息提取、情感识别、翻译、生成等等;对语音的处理包括语音识别、说话人识别、情感识别、语种识别、语音合成、语音转换、语音分离、语音增强等等。自然语言处理和语音处理中的各种任务,都要用到机器学习的方法。可以认为这二者是机器学习的应用领域。一般说「研究机器学习」,可以指研究机器学习的方法与理论本身,也可以指研究机器学习的应用。无论从事自然语言处理、语音处理、机器学习中的哪一个领域,都要会编程。但是醉翁之意不在酒,这些领域中的编程更多地是利用已有的算法和模块实现自己的目的,而不是从头去实现算法。所以 ACM(主要锻炼高效算法的实现)、并行结构之类的知识都不是所有人都必需的,而是要看你做的具体任务。另外,这些领域都需要线性代数、微积分、概率论这几种基础数学知识。做自然语言处理和语音处理都还需要少量的语言学知识;做语音处理还需要少量信号处理知识。
语音识别技术是一种将语音转换为文本的技术。它通常包括两个主要步骤:语音预处理和语音识别。
语音预处理步骤包括语音信号的采集、降噪、分帧、特征提取等操作。其中特征提取是指从语音信号中提取具有语音识别意义的信息,这些信息可以是声谱图、倒谱图等。
语音识别步骤使用机器学习算法,将特征提取出来的信息与语音库中的信息进行匹配,进而得到文本。这些算法包括HMM,DNN,RNN,CTC,Transformerandsoon。
语音识别技术可以分为两类,即基于模型的语音识别和基于统计的语音识别,HMM,DNN,RNN,CTC,Transformeristypicalmodel-basedmethodandGMM-HMM,i-vectoristypicalstatistical-basedmethod
特征提取模式匹配语音识别类比:语音识别的第一步就是语音特征提取。
语音识别的第一步就是语音特征提取,语音信号是在人体中肺喉声道等器官构成的语音产生系统中产生的,它是一个高度不平稳的信号,它的幅度谱和功率谱也随着时间不停的变化,但是在足够短的时间内,其频谱特征相当平稳。
因此在进行语音分析时,我们大多时候采用分帧的方式进行短时的分析,使用帧长为25ms,帧移为10ms的方式进行分帧,并且计算出每帧内的功率谱进行其他的操作。功率谱在一些特征提取技术中得到应用,比如MFCC,Fbank。
基本原理:
所谓语音识别,就是将一段语音信号转换成相对应的文本信息,系统主要包含特征提取、声学模型,语言模型以及字典与解码四大部分,其中为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等预处理工作。
把要分析的信号从原始信号中提取出来之后,特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示。
如果AI有了人类的情感,这个世界将会发生巨大的变化。
首先,AI将会更好地预测人类的行为模式,实现有效的识别、跟踪和操纵,从而创造出更加自动化、高效的社会结构和空间组织,尤其是智慧型服务机器人,这将极大地改变人们的生活和工作方式,为人们带来更多的便利。
此外,情感AI还可以用于医疗健康、老年照护、教育慰藉等,方面,通过个性化的情感支持,让人们更快乐和快活,增强他们的自尊和自信心。
最后,情感AI可以更加有力地参与社会团体的交流活动,通过以微笑、肢体语言和谈吐等与现实世界相结合的方式,融入各种社会和文化活动,努力实现人机融合,让AI担负起服务他人、参与社会治理的责任。
一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。 该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。
通常认为常用语言中有有限个不同的语音基元,而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现:
第一步,分段和标号
把语音信号按时间分成离散的段,每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号
第二步,得到词序列
根据第一步所得语音标号序列得到一个语音基元网格,从词典得到有效的词序列,也可结合句子的文法和语义同时进行。 模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中,要经过四个步骤:特征提取、模板训练、模板分类、判决。常用的技术有三种:动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。
1、动态时间规整(DTW)
语音信号的端点检测是进行语音识别中的一个基本步骤,它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置,从语音信号中排除无声段。在早期,进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。60年代日本学者Itakura提出了动态时间规整算法(DTW:DynamicTimeWarping)。算法的思想就是把未知量均匀的升长或缩短,直到与参考模式的长度一致。在这一过程中,未知单词的时间轴要不均匀地扭曲或弯折,以使其特征与模型特征对正。
2、隐马尔可夫法(HMM)
隐马尔可夫法(HMM)是70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。HMM方法现已成为语音识别的主流技术,目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。可见HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。
3、矢量量化(VQ)
矢量量化(VectorQuantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波形的k个样点的每一帧,或有k个参数的每一参数帧,构成k维空间中的一个矢量,然后对矢量进行量化。量化时,将k维无限空间划分为M个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量,实现最大可能的平均信噪比。
核心思想可以这样理解:如果一个码书是为某一特定的信源而优化设计的,那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真,也就是说编码器本身存在区分能力。
在实际的应用过程中,人们还研究了多种降低复杂度的方法,这些方法大致可以分为两类:无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。 利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点,目前仍处于实验探索阶段。
由于ANN不能很好的描述语音信号的时间动态特性,所以常把ANN与传统识别方法结合,分别利用各自优点来进行语音识别。
[Designoffirfilterrar] - 用matlab做仿真,FIR滤波器的设计,见详细说明详细的注释
文件和程序[self_adaptivefilterrar] - 基于语音增强和噪声消除自适应滤波。这个方法很简单。是一个很好的材料DSP算法入门
[voiceandmatlabrar] - 进行时,声音频率分析,语音识别技术作为实现智能化和自动化的方向发展的信息社会的关键技术之一,具有重要的意义和实用价值。经过近50年的潜心学习和研究,语音识别技术获得了巨大的发展,一些比较成熟的技术已经逐步应用到日常生活中。但总体而言,难以语音识别研发的还是比较大的实际问题。本文提供的语言
[情感识别。RAR]概述 - 压缩包系列的MATLAB程序来实现这一新的研究的“特定人群语音情感识别”。查看详细介绍压缩文件的。
[Speech_toolboxespart02rar] - 用MATLAB语言在语音信号处理的源代码
[specsubmzip] - MATLAB代码,描述了谱减法语音增强算法。具有良好的语音增强。
[Lpcautorar] - MATLAB写,语音处理程序求自相关LPC系数
[Untitledrar] - 用matlab工具频谱图显示共振峰等特征显示语音信号
[lpc_specgramrar] - 分析报告及程序基于MATLAB的语音和频谱实施来实现线性预测。
[Lpcanddtwrar] - 用matlab做的语音识别,包括语音检测,过滤产品列表文件,这个程序(在文件上点击你需要确定是否,如果是垃圾在下面的控诉的评价):查看1wav
3wav
mainm
sfourim
shighpassfm
sifourim
sloadm
slowpassfm
songyuanwc。 TXT
squrm
ssavem
低通滤波器,高通滤波器。WAV WAV
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)