第三章 语音信号特征分析

第三章 语音信号特征分析,第1张

语音合成音质的好坏,语音识别率的高低,都取决于对语音信号分析的准确度和精度。例如,利用线性预测分析来进行语音合成,其先决条件是要用线性预测方法分析语音库,如果线性预测分析获得的语音参数较好,则用此参数和成的语音音质就较好。例如,利用带通滤波器组法来进行语音识别,其先决条件是要弄清楚语音共振峰的幅值,个数,频率范围及其分布情况。

语音信号特征的分析可以分为时域,频域和倒谱域。

时域分析简单直观,清晰易懂,物理意义明确。

更多有效的分析是围绕频域进行的,因为语音中最重要的感知特性反应在其功率谱中,其相位变化只起着很小的作用。

常用频域分析有带通滤波器组,傅里叶变换法和线性预测分析法。频谱具有很明显的声学特性,利用频域分析获得的特征具有实际的物理意义,如共振峰参数,基音参数周期等。

倒谱域是对对数功率谱进行傅里叶反变换得到的,可以将声道特性和激励特性有效的分开,更好的揭示语音信号的本质特征。

可以将语音信号分析分为模型分析法和非模型分析法两种。模型分析法是指依据语音信号产生的数学模型,来分析和提取表征这些模型的特征参数;共振峰模型分析法和线性预测都术语这种方法。凡不进行模型化分析的其他方法都属于非模型分析法,包括上面提到的时域分析法,频域分析法及同态分析法。

贯穿语音信号分析全过程的是“短时分析技术”。短时间内特性基本保持不变,相对稳定,准稳态过程。10~30ms内保持相对平稳。

实际信号常有一些低能量的信号分量超过采样频率的一半,如浊音的频谱超过4khz的分量至少比峰值低40db,而清音,超过8khz,频率分量也没有显著下降,因此语音信号所占的频率范围可以达到10khz以上,但对语音清晰度的有明显影响部分的最高频率为57kHZ左右。

电话系统为8kHZ,而时间中,采样频率为8-10kHZ,而语音合成或者语音识别,获得更高的质量,采样频率一般为15——20kHZ。

在一般的识别系统中,采样率最高为16kHZ,当继续增加采样率是,识别率几乎没有增加。

量化: 有三种方式,零记忆量化,分组量化和序列量化。

假设语音信号在10~30ms内是平稳的,后面所有的分析都是在这个假设下进行的。

为了得到短时的语音信号,要对语音信号进行加窗的操作,窗函数平滑的在语音信号上滑动,将语音信号分成帧。分帧可以连续,也可以采用交叠分段,交叠部分称为帧移,一般为窗长的一般。

加窗时,不同窗口将影响到语音信号分析的结果

​ 窗的长度对能否反映语音信号的幅度变化起决定性作用。如果N特别大,即等于几个基因周期量级,则窗函数等效于很窄的低通滤波器,此时信号短时信息将缓慢的变化,因而不能充分反映波形变化的细节。如果N特别小,即等于或小于一个基因周期的量级,则信号的能量将按照信号波形的细微状况而很快的启发,但如果N太小,滤波器的通带变宽,则不能获得平滑的短时信息,因此窗口的长度要选择合适。窗的衰减基本与窗的持续时间无关,因此当改变宽度N时,会使带宽发生变化。

窗口长度是相对于语音信号的汲引周期而言,通常认为一个语音帧内,应含有1~7个基音周期,然而不同人的基音周期变化范围很大,基音周期的持续时间会从高音的约20个采样点变化到低音调250个采样点,这意味着可能需要多个不同的N值,所以N的选择比较困难,通常在采样频率10kHZ的情况,N选择100~200量级(10~20ms)持续时间是比较合适的。

有声(V)无声(S)清音(U)判决。

能够实现这些判决的依据再于,不同性质的语音各种短时参数具有不同的概率密度函数,以及相邻的若干帧具有一致的语音特性,不会再S , U, V之间快速变化。

每个语音的输入起点和重点,利用短时平均幅度参数M和短时过零率可以做到这一点。

浊音情况下短时平均幅度参数的概率密度函数P(M|V)确定一个阈值参数M_H根据M_H可以确定前后两个点A_1和A_2 后肯定是语音段,但精确起点,还要仔细查找。

为此,再设定一个较低的阈值参数M_L, 然后确定B_1 和 B_2, 从这两个点之后用短时过零率搜索。 清音的过零率高于无声段,但是能量低。

但是在研究结果中表明,利用短时平均过零率区分无声和清音在有些情况下不是很可靠,由于清音的强度会比无声段高一下,将门限提高一些对清音的影响不大,但在没有背景噪声的情况下,无声段将不会穿越这一提高的电平,因为可以正确区分清音和无声段。

因此采用这种过零率,具有抗干扰能力

滤波器可以是宽带带通滤波器,具有平摊的特性,粗略求语音的频谱,频率分辨率低,可以是窄带滤波器,频率分辨率较高。

现在一般都在用数字滤波器,其中如何将模拟滤波器数字化,涉及到零点极点的内容,需要参考DSP的内容。极点波峰,零点波谷。

为窗口函数。

两种方式来理解物理意义

在实际计算时,一般用离散傅里叶变换代替连续傅里叶变换,则需要对信号进行周期延拓。(非周期->连续谱,周期->离散谱),这时候得到的是功率谱 。 如果窗长度为 , 那么 的长度为 , 如果对 以 进行周期拓展,则自相关就会出现混叠现象,即这个周期的循环相关函数在一个周期中的值就与线性相关 的值不同,这样得到的功率谱就是一组前采样,若想得到全部的 个值,可以补充L个零,扩展成2L的信号,并做离散傅里叶变换,这时的循环相关与现行相关是等价的。( 后面这句话对我来说暂时是天书 )

在对窗函数的分析中,我们知道对于任何一个窗函数都存在旁瓣效应,这时候有谐波效应。

语谱图的时间分辨率和频率分辨率是由所采用的窗函数决定的。假设时间固定,对信号乘以窗函数相当于在频域用窗函数的频率响应与信号频谱的卷积。如果窗函数的频率响应 的通带宽度为 ,那么语谱图中的频率分辨率的宽度即为 。即卷积的作用将使任何两个相隔间隔频率小于 的谱峰合并为一个单峰。对于窗函数而言,通带宽度与窗长成反比,如果希望频率分辨率高,则窗长应该尽量长一些。

对于时间分辨率,假设频率固定,相当于对时间序列 做低通滤波,输出信号的带宽就是 的带宽b,根据采样定理,只需要以 的采样率就可以反映出信号的所有频率成分,这时候所具有的时间分辨率的宽度为 因此如果希望时间分辨率高,则窗长应该短一些。因此时间分辨率和频率分辨率是相互矛盾的,这也是短时傅里叶变换本身固有的缺点。

点评:

126新增理解:

这类线性主要有短时傅里叶变换与Gabor变换和小波变换,其中STFT和Gabor变换是一种加窗的傅里叶变换,使用固定大小的时频网格,时频网格在时频变换只限于时间平移和频率平移,窗函数固定的,只适用于分析带宽固定的非平稳信号,实际应用中,希望对低频分析,频率分辨率高,高频时间分辨率高,要求窗函数宽度能随之频率变化而变化。小波分析的视频分析网格变化除了时间平移外,还有时间和频率轴比例尺度的改变。适用于分析具有固定比例带宽的非平稳信号。

这类时频由能量谱或功率谱演化而来,其特点是变换为二次的。双线性关系可以表示为

其中 为能量谱,而 表示取共轭操作。

点评: 好像没见过,先跳过。。。。。

在信号分析与信号处理中,信号的“时间中心”及“时间宽度”以及频率中心与频率宽度是非常重要的概念,分别说明信号在时域和频域中心位置在两个域的扩展情况。

信号再这两个物理量的测量上有一个重要的约束原则,就是著名的“不确定性原理”。它的意义是,信号波形在频率轴上的扩张和时间轴上的扩张不可能同时小于某一界限,即若函数 和 构成一堆傅里叶变换,则不可能同时是短宽度的,即

等号成立的充分必要条件是 为高斯函数,即 证明,用Cauchy-Schwarts不等式可得。

窗函数为高斯函数的短时傅里叶变换称为Gabor变换。

是大于0的固定常数。由于 , 因此 这表明,信号 的gabor 变换 是对任何 在时间 附近对 傅里叶变换的局部化(在说什么??),达到了对 的精确分解。

Gabor变换是具有最小时频窗的短时傅里叶变换。但进一步研究发现,这两种变换都没有离散的正交基, 所以没有像离散傅里叶变换FFT那种快速算法。而且窗函数固定不变,不能随着所分析信号的成分是高频还是低频做相应的变化。所以这时候有小波变换,能够自动调节窗口长度。

小波理论采用多分辨率的分析的思想,非均匀地划分时频空间,为非平稳信号的分析提供了新途径。

定义: 小波是函数空间 中满足下述条件的一个函数或者信号

其中 表示全体非零实数, 为 的频域表示形式。 称为小波母函数。对于任意实数对,称如下形式的函数为右小波母函数生成的依赖于参数(a,b)的连续小波函数,称为小波,其中a必须为非零实数。

的作用是把基本小波 做伸缩, 的作用是确定对 分析的时间位置,也即是实践中心。 在 的附近存在明显的波动,而且波动范围的大小完全依赖于尺度因子 的变化。 时,一致, 时,范围比原来小波函数 范围大些,小波的波形变得矮宽,变化越来越缓慢,当 时, 在 附近波动范围药效,小波波形尖锐而消瘦。

给定平方可积的信号 ,即 , 则 的小波变换定义为

与傅里叶变换不同,小波变换是一个二元函数。另外,因为母函数 只在原点附近才会有明显偏离水平轴的移动,远离原点,迅速衰减为0

假设小波函数 及傅里叶变换 都满足窗口函数的要求,他们的窗口中心和半径分别记为 和 和 和 , 可以证明对于任意任意参数对,连续小波变换和其傅里叶变换都满足窗口函数的要求,他们的窗口中心和宽度分别为

则时频窗是平面一个可变的矩形,面积为 这个面积只与小波的母函数 有关,与 无关,但形状随着a变换。

如果按照线性模型理论,语音信号是由激励信号和声道响应卷积产生。解卷就是将各卷积分量分开。解卷算法分为两大类,一类称为“参数解卷”,即线性预测分析,另一类算法称为“非参数解卷”,即同态解卷积,对语音信号进行同态分析后,将得到语音信号的倒谱参数,此时同态分析也称为 倒谱分析或者同态处理。

同态处理是一种较好的解卷积方法,它可以较好的将语音信号中的激励信号和声道响应分离,并且只需要用十几个倒谱系数就能相当好的描述语音信号的声道特性,因此占很重要的位置。

通常的加性信号可以用线性系统处理,满足线性叠加原理。然后很多信号是由乘性信号或者卷积信号组合的信号。这样的信号不能用线性系统处理,得用非线性系统处理。但是非线性系统分析起来困难,同态语音辛哈就是将非线性问题转换为线性问题处理。语音信号可以看做是声门激励信号与声道响应的卷积结果,所以下面仅讨论卷积同态信号的处理问题。

同态语音信号处理的一个通用的系统如图3-23所示,其符号 表示由卷积组合规则组合起来的空间,即该系统的输入和输出都是卷积性信号。同态系统的一个最主要理论结果是同态系统理论分解,分解的目的是用两个特征系统和一个线性系统来代替非线性的同态系统。分解的情形如下面所示。

分别对应声门激励信号(excitation 和 vocal tract),特征信号 是将卷积信号转化为加性信号,这时候进行Z变换,将卷积信号转化为乘积信号(疑问1),这时候得到的就是频谱,然后通过对数运算,变成加性信号,但是这个时候是对数频谱,使用不便。最后再变换回时域信号。

是在倒谱域对信号处理,常见处理方式是将语音声源信号与声道信号分离。 在倒谱域,总可以找到一个 ,当 时,声道滤波器的倒谱为0,当 时,激励的倒谱接近于0

如果想再恢复语音信号,用d所示的逆特征系统运算即可。

MFCC (Mel Frequency cepstrum coefficient),MFCC是将人耳的听觉感知特性和语音产生机制相结合,因此目前大多数语音识别系统广泛使用这种特征。

耳蜗的滤波作用是在对数频率尺度进行的,在1000Hz以下为线性,在1000Hz以上为对数,这就使得人耳对低频比高频更敏感

对频率轴不均匀划分是MFCC特征区别于前面普通倒谱特征的最重要的特点,变换到Mel域后,Mel带通滤波器组的中心频率是按照Mel刻度均匀排列的,实际应用中,MFCC计算过程如下

MFCC有效利用的听觉特性,因此改变了识别系统的性能,如果倒谱位数增加,对识别性能影响不大。但采用动态特征,误识率有20%的下降。

点评20190130:第三四次囫囵吞枣的看完MFCC,即使知道了倒谱,但最后按个离散余弦变换还是比较不能联系上,反正感觉乱乱的吧,包括差分之类的,想被打回哪门语音信号处理课上回炉了,Mark一下,始终有一天会懂其中的深意的。

在语音聊天中,星星、月亮和太阳通常用作表达感情和情绪的符号,通常用来表示以下含义:星星:表示赞美、喜欢、感谢、崇拜等情感。在一些社交软件中,别人给你送星星也意味着对你的支持与鼓励。月亮:表示温馨、感伤、思念、想念等情感。比如在晚上和情人聊天时用月亮表示甜蜜温馨。太阳:表示开心、活力、热情、感谢等情感。太阳一般被使用在较为欢快和积极的场合,可以代表一天的开始和结束。总的来说,星星、月亮和太阳都是用来表达感情和情绪的简单符号,在聊天中使用得当可以更加生动有趣地沟通。

测试人姓名:熊晓珊

测试时间:2017年1月16日

测试员:刘金玲

测试成绩:867分

普通话等级:二级乙等

1读单音节字词100个

得分:92分(错误6个,缺陷4个)

2读双音节词语50个

得分:169分(错误14个,缺陷3个)

3朗读《父亲的爱》

得分:264分(错误16个)

4说话《我的朋友》

得分:342分(错误18个)

普通话等级:二级乙等

测试人在朗读和交谈时,个别调值不标准,声母、韵母有发音不到位现象,语调自然,表达流畅自然。词汇、语法没有失误。少数难点音(前后鼻音、声母l、r、平翘舌音、轻重格式、儿化)有时出现失误。

测试人的语音问题主要表现在以下几个方面:

一、平翘舌音的发音错误

1具体表现:

这是一个系统性错误。

在测试中:毡、衰落、拆箱卸货、布置、摔倒、总是、插花、这样,这些发音都是错误地将翘舌音zh、ch、sh发成了平舌音z、c、s。

2错误原因

测试人是南方人,不习惯发翘舌音。

3解决办法

第一步:先弄清楚每个字的正确读音是平舌音还是翘舌音。

第二步:掌握翘舌音zh、ch、sh这组音的发音方法是:将舌头前部上举,接近硬颚的前端,同时软腭上升,关闭鼻腔通路,然后气流从间隙透出而成声。切忌将舌头平放。

二、前后鼻音不分所犯的错误

1具体表现

en----eng、in---ing这两组前后鼻音,有时会出现将后鼻音发成前鼻音的情况。如:定、翁、正、恒、藤、名牌儿、轻描淡写、明白、请柬、生日、胜利、生气、人生、路程、朋友、构成、轻轻、醒来、情感,这些词中的后鼻音eng、ing都读成了前鼻音en、in。

2错误原因

测试人已经注意到了前后鼻音的问题,但还不清楚哪些音是后鼻音。南方方言里缺少后鼻音,所以导致测试人习惯于发前鼻音。

3解决方法

勤查字典。弄明白哪些是前鼻音,哪些是后鼻音。重点练习后鼻音。

掌握后鼻音的发音方法。ang、eng、ing这组后鼻音在发音时要注意是 舌面的与软腭闭合 ,使口腔受到阻碍的气流从鼻腔里透出。而前鼻音an、en、in是 舌面前部与硬颚前部闭合 。

改正发音习惯是一个长期的过程,需要刻意地进行专项练习。

三、轻重格式的错误

1具体表现

将轻声字读成了重中格式,如:分析、便宜、明白、念头。

2错误原因

受南方方言的影响。

3解决办法

将普通话的轻声词全部找出来熟读并牢记。

四、儿化音的错误

1具体表现

如夹缝儿、名牌儿这两个词儿化不自然。

2错误原因

因为长期处于南方,不习惯说儿化音。

3解决办法

多听老北京人的儿化韵。

儿化音要说得轻巧、自然,后面的“儿”要短而轻,更多的体会是一个卷舌的动作,要一带而过,而不是重重地发“儿”这个音。

多听规范的新闻联播,要改掉南方人说方言的发音习惯。。

此外,测试人还有一些语音属于读音错误。

帆fān误读为fán

混淆hùn xiáo 误读为hǔn xiāo

炽热chì rè 误读为zhì rè

错误原因:

社会上大多数人都这么读,自己意识不到这是错误的读音。

解决办法:

不要随波逐流,发音要以中央台的播音员为标准,而不是跟随社会上人们习惯的读音。这样的音有很多,如乘务员chéng wù yuán,大部分人包括空姐都读作chèng wù yuán;档案dàng àn,大部分人都读作dǎng àn;处女chǔ nǚ,大部分人都读作chùnǚ……这些需要格外注意。

语音缺陷

语音缺陷不是语音错误,只是发音不够准确到位。

测试人的主要语音缺陷主要有两个。

1是前鼻音en的发音位置不够前稍微有点靠后,听起来像是中鼻音,而汉语普通话里没有中鼻音。

具体表现:

嫩nèn、奔bēn、森sēn,en的位置略有点偏后。

解决办法:

前鼻音韵尾成阻位置要稍微靠前一点。注意en的舌面前部与硬颚前部闭合。

缺陷介于似与不似之间,这只有细微的差别,因此应该仔细分辨琢磨。

语音缺陷的改正难度大大超过语音错误,要引起足够的重视。

2声母r和l、n的发音偶然有缺陷。

具体表现:嫩nèn、峦luán、环绕rào。

解决办法:

l是舌尖中边音,发音的时候舌尖抵住上齿龈的 后部 ,气流到达口腔后从 舌头跟两颊内侧 形成的空隙而成声。

你在发l音的时候舌尖不够灵活,要有弹动感。

n是舌尖中鼻音,发音的时候舌尖抵住 上齿龈 、形成阻塞,气流从 鼻腔 透出成声。

你在发n音的时候,气流没有完全通过鼻腔通道。

r是舌尖后浊擦音,发音的时候,舌头前部上举,接近硬颚前端,形成适度的间隙,气流从间隙轻微摩擦而成声,声带要有振动。

你在发r音的时候,缺少声带振动,舌头前部上举不到位。

声调偶有缺陷。

单音节的声调调值掌握较好。

双音节的声调调值偶然会出现不到现象。

如阳台yáng tái,你的调值不够。

                             小结

测试人熊晓珊的普通话语音面貌较好,分数很接近二级甲等。

您的语言干净,没有缀词。措辞文雅、逻辑清晰。语调真诚温柔。 您的声音温婉动听,与您的气质非常吻合。您的语速适中、音高适中,语言优美、感情真挚,你的语言非常能够打动人。

您是一位非常有魅力美好女子。

         

   

1、初步筛选:对于短视频情感分析样本库,首先需要进行初步的筛选,选取与研究主题相关的样本,滤除噪声数据和不相关的数据。

2、设计标注体系:根据研究目的,设计情感分析的标注体系,通常包括情感类别(如积极、消极、中性等)、情感极性(如正向、负向等)和情感强度(如强烈、一般、微弱等)等多个方面。

3、标注样本:按照标注体系,对样本进行标注。标注可以通过手工标注和自动标注两种方式进行。手工标注需要人工逐条查看样本,并对其进行情感分类和极性判断等标注操作。自动标注可以使用情感分析算法,对样本进行自动分类和标注。

4、标注质量检查:对标注好的样本进行质量检查,确保标注的准确性和一致性。可以使用多位标注员进行标注,然后比对标注结果,发现并解决标注中的错误和不一致性。

5、数据集整合:将标注好的样本整合成数据集,进行数据清洗和数据预处理等操作,以便后续的情感分析研究和应用。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/746386.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-07-08
下一篇2023-07-08

发表评论

登录后才能评论

评论列表(0条)

    保存