




已阅读5页,还剩24页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录摘要1第一章引言211引言312声韵母切分的目的和意义313国内外研究现状414本文主要内容5第二章声韵母切分原则721汉语声韵母的结构7211声母的结构7212韵母的结构822声韵母的声学分析823切分原则简介10第三章基于小波变换的声韵母切分1131引言11311小波变换的研究现状11312小波变换的定义1232声韵母切分方法1233声韵母切分简介1334特征参数的选取和分析14第四章实验数据采集与分析1641粗略的端点检测和声韵母切分1642精确的端点检测和声韵母切分1743切分算法的实现1744实验设计分析19第五章总结26致谢27参考文献28基于小波变换的自动声/韵切分的研究摘要本文基于汉语声韵母切分基础上,总结了国内外的多种声韵母的切分方法,提出了给予小波变换方法的语音切分方法。利用小波变换多分辨率分析的特点对汉语语音信号进行分析,成功地提取了一个反映声母和韵母之间过渡段信息的特征参数过渡帧,利用该参数进行声/韵切分。通过多个实验证明,小波变换能较好地捕捉声韵母间的过渡信息。针对汉语音节“声母韵母”的结构特点设计了这种简单而高效的汉语语音声韵母切分方法。实验结果表明,该方法不仅有效地分割了汉语语音的声韵母段,并且分割精确度大于传统方法所获得的精确度。关键词语音切分切分声韵母小波变换BASEDONLITTLEWAVEMUTATIONAUTOMATICSMUSICALPARTITIONRESEARCHABSTRACTTHEORIGINALISBASEDEDONONCHINESEFEMALEPARTITIONBASEOFPHONOLOGY,SUMUPTHEPARTITIONMEANSOFHOMEANDABROADMUCHKINDSOFPHONOLOGYMOTHER,PROPOSEOFFEINGTHELITTLEWAVEMUTATIONMEANSSPEECHSOUNDSPARTITIONMEANS。THEDISTINGUISHINGFEATURETOUTILIZETHELITTLEWAVEMUTATIONTODIVIDEMORETHANDEMANDEDTHERATEDIFFERENTIATEINGTOANALYSEISANALYSEDTOTHECHINESESPEECHSOUNDSSIGNAL,THELENGTHMESSAGESUCCESSFULLYCOLLECINGBETWEENTHEREFLECTIONINITIALOFASYLLABLEANDFINALOFASYLLABLEINTERIMFEATUREPARAMETERINTERIMFRAME,UTILIZETHATPARAMETERTOCARRYON/SMUSICALPARTITION。DEMONSTRATEBYMEANSOFMUCHTESTS,THELITTLEWAVEALTERNATIESBETTERTOSEIZEINTERIMMESSAGEBETWEENPHONOLOGYMOTHER。INVIEWOFTHECHINESESYLLABLE“THEINITIALOFASYLLABLEFINALOFASYLLABLE”THECOMPOSITIONDISTINGUISHINGFEATUREDESIGNEDTHISKINDOFEASYBUTHIGHEFFICIENCYCHINESEFEMALEPARTITIONMEANSOFSPEECHSOUNDSPHONOLOGY。THETESTISKILLTOMAKEKNOWN,THATMEANSWASNOTMERELYEFFECTIVELYBROKENUPTHECHINESESPEECHSOUNDSPHONOLOGYPARENTSEGMENT,MOREOVERBREAKKINGUPTHEACCURATENESSISMORETHANTHEACCURATENESSTHATTRADITIONALMEANSOBTAINED。KEYWORDSPEECHSOUNDSPARTITIONPARTITIONPHONOLOGYMOTHERLITTLEWAVEMUTATION第一章绪论11引言目前,国际上语音识别的研究工作主要集中在非特定人、大词汇量、连续语音识别,以及提高语音识别系统的顽健性(又称鲁棒性或强壮性)等几个方面。当然对汉语语音识别的研究也不例外。由于汉语固定的声/韵结构特点,以及近年来在连续语音识别和巨词汇量识别研究过程中发现汉语音节单元的局限性,国内许多单位开始不约而同地转向声母、韵母等更小的语音识别单元。因此,作为建立正确、稳定的声/韵模板的关键的第一步,声/韵切分就显得十分重要了。在国内外都有很多的先例,对于声韵母切分不同学者用了不同的方式,这里我简单介绍一下国内外研究的现状。12声韵母切分的目的和意义首先声韵母切分的研究可以用于汉语语音语料库的切分与标注。国内目前有声学所所做的普通话单音节的语音标记,主要是利用声门波来判断清浊,进行声、韵切分,从而进一层强化语料库对语音的标记,两者是相互提高。由于在连续话语中语音的变化复杂,对同类现象的标记要保持前后的一致,所以对语音声韵母的切分就显得尤为重要了。著名语音家KEATING等利用CSL语音分析仪器,对TIMIT进行标记,从时间点上确定音段的实际发音和时长,将连续话语中语音的变化体现出来。这样的语料库,由于语料丰富,又带有语音标记,可以进行统计并做声学分析,能够更定量的反应出语音的变化,从而将语音研究带进新的发展阶段。第二,汉语声韵母的切分可以作为汉语方言辨识的前端处理。语音识别面临的最大挑战其中之一就是社会语音学现象,即地方方言、口语问题。中国各地方的口语问题比美国各地方的口语严重的多,尤其中国南北方的地方口语相差较大,限制了语音识别系统的应用。这是声学层需要解决的问题。我们通过对语流中的音节的声韵母切分,通过语言模型来判决语流所属的方言区域。第三,汉语声韵母的切分为语音识别提供建模单元。精确的声韵母切分同时也促进了语音的更好识别。由于汉语固定的声/韵结构特点,以及近年来在连续语音识别和巨词汇量识别研究过程中发现汉语音节单元的局限性,国内许多单位开始不约而同地转向声母、韵母等更小的语音识别单元。第四,汉语声韵母的切分也为说话人识别与确认提供研究基础。人们说话的差异是由先天和后天两方面因素形成的,大多数与发音人相关的语音特性参数都与它们有关。针对低噪比环境,以语音信号非线性产生机制中存在混沌特性为依据,利用声韵母的不同特性来切分,得出不同的语音参数,用矢量量化方法,使用语料库中的材料,研究说话人识别中的各种参数的效果,从而更好地进行区分。13国内外研究现状张文军、谢剑英、李聪20021他们在基于隐马尔科夫模型的语音切分基础上,融合了不受噪声干扰的先验切分模型,提出了给予贝叶斯方法的语音切分方法。在贝叶斯切分方法的框架内,首先对语音序列进行了变换,将由切分点构成的序列变为由音节长度构成的序列。然后假设音节长度序列符合阶马尔科夫过程,经过归一化处理后,求出了切分的先验概率公式,得到了贝叶斯方法的切分模型。在噪声环境下的实验证明,由于切分模型独立于噪声,对在噪声环境下声学模型的失配提供了很好的补偿,使得语音切分的鲁棒性大大增加。对此SEVENDSENT和SOONGFK的ONTHEANTOMATICSEGMENTATIONOFSPEECHSIGNALSC还有VANHERNERTJ的AUTOMATICSEGMENTATIONOFSPEECHJ中都有过研究。王帆、郑方、吴文虎20022他们针对低信噪比环境,提出一种汉语语音声韵母切分新方法。以语音信号非线性产生机制中存在混沌特征为依据,将普通分形维数扩展为多尺度分形维数,用于考察语音信号在不同最大观测分辨率下的局部自相似性。利用稳定声韵母及其之间过渡段在多尺度分形维数上的不同特性能较好地区分二者。由此针对汉语音节“声母韵母”的结构特点设计了一种简单而高效的汉语语音声韵母切分方法。在干净语音测试集下测试切分正确率为百分之982;在信噪比为10DB的噪声环境下,正确率为百分之823。KUMARK和MULLICKSK的NONLINEARDYNAMICALANALYSISOFSPEECHJ和THOMASTJ的AFINITESLEMENTMODELOFFLUIDFLOWINTHEVOCALTRACTJ,在此他们同样取得丰硕的成果。马建芬20013则提出了另外一种新的基于小波变换和参数滤波的音素分段算法,称为小波参数滤波算法(WPF)。小波变换具有和人耳相似的特征,即随着频率的升高,分辨率下降,我们利用此特征先对信号进行小波域滤波,然后利用参数滤波对信号进行分析。实验表明本文提出的算法在性能上能够优于常规的参数滤波方法。同样的研究对象国内外的人士都有过探讨。张江、黄泰翼20004根据听觉感知系统对于动态语音特征的响应特点,提出了半波差分谱的概念,在此基础上提出了一种简便的音节切分算法,可以将存在大量协同发音现象的连续语音切分成一个个音节。在连续语音上的切分实验结果说明这种切分算法是准确而可靠的。候丽敏、张吉庆19985提出了一种基于模糊神经网络的汉语语音声韵母切分方法。该网络的输入采用了时间相依序列的并置输入形式,它的模糊层的输出值在0,1之间,提供了输入矢量对应的类别的信息,将单音节输入矢量分为噪声、声母和韵母三段,完成了音节的定位和声韵母切分。从录音单字的声韵母和无声段截取小部分进行训练。以汉语数字(0,9)进行了实验。实验结果表明,该方法不仅有效地分割了汉语语音的声韵母段,并且分割精确度大于传统方法所获得的精确度。还有好多好多的例子,如BEZDECKX和PALX也在FUZZYMODELSFORPATTERNRECOGNITIONINPARALLELSELFORGANIZINGFEATUREMAPSFORUNSUPERVISEDPATTERNRECOGNITION中也对此进行了研究,取得成绩。除了他们还有CHRISTOPHERD和NOONANJ等也对此有过研究。总结以上各家在语音切分方面的研究,我们提出了基于小波变换的自动声/韵切分,本文鉴于李永光和李雪耀19986的论文来做研究。他们利用小波变换多分辨率分析的特点对汉语语音信号进行分析,成功地提取了一个反映声母和韵母之间过渡段信息的特征参数过渡帧,利用该参数进行声/韵切分。通过对389个音节的实验,结果表明,小波变换能较好地捕捉声韵母间的过渡信息。14本文主要内容本文基于声韵母原则基础上,利用小波变换对声韵母进行切分。先选取其特征参数来进行比较分析,再利用其固有方式对声韵母进行切分。第二章根据声韵母的语言学和声学上的特征,提出了声韵母切分的原则和方法,同时也介绍了声母与韵母的结构特点,再结合它的声学特点对部分声韵母进行测试统计,用于后面实验的参照。第三章主要详细地介绍小波变换的原理与定义,以及声韵切分的方法。以此为据,通过特征参数的选取对声韵母进行切分。第四章讲了数据的采集与分析,其中又初步介绍了端点检测和声韵母切分方法,结合了几组实验来与小波变换进行对比,试验表明小波变换能较好地捕捉声韵母间的过渡信息,也就是说能更好得处理声韵母切分。第五章总结了实验的结果,并分析其中还存在的问题并提出以后的发展方向。第二章声韵母切分原则21汉语声韵母的结构211声母的结构普通话中的22个声母可分为6大类擦音、塞音、塞擦音、边音、鼻音、零声母。除零声母之外,其他所有的声母全部是单辅音。(1)擦音。普通话里有6个擦音F、H、S、SH、X、H。摩擦音是音节结构框架里的第三段即摩擦音和第五段即过度段构成的。在频谱图上,清擦音最明显的特点是持续时间较长的噪声频谱。不同的摩擦音有不同的摩擦频谱。(2)塞音。普通话里6个塞音B、D、G、P、T、K,其中前三个是不送气塞音,后三个是送气塞音,它们是清塞音。送气塞音与不送气塞音的一个重要区别在于送气塞音的长度要比不送气塞音的长得多,而塞音与擦音的区别在于前者有一段无声的间隙,频谱表现为一段空白区。在间隙之后还有爆破段,产生一个或多个脉冲,经过声道的共鸣后在频谱上表现频域较宽,时域较窄的冲直条。而擦音没有无声段和爆破段,在频谱上表现为摩擦频谱。(3)塞擦音。普通话里的塞擦音有6个ZH、Z、J、CH、C、Q,其中前三个为不送气塞擦音,后三个为送气塞擦音。在音长上,送气的远比不上不送气的长。塞擦音兼有塞音和摩擦音和塞擦音的特性,但又与它们各有差别,主要的区别之一是摩擦段的时长。塞音的摩擦段的时长最长;塞擦音的摩擦段的时长居中。除了摩擦段的时长外,摩擦段振幅变化的动态特性是区别塞音和塞擦音的又一重要标志。(4)边音。普通话里只有一个边音L,如“零”字的声母。边音主要由噪声段和过渡段构成。在边音除阻的一瞬间,舌尖突然下降,声道敞开,开始向第一个元音目标值过渡。由于声道形状的突变,造成共振峰模式突变。在频谱图上表现为一个共振峰“断层”。边音也有音渡。边音音渡的起点是断层右边的共振峰起点,音渡的终点是后面的第一个元音的目标值。(5)鼻音。普通话里只有两个鼻音M、NNG。无论鼻音是声母还是韵尾,都有一个较强的F1以及分布较匀称的低中频能量,还有对元音的鼻化作用,是它区别于其他浊辅音的重要特点。(6)零声母。零声母指的是那些直接以元音开始的音节里的声母,即没有声母、只有韵母的情况,共分为两类。一类是开口呼的零声母,另一类是开口呼的零声母。他们有两个特征一是音节起始时它的振幅的上升速率较快,在短时间内振幅就可以达到最高值;而是在音节起缓处有爆破段,在频谱图上表现为一条或几条与元音共振峰位置相同的冲直条。212韵母的结构普通话的38个韵母大致可以分为三类8个单韵母,如I、A、U等;14个复韵母,如AI、AO等;16个鼻韵母如AN、UANG等。在这38个韵母中有三个(I、ER、E)是特殊韵母1有两种发音,即L资韵,I知韵。由于它们是互不重叠的,所以只需用一个韵母符号来表示。例如,在L前的声母只能有Z、C、S;而I前的声母只能有ZH、CH、SH、R。2ER是儿化韵,很少用到。3E的发音为E,常在IE这个韵母的韵尾中用到。除了这3个韵母外,其余的35个韵母在此就简略了。不同的元音里有不同的共振峰模式,不同的共振峰模式取决于不同的元音产生时的不同声道形状。严格的说,一个共振峰的频率并不是与声道的某一部分的形状直接都相关,而任何一个共振峰又都与声道的整体形状有关。另外应注意,元音并不等于韵母。元音、辅音是按音素的发音特征分类的;而声母、韵母则是按音节结构分类的。这是两种不同的概念,尽管他们之间有一定的联系。22声韵母的声学分析人们能够讲话,也能听懂别人的讲话,但很少关注言语的产生、传播和接受的过程,从说话者开始想说到听话者对话音的理解是一个很复杂的过程。语音信号的处理的研究,起源于发声器官的模拟。1939年,美国人HDUDLEY展出了一个简单懂得发声过程模拟系统,以后发展成为声道的数字的模型。利用该模型可以对语音信号进行各种频谱及参数的分析,同时也可根据分析获得的频谱特征或参数变化规律,合成语音信号,实现机器的语音合成。语音识别的作用是将语音转换成等价的书面信息,也就是让计算机听懂人说话。目前语音识别已经成为语音数字处理研究领域中的重点和难点技术。语音识别可以有许多分类方法,例如,根据语音识别对象来划分,可以分为孤立词识别、连续语音识别等;根据词汇量来划分,可以分为小词汇表、中词汇表、大词汇表语音识别等;根据对说话人的要求来划分,可以分为特定说话人语音识别、多说话人语音识别和非特定说话人语音识别等。汉语声母识别对于汉语声母识别而言,使用LPC倒谱和FFT倒谱方法识别效果较佳。其中倒谱参数对清辅音尤其是清擦音的识别效果要比LPC倒谱参数好,而对于浊辅音则略差。这主要是由于LPC模型不适于清辅音分析,而对于浊音则较之FFT方法更能突出代表浊音主要特性的共振峰结构。在利用语音声学特征进行语种识别时,可以使用各种分析参数。研究结果表明当使用标准矢量量化算法进行语种识别时,使用倒谱、插分倒谱等识别效果均不如加权似然比EIGHTEDIKELIHOODATIO理想当使用矢量量化直方图算法进行语种识别时,使用倒谱效果最好。以下是国内外在语音识别特征下对声韵母切分的几项研究成果多尺度分形维数的汉语语音声韵切分模糊神经网络的汉语语音声韵母切分方法小波变换的自动声/韵母切分的研究听觉模型的耳语音的声韵切分BP人工神经元网络与汉语语音的音节切分23声韵母切分原则简介主要有五部分声母段,过渡段,韵母段,闭塞段,停顿段。(1)声母段在塞音声母、塞擦音声母中,不包括闭塞段。(2)过渡段;存在于声母之间,但本次切分只将韵母部分的过渡切出。这主要是基于这样的考虑,声母部分的过渡与韵母部分的过渡应区别对待。而声母一般较短,其过渡更短,不如韵母部分的过渡相对明显些,这需要进一步研究。(3)韵母段过渡段切出后剩下的就是韵母部分。包括单元音韵母、复合元音韵母和鼻韵母。(4)闭塞段指塞音、塞擦音前的无声段。(5)停顿段特指发音人在发音时出现的语音中断,表现为无声段,它与闭塞段的差别主要在时间的长短和音段的协同发音上第三章基于小波变换的声韵母切分31引言311小波变换的研究现状小波变换是当前应用数学和工程学科中的一个迅速发展的新领域,属于时频分析的一种。经过十余年的研究,小波分析重要的数学形式化体系已经建立,理论基础更加扎实。与傅立叶变换相比,小波变换是空间(时间)和频率的局部变换,因此能有效地从信号中提取信息。通过伸缩和平移等运算,小波变换可以对函数或信号进行多尺度的细化分析,解决了傅立叶变换不能解决的许多困难问题。小波在时域和频域都具有表征信号局部特征的能力,是一种窗口大小固定不变但形状可改变,时间窗和频率窗都可以改变的时域局部化分析方法。小波分析在低频部分具有较高的频率分辨率和较低的时间分辨率,在高频部分具有较高的时间分辨率和较低的频率分辨率,很适合探测正常信号中夹带的瞬态反常现象并展示其成分,因此小波变换被誉为“数学显微镜”。一般来说,除了微分方程的求解之外,原则上能用傅立叶分析的地方都能够用小波分析,有时甚至能得到更好的效果。目前,小波变换已经在信号处理、图象识别、数据压缩、地震勘探、大气与海洋波分析等许多方面取得了有科学意义和应用价值的成果。为了分析信号,传统的傅立叶变换将信号时域特征和频域特征联系起来,把时域波形分解为若干不同频率正弦波的叠加和,这样可以将时域中难以实现的特征在频域中十分清楚的显现出来。由于傅立叶变换不能同时进行时间频率局部分析的缺点,1946年GABOR提出了短时傅立叶变换方法,虽然在一定程度上克服了标准傅立叶变换不具有局部分析能力的缺陷,但它也存在着自身不可克服的缺陷,既在窗函数确定后,时频分辨率也就固定不变了。所以短时傅立叶变换实际上是具有单一分辨率的分析,若要改变分辨率,则必须重新选择窗函数。小波变换是一种窗口时宽和频宽的乘积固定而时间窗和频率窗都可以改变的时域局部化分析方法。在信号的高频部分时间分辨率较高而频率分辨率较低;在信号的低频部分具有较高的频率分辨率和较低的时间分辨率。也就是说,小波分析具有对信号的自适应性。312小波变换定义它是80年代中期发展起来的一种很好的信号分析方法。设信号为X(T),则小波变换定义如下W,ABT1DTAB1式中,为基小波函数,它要求具有衰减性和波动性,即RLT20DTTIR2为了计算机实现的方便,将式1离散化,取A,则RBNAAMM00,1可得到信号的离散小波变换TZNBAWM,00,小波变换对于不同的频率成分相应于在时域上的采样步长()是BAM0有调节性的;对于高频成分相对小的M值),其采样步长小;而对于低频成分(对应于大的M值),其采样步长大。也就是说,小波变换用一个灵活可变的时频窗对信号进行分析,很好的解决了时间分辨率和频率分辨率的矛盾。在低频段采用高的频率分辨率和低的时间分辨率,给出信号较好的精度。这样,信号经过小波变换以后,被分解为交织在一起的对频率成分。从信号处理的观点来看,小波变换是一个带通滤波器,特别地,在基2的情况下(即),它是20A一个倍频带通滤波器。32声韵母切分方法韵母的能量主要集中在2001000HZ之间,而声母在这个区域的能量很少;声母主要分布在10005000HZ之间的较高频率内。直接切分法粗判语音开头粗判清浊音的切分点粗判语音音节结尾粗判下一个音节的开头粗判结束,这样同样可以得到比较精确的结果。小波变换是一种新型的高效的声韵母切分方法,利用小波变换多频率分析的特点,可以把大于1000HZ的语音信息提取出来,即分离出声母的大部分信息,从而判断出声母和韵母之间过渡段的位置。若出现难以辨别的情况,可以经过三级检测后再进行进一步修正,最后能得到更为精确的结果。33声韵母切分的简介声韵母切分是数字语音处理中的一项重要内容。声母音长比较稳定,不太因人而异。因此,如果声/韵切分准确,就可以提取完整、可靠的声母信息进行分析,从而将声母粗分类作为语音识别由特定人转向非特定人识别的一种重要手段。从语音学的角度来看,声母和韵母之间有一定的界线,但在声学信号上这一界线并不很清晰,往往要采用人工切分的方法才能获得较为准确的切分。然而,在自动语音识别系统中,这一切分过程要求自动实时地实现,而目前尚没有一种公认满意的声/韵切分算法。因此,做一些自动声/韵切分算法的研究是十分必要的。汉语语音的声韵母结构比较特殊,汉语每一个字是一个音节,所有的音节都有“(声母韵母)”(表示可选项,下同)这种固定的声韵母结构,即在一个音节中只有一个声韵母切分点。传统的汉语声韵母切分方法一般基于汉语的短时参数或频域参数,通过与设定的阈值进行比较或搜索特征参数变最剧烈的区域来确定声韵母的切分点。这些方法存在浊声母和韵母的切分效果不佳,对语音环境条件(采样率、话筒音质、背景噪音、音量、说话人等)的鲁棒性差等缺点。正常语音的声韵母切分方法主要有过零率、短时能量、线性预测编码LPC参数、倒谱参数法以及基于小波变换的切分方法等。汉语音节有固定的声韵母的结构,并且声母和韵母之间结合紧密,中间有一段表征不同声韵母相接的过渡段。通过对这个过渡段的多次实验分析,发现在过渡段存在着能量的跳动,在信号上表现为一些不连续点(突变点),而小波变换能很好的捕捉到这一变化。有人对所有汉语普通话作了详细的频谱分析后发现,韵母的能量主要集中在2001000HZ之间,而声母在这个区域的能量很少;我们知道声母主要分布在10005000HZ之间的较高频率内。因此,利用小波变换多频率分析的特点,可以把大于1000HZ的语音信息提取出来,即分离出声母的大部分信息,从而判断出声母和韵母之间过渡段的位置。利用小波变换多分辨率分析的特点对汉语语音信号进行分析,成功地提取了一个反映声母和韵母之间过渡段信息的特征参数过渡帧,利用该参数进行声/韵切分。通过对389个音节的实验,结果表明,小波变换能较好地捕捉声韵母间的过渡信息。34特征参数的选取和分析声/韵切分的性能主要取决于所选取的特征参数是否能准确地描述声韵母间的变化规律,是否能突出声韵母间的差异。一般来说,声/韵切分的特征参数可分为时域参数和频域参数。其中,常用的时域参数主要有短时能量和短时过零率,常用的频域参数主要线性预测编码参数、倒谱系数、共振峰频率及带宽、反射系数等。为了尽可能地降低计算复杂度,提高切分率,在大量实验的基础上,我们选取了以下6个语音特征参数。(1)原始语音信号的帧平均能量和小波变换第三级细节信号的能量帧平均能量是指将语音信号进行分帧处理以后帧内各点的平均能量。般来说,韵母能量较大,清辅音中除送气塞音(P,T,K)、不送气塞音(B,D)外,其余的则能量相对较小;由声母向韵母过渡的过程中,一般要伴随着能量的较大变化(突变);以浊辅音(M,N,L,R)开始的音节中其声韵连接处能量较大,且过渡较缓。选取第三级小波变换对语音进行分析,相当于给语音信号进行了一次带通滤波,将语音信号10003000HZ的大部分信息分离出来,放在第三级细节信号里面。通过声母和韵母的频谱特性分析可知,这一级细节信号比原始语音信号更能突出声韵母间的差异,加大了声韵过渡段处能量的相对变化。(2)帧过零率和原始语音信号中前10帧平均过零率帧过零率是指将语音信号分帧处理后各帧的跨零次数。在原始语音信中,清擦音(F,X,SH,X,H)、不送气塞擦音(Z,ZH,J)、送气塞擦音(C,CH,Q)的过零率偏高,以S,SH,X,Q等尤为明显;然而它们的能量变化却不太明显,这就导致用第三级细节信号的能量求取的过渡帧数和实际的过渡帧数总是存在着一些差异。因此,在实验室环境下,用原始语音信号的前10帧的平均过零率作为求过渡帧的第一级检测目的是为了声/韵切分过程中用能量对S,SH,X,Q等过零较高的声母进行切分造成的偏差。(3)原始语音信号中前10帧平均能量我们发现送气塞音(P,T,K)的能量曲线的前端有一个明显的直冲,这很象不送气塞音B,D,G由声母段很快进入韵母段的特征(不送气塞音B,D,G声韵过渡段很短。)因此,单用第三级细节信号的能量往往把声/韵切分点定在送气塞音的直冲前面,这就很难将不送气塞音B,D,G和送气塞音P,T,K区分开。为此,抓住塞音的能量较高这一特点,提取出原始语音信号前10帧平均能量作参考,作为进行声/韵切分的第二级检测,将塞音B,D,G,P,T,K分离出来,转入下一级细判。(4)第三级细节信号中从初判过渡帧前数8帧起连续10帧的平均能量经过能量二级检测以后,满足检测条件的可能为不送气塞音(B,D,G)或送气塞音(P,T,K),为了进一步将它们区分开,提取了第三级细节信号中从初判过渡帧前数8帧起连续10帧的平均能量这一特征参数。我们知道,不送气塞音(B,D,G)在爆破段结束后便立即进入过渡段,而送气塞音(P,T,K)在爆破段结束后却要经过摩擦段和送气段才进入过渡段。这个特点在制作的波形观测器中很容易看出来。利用这一特征参数可将不送气塞音(B,D,G)和送气塞音(P,T,K)的过渡帧确定下来。语音特征提取基本过程框图如下语音信号A/D转换端点检测预加重汉明窗参数存盘倒谱分析LPC分析自相关第四章实验数据采集与分析41粗略的端点检测和声韵母切分这里采用以下步骤来初步进行端点检测和声韵母切分(1)设定合理阈值判断语音开始帧能量阈值15EN、过零率阈值2ZR、能频积阈值2AR判断语音信号中清音和浊音切分的阈值分别为能量阈值56EN、过零率阈值05ZR5BR;判断语音结束由于一段语音信号结束时末尾经常带有比较大的噪音或者有比较长的拖音,所以应用上述的特征参数作为阈值可能会造成一些错误。鉴于此原因,可利用结尾后10帧(在正常的语音信号中这部分肯定是无声段)来提取特征参数设定阈值(具体计算与上述相同)。三个特征参数(能量、过零率和能频积)的阈值系数分别设为2、2、2。(2)端点检测A粗判语音开头若连续3帧的能量、过零率或者能频积大于自己相对应的阈值,则粗判该帧为语音的开头,转(3);否则重复(A)。B粗判语音音节结尾若连续5帧的能量、过零率和能频积均小于所设定的阈值,则粗判此帧为这个音节的结尾,转(4);否则重复(B)。3粗判声韵母的切分点连续采集10帧,若连续10帧的能量、过零率和能频比都超过各自所设定的阈值范围,则粗判此帧为语音信号中该音节浊音的开始,转(B);否则重复(3)。4粗判结束。5声韵母提取示意图如下设定合理阈值语音信号粗判语音开头粗判语音结尾粗判声韵母切分点粗判结束42精确的端点检测和声韵母切分由于声韵母发声时的不稳定性和连续语音有音节连续的现象,使得粗判的结果不太精确,有时甚至不能将音节切分开。因此,通过用粗判得到的第一个音节作为相对样本,对它取帧能量和过零率的平均值,分别用ENERGY和ZERO表示。令能量阈值为ENERGY乘以某一系数,同时能频积和能频比的阈值也做相对的变化。经过多次实验证明,判断语音信号的开头和结尾可以采用粗判的结果,它与进一步精确判断的结果是一致的。在判断清音和浊音的分界点、音节以及音节间的结尾和开头时,需要进一步设定阈值。具体的阈值设定为判断清音和浊音的分界点时,能量阈值为05ENERGY,能频比阈值为05,过零率与上面介绍的相同;判断音节与音节之间的开头和结尾时,能量阈值为015ENERGY和02ENERGY,过零率阈值不变,能频积阈值为03ZEROENERGY(判断开始),能频比阈值系数为02(判断结束)43切分算法的实现在对预处理过的语音信号进行声/韵切分的过程中,采取了三级检测和进一步修正算法求取标志声韵过渡特征的过渡帧。第一级检测利用原始语音信号中前10帧的平均过零率参数,将过零率变化比较明显的擦音,如S,SH,X,Q等优先求出其过渡帧MIXFRAME。其检测条件ZERO大于VZC。其中,ZERO为原始语音信号中前10帧的平均过零率,VZC为根据实验和语音知识得到的过零率阈值。如果条件满足,则在此级检测的基础上,再用原始信号的过零率在MIXFRAME附近逐帧细测,最终求得过渡帧,检测过程结束;如果条件不满足,则转入第二级检测。这一级检测要求限制条件要高,防止因过零率参数的不稳定而造成的影响。第二级检测利用原始信号中前10帧平均能量参数将能量变化比较明显的塞音,如B,D,P,T,K等分离出来。其检测条件为ENERGYVEG,其中,ENERGY为原始语音信号中前10帧的平均能量,VEG为根据实验和语音先验知识得到的能量阈值。如果条件满足,则利用原始信号的能量粗判声/韵切分点,得到初判过渡帧MIXFRAME1,转入进一步修正程序;如果条件不满足,则转入第三级检测。这一级检测要求限制条件也要很高,防止其它能量也较高的浊声母M,N,L,R,Y,W等的混入。第三级检测利用小波变换的第三级细节信号的能量参数再判过渡帧MIXFRAME2。其检测条件为/MIXFRAME2MIXFRAME1/VZC二级检测ENERGYVEG三级检测得到初判过渡帧MIXFRAME2得到初判过渡帧MIXFRAME1|MIXFRAME2MIXFRAME1|LEN得到过渡帧进行修正图1全音节图2声母图3韵母手工切分是依据过零率、能量在声韵母上的明显差别来对语音信号进行切分。声母上过零率较高,能量较低韵母反之。手工处理基本运用于大量语音信号的切分,对于精确的单语音切分来说,它是很粗糙的。下面列表是对于部分声韵母切分时对于过零率、能量、时长的统计,以及求出了它们的平均值。声母CHHLSHT59245127810723794823912831317476过零率4484522961204575平均过零率50734313285711973476700463248343681637939554750062220155328025577541522能量0044223153211264743169705平均能量005072271430248470475556713920898203101181179130235137时长14319511623599手工切分平均时长15431963114722431123韵母EIUNA47512145417905361249380765过零率4811330432743平均过零率49731264345176610989582653485034223185629851832331363007262971182能量18146031400821021033047
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 司机死亡补偿协议书
- 口腔用品转让协议书
- 单位包车接送协议书
- 合伙货物运输协议书
- 地坪维修合同协议书
- 厂房利益分配协议书
- 了解2025年工程法规考试知识要点试题及答案
- 医院实践基地协议书
- 医院人员聘用协议书
- 员工停工放假协议书
- 人口信息查询申请表(表格)
- 被执行人财产线索提供书(模板)
- 电力电子手机充电器课程设计报告
- 遥感地质蚀变异常信息提取实验
- 中学生学习计划5总结PPT模板下载
- 房地产企业所得税汇算清缴鉴证报告附模板
- GB 5009.34-2022食品安全国家标准食品中二氧化硫的测定
- GB/T 12622-2008管法兰用垫片压缩率和回弹率试验方法
- 语文五年级 【知识精讲】7.阅读(2)文言文阅读
- 社会心理学8-人际关系课件
- QC-R 596-2017高速铁路板式无砟轨道自密实混凝土高清-无水印
评论
0/150
提交评论