(生物医学工程专业论文)基于语音信号组合特征的语音图谱显示.pdf_第1页
(生物医学工程专业论文)基于语音信号组合特征的语音图谱显示.pdf_第2页
(生物医学工程专业论文)基于语音信号组合特征的语音图谱显示.pdf_第3页
(生物医学工程专业论文)基于语音信号组合特征的语音图谱显示.pdf_第4页
(生物医学工程专业论文)基于语音信号组合特征的语音图谱显示.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(生物医学工程专业论文)基于语音信号组合特征的语音图谱显示.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东北失擘硕士学位论文 a b s t r a c t s p e e c hi m a g e s h o wb a s e do nc o m b i n a t i o n c h a r a c t e ro fs p e e c hs i g n a l a b s t r a c t i n f o r m a t i o nt r a n s f e rb yv o i c ei st h em o s tc o n v e n i e n ta n dn a t u r a lc o m m u n i c a t i o n m e a nb e t w e e np e o p l e s o m ed e a f - m u t ec a n n o tt a l kb e c a u s et h e i ra u r a lo r g a ni s d a m a g e da n dc a n n o tc o l l e c ts p e e c hi n f o r m a t i o nt ob r a i n ,b u tt h e i rp r o n u n c i a t i o no r g a n i si n t a e t i nt h i sc o n d i t i o n t h ed e a f - m u t ec a l lc o m m u n i c a t ew i t ht h en o r m a lp e r s o ni f t h e ya c c e p ts o m es p e c i a lt r a i nt h r o u g hs o m ev i s i o nt r a i ns y s t e ma f t e ra m o m e n t t h ev i s u a la s s i s t a n ts p e a k i n gt r a i n i n gs y s t e mi no r d e rt oh e l pd e a f - m u t es t u d y s p e e c hh a sb e e nw i d e l yr e s e a r c h e db yt h ei n s i d ea n do u t s i d et h ec o u n t r ys i n c et h e m i d d l eo f19 6 0 s b u tt h em a j o r i t yo fs y s t e ma d o p t ss i n g l ev o i c ec h a r a c t e rt os h o w i m a g e t h e s em e t h o d sa r en o to n l yv e r yl o wi d e n t i f i c a t i o nr a t eb u ta l s om a k et h e d e a f - m u t ed i f f i c u l t l ya c c e p t e db e c a u s eo ft o op r o f e s s i o n a l t h em a i nm e t h o d so fs p e e c hs i g n a le n d p o i n td e t e c t i o na l ec o m p a r e di nt h i st h e s i s , s u c ha ss h o r tt i m ee n e r g y , s h o r tt i m ee n e r g ya n ds h o r tt i m ea v e r a g ez e r o c r o s s i n gr a t e , s h o r tt i m ee n e r g y z e r o p r o d u c e ;t h et i m ed o m a i nr e p r e s e n t a t i o no fs p e e c hi sa n a l y z e d ; t h ev a r i o u sp i c t u r ep a t t e r no fs p e e c ha n a l y s i sd o m a i ni nn o w a d a y sa r ei n v e s t i g a t e d d e e p l y ,a n dt h ep r i n c i p l eo ft h e s em e t h o d s ,t h e i ra d v a n t a g ea n dd i s a d v a n t a g ea r eg i v e n b a s e do nt h ep r i n c i p l eo fa c o u s t i c sa n ds p e e c hd i g i t a ls i g n a lp r o c e s s ,c o m b i n e dt h e p r o c e s so ft h ec o r r e c t i o na n dd i s p o s a lt h ev o i c et ob r a i nb y t h eo r g a no fh u m a nr a c e s e l lan e wm e t h o dw h i c hm a k et i m e - f r e q u e n c y e n e r g yo fs p e e c hf e a t u r ec o m b i n e a sa f l e wf e a t u r ev e c t o rt op r e s e n ts p e e c hi n f o r m a t i o ni sp r o p o s e d a n dt h ef e a t u r ei s d i s p l a y e da tc r t i ns i m p l yp i c t u r em o d e t h es i m u l a t i o nr e s u l t ss h o wt h a tt h em e t h o d j sc o r r e c t k e y w o r d s : c o m b i n a t i o n c h a r a c t e ro f s p e e c h s i g n a l ; s p e c t r u mg r a m ; t i m e - f r e q u e n c y - e n e r g y ;i m a g e m 独创声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加 以标注和致谢的地方外,不包含其他人已经发表或撰写过的研究成果,也不包括本人为 获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任 可贡献均已在论 文中作了明确的说明并表示诚挚的谢意。 学位论文作者签名:如忱 签字日期:7 砑,r l - 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即 学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交 流。 ( 如作者和导师同意网上交流,请在下方签名:否则视为不同意) 学位论文作者签名:导师签名: 签字日期:签字日期: 东北尢学硕士学位论文第一章引言 1 1 研究背景 第一章引言 1 1 1 语音数字信号处理 通过语音传递信息是人类交流信息最自然、最有效、最方便的手段,也是人 类进行思维的一种依托。因此,语音信患是人们构成思想疏通和情感交流的最主 要的途径。现在人类已开始进入了信息化时代,计算机的使用己普及到人类社会 的各个领域,随着计算执的便携他的发展和计算环境的日趋复杂化,人们越来越 迫切的希望让计算机能理解人类语言,使其使用更自然化、人性化。所以用现代 化手段研究语音处理技术,对促进杜会的发展有十分重要的意义。 语音的数字信号处理,包含三个方面的内容,即语音信号的数字表示方法; 语音信号数字处理理论的各种方法和技术;数字语音处理理论和技术在各个领域 中的实际应用。 语音信号的数字表示方法可以分为两类,一类是波形表示,另一类是特征参 数表示。前者主要是采用取样和羹化的方法将模拟语音信号转换为数字信号;参 数表示方法的基础则是把语言信号看成是某个模型在定激励下产生的输出,而 激励源和模型参数便作为语音信号表示。 语音信号的处理方法可以是时域的,或者是频域的,也可以应用时频联合分 析方法。考虑到语音信号本身是时变信号的特点,在短时内才可以饕成平稳的信 号,因此,短时处理技术是处理语音信号的一种最基本的技术。 语音信号处理有着广泛的应用领域,其中比较重要的包括语音压缩、语音识 别、语音合成、语音编码和语音增强等。而语音识别技术作为是一种人机通信技 术使人与计算机之间、人与人之间的交流更加方便。在计算机、办公自动化、通 信、国防、机器人等方藤有着广阔的应用前景。 1 1 2 辅助聋哑人语音训练技术以及发展现状 据1 9 8 7 年国家统计局对全国残疾人抽样调查公布的数字,由于听力及智力残 疾导致的语言障碍有2 7 8 7 万人,每年有新生聋哑婴儿也近2 0 万人,是残疾类型 中比例最高。听力损失作为名列第十五位的世界疾病,对社会造成了很大的影响 f 】。但对于其中一些听力障碍者,他们的发音器官是好豹,但听觉神经系统受损 垂- 东北大学硕士学位论文 第一章引言 后,听不清甚至听不到周围的声音和人们的语音,尤其7 岁以内的聋儿正处在语 言、智力等诸方面发展的关键时期,无法进行模仿学习,同时听神经长期得不到 有效的刺激,导致大脑皮层的听觉、言语和语言中枢发育迟滞,语音能力低下。 所以尽管大多数聋儿的发音器官完全正常,但由于无法通过听觉反馈校正自己的 发音而存在有严重的语音问题。现阶段一些学者研究发现聋哑儿童的视觉鉴鄹能 力和对色彩刺激的视觉记忆能力较强。由于生理的幸 偿,他们的视觉记忆和想象 力有可能高于正常儿童【2 】。如果帮助这一部分人进行语言训练,建立、完善听觉 认知、形成正确的言语反射,重建听觉言语链,可以最大可熊的恢复语啻功能。 可见,聋哑人的语言康复是残疾人康复中的一个重要课题。 聋哑人语言康复训练始于6 0 年代,随着计算帆技术的发展,计算机辅助语音 训练系统也得到了不断她发展。8 0 年代日本开发了能使听觉障碍者进行发声和发 音训练的装置,同期其它国家也研制了具有类似功能的训练装置,中国科学院也 开发了耳聋儿童汉语教学系统等。 2 0 世纪8 0 年代起,就有许多学者研究计算机言语训练方法【3 i ,这些方法可 主要分为2 种:种是利用聋哑人的残存听力借助助昕器载通过人工耳蜗植入进 行听力重建听取自身发音以纠正发音的听觉反馈。借助助呀器虽然造价低,但效 果较差,对熏听、重度耳聋、金聋的患者效聚更差或完全无效。而移植人工耳蜗 虽然可以使极重度耳聋者得到听觉恢复但价格昂贵,一些家庭由于经济的原因或 地区医疗条件的限制无法进行手术。另一种是在聋哑人视觉代偿的基础上进行的, 聋哑人因听觉通道受阻无法形成对自己声音的反馈,但借助予视觉通道,他们发 出的声音可以形象显示,从两可据此对发音行为进行调节。虽然,借助视赏代偿 功能形成合适的条件反射机制没有直接地借助听觉形式来得快,但是经过一段时 间的训练之后,完全可能建立合适的发音机制。这种方法又可以分为以下三种形 式: ( 1 ) 系统向学习者提供声音、静止或电视图像,以诱导学习者发啬,但并不 对学习者的发音进行分析和评价,这种系统多采用数摇库来组织语音图像数据。 ( 2 ) 系统通过麦克风、摄像头和其它感知器,获得学习者发音时的语音和其 他信息,通过分析后在屏幕上反馈,与正确发音避行对比,如显示语音的响度、 基音、频谱以及发音器官的运动等。 ( 3 ) 对学习者的发音进行准确性评分,并将其结果反馈给学习者。 根据系统反馈给聋哑人的不同特征,又可以将言语康复训练系统分为以下两 类: ( 1 ) 反馈发音器官的运动方式或其它生理特征参数。系统首先显示芷确发音 2 东北大学硕士荦位论文 第一章引言 时发音器官的运动或者其它生理特征,然后通过麦克风或其它感知设备获得聋哑 人发音时的发音器官运动和其它生理特征,可让聋哑人进行对比或者判定发音是 否正确。这些感知器包括腭动记录仪、电声门圈测试仪、气流记录器、麦克风、 鼻流量测量仪等。这些系统可以显示腭位图,显示发音时的唇形变化,显示发音 时的面部运动,显示发音时声道的变化等等。 ( 2 ) 反馈语音的声学特征。系统首先显示正确发啻的语音特征,通过麦克飙 拾取聋哑人的发音,然后显示聋哑人发音的语音特征,聋哑人通过对比来纠正发 音中的错误,这些特征包括响度、基音、共振峰、语谱图等1 4 1 。 由于通过视觉反馈,几乎适用于一切聋暖人,调练效果也比较好。在早期研 制的视觉反馈系统成本较高,随着计算机和大规模集成电鼯技术的发展,尤其是 语音专用芯片和单片机的出现,成本已大大降低。如果雕单片机和语音专用芯片 组成既有听觉反馈,又有视觉反馈鹃小单元,与家用电视概联成系统,则不仅功 能强,其价格也足以在一般家庭普及。但这种系统所显示豹信息对一般的受训眷 来说太专业了,不易为他们。尤其是聋哑j l 童所理解,因此影响了司l 练效果。这 是这类系统的最大缺点f 5 1 。 1 2 课题可行性研究 通过对语音信号的分析,可以看到它同人骼许多生理信号有藿共同性,茹视 觉信号、肌电信号等,都很难用常规度羹信号的量和方法来加以说明,如频率、 振幅、慕振和谐振等。因此怨要用单一的特征来反映语音发音特征是很困难的。 我们都知道人对步 晃的感知和交互都是通过入的生理器官在大脑的指挥下, 对信息的采集并传递给大脑,大脑对这些外部的语音信号进行存储和处理得到可 以理解的信息。如果我们能找到一种和人类听觉系统对语音采集方式、大脑对语 音存储、理解原理相近的方法来表达语音昀特征,并直接将这些特征反映在c r t 上,利用聋哑人自身视觉器官和大脑来识别这姥语音,即可达到训练其发裔的目 的。 我们先从昕觉系统的缀成入手研究,听觉系统由耳廓、外耳道、鼓膜、听小 骨、耳蜗及听觉神经组成。耳廓收集音经外耳遵瓢鼓膜到听,l 、骨到耳蜗刘昕觉神 经送入大脑。在这段路程中,由于外耳遭的形状,在声音到鼓膜前将声压放大 3 - 6 d b ,通过听小骨形成的一套机械杠杆,再次将声压放大1 5 倍,然后是骨传导 产生更大的放大约2 2 倍。v g o n b e k e s y 用正弦信号对耳蜗中的基底膜进行研究, 得出以下结论: 基底膜的听觉晦应与刺激频率有关,频率较低时,靠近耳蜗尖部的基底膜产 童。 东北大擘顼士学位论支 第一章引言 时发音器官的运动或者其它生理特征,然后通过麦竟_ i j 砘或其它感知设备获得聋哑 人发音时的发音器官运动和其它生理特征,可让聋哑人进行对比或者判定发音是 否正确。这些感知器包括腮动记录仪、电声门图测试仪、气溉记录器、麦克风、 鼻流量测量仪等。这些系统可以显示腭位图,显示发音时的羼形变化,显示发音 时的面部运动,显示发音时声道的变化等等。 ( 2 ) 反馈语音的声学特征。系统首先显示正确发膏的语音特征,通过麦克风 拾取聋哑人的发音,然后显示聋哑人发音的语音特征,聋哑人通过对比来纠正发 音中的错误。这些特征包括响度、基音、共振峰、语谖图等h 】。 由于通过视觉反馈,几乎适用予一切聋暖人,训练效果也比较好。在早期研 制的视觉反馈系统戒本较高,随着计算枫和大规模集成电路技术的发展,尤其是 语音专用芯片和单片机的出现,成本已太大降低鳃臻蔗单j = 机和语音专用芯片 组成既有听觉反馈,又有视蹙反镶的小单元,与家舟电视枫联成系统,则不仅功 能强,其价格也足以在一黢家庭普及。但这种系统所显示的信息对一般的受训者 来说太专业了,不易为他们,尤其是聋哑儿童所理解,霹此影响了训练效果。这 是这类系统的最大缺点口j 。 1 2 课题可行性研究 通过对语音信号的分析,可以看到它阔人的许多生理信号有着共同性,如视 觉信号、肌电信号等,都棍难用常规度量信号的鬣霹方法来加以说明,如频率、 振幅、共振和谐振等。西此想要用单一的特征来反获语音发啻特征是狠困难的。 我们都知道人对外界的感知和交互都是通过人的生理器官在大脑的指挥下, 对信息的采集并传递给大脑,大脑对这些外部的语音信号进行存储和处理得到可 以理解的信息。如果我们能找到一种帮入类昕觉系统对语音采集方式、大脑对语 音存储、理解原理橱近的方法来表达语音的特征,并直接将这些特征反映在c r t 上。利用聋哑人自身视觉器官和大脑来识别这些语音,即可达辩 i 练其发音的韬 的。 我们先从昕觉系统的缀成入手研究,听觉系统由耳廓、外耳道、鼓膜、听小 骨、耳蜗及听觉神经组成。耳廓收集音经外耳道到鼓膜到听小骨到耳蝇到听觉神 经送入大脑。在这段路程中,由于外耳道韵形状,在声音劭鼓膜前将声压放大 3 - 6 d b 通过听小骨形成的一套机械杠杆,再次将声压放大1 5 倍,然后是骨传导 产生更大的放大约2 2 倍。v o o n b e k e s y 用正弦信号对耳蜗中的基底膜进行研究, 得出以下结论: 基赢膜韵听觉响应与刺激频率有关,频率较低时,靠近耳蝇尖部的萋底膜产 基底膜的听觉响应与刺激频率有关,频攀较低时,靠近耳蜗尖部的萋底膜产 - 墨- 东北大学硕士学位论丈第一章 i 言 生响应;反之,频率高时,则靠近圆形窗的窄而紧的基底膜产生响应,基底膜频 率响应的空间分布,导致基底膜上不同的位置的柯蒂氏器官的纤毛细胞对不同频 率的声音弯曲,从而刺激附近的听觉神经末梢产生电化学脉冲,并经听觉神经传 递给大脑。整个过程类似一组滤波器。 图1 ,1 人耳的构造 f i g 1 1t h ef r a m eo fh u m a ne a f 那么大脑是如何对语音信号进行识别和理解的昵? 举例来说当听到元音【a 1 的时候是听者如何分辨出来的? 可以肯定的是入脑中存储了一个【a 】音的模式,当 听到的声音信号传导至大脑时,如果能与这个横式匹配上刚得如结论,这个音是 【a 】。那么对大脑的模式库的研究和珏配过程就是关键点了。 通过对一系列音素研究表明,大脑的模式库中的每条记录存放的是语音信号 的识别特征,而不是语音信号的全部,这可以从不同入的说话者均可识别而简单 推得。模式库中的数据是动态数据,它包含的是语音波形的基本样式及这种样式 随时间变化的情况。这一点很像短时频谱分析但又不同于短时频谱分析,它对频 率的具体数值不十分关心,更关心的是这些频率之闽的关系,包括频率之间的比 例关系和这些频率的信号强度关系。 那么基于这种模式库,人的听觉系统包括大脑在内的强配过程就应该是这样 的: 从时刻0 起。人昕到第一个声音信号开始,听觉神经将通过“过滤器”( 耳蜗 与柯蒂氏器官及听觉神经束) 的声音,按不同频率用不同的神经柬送入大脑,大 脑根据它们频率与幅度关系,得翔第一个数据,在根撼这些比例关系随时间的变 。4 东北大学硕士学位论文第一章引言 化情况,得到其它的一系列数据,根据这些数据决定模式库中的某一存储位簧, 这个位置的输出值便是听到的语音【6 l 。 正是基于以上的分析和对语音相关的声学特征的研究,我们提出种首先仿 照人类听觉神经系统作用来提取语音信息,再采取大脑的模式库处理方式对语皆 信息按照频率一时间一能量方式进行组仓,得到一种组合特征矢量,并通过图形 显示出来的新的语音表示方法。 这种方法与其它现有的语音识别方法相比,方法原理易于理解,计算量简单, 同时又综合了语音的时域、频域、能量特性,做出的图形也易于识别,使用这种 方法人只需要进行简单的训练,根据人类大脑自身反馈和极强的视觉识别功能, 就可以进行语音的辨识。 1 3 本文研究的内容及章节的安排 1 3 1 本文研究的内容及意义 本文以声学和语音信号分析的基本理论为基础,研究了语音信号图像表示在 聋哑入进行发音训练中的应用闯题。基于基本韵语音信号的分析技术,介绍了语 音信号的预处理中的端点检测方法,分析比较了基于短时能量、短时能量和短时 平均过零率、短对能零积法的检铡方法;分析了语音的时域的表示方法,同时对 现阶段在语音分析领域中使用的各种语音图谱进行了详细的介绍和分柝,提出了 这些方法各自的应用范围、优点和不足。在这些基础上根据大脑的模式库处理方 式提出了一种新的语音图谱的表示方法。在仿真试验中,本文对从语音提取到最 后的图形的表示的各个环节进行了仿真,通过实验证明了该方法的有效性。该方 法的意义在于将这种新的方法用于聋哑人进行发音训练中,方法比较易于理解、 计算量小,又符合人类自身生理器官对语音的感知的过程,取得了比较好的效果。 现阶段此方法还有很多不足,谨希望给在语音信号处理领域中研究的人提供些 帮助。 1 3 2 章节安排 本论文共分为6 个章节。 第章为引言,对语音数字信号处理在辅助聋哑人语音训练技术作了介绍, 阐述了语音数字信号处理研究内容和在辅助聋哑人语音训练技术分类及发展。提 出了该课题的意义和可行性的研究并介绍了本论文的布局。 第二章则概括性介绍了语音信号处理的声学相关理论基础一语音信号的发奇 s , 东北失擘硕士学位论文第一章引言 特征,为课题的设计提供理论知识。 第三章研究了语音信号的预处理技术,是谍题设计的第一步工作。 第四章讨论了语音时域图谱和现阶段其它各种语音图谱,说明了其各自的优 点和不足以及应用范围。 第五章提出了基于语音信号的组合特征进行语音图像显示的方法,详细分析 了这种方法的特点和设计的步骤。 第六章通过m a t l a b 进行程序仿真并分析结果,验证了理论的正确性。 在文章最后总结了论文的主要工作,给出了结论及进步的工作设想。 6 东北大学硕士学位静文第二幸语音信号基本声擘特征 第二章语音的基本声学特征 2 ,1 语音的发音机理 语音是人的发声器官发出的一种声波,它具有一定的音色、音调、音强和音 长。其中,音色也叫音质,是一种声音区别另一种声音的基本特征。音调是指声 音的高低,它取决于声音的额率。声音的强弱哦膏强,它是由声波的震动幅度决 定。声音的长短州音长,它取决于发音声音的长短。 人类的发声过程是由于肺部的收缩,压迫气流由支气管经过声门和声道引起 音频振荡而产生的,其中声道起始于声门处而终止予嘴唇,包括咽喉( 连接食道 和口) 、口腔,鼻道则是从小舌开始到鼻孔为止,当小舌下垂时,鼻道与声道发生 藕合而产生语音中的鼻音【7 1 。图2 - 1 是发音器官的示意图。 爨2 1 发啻器官示意爨 f i g 2 1e x p l a n a t i o nc h a r to fp r o n u n c i a t i o no r g a n 说话时发出的具寄晌亮的中心,被明显感觉的语啬片断叫音节( s y l l a b l e ) 。 一个音节可以由一个或几个音紊( p h o n e m e ) 构成,膏素是语音发啬的最小单位。 任何语音都包含元音( v o w e l ) 和辅音( c o n s o n a n t ) 两种音素。前者是声带振动 发出的声音气瀛从喉腔、咽整送入日腔从羼黢疆射出去时,这些声应完全开放, 气流顺利通过,这种声音成为元音。而羼者是呼出的气流,由于通路的某部分 封闭起来或受到阻碍,气流被,阻不能畅通,雨克服发音器官的这种阻碍丽产生的 音索称为辅音。发辅音时声带振动的是浊音,不振动的是清音。还有些音素,虽 然声道基本畅通,但莱处声遒魄较狭窄,引起轻徽的球擦声,成为半元音。元音 一7 k 东北大擘硕士学位论文 第二章语音信号基本声学特征 是构成一个音节的主干,无论从长度还是能量看,元音在音节中都占主要部分。 辅音则出现在音节的前端或露端或藩后二端,它们的时长和能蠡与元音相比都很 小。 2 2 元音 决定元音音色的主要因素是舌头的形状及在口腔中的位置( 简称舌位) 、嘴唇 的形状( 简称口型) 等。口腔中舌位的高度和香位前后位置的改变,可以发出不 同的音索。如果将舌位高度分为高中低,舌位前局分为蓊中后,则可以有九种基 本的组合,在加上口唇开放的程度、咽宽度,就可以发出十多种不同的单元音【8 1 。 图2 2 单元音舌位蹬啬示意图 f i g 2 2t o n g u ep r o n u n o t 教+ i o no fr a o n o p h t h o n g 元音的另一个重要的声学特征燕共振蜂( f o r m a n t ) 。声道可以看成是一根具 非均匀截面的声管,在发音时起共鸣器的作用。当元音的激励进入声道会引起熬 振特征,产生组共振频率,穆为共攘蜂频率或简称共振峰。声道的共振峰特性 主要决定于声道截面积函数,声道豹共振峰特性决定所发声音的频谱特性。共振 峰的参数时也是区别不同元音的重要参数,它一般包括共振峰频率( f o r m a n t f r e q u e n c y ) 的位置和频带的宽度( f o r m i m tb a n d w i d t h ) 。不同的元音对应着一组 不同的共振峰参数,为了精确地描述语音,应该尽可能使用多个共振蜂,但在实 际的应用中,只用翦三个共振峰,分列称为f l 、f 2 、f 3 一j 。 元音的共振峰特征与发啻机制有关。例如,第一共振蜂f 1 与舌位商低有关: 表现为舌位商,f l 低;舌位低,f l 高。因为舌位越低糖张得越大,所以开口度 大,反之舌位越高开口度越小。第二麸振峰与舌位的前詹密切相关:表现为舌位 靠前,f 2 就高:嚣位靠后,f 2 就低。例如元音【i 】弱舌倥靠前,所以它的f 2 商为 8 东北走擘硕士学拄论文 第二聿语专信号基拳声学特征 2 0 0 0 h z ;而后元音【u 】的舌位靠后。所以它的f 2 只有5 0 0 h z 。另为f l 和f 2 嘴唇 的圆展程度也有关系,如圜唇可使f 2 降低等。第三共振峰f 3 虽然与舌位的关系 不密切,但受舌尖的活动的影响,舌尖的抬高卷起时,f 3 将明显下降。 臣习一一砣一 ,一一开t :主 后 低酝一低小 前 高展 高大 圈2 3 舌位、唇形和开口度对f i 和f 2 的影响 f i g 2 3t o n g u ep o s i t i o na n dl i ps h a p ea n dd e g r e eo fm o u t ho p e n e d i n f l u e n c eo nf la n df 2 一般的说,虽然就语音的基音频率而言是女生和童声高于男生,但是有实验 表明:区分语音是男生还是女生、是成人声音还是儿童声音,更重要的因素是共 振峰频率的高低。不同的人发出同一元音的共振峰频率相差很大,例如女性的共 振峰频率比男性大约高1 7 ( 英语) 或2 5 ( 汉语) 。而儿童的共振峰频率比男 性高3 5 左右。但每一个人的声学元音图的形状比较相 | ;( 。如果保持每一组的共 振峰的各共振峰的频率的相对值不变,而只改变它们的绝对值,可允许有很大的 变化范围,依然能正常分辨各元音f 加i 。 表2 1 前三个共振蟑的频率范围 t a b j e2 1 f r e q u e n c yr a n g eo f f 1f 2f 3 黛,- 东北大擘硕士学位论文第二章语音信号基本声学特征 如果按照各个元音的前两个共振峰的典型值,把它们的标注蕉以f 1 为横坐 标,f 2 为纵坐标的坐标平面,就可以得到一个元音三危形。它是以元音 i 2 、 a 、 u 为顶点,其它元音都在三角形中。每个元音在三角形圈中的分布不是一个点, 而是一个区域,这是因为不同人的发同一元音,其共振蜂的频率会有较大的差别。 一i 证 图2 3 声学元音圈 f l g 2 3v o w 矾豳i o f a c 4 u s t i e s 汉语普通话中共有六个单元音: a 、 o 、 e 、 i 、 u 、 u :八个复合元 音 a i l 、【e i 】、【a o 】、 o u 、【t l e 】、【i u 】、【u i 。 2 3 辅音 发辅音对聂有阻碍部位、阻碍方式的不胃,又有谤浊之分,送气寝不送气的 不同,因此辅音的声学特征比较复杂a 发辅音时声带颧动即产生浊辅音,声带不动即产生清辅音。一般塞音、擦音、 塞擦音都是清浊成对出现,例如英语里的塞音 p 】【b 】、擦音【f 】【v 】等。 1 e t 东北大学硕士学位论支 第三章语童馆号预处理 第三章语音信号预处理 语音信号的分析是语音信号处理的前提和基础,而无论采用什么分析方法, 对原始信号进行预处理是非常重要的,这样可以保诞信号处理系统得到是一个理 想的处理对象。语音信号的预处理一般包括语音信号的预滤波、量化、预加藿和 端点检测等,这些也是语音信号分析的不可忽褫的关键技术。 3 1 预滤波 一个正常入的频率一般在4 0 4 k i - i z 的范围内,成年男子的语音频率较低,女 予和儿童的语音频率较高。撮据奈奎斯特采样定律( n y q u i s ts a m p l i n gt h e o r e m ) , 采样频率应为原始语音信号频率的二倍以上,因此在大多数的情况下选用8 k h z 的采样频率。但考虑到在嗓音环境中宽带髓机噪音叠加的结果,使得语音信号可 能包含4 k h z 以上频率成分为了防止频率高于二分乏一采样频率的高频噪音产生 频谱混叠,必须在采样前进行一次预滤波去掉高频噪音。预滤波还有个目的是 避免5 0 h z 的电源千扰,因此预滤波是一个带通滤波器,其下截至频率一:5 0 h e , 上截至频率厶则根据需要定义。 3 ,2 量化 采样后的语音数据用计算机进行存储和处理还赘进行量化。原信号与量化届 的信号的差值称为量化误差也叫量化噪音。量化时,采用较多的量化级数来记录 采样点的幅度,量化误差就越小,但相应的就会增加存储容量和处理时的计算量, 因此要根据应用来合理的选择量化级数 1 2 】。 3 3 预加重 由于语音信号的平均功率谱受到声门激励和嘴膳的辐射,高频端在8 0 0 h z 以 一t 按6 d b 倍频程跌落。预加熏的翻的是提升高频部分,使信号的频谱变得平坦, 保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便进行频谱分析 或声遒参数分析。可用预热重的数字滤波器来实现,它一般是一阶的数字滤波器: 日( 约= 1 一肛1 ( 3 1 ) 系数i t 常在0 9 至0 9 5 之间。此变纯范匿的芦是加重曲线与人中耳的灵敏度 相适应。 1 1 东北走学硕士学住论文第三幸语音信号预处理 3 。4 端点检测 语音信号的端点检测是语音处理中常常涉及的问题。实验表明胁1 4 1 ,端点检 测的是否准确对语音信号的识别率具有非常重要的影响,另外,准确地检测出语 音信号的端点还可以减少后续处理的计算量,提高通讯设备的利用率o ”l 。下面介 绍几种常用的端点检测方法。 3 4 1 基于短时能量或短时平均幅度的检测方法 语音和噪声的主要区别在它们的能量上,语音段的能量比噪声段的大,语音 段的能量是噪声段能量叠加语音声波能量的和1 1 6 1 。传统检测方法认为,如果环境 噪声和系统输入噪声比较小,以至能够保证系统的信嗓比相当高,那么只要计算 输入信号的短时能量或短时平均幅度就能够把语音段和噪声背景区分开i l 。在这 里,短时能量被定义为e 、短时平均幅度为坂。计算公式为: e ,= 溆m ) w ( 挥一m ) 1 2 一m ( 3 2 ) 帆2 互沁( 神吣叫) i ( 3 3 ) 式( 3 ,2 ) 、( 3 3 ) 中,x ( m ) 为原始语音信号取样序列。 通常所用的窗函数为矩形窗或汉明窗,他们分别定义为; 矩形窗( r e c t a n g u l a rw i n d o w ) 以田= :如( 0 或n 一- l ) ) ( 3 - 4 ) 汉明窗( h a m m i n gw i n d o w ) 删:0 5 4 - 0 4 6 c o s ( 罢n1 ) ( o ) ( 3 5 ) 州n ) = 一7 、 7 () l 0 或露 n ) 但由于方窗的旁瓣太高,会产生严重的泄漏( g i b b s ) 现象,仅在一些特殊的 情况下使用:汉明窗由于平滑的低邋特性和最低的旁瓣高度雨得到广泛的应用。 对同一种窟函数,其主瓣和窑长成反比,一般来说,密长越长,它对信号的平滑 作用越厉害,但如果想反映变化快的信息,应该缩短窗长。 基于短时能量或短时平均幅度为特征的起始点判断方法是:以刚开始的已知 为“静”态的连续1 0 帧内的数据为依据,计算能量阀值i t l ( 低能量阀值) i t u ( 高能量阀值) 。计算每帻的能量或平均幅度,厦大值为i m x ,最小值为i m n , 1 2 东北大学硕士譬位论文第三章语音信号预处理 计算可得: = 0 0 3 ( i m x 一1 m n ) + m n 厶= 4 m n 于是有: t l = m n ( ,1 2 ) n u = s h l 由此可以进行起止点的判别:先根据t l 、腰可算得初始起点 ,把它作为 最先超过平均幅度或能量的帧号,随着时润豹摧移,帧的幅度或能蟹在升到小,之 前又降到t l 之下,则l 不是初始起点,而改成下一个升到m 的点作为i ,依 次类推1 引。 这种方法要求系统信噪比相当高,在实际应用中往往很难保证有很高的信噪 比,因而仅依靠短时能量或短时平均幅度来检测语音段的起止点常会遇到问题。 而且在一些特殊情况,如当语音段的开始和结束都是弱摩擦音时,如“四”字音 的开始段的短时能量就比较小。而以鼻膏结尾的语音,其末端的短时能量也比较 小,它们都容易与噪声混淆。在这些情况下,如果只依靠短时能量来检铡语音段 的起止点往往会漏掉某些音素 1 9 】。 3 4 2 基于短时能量和短时平均过零率的检测方法 这种方法是在短时能量检测方法的基础上,加上短时平均过零率。利用能量 和过零率作为特征来进行检测。这种方法也被称为双门限比较法。 在双门限比较法中,短时平均过零率被定义为: 毛= 酬酬一唧f 础一1 ) 】i 坳一砷 ( 3 6 ) 其中3 印嘲是取符号函数。定义如下: s 绯,= ! 。凄强 , 清音的短时平均过零率最大,浊音和噪声次之,且浊音和噪声的短时平均过 零率相当。而清音的能量较小,浊音的能量较大。因此,这种方法可以有效的区 分语音信号中的清音寝噪声。 采用双门限端点检测法,在开始语音信号端点检测箭,先要分别为短时能量 和过零率确定两个门限。一个是比较低的门限。其数值较小,怼信号的变化比较 敏感,很容易被超过。另一个是比较高的门限,数值比较大,信号必须到达定 的强度,该门限才可能被超过。低门限用于确定语音真正的端点a 低门限被超过 璐 东北大擎硕士学位论文 第三章语音信号预处理 未必就是语音的开始,也有可能是短时的噪声。超过高门限基本可以确定语音的 开始。有时噪声的能量也相当大,可能超过高门限,但是噪声一般持续时间比较 短,可以用持续时间来决定是噪声还是语音。语音结束点的判别方法类似【2 0 。 3 4 3 短时能零积法 短时平均能量与短时平均过零率的乘积称为短时能零积 2 l 】。该方法综合了 短时平均能薰法和短时平均过零率法的优点。 用短时能零积法进行语音端点检测的步骤 2 2 1 : ( 1 ) 确定噪声的门限阈值 无音片段主要包含的是背景噪声。由于录音开始阶段往往有一段无音区,所 以在实验室环境下通常取最开始的l o o m s 信号作为对背景噪声的分析。以1 0 m s 为一帧进行处理,对l o o m s 的信号按照式( 3 2 ) 和式( 3 6 ) 分别按帧计算短时平均 能量e 和短时平均过零率五,将e 和乙相乘得到短时能零积e z 。通过多帧平均, 就得到了平均短时能零积e z ,并按照下式确定噪声的门限闽值t h 。 t h = k + e z( 3 _ 8 ) 式中k 为经验值,通常取1 2 - 4 之间。 ( 2 ) 利用短时能零积进行语音端点检测 计算每帧录音信号的短时能零积纭,与噪声的门限阈傻t h 做比较。彪。犬 于t h ,就以该帧的帧号作为有音片段的起点m ,表明进入了有音片段。如果由 过去帧已经得到了1 ,那么当瓯小于掰时,就以该帻的帧号作为有音片段的终 点l 。相反,如果1 还未得到,那么当e z 小于掰时,表明当前帧仍处于无音 片段。 1 4 东北大学磋士学位论文 第鸥章语音图谱分析 第四章语音图谱分析 4 ,1 语音时域图的分析 时域分析是使用最早应用范围最广的一种方法。各种电信号可以记录成时域 波形,人体的生物电( 如脑电、心电等) 也可记录成时域波形( 即脑电图、心电 图替) ,自然现象( 如地震) 也可记录成对域波形1 2 3 1 。语音信号首先是一个时间 序列,进行语音分析时,最直观的就是它的时域波形。通过计算机的采样和量化, 直接将语音波形显示出来。图4 卜一4 3 为几个汉语语音的时域波形图。 圈4 1 汉语语音“第十课”语音波形图 f i g 4 1w a v ec h a r to f c h i n e s ev o i c eo f ”t h el e s s o nt e n t h ” 圈4 2 清音k 的语音波形圉 f i g 4 2w a v ec h a r to fs u r d 【k 】 图4 3 浊音f e l 语音波形圈 f i g 4 3w a v ec h a r to fs o 触n tf e 】 - 栖j 东北大学硕士学住论文 第蜉章语音图谱分析 从语音波形图上可以获得很多的信息。 ( 1 ) 波形图开始部分,振幅较小,能囊很弱,为无声段;有语音的部分振幅 明显较高,表示语音能量较强;而其余部分振幅较小,且杂乱无章,表现为噪音 部分。正因为在一段语音中不仅只有语音发音信息,还包含着无音区和噪音,因 此在语音识别的领域中语音端点的检测、声母韵母的区分、语音降噪等在语音预 处理的研究中占有非常璧要地位。 ( 2 ) 从图4 2 和4 3 中可以看出语音的清音部分和浊音部分有明显的不同。涛 音的波形类似于白噪音,振幅很小,没有明显韵周期性 丽浊音具有明驻的周期 性,且振幅较大。浊音是一种准周期信号,它们的周期对应的就是声带振动的频 率,既基音频率,是声门脉冲的问隔。基音周期是语音信号的一个非常重要的特 征。基音周期豹估计也猕俸基啬捡涎( p i t c h d e 慨t i o n 爨辫潞膏情号种分析方 法,最常壤的方法就是邕楱关踊教估计法。 相关函数是用于溯定两个信号在时域内的榴锹性,如利用互相关函数,可测 定两信号间的时间滞后或从杂音中检测信号,如果两个信号完全不同,则甄相关 函数接近于零。如果两个信号浚形擒两,粼在掩静、滞,屠处出现峰值。由此,可 求出两个信号的同一性程度,这在研究信号传递途经方面很有用。自相关函数用 于研究信号本身,例如信号波形的同步性、周期性等2 4 1 。 自相关函数的定义为: q ( f ) ti 。善( o 雄+ f 游 ( 4 1 ) 式中,f 为时闯滞震。 离散自糨关殖数定义为; r ( t ) = 【x ( m ) x ( m + k ) 】 ( 4 2 ) 短时自相关定义为: r ( p = x ( m ) w ( n - m ) x ( m + k ) w ( n - ( m + 七) ) 】 ( 4 ,3 ) h 图4 , 4 周期性语音短时自相关踊数 f i g 4 4s h o r tt i m ea u t o c o r r e l a t i o nf u n c t i o no fp e r i o d i cv o i c e 1 s - 东北太掌硕士学住论文第四章谱音图谱分析 如果s ( n ) 是个浊音性的周期信号,那么它的短时自相关函数也星现出明显 的周期性。如4 4 图所示,而且r ( k ) 的周麓等于s ( n ) 。相反,清音语音接近随机噪 声,它的短时自相关函数不具有周期性。因此可以利用这个特点来判断一个语音 是浊音还是清音,还可以决定一个浊音的基音周期。在决定基音周期时,利用了 短时自相关函数萋音周期各整数倍的点上具有较高的峰起值。只要找到第一峰值 点的位置并计算它与原点的间隔,便能估计出基音周期。 一般认为,窗长应该至少犬于二个基音周期才能有较好的预测效果,语音的 基音最长的大约为2 0 m s ( 语音的频率下限约为5 0 h z ) ,因此计算自相关时的窗长 应大于4 0 m s 为宣。 2 0 0 3 年李仕萍、闵锐等人研制了“语言障碍诊治仪z m 2 1 ”将基音周期估计 算法应用在由于脑损害导致发音器官的损害,造成发膏声调的各种障碍的声调康 复训练中。首先录入正常人的语音,此模式显示声画出基音频率曲线,然后让病 人开始训练,让医师观察患者声调的微小变化,熊与正常入发出的声调进行准确 比较,可以帮助病人纠正发音的声调障碍l 弼1 。 对语音的时域波形的分析的特点是简单直观,采用较为通用的设备,如示波 器、存储示波器等即可;计算量小,易于处理与实现。但由于这种对时域分析对 语音信号的频率特性没有壹观的了解,故存在较大局限性,通常应用在语音信号 的预处理中。 4 2 语音常用谱图分析 简单的说,般的声音都等同于大大小小许多音叉各种正弦波合成的声音( 频 率不同) ,它们就是复合波。实际上小提琴、大提琴、黑管、风琴、长笛、小号、 定音鼓、钗、沙锤等之所以音质不同,就是因为它们的复合波的组成不同。而人 类感短语音斡过程和语音本身匏频谱特性关系密甥。人类本身听觉对语音的频谱 特性更为敏感。因此对于语音频域的分析是相当重要的。傅立时变换( f o u r i e r ) 和对应频谱图与短时傅立叶交换和语谱霉是常用来分析语音频域的重要谱圈。 4 - 2 _ l 傅立叶分析和声学频谱图 傅立时频谱分析是语音信号频域分析中被广泛采用的种方法。 傅立叶变换定义如下: x ( e ”) = 用) e - 舯 ( 4 4 ) m 离散的傅立

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论