




已阅读5页,还剩56页未读, 继续免费阅读
(生物医学工程专业论文)基于小波变换的语音分析训练系统.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东南大学硕士学位论文 a b s t r a c t c h i n ai so u eo ft h ec o u n t r i e sw h e r et h es p e e c hd i s e a s eo c c u p i e sah i g h p r o p o r t i o no f t h ep o p u l a t i o n i f t h o s es p e e c hd i s e a s e sh a v en o tr e c e i v e ds p e c i a ls p e e c h t r a i n i n g , t h e ya r cl i k e l yt ol o s et h en a t u r a la b i l i t yo fs p e e c hc o m m u n i c a t i o n i f d e v e l o p i n gt h es p e c i a ls o f t w a r eb yt h em u l t i m e d i ao f c o m p u t e r , w e c a nt r a i na n dc u r e s p e e c hd i s e a s ep a t i e n t b yu s i n gs p e e c hp r o c e s st e c h n o l o g ys p e e c hs i g r l a lc h a n g e dt o d i f f e r e n ti m a g e s n 艟p a t i e n tc 月1 nj u d g et h ea c c u r a c yr a t i n go fp r o n o u n c eb yt h e s e i m a g e s , a n dc o r r e c tp r o n o u n c e i nt h i st h e s i s , i ti sf s t l ys u n u n a r i z c dt h a ts o m eb a s ek n o w l e d g eo f s p e e c hs i g n a l a n dt h e ni ti si n t r o d u c e dt h a tt h es p e e c ha n a l y s i sm e t h o d si nt i m ea n df r e q u e n c y d o m a i n n 玲t i m ed o m a i na n a l y s i si sm o s ts i m p l ea n di n t u i t i o n i s t i c n 璩s h o r t - t i m e e n e r g y , t h es h o r t - t i m ez e r oc r o s s i n gr a t ea n dt h es h o r t - t i m es e l f - c o r r e l a t i o na r em a i n a n a l y s i s m e t h o di nt i m ed o m a i n 1 1 圮f r e q u e n c yd o m a i na n a l y s i s ng e tm a n y c h a r a c t e r sw h i c hc a nn o tg e tb yt h et i m ed o m a i na n a l y s i s w ec a ng e tf r e q u e n c y i n f o r m a t i o no f s p e e c h t h r o u g ht h ea n a l y s i so f t h es p e c t r o g r a ma n ds p e e t r u n lw h i c hg e t b yu s i n gt h es h o r tt e r mf o u r i e rt r a n s f o r m 1 1 1 es p e c t r o g r a mc o ne x p r e s st h er e l a t i o n s h i pb e t w e e nt i m ea n df r e q u e n c y d o m a i na n a l y s i s ,a n di ti sm a i na n a l y s i sm e t h o d w ei n t r o d u c et h a tt h es p e c t r o g r a m c a ng e tb yu s i n gt h ew a v e l e tt r a n s f o r m 1 1 圮s p e c t r o g r a mw h i c hg e tb yu s i n gt h e w a v e l e tw a n s f o r mh a sg o o df r e q u e n c yr e s o l u t i o ni nl o wf r e q u e n c ya n dg o o dt i m e r e s o l u t i o ni l lh i g hf r e q u e n c y , t h i sm o r ea c c o r dw i t ht h ec h a r a c t e r so fs p e e c h w e a n a l y z e dal o t o fs p e e c h , a n dt h er e s u l t ss h o wt h ew a v e l e tt r a n s f o r mh a sm o r e a d v a n t a g e a tl a s t , i ti si n t r o d u c e dt h a tt h er e a l i z a t i o no fas p e e c ha n a l y z i n ga n dt r a i n i n g s y s t e m n es y s t e mi sb a s e do nw a v e l e tt r a n s f o r ma n do t h e rt i m ea n df r e q u e n c y d o m a i na n a l y s i sm e t h o d 耵圮c o n t r o lm e n ui sd e v e l o p e di nv i s u a lc + + 6 0 a n dt h e a n a l y s i sp r o g r a mi sd e v e l o p e di nm a u a b 6 5 1 1 l ca n a l y s i sp r o g r a mi sc a l l e di nv i s u a l ( ) + + a n dt h ed e v e l o p i n gt i m ei ss h o r t e n e d t h es y s t e mc a nc o n t r o lt h ep l a y i n g , r e c o r d i n ga n dp a u s i n g , a n dc a nd i s p l a yf i g u r ef o r m so f t h ei n p u ts p e e c hb o t hi nt i m e d o m a i na n df r e q u e n c yd o m a i n 玎豫u s e rc a ns e tu pd i f f e r e n tp a r a m e t e rb e c a u s eo f d i f f e r e n tn e e d s ,s ot h e yc a ng e tm o r ee x a c tr e s u l t t h o s ei n a r t i c u l a t et r a i n e e sc a nc a r r y o u ts p e e c ht r a i n i n gb yc o m p a r i n gs p e c t r o g r a ma sv i s u a lf e e d b a c k k e y w o r d s :s p e e c hs i g n a l ;s i g n a lp r o c e s s ;t h ef o u r i e rt r a n s f o r m ;t h ew a v e l e t t r a r 塔f o r m ;s p e e c ht r a i n i n g i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在# l i l j l 导下进行的研究工作及取得的研究成果。尽我 所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成 果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同 志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:笠生i 鱼 网期: 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和 电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内 容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的 全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 研究生签名:盔! i 缒导师签名: 潞日期:彤z 东南大学硕士学位论文 第1 章绪论 1 1 课题背景和意义 现代医学理论的一个重大变革,是人们逐渐意识到,在许多情况下,单纯临 床治疗对患者的功能恢复有很大的局限性。如果未能训练患者利用残余功能很好 地生活和工作,就意味着医疗工作还没有结束。只有使用专门的技术,进行必要 的功能训练,补偿和替代,才能完善全部医疗过程。 语言交流是一种复杂的心理活动,涉及人对语言信息的获取、转化、贮存、 衍生及表达。在语言交流过程中任何一个环节的损害均可导致语言功能的缺失。 出现语言障碍。实际上,语言障碍是一个非常复杂的问题,因为一个人的语言能 力与其性格、生活环境、文化背景和教育程度等都有着密切的联系,正常情况下 已经表现出能力上的明显的个体差异。【i j 语言治疗在发达国家已有近半个世纪的历史,目前该领域已经形成完整的体 系像美国、加拿大、日本等国,随着大量康复中心的建立,语言治疗也日益受 到医疗机构的重视。在我国,语言康复工作开始与上个世纪8 0 年代末到9 0 年代 初,只有十几年的历史,是一门新兴的学科。田 聋哑人语言康复训练始于6 0 年代,早期的训练主要依赖于治疗师的经验和 主观判断网随着语言治疗的研究深入,人们发现只靠这些主观判断是不够的, 开始需要一些工具来定性和定量检测用以辅助语言治疗。早期主要是运用一些电 子仪器来辅助训练,由于计算机具有运算速度快、运算准确度高、存储容量大, 以及能程序控制运算过程等优点,随着计算机技术的发展,计算机在语音康复训 练中的应用也得到了不断地发展。我们可以利用电脑的多媒体技术并编写特殊的 电脑程序,可对各种不同的语言障碍患者进行训练和治疗。采用特定的语音处理 技术,将语音信号转化为不同形式的图像,在电脑上显示出来。患者可根据图像 判断发音的准确程度,并不断纠正发音。而患者只需对着接驳电脑的传声器发音, 电脑便会将声音的音量、声调和节奏等模式特征以波长的方式显示出来。当图像 在电脑上显示时,患者便可模仿正确的模式,矫正发音。【4 】 由于我们国家现在计算机的普及率明显提高,许多从事语言治疗工作的医生 都开始使用计算机来辅助语言治疗,这主要体现在用于腭裂患儿的语音分析和治 疗【5 】【6 7 】,嗓音的评价【3 l 【9 】,声学特征的研究等方面。我们可以想象以后将会有 更多从事语言治疗工作的医生采用计算机来辅助语言治疗,开发一个可供他们使 用的分析软件是非常有意义的工作。 第一章绪论 1 2 国内外研究现状 7 0 年代人们只是利用计算机来更进一步的分析电子设备处理好的语言数字 信号l l ”。到8 0 年代之后,计算机不断发展和不断普及使得计算机辅助语音训练 系统不断地发展,于是在美国、日本等发达国家开始出现了一些基于p c 机简单 的辅助语音训练系绀1 2 1 3 1 1 4 】【嘲,9 0 年代美国微软公司开发了w m d o w s 视窗系统, 使得计算机更方便使用,开始出现大量基于w m d o w s 系统的辅助语音训练系统 0 6 p 7 。除了在这些发达国家,现在很多国家和地区也开始了对于辅助语音训练 系统的研究与开发,台湾阳明大学开发了基于网络的汉语辅助语言训练系统【堋, 马来西亚的学者也开发了马来语的辅助语言训练系统【嘲。 我们国家这方面的研究起步的较晚,9 0 年代后期出现了一些简单的计算机 语音处理软件1 2 0 1 1 2 ”,还有利用d s p 芯片来采集和处理语音的计算机语音处理软 件 2 2 1 ,但是这些软件只能简单的处理语音信号,并不是辅助语言训练系统。清华 大学生物医学工程系研究了一个基于视觉的语音训练辅助系统,这个系统通过直 观的视觉反馈对听力语言障碍者进行发音训练,从而改善他们的发音质量田】。 这些系统都涉及到了语音信号的处理,对瞬态过程和平稳过程的频谱分析使 用傅立叶技术已有很长的历史,但是,语音过程与一个稳定的元音或擦音不同。 当激励和声道特性改变时,所得到的语音信号特性随时间发生变化。因此,适用 于平稳随机信号的标准傅里叶变换不能直接用于语音信号。但在相对短的时隙 内,语音信号可看作准周期序列或随机噪声激励一个线性时不变系统产生。将短 时分析思想应用于语音频谱分析,可得到语音时变频谱渊。传统的采用短时傅立 叶变换的方法得到的声谱图分辨率不够高,可以考虑从小波交换理论入手,采用 具有尺度因子和位移因子的可变窗函数代替短时傅立叶变换中的不变短时窗函 数,并通过不同尺度的伸缩和平移,适应突变信号和非平稳信号的变换特点,从 而使时频分辨率得到改善和提高【2 习。由于汉语发音的特点,音节大部分由声母和 韵母组成,前期的声母需要提高时间分辨率,后期的韵母需要提高频率分辨率, 而小波变换相平面其时频分辨率不随时间变化。于是可以采用改造相平面的方 法,令小波的伸缩尺度因子对应时间轴,平移因子对应频率轴 2 6 1 。基于这种改变 小波相平面方法,西安交通大学生物医学工程系设计了聋儿语言康复训练系统 1 2 7 o 但是该种方法存在一个很重要的问题,因为在很多情况下我们并不是只测量 一个音节,有时只是一个元音或辅音,有时是一句话,这样该种方法在很多场合 就不适用。 1 3 课题的研究目标 我们的主要目的是希望能够做出一个基于小波变换的语音分析训练系统。我 们首先需要设计开发一个能实现语音录入、播放等控制操作和分析控制的操作界 2 东南大学硕士学位论文 面。然后我们要设计时频分析的程序来对语音信号进行分析,传统的时频分析方 法具有特定的用途,因此要保留这些传统的时频分析。不同的是我们提出对语言 信号采用连续小波变换的方法进行分析,利用连续小波变换对语音信号进行分析 所得到的三维语谱图在低频部分有较高的频率分辨率而在高频部分有较高的时 间分辨率,这样更符合语音信号的特点。利用自己的系统采集语音信号进行分析 训练。 第二章语音信号的产生与基本模型 第2 章语音信号的产生与基本模型 我们是对语音信号进行研究和分析,因此,在研究和分析各种语音信号之前, 有必要了解有关语音信号的一些基础知识。 语音是在说话人和听者之间互相传递的信息,传递的媒介是声波。说话人的 发音器官做出发声动作,接着空气振动形成声波,声波传到听者的耳朵里,立即 引起听者的听觉反应,语音的传递就是这样的一个过程。其中发音动作属于生理 现象,空气动作属于物理现象,而听觉反应属于心理现象,在这里我们主要需要 了解的是人的发音动作。 2 1 语音信号的产生 2 s 1 1 2 9 1 发音器官分为三部分:肺、喉和声道,如图2 1 。在发声机制中,肺的作用 相当于一个动力源,将气流输送至喉部。喉将来自肺部的气流调制为周期脉冲或 类似随机噪声的激励声源,并送入声道。声道包括口腔、鼻腔和咽喉,他们对声 源的频谱进行整形而产生不同音色的声音。声源还可能由声道的收缩和内壁产 生,这一作用发生在声道内部,这样,除随机噪声和周期性声源之外还产生一个 冲击声源。声源经声道润色频谱后,在嘴唇处的气压变化就形成了可传播的声波, 被人感知语音。 因此,产生语音的声源主要分为三种:周期性、噪声和冲击性声源,这三种 声源经常混合出现。此外,可区分的语音不仅取决声源,而且还与不同的声道形 态以及他们如何与周期性、噪声和冲击性声源相互作用有关。 图2 1 从解剖学的角度展示了发声的机理,下面来仔细分析这张解剖图,研 究与之相关的生理构造及其对于发声的重要作用。 4 东南大学硕士学位论文 图2 1 发声机制的解剖学图谱 2 1 1 肺 肺是胸腔内的一团有弹性的海绵状物质,它可以存储空气,通过正常的呼吸 系统空气可以进入肺部。在说话时,我们会以短促的方式吸入空气,并通过控制 胸肋周目的肌肉,稳定地呼出空气。这时,我们不再是保持有节奏的自然呼吸, 而是使呼出空气的时间大致等于一句话或短语的长度。在这种呼出过程中,通过 缓慢地收缩胸肋,使肺部气压基本保持在一个略大于外部气压的水平,当然肺部 的气压还会在这一水平附近有所波动,这是由喉部和声道的时变特性而引起的。 由肺部呼出的气流是语音产生的原动力。 2 1 2 喉 喉是一个由软骨、肌肉和韧带构成的复杂系统,如图2 2 所示,喉在发声中 的作用是控制声带,声带是两片带有肌肉及韧带的组织,它可以在喉的前后之间 伸展。男性声带大约有1 5 r a m 长,女性则约为1 3 m m 。两片声带之间的裂缝称为 声门。甲状软骨位于喉的前端和侧面,声带则附着在甲状软骨上。固定于喉的前 端。两片声带的后端分别附着一块杓状软骨,而杓状软骨可以沿着环形软骨在喉 的后端滑动,从而带动声带在喉的后端和侧面运动,使声门一张一合。声门的大 小一方面受杓状软骨的控制,一方面也取决于声带的肌肉。除了声门的大小之外, 5 第二章语音信号的产生与基本模型 声带的另一个重要特性是它的紧张程度,这是由声带的肌肉以及声带周围的软骨 决定的。 图2 2 喉的俯视剖面图 声带主要有三种状态:呼吸、发浊音和发清音。在呼吸时,杓状软骨向外撑, 声带的肌肉放松,保持着较宽的声门,来自于肺部的空气可以畅通无阻地通过声 门。当发浊音时,两个杓状软骨相互靠拢,声带紧绷并相互靠近,此时狭窄的声 门和紧绷的声带会引起声带的自激振动。发清音状态与呼吸状态类似,声带不振 动,但是,在发清音状态,声带比在呼吸状态下更加靠拢而且更为紧绷,这样会 在声带处产生湍流。 声门每开启和闭合一次的时间就是基音周期,它的倒数被称为基音频率。基 音频率取决于声带的大小、厚薄、松紧程度以及声门上下之间的气压差的效应等。 一般基音频率越高,声带被拉得越长、越紧、越薄,声门的形状也就变得越细长, 而且这时声带在闭合时也未必是完全闭合的。基音频率不仅是反映说话人特点的 一个重要参数,而且基音频率随时间的变化模式也反映了汉语语音中的声调变 化。 2 1 3 声道 声道是由咽腔、口腔和鼻腔3 个空气腔体组成,它是一根从声门延伸至口唇 的非均匀截面的声管。声道是气流自声门、声带之后最重要的、对发音起决定性 作用的器官,它发出不同声音时其形状变化是非常复杂的。声道的截面积取决于 其发音器官的位置,发音过程中声道的截面积由舌头、唇、上颚、小舌等的位置 决定,具体的范围在o c m 2 也o f m 2 之间。其中咽腔是连续喉和食道与鼻腔和口腔 6 东南大学硕士学位论文 的一段管子。在说话时咽腔的形状会发生变化,它和口腔一起使得声道的形状变 化多端,因而能发出较多不同的声音。鼻腔从咽腔开始到鼻孔为止,约为l o l m m 长,鼻中隔贯穿全长并将鼻腔分为两个部分。当发鼻化音时,软腭下垂,鼻腔与 口腔发生耦合,产生语音中的鼻音;如果软腭上抬,则声音完全由口腔发出。口 腔是声道中最重要的部分,它的大小和形状可以有舌、唇、牙齿和腭的变化而调 整。舌头是最活跃的,它的尖端、边缘和中间都能自由地活动,并且整个舌体也 可以上下前后活动。由于它的重要性,语音中元音的发音就是以舌的位置来分类 的。双唇位于口腔的末端,它也可以活动成展开的或是圆形的形状,在发音过程 中起着很重要的作用,所以发音方法中也标明了是否圆唇的发音。齿的作用是发 齿化音关键,而腭中的软腭如前所述,是发鼻音与否的阀门,此外,硬腭以及齿 龈也参与了发音的过程。 为了发出各种各样的声音,需要调整声道的形状,称之为调音。声道各部位 的动作称为调音运动。调音用的声道的各部分叫调音器官,包括舌、腭、唇和嘴 等声道中可以自由活动的部分。在调音器宫中,因调音而产生的声道固定部位的 狭窄位置称为调音点。声带的状态,包括它的位置、形状、各个不同的调音器官 的大小等随时间的变化产生不同音色的语音。这是因为对应不同的声道形状,就 有不同的传递特性由于共鸣的作用,能量随着频率发生强弱的变化,导致产生 的语音之间存在各种差异。 综上所述,声道是气流自声门之后最重要的,也是对发音起着决定性作 用的器官。用x 光照相技术,可以清楚地显示出各种语音时声道的形状。虽然 声道的变化非常复杂,但是从声学观点来看,可以把它拉直而完全不影响其声学 特性。这样,人们可以从物理学的观点来分析声道所做的贡献,并可以方便地用 模型来描述它。 2 2 语音信号的简化数字模型1 2 5 1 d o l p l l 前面研究了发声器官和语音的产生过程,有了这些基础便可以建立一个离散 时域的语音信号产生模型。当然,要建立一个十分精确的语音产生模型是很困难 的,这是因为语音的产生不仅是一个复杂的生理和心理过程,而且与声道的形状、 声道中的声激励等因素都有关系。本节仅给出一个比较简单的基于声道的语音产 生模型,这个模型可以满足大多数语音处理研究和应用的需要,它包括激励模型、 声道模型和辐射模型,这3 个模型分别于肺部的气流和声带共同作用形成的激 励、声道的调音运动及嘴唇和鼻孔的辐射效应一一对应。他们之间的关系可以用 图2 3 来表示。 7 第二章语音信号的产生与基本模型 图2 3 语音信号产生的模型 2 2 1 激励模型 研究证实:发不同的音时,激励的情况不同。这些不同大致可以分为两大类: 浊音和清音,按照浊音腈音开关所处的位置来决定产生的语音是浊音还是清音。 发浊音时,气流通过绷紧的声带,对声带进行冲击而产生振动,使声门处形成准 周期的脉冲串。声带的绷紧程度不同,振动的频率也不同,即基音频率不同。由 于人的声带情况有所差异,因此具有不同的基音周期。应该注意的是,浊音不仅 包括所有的元音,也包括一些辅音。这样,在发浊音时由声带的不断张开和关闭 产生的脉冲波,类似于斜三角形的脉冲。此时的激励源就是一个以基音周期为周 期的斜三角形的脉冲串。单个的斜三角形脉冲可以用式( 2 - 1 ) 表示为 i 瓠1 一c o s ( n n n - ) 胚甩 n i g ( 疗) = c o s 万( 行一n 1 ) 2 n 2 ,l s 疗l + 2 ( 2 一1 ) 【 o ,o t h e r s 式中,n l 为斜三角波上升部分的时间,n 2 为其下降部分的时间。 如果将上述函数变换到频域,则可以看出,它相当于一个低通滤波器。因此 通常将它表示成z 变换的全极点模型形式为 g ( z ) 2 巧初 协2 , 式中,g l 和9 2 都接近于1 。这样斜三角波可以看作是加权的单位脉冲经过上述的 低通滤波器的输出。而单位脉冲可以表示为下面的z 变换形式,即 8 东南大学硕士学位论文 占( z ) = 专 式中,a v 是调节浊音的幅值或能量的参数。 ( 2 3 ) 因此,整个激励模式可以表示为 ) 娟即) = 南而初 ( 2 4 ) 在发清音时,声带处于松弛状态,不发生振动,气流通过声门直接进入声道, 所有的清辅音都属于这种情况。无论是擦音还是塞音,声道都被阻碍形成湍流, 所以激励信号相当于一个随机白噪声。实际上可以用均值为0 、均方差为1 ,并 在时间或幅值上用白色分布的序列来表示。 应该指出,单纯的将语音信号分成受周期脉冲激励和受噪声激励两种情况, 与实际情况不完全符合。有时即便将两种激励情况按照一定的比例叠加,也不能 刻画某些语音,如浊擦音。 2 2 2 声道模型 发不同性质的声音时,声道的情况是不同的,大致可以将这些情况分为两大 类: ( 1 ) 发元音的情况这时声道中的口腔为稳定的某种形状的谐振腔。由声门 来的准周期脉冲波激励声道而产生响应。所有的单元音、复元音及复鼻尾音的元 音部分都属于这种情况。 ( 2 ) 发辅音的情况此时又可以分为塞音、擦音、鼻音等情况。发塞音时, 声道的某部分构成阻碍,使声道完全封闭,由声门来的激励波在此处形成高压湍 流,然后突然开放,发出声音。发擦音时,声道的某部分构成未完全封闭的阻碍, 使激励波在此处形成高速湍流,与该处摩擦而发出声音。而发鼻音时,软腭下垂, 鼻腔参加谐振响应。 对于声道的数学模型有两种观点:一种是将声道看作是由多个不同截面积的 声管串联而成的系统,称为声管模型;另一种是将声道视为一个谐振腔,共振峰 就是这个腔体的谐振频率,从这个角度出发来描述声道的模型,即为共振峰模型。 由于入耳听觉的柯蒂氏器官的毛细胞是按着频率感受来排列其位置的,所以共振 峰模型很有效,经常被使用。 一般情况下,可以用一个如下式的全极点模型来刻画共振蜂特性,即 矿( z ) :了上一 ( 2 5 ) q z 。 式中,p 为全极点滤波器的阶,一般在8 1 2 范围内取值。它的每一对极点对应 第二章语音信号的产生与基本模型 一个共振峰a l 为声道模型参数,它随声道的调音运动不断变化。由于声道的惯 性使这些参数变化的速度受到限制。一般在1 0m s 3 0m s 的时间间隔内,认为 这些声道参数保持不变,这也是语音信号短时分析的理论依据之一。 对一些鼻音和摩擦音,声道传输函数中也包含一些零点。对于这种情况,可 以在上式中引入若干个零点,但这时的模型将变得相对较复杂。这种情况也可以 通过适当提高阶数p ,使得全极点模型可以更好地逼近具有零点的传递函数。 2 2 3 辐射模型 声道的终端是口和唇。从声道输出的是速度波,而语音信号是声压波,两者 的倒比称为辐射阻抗,可以用它来表示口唇的辐射效应,也包括头部的绕射效应 等。从理论上推导这个阻抗是有困难的,但是如果认为口唇张开的面积远小于头 部的表面积,则可以推导出如下辐射阻抗公式: = ( q ) :翼姿( 2 - 6 )、7 r + 碰 式中,r - - 器,l - - 墨,这里口是口唇张开时的开口半径,f 是声波的传播速 度。 由辐射引起的能量损耗正比于辐射阻抗的实部,并且研究表明,口唇端的辐 射效应在高频段较为明显,而在低频段影响较小,因此可以用一个高通滤波器来 表示辐射模型。如: 胄( z ) = ( 1 一彪- 1 ) 其中,系数r 接近i 。 ( 2 7 ) 在实际信号分析时,常采用这样的预加重技术。即在采样之后,插入一个一 阶高通滤波器。在语音合成时再进行“去加重”处理,就可以恢复原来的语音。 由上面所述,语音信号产生的完整模型可以用3 个子模型串联而成,其传递 函数为 日( = ) = u ( :) 矿( z ) r ( z ) ( 2 8 ) 2 3 汉语语音的特点 3 0 3 1 】 汉语语音不同于其他语音,有它自己的一些特点。 2 3 1 音素 音素是指发出各不相同音的最小单位。在汉语中,音素可以构成声母和韵母。 有时将含有声调的韵母称为调母。由单个调母或由声母与调母拼成的单位称为音 节。音节在汉语中就是一个字的音。音节可以构成词,词可以构成句子。汉语共 1 0 东南大学硕士学位论文 包括2 2 个声母( 包括零声母) 和3 8 个韵母。 根据声母和韵母发音动作的不同,可以把音素分为辅音、单元音、复元音和 复鼻尾音,下面分别加以简要介绍。 ( 1 ) 辅音 发辅音时声道的某处有一定的阻碍,这种阻碍是声道中活动部分与固定部分 接触形成的。接触点不同,发出辅音的音色也就不同。具体接触点的位置可以有 1 1 个,可以根据这些接触点位置的不同将辅音分为7 大类:双唇阻、齿唇阻、 舌尖前阻、舌尖阻、舌尖后阻、舌面阻、舌根阻等。根据辅音发音过程中的具体 阻碍方式,又可分为塞音、擦音、塞擦音、鼻音、边音等。发塞音时,声道中某 部位处先呈闭塞状态,使气流无法通过,声音出现短暂的间歇;而后气流突破该 障碍涌出,产生一种很短促的声音,该声音经过声道共鸣后辐射出去。而擦音在 声道中某部位处并不完全闭塞,形成一条很窄的缝隙,让气流挤出去形成湍流, 擦音可以任意延长。塞擦音介于擦音和塞音之间,在开始阻碍处完全闭塞,气流 无法通过,然后略微放松,让气流挤出去产生摩擦,形成先塞后擦的音。鼻音在 口腔里阻碍处完全或几乎完全闭塞,但当软腭下降,通往鼻腔的通路打开时,气 流从鼻腔出去形成鼻音,鼻音也可以任意延长。边音的形成是舌尖形成阻碍不让 气流通过,但舌头两边流出空隙让气流通过。 辅音共有2 2 个,包括除了零声母以外的全部声母以及韵母中的鼻韵尾音n g ,l i ,外,其中大部分辅音都是清辅音,只有m 、n 、l 、r 等4 个辅音在发音时声带 产生振动,是浊辅音。辅音根据发音部位和发音方法的不同,可进行相应的分类。 ( 2 ) 单元音 一般单元音有1 3 个,此外还包括7 个从国际音标的单元音音素借用的单元 音。应该注意,元音并不等于韵母。元音、辅音是按音素的发音特征来分类的, 而声母和韵母则是按音节的结构来分类的。尽管它们之间有一定的联系,但这是 两种不同的概念。单元音的音色由声道的形状决定,并且主要由舌头的形状及其 在口腔中的位置、嘴唇的形状决定。根据舌头的高、中、低,舌位的前、中、后, 以及嘴唇的开放程度,可以发出1 0 多种不同的单元音。根据发音时舌位的高低 和前后,以及唇形的凰扁,可将汉语中的单元音分类。 全部元音都是浊音,声带都振动,比清辅音响亮得多。 ( 3 ) 复元音 元音中还有1 3 个复合元音,它们都是韵母表中的韵母。所谓复合元音是由 两个以上的元音连接而成的。其发音方法是:按复元音中单元音的顺序连续地移 动舌位、唇型而发出的声音。需要注意的是,这种连接不是简单拼接,而是一种 新的“动态”的声音,因为在连接时,舌位、唇型顺序连续地移动,相互影响, 并且结合得很紧,成为一种固定的音组,在发音的感觉和听音的感觉上等同于单 第二章语音信号的产生与基本模型 元音,可以视为独立的语音单位。 ( 4 ) 复鼻尾音 复鼻尾音共1 6 个,它们也都是韵母表中的韵母。在汉语中,鼻尾音只有两 个:n ,n g 。它们与元音复合之后也成为不可分隔的音组。 2 3 2 音节 音节是语流中最小的发音单位,它不仅是听觉上能够自然辨别出来的最小语 音单位,也是音义结合的语言单位。从发音机制的角度看,一个音节对应着喉部 肌肉的一次紧张,即肌肉紧张一次,就形成一个音节,紧张两次就形成两个音节, 例如汉语x i a n 包含的一串音素。如果发音时肌肉紧张一次,就形成一个音节“鲜”; 如果发音时肌肉紧张两次,就形成两个音节“西安”每个音节发音时肌肉的紧 张可以包含渐强、强峰和渐弱3 个阶段,如果把这3 个阶段对应的音分别称为起 音、领音和收音,则音节的构成模式有以下4 种:领音;起音+ 领音;领音+ 收音; 起音+ 领音+ 收音。一个音节可以没有起音和收音,但绝对不能没有领音,没有领 音就不能构成音节。领音必须有相当的响度,才能在听觉上觉察出音节的出现。 汉语语音中,充当领音的经常是元音( v ) ,起音一般由辅音( c ) 充当,收 音可以是元音,也可以是辅音。这样汉语音节结构的基本形式有v 、v c 、c v 和 c v c 几种。 2 3 3 韵律特性 语音是一种特殊的声音,因此它具有声学特征的物理性质。语音的声学特征 是指音色、音高、音长和音强,简称语音的四要素。音色也叫音质,是一种声音 区别于其他声音的基本特征。音色是由混入基音的倍音所决定的。每个人由于性 别、年龄、喉部和声道构造的不同,产生倍音的成分也不相同,故具有各不相同 的音色。也可以说,语音的音色与声带的振动频率、发音器官的送气方式和声道 的形状、尺寸密切相关。音高指声音的高低,即对应前面所讨论的声调,汉语有 阴平、阳平、上声和去声4 种声调。从物理学角度来分析,音调的变化其实对应 频率的变化,即其基频随声调的变化而变化。基频越高,声调越高。而声带的振 动频率又决定于声带的长度、张力、厚薄和呼出气流的强弱。一位训练有素的歌 唱家,能精确地运用这些变化而发出准确的音调。声音的长短叫做音长,它取决 于发音持续时间的长短。音强主要指发音的轻重,一般存在3 种重音:正常重音、 对比重音和轻声。在词或短语的各音节中,若无轻声和对比重音,则是正常重音, 在没有中间停顿的一连串带正常重音的音节中,不论是一个短语还是复合词,其 轻重程度是不完全相同的,其中最末音节最重,其次是第一个音节,中间音节最 轻。如“展览馆”、“篮球赛”等。正常重音的声学特点是声调的完整性和音长的 加长,而不是音强的增加。轻声首先失去了原有的声调,其次它的音长大大缩短, 东南大学硕士学位论文 如指物品的“东西”的“西”。对比重音与正常重音不同的地方在于它的音高范 围更大,音长更长,音强也往往更强。 语音在音高、音强和音长方面所显示出来的抑扬顿挫的特性,也称为汉语的 韵律特性。在汉语中,主要靠音色和音高来区别语义,而音强和音长并不能区别 语义。 2 4 本章小结 本章首先对语音的产生过程进行分析,接着给出传统的线性语音产生模型, 以及汉语语音的特点,这些都是对语音信号进行研究的基础知识。通过对于这些 基础知识的了解,有助于我们进行语音训练的研究和分析器的设计开发。 第三章语音信号的特征分析 第3 章语音信号的特征分析 语音信号是一种非平稳的时变信号,它携带着各种信息。我们的目的就是方 便有效地提取并表示语音信号所携带的信息。 语音信号分析可以分为时域和频域等处理方法,其中时域分析方法是最简 单、最直观的方法。语音信号本身就是时域信号,因而时域分析是最早使用的应 用范围最广的一种方法。时域分析具有简单直观、清晰易懂、运算量小、物理意 义明确等优点;但更为有效的分析多是围绕频域进行的,因为语音中最重要的感 知特性反映在其功率谱中。时域波形较易随外界环境变化,但语音信号的频谱对 外界环境变化具有一定的抵抗性。 3 1 语音信号的时域分析 勰1 1 3 0 1 1 3 1 l 语音信号典型的时域特征包括短时能量、短时平均过零率和短时自相关系数 等。我们在进行语音信号分析时,最先接触到的、也是最直观的是它的时域波形。 图3 1 是女声“他去无锡市”的时域波形图,采样频率为1 6 k h z 。图中,横轴为 时间,纵轴为语音的幅度。图3 1 的时间轴压缩很短,只能看清该段语音的轮廓, 无法辨别语音波形的具体细节。 图3 1 女声“他去无锡市”的时域波形图 而图3 2 是男声“他去无锡市”的时域波形图,对比两图我们可以看到发同 1 4 东南大学硕士学位论文 样的声音,男声和女声的时域波形有很大的不同。不仅男声和女声的时域波形有 不同,就是同一人在不同环境下发同样的声音,也会有很大的不同。这就是我们 说的时域波形较易随外界环境变化。因此采样时要尽量保持在同样的环境下来进 行。 图3 2 男声“他去无锡市”的时域波形图 3 1 1 短时加窗处理技术 语音信号的时变非平稳,是与其产生过程和发声器官的运动紧密相关。通过 前面对发声机理的了解,我们知道发声器官的状态变化速度较声音振动的速度要 缓慢得多,因此信号可以认为是短时平稳的。在5 5 0 m s 的范围内,语音频谱 特性和一些物理特征参数基本保持不变。这样,我们可以将平稳过程的处理方法 和理论引人到语音信号的短时处理之中,每个短时的语音段称为一个分析帧。此 时,每个分析帧好像是从一个具有固定特性的持续语音中截取出来的,对该分析 帧进行处理就相当于对固定特性的持续语音进行处理。分析帧既可以是连续的, 也可以采用交叠分帧的方法,一般帧长取l o 3 0 m s 通常情况下我们采用一个长度有限的窗函数来截取语音信号形成分析帧,窗 函数。( n ) 将需处理区域之外的样点置零来获得当前语音帧。理想窗函数的频 率响应要求主瓣无限狭窄且没有旁瓣( 即无频谱泄漏) ,但这种窗函数在实际工 程中是无法实现的。根据不同应用,可以采用下面几种窗函数来逼近理想的频率 响应。 第三章语音信号的特征分析 为: 最简单的方法是采用矩形窗来截取语音信号。一个点的矩形窗函数可以 忡代翥: 一个n 点的汉明( h a m m i n g ) 窗函数定义为: ( 3 1 ) 嘶) :0 舛- 0 4 6 c o s ( 2 万南) ,。行 ( ,之) ( 。) : 0 5 4 【2 万南j ,怄“ ( 3 - 2 ) 【 o , o t h e r s 一个n 点的汉宁( h a n n i n g ) 窗函数定义为。 小) :0 5 一o s c o s ( 2 万南) ,。s 弹 l ,b = n b o 簖,b o r , 则离散小波函数为: 9 ( t ) = a 0 2 矿( 啄“,_ n b o ) ( 4 5 ) 离散正交小波交换为: 哆( 肼,疗) = 了亡厂( ,) 一( r ) 西 ( 4 6 ) = 铲巾) 妒( 矿t - n b o ) d t 有了离散正交小波变换,则信号在任意精度上可以近似表示为: ,( f ) = ,矗,t ) ( 4 7 ) 其中 矗,= ( ,( f ) ,( f ) ) ( 4 8 ) 4 2 2 几种经典小波 与标准傅立叶变换相比,小波分析中所用的小波具有不唯一性,e p ,j , 波函数 y ( f ) 具有多样性。下面是几种常见的小波函数。 3 l 第四章基于小波变换的语音分析 ( 1 ) h a a r 小波 h a a r 小波是在小波分析中最早使用的具有紧支撑的正交小波函数,同时也 是最简单的一个函数。h a a r 小波的定义为: f 1 ,0 t 式中强巧= f ( r ) 表示瑶二矿在r 似) 中的稠密,也就是说由所有子 空间可以组成r ( r ) 函数空间,这里空间巧就代表分辨率为的多分辨分析子 空间( 尺度空间) ,并且巧,_ ,y 子空间的交集为零空间。 由上可知,多分辨率分析的一系列尺度空间是由同一尺度函数在不同尺度下 扩张成的,也即一个多分辨率分析 珞j n 对应一个尺度函数。 如果 巧 。为r ( r ) 的一多分辨率分析,存在唯一的尺度函数妒( ,) r ( r ) , 我们记 纵( f ) = 2 叫2 ( 2 1 t - k ) ,j , k z ( 4 1 2 ) 则对于所有- ,z ,族 以上 。是的一组规范正交基a 但 巧,z ) 对应空间相互包含,不具有正交性,为了寻找一组r ( r ) 空间 1 d 东南大学硕士学位论文 的正交基,取形为巧在巧一。的补空间,即: 巧一。= 巧o ,且_ ,有:形上巧 若函数( f ) 的平移集合舻( f 一七) ,七z ) 是子空间的r i e s z 基,则称函数 f ,( r ) 为小波函数,令吩 ( r ) = 2 叫2 矿( 2 t - , ) ,则 ” ( f ) i 疗z ) 是髟的规范正 交基,这样小波函数集 玛j = 2 叫7 2 ( 2 t - l :) ,k e z 就成为r 似) 空间的一个 规范正交基,称形为小波空间 显然,任意子空间和巧是相互正交的,当研甩且m ,一z ,必有 r ( r ) = 。,因此 脚构成了r ) 的一系列正交子空间,并且 = 巧。彤= 巧o o 暇= 巧。玛o o = a 这样,对于任意函数,( ,) e 可以将它分解为细节部分和大尺度逼近部 分巧,然后将大尺度逼近部分k 进一步分解,如此重复就可以得到任意尺度上的 逼近部分和细节部分。 4 2 4 离散小波变换 在信号处理中,函数厂( f ) 可以分解为离散小波级数: ,( f ) = ,。矗,( f ) ( 4 - 1 3 ) 其中屯,= ( 厂( ,) ,( r ) ) ,( f ) = 2 i 矿( 2 ”,一万) ,坍,疗z z ,妒( f ) 为小波函数。 实际上由于多尺度分析提供了低通逼近,为信号的离散小波变换奠定了基 础。对于函数( f ) r ,可以看作某一逐级逼近的极限每级逼近都是用某一个 低通滤波函数夕( r ) 对( f ) 作平滑的结果,当然逐级逼近的低通滤波函数矿( f ) 也 作逐渐伸缩,也即说用不同的分辨率或不同尺度函数来逐级逼近厂( ,) 。因此,( f ) 可以通过它在尺度正交基下的展开式得到: 第四章基于小波变换的语音分析 ( f ) = e c o ,( f ) 其中九,( f ) = 矿( r 一一) ,( r ) 为尺度函数。且: ( 4 - 1 4 ) 岛,= ( 厂( ,) ,碗,( f ) ) ( 4 1 5 ) 然后,应用多尺度分析中巧- - r , + i o + i ,又可以分解为: 厂( f ) = e c o ,丸( f ) :圭q ,九( f ) + e a , 肌( r ) 巧。 6 依次类推,把朋在乃内的部分看作原始信号进行分解,又得到乃和1 t , 2 内 的分量,再对乃内的部分进行分解,最终得到各个彤仃= j ,2 , 3 ”忉内的小波系数: ( t ) - - o ,饥( ,) + 乃,( f ) ( 4 - 1 7 ) 此时,勺,和嘭,为j 尺度上的展开式,并且 q ,= ( ,( f ) ,力,( r ) ) = p ( f ) 2 叫
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国银行2025巴音郭楞蒙古自治州秋招笔试英语题专练及答案
- 邮储银行2025来宾市半结构化面试15问及话术
- 交通银行2025娄底市秋招结构化面试经典题及参考答案
- 建设银行2025鄂尔多斯市笔试英文行测高频题含答案
- 2025年3D打印的伦理争议
- 交通银行2025荆州市秋招笔试专业知识题专练及答案
- 2025行业市场规模增长动力分析
- 农业银行2025贺州市数据分析师笔试题及答案
- 农业银行2025清远市半结构化面试15问及话术
- 邮储银行2025兰州市半结构化面试15问及话术
- 车辆安全培训课件
- 装修电工施工方案(3篇)
- esg考试试卷问题及答案
- 村医依法执业培训课件
- 外科面试题目及答案
- 翻越您的浪浪山新学期开学第一课+课件
- 医院反恐知识培训课件
- 《不懂就问》教学课件
- 重症肺炎的体位管理
- 2025年干粉砂浆添加剂市场需求分析
- 2025年食堂人员培训试题及答案
评论
0/150
提交评论