已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东大学硕十学位论文 声音参数提取及应用研究 研究生彭辉 指导教师宁飞教授 摘要 用计算机处理声音已经有了长足的进步,特别是随着计算机的广泛应用和数 字处理技术的发展,计算机声音处理得到迅速发展。这其中声音的压缩编码与合 成重放,由于使用的需求发展最迅速,并形成了不同层次的国际标准。语音的识 别和文本语音转换也进入实用阶段。 基音是声音分析中的重要参数,它在声音的分析,合成和识别方面有重要的 作用。由于基音的重要性,为提取基音提出了很多方法。1 时域估计法,如自相 关函数法;2 变换域法,如倒谱法。但这些方法多是求得固定窗内声音的基音平 均值,不能精确反映基音周期的非平稳变化而且计算量较大。小波分析是f o u r i e r 分析的发展,目前小波分析已广泛应用在许多方面。小波体现的时频局部化优于 单纯的频域表示。由于小波的分解可以做成由粗到细的倍频程分割,而它的合成 就是分解的相反。这些都和人的听觉系统的感知吻合,因此适当地选择小波函数 完全可以将小波应用于基音的检测中,取得较好的效果。近年来出现第二代小波 构造算法一提升算法与第一代小波相比有较大的优点,它可以脱离傅立叶变换的 限制,并且它是本位迭代运算,节省内存,效率高计算量较一代小波减少一半, 有利于硬件实现。一代小波己应用于提取基音中,本文将提升算法( 二代小波) 应用到基音检测中,取得了准确的结果,并且计算量减少,节省了内存。 随着互联网和多媒体技术的迅速发展,信息资源变得十分庞大,信息检索变 得十分重要。这其中文本的检索已经十分成熟,但多媒体信息的检索还没有进入 实用阶段,原因是多媒体信息的特征提取十分复杂,目前也没有良好的分类方法。 本文就多媒体信息中的乐器乐音的特征参数提取作了一些研究,并用所取得 l p c 倒谱( l p c c ) 特征参数对四种乐器用神经网络矢量量化进行分类。实验结果表 明,l p c c 特征参数能表征乐器的主要特征,可作为乐器分类的一类分类参数, 当然由于乐器分类的复杂性,还需要研究其他参数来提高分类的准确性。 关键词基音提取提升算法特征提取乐器识别 山东大学硕士学位论文 e x t r a c t i o na n da p p l i c a t i o n r e s e a r c ho fa u d i op a r a m e t e r p 0 s t s 彻e n t :p e n g 辍u 王 1 u t o r :p r o fn i n gf e i a b s t r a c t : t h e r ei sq u i t eg r e a tp r o g r e s si na u d i o p r o c e s su s i n gc o m p u t e r w i mt h ew i d eu s e o fc o m p u t e ra n dt h e d e v e l o p m e n t o fd i g i t a l p r o c e s s i n gt e c t m o l o g ) ;i th a sr a p i d d e v e l o p e di na u d i op r o c e s s i n gu s i n gc o m p u t e r 。b e c a u s et h en e e do fu s i n g ,i th a sm o s t r a p i d l yd e v e l o p e di nt h es o u n dc o m p r e s s i o nc o d i n ga n dc o m b i n a t i o nr e p l a y a tt h e s a l n et i m e ,i n t e r n a t i o n a lc r i t e r i o no f a l lk i n d s o f a r r a n g e m e n t w e r e e s t a b l i s h e d s p e e c h r e c o g n i t i o na n d t e x tt os p e e c h c o n v e r t i n gb e c o m ep r a c t i c a l p i t c hi sa ni m p o r t a n tp a r a m e t e r 遮s o u n da n a l y s i s i th a si m p o r t a n te f f e c ti n s o u n d a n a l y s i s ,c o m p o s i n g a n dr e c o g n i t i o n a st h e s i g n i f i c a n c e o fp i t c h ,m a n y a l g o r i t h m sw e f ef o u n df o rp i t c hd e t e c t i o n | t i m ef i e l de s t i m a t ew a y , s u c h a sm e t h o d o fs e l f - c o r r e l a t i o nf u n c t i o n 2t r a n s f o r mf i e l dm e t h o ds u c ha sc e p s t n m aw a y b u tt h e p i t c hf o u n db ym o s t o ft h e s em e t h o d si st h ea v e r a g eo fs o u n d p i t c hi nf i x e dw i n d o w s ot h a tt h eu n s t a b l ec h a n g e o f p i t c h c a l l tb er e f l e c t e de x a c t l y t h ew a v e l e ta n a l y s i si s t h ed e v e l o p m e n to ff o u r i e ra n a l y s i s i th a sb e e nw i d e l yu s e di nm a n yf i e l d s t h e l o c a l i z a t i o no ft i m ea n df r e q u e n c yo fw a v e l e ti sb e t t e rt h a nt h ee x p r e s so fs i n g l e f r e q u e n c y t h ef r e q u e n c yd e c o m p o s e db y w a v e l e tc a nb ed i v i d e di n t o m u l t i - f r e q u e n c yr a n g e ,w h i c h w a sf r o mc o a r s et of i n e i t sc o m p o s i n gi st h er e v e r s eo f d e c o m p o s i t i o n a st h ew a v e l e td e c o m p o s i t i o na n dc o m p o s i n g i si na c c o r d a n c ew i 也 h u m a nh e a r i n gs y s t e m ,t h ew a v e l e tw h i c hi sw e l ls e l e c t e dc a nb eu s e di np i t c h d e t e c t i o na n dg e tg o o dr e s u l t 强el i f t i n gs c h e m ew h i c hi st h ec o n s t r u c t i o no ft h e s e c o n dg e n e r a t i o nw a v e l e tt r a n s f o r mi sb e t t e rt h a nt h ef i r s tg e n e r a t i o nw a v e l e t 1 1 1 e s e c o n d g e n e r a t i o n w a v e l e tt r a n s f o r m a p p e a r e d i nr e c e n t y e a r s h a s a d v a n t a g e c o m p a r e dw i t ht h e f i r s t g e n e r a t i o nw a v e l e tt r a n s f o r m ,i t c a nb ed i v o r c e df r o mt h e r e s t r i c t i o no f f o u r i e ra n a l y s i s i tc a r lc a l c u l a t ei no r i g i n a lm e m o r y i tc a ns a v em e m o r y , t 1 1 ec a l c u l a t i n ge f f i c i e n c yo fi ti sh i g h t h ec a l c u l a t eq u a n t i t yi sh a l fo ft h ef i r s t g e n e r a t i o nw a v e l e t i tc a nb er e a l i z e de a s i l yb yh a r d w a r e 硼1 ef i r s tg e n e r a t i o nw a v e l e t t r a n s f o r mh a sb e e nu s e di np i t c hd e t e c t i o n ,w eu s et h es e c o n dg e n e r a t i o n 瑚a v e l e t 1 生奎茎兰堡主兰生笙壅 t r a n s f o r mi np i t c hd e c t i o na n dg e tg o o dr e s u l t i tc a n s a v em e m o r ya n d c a l c u l a t em o r e r a p i d l y w i t ht h ed e v e l o p m e n to fi n t e m e ta n dm u l t i m e d i a , i n f o r m a t i o nr e c o u r e eb e c o m e v e r yh u g e s ot h ei n f o r m a t i o ns e a r c hb e c o m ev e r yi m p o r t a n t t h et e x ts e a r c hi s v e r y i i 珀n j r e b u tm u l t i m e d i ai n f o r m a t i o ns e a r c hi sn o tp r a c t i c a l t h er e a s o nf o r i ti st h a tt h e m u l t i i n e d i ai n f o r m a t i o nc h a r a c t e r i s t i ci sd i f f i c u l tt ob ep i c ku p n o w t h e r ei sn o tg o o d c l a s s i f i e dw a y t h i sp a p e rr e s e a r c hm u s i c a li n s t r u m e n tc h a r a c t e r i s t i cp a r a m e t e ro f m u l t i m e d i a w eu s et h el p c ep a r a m e t e ra n dn e u r a ln e t w o r kv e c t o rq u a n t i f i c a t i o nt oc l a s s i f yf o u r m u s i c a li n s t r u m e n t t h ee x p e r i m e n t r e s u l ti n d i c a t e t h a tt h e l p c cp a r a m e t e r c a n r e d r e s e n tm a s 研c h a r a c t e r i s t i co fm u s i c a li n s t r u m e n t f o rt h ec o m p l i c a c yo f m u s i c a l i n s 仃哪e m w en e e dr e s e a c hm o r ep a r a m e t e r t oi m p r o v et h ev e r a c i t yo f c l a s s i f i c a t i o n k e y w o r d s :p i t c hd e t e c t i o n ,l i f t i n g s c h e m e ,f e a t u r e e x t r a c t i o n ,m u s i c a l i n s t r u m 。n t r e c c l 鲥t i o n 4 山东大学硕士学位论文 第一章绪论 蓬着羹联瓣静麓震,信惫资源交褥卡分丰富,冀中的多媒体资源氇越来越庞 大。音频是移媒体中的一种震要媒体。我们能够听见的音频频率范围是2 0 h z 2 0 k h z ,其中语音大约分布谯3 0 0 h z 4 k h z 之内,而音乐和其他自然声响是金范 匿分布的。声音经过模拟设餐记录或再生,成为模拟音频,再经数字化成为数字 音频,然后可以在计算机中实现各种处理。 以兹数诲多磅究王俸涉及到语豢痿号斡处理,如语音识剿,戡器容易叁动识 别孤立的字词的发酱,如用在专用的听写设备和电谲自动语音应用方面,而对连 续熬语考谈爨爨较溅难,镶误较多,毽星嚣在这方露已经敬褥了突破经熬滋震。 同时还研究了辨别说话人的技术。这些研究成果将为音频信息的检索提供很大帮 韵。 常规的信息检索( i r ) 研究主要是基于文本,例如我们已经非常熟悉的诸如 y a h o o 和a l t a v i s t a 这样的搜索引举。经典的i r 问题是利用一组关键字组成的 查谶来定馒爨要懿文本文楼,邸定俊文档中熬查询关键字来发现匹瓤的文楼。如 果一个文档中包含较多的查询项,那么,它就被认为比其他包含较少直询项的文 搂受“摆关”。于懋,文档霉鞋按照“褶关”菠来褥旁,势显示绘趱户,班梗送 一步搜索。虽然这种一般的i r 过稷是为文本设计的,但显然也适用于音频藏其 德多媒俸信息的检索。但是,如莱我餐j 把数字音频当袋一种不透明酌证流来管理, 虽然可以赋予名字、文件格式、采样率等属性,但其中没有可以确认的词或可比 较的实体,潮此,不能像文本那样搜索或检索其内部的内容。对于音乐和非语音、 鑫然界声音也是这撵。 基于人工输入的属性和描述来谶行音频检索是我们首先想到的方法。该方法 豹童要缺煮反浃在豁下足令方嚣:囊数据塞越来越多瓣,入工藜注释强度麓大; 人对音频的感知,如音乐的旋律、鬻调、音质等,难以用文字注释袭达清楚。最 荮怒弼计算机代替入来谈麓和区分。 耳前计算机识别已经应用到许多方厦,例如o c r ( 光学字符、文字的自动识 别1 ,语音的自动识剐等,德其在音乐识别方面计算机应用尚处在初期,出现的 一臻应恩大多是原= j l 乏已广泛应用螅扩展,铡熟五线遴自动识别,筒谖自动识别以 及备种乐谱自动转为m i d i 镣。对音乐的自幼识别和校正尚处在研究阶段,这其 山东大学硕士学位论文 中有对乐器乐音的自动识别以及校正,声乐教学中的声乐分析及发音的校正等。 目前对音乐设备的识别多采用单音训练单音识别,例如用多种乐器演奏多个单音 然后识别。m a r t i n 1 1 1 2 1 用1 5 种音乐设备的1 0 2 3 个单音取得对不同音乐设备类( 音 乐设备类是指将乐器分为不同几种类别如钢琴类,提琴类,号类等) 的识别率可 达9 0 ,不同音乐设备( 音乐设备是指具体的某种乐器如小提琴,大提琴,小号 等) 的识别率为7 0 ,e r o n e n p i 用2 9 种音乐设备5 2 8 6 个单音训练,对其中的1 6 种设备取的了对不同音乐设备类7 0 的识别率,不同音乐设备的识别率为3 5 , 其识别正确率不是很好。与演奏内容无关的单声道单种乐器识别也取得了一定的 进展e r o n e n 4 1 用1 4 9 8 个样本识别3 0 种乐器,b r o w n 5 】用大容量样本识别4 种乐 器,m a r q l l e s i q 用两种分类方法识别8 种乐器,e r o n e m 7 】对各种方法作了总结。 上述方法达到真正的实用还有一定的距离,原因是现实中的音乐多是多种乐器的 合奏,真正单种乐器演奏较少。对音乐的自动分类和理解也有相当的发展,w e i c h a i 8 l 用隐马尔科夫模型饵山来区分三个国家的民族音乐取的了7 0 以上的 识别率。 本人就音乐设备的自动识别和校正作一些研究,通过采用时频分析和小波分 析等找到一组较为合理的音乐设备声音的特征参数,使其有利于对它们识别和校 正。 时频分析过去是建立在传统傅立叶分析的基础之上的,是为分析和处理准平 稳信号提出的信号分析理论。小波分析是在傅立叶分析的基础上发展起来的,成 为现代时频分析理论,它优于傅立叶分析的地方是它在空域和频域都是局部化 的,其局部化格式随频率自动变换,在高频处取窄的时( 空) 间窗,在低频处取 宽的时( 空) 间窗,适合处理非线性系统的信号,在图像处理、模式识别、机器 人视觉、量子力学等领域得到广泛应用。目前,小波理论的应用已成为自然科学 各个学科共同研究的热点。 提升算法是小波理论的新发展,被誉为第二代小波构造算法,相对于一代小 波构造算法,它脱离了傅立叶变换,且内存占用量小,计算简单,能够实现整数 运算。本文将提升算法用于声音的重要参数基音的检测中,取得了较好的结果。 另外本文采用单声道单种乐器连续乐曲作为训练样本和识别样本,用l p c 倒谱 ( l p c c ) 参数,神经网络l v q 分类方法来识别四种音乐设备,并对结果作了详细 山东大学硕士学位论文 讨论。 第二章声音的基音提取 2 1 声音信号的数字模型 9 l 声音信号的产生包含两个部分,声音源和滤波器。声音源被能量激励产生振 动,然后被送入滤波器,被滤波后产生声音信号。例如吉他的弦是声音源,手拨 动琴弦是激励,吉他体是滤波器,滤波器起共鸣作用,它有不同的振动模式,引 起在不同频率的峰值。 一般声音的发音机制在短时间内可以近似看作是线性系统,则其数学模型 为 y ( z ) = x ( o 兀何,( z ) 其中x ( z ) 是激励源的z 变换,y ( z ) 是输出的z 变换,h i ( z ) 是各个子系统的 z 变换。这个模型对人类发音较为适合。而大多数音乐设备的发音机制存在非线 性因素但在更短时间的约束下可以用此模型作近似。 语音产生的离散时间模型为: 基音频率 n 1 语音 图2 1 _ 1 谙晋产生离散时i 刮模型 其中,a v a u 其是调节清音、浊音信号的幅度和能量;g 。) 2 百i 磊了而, 其中g l ,均很接近于1 ,那由它形成的浊音激励信号频谱很接近于声门气流脉冲 的频谱。声道模型v ( z ) 给出了声道传输函数,在大多数情况下它是一个全极点函 数,表示为:y ( z ) = 三一,a i 是实数辐射模型r ( z ) 与嘴形有关,可以表 1 - e a ,z 1 示为:r ( z ) :1 - 一1 口“o 9 7 事实上,语音生成系统是一个时变系统,在这种 山东大学硕士学位论文 模型中,除了g ( z ) 和r ( z ) 保持不变外,f o ,a v ,氐,清浊开关,a l a p 均是随 时间而变化的。但是由于发音器官的惯性使这些参数的变化速度受到限制,对于 a l a p ,在一帧的时间内可以认为它们保持不变,因此在语音信号分析之前要进 行分帧处理,以保证在每一个帧内声道是一个稳态系统,对大多数的语声来说可 以合理的认为,激励和声道的一般性质在l o m s 3 0 m s 的时间内是保持不变的, 即帧长一般为2 0 m s 左右,利用的参数均是短时参数。离散时域信号s ( z ) 的z 变 换可以用一个统一的公式来计算:s ( z ) = a e ( z ) h ( z ) 在浊音的情况下,e ( z ) 是一个周期冲激序列的z 变换,且a = a 。, h ( z ) = g ( z ) v ( z ) r ( z ) ;在清音情况下,e ( z ) 是随机噪声的z 变换,且a = a 。, h ( z ) = v ( z ) r ( z ) a 2 2 基音提取的一般方法 基音检测【1 0 1 是语音处理中的一个重要问题。许多语音处理问题都要用到基音 检测器利用基音检测器来估计基音周期,便于分析和合成相应的语音。在音乐 识别中基音也是一个重要参数,直接关系到乐器的音调和声乐的音调和音准。基 音提取的一般方法有时域方法和变换域方法 “1 。 下面讨论两种基音检测的时域方法,即并联处理方法和削波的修正自相关基 音检测法( a u t o c ) 。 1 并联处理方法【1 2 】: 并联处理方法的步骤是这样的,先对语音信号采用峰值谷值测量技术进行处 理,得到若干冲激序列,这样的冲激序列保留下原始信号的周期性,但抛弃了与 基音检测无关的特性然后估计每个冲激序列的周期。最后,利用这些周期推断 语音波形的基音周期。 这种并联基音检测方法在浊音和清音的判别方面,其准确性不够好,这是 由于判别运算约需三个基音周期才能可靠地判别,因而在浊音的开始段,也就是 在发浊音的第一个1 0 2 0 m s 时,浊音常误判为清音。 2 削波修正自相关基音检测法1 1 3 】: 利用短时自相关函数进行基音检测的一个主要困难是由于自相关保留语音 的信息太多除掉在基音周期的整倍数值位置上有大功率突起外,另外还有许多 山东大学硕士学位论文 峰这就是由于声道响应的阻尼振荡引起的当声道响应的自相关峰大于基音周 期的白相关峰时,利用自相关进行基音检测就将失败。 为了避免这种情况,必须对语音信号进行处理,其目的是去除声道转移函数 的影响,以便抑止信号中其他因素带来的扰乱,对信号进行这种处理称为“谱平 整”。谱平整的方法有许多种,下面我们讨论一种比较有效的方法,称为“中心 削波技术”,中心削波技术的目的是消除声道转移函数的影响,使每个谐波有相 同的幅度。中心削波器的输出y ( n ) 与输入x ( n ) 是一个非线性关系,可以表示为 f x - 乞,o c ) y ( 行) = c i ( 疗) 】其中c d - 】= 工+ c 。,o 1 0 如ra l lk ,1 ,j 其中,啦,= 竺2 7 。并虽,叫可以按以下方法从其母小波中构造: 州( 垆型( 2 。“ 弦名;z 妒f ( 工) = q 2 7 矿( 2 7 x 一七) j 菰选定的尺度丞数箨为矢鬟空瓣豹正交薹,可褥至l 嵌套燮阕v 。严c 。 于是绘定一函数汐,其尺度系数和小波系数阿由下式计算: 。= = 毽f , g e l 2 ( 聋) 盥厂g 通常意义下,内积定义隽 厂f f s ( x ,y ) g ( x ,y 油毋 畸,一 一1 4 山东太学硕士学位论文 时对应的滤波器具有线性相位【2 1 1 。 取代小波函数、尺度函数的正交性的是所谓的双正交条件: ( “,刃,) = 6 ( k 一一) ( ,既,) = 占( ,一m ) 8 ( k - 玎) 此时相应的多分辨分析子空间的嵌套序列分为两种: ( 3 1 - 1 2 ) f 3 1 1 3 ) 匕等c 2c ,c ( 3 4 ) 巧ckc 7 v ocv lck 2 , 在双正交的条件下,子空间与不是正交补空间,但是若令 衫= c l o s e 矿似:,k z ) 则有以下正交补的关系: v il 国| 膏il wj 相应的双尺度方程为: 庐( f ) :拒窆 辑( 2 卜七) ,芗o ) :也2 n - i 晟 谚( 2 r 一庐( f ) = 拒 辑( 2 卜一七) ,芗o ) = 也晟 谚( 2 f 一 0t 神 ( 3 1 1 5 ) y ( f ) :压2 n i g 弦伍一七) ,矿( f ) :i 2 n - 1 季o ) 芗( 2 f 一七) ( 3 1 1 6 ) k - , ok - - 0 依据式( 3 1 1 5 ) 得 嚣裂( - 1 ) t h 谁 ( 2 n :七k :;上 ,) l g ) =一+ 1 ) “1 。 、 所以,在设计双正交小波滤波器时,实际上只要设计两个尺度滤波器。 一维m a i l a t 算法 m a u a t 在著名的用于图像分解的金字塔算法啪i d a la l g o r i t h m ) 的启发下, 结合多分辨分析,提出了信号的塔式多分辨分解与综合算法,常简称为m a l l a t 算法【2 2 1 。 设厂( ) r 俾) ,并假定已得到,( ,) 在2 7 分辨率下的粗糙象彳,f _ , j j 。: 构成r 的多分辨分析,从而有= _ + 。o 即 4 ,= 4 川厂+ q + i f ( 3 1 - 2 2 ) 山东大学硕士学位论文 式中4 ,= e c 褂y 站( f ) , 于是 也,= 轨,。妒站( r ) , c j j b ( f ) = c 一 办w ( f ) + q w 妒川,。 ( 3 1 _ 2 3 ) t _ k = - a _ ” 由尺度函数的双尺度方程可得 蝙,争) = h ( k - 2 m ) 6 每 女= ” 剩罴尺度藿数戆歪交援,毒 ( 丸+ 。,办,t ) = 一2 m ) 同理融小波函函数的双尺度方程可得 o + ;,戎,) = g 冬一2 m ) 由式( 3 。1 - 2 3 ) 、( 3 1 - 2 4 ) 和( 3 。1 - 2 5 ) 立即可得: c 脚= h ( k - 2 m ) i 哪 q “。= q g ( k - 2 m ) ( 3 1 - 2 4 ) ( 3 ,1 - 2 5 ) ( 3 1 - 2 6 ) ( 3 1 - 2 7 ) c j j ;主矗 一2 埘b + i ,。+ e ”g ( k 一2 m ) d 。, ( 3 1 2 8 ) 引入无穷矩阵= p 。 譬。:。,g = 随,e * ;。 ,其中 h 。j = 辑一2 m ) l g 。 = g 伍一2 刀1 ) 则式( 3 1 - 2 6 ) 、( 3 1 2 7 ) n ( 3 1 - 2 8 ) 可分别表示 簖c j + i = h c t ,j = 0 , 1 , - - - , j 和 c j = h 。c 硝+ g 。d j “,歹= j , j 一1 ,l ,0 ( 3 :1 - 2 9 ) ( 3 1 - 3 0 ) 其中,g 分别是h 和g 的烘轭转鬣矩阵。 式( 3 1 2 9 ) 为m a l l a t 一维分解算法,式( 3 1 3 0 ) 为m a l l a t 一维重构算法,如图 山东大学硕士学位论文 3 1 7 i 所示 h + hh d h c o 一c l d h + _ 一c , ( b ) 重构算法 图3 1 1m a l l a t 小波分解和重构算法示意图 利用m a l l a t 分解与重构算法进行信号处理时,不必知道具体的小波函数是什 么样的,此外,在对数字信号进行处理时,通常假定相应的连续函数属于k , 但即使如此,该函数在v o 空间的投影的系数与由采样得到的离散序列一般不一 样,但实际上都是直接把由采样得到的信号作为最高分辨率的信号来处理,这时 更多的是把小波变换当作滤波器组来看待。 在实际应用m a l l a t 算法时,由于实际信号都是有限长的,存在如何处理边界 的问题。比较常用的方法是周期扩展和反射扩展。主要目的是要降低边界不连续 性所产生的在边界上变换系数衰减慢的问题。 提升算法【2 3 】 2 4 1 2 5 】: 1 完美重建 通常信号处理是将原信号变换到另一个不同的域,在变换后的信号上进行一 些操作再反变换回原来的域。因此这种变换必须是可逆的,如果没有对数据进行 处理则我们要求完美重建,例如我们只允许时间上的延迟。小波变换也要满足这 些要求。 我们可以通过滤波器组来实现小波变换。 c 法 一 觯一 分 一 + 山东大学硕士学位论文 y 图3 1 2 通过一阶滤波器进行信号分析和重建 由图3 1 2 得变换是完美重建的条件为 h ( z ) h ( z 。1 ) + g ( z ) g ( z 1 ) = 2 厅( z ) ( 一z 1 ) + g ( z ) g ( 一z 。1 ) = 0 2 多项式表示为 图3 1 3 图3 1 3 是求小波系数的两种表示右图比左图更加有效的实现。 由图3 1 ,3 右图得儿( z ) = j b 。( z ) z 。( z ) + z - 1 h 。( z ) 工。( z ) 则对应的小波变换可表示为 卜,( :j 曼, 蜥2 瞄到 则相应的小波逆变换可表示为 ( 嬲卜榄羽舯糍渤 由以上公式得 回日9 碲一 山东火学顽士学使论文 矗匝区:二匦y 矗咤鬯l 羌一鬯睁y 则由上图可得完美重构的条件为 鏊3 。i 4 p ( z 4 ) 户( :) = i 假设p ( z ) 可滋则 吲= 恐= 丽蕊1卜( g o ( z ) 唱h a - 协) ) 又要求琰z 产l 帮魂q ) g 。( 0 - h o ( z ) g , ( z ) = 1 粼峦上式褥 邵楚: 如( :) 。g o ( z 。) h 0 0 ) = - g 。0 。) g 。( z ) = 一h o ( z 一1 )g 。( 2 ) = 。( 。1 ) 壤z ) = q _ g 卜z _ )苫( 善) = :q 蠹( 一z 。) 3 势伦多项式 g 一个f 取滤波器z 变换为矗( z ) = 魄z ,称为劳伦多项式。 4 提升 如果p ( z ) 的行列式必1 ,则滤波器组氆,g ) 是互於躲。报攥提舞定理可| 美怒到 另一新的与h 互补的滤波器g ” g ”( 习= g ( z ) + 矗( :) s ( z 2 ) 其中s 口) 是势伦多项式,由此可得到新的矩阵 p c z ,= ( 乏 三乏 :葚芝;:耋 耄 = p c z ,05 竿) 其中尸”( = ) 的行列式值为1 山东大学硕士学位论文 同样,我们可以得到 ( :) = h ( z ) + g ( z ) s ( z 2 ) 声2 r 址g 力k 。) + g 砷j = i l o 巾1 弘l。( z )。( z )jj 这叫做主提升,我们用高通子带来提升低通子带。( 如图3 1 5 所示) y 图3 1 5 相应的我们也可以用低通子带来提升高通子带,这叫做对偶提升。 h - - ( z ) = ( z ) + g ( z ) t ( z 2 ) 一加( 躲耋黝黝刊o 相对的 g 一( z ) = g ( z ) + h ( z ) t ( z 2 ) 尸cz,=f。;,:譬:,;。:,。,h+o(z。):,;。:,j2;占,0lg g h o。 p c z , 。( z ) + 厅e ( z ) r ( z )。( z ) +( z ) f ( z ) v j1 对偶提升的过程为 矗匦 匦直:直匦萝r矗咤匣恒九直鬯归r 图3 1 6 第二代小波构造方法一提升方2 6 】 2 7 1 与第一代小波构造方法的区别在于不 依赖于傅立叶变换,在空间域中实现小波的构造。由提升方法构成的小波变换过 程可分为3 个步骤【2 8 】:分裂( s p l i t ) 、预测( p r e d i c t ) 、更新( u p d a t e ) 。 山东大学硕士学位论文 ( 1 ) 分裂( s p l i t ) 此过程仅将一数据集( 原始信号) s ,( jez + ) 分裂成两个较小的子集合s 。和 d 。,d 。也称为小波子集,即: s p l i t ( s j ) := ( e v e n j - l ,o d dj _ 1 ) = ( s h ,d j _ 【) ( 2 ) 预测( p r e d i c t ) 如果d ,。不包含任何信息,用s 。便能更紧凑代表s 。实际上这种情况很难 出现,基于原始数据的相关性,构造算子p 用偶数序列s 。去预测奇数序列d j 。 实际是用s 。附近几点的值的线性组合来预测d 。 d j - l := d t p ( s j - 1 ) ( 3 ) 更新( u p d a t e ) 经过上面两个步骤还不能在子数据集s 。中维持原始数据集s ,中的整体性 质,如均值等。因此,必须采用更新过程。更新的基本思想是找出一个更好的子 数据集s 。,使之保持原始数据集s ,的尺度特性q ( ) ,如均值、消失矩等不变, 即: q ( s 。) = q ( s 。) 构造一个算子u 去更新s 。,定义如下: s j _ i := sj _ l + u ( d j 1 ) 实际上是使用d 。附近几点来改善s 。使其低频性质不变。 提升方法中的主要步骤为: 1 ) s j - i ,d j _ l := s p l i t ( sj ) 2 ) d j _ - = p ( s h ) 3 ) s j - t + - u ( d j - j ) 重构数据集的提升方法步骤为: 1 ) s j _ , - = u ( d h ) 2 ) d j - , + - p ( s h ) 3 ) s j := m e r g e s j - 1 ,d j 1 分解和重构如图3 1 7 所示。 山东大学硕士学位论文 图3 1 7 提升方法分解和重构 在实验中我们用的是( 2 ,2 ) 类型小波变换,它的变换公式为: d j v = j ,2 ,+ 1 一l 2 ( s j ,2 f + s j ,2 + 2 ) s j l j = s j ,2 ,+ 1 4 ( a r l 一l + d j - i , 1 ) s j 其中j ,j l 表示变换级数。 这两个公式实际物理意义就是小波分解变换对应的两个具有优化性能的数 字滤波器。变换过程如下: 梢永冬i 冬 n 爪i 爪 ” s j 1 i td j 2 i 。ls j i ? h 从上图可以看出,变换后的数据仍然存放在原图位置处,从而可以大大节省内存, 并且可以并行计算。进行下一级变换时,只需对低通信号,s j 1 ,1 ,s j 1 ,i + 1 ,“进 行同样的操作。 与第一代小波构造方法相比,第二代小波构造方法具有许多的优越性,这体 现在:1 ) 可实现整数小波变换。2 ) 能在当前位置完成小波变换,节省内存。3 ) 计算更快速。4 ) 不依赖于傅立叶变换实现小波构造。5 ) 可以并行计算。 山东犬学硕士学位论文 3 2 小波检测音调原理 痒受夺波理论羹基久之戆m a n a t 在悲戆一系裂论文孛麓述了夺波理论翔手 信号的奇异点检测原理。并把此理论用于图象编码和边缘检测。而k a d e m b es 与 其合箨者运麓这个器理避行语音信譬处瑾。缝们弱连续懿二遴,j 、渡交挨对语音信 号进行音调检测。 m a l l e t 奇异梭测原理 根据二避小波交换原理,选择个磨光函数q 0 ( ) ,使褥苏o ) = i ,即 f 联砖艿( 羔斑:l ;菇f 显t i m q ( x ) :0 ,( ( x ) 霹缴。令瓣数交:d q :( x 一) ,麦予 m,r 妒( o ) 。( x ) 呔= 0 ,因此( x ) 满足可允许条件,可作为小波。考虑相应于 蚓;a q 。( x ) n - 迸4 、溅按,( 小:厂+ 以( 。) :f , s d q s ,( x ) :s 型掣 “敷甜 此式说明,信号,( 对的二进小波变换k ,( 砷与信号,( 工) 以尺度s 磨光后一阶导 数垡笋成比例关系,也就是说冁“x ) 与【,熟】( 砷成导数比例关系。 实际上飚数( ,熟j 0 ) 怒对,( x ) 的磨光。若尺度s 很小,则酝( x ) 对f ( x ) 平 滑律爝较弱,死乎胃激怒略。若尺璇s 缀大,瑙幺( x ) f f i f ( x ) 起了穰强静平辫作 薅,瞧裁是谖,滤撵t ,( 对懿凑频分照,只粼- f f ( x ) 匏大致糕椠( 嚣低频成分) 。 由函数与其导数之间的关系来餐( 导数值大,说明函数的变化率快,即突变: 导数的极大值点对成于函数的突变点) ; ( 1 ) 若足度s 缀小,由于热x ) 对,( x ) 豹乎滑终爱,嚣丽m ) 鹣极遣煮对瘟 于邈数f ( x ) 豹离频突变点。 ( 2 ) f ,热】红) 的拐点即可能是 g d s f ( x ) l 的极大值点,也可能是l 歌八x ) l 的 极小值点。i w s f ( x ) i 的极大值点对应于,热的快变点;i 冁f ( x ) l 的极小值点 对应于厂如的慢变点。 山东大学硕士学位论文 因此,只要选择合适的小波函数庐( ;) :皇l 攀,就可以根据iw s f ( x ) l 的极大 “ 值点x ,来确定函数f ( x ) 的突变点石。 音调检测原理 根据语音信号产生的理论,当人们发音时,声门不断地进行开闭振动,在声 门闭合的瞬间,声道发生强烈的振动,使语音时域波形在此瞬间发生突变。根据 m a l l e t 突变检测原理,选择一个光滑函数q ( 砷的一个阶段的导数庐( ;) :望! ;盟作 a x 为小波函数。并求出其二进小波变换f ( x ) ,检测到i f ( x ) 1 的极大值,就 可以确定出语音信号的突变位置,而相邻突变点之间的长度就是基音音调。 3 3 提升小波提取基音 经查询二代小波( 提升算法) 尚未见有用于音调检测的报道,而根据我们对 二代小波的理解,其良好的滤波原理及优良的提升算法,不仅能精确地检测各种 不同音域声音的音调( 基音) 而且明显降低算法的时间复杂度和空间复杂度。 提升算法中将信号s 。分解为s ,一:和d 。相当于对信号s j 进行滤波分解为低通 分量s 。和带通分量d 。,s 。为s j 低频信息即0 到s ,最高频率一半的信息,d n 为s 高频信息即s ,最高频率一半到s ,最高频率的信息。语音信号的截止频率在 5 k h z 以内,因此采样频率为1 1 0 2 5 k h z ,语音信号基音频率集中在5 0 5 0 0 h z 之间, 因此需分解到3 - 4 层( 分解到4 层时第四层低频系数的频率范围为o - 3 5 0 h z ,分 解到3 层时第三层低频系数的频率范围为o - 7 0 0 h z ) ,音乐信号的频率在 2 0 h z 一2 0 k h z 之间,因此采样频率为4 4 1 k h z ,音
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 龙卷风灾害救援
- 2026年中国交建校园招聘面试全攻略及模拟题集
- 2026年私募股权基金战略规划岗绩效考核模拟
- 2026年公务员行政职业能力提升训练试题
- 2026年新区老年人数字技能普及题库
- 2026年挖掘机维修技师招聘面试问题与行走系统故障解析
- 2026年冷库安全生产责任制及火灾风险防范知识考核
- 2026年医疗行业医务人员行为规范与法律法规测试题库
- 保险客户经营新时代培训课件
- 强化干旱灾害监测预警
- 2025-2030中国碳纤维回收行业市场发展趋势与前景展望战略研究报告
- 患者十大安全目标(2025) 2
- 2023年泸县选调机关事业单位工作人员考试真题
- 新建雄安新区至忻州环境影响报告书
- 河南省南阳市邓州市2023-2024学年六年级下学期6月期末英语试题
- 悬挑式卸料平台验收表
- GB/T 754-2024发电用汽轮机参数系列
- 河道整治方案的PPT
- 最全医疗机构基本标准(试行)2023年
- GB/T 14916-2022识别卡物理特性
- GB/T 19835-2005自限温伴热带
评论
0/150
提交评论