




已阅读5页,还剩64页未读, 继续免费阅读
(计算机应用技术专业论文)数字音频的音调和时长变换及压缩效果的研究和实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 数字音频的音调和时长变换及压缩效果 的研究和实现 摘要 随着信息技术和多媒体技术的发展,我们面对的视音频信息越来越多,有时正 常的视音频素材已经不能满足人们特定的需求,例如在动画片中,为了刻画一些奇 人怪物,就要用奇声怪调对人物个性进行修饰,显然正常语音无法满足这种需求。 本文要研究的音频的音调( p i t c h ) 和时长( t i m e ) 的变换就属于这种情况。音调 时长的变换( p i t c h t i m es c a l e ) 在国内外已有相关的处理方法,但是用这些技术实 现的处理效果或多或少的存在着某些缺陷。有些是由于概念上的偏差导致了处理结 果的不理想,如最早提出的p i t c hs h i f t ;有些是由于处理方法的不完善,导致处理 结果的不完美,如基于时域处理的p i t c hs c a l e 和o l a 方法对时长的调整等。本文 在研究、总结现有的p i t c h t i m es c a l e 处理技术基础上,提出了基于频域处理的p i t c h s c a l e 技术和改进的s o l a 算法,给出了实现方法;对p i t c hs c a l e 升调处理过程中 出现的问题给予分析,使用低通滤波器进行了滤波,达到了很好的效果。 谈到数字音频,就很难回避音频压缩。压缩方案的选择与否关系到存储空间的 节省、网络传输速度的快慢以及音频质量等问题。在选择压缩方案时,首要问题就 是选择什么样的压缩格式,压缩方法的好坏直接关系到压缩后音频的质量,特别是 象p i t c h t i m es c a l e 这样的处理,因为我们在做p i t c h t i m es c a l e 等处理的时候,再 好的算法本身也会存在缺陷,经过这样处理的音频再经过压缩,效果肯定要受到影 响。本文要研究和解决的问题就是p i t c h t i m es c a l e 处理后音频压缩的效果问题,本 文在详细介绍目前几种主流的音频编解码算法的基础上,对p i t c h t i m es c a l e 处理的 音频进行压缩处理,对压缩的结果给出了主观上的评价,给出了压缩方案的选择。 本文作者参与开发的数字音频工作站( d i g i t a l a u d i ow o r k s t a t i o n ) d a w 的功能 十分强大,目前已在日本两家知名电视台中应用,其中p i t c h t i m es c a l e 处理就是其 中关键技术之一,p i t c h t i m es c a l e 处理技术在d a w 中的应用极大的增强了d a w 的音频处理功能,本文介绍了d a w 和其强大的编辑制作功能。 数字音频工作站目前多是基于微软的w i n d o w s 平台实现,可以直接对w a v 东北大学坝上学位| 仓文 摘要 文件的波形进行编辑处理,如拷贝、插入、删除、淡入淡出等,如果选择了压缩进 c 7 行保存,那么再对音频进行编辑处理时,逝垄竖盟乓缩格式! 碧塞建墨w a v 文件 。 盟缠塑处理。例如,如果我们选择了m p e g 的音频编解码技术,那么后期的编辑处 理该如何进行? 本文的最后,给出了将w a v 文件作为中间转换格式的解决方案。 【关键词】音调变换,音频时长变换,音频压缩,数字音频工作站 a b s ”a c t s t u d y a n d i m p l e m e n t a t i o n o f d i g i t a l a u d i o s p i t c h t i m es c a l ea n dc o m p r e s s e f f e c t a b s t r a c t r e c e n t l y , w i t h t h e d e v e l o p m e n t o fi n f o r m a t i o n t e c h n o l o g y a n dm u l t i m e d i a t e c h n o l o g y , t h e r ea r em o r ea n dm o r ev i d e oa n da u d i o si n f o n n a t i o n ,b u tt h e yc o u l dn o t s a r i s f yw i t h o u rs p e c i a la p p l i c a t i o n s u c ha sp i t c h t i m es c a l eo fa u d i o t h e r ea r cs e v e r a l t e c h n i q u e st od op i t c h t i m es c a l e ,b u tt h ee f f e c ti s n o ti d e a l ,w h i c hi sb e c a u s eo ft h e w r o n g i nc o n c e p ts u c ha s “p i t c hs h i f t ”o rb e c a u s eo ft h ei m p e r f e c t i o no f t e c h n i q u es u c h a s “p i t c hs c a l ei n t i m ed o m a i n ”t h ea u t h o ro ft h i sp a p e ri n t r o d u c e sp i t c h t i m es c a l e t e c h n i q u e st h a th a d b e e nu s e d ,t h e nb r i n gf o r w a r d “p i t c hs c a l ei nf r e q u e n c yd o m a i n ”a n d i m p r o v e ds o l a a r i t h m e t i cf o rt i m es c a l eo fa u d i o a tt h es a m et i m e ,t h ea u t h o rg i v e s t h e i m p l e m e n t m e a n s w eh a v et or e f e rt oa u d i oc o m p r e s si f w et a l ka b o u ta u d i o ,e s p e c i a l l yi nb r o a d c a s t i n g s t a t i o na n dt vs t a t i o n i nf a c t ,t h eb r o a d c a s t i n gs t a t i o na n dt vs t a t i o nl i k et od oa u d i o c o m p r e s s r a t h e rt h a nw a s t et h e i rl i m i td i s cs p a c e b u tt h ea u t h o rm o r ec a r e st h ee f f e c to f c o m p r e s s e da u d i o w h i c hh a db e e np i t c h t i m es c a l e d w ek n o wt h e p i t c h t i m e s c a l e a r i t h m e t i ci sn o tf u l lp e r f e c t ,t h ee f f e c to fa u d i om u s tb ea f f e c t e db y p i t c h t i m es c a l i n g c o u l dp e o p l ea c c e p tt h ea u d i ot h a th a db e e nc h a n g e dw i t h p i t c h t i m es c a l ea n dc o m p r e s s ? i ti sai s s u et h a tw i l lb ed i s c u s s e di nt h i sp a p e r t h ea u t h o rw i l l g i v et h ee v a l u a t i o n r e s u l ta n dt h eb e s ta u d i oc o m p r e s ss e l e c t i o n t h ed i g i t a la u d i ow o r k s t a t i o n ( d a w ) ,w h i c ht h ea u t h o ra n dh i sc o l l e a g u e sd e v e l o p f o rt w of a m o u st vs t a t i o ni nj a p a n ,h a sm a n yd i f f e r e n t f u n c t i o n s ,i n c l u d i n gp i t c h t i m e s c a l e p i t c h t i m es c a l eo f a u d i om a k ed a wm o r em i g h t i n e s si nf u n c t i o n t h ea u t h o rw i l l i n t r o d u c et h eu s eo f p i t c h t i m es c a l ea n do t h e re d i tf u n c t i o ni nd a w d a wi sc o m et r u ea b o v em i c r o s o f t sw i n d o w s o p e r a t i o ns y s t e m ,w ec a nd i r e c t l y e d i ta n dd e a lw i t hw a v eo f a u d i o ,w h i c hi sc a l lw a v ef i l ef o r m a t b u tw eh a v et oe d i ta n d d e a lw i t ha u d i oi f w eh a dc o m p r e s s e da u d i of i l e s ? f o re x a m p l e ,w eu s e - i v 东北大学硕士学位论文 a b s t r a c t m p e ga n d i os t a n d a r da n ds a v e dt h ea u d i of i l e si nm p 3f o r m a t h o wt oe d i ta n dd e a lw i t h t h em p 3f i l e s ? t h ea u t h o rw i l lg i v ey o u a l la n s w e ra b o u ti ta tt h el a s to ft h i sp a p e r k e yw o r d s :p i t c hs c a l e ,a u d i ot i m es c a l e ,a u d i oc o m p r e s s ,d i g i t a la u d i o w o r k s t a t i o n v 声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中 取得的研究成果除加以标注和致谢的地方外,不包含其他人已经发 表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示谓十意。 本人签名: 日期: j 受桫铒 力帆移 东北大学硕l j 学位沦文第一章绪论 第一章绪论 随着计算机信息技术在各个领域的广泛普及,尤其是近来数字多媒体技术的快速 发展,使视音频技术得到广泛应用。对音频的音调和时长的处理就是音频处理中比 较关键和热门的技术之一。本章将对p i t c h t i m es c a l e 处理及相关技术做详细介绍。 1 1 音频处理关键技术p j t c h t i m es c a ie 技术简介 p i t c h t i m es c a l e 都是针对音频效果的处理。p i t c hs c a l e 与t i m es c a l e 在处理的 方法上既有相关联系,又有异同。 p i t c hs c a l e 是指在保持音频播放时间( t i m e ) 不变的前提下,将音频的音调进 行调整,包括提升音调与降低音调。经过p i t c hs c a l e 处理的音频,既保持了音频时 间上的不变性,又使声音本身的音调发生变化,这样的处理在目前很多地方得以应 用。 t i m es c a l e 则是指与p i t c hs c a l e 相反的操作,它是指在保持声音音调( p i t c h ) 不 变的前提下,将音频的时间长度进行调整,包括时间长度的加长与缩短。由于t i m e s c a l e 是在保持音调不变的前提下进行的变换,所以变换后的音频既保持了原有的音 调,又使自身的长度发生了变化。 由于p i t c hs c a l e 和t i m es c a l e 处理技术对音频做了与原始音频相差较大的处理, 因此两者处理过的音频在听觉上会给人耳目一新的感觉,正是因为有了这种耳目一 新的听觉效果,所以目前p i t c hs c a l e 和t i m es c a l e 处理在诸多领域内得以应用,具 体应用参见本章1 5 节。 1 2p i t c hs c a l e 技术的研究状况 国内外对p i t c hs c a l e 研究己取得一定的成果,但是效果不理想,存在着许多改进的 余地。我们知道,音频是由乐音和语音组成,因此在p i t c hs c a l e 中,我们处理的对 象( 音频) 就不仅仅是单一的乐音,或单纯的语音。我们要处理的音频可能就是包 含乐音和语音成分的复杂的音频。单纯针对于乐音或者语音的音调处理技术,在处 理音频时可能就会显得力不从心,处理的效果也就可想而知。 最早提出的针对于p i t c h 的处理被称做p i t c hs h i f t ,这项技术的主要是致力于对 乐音的处理,因而在处理含有语音的音频时,语音部分难免会产生失真,给听觉带 来不舒适的感觉。 随后提出的p i t c hs c a l e ,虽然正式提出了音调缩放的概念,但是由于是在信号的 时域基础上进行的处理,方法的简单化使处理的结果并不如意。 东北大学坝一i = 学位论文第一章绪论 在综合分析了p i t c hs h i f t 和时域上处理的p i t c hs c a l e 的优缺点的基础上,本文提 出了基于频域处理的p i t c hs c a l e 的相关算法。 1 - 2 1 最早提出的p i t c hs h i f t 处理 最早的关于p i t c h 的处理称为p i t c hs h i f t ,主要是将音频信号的p i t c h 进行移动( 横 向的) ,这样处理得到的效果音多用在音乐制作中,例如我们熟知的金属乐等。p i t c h s h i f t 虽然对p i t c h 做了处理,但是得到的音频效果及不和谐,尤其是音频中的语音 成分,在p i t c hs h i f t 处理后完全失去了原始音的和谐性,与p i t c hs h i f t 处理前的语 音成分有天壤之别。因此p i t c hs h i f t 适合于对乐音进行处理,得到发烧友们想要的 效果,但是不适合对含有语音的音频进行处理,这样容易产生失真( 除非是想得到 奇音怪调的处理) 。详细介绍见参考文献 4 。p i t c hs h i f t 处理的原理图如下: 又 , 、 圈1lp i t c hs h i f t 处理前的频率分布 f i 9 1 1f r e q u e n c y b e f o r e p i t c h s h i l l | “+ z v 一qf 一鲥 图1 2p i t c hs h i f t 处理后的频率分布 f i 9 1 2f r e q u e n c y a f t e rp i t c hs h i f t 1 2 2 基于时域处理的p i t c hs c a l e 针对p i t c hs h i f t 处理中语音成分的失真,研究人员提出了p i t c hs c a l e 概念,p i t c h s c a l e 与p i t c hs h i f t 的明显区别是强调对p i t c h 进行扩大处理( d i l a t e ) ,而不是s h i f t 东北大学硎士学位论卫 第一章绪论 处理,在算法上采用乘法,既对频率进行加倍处理,而非p i t c hs h i f t 对频率进行的 加法处理。如下图1 3 : 彳$ a * c t c c 图1 3p i t c hs c a l e 处理后的频率分布 f i 9 1 3f r e q u e n c y a f t e rp i t c hs c a l e p i t c hs c a l e 常用的算法是时域基音同步叠加算法。时域基音同步叠加算法直接对 音频波形进行处理,首先将数字化的音频信号s ( n ) 分解为一个短时分析语音信号 s 。( n ) 序列,然后将短时分析语音信号s 。( n ) 转换为短时合成信号序列 s 。( n ) ,最后再由短时合成信号s 。( n ) 通过基音叠加方法完成p i t c hs c a l e 。时域基 音同步叠加算法的突出特点就是计算简单,在一般的p c 中就可进行实时处理,而 且处理的效果比p i t c hs h i f t 要好得多。缺点就是,虽然做了p i t c hs c a l e ,但是合成后 的音频与原音相比失真仍然较大。这种失真其实就是时域处理的局限性所致,这也 给了我们许多改进的余地。相关内容见参考文献 1 9 1 。 由于反映音调的主要指标是信号的频率的大小,在时域对频率进行操作,显然有 其局限性。如果将对音调的处理转换到频域上去,处理的效果是不是会更好? 在信 号的频域上做音调处理需要哪些相关技术,在这些技术的基础上如何实现p i t c h s c a l e 处理? 1 ,3t i l 1 1 6s e a i e 技术的研究状况 国内外针对音频时长( t i m e ) 进行变换的研究主要是基于硬件实现,最具代表性 的就是相位声码器( p h a s e v o c o d e r ) 技术。 相位声码器技术是由f l a n a g a na n dg o l d e n 提出并得以数字化实现的一门信号 处理技术。相位声码器使用短时傅立叶变换( s t f t ) 将信号转换成信号的频域表示, 因此s t f t 返回的是频率的信号,在这个过程中可能会有部分信号的频率失真。事 实上,如果不估计信号的基频的话,s t f t 就很难得到和谐的效果。最坏的结果就 东北大学硕十学位论文第一章绪论 是产生严重的失真。在估计了信号的基频的基础上,对信号做适当的插值处理,从 而计算出新的频率变化。最后通过逆短时傅立叶变换( i s t f t ) 将信号变换到时域, 从而完成音频时长的变化。 相位声码器算法主要用在科技教育软件产品上( 目的是展示傅立叶变换的局限 性) 。相位声码器最大的缺陷就是产生了大量的人为噪音和回声( 即使是在较低的变 换范围内) ,其主要原因就是在处理的过程中进行了插值处理和基频估计的误差。 除相位声码器技术外,有些技术采用在信号的时域范围内对音频数据做简单的处 理,从而达到变换音频的时长的目的。比较典型的算法是称叠加技术o l a ( o v e r l a p a d d ) 的处理技术。算法原理图1 4 如下: 原始信号 s a 叫 n 图1 4 处理前信号的波形及各帧问的结构 f i 9 1 4o r i g i n a lw a v e a n df r a m es t r u c t u r e 图1 5t i m es c a l e 处理后信号的波形及各帧间的结构 f i 9 1 5w a v e a n df r a m es t r u c t u r ea f t e rt i m es c a l e 图1 4 ,1 5 中s a 为原始信号f r a m e 的间隔,s s 为t i m es c a l e 后f r a m e 间隔, 可以明显看出处理后信号在时间轴方向明显被拉长。o l a 处理方法虽然在实现原理 上简单,且没有傅立叶变换带来的麻烦,但是,由于变换方法的简单,一些音频信 号的特征被忽略,如相位等,从而使t i m es c a l e 变换后的音频在听觉上很难接受。 是否可以找寻一种方法,此方法基于o l a 技术,使t i m es c a l e 处理的音频在听 觉上达到和谐性,从而使t i m es c a l e 处理的效果可以接受呢? 这是本论文将要讨论 末北大学硕士学位论文 第一章绪论 和实现的主要问题之一。 对声音的音调和时长的处理技术在八十年代就已被研究人员提出,并做了一些 尝试,提出了相关的处理技术。这些技术虽然对声音的音调和时长做了处理,但是 限于处理技术本身的原因,处理的结果都不是十分理想,或多或少的都存在缺陷。 比如:p i t c hs h i f t 处理对乐音的效果较好,对语音部分的处理失真较大;时域处理 p i t c hs c a l e 由于处理技术的局限性,处理后音频的和谐性与原始音频相比出入很大; o l a 虽然实现了在不改变音调的前提下,进行音频时长的变换,但是变换后的效果 不理想,过度音过多。而且这些技术大都是基于硬件技术实现,在处理的灵活度上 大打折扣。 本论文将从追求p i t c h t i m es c a l e 处理的效果出发,用软件实现音频的音调、时 长的处理,在满足m p e g 一4 规定的条件下,使变换后的音频与原始音频相比,无较 大失真,保持良好的和谐度。 1 4m p e g 一4 中关于p i t c h t j m es e a i e 的描述 随着人们对p i t c h t i m es c a l e 技术了解的深入,对其的重视程度也在逐步加深, 在相应的标准上做了明确的描述,这里首推运动图象专家组( m o t i o np i c t u r ee x p e r t g r o u p ) ,既我们熟知的m p e g 标准。运动图象专家组在其2 0 0 1 年七月发布的 m p e g 4 音频标准中明确描述和规定了p i t c h t i m es c a l e 技术。 1 4 1m p e g - 4 中关于p i t c hs c a l e 的描述 m p e g - 4 中明确规定,应该在不改变声音时长的前提下,对声音的音调( p i t c h ) 进行变换,而且要求这样的变换没有任何质量上的降低。 m p e g 一4 还对音调的变换范围做了明确规定。m p e g 4 规定,p i t c hs c a l e 处理的 音频应该能够在“3 0 的范围内逐步进行变化。 1 4 2m p e g 一4 中关于t i m es c a l e 的描述 m p e g - 4 中也对t i m es c a l e 做了明确规定。m p e g 4 规定,在不改变音频的音 调前提下,对音频做播放速度上进行变化,同时也要求这样的处理不应该在音频的 质量上有任何的降低。 m p e g 一4 还对音频时长的变化范围做了明确说明。m p e g 4 规定,t i m es c a l e 处 理的音频应该能够在“5 0 的范围内逐步进行变化。 东北大学硕士学位论文第一章绪论 1 5p i t c h t i m es e a i e 技术的实际应用 p i t c h t i m es c a l e 在实际生活中有着广泛的应用。尤其是在媒体的后期制作中, p i t c h t i m es c a l e 的作用功不可没。 在本文作者参与开发的d a w 中,p i t c h t i m es c a l e 主要是对收录的音频的时长和 音调进行适合要求的变换。例如,我们需要一段一分钟的新闻播音,但是实际却收 录了一分零三秒的音频,此时音频的时长变化就派上了用场,可以使用t i m es c a l e 对该音频进行调整,使其时长调整为一分钟,这样的处理对t i m es c a l e 处理来说十 分的容易,避免了再次录音或者进行线形删除带来的不便性;p i t c hs c a l e 处理主要 用在一些声音的特效处理上,例如,广告片中需要一些不同与正常的语音来吸引观 众,此时就可以使用p i t c hs c a l e 处理技术。 p i t c h t i m es c a l e 处理还可以应用在诸多方面,如影视作品的后期制作,特别是 在动画片的后期制作中。我们经常在动画片中听到一些怪兽精灵的奇声异调,小朋 友们也正是被这些奇声异调所吸引。目前,动画片的音频制作都是配音人员在动画 片视频部分制作完成后进行一次性配音,动画片中的非正常语音部分也是由他们进 行模拟完成。这种配音的优点在于录制的音频在效果上可能会好一些,缺点是可改 动性非常的小,也就是说,一旦配音完成,音频的后期制作也就随之结束,如果再 想做声音上的处理,难度非常大。p i t e 枷m es c a l e 技术补充了这些不足。如果 p i t c h t i m es c a l e 技术足够完美的话,我们完全可以在后期制作中利用p i t c h t i m e s c a l e 对音频进行处理,这种处理是随意的,可以在任意位置,任何时刻对音频进行 处理。这样,工作就变得方便多了。 p i t c h t i m es c a l e 同样适用于广告制作等媒体制作中;如果需要对举报人的声音 进行处理,p i t c h t i m es c a l e 技术同样适用。一句话,只要需要不同于正常声音的处 理,p i t c h t i m es c a l e 就有其用武之地。 1 6 本文主要内容和组织结构 本文在对数字信号处理技术及音频处理技术p i t c h t i m es c a l e 做了大量系统而深 入的研究之后提出了基于频域处理的p i t c hs c a l e 技术,并力求使处理后的效果达 到最佳:使用改进的s o l a 方法实现了t i m es c a l e 处理。在对目前主流的音频编解 码技术深入研究后,重点进行了压缩后p i t c h t i m es c a l e 处理的效果实验,通过实验 结果,给出了取舍方案。对数字音频工作站d a w 技术做了介绍,着重介绍了d a w 在数字电视台中的应用,和p i t c h t i m es c a l e 处理等功能在d a w 中的实现和应用。 本文共分六章。第一章为“绪论”。对p i t c h t i m es c a l e 的概况做了全面而系统的 东北大学顶上学位睑文第一章绪论 介绍,包括p i t c h t i m es c a l e 的概念,国内外相关的研究情况,m p e g 对p i t c l t i m e s c a l e 的描述。 第二章为“基于频域处理的p i t c h s c a l e 的研究与实现”。介绍了基于频域处理的 p i t c hs c a l e 技术。本章从p i t c hs c a l e 处理的算法构成出发,详细分析在实现p i t c hs c a l e 处理的过程中可能出现的问题,并给出了解决方案。最后详细讲述p i t c hs c a l e 处理 的实现方法。 第三章为“t i m es c a l e 处理的研究与实现”。介绍了t i m es c a l e 处理技术及实现 方法。在介绍s o l a 算法的同时,指出了其存在的不足,提出了改进的s o l a 算法, 并描述了实现过程及需要注意的问题。 第四章为“p i t c h t i m es c a l e 处理音频压缩后的效果评价”。本章从介绍目前主流 的音频编解码技术出发,对压缩后的p i t c h t i m es c a l e 处理音频效果进行了主观评 价,提出了压缩方案的取舍。 第五章为“p i t c h t i m es c a l e 等音频处理技术在d a w 中的应用”。介绍了d a w 在数字电视台中具体应用的工作流程和特点,p i t c h t i m es c a l e 等音频处理技术在 d a w 中的应用。给出了音频压缩后,后期编辑处理使用的解决方案。 第六章为“结论”。总结了全文,对在p i t c h t i m es c a l e 处理中存在的问题进行了 说明。 东北大学硕士学位论文第二章基于频域处理的p i t c hs c a l e 的研究和实现 第二章基于频域处理的p i t c hs c a l e 的 研究与实现 我们知道,现有的对音频的音调进行处理的方法主要有p i t c hs h i f t 和基于时域处 理的p i t c hs c a l e 。p i t c hs h i f t 处理的缺点在于是对频率的移动处理而非扩大处理,这 样的处理适用于对音频中乐音的处理,而对音频中语音进行p i t c hs h i f t 则会使语音 失真,难以达到预定的效果;基于时域的p i t c hs c a l e 虽然对p i t c h 进行的是扩大的 处理,但是此算法是在信号的时域上进行的处理,这样的处理势必会使处理效果难 以达到最佳。我们知道,反映音调p i t c h 的主要参数就是信号的频率,只有对信号 的频率做适当的处理,才会反映音频在音调上的变化。 正是基于p i t c hs h i f t 与p i t c hs c a l e 两者的优缺点的分析,本文提出了基于频域处 理的p i t c hs c a l e 技术,此技术是在信号的频域范围内对信号的频率做适当的处理, 从而达到对音调p i t c h 的处理。本章将主要探讨频域上p i t c hs c a l e 的处理方法,并 力求使处理效果达到最佳。 2 1 基于频域处理的p i t c hs e a i e 算法构成 基于频域处理的p i t c hs c a l e 主要基于以下思想:由于我们要处理的是音频信号 的音调( p i t c h ) ,而在音频信号中反映p i t c h 的量主要是频率。如果对频率进行缩 放处理( s c a l e ) ,也就相当于对音调p i t c h 做了相应的处理。在时域对频率进行直 接操作的难度相当大,而且其中的误差也大。傅立叶变换为我们提供一条很好的转 换途径,通过傅立叶变化,我们可以将音频信号很容易的转换到频域,而频域反映 的恰恰是音频信号的频率信息,这样的转化势必有利于p i t c hs c a l e 处理。算法已 经相当成熟的快速傅立叶变换( f f t ) 更加有利于时域、频域间的转换。 经过f f t 转换的信号表现的是信号的频谱信息,在频谱信息中怎样正确的得到信 号的频率信息是个值得研究的问题。如果可以正确的得到频率的信息。也就是说, 我们如何使所得到的信号的频率分布是原始信号的最准确的描述。因此频率描述与 校正也是研究问题的关键。 鉴于以上的分析,我们可以大致的描述基于频域处理的p i t c hs c a l e 的算法组成。 首先,将数字化的音频信号经f f t 变换到频域;如何在信号的频域内正确的刻画出 信号的频率信息将是处理的第二步;如果得到了信号的正确的频率信息,在此基础 上做的频率变换,也就是我们要做的p i t c hs c a l e 处理;最后将信号经过逆傅立叶 东北犬学硕士学位论文第二章基于频域处理的p i t c hs c a l e 的研究和实现 变换i f f t 变换转换成时域原始信号输出,至此,完成p i t c hs c a l e 处理。流程图2 1 如下: 图2 1 基于频域处理的p i t c hs c a l e 流程图 f i 9 2 1f l o w c h a r to f p i t c hs c a l ei nf i e q u e n c yd o m a i n 通过以上分析,可以注意到p i t c hs c a l e 处理的问题归结为f f t 变换和频率估计 问题,只有在f f t 变换和频率估计相当准确的前提下,我们才可以做p i t c hs c a l e 处 理。如果我们所做的f f t 变换和频率估计是不完善的或者说是不够准确的,那么基 于此上的p i t c hs c a l e 处理的效果也就得不到保证。这就象建设大厦一样,如果基础 不够准确,那么建在这样基础上的建筑势必不会稳定;只有把基础打坚实了,上层 的东西才可能稳定、坚固。因此。下面的工作就应该致力于把f f t 变换和频率估计 做到准确无误,最大限度的减少f f t 变换和频率估计中带来的误差。 2 2 数字信号处理过程中存在的问题 在计算机进行信号频谱分析时,由于计算机能处理的数据量是有限的。分析时必须 对连续的时域信号进行截短和对连续的频谱进行离散取样处理。在这个近似处理过 程中信号时域截短引入了能量泄漏误差,频谱离散取样引入了栅栏效应误差。如果这 两个误差解决不好,会使计算结果和实际值出现较大差异。 2 2 1 能量泄漏的概念 按傅立叶变换的原理,如果要计算一个信号的频谱,所观测的信号长度应该是无 限的: x ( 厂) = ix ( t ) e - j 2 “( 2 1 ) 设信号为余弦波 x ( t ) = ac o s ( 2 n f o t ) ( 2 2 ) 则按( 2 1 ) 式计算得到的频谱为线谱,如图2 ,2 ( a ) 所示。但在工程实际中无限长的观测 东北大学硕士学位论文第二章基于频域处理的p i t c hs c a l e 的研究和实现 区间是做不到的,只能从某时刻开始测取有限时间长度t 的一段,这就相当于用一个 窗函数对信号进行截断: x ,( t ) = 工( f ) u ( t )( 2 3 ) 式中u ( t ) 为窗函数。 按时域卷积定理,截断后余弦信号的频谱为: 五( 厂) = x ( f ) , u c f ) = 叽f 一兀)( 2 4 ) 式中u ( f ) 为窟函数的频谱。信号频谱由原来的线谱变为以五为中心向两边扩展的 连续谱,能量泄漏到整个频带,如图2 2 ( b ) 所示,这种现象称之为能量泄漏。能量泄漏后 在信号频率工处的频谱形状等于信号截断时所加的窗函数的窗谱形状u ( f ) 通过改 变窗长和窗函数类型就可以达到控制能量泄漏的目的。 a 连续余弦信号和频谱 2 2 2 栅栏效应的概念 b 截断余弦信号波形和频谱中的能量泄漏 图2 2 信号时域截断造成的频谱能量泄漏 f i 9 2 2e n e r g yl e a kb y t i m ed o m a i nt n m c a t e d 设信号x ( f ) 的频率分析范围是 0 ,0 ) ,在此区间内频率,有无穷多个取值。受 计算量限制,我们只能计算有限个频率点上的值,简单而直观的做法是把区间 0 , 眦。) ,分成n 个等分,每等分间的频率取样间隔为: 矽:妒= 百f - - ( 2 5 ) 在实际应用中,信号频谱通常采用f f t 算法计算,其最大分析频率呲为信号采样 频率f 的一半,谱线数n 为f f t 数据长度m 的一半,有a t = ,m 。取样后只能得到 各离散频率点 0 ,, i f ,2 a f i , j l ,n a f ) 的值,其余频率点相当于被取样的栅栏给挡住 看不见;若信号中的频率分量f 与某取样频率点重合产i a f 则我们能够得到该频率分 东北大学坝士学位论文第二章基于频域处理的p i t c hs c a l e 的研究和实现 量的精确值: 并:( 厂) = x ,( f + d f ) = x ( i + d f ) ( 2 6 ) 如果信号中的频率分量,与频率取样点不重合产+ a s ,则只能按四舍五入的原则, 取相邻的频率取样点谱线值代替: 彳。( 厂) = z ( i d f + , x f ) 。x ( i d f )( 2 7 ) 这种真实值与近似值之差就称为栅栏效应误差,如图2 3 所示。 图2 3 离散频谱的栅栏效应误差 f i 9 2 3p i c k e tf e n c ee f f e c te r r o ri nd i s p e r s es p e c t r u m 2 2 3 能量泄漏与栅栏效应的关系 频谱的离散取样造成了栅栏效应,谱峰越尖锐,产生误差的可能性就越大。例如, 对一个正弦波信号来说,其理想的频谱为线谱,如图2 4 ( a ) 所示。当信号频率值与频谱 离散取样点不相等时,在频谱上该频率分量根本看不见,栅栏效应的误差为无穷大。 在实际应用中,由于信号时域截断的原因,产生了能量泄漏误差,正弦波信号能量以其 频率为中心向两边泄漏,如图2 4 ( b ) 所示。由于能量泄漏的原因,即使信号频率与频谱 离散取样点不相等,我们也能得到该频率分量的一个近似值。从这个意义上来说,能 量泄漏误差不完全是有害的。如果没有信号时域截断产生的能量泄漏误差,频谱离散 取样造成的栅栏效应误差将是不能接受的。能量泄漏分主瓣泄漏和旁瓣泄漏,主瓣泄 漏可以减小因栅栏效应带来的谱峰幅值估计误差,有其好的一面,而旁瓣泄漏则是 完全有害的;主瓣越宽,信号谱峰越平缓,抑制栅栏效应误差的效果越好,但频谱 的频率分瓣率随之变差,如图2 4 ( a ) 所示。能量泄漏的形状由所加的时窗函数所对 应的窗谱形状确定,从减小栅栏效应造成的幅值估计误差的角度出发,理想的时窗 函数的窗谱是一个宽度为离散频率取样间隔d ,的矩形窗,如图2 4 ( b ) 所示。 由信号时频域对应关系,我们可以得到理想情况下时窗函数的公式: ,= 絮笋 - l l - ( 2 8 ) 东北大学硕士学位论立第二章基于频域处理的p i t c hs c a l e 的研究和实现 要实现一个理想的矩形窗谱,其时窗长度为整个时间轴,这实际上是不可能的,必 f s i n ( 2 1 r t d f )l t i t ( 2 9 ) _ 2 l r t d f o 0t t l t 主7 l 旁曩 fa 一一、, 、,一一 ( a ) 矩黼函致帕谱亩形状 。d fo l f f ( b ) 理想时窗函数的谱窗形状 图2 4 矩形窗函数和理想时窗函数的谱窗形状 f i 9 2 4t h es p e c t r u ms h a p e o f r e c ta n di d e a lw i n d o w s 2 2 4 窗效应及窗函数的应用原则 在数字信号处理中,实际需检测的物理信号或过程通常是非时限的,但由于计算速 度和处理工作量以及计算机存贮容量等方面的限制,我们只能从中选取有限时长的 数据样本加以处理。也就是说在数字信号的处理过程中,原始的非时限信号必然要被 截断,这相当于使本来无限长的原始数据序列通过一定的数据窗口,必然会对数据处 理的结果造成不良的影响,即产生窗口效应。 数字信号处理中因数据的截短而产生的窗口效应主要表现在两个方面:一是影响 信号的频域分析或谱估计的质量:二是影响数字滤波器的特性。 谱分析是在频域中研究信号的某些特性如幅值、能量或功率等随频率的分布。对 通常的非时限信号x ( n ) 做频谱分析,只能通过对其截取所获得的有限长度的样本 东北大学硕士学位论文第二章基于频域处理的p i t c hs c a l e 的研究和实现 x 。( n ) 来做计算,其结果是对其真实谱的近似即估计。在实际的谱估计过程中,无论是 从样本数据x 。( n ) 出发( 直接法) ,或是由样本的自协方差函数出发( 间接法) ,窗函数的 引入都是不可避免的,因为数据样本的简单截取本身就意味着通过了矩形窗。窗效应 在谱分析或谱估计中的影响表现在降低谱的频率分辨力和产生能量的泄漏。 频率分辨力是指估计谱中能够使信号真实谱中两相邻近的谱峰可被分辨出来的 能力。为说明起见,设实际信号x ( t ) o e 包含1 和u2 两频率分量,如:x ( t ) ;c o s 0 ) t + c o s :t 。信号x ( t ) 及其频谱x ( ) 如图2 5 所示。对x ( t ) d f l 窗c o ( t ) 截取得到有限长度的 样本序列为x ,( t ) ,则有 x ,( t ) = x ( t ) 。( o ( t )( 2 1 0 ) 以矩形窗为例,( t ) 及其频谱w ( ) 如图2 6 所示。其中b 。= 2 n t , 为窗谱w ( 0 ) ) 的主 瓣宽度。根据傅里叶变换的性质知,样本序列x ,( t ) 的频谱( 即x ( ) 的估计,记为z ( ) ) 等于x ( t ) 的真实谱与窗w ( ) 的卷积,即 x ( 0 ) ) = x ( ) w ( )( 2 1 1 ) 其结果如图3 所示。由图2 5 图2 7 可看出,信号x ( t ) ) j n 窗后其真实谱x 佃) 中的 6 ( ) 形的两相邻谱线由于窗谱w ( ) 的作用而被平滑为两个s i n o 0 。形的谱带了。只有 当两处的频率距离大于谱窗的主瓣宽度,即满足:。b 。时,两谱峰才能够被分 辨出来( 如图2 7 ( a ) )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《护理专业解析与应用课件》课件
- 媒体广告投放交易合同具体规定
- 劳务派遣协议用工单位
- 畜牧养殖与饲料供应合作协议
- 车厂供应商合同协议
- 配货生意转让合同协议
- 转让工地临建房合同协议
- 购买木板材合同协议模板
- 产品销售代理协议条款细则
- 转让矿山破碎设备合同协议
- 乙烯高压气相本体聚合制备低密度聚乙烯的合成工艺
- DB23T 3104-2022 油田含油污泥处置与利用污染控制要求
- 2030冷轧车间设计
- 中华人民共和国飞行基本规则
- 大型污泥脱水离心机机组安装及调试工法
- 塔式起重机大臂减臂使用的受力分析和计算
- 三年高考高考生物试题分项版解析 专题01 组成细胞的分子
- 电力供应与使用条例考试卷及答案
- 生物大分子晶体学基础(I)2016
- 申请增值电信业务经营许可证材料范本说明书
- 关于电商平台对入驻经营者的审核要求或规范文件
评论
0/150
提交评论