




已阅读5页,还剩53页未读, 继续免费阅读
(模式识别与智能系统专业论文)计算机实时伴奏系统.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国科学技术大学硕士学位论文 摘要 计算机实时伴奏系统是让计算机为人的现场音乐表演( 独奏或独唱) 进行实 时伴奏,它包括三个模块:乐音检测,乐谱跟踪和实时伴奏。首先。乐音检测模 块通过实时乐音识别获取表演的乐音信息;然后,乐谱跟踪模块将所获取的乐音 信息实时定位于曲目的乐谱中,并对定位结果进行动态跟踪:在此基础上,实时 伴奏模块根据定位结果,控制计算机实时合成伴奏音。 本文以构建实时伴奏系统为目标,在对相关的乐音检测,乐谱跟踪和实时伴 奏等问题进行深入研究的基础上,构建了一个能够在限定曲目的条件下为人的演 唱进行实时伴奏的系统。 该系统用麦克风拾取入的演唱信号。由于伴奏音和歌声基本上是同步的,因 此麦克风实际接收到的是歌声和伴奏音混叠以后的信号。这给如何从麦克风拾取 的信号中提取出歌声中所含的乐音信息造成了很大困难。通常,采用谐波成分分 析的方法解决这个问题。该方法对输入信号的短时傅里叶频谱进行峰检测,将找 出的各谐波峰频率的最大公约数作为信号的基频估计该方法有较大的局限性, 一般只适用于频谱构成相对单一的乐音信号的识别。而且,由于短时傅里叶变换 得到的频谱的频率分辨率在整个频段是一样的,导致该方法对低频谱峰的检测能 力降低,可能出现漏检现象。结果,导致该方法所给出的基频估计经常发生错误。 为此,我们提出了一种新的谐波成分分析算法。首先利用伴奏音的先验知识将伴 奏音的倍频成分从频谱图上滤除,再对剩余的峰进行人声基频的检测。与传统方 法不同,该算法不是简单地将找出的各谐波峰频率的最大公约数作为信号的基频 估计,而是采用假设检验的方法来确定基频估值。首先将各显著频谱峰频率的分 数值作为可能的基频的候补;然后,根据候选基频应该具备相对丰富的倍频成分 的知识,检查所得到的频谱中是否存在这样的倍频成分;最后,根据实际频谱在 候选基频各倍频处的分布情况进行综合判断。该算法能够在混叠有伴奏音的情况 下实现对歌声的识别和在线分割。为了满足系统的实时性要求,在低时延的约束 下实现对歌声的在线分割,即在一个新音的起音阶段就对其进行通报。 乐谱跟踪是实现实时伴奏的重要步骤。一个好的乐谱跟踪算法应该具有较强 的容错能力。现有的算法存在较大的缺陷,有的采用很窄的滑动窗口导致定位视 野过窄,容错能力差;有的则设定最大的固定窗将定位视野扩大到全局范围,这 中国科学技术大学硕士学位论文 样做虽然为实现正确的匹配提供了可能,但过大窗口范围的设景不仅增加了计算 量,也为误匹配埋下了祸根( 有些定位结果虽然从匹配的角度看是最佳的,但实 际中并不会发生) ,反而会影响定位的效果。为此,我们提出了一种基于扩充窗 和重构匹配检测器的动态规划算法。该算法,一方面将定位视野限定在合理的范 围内,采取窗口起点固定,在适当的时候进行窗长的扩充。之所以选择扩充窗而 不是滑动窗,是为了避免因实际演奏片段和乐谱片段误匹配而导致的窗口的强制 滑动这种不明智的举动。另一方面,我们希望对扩充窗的最大宽度进行控制以将 计算代价限制在许可的范围之内。做法是以扩充窗的最大许可宽度为约束在适当 时机重新构造匹配检测器。这里,新匹配检测器的窗口起点设定为当前演奏音符 能够准确定位的乐谱音符的位置。这样,对整个乐谱的跟踪由若干个“子匹配检 测器”来实现,相对于全局寻优而言计算量大为减少。 在实时伴奏模块,针对乐谱跟踪模块得到的定位结果可能不唯一的情况,首 先对定位结果进行可靠性分析,然后依据可靠性高的定位结果加入伴奏音。伴奏 音的组织也不同于传统的以单个音符为单位的做法,而是采取按小节为单位的方 案来组织伴奏音。对伴奏音播放的调整,只对每一个伴奏音小节的整体起效,即 在不改变小节内部各个伴奏音之间相对关系的前提下从整体上改变小节的持续 时间。实验结果表明,我们的做法能有效地提高伴奏音的质量。 实验表明,我们所构建的计算机实时伴奏系统能够为人的演唱配上效果良好 的实时伴奏。其中,对歌声的识别算法具有很好的识别效果,能够保证在低时延 的条件下实现对歌声中新音的通报。当对歌声的识别结果偏离乐谱时,仍然能够 进行有效和准确的定位,使得伴奏效果保持良好。另外,系统对环境噪声也具备 很好的鲁棒性。 关键词音高检测基音检测( 或f o 检测) 乐谱跟踪动态规划实时伴奏 n 中国科学技术大学硕 学位论文 a b s t r a c t r e a l t i m ea c c o m p a n i m e n ts y s t e mi sac o m p u t e rs y s t e mw h i c hp r o v i d e sa r e a l t i m ea c c o m p a n i m e n tf o rt h el i v em u s i c a lp e r f o r m a n c eo fh u m a n ( i n s t r u m e n t a l s o l oo rv o c a ls o l o ) t h es y s t e mi n c l u d e sm a i n l y3m o d u l e s ,p i t c hd e t e c t i o n , s c o r e f o l l o w i n g , a n dr e a l t i m ea c c o m p a n i m e n t f i r s t , p i t c hd e t e c t i o nm o d u l eo b t a i n s m u s i c a li n f o r m a t i o no fp e r f o r m e rv i ar e a l t i m em u s i cr e c o g n i t i o n s e c o n d , s c o r e f o l l o w i n gm o d u l ei st oo n l i n e l yl o c a t ei n p u tm u s i c a ln o t e s ( o fh u m a n ) i nt h e s c o r eo ft h em u s i cp i e c e ,a n dd y n a m i c a l l yt r a c kt h el o c a t i o nr e s u l t b a s i n go nt h e l o c a t i o nr e s u l lr e a l t i m ea c c o m p a n i m e n tm o d u l ec o n t r o l sc o m p u t e rt os y n t h e s i z e a c c o m p a n i m e n tm u s i c w i t ht h e g o a l o fc o n s t r u c t i n gar e a l t i m ea c c o m p a n i m e n ts y s t e m ,r e l a t e d p r o b l e m sa b o u tp i t c hd e t e c t i o n , s c o r e f o l l o w i n g ,a n dr e a l - t i m ea c c o m p a n i m e n ta r e d e e p l ys t u d i e d ,a n dar e a l - t i m ea c c o m p a n i m e n ts y s t e m f o rh u m a n ss u n gv o i c e a c c o r d i n gt oaf i x e dm u s i c a lp i e c ei sc o n s t r u c t e d t h es y s t e mu s e sm i c r o p h o n et oc o l l e c th u m a n ss u n gv o i c e a sa c c o m p a n i m e n t m u s i ca n dh u m a n ss u n gv o i c ea r ea l m o s ts y n c h r o n i z e d ,w h a tm i c r o p h o n ec a t c h e si s t h em i x e ds i g n a l so fs u n gv o i c ea n da c c o m p a n i m e n tm u s i cs o u n d i ta r i s e sm u c h d i f f i c u l t yo f h o wt oe x t r a c tm u s i c a li n f o r m a t i o no f s u n gv o i c ef r o mt h em i x e ds i g n a l s h a r m o n i cc o m p o n e n t sa n a l y s i si sau s e f u lm e t h o d t h em e t h o di sf i r s tt od e t e c t p e a k so fs t f ta n dt h e nt of i n dt h ef u n d a m e n t a lf r e q u e n c yf r o mt h ep e a k s r e l a t e d f r e q u e n c i e s f o rm o s td e t e c t e dp e a k sa r eh a r m o n i c so ft h ef u n d a m e n t a lf r e q u e n c y , f u n d a m e n t a l f r e q u e n c yc o r r e s p o n d s t ot h eg r e a t e s te n m m o nd i v i s o r ( g c d ) o f f r e q u e n c i e so fh a r m o n i c s t h em e t h o dh a sm a i n l y2d r a w b a c k s ,f i r s ti to n l yd e t e c t p i t c hf r o mas i n g l es p e c t m a ls i g n a l ,b e s i d e s ,b e c a u s eo ft b e f i x e df r e q u e n c y r e s o l u t i o na c r o s st h ew h o l er a n g eo ft h es p e c t r u m ,t h em e t h o dh a sp r o b l e mw h e n d e t e c t i n gp e a k sw i t hl o wf r e q u e n c y , p r o b a b l ym i s s i n gs o m ep e a k s t h i sb r i n g ss o m e m i s t a k e st op i t c hd e t e c t i o n s ow ep r o p o s ean e wm e t h o do fh a r m o n i cc o m p o n e n t s a n a l y s i s f i r s t , w em a k eu s eo fp r i o rk n o w l e d g eo fa c c o m p a n i m e n tm u s i cs ot h a tw e f i l t e rt h ec o m p o n e n t s m a g n i t u d eo fa c c o m p a n i m e n tf r o mt h es p e c t r u m ,t h e nw ed o n i 中国科学技术大学硕士学位论文 p i t c hd e t e c t i o n 丘o mt h er e s i d u a lp e a k sa n dw ec a ns u r e l yg e tt h ef u n d a m e n t a l f r e q u e n c yo f h u m a n v o i c e d i f f e r e n tf r o mt r a d i t i o n a lm e t h o d si nf i n d i n g g c d ,w eu h y p o t h e s i st e s t i n gt oe s t i m a t ef u n d a m e n t a l 丘e q u e n c y f i r s t , w ea s s l , h n et h ep a r t i a l f r e q u e n c yo ff r e q u e n c yo fa n yd o m i n a n tm a g n i t u d ep e a ka s at r i a l f t e q u e n c yo f f u n d a m e n t a lf t e q u e n c y f r o mt h e s et r i a lf r e q u e n c i e sac a n d i d a t ef i e q u e n c yo f f u n d a m e n t a lf r e q u e n c ys h o u l dh a v ee n o u g hr i c hc o m p o n e n t s ,s ow ec h e c ki ft h e c a n d i d a t e s c o m p o n e n t se x i s t i n t h es p e c t n n nl a s t , w ee v a l u a t et h e s p e c t r u a l d i s t r i b u t i o no nc a n d i d a t e sc o m p o n e n t st oe s t i m a t et h ef u n d a m e n t a lf r e q u e n c y o u r m e t h o dc a nr e c o g n i z e p i t c h o fh u m a n ss u n gv o i c ew i t ht h ee x i s t e n c eo f a c c o m p a n i m e n tm u s i c ,a n da l s op r o v i d ear e a l - t i m es e g m e n t a t i o no fh u m a n v o i c e i n o r d e rt og u a r a n t e et h es y s t e m $ r e a l - t i m er e q u i r e m e n to fp i t c hd e t e c t i o n ,w e 脚栅 r e a l - t i m es e g m e n t a t i o nw i t hl o wl a t e n c y , s ot h a ta 粥wh u m a nn o t ew i l lb er e p o r t e di n t i m ew h e ni ti sa to l l s e t i nt h es c o r e - f o l l o w i n gp a n ,w ep l a nt od e s i g na na l g o r i t h mw i t hh i g h i t o r t o l e r a n c e a m o n ge x i s t i n ga l g o r i t h m s ,s o m eu s ea n a r r o ws h i f t i n gw i n d o wo nt h e s c o f e ,w h i c hl i m i t st h el o c a t i n gr a n g ea n de n d sl 巾w i t hl o w 翻r r o rt o l e r a n c e o t h e r a l g o r i t h m se x t e n dt h ew i n d o wt ot h em a x i m u ms i z e , s oag l o b a lr a n g e ,w h e r et h e w i n d o wi sf i x e dt ot h ew h o l eo ft h es c o r e a l t h o u g ht h i sw a yc a l li m p r o v et h e m a t c h i n gq u a l i t y , b u ti sb r i n g ss o m ed r a w b a c k s o n ei st h a tt o ob i gw i n d o wr a n g e p o s s i b l yi n v o k e sw j s t a k e n l ym a t c h t h a ti ss o m em a t c hd e t e r m i n e db ya l g o r i t h mi s n o tam a t c hi nf a c tb e c a u s ei ti sn o tp o s s i b l ef o rh u m a nt op e r f o r mi ns u c has t o c h a s t i c w a y , a n o t h e rd r a w b a c ki st h a ti th a sh i g hc o m p u t a t i o nc o s t s ow ep r o p o s ead y n a m i c p r o g r a m m i n ga l g o r i t h mb a s i n go ne x t e n d e dw i n d o wa n dr e c o n s t r u c t i o no fm a t c h e n o n ec o n s i d e r a t i o ni st h a tw el i m i tam o r er e a s o n a b l el o c a t i n gr a n g e ,w i t ht h es t a r t i n g p o i n to fw i n d o wf i x e d ,a n dt h es i z eo fw i n d o we x t e n d e dw h e nn e c e s s a r y c h o o s i n g e x t e n d e dw i n d o wr a t h e rt h a ns h i f t i n gw i n d o wi st oa v o i do n ec a s ew h e np e r f o r m i n g n o t ea n ds c o r en o t ea r em a t c h e db ya c c i d e ms ot h a tl e a d i n gt oas h i f td e c i s i o nw h i c h i so fc o l l r s eu n w i s e t h eo t h e rc o n s i d e r a t i o ni st h a tw ee x p e c tt ol i m i tt h eb i g g e s t w i d t ho ft h ew i n d o wi no r d e rt ol i m i tt h ec o m p u t a t i o nc o s ti nap e r m i t t e dr a n g e t h e t e c h n i q u ew el 职i st h a tw i t ht h el n a 2 d n l u n lw i n d o ww i d t ha st h er e s t r i c t i o nw e i v 中国科学技术大学顽 :学位论文 r e c o n s t r u c tam a t c h e ri nap r o p e rt i m e t h es t a r t i n gp o i n to ft h en e wm a t c h e ri ss e t t l e d a st h ec u r r e n tp e r f o r m i n gn o t e sp r e c i s el o c a t i o ni nt h es c o r e s os c n r e f o l l o w i n gi n t h ew h o l es c o r er a n g ei sf u l f i l l e db yn u m b e r so fs u b m a t c h c r s t h ec o m p u t a t i o nc o s t i sm u c hr e d u c e dc o m p a r e dw i t ht h eg l o b a lr a n g es c o r e f o l l o w e r i nt h er e a l - t i m ea c c o m p a n i m e n tm o d u l e t oh a n d l et h ec a s eo fm o r et h a nl p o s s i b l el o c a t i o nr e s u l t s ,w ea n a l y z et h er e l i a b i l i t yo fl o c a t i o nr e s u l t s ,a n dt h e na d d a c c o m p a n i m e n tt o w a r d s t h er e s u l tw i t hh i g l lr e l i a b i l i t y t h e o r g a n i z a t i o no f a c c o m p a n i m e n tm u s i ci sa l s oq u i t ed i f f e r e n tf r o mt r a d i t i o n a lm e t h o d ,w h o s eu n i ti s e v e r ys i n g l en o t e w eo r g a n i z eb a ra st h eu n i to ft h ea c c o m p a n i m e n tm u s i c a d j u s t m e n to fp e r f o r m i n ga c c o m p a n i m e n tm u s i cf o c u s e so nt h ee a c hw h o l eb a rs o t h a tw eo n l yc h a n g et h et i m ep e r i o do ft h eb a rw i t h o u tc h a n g i n gt h ei n n e rr e l a f i o m h i p b e t w e e nn o t e si nt h eb a r e x p e r i m e n tr e s u l t sd e m o n s t r a t et h a td o i n gl i k et h i sc a l l i m p r o v eq u a l i t yo f r e a l - t i m ea c c o m p a n i m e n tm u s i c e x p e r i m e n t so ns y s t e mv i e wd e m o n s t r a t et h a to u r c o n s t r u c t e dc o m p u t e rr e a l - t i m e a c c o m p a n i m e n ts y s t e mc a np r o v i d eag o o dq u a l i t yr e a l - t i m ea c c o m p a n i m e n tt o w a r d h u m a n ss u n gv o i c e i th a sv e r y9 0 0 dr e c o g n i t i o no fh u m a nv o i c ea n d 鹅s u r e st o w l a t e n c yw h e nr e p o r t i n gn e wh u m a nn o t e a n d ,w h e nt h ed e t e c t e dp i t c hd e v i a t e st h e s c o r en o t e ,t h es c o r e f o l l o w i n ga l g o r i t h mc a ns t i l lp r o v i d eg o o da n de f f i c i e n tl o c a t i o n , w h i c hm a k e st h er e a l t i m ea c c o m p a n i m e n te x p r e s s i o nh i g hq u a l i t y m o r e o v e r , t h e s y s t e mi sr o b u s tt oe n v i r o n m e n t a ln o i s e k e yw o r d s :p i t c hd e t e c t i o n ,f u n d a m e n t a lf r e q u e n c y ( f o ) d e t e c t i o n , s c o r e f o l l o w i n g , d y n a m i cp r o g r a m m i n g , r e a l - t i m ea c c o m p a n i m e n t v 中国科学技术大学硕士学位论文 独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行的研 究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他 人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已 在论文中作了明确的说明。 签名:、可 关于论文使用授权的说明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学 拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送 交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本 人提交的电予文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 作者签名: 单 导师签名: 7 趸令电i 帖 中国科学技术犬学硕1 7 学位论文 第1 章绪论 1 1 计算机伴奏系统简介 目前计算机音乐已经成为一个新兴的研究领域。让计算机来模仿人进行音乐 分析,音乐刨作,甚至音乐演绎,可以极大地丰富我们的音乐世界。计算机音乐 应用前景广泛作为它的一个主要应用方向,计算机伴奏系统在过去的2 0 年中 取得了很大的发展。已开发出了众多的伴奏系统,包括d a n n e n b e r 9 1 1 埘, g r u b b & d a n n e n b e r 9 1 3 一,r a p h a e l l 5 6 1 ,v e r c o e 7 s l ,b a i r d 9 1 ,h o r i u c h i l l o l ,a o n o 【1 ”, h i d a k a 1 2 1 和p u c k e t t e t l 3 1 等。 顾名思义,计算机伴奏是指使用计算机模仿人对现场表演( 例如,独奏或独 唱) 进行实时伴奏。面对正在进行的音乐表演,计算机能够充当配乐师的角色, 现场进行背景音乐的演奏,从而为人的音乐表演起到烘托和陪衬的作用。 图伴奏系统原理图 如图l 所示,个计算机伴奏系统在保证实时性的前提下应该完成以下任务: ( 1 ) 乐音检测检测表演者实际演奏或演唱的音乐作品中的乐音信息,即明 确表演者演奏或演唱的是什么。如果演奏者使用的是电子乐器,那么通过接收 m i d i 输出可以直接获得完整的乐音信息 1 】【1 2 】;如果演奏者使用的是真实乐器 或自己的嗓音,那么需要通过乐音识别算法获得乐音信息【6 】 1 l 】【1 3 】【3 ,4 】。 ( 2 ) 乐谱跟踪( s c o r ef o l l o w i n g ) 将演奏的音符实时定位到乐谱中,即明 确表演者演奏或演唱到了乐谱的什么地方。实现乐谱跟踪的模块称为匹配检测器 ( m a t c h e r ) 。 ( 3 ) 实时伴奏根据乐谱跟踪的结果,制定伴奏策略适时地配上相应的伴奏 音。实现实时伴奏的模块称为伴奏器( a c c o m p a n i s t ) 。 中国科学技术大学硕一i :学位论文 1 1 1 乐音检测 对于乐音检测或乐音识别,常用的方法有时域法和频域法,时域法相对比较 容易实现,但是准确性不理想;频域法的识别效果更好,对噪声干扰的鲁棒性更 强。另外还有统计学方法和人耳听觉模型法,有些统计学的方法实现非常复杂, 计算量很大( 如神经网络) ,有的需要结合时域或频域的方法,不适宜单独用于 实时性有要求的系统。人耳听觉模型往往是构造滤波器组,其复杂程度和大计算 量也不适用于实时性要求高的系统。从我们期望构建的系统的特点看,由于伴奏 音的产生会与人声信号混叠后被麦克风接收,所以我们要进行的识别不再是一个 单一人声信号的识别,而是要从混合信号中识别人声。 1 1 2 乐谱跟踪 对于乐谱跟踪,常用且十分有效的方法是动态规划的方法,基本思想是实时 地构建个能够反映实际演奏的音符序列与乐谱音符序列之间匹配程度的矩阵; 然后,对该矩阵进行实时寻优计算以实现当前实际演奏的音符在乐谱中的定位 【l 】。d a n n e n b e r g 的算法在假定实际演奏和乐谱之倒是非常接近的( c l o s em a t c h ) 情况下是成功的,但是,当实际演奏与乐谱之间存在较大差别时,定位效果将显 著变差。究其原因是因为d a n n e n b e r g 算法在进行音符定位时,在乐谱上沿时间 轴施加了一个宽度很窄的滑动窗口。由于限制了定位的视野,不能对各种例外的 演奏情况进行很好的处理。 如果将定位的视野扩大,即通过在一个较大的窗口范围,乃至全局范围内寻 优,就可以打破d a n n e n b c r g 算法中的窗口限制,从而提高匹配的质量。典型的 算法有p a r d o 【1 6 l 【1 刀,l a r g e 【羽,h o s h i s h i b a 19 】( 其中,p a r d o 算法是实时算法,而 后两种则是非实时算法) 。但是基于全局寻优的方法也会存在一些问题,1 当整 个乐谱的长度很长时,计算匹配矩阵的计算量就相当大( h e i j i n k1 2 0 ) ;2 实际演 奏并非毫无规律,不必要在全局范围内定位,往往只需要关注于局部范围的定位 即可,如果在全局范围内去寻求匹配,反而会带来误匹配的风险;3 如果实际演 奏和乐谱很接近时,就会计算太多的无用信息。 因此,期望设计的乐谱跟踪算法应该具备几个特性:一方面,与d a n n e n b e r g 算法相比,算法的容错能力更强;另一方面,与全局范围寻优相比,具有误匹配 的风险小和算法更高效的优点。 中国科学技术大学硕士学位论文 1 1 3 实时伴奏系统的性能 评价一个实时伴奏系统的性能是否优良,应该从以下几个方面去考量: 1 如何保证系统的实时分析实时处理的能力。实时伴奏系统的实时性是一个 很重要的指标,涉及的所有算法以及硬件的支持,都要保证系统能够在短时延内 进行信号的分析,处理和模块控制,从而保证自动伴奏的实时性。 2 如何提高系统实时伴奏时,伴奏音的质量和伴奏的效果。当实际演奏来自 于初学者或者音乐爱好者时,实际演奏伴随很多的错误和节奏上的欠稳定,在这 种情况下,好的系统将仍然能够进行合理的伴奏,而且保证实际的伴奏音达到稳 定和谐的效果。 3 如何增强系统的功能。好的系统面对不同类型的输入( 比如乐器,人声) , 都能够顺利的进行自动伴奏。 4 如何提高系统的鲁棒性。好的系统应该能够应对不同的实际情况,对不尽 相同的输入都能够进行实时伴奏,并且系统运行良好。 1 2 本文的主要内容和章节安排 本文围绕计算机实时伴奏系统的3 大模块着重进行讨论,分别讨论如何进行 乐音识别,如何设计乐谱跟踪算法,如何实现实时伴奏。最后介绍基于入声识别 的计算机伴奏系统的构建过程并进行系统的性能分析。 第2 章,首先对乐音识别研究进行回顾和评价,然后分析我们所要设计的基 于人声识别的实时伴奏系统的特点。一方面,识别对象是不同于乐器音色的人声, 音高的平稳性欠佳。人声前后两个音的过渡阶段使得对二者的分割成为一个挑 战。另一方面,我们的系统的输入信号可能是非单一的信号,人声中可能混有计 算机合成的伴奏音。结合我们所要设计的系统特点,我们提出了自己的实时人声 识别算法,一种新的谐波成分分析方法。该算法的基本思想是在频域内通过松散 的方式寻找频谱中人声各峰的最小公倍数来确定人声的基频。由于计算机合成后 的伴奏音的混入,会使得人声信号不再单一,我们需要先利用伴奏音的先验知识 来将伴奏音的影响滤除。我们的做法是从现有峰中削弱伴奏音的倍频成分,然后 在剩余的成分中找出人声的基频。另外,通过跟踪人声每一个音高的状态,实时 分割人声并在人声起音阶段通报人声,从而保证了识别人声的实时性。 第3 章,首先回顾了现有的乐谱跟踪算法。然后着重讨论基于动态规划的乐 中国科学技术大学硕士学位论文 谱跟踪算法。然后我们提出了一种基于扩充窗和重构匹配检测器的乐谱跟踪算 法。扩充窗是指在保持窗口起点不变的情况下,根据定位视野的需要在乐谱上沿 时间轴对现行窗口的宽度进行适时扩充以实现音符定位。和传统的滑动窗方法 ( d a r m e n b c r g 方法) 不同,该方法避免了因实际演奏片段和乐谱片段误匹配而 导致的窗口的强制滑动这种不明智的举动。另一方面,我们希望对扩充窗的最大 宽度进行控制以将计算代价限制在许可的范围之内。做法是以扩充窗的最大许可 宽度为约束在适当时机重新构造匹配检测器。这样,对整个乐谱的跟踪由若干个 “子匹配检测器”来实现,相对于全局寻优而言计算量大为减少。我们的算法, 与d a n n e n b e r g 算法相比,算法的容错能力更强:与全局范围寻优相比,具有误 匹配的风险小和算法更高效的优点。 第4 章,着重介绍了伴奏器的实现。伴奏策略与传统方法不同,我们先对乐 谱跟踪的定位结果进行可靠性分析,然后依据可靠性高的定位结果加入伴奏音。 伴奏音的组织也不同于传统的以单个音符为单位组织伴奏音。传统的方法,对演 奏音符的每一次成功定位,都会伴随一次对伴奏音播放的调整。于是,演奏中的 一些不稳定因素( 包括演奏的音符发生错误或演奏的节奏不符合要求等) 会使伴 奏音的播放变得不稳定。我们采取按小节为单位组织伴奏音,对伴奏音播放的调 整,只对每一个伴奏音小节的整体起效,即在不改变小节内部各个伴奏音之间的 相对关系的前提下从整体上改变小节的持续时间。实验结果表明,我们的做法能 有效地提高实时伴奏时伴奏音的质量。 第5 章,对所构建的实时伴奏系统进行实验分析。我们构建了两种乐音检测 器下( 一是键盘输入,二是人声输入) 的实时伴奏系统。分别对这两种输入下的 伴奏系统进行实验分析和算法验证( 包括乐谱跟踪算法和乐音识别算法) 。从实 际系统的运行结果分析,我们的伴奏系统具有以下优点:良好的实时分析和处理 能力,良好的实时伴奏效果;系统支持键盘输入和人声输入的实时伴奏功能;实 际环境运行具有良好的鲁棒性。之后,介绍所构建系统的平台和硬件配置。 4 中国科学技术大学硕j :学位论文 第2 章乐音识别 2 1 引言 2 1 1 音高 音高,p i t c h ,是频率的心理学特性,是声音信号的感知特性。人耳对于声音 频率的感觉是用音高来描述的。音高和频率呈现松散的对数相关性。音高升高一 个八度,频率则近似增加一倍。 乐音中,一个八度内有1 2 个半音,半音的频率并不是均匀分布的。频率不 是线形增长,而是一种指数增长关系,如下式所示。 五= ( 2 t 2 4 ) 厶 a f k = l “一以= ( 2 1 1 2 4 ) 厶。( 2 啦4 1 ) = 正q 2 1 2 乐音识别的概念 对于一个周期性的声音信号,信号周期的倒数即为信号的基音频率, f u n d a m e n t a lf r e q u e n c y ,也称为f 0 。乐器弹奏的乐音和人瘸唱的乐音是两种典型 的周期信号,对它们进行乐音识别,m u s i cr e c o g n i t i o n ,其目的是检测出声音信 号的基音频率,所以乐音识别有时也称为基音检测,p i t c hd e t e c t i o n 或f 0d e t e c t i o n 或f u n d a m e n t a lf r e q u e n c yd e t e c t i o n 。 2 2 基音检测的主要方法 基音检测的方法主要有四类:l 时域法;2 频域法;3 统计学法;4 人耳听 觉模型法。 2 2 1 时域法t i m ed o m a i nm e t h o d 时域法是指对时域信号直接进行时域分析。时域法主要包括:时间事件比率 检测( t i m e e v e l l t r a t ed e t e c t i o n ) ,自相关法以及其衍生法。 2 2 1 1 时间事件比率检测 此法实质上是估计时域信号的周期。前提是,如果乐音信号具备周期性,那 么就可以记录下事件重复发生的时间自j 隔。根据所关心的事件的不同,可以有不 同的检测类型。如果事件是波形穿过一次y 轴,那么所要检测的是单位时自j 内波 形穿过y 轴的次数,这种方法称为过零率检测( z e r o c r o s s i n gr a t e ( z c r ) ) ,如图 s 中国科学技术大学硕上学位论文 2 1 所示,如果一个声音波形在4 0 m s 内过零次数为8 ,则认为信号周期为1 0 m s 相应的频率为1 0 0 h z 。 与计算过零率类似,如果事件是波形出现一次峰值,那么所要检测的是单位 时间内波形出现的峰值个数,这种方法称为峰值率检测( p e a kr a t e ) 。 _ v vvv v v v 、 p f r i n 疗 e m 图2 1 过零率法 如果波形本身具备周期性,波形的斜率也呈现周期性,那么可以通过检测波 形斜率的变化周期来估计波形本身的周期,这种方法称为斜率事件检测( s l o p e e v e n tr a t e ) 。 时间事件比率检测法的优点是,容易理解和实现,计算量小。但是缺点是, 通过此法得到的信号周期估值与真实值的差别较大,尤其是当信号本身是复杂信 号( 即信号本身还有多种基音成分) 时往往难以得到误差足够小的估计值。 2 2 12 自相关法 通过观察发现一个规律,信号本身和信号的时延版本之间存在一种相似性。 这种相似性反映的恰好是信号的周期性。自相关法的基本思想是,通过寻找信号 本身和信号的时延版本之间的相似性,来估计信号的周期。首先定义如下自相关 函数: t + l y ( f ) = x ,_ 。 ( 2 - 1 ) j l f + l ,f ( f ) 是t 时刻时间延迟f 下的自相关函数,w 是所关注的窗长。 如果信号是周期的,其自相关函数也将呈现周期性。假定当前信号的周期为 6 中国科学技术大学硕t 擘位论文 t ,则其自相关函数( f ) 在f = t 得到峰值( 往往是最大峰) ,并且在f = 2 t ,3 t , 得到一组峰。于是,通过检测f t 处的最大峰,就可以得到信号周期t 。 但是,有时信号在f = t 处并不得到最大峰,其倍频处的峰值可能更大。对公式 2 l 修改后得到公式2 - 2 ,通过缩短高频部分的窗来减少高频幅度,从而削弱高 时延处的峰值。 t + w 一7 ,( f ) = x x ,+ , ( 2 2 ) j :t + l 公式2 3 是对公式2 - l 的另一种处理,能够起到与公式2 2 同样的作用。公式2 2 要求窗长的变化,一方面会带来其他效应。另一方面,从减少高频幅度的角度, 公式2 2 是一种隐式的做法,公式2 3 是显式的。所以,公式2 3 更受青睐。 x f ,= f ( 1 i 7 f 删拢 7 s f 一( 2 3 ) e l s e 自相关法的缺点是:1 虽然进行了算法修正,但是仍然存在周期的倍频处出 现最大峰的隐患。后来有人提出了y i n 的方法,可以理解成自相关法的衍生法, 以更好的解决检测基频的准确度;2 自相关法对信号周期的估计的前提是:一段 时域信号至少应该包含一个周期,而低频信号的周期很大,这样就不利于对实时 性有要求的基音检测;3 如果信号本身不是单音信号,即一段信号本身含有不同 基音频率成分,那么自相关函数的峰值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 西游记三借芭蕉扇读书汇报
- 消防员内务讲解
- 细胞主动运输
- 2026届河南省许昌平顶山化学高三第一学期期末学业水平测试试题含解析
- 2026届山西省忻州市一中化学高三上期末经典试题含解析
- 全科医学核心服务体系构成
- 数位器课程讲解
- 私募基金产品讲解
- 全国中医护理骨干培训汇报
- 香奈儿品牌包袋解析
- quite imposing plus 3 0中文破解拼版插件内含安装说明qi教程
- (新)部编人教版高中历史中外历史纲要上册《第13课-从明朝建立到清军入关课件》讲解教学课件
- GB/T 42430-2023血液、尿液中乙醇、甲醇、正丙醇、丙酮、异丙醇和正丁醇检验
- 《医院感染管理办法》知识试题与答案
- 提高管床护士对患者诊疗信息的知晓度PDCA记录表
- 某园区综合运营平台项目建议书
- 孕期患者非产科手术的麻醉
- 养老机构临终关怀服务手册
- 母婴产品抖音运营方案
- GB/T 27007-2011合格评定合格评定用规范性文件的编写指南
- GB/T 23445-2009聚合物水泥防水涂料
评论
0/150
提交评论