（计算机应用技术专业论文）哼唱检索中哼唱信息处理方法的研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：47 大小：3.28MB 积分：18 举报 版权申诉

已阅读5页，还剩42页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

硕士论文哼唱检索中旋律信息处理方法的研究摘要基于哼唱的音乐检索系统研究是一种涉及音乐理论、信号处理、模式识别等相关领域的综合学科研究，其在音乐数据库管理、i n t e r n e t 音乐检索以及生活娱乐等方面都具有非常重要的意义。在基于哼唱的音乐检索系统的研究中，对于哼唱音频信息的有效处理以提取准确有效的旋律信息的研究还不充分。本文主要围绕哼唱检索中哼唱信息处理中的以下几个方面展开研究工作： 1 ) 学习研究了音乐乐理知识、音乐的相关概念、音乐特征的表示方法及相关音乐信号分析知识，对哼唱声音信号处理所用到的相关信号处理的概念、算法和信号特征进行了详细描述。 2 ) 学习研究了目前国内外各种哼唱信息的处理方法，对各种方法的适用范围和局限性做出分析。。 3 ) 改进了一种改进的减谱法语音增强技术，对哼唱信息做降噪处理。 4 ) 在已有的哼唱信息处理方法之上，采用了短时能量的方法进行音符分割然后使用时域处理技术提取旋律信息。 5 ) 改进了一种采用自相关法的基音检测算法。该算法采用自相关函数来提取浊音段的基音周期。并采用一种基于规则的方法提取音高。 6 ) 详细分析了m i d i 文件的结构，实现了从m i d i 音乐库中提取音乐的旋律信息。 7 ) 使用一种合理的旋律信息表达的中间格式，用于查询构造。结合以上算法和理论研究，设计了哼唱检索中旋律信息提取实验，并在m a t l a b 中加以编程实验。实验结果证明了这种哼唱信息处理方法是准确有效的。本论文的工作为基于内容的音乐检索研究打下了一定的基础，对进一步的深入研究具有推动和借鉴意义。关键词：哼唱信息处理，减谱法，自相关法，音符分割，音高跟踪 a b s t r a c t m u s i ci n f o r m a t i o nr e t r i e v a l s y s t e mv i ah u m m i n gi n v o l v e sm u s i ct h e o r y , t h es i g n a l p r o c e s s i n g ，t h ep a r e r nr e c o g n i t i o na n ds oo nr e l a t e dd o m a i nc o m p r e h e n s i v ed i s c i p l i n e r e s e a r c h i th a st h ev e r yv i t a ls i g n i f i c a n c ei nm u s i cd a t a b a s ea d m i n i s t r a t i o n h a t e m e t m u s i cr e t r i e v a la sw e l la sl i f ee n t e r t a i n m e n t t h er e s e a r c h e so fe f f e c t i v eh u m m i n gq u e r yp r o c e s s i n gm e t h o d sa n de x a c tm e i o d i c c h a r a c t e ri n f o r m a t i o na n dr e p r e s e n t a t i o nh a v en o tb e e ne x a m j n e dn l a 自l r e l v 。 t h i sa r t i c l em a i n l yr e v o l v e st o h u m m i n gq u e r yp r o c e s s i n gi nt h er e t r i e v a lv i a h u m m i n gf o l l o w i n gs e v e r a la s p e c t st ol a u n c ht h er e s e a r c hw o r k ： 1 ) a f t e rs t u d y i n gt h em u s i c a lt h e o r e t i c ，t h em u s i c a lc o n c e p t i o n s t h em e m o ( 1 st o d e s c r i b et h em u s i c a lf e a t u r e sa n dt h et h e o r e t i co fm u s i c a ls i g n a l sa n a l y z i n g ，s o m es i 酆i a l p r o c e s s i n gc o n c e p t i o n sa n da l g o r i t h m sa n ds i g n a lf e a t u r e sa b o u tm u s i ct o n ee x t r a c t i n gi s p r e s e n t e d 2 ) a f t e rs t u d y i n ge a c hk i n do ft h eh u m m i n gq u e r yp r o c e s s i n gm e t h o dt oh u m 也e i n f o r m a t i o np r e s e n td o m e s t i ca n df o r e i g n , t h e a n a l y s i s i sm a d et oe a c hm e t l l o d s a p p l i c a b l es c o p ea n dt h el i m i t a t i o n 3 ) p r o p o s e do n ek i n do fi m p r o v e m e n tp r o n u n c i a t i o ne n h a n c e m e n tt e c h n 0 1 0 9 yt o r e a l i z es p e e c he n h a n c e m e n ta n dn o i s er e d u c t i o nb a s e do nt h es p e c t r a ls u b t r a c t i o n 4 ) a b o v ee x i s t i n gh u m m i n gq u e r yp r o c e s s i n g ，p r o p o s e do n em e t h o da b o u tt h e m e l o d yf e a t u r ee x t r a c t i o no nt h et i m ed o m a i n ，i n c l u d i n ga u d i os e g m e n t a t i o nb a s e do n s h o r t - t e r me n e r g y 5 ) p r o p o s e dt h a to n ek i n da l g o r i t h mo fp i t c hd e t e c t i o nb a s e do na u t o c o r r e l a t i o n t i l i s a l g o r i t h me x t r a c ts i g n a lv o i c e ds o u n ds e c t i o nb ya u t o c o r r e l a t i o nf u n c t i o n 6 ) t h es t r u c t u r eo ft h em i d if i l ei sa n a l y z e di nd e t a i l ，a n dt h em e l o d yi n f o r m a t i o ni s e x t r a c t e df r o mt h em i d im u s i cd a t a b a s e 7 ) a ni n t e r m e d i a t ef o r ma tf o rm e l o d yr e p r e s e n t a t i o nh a sb e e np r o p o s e d u n i f y i n gt h ea b o v ea l g o r i t h ma n dt h ef u n d a m e n t a lr e s e a r c h , d e s i g n e dt h ef e a t u r e e x t r a c t i o n e x p e r i m e n t i nt h e h u m m i n gr e t r i e v a l ，a n dp e r f o r m si nm a t l a b ，t h e e x p e r i m e n t a lr e s u l th a dp r o v e nt h i sk i n do fi n f o r m a t i o np r o c e s s i n gm e t h o dv i ah u m m i n g i sa c c u r a t ee f f e c t i v e t h es t u d yw o r ko ft h i st h e s i s p r o v i d e st h ep r e p a r a t i o nf o rt h ed e v e l o p i n go f c o n t e n t - b a s e dm u s i c a lr e t r i e v a lr e s e a r c ha n dp u s h e sf o r w a r dt h e s t u d y0 nm e l o d y 硕士论文哼唱检索中旋律信息处理方法的研究 r e t r i e v a l k e yw o r d s ：h u m m i n gq u e r yp r o c e s s i n g ，s p e c t r a ls u b t r a c t i o n ，a u t o c o r r e l a t i o n m e t h o d ，n o t es e g m e n t a t i o n ，p i t c ht r a c k i n g i v 声明本学位论文是我在导师的指导下取得的研究成果，尽我所知，在本学位论文中，除了加以标注和致谢的部分外，不包含其他人已经发表或公布过的研究成果，也不包含我为获得任何教育机构的学位或学历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均已在论文中作了明确的说明。研究生签名：逛羹纽卵哥年7 月1 日学位论文使用授权声明南京理工大学有权保存本学位论文的电子和纸质文档，可以借阅或上网公布本学位论文的部分或全部内容，可以向有关部门或机构送交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对于保密论文，按保密的有关规定和程序处理。研究生签名：巨整兰垒忉8 年c 月1 日硕士论文哼唱检索中旋律信息处理方法的研究 1 绪论 1 1 研究背景随着i n t e m e t 的飞速发展，从网络上下载音乐已经占据了整个网络信息流量的很大份额，如何方便、一自然、迅速、准确地找到想要的音乐成为迫切需要解决的问题。“用哼唱检索音乐是一种友好的基于内容的音乐检索方法，它已经引起了广泛的研究兴趣，其原理是用户通过麦克风哼唱出歌曲的某个片断，系统会自动找出一些歌曲并按与用户的输入的相似程度排列出来，提交给用户。这种方法相对于人们所熟悉的用歌曲的名称、演唱者、出版时间等检索音乐的方法更加方便、自然。近年来，基于内容的多媒体数据的检索逐渐升温【1 4 1 ，同时，目前几乎所有的搜索引擎服务商在为用户提供音乐文件搜索服务时均使用面向文本的检索方式( 标题作者歌词等) 。然而，当音乐数据的版权信息不明确时，面向文本的检索方式将不再适用，并且，人对音乐最敏感的永远是旋律，人们即使忘了一首歌的歌词，依然能轻松哼唱出它的主旋律。音乐的这种旋律信息也应该作为一种检索条件被加以利用。此时，就有必要采用基于内容的方法来实现音乐文件的检索。 1 1 1 哼唱检索中哼唱信息处理的意义在基于哼唱的音乐检索系统的研究中，对哼唱输入与数据库进行合理的近似匹配以及有效的检索方法的研究不断深入，但对于哼唱的音频信息的有效处理和提取准确有效的旋律信息的研究还不充分【5 j 。本课题旨在构建一种有效的哼唱信息处理和旋律信息提取的方法，进而提高基于内容的音乐检索中整个音乐检索系统的性能。基于内容的音乐信息检索技术是一个涉及交叉学科的研究方向，涉及到的学科包括：计算机科学、信息检索、音乐学、音频技术、数字信号处理和认知科学等。研究者包括音乐家、计算机科学家、信息科学家、工程师、认知科学家、音乐心理学家以及其它各种专业人员 6 3 。可以想象，“用哼昌检索音乐”具有极其广泛的应用前景，普通的用户可以方便地从网上找到自己喜欢的音乐。在k t v ，人们只要哼唱就可点歌而不需要用歌本，音乐专业人士可以方便地判断他的创作是否具有新意，版权管理部门可以方便地查出一首音乐作品是否是新的，用手机点歌也许是它的另外一个应用。版权部门可以方便判断一首音乐是否侵犯版权。在军事、刑侦等很多领域，哼唱检索也有巨大的应用价值和广阔的研究前景【7 】。人们梦想计算机能够理解音乐，“用哼唱检索音乐是向这个方向的有益探索。 l 绪论硕士论文 1 1 2 哼唱检索中旋律信息提取方法的研究现状在哼唱音乐检索中，最前端的工作就是对哼唱声音信号进行处理，以获取旋律信息，并将旋律信息表示成一种合理的中间格式，可以直接或变换后用于不同的音乐检索系统，进行查询构造。所以，旋律信息的获取是哼唱音乐检索中的关键工作。对哼唱声音信号的处理和旋律信息提取的方法可以采用般对语音信号分析处理的方法，但又有所不同：语音信号处理针对目的的不同，处理的重点与具体采用的方法也不同。哼唱声音信号的分析和处理主要分为时域分析、频域分析、倒频域分析等【8 】。其中，时域分析方法具有简单、计算量小、物理意义明确等优点，所以本文主要采用时域的方法来对哼唱声音信号做处理。其次，采用时域的方法也有利于将来把哼唱检索系统应用的嵌入式系统中。哼唱音乐检索技术晟早提出于2 0 世纪9 0 年代，主要研究如何提取音频信息中的语义信息，以方便对音频数据进行检索【9 】。目前在基于内容的音频检索中，主要完成音频特征提取与音频分类两个任务。如j o h ns a u n d e r s t l 0 j 基于能量分布曲线和过零率特征，对商业电台广播内容进行分类，正确率达9 8 ；m i t 媒体实验室的e r i c s c h e i r e r 等【儿】用1 3 种特征的组合来区分语音和音乐，包括4 h z 调制能量、频谱能量截止点、频谱中心和频谱流量等；f o o t e 1 2 】在较小范围、较短实验音频片段( 0 1 5 - - 一5 s ) 上，用基于m m i 向量量化法得到音频统计特性，然后构造分类器，对语音及音乐取得了较好识别率；文献【l3 j 提取环境音频例子( 如爆炸、枪声和掌声等) 中短时能量、过零率和基本频率能量比等特征，为每类环境背景音频训练一个隐马尔可夫链，在小样本情况下，取得了9 0 左右检索正确率；文献【1 4 j 提取音频片段统计特征，使用含有语义状态的隐马尔可夫链实现广播新闻粗略精细分割分类。上述研究领域主要完成了音频信息的分类，但基于内容的音乐检索系统的研究还不充分。目前，国内处于领先地位的是中科院声学所中科信利语音实验室，其在国际音乐处理学术界举办的最高赛事( m i r e x ) 中，获得哼唱检索评测中获得很好的成绩。目前，基于哼唱的音乐检索系统要要解决的问题重要问题是如何对多类不同音频构造一个鲁棒的识别机制【l 引。 1 2 研究总论及论文框架本课题的研究目的是在研究学习国外部分最新算法的基础之上，旨在构建一种有效的哼唱信息处理和旋律信息提取的方法，并采用一种合理高效的旋律信息表达方法，进而提高基于内容的音乐检索中整个检索系统的性能。结合国内外基于内容的音乐检索系统的研究基础和哼唱信息处理和旋律信息 2 硕士论文哼唱检索中旋律信息处理方法的研究提取的方法和理论的研究动态，我们确定了以下几个研究方向：哼唱声音信号处理；哼唱声音信号的音符估计；哼唱声音信号旋律信息提取；旋律信息的表达，音乐数据库的旋律信息的提取，系统仿真实验。 2 音乐的基础理论和特征表示硕士论文 2 音乐的基础理论和特征表示 2 1 音乐的基础理论在音乐理论中，我们使用的、有固定音高的音的总和，叫做乐音体系。乐音体系中的各音叫做音级，两个音级在音高上的相互关系叫做音程。乐音体系中的音，按照上升或下降次序排列起来，叫做音列。音列的总范围叫做音域，即从它的最低音到最高音( 5 ) 间的距离 1 6 1 。下边简单将乐理知识【1 7 】介绍如下： 1 ) 声音是由物体的振动产生的。 2 ) 音符( n o t e ) 是音乐的基本要素，是记录乐音及其时值长短的符号。 3 ) 音高( p i t c h ) 是由物体振动的频率决定的。频率越高音越高。音量( v o l u m e ) 也称为音强或能量，音强就是在听时人们所感到的响度，也就是人们通常说的强弱或大、小，轻、重，它代表音符的强弱，比如在弹奏钢琴时音强说明了一个琴键按下的力度。是由振动的幅度大小决定的，幅度越大音越强。 4 ) 音程( i i l t e r v a l ) 是两个音级在音高上的相互关系叫做音程。先后弹奏的两个音形成旋律音程，同时弹奏的两个音形成和声音程。 5 ) 八度( o c t a v e ) 两个相邻的具有同样名称的音叫做八度。 6 ) 音名( p i t c hn a m e ) 音符的名称。通常有三种表示方法。第一种是音乐用音名表示法。人们通常以低音谱表第二间的c 音定义为中央c ，在这种表示法中把这个键的音名叫做小字一组c 1 。顺序向音高升高的方向为小字一组的其它音。c 1 的高八度音是c 2 ，从此开始的音叫做小字二组。依此类推是小字三组、小字四组一直到c 5 。从c 1 开始向音高降低处依次为小字组、大字组、大字一组、大字二组。第二种表示法为声学用音名表示法。是在英文大写字母右面写一个阿拉伯数字来表示音名。第三中表示法是键号表示法，就是从钢琴最低音键开始以数字顺序编号，以最低音键为1 号键，连同白键、黑键，向音高升高的方向顺序排列。对于标准钢琴来说共有8 8 个键，所以有8 8 个音。用钢琴的琴键来表示音高，是因为一般情况下，其它乐器的基频音高都不会超过这个范围。 7 ) 十二音平均律( t w e l v e n o t et e c h n o l o g y ) 把八度分成十二个均等的部分一半音( s e m i t o n e ) 。两音间的距离等于两个半音的叫做全音。 8 ) 音长说明了音符的长短，这是以全音符为基础划分的，其它各音符按它与全音符的比值命名，如二分音符、四分音符就相当于全音符的二分之一、四分之一。通常音乐都是以四分音符为一拍，八分音符为半拍来演奏音乐的。 4 硕士论文哼唱检索中旋律信息处理方法的研究科学实验表明：音程每高八度，振动频率增高为原来振动频率的两倍，规定a 1 = 4 4 0 h z ，则a 2 = 8 8 0 h z ，a - - 2 2 0 h z 。这样音程就可以和频率联系起来了。由十二音平均律的定义可知，两个相邻键的( 一个半度音阶) 基音频率之比为2 1 2 ，由a 1 = 4 4 0 h z 可以计算出钢琴键盘上所有音的音名对应的频率。在本文中，利用s e m i t o n e = 6 9 + 1 2 l 0 9 2 ( f r e q u e n c y 4 4 0 ) 这个公式，把音高的频率都转换为半音的规格来表示。规定当音高的基频是4 4 0 h z 时，对应的半音值是 6 9 s e m i t o n e 。 2 2 音乐特征的表示旋律是音乐的灵魂，是音乐的基础。音乐的主要特征就是旋律。旋律的一个简单的定义是单音调的连续的音阶序列。一般意义上，旋律是音调和节奏的组合。文献【1 8 】。【2 伽对音乐的记忆特性进行了研究，d o w l i n g 在文献【1 8 】中指出旋律的轮廓比精确的旋律更易于记忆。旋律的轮廓是指音调的起伏的整体形状，即相邻音符的起伏。假定音乐的轮廓和音阶是分开存储在我们的大脑中的，而旋律的轮廓是主要的、印象深刻的部分。相同的旋律轮廓可以映射到不同的音阶上。e w d o r t h y 在文献【1 9 】中，给出了识别轮廓或音程的改变和旋律的长度有密切关系的观点。d o w l i n g 在文献【2 0 】中也提出了类似的观点。在以前的研究中，普遍用到的是两种音乐内容的表示方法：基于音乐节奏的表示方法和基于音乐旋律轮廓( 音调高低) 的表示方法。本文采用另一种旋律表示方法：基于音高差和音长比的表示方法。三种方法简单介绍如下： d 基于音乐节奏的表示方法利用节奏表示音乐内容的方法【2 1 1 忽略了音乐的音调特性，利用音乐的节奏表示音乐的内容，较基于音乐轮廓的内容表示要复杂，虽然如此，仍丢失了很多的音乐信息，因为它忽略了音乐的音调特性。 2 ) 基于音乐旋律轮廓( 音调高低) 的表示方法：文献【2 2 】利用三个字符s - s a m e 、u - u p 、d d o w n ，来表示音乐的旋律轮廓。音乐音调轮廓描述了相对音调的变化，忽略了音乐的节奏信息，也忽略了音调的精确变化。一段旋律中的字符表示当前音符与其前面的音符的比较，s 表示音调的重复， u 表示比其前面音符的音调高，d 表示比其前面音符的音调低。如i 逝塑1 5 7 i 煎煎1 5 ( 歌曲“同桌的你节选) 可表示为s s s s d u u u d s s s d u d 。旋律的音调轮廓同样会丢失音乐信息。这样虽然可以减少搜索空间，但同时也使搜索变得不精确，对于一个大型数据库来说查找的结果过多，不利于找到要搜索的目标。为了找到目标歌曲，需要较长的输入串，这会与用户对歌曲的记忆的长度相矛盾。 3 ) 基于音高差和音长比的表示方法： 5 2 音乐的基础理论和特征表示硕士论文在基于哼唱的音乐检索系统中，音符分割是难点，如果能很好的将用户哼唱的声音信号中的音符分割出来，就能够提取每个音符的音高值，转换成半音单位。再根据音符的音高值，计算出两个相邻音符的音高差。因为每个人哼唱时音高不同，我们可以用音高平移的方法，将哼唱声音信号的音高，平移到比对资料相同的音高。这样可以提高检索的查准率。其次，有了比较准确的端点检测的结果后，我们就可以得到每个音符的音长数据，根据音长数据，我们可以计算出两相邻音符的音长比，作为我们旋律信息的一部分。 2 3 本章小结本章首先介绍了音乐乐理知识、音乐的相关概念，重点介绍了音乐的振动频率和半音之间的换算公式。音乐特征的表示方法中，我们将要用到基于音高差和音长比的旋律信息表示方法。这些知识为进一步对音乐内容的分析打好基础。 6 预论女晖检索中旋律信息赴4 方法的究 3 哼唱声音信号的处理和分析在对哼唱声音信号进行处理之前，我们首先要采集用户从麦克风哼唱的声音信号，也就是对声音信号进行采样和量化。为了提高查询的查准率和降低后续算法的复杂性，提高处理的速度，以便将来能将基于哼唱的音乐检索系统应用到嵌入式系统中，我们这里要求用户采用“d a ”声哼唱。采集参数为：采样频率1 1 0 2 5 h z 、量化位数8 位、单声道声音，采集时间为8 秒。下图是我们采集到的哼唱歌曲两只老虎中的“两只老虎，两只老虎，跑得快，跑得快”的波形图。： - m i l 图3l 哼唱歌曲“两只老虎”的波形图从图3l 可以看出，采用“d a ”声哼唱得到的波形中，因为每个音符都是采用爆破音加浊音音节的方式哼唱，所以哼唱的每个音符之间会有短暂的停顿，音符与音符之间的分界明显，这样就有利于我们对获取的哼唱声音信号做音符分割和基音提取。录音完成之后，我们可以把得到的数据保存成声音波形文件“t g d a w a v ”，供后续的处理使用。 3 1 哼唱声音信号的预处理无论是分析怎样的参数和以及采用什么样的分析方法，在按帧进行哼唱声音信号分析，提取哼唱声音信号旋律特征之前，我们都要对哼唱声音信号进行预处理，如哼唱声音信号的数字化、预滤波、预加重、加窗和分帧等。这些技术都是为了更好的提取哼唱声音信号的旋律信息需要采用的重要技术。下边分别介绍这些预处理技术。 3 哼唱声音信号的* m 和分析碗论文 3 1 1 预滤波对哼唱声音信号的预滤波的目的为：防止混叠干扰需要抑制输入信号中频率分量中频率超出f s 的一半的所有分量( f s 为采样频率) 抑制5 0 h z 的电源工频干扰。园此，预滤波器可匕上设计为一个带通滤波器，对于哼唱音乐检索系统，截止频率和采样频率可以分别为3 4 0 0 h z 、1 0 0 h z 和1 1 0 2 5 h z 。以下是带通滤波器的实现：下图为哼唱声音信号滤波前和滤波后的比较：州坩旷始o ，声音信 dl一4 eb，= 带遁译被后的崞唱声音信号图3 2 对哼唱声音信号做带通滹渡 3 1 2 预加重哼唱声音信号的频率变化表现为音乐的音调变化，哼唱声音信号的高频部分频谱比低频部分的所占比重少，则对应说明音乐的较高音调部分的音调变化比较低部分的难求。因此要对哼唱声音信号进行预加重处理来提升哼唱声音信号中的高频部分。预加重处理是通过用提升高频特性的预加重数字滤波器来实现的。它一般是一阶的数字滤波嚣： ( z ) = l p f 3 1 、式f 3 l 忡，i t 值接近1 ，这里我们取u 值为0 9 3 7 5 。以下代码用于实现对哼唱声音信号的预加重： h - f i l t e r ( 1 09 3 7 5 ，l j ) ；预加重后得到的声音波形为：砸论文哼唱检索中旋律信息处4 方* 的h 究图33 预加重后的哼唱声音波形 3 1 3 加窗和分帧处理由于哼唱声音信号是一种短时平稳信号，所以哼口目声音信号处理全过程一般都使用短时处理技术。分帧的目的就是把哼唱声音信号分成一帧帧的短时信号。进行过预加重数字滤波处理后，接下来就要对哼唱输入的声音信号进行加窗分帧处理。分帧可以采用连续分段的方法，但一般采用交叠分段的方法，这是为了使帧与帧之间平滑过渡，保持连续性。前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值一般可以取l 2 。如果帧长是2 5 6 ，则分帧是可以采用1 2 8 点的重叠。分帧是用可移动的有限长度窗口进行加权的方法实现的，也就是用一定的窗函数w ( n ) 来乘哼唱声音信号5 ( 一) ，从而形成加窗的哼唱声音信号l ( n ) = j ( 坤州呻。我们介绍两种窗函数，矩形窗和汉明窗，它们的表达式如下( 其中n 为帧长) ：矩形窗：删= 怯“”- j 门限值t 图3 5f 1 限过零率卸皿卸佃佃o 硕士论文哼唱检索中旋律信息处理方法的研究 3 2 2 哼唱声音信号的频域分析哼唱声音信号的频域分析包括哼唱声音信号的频谱、功率谱、倒频谱、频谱包络分析等，而常用的分析方法有带通滤波器组法、傅立叶变换法、线性预测法等。音乐信号的频域特征是指先把音乐信号进行傅立叶变换，将原始信号转换到频域后，对频域内的数据进行分析所提取出的频域参数。其中包括能谱特征、平均功率、功率谱特征、m e l 系数、熵特征等阱1 。能谱特征，对于音乐信号石p ) ，其总的能量为 x 2 ( t ) d t ，称lx ( f ) 1 2 为x o ) 的能谱，其中x ( 门为x ( f ) 的频谱。平均功率，对于哼唱声音信号x ( r ) ，称z 圭i1 2 卜( f ) 1 2 出为在区间【t l ，t 2 】上的平均功率。 m e l 系数( m f c c 系数) 是建立在傅立叶变换和倒谱分析的基础之上的。音乐帧信号经过傅立叶变换后，其频谱宽度为音频采样频率的一半。可采用线性划分或非线性划分将整个频率带划分为n 个子带，成了这个短时音乐帧的n 个m f c c 系数， 1 ) 傅立叶频谱分析法分别计算这n 个子带上的总能量，就构也称为m e l 系数。傅里叶频谱分析是哼唱声音信号频域分析中广泛采用的一种方法。它是法国科学家j f o u r i e r 在1 8 0 7 年为了得到热传导方程的简便解法而提出的。傅里叶变换在电气工程等领域得到了广泛的应用，很多理论研究和应用研究，都把傅里叶变换当作最基本的经典工具来使用。傅立叶频谱分析是分析线性系统和平稳信号稳态特性的强有力的工具，这种以复指数函数为基函数的正交变换，理论上很完善，计算上很方便，概念上易于为人们理解，在语音信号处理上也是一个非常重要的工具。傅里叶频谱分析的基础是傅里叶变换，用傅里叶变换及其反变换可以求得傅立叶谱、自相关函数、功率谱、倒谱。由于哼唱声音信号的特性是随着时间缓慢变化的，由此引出哼唱声音信号的短时分析。如同在时域特征分析中用到的一样，这里的傅里叶频谱分析也采用相同的短时分析技术。信号x ( 刀) 的短时傅里叶变换定义为： j 以o ) = x ( m ) w ( n - m ) e 一朋 ( 3 8 ) 目- = - 式中，w ( 刀) 为窗口函数。在实际计算时，一般用离散傅里叶变换代替连续傅里叶变换。这就需要对信号进行周期性扩展，即把x ( n ) w ( n ) 看成某个周期信号的一个周期，然后对它做离散傅 3 哼唱声音信号的处理和分析硕士论文里叶变换，这时得到的是功率谱。值得注意的是，如果窗长为l ，那么x ( n ) w ( n ) 的长度为l ，而r ( 七) 的长度为2 l 。如果对x ( n ) w ( n ) 以l 为周期进行扩展，在自相关域就会出现混叠现象，即这个周期函数的循环相关函数在一个周期中的值就与线性相关兄( 七) 的值不同，这样得到的功率谱只是真正功率谱的一组欠采样，即l 个采样值。若想得到功率谱的全部2 l 个值，则可以在x ( 玎) w ( ，1 ) 之后补充l 个零，将其扩展成周期为2 l 的信号，并做离散傅里叶变换。这时的循环相关与线性相关是等价的。以下是对哼唱声音信号取2 0 4 8 点做快速傅立叶变换：【x ，f s ，b i t s - - w a v r e a d ( t g d a f w a v ) ； s u b p l o t ( 2 ，l ，1 ) ；p l o t ( x ( 7 5 0 0 ：9 5 4 7 ) ) ；x l a b e l ( ( a ) 时域内的信号) ；鲥d ； x l - - x ( 7 5 0 0 ：9 5 4 7 ) ；取信号x 中的前4 0 9 6 个采样点 y = f f t ( x 1 * h a m m i n g ( 1 e n g t h ( x 1 ) ) ，l e n g t h ( x 1 ) ) ；加窗快速傅立叶变换 f i - n = 3 0 0 0 * l e n g t h ( x 1 ) f s ；限定频率范围 f = f s * ( 0 ：f i n ) l e n g t h ( x 1 ) ；设置频率轴坐标 s u b p l o t ( 2 ，1 ，2 ) ； p l o t ( f , a b s ( y ( 1 ：l e n g t h ( f ) ) ) ) ；x l a b e l ( ( b ) 加窗快速傅立叶变换) ；画频谱图鲥d ；得到的图形如下：口2 0 田2 加 2 口 d j 槲黼m 1 1 ，一a 一4 p 。酽矿。h w 口卿 1 1 3 1 3 1 31 锄 ( a ) 时域内的信号 j人a a一，m 一。 _ _ - l o 口5001 咖 1 5 d 02 1 3 叩2 5 叩锄蚴加窗快速傅立叶变换图3 6 加窗快速傅立叶变换仿真图 2 ) m e l 倒谱分析 m e l 频率倒谱系数作为一种具有稳健性，且较能忠实的反应语音特征的参数，之所以在语音识别中得到了广泛的应用，是因为m e l 频率的划分是以人耳的一些听觉特性而建立的，m e l 频率倒谱系数的引入模拟人耳的听觉特性。由于人耳对于声波频率高低的感觉和实际频率的高低不成线性关系，而是近似为对数关系，根据声硕士论文哼唱检索中旋律信息处理方法的研究学测量结果可给出m e l 频率映射函数：朋如2 5 眈崦( + 丢) 其流程框图如图3 7 。 ( 3 9 ) 图3 7m f c c 的提取流程 ( 1 ) 预加重将经采样的数字哼唱声音信号s ( n ) 通过一个高通滤波器( h i g hp a s sf i l t e r ) ：因为发声过程中声带和嘴唇的效应，使得高频共振峰的振幅低于低频共振峰的振幅，进行预加重的目的就是为了消除声带和嘴唇的效应，来补偿哼唱声音信号的高频部分。取1 0 , - , 2 0 m s 为一帧。为了避免相邻两帧的变化过大，所以帧与帧之间需要重叠一部，一般为二分之一或三分之一，也就是每次位移一帧的二分之一或三分之一后再取下一帧，这样可以避免帧与帧之间的特征变化太大。 ( 3 ) 计算短时能量短时能量代表着能量的高低，亦即声音振幅的大小，可以根据此能量的值来过滤掉哼唱声音信号中的一些细微噪声。短时能量的定义为：当一帧的能量值低于门槛值( t h r e s h o l d ) 时，则将此帧信号作为静音段 ( s i l e n c e ) 2 5 2 7 1 。 ( 4 ) 加窗将每一帧代入窗函数，其目的是消除各帧两端可能造成的信号不连续性，常用的窗函数有方窗、汉明窗和汉宁窗等，根据窗函数的频域特性常采用汉明窗。设经过分帧之后的哼唱声音信号为s ( m ) = o ，n 一1 ，那么乘上汉明窗后就变为： s ( ，玎) = s ( ，z ) - w ( m )( 3 1 0 ) w ( i n ) 的定义如下： m ，： 0 4 5 - 0 4 6 * c o s ( 矧胚肌n 【0 ， o t h e r w i s e 3 哼唱声音* 号的处理和分析硕* 立 ( 5 ) 快速傅里叶变换由于哼唱声音信号的时域上的变化快速而不稳定，所以通过将它转化到频域上来观察，此时它的频域会随着时间的变化作缓慢的变化。所以通常将加窗后的帧经过f f t 求出每帧的频谱参数。 ( 6 ) 三角带通滤波器将每帧的叛逆谱参数通过一组n 组三角带通滤波器( 一般n 为2 0 3 0 组) 所组成的梅尔刻度滤波器，将每个频带的输出取对数，求出每一个输出的对数能量再将此 n 组参数进行余弦变换，求出n 阶的r e e l 倒谱系数。余弦转换公式为： c 一2 善乓c o 吐t 一；) 号j m = ，玉一，z c ：，根据m e l 倒谱系数的求解公式仿真图形如图38 所示。捌i 婚，扎 y 一 3 3 辩鹣姆鞫麟蚓猎嘲俐哼唱声音信号的增强图3 8m f c c 仿真图现实生活中的语音不可避免的要受到周围环境的影响，很强的背景噪声会严重影响哼唱声音信号的质量：此外，传输系统本身也会产生各种噪声，因此，在接收端信号为带噪语音信号。混跌在语音中的噪声按类别可分为环境噪声等加法性噪声与残响以及电器线路干扰等乘法性噪声；按性质可分为平稳噪声与非平稳噪声。语音增强是解决噪声污染的有效方法，它的首要目标就是在接受端尽可能从带噪语音信号中提取纯净的语音信号，改善其质量。语音增强不仅涉及到信号检测、波形估计等传统信号处理理论，而且与语音特性，人耳感知特性密切相关；再则，实际应用中的噪声的来源以及种类的各不相同，从而造成处理方法的多样性。因此，帆煳强册h科n龇雌嘲例硕士论文哼唱检索中旋律信息处理方法的研究要结合语音特性、人耳感知特性及噪声特性，根据实际情况选用合适的语音增强方法。 3 3 1 语音特性、人耳感知特性及噪声特性语音特性语音信号是一种非平稳的随机信号。语音的生成过程与发音器官的运动过程密切相关，考虑到人类发声器官在发声过程中的变化速度具有一定的限度而且远小于语音信号的变化速度，因此，可以假定语音信号是短时平稳的，即在l o - - 一3 0 m s 的时间段内其某些物理特征和频谱特征可以近似看作时不变的，从而可以平稳随机过程的分析方法来处理语音信号，并可以在语音增强中利用短时频谱时的平稳特性。从时域波形上可以看出浊音具有明显的准周期性和较强的振幅。在语音增强中可以利用浊音具有的准周期性来区别和抑制非语音噪声。人耳感知特性人耳对于声波频率高低的感觉与实际频率的高低不呈线性关系，而近似为对数关系；人耳对声强的感觉很灵敏且有很大的动态范围，人耳对于频率的分辨能力受声强的影响，过强或者太弱的声音都会导致对频率的分辨率降低；人耳对语音信号的幅度谱较为敏感，对相位不敏感。噪声特性噪声可以是加性的，也可以是非加性的，非加性噪声往往可以通过某种变换，如同态滤波，转为加性噪声。加性噪声通常分为冲激噪声、周期噪声、宽带噪声、语音干扰噪声等。非加性噪声主要是残响及传送网络的电路噪声等。常用的语音增强技术有：滤波法、自相关抗噪法、减谱法、w e i n e r 滤波法等。对于冲激噪声，消除的方法通常有两种：对带噪语音信号的幅度求均值，将该均值作为判断阈，凡是超过阈值的均判断为冲激噪声，在时域中将其滤除。对于周期噪声，在频谱图中它们表现为离散的窄谱，通常可以采用陷波器法予于滤除。对于宽带噪声，如说话是同时伴随着呼吸引起的噪声，随机噪声源产生的噪声，以及量化噪声等都可以视为宽带噪声，应用中常近似为高斯噪声或白噪声。其显著特点是噪声频谱分布于语音信号频谱中，导致消除噪声较为困难。一般要采取非线性处理方法。对于语音干扰，干扰语音和带待传输语音信号在同一个信道内传输所造成的干扰叫语音干扰。区别有用语音和干扰语音的基本方法是利用它们的基音差别。考虑到两种不同语音的基音不同，也不成整数倍，这样可以用梳状滤波器提取基音和各次谐波，再恢复出有用的语音信号。对于传输噪声，即传输系统的电路噪声。它在时间域内是语音和噪声的卷积。处理这种噪声可以采用同态处理的方法，把非加性噪声变换为加性噪声来处理。 1 7 3 哼唱声音信号的处理和分析硕士论文下边主要介绍中心消波法、减谱法。 i ) 中心消波法对于噪声频谱遍布于语音信号频谱之中的宽带噪声，如果噪声振幅比大部分的语音信号振幅低，则削去低幅度成分也就削去了宽带噪声。在该思路指导下我们在频域中采取中心限幅的方法，即让带噪语音信号通过一限幅滤波器，高幅度频谱可以通过而低幅成分不允许通过，从而实现噪声抑制。需要注意的是中心削波不可避免地要损害语音质量，通常只在频域中进行，而一般不在时域中实施。设中心削波器的输入信号为x ( n ) ，中心削波的输出信号为y ( n ) ，则中心削波函数为： f x ( 玎) 一q ， x ( 以) c ， y ( n ) = 0 ，一c f j c ( 月) c ：( 3 1 3 ) i x ( 刀) + q ，x ( 刀) 一c ；其中c 为削波电平，其大小由信号的峰值幅度来确定，一般为一帧信号中最大幅度值的一个固定百分比，一般取最大信号幅度的1 0o 6 0 ，这个门限的选择是重要的，一般在不损失基音信息的情况下应尽可能选得高些，以达到较好的效果。经过中心削波后只保留了超过削波电平的部分，其结果是削去了许多和声道响应有关的波动。中心削波后的语音通过一个自相关器，这样在基音周期位置呈现大而尖的峰值，而其余的次要峰值幅度都很小。如图3 9 所示，a 为输入信号，b 为输出信号。 d x l l 电厂气入膏粤j p o r 、、厂、一 l v vv vv 、，、一。 i v m 肛巾o 出一曩k l - 嘶蛆 v v 图3 9 中心削波 a ) 中心削波函数b ) 中心削波器的输入c ) 中心削波器的输出硕士论文哼唱检索中旋律信息处理方法的研究 2 ) 减谱法减谱法是处理宽带噪声较为传统和有效的方法，其基本思想是在假定加性噪声与短时平稳的语音信号相互独立的条件下，从带噪语音的功率谱中减去噪声功率谱，从而得到较为纯净的语音频谱。如果设j ( r ) 为纯净语音信号，刀0 ) 为噪声信号，y ( t ) 为带噪语音信号，则有：夕o ) = s ( ，) + 胆o ) ( 3 1 4 ) 用】，( 缈) 、s ( 功) 、n ( o ) 分别表示y ( t ) 、s ( t ) 、n ( t ) 的傅立叶变换，则可得下式：】，( 缈) = s ( 缈) + ( 国)( 3 1 5 ) 由于假定语音信号与加性噪声是相互独立的，因此有： i 】，( 功) 1 2 ：爿s ( ) 1 2 + in ( c o ) 1 2( 3 1 6 ) 因此，如果用z ( 国) 、p , ( c o ) 、p ( c o ) 分别表示y ( f ) 、s ( f ) 、刀o ) 的功率谱，则有：只( c o ) = 只( 国) + 只( c o )( 3 1 7 ) 而由于平稳噪声的功率谱在发声前和发声期间可以认为基本没有变化，这样可以通过发声前的所谓“寂静段( 认为在这一段里没有语音只有噪声) 来估计噪声的功率谱只( 训，从而有： p , ( c o ) = 只( 缈) - 只( 缈) ( 3 1 8 ) 这样减出来的功率谱即可认为是较为纯净的语音功率谱，然后，从这个功率谱可以恢复降噪后的语音时域

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）哼唱检索中哼唱信息处理方法的研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）哼唱检索中哼唱信息处理方法的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档