（计算机应用技术专业论文）基于内容的mp3音乐检索研究和实现.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：96 大小：3.99MB 积分：0 举报 版权申诉

已阅读5页，还剩91页未读，继续免费阅读

（计算机应用技术专业论文）基于内容的mp3音乐检索研究和实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要基于内容的音乐检索就是把音乐本身的内涵，如节奏、旋律、和弦、伴奏音型、音色等，作为查询条件，对一个由不同格式的音频媒体( 如m i d i 、m p 3 或其它格式的波形音乐) 所构成的音乐数据库实施查询检索以获取数据库中满足查询条件或包含相同或相似音乐片段的音乐资源。这些表征不同音乐内涵的查询条件可以通过哼唱或借助现有的乐谱输入工具输入到检索系统中以实施检索。本论文对基于内容的m p 3 音乐检索技术进行了研究，并实现了一个灵活的具有多种查询音乐输入方式的m p 3 音乐检索原型系统。目前，大部分基于内容的音乐检索系统所检索的对象都是m i d i 音乐，对 m p 3 音乐检索的研究相对来说比较少，并且查询音乐的输入方式也大都比较单一鉴于不同的用户具备不同的音乐素养及拥有不同的查询音乐资源，本论文提出了在m p 3 音乐检索系统中引入多种查询音乐输入方式包括五线谱输入方式、类简谱输入方式、哼唱输入方式、单音色且单声部的m p 3 音乐文件输入方式和多声部的m p 3 音乐文件输入方式。而由于当前对波形音乐的音高辨识技术的研究还不够成熟，且用户在哼唱输入时对音准和旋律节奏也并非能准确把握，这都使得系统最终获得的查询旋律特征与用户所期望的查询旋律会存在一定的差距，自然影响到检索的准确性。为此，本论文还提出通过多种交互手段使用户可以根据自己的音乐能力来判断和校正系统所获取的音乐旋律特征，以进一步提高检索的准确性和增强系统的可用性。在检索匹配多声部m p 3 音乐数据库的实现技术上，本论文针对单音色、单声部音乐和多声部音乐这两种类型的查询音乐的不同特点分别使用了不同的匹配方法。对于前者，本论文提出了一种包含休止符归并和长音分段的二次规整匹配新算法，并通过原型系统进行了实验模拟分析，证明了该算法的有效性。对于后者，本论文将j e r e m y ( 2 0 0 4 ) 提出的基于和声模型的多声部m i d i 音乐检索多声部m i d i 音乐数据库的技术推广到使用多声部m p 3 音乐片段检索多声部m p 3 音乐数据库，分别构建了h m m 和声模型和m a r k o v 和声模型两种检索模型，实验结果表明这两个模型都具有一定的实用价值。关键词：基于内容的音乐检索：计算机音乐；m p 3 ：旋律匹配 a b s t r a c t c o n t e n t - b a s e dm u s i cr e t r i e v a lu s e st h ec o n t e n to fm u s i ci t s e l fa sq u e r y , s u c h 勰 r h y t h m ，m e l o d y , c h o r d , a c c o m p a n i m e n t ，t i m b r ee t c ，t og e tt h em u s i cr e s o u r c ew h i c h m e e t st h eq u e r yc o n d i t i o no rc o n t a i n ss a m eo rs i m i l a rm u s i cc l i pi nam u s i cd a t a b a s e t h ea u d i om e d i ai nt h em u s i cd a t a b a s em a yb eo fd i f f e r e n tf o r m a t s ，s u c ha sm i d i ， m p 3a n do t h e rw a v ea u d i o t h e s eq u e r i e sc a nb ei n p u t t e di n t ot h er e t r i e v a ls y s t e m u s i n gh u m m i n go re x i s t i n g s c o r ei n p u tt o o l s t h i sd i s s e r t a t i o nr e s e a r c h e ss o m e t e c h n o l o g yo fc o n t e n t - b a s e dm u s i cr e t r i e v a la n di m p l e m e n t saf l e x i b l ep r o t o t y p e s y s t e mt h a th a sav a r i e t yo fq u e r yi n p u tm e t h o d s a tp r e s e n t , m o s tw o r ki nm u s i cr e t r i e v a lh a sm a i n l yf o c u s e do nt h em i d it y p e r e t r i e v a l ，a n dl i t t l ea t t e n t i o n sa r ep u to nt h em p 3t y p e a l s o ，m o s to ft h e s es y s t e m s p r o v i d eo n l yo n eq u e r yi n p u tm e t h o dt ot h eu s e r s i nv i e wo fd i f f e r e n tu s e r sm a y b e w i t hd i f f e r e n tm u s i cl i t e r a c ya n dh a v ed i f f e r e n tm u s i cr e s o u r 懈，t h et e c h n o l o g yo f m u t i p l ei n p u tm o d e si no n em u s i cr e t r i e v a ls y s t e mi sp r o p o s e di nt h i s d i s s e r t a t i o n o u rs y s t e mp r o v i d es t a v ei n p u tm o d e ，a p p r o x i m a t en u m b e r e dm u s i c a ln o t a t i o ni n p u t m o d e ，h u m m i n gi n p u tm o d e ，m o n o p h o n i cm p 3f i l ei n p u tm o d ea n dp o l y p h o n i cm p 3 o ro t h e rw a v ef i l ei n p u tm o d e c u r r e n t l yt h et e c h n o l o g yr e s e a r c h i n go nt h ep i t c h r e c o g n i t i o no ft h ew a v em u s i ci sn o te n o u g hm a t u r e ，a n dt h er h y t h ma n dm e l o d yo f t h eu s e r sh u m m i n gq u e r yi sn o ta b l et oc o m p l e t e l ya c c u r a t e t h e s ef a c t o r sa l lm a k e s t h ef i n a lm e l o d yc h a r a c t e r i s t i c se x t r a c t e df r o mt h eq u e r yw i l lb ed i f f e r e n tf r o mt h e e x p e c t a t i o n so fu s e r o fc o u r s e ，t h i sw i l la f f e c tt h ea c c u r a c yo fr e t r i e v a l t h e r e f o r e ， o u rs y s t e ma l s oa l l o w su s e rt oj u d g ea n dc o r r e c tt h em e l o d yc h a r a c t e r i s t i ce x t r a c t e d b yt h es y s t e ma c c o r d i n gt o l e i ro w nm u s i ca b i l i t yt h r o u g hav a r i e t yo fi n t e r a c t i v e t o o l s ，w h i c hn o to n l ye n h a n c et h ea c c u r a c yo fr e t r i e v a l ，b u ta l s oi m p r o v et h e i nt h em e l o d ym a t c hm o d u l e ，w eu s ed i f f e r e n tm e l o d yf e a t u r em a t c h i n gm e t h o d f o rm o n o p h o n i cm u s i ca n dp o l y p h o n i cm u s i ca c c o r d i n gt ot h e i rd i f f e r e n t c h a r a c t e r i s t i c s f o rt h ef o r m e r , t h i sd i s s e r t a t i o np r e s e n t san e ws e c o n d a r yw a r p m a t c h i n ga l g o r i t h m , w h i c hi n c l u d e st h er e s tm e r g i n ga n dl o n gv o w e l ss e g m e n t a t i o n a n dw e p r o v e de f f e c t i v e n e s so ft h ep r o p o s e da l g o r i t h mt h r o u g ha n a l y z i n gt h er e s u l t o fe x p e r i m e n t f o rt h el a t t e r , w ei n t r o d u c et h eh a r m o n ym o d e lp r o p o s e db yj e r e m y ( 2 0 0 4 ) t oo u rs y s t e m ，w h i c hw a sa p p l i e dt or e t r i e v a lh a r m o n i cm i d im u s i cd a t a b a s e u s i n gh a r m o n i cm i d iq u e r y w eu s et h i st e c h n o l o g yt or e t r i e v a lm p 3m u s i cd a t a b a s e b yh a r m o n i cm p 3m u s i cf i l e s ，a n dp r o p o s et w or e t r i e v a lm o d e l sc a l l e dh a r m o n y m o d e lb a s e do nh m ma n dh a r m o n ym o d e lb a s e d0 1 1m a r k o vm o d e lr e s p e c t i v e l y t h e e x p e r i m e n t a lr e s u l t si n d i c a t et h a tt h et w om o d e l sa l lh a v ec e r t a i np r a c t i c a lv a l u e k e yw o r d s ：c o n t e n t b a s e dm u s i cr e t r i e v a l ；c o m p u t e rm u s i c ；m p 3 ；m e l o d ym a t c h 厦门大学学位论文原创性声明兹呈交的学位论文，是本人在导师指导下独立完成的研究成果。本人在论文写作中参考的其他个人或集体的研究成果，均在文中以明确方式标明。本人依法享有和承担由此论文产生的权利和责任。声明人( 签名) ：亥磊矿了年多月3 日厦门大学学位论文著作权使用声明本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大学有权保留并向国家主管部门或其指定机构送交论文的纸质版和电子版，有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅，有权将学位论文的内容编入有关数据库进行检索，有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适用本规定。本学位论文属于 l 、保密() ，在年解密后适用本授权书。 2 、不保密( 4 ) ( 请在以上相应括号内打“) 作者签名：氛磊导师签名：2 他骂日期：0 矿年乡月3e t 日期：矿竹彤旧第一章绪论 i , i 研究目的及意义第一章绪论基于内容的音乐检索技术【l ，2 1 ( c o n t e n t b a s e dm u s i cr e t r i e v a l ) 是研究如何利用音乐信号的幅度、频率等物理特征，响度、音高、音色等听觉特征，节奏、旋律、调式、情绪等语义特征来实现音乐信息检索的- - i 3 新兴技术和学科。数字科技的发展与多媒体网站的需求，促进了音乐的数字化进程。目前互联网上已有的音乐数量非常巨大，而m p 3 以高压缩比和低失真率，成为最受欢迎的数字音乐压缩格式之一，被广泛应用并在网络上大量传播。人们利用各大搜索网站提供的搜索引擎，寻找所需要的m f 3 音乐。但在搜索的时候往往要求输入音乐名、歌手信息、歌词等文本信息至少其中之一才可以进行下一步的检索，这就要求人们只有记住了这些相关的信息才能进行有效的检索，否则再强大的搜索引擎也无法提供有效的帮助。此外，通过人力对大量的音乐进行标注，同样是一项费时费力的工作，不仅成本高，而且由于规模如此之大使得将所有的音乐都进行人工标注实际上几乎是不可能的。显然，这种传统的检索方式并不够自然，其本质上也与人们感受音乐的生理和心理特征相违背。更重要的是，人们对音乐最敏感的永远是旋律，而使用文本信息很难很好地表达音乐的旋律、音色和节奏等特征人们即使忘记了一首歌曲的歌名，却依然能够轻松地哼唱出它的主旋律，就是一个很好的证明。如果通过某种技术可以直接查找音乐文件本身的内容，将会大大提高检索的有效性和准确性。因此，研究一种方便、自然、人性化的m p 3 音乐检索方法，使人们能从庞大的m f 3 世界中找到自己所需要的音乐，无论是对于人们查找自己所需的音乐，还是推动今后检索技术的发展，都是一件很重要又很有应用价值的工作，而这一方面的研究也正渐渐成为下一代搜索引擎所关注的技术热点之一但在目前众多的研究中，人们几乎都把研究的重点放在了格式规范的m i d i 上。一方面由于m i d i 直接用事件序列来描述旋律，能够比较容易地转换成匹配算法所要求的音符序列；另一方面，波形音乐客观上的复杂性使其在特征选择和特征提取方面存在着相当大的难度，相应的匹配算法也随之变得复杂。尽管也有不少人注意或者针对m p 3 这种当前最为流行的音乐压缩格式进行检索方面的研 l 基于内容的m p 3 音乐检索研究和实现究，但进展仍然比较缓慢，其中的一个重要的原因是解码后的m p 3 往往是由多声部音乐混合而成的波形声音信号，而人们短时问内还难以在这种复杂的波形信号上清楚地找到其物理及声学特征与背后复杂的音乐现象及演奏演唱等技术手段间的对应关系和内在联系。本论文旨在通过对基于内容的m p 3 音乐检索的研究，尝试使用一些具有创新性的技术来实现一个基于内容的m p 3 检索系统原型，努力满足当前人们简单化、自然化的检索需求。 1 2 相关的工作目前，基于内容的音频数据检索已经成为一个研究热点，国内外的研究人员都在积极地对其展开研究和尝试，本论文将把这些相关的工作分为针对音乐数据的检索和针对一般音频数据的检索两大类分别加以介绍。 1 2 1 针对音乐类数据的检索 ( 1 ) 基于局部相似性的匹配检索。这类音乐检索的特点是允许用户提供希望查找的音乐的某一片段，系统通过对这一片段的处理，提取相应特征，在音乐数据库中自动寻找到包含该音乐片段的完整文件或与之内容相似的作品【3 1 。这意味着此时的查询音乐和被查询数据库中的音乐的格式应该是相同的。比如用某个m i d i 音乐的局部片段查找数据库中的整首m i d i 音乐，或使用m p 3 音乐片段查找数据库中包含该片段的整首m p 3 音乐。m o ( 1 9 9 9 ) 等人提出一种针对m i d i 格式的音乐文件检索方法【4 1 ，并给出了一种基于主旋律的音乐文件之间相似度的计算方法。他们认为音乐的基本曲调 ( 主旋律) 可以看成是一系列具有一定的音高和音长的音符集合，可以将经过分解和规范化后的两段音乐的对应乐句作为基本的比对单元，通过计算对应乐句中对应音符的相对音高的相似性和两音符之间关系的相似性来得到对应乐旬的相似性值，从而最终得到两个m i d i 音乐文件之间的相似性值。对于如何定义m i d i 音乐中的一个乐句，y a n a s e ( 1 9 9 9 ) 等人提出了一种很独特的特征向量法i 习。传统的特征向量法一般是基于整首音乐提取特征，而他们的方法则是基于乐句来提取特征，需要先将一首完整的音乐分割成若干个乐句。这个方法检测各个连续音符之间的间隔时间，如果这个间隔时间超过了一个固定的阈值，就在此处放置一个休止符。然后使用一些启发性的规则合并掉一些休止符，最终每两个相邻休止 2 第一章绪论符之间的部分就可以被看作是一个完整的乐句。用户检索时先用m i d i 乐器演奏待检索音乐的一个片段作为关键字，然后使用这个关键字到数据库中查询。因为人们习惯上会演奏一个或几个连续的完整乐句，而该文提取特征的方法又是基于乐句的，所以理论上会比那些从整首音乐中提取特征的方法的精度高一些。p y e ( 2 0 0 0 ) 研究了如何对m p 3 格式的音乐文件做基于内容的分类和检索【6 】。他从语音处理领域借鉴了两种方法并将其应用到基于内容的音乐分类检索中。经实验比较，他发现高斯混合模型法( g m m ) 的效果比较好，而基于树的向量量化法 ( t r o e - b a s e dv e c t o rq u a n t i z a t i o n ) 的速度比较快此外，他还比较了两种从m p 3 文件中提取特征的方法，发现m f c c 法对噪声干扰的稳定性比较好，但是由于要求全部解压缩，因而速度比较慢；m f c c s 法只对m p 3 文件进行部分解压就可以了，因而速度比m f c c 法快很多，但其效果不如m f c c 法。p y e 的研究重点主要放在了m p 3 音乐数据库的风格分类和管理我们同样可以看到t a o 和m o g i l 埘铽2 0 0 6 ) 在这方面所做的类似努力【7 1 t s a i ( 2 0 0 4 ) 等人则实现了一个歌手检索系统【8 】，用户通过提供感兴趣的歌手的演唱片段，可以从数据库中找出属于该歌手或与该歌手嗓音相似的音乐 ( 2 ) 音乐哼唱检索。哼唱检索是一种很人性化的音乐检索方式，它将用户哼唱的一段旋律作为查询从数据库中找出与之旋律相同或相似的原曲。哼唱检索方式被广泛应用于基于内容的音乐检索，但从具体实现上看还存在着不少问题和困难。首先，由于用户可能并无专业的音乐背景，其所哼唱的旋律往往会与希望被检索到的音乐旋律相差很大。比如，用户哼唱旋律的相对音高( 旋律中前后两个相邻音符的绝对音高的音程距离) 序列往往不准，与期望旋律的相对音高序列存在不少差距；而哼唱旋律中音符序列的相对时值，用户也往往难以把握。如果用户哼唱的查询旋律本身就不够准确，那显然就很难正确地从数据库中检索到用户所期望的音乐。其次，当前对人声哼唱波形信号的基频( 音高) 提取技术的研究还不够成熟，其基频提取的准确率不如其它类型的单音色( 如钢琴音色) 波形信号。第三，被检索的音乐作品往往是由多音色( 包含了歌手演唱的人声和不同乐器演奏的乐声) 、多声部同时录制而成，而通过哼唱所输入的查询旋律通常只能是清唱，即单音色、单声部的波形音乐目前在涉及哼唱检索研究的系统中，被检索的音乐作品大都是 3 基于内容的m p 3 青乐检索研究和实现基于m i d i 格式。第一个基于哼唱的音乐检索系统l 妇g h i a s ( 1 9 9 5 ) 等人提 9 1 ，在此之后又出现了m e l d e x ( 1 9 9 6 ) b o l 、t h e m e f i n d e r ( 2 0 0 0 ) i ts 】等研究项目。在国内，也有不少学者涉及这方面的研究，如上海交通大学的李扬( 2 0 0 3 ) 等人使用近似旋律线性对齐匹配法【1 2 】来实现一个哼唱检索系统的原型。与其它基于近似符号串匹配、统计模型或者特征空间的方法不同，该算法依据的是相近旋律的音高轮廓在几何上的相似性，同时考虑了音乐的音高特征和节奏特征。浙江大学的冯雅中( 2 0 0 4 ) 等人提出一种启发式的用哼唱检索音乐的层次化方法【1 3 】以减小检索的复杂度。y a n g ( 1 9 9 9 ) 等人将数据库中的韩国民谣根据它们的节奏模式人工地分为五大类【1 4 】，每首音乐都由基于曲调的符号串表示。用户检索时首先需要哼唱一段旋律，然后使用一个b p 神经网络将这段旋律作为检索关键字在数据库中寻找与之相似的音乐。值得注意的是，哼唱旋律是被保存为w a v 格式( 8 b i t 、 1 6 k h z 、混合单声道) ，并直接对其进行处理。台湾工业技术研究院的蔡易行 ( 2 0 0 2 ) 1 1 5 3 等人建立了一个基于哼唱的m p 3 音乐检索系统。他们根据m p 3 的编解码原理对数据库中的m p 3 音乐进行了音高提取，再使用完全搜寻( f u l ls e a r c h ) 方法计算出用户的哼唱输入查询与数据库中的m p 3 音乐的欧基里德距离，以此来比对两者的相似程度，达到检索的目的。 ( 3 ) 基于情感的音乐检索。有时候我们并不关心一首音乐是谁唱的，也不在乎它的具体旋律，仅仅希望能够找到符合当时心情的音乐就可以了，这就是所谓的基于情感的音乐检索。有关基于情感的音乐检索的研究工作并不多见。f e n g ( 2 0 0 3 ) 等人通过检测音乐的演奏速度和清晰度来分析音乐中所蕴含的情感【1 6 l 。他们首先通过m u l t i p l ea g e n t 方法检测出音乐演奏的速度，并将其转换为相对速度，在清晰度计算的基础上求出所谓平均寂静率的均值和标准差，最后通过一个b p 神经网络将音乐分为快乐、悲伤、愤怒和恐惧四类。用户可以在一个三维可视化的特征空间中检索感兴趣的音乐。 1 2 2 针对一般音频数据的检索针对一般音频数据对象进行自动检索的研究工作比较少。z h a n g 和j a y k u o ( 1 9 9 9 ) 提出了一种分级的多类音频分类与检索方法【1 7 1 。他们的方法分为三个阶段：首先通过对音频信号的短时特征曲线作统计和形态分析将音频信号进行粗分 4 第一章绪论类( 语音、音乐、环境声音和静音) ：然后对环境声音进一步提取时频特征，并利用h m m 将其细分为诸如掌声、雨声、鸟叫声等等；最后允许用户提供样本音频片段，数据库中与其相似的音频片段将被检索出来。s m i t h ( 1 9 9 8 ) 等人利用主动搜索和模板匹配的方法，从广播信号中寻找感兴趣的声音信号【1 8 1 ，而为了提高速度，他们只使用了过零率( z e r oc r o s s i n g ) 等一些比较简单的特征。 1 3 关键技术 ( 1 ) 旋律特征的提取，指输入的音频信号在经过基本的信号处理后，如何从中量化和提取描述旋律特征的参数值，如音高、节奏等。事实上，仅仅基频提取就是一个很大的研究领域，相关的文献不胜枚举，但至今仍然没有十全十美的解决方法 ( 2 ) 音乐旋律的表征方式，就是提取得到的特征值以怎样的数据结构进行存储。近代主流的音乐表示方式是五线谱或简谱但由于这些表示方式过于繁琐，对于音乐检索系统并不合适，因此现有的大多数音乐检索系统都采用字符串表示旋律。g h i a s l 9 等人最初所采用的方式非常简单，此后的研究大多以此为原型，引申出很多不同形式，如用更多的值表示音高变化、加入音符的时值信息等。在表示音乐旋律时，应当在有效和简洁之间采取一个折衷。 ( 3 ) 音乐旋律匹配算法，即如何评价和计算旋律之间的相似性。基于内容的音乐旋律匹配的特点之一就是匹配过程不是精准匹配，而是相似匹配。现有的一些基于内容的音乐检索系统多采用：近似字符串匹配算法，如n g r a m 法( 1 9 9 9 ) 【19 2 0 、d p 算法( 2 0 0 3 ) 【2 1 】：基于统计模型的算法，如m a r k o v 模型( 2 0 0 1 ) 瞄】：基于特征空间的算法，如k - n e a r e s tn e i g h b o rs e a r c h 算法( 1 9 9 9 ) 2 3 】；动态时间规整( d y n a m i ct i m ew a r p i n g ) 检索算法( 2 0 0 0 ) 2 4 】；线性对齐匹配法( 2 0 0 3 ) 【1 2 】：模糊d p 匹配法( 2 0 0 6 ) 【2 5 】等等。目前这些方法都存在各自的优点和缺陷。 ( 4 ) 鲁棒性任何算法在实现从音频信号提取旋律信息的过程中，都有可能出现错误。而由于人们回忆所要查询的音乐时的不准确性和用户自身的非专业性，输入本身也一定会存在或多或少的错误。这两方面错误是影响系统性能的重要因素。因此非常有必要系统地分析这些错误的具体类型及可能导致的影响，在此基础上采用有效的模型策略降低系统对这些错误的敏感度，增强系统的鲁棒 s 基于内容的m p 3 裔乐检索研究和实现性，同时保证不同的旋律在主观感觉上能够做到较好的区分。 ( 5 ) 检索速度。一般来说，音乐检索系统的时间效率与数据库的规模和算法的复杂度成反比。与文本、图像等其它类型的文件相比，声音流的一个独特特征就是线性特征，音乐检索的匹配也并非完整模式匹配，而是子模式匹配。也就是说，用户的输入往往是一首音乐的某一片段，而非完整的一首音乐。所以绝大多数的实现都采用了非线性移动搜索算法，如基于多维空间特征点映射的非线性移动搜索算法【2 1 1 ，以求降低检索的时问复杂度。通过使用索引、硬件模块等技术也可在一定程度上提高检索速度。 1 4 本论文研究的主要内容和创新点 1 4 1 问题的提出基于内容的音乐检索技术经过不断的发展，已经产生了很多的研究成果，但也仍然存在着一些不足之处和有待完善的地方，本论文认为至少还存在如下几个问题有待解决： ( 1 ) 如何研制一个既方便、灵活，又准确的查询音乐输入系统。这里的方便、灵活指的是查询音乐的输入方式对用户来说应该是友好、简单、可用的。用户由于其音乐背景和音乐素养的差异，在输入查询音乐时有可能遇到各种不同类型的困难，而用户输入查询音乐的能力往往会影响到系统的检索质量。例如，没有经过专业音乐训练的用户难以通过自己的哼唱非常准确地将期望的查询音乐输入系统；不识五线谱和没有简谱书写能力的用户无法将期望的查询音乐以乐谱形式输入系统；而使用m i d i 键盘输入查询音乐也有可能遇到音符时值量化不够精准等问题。如果实际输入的查询音乐与用户期望的查询音乐相距甚远，系统自然无法准确地在数据库中检索到用户所期望的完整音乐。遗憾的是，现有的基于内容的音乐检索系统往往只提供单一的查询输入方式。显然，研制一个既方便、灵活又准确的查询音乐输入系统是改善系统的检索质量和增强系统实用性的关键，这将是本论文需要考虑的第一个问题。 ( 2 ) 在涉及将m p 3 作为被检索对象的音乐检索的研究中，一种典型的做法就像c h i h c h i nl i u ( 2 0 0 1 ) 2 6 】的工作，把作为查询音乐的哼唱人声也录制成m p 3 格式( 这里暂且称之为哼唱m p 3 ) ，使用m p 3 的某个特征序列( 如m f d ，即m p 3 6 第一章绪论 f e a t u r ed i s c r i m i n a t o r ) ，以全搜索方式计算哼唱脚3 和被查询m p 3 的这种特征序列的相似性来得到数据库中包含该哼唱旋律的m p 3 音乐。这种方法的问题在于用户可能会使用不同的调哼唱同一旋律，而同一旋律的哼唱脚3 在不同调下自然具有不同的特征序列。如果数据库中某个包含哼唱旋律的m p 3 音乐和哼唱3 的调性不同，那它仍然无法被检索到。上文提到的蔡易行( 2 0 0 2 ) 等人【1 5 】通过构造前后相邻音符的音高特征距离( 即音程，或称为相对音高特征) 序列使得他们的系统可以解决旋律相同但调性不同的检索问题。然而，该系统在每个音高频率计算的时间单元上，只从能量密度最高的一个频带中抽取m p 3 音乐的音高特征。问题在于数据库中的m p 3 通常都是多声部音乐，而从能量密度最高的频带中抽取的音高未必与查询旋律中某个音的音高相匹配，它也可能是别的声部( 如伴奏声部) 所发出的音。这就要求必须设计一种算法，使之能从多种可能的音高频率中寻找到一个能与查询旋律中的某个音的音高、时值和上下文都相匹配的音高频率。目前这方面的工作有两种比较具有代表性的研究方向。其一是尝试将多声部音乐中以某种特定音色形式出现的主旋律部分( 如演唱者的人声) 与背景伴奏音乐分隔开来，以便将得到的主旋律和单声部的查询音乐直接作相似性比较。朝这一方向努力的典型代表如台湾清华大学的许嘉欣和张智星( 2 0 0 2 ) 【2 7 1 、w e i h ot s a i ( 2 0 0 6 ) 等人【冽及y i p gl i ( 2 0 0 7 ) 等人【2 9 】所做的研究工作。另一种研究方向是不去考虑如何分开多声部音乐中各声部的旋律，而统一考虑所有声部混在一起的多声部波形音乐的调性、和声结构、和弦序进等特征。a r u as h e n 0 ) ，( 2 0 0 5 ) 等人【3 0 】和c h i n g o h u a c h u a n ( 2 0 0 7 ) 等人【3 1 】的研究工作采用的就是这一方法。总而言之，如何从众多候选音高频率中选取能够与查询音乐正确匹配的音高频率是本论文需要考虑的另一个重要问题。 ( 3 ) 查询音乐的类型不应只局限于单声部音乐，用户拥有的可能是已经录制好的多声部m p 3 音乐片段或w a y 格式的音乐文件，系统也应使这些用户能够使用已有的多声部音乐文件检索数据库中具有类似音乐结构( 如和声结构) 的m p 3 音乐，从而使系统更具可用性和实用性。这也是本论文需要考虑的问题之一 1 4 2 研究内容针对上面提出的三个问题本论文给出了如下的研究方案： ( 1 ) 由于不同用户可能具备不同的音乐背景以及拥有不同的音乐资源，这 7 基于内容的m p 3 音乐检索研究和实现使得他们熟悉或擅长的音乐查询方式可能各不相同，而查询方式的正确选择在很大程度上影响到检索的准确性。本论文设计并实现了五种不同的查询音乐输入方式，最大程度地满足不同用户的检索需求，分别是：五线谱输入方式。将现有的作曲大师五线谱专业版集成在本系统中，作为查询音乐的一种输入方式( 目前系统仅接受单声部的查询乐谱) ；类简谱输入方式。本论文在传统简谱的基础上定义了一种简易的乐谱表示法以方便用户以文本形式直接输入查询音乐：哼唱输入方式。将现有的( c o o le d i tp r o2 1 系统集成在本系统中，作为哼唱查询的输入途径；单音色、单声部的m p 3 音乐文件输入方式。可以使用现有的单音色、单声部m p 3 音乐片段来检索数据库中包含与该片段相同或相似旋律的完整m p 3 音乐；多声部的m p 3 音乐片段输入方式。将现有的多声部m p 3 音乐片段作为查询音乐以检索数据库中包含该片段或具有类似和声结构的完整m p 3 音乐。 ( 2 ) 以m p 3 音乐数据库作为检索对象。通过对m p 3 文件解码后得到的原始 p c m 音频信号进行小波低通滤波和快速傅立叶变换( f f r ) 处理，得到相应的频域信息和音符信息，并根据处理对象类型的不同( 人声哼唱、单声部音乐或是多声部音乐) ，采用不同的技术进行音符音高名识别、区域划分合并和时值确定，以得到检索所需的旋律特征。 ( 3 ) 针对前四种查询方式( 五线谱输入查询、直接类简谱输入查询、哼唱和单音色、单声部的音乐文件输入查询) ，本论文提出了一种包含休止符归并和长音分段的二次规整匹配新算法，并在此基础上实现了这几类的输入查询对多声部m p 3 音乐数据库的检索。 ( 4 ) 针对最后一种查询方式( 多声部m p 3 音乐片段的输入查询) ，本论文使用了旋律的近似和声特征表示法。先将m p 3 音乐近似转换成多声部音乐的符号表达，然后使用j e r e m y ( 2 0 0 4 ) 提出的基于和声模型的符号多声部音乐检索技术 3 2 1 来实现此类输入对m p 3 音乐数据库的检索，并尝试将和声、和弦等乐理知识引入到音乐检索的研究中，尝试借此提高检索质量。 8 第一章绪论 1 4 3 主要创新点和特色基于对当前相关研究的分析并比较了本论文的研究内容和实验结果，作者认为本论文的创新点和特色主要包括以下几个方面： ( 1 ) 提出并实现了一种灵活的多类型查询音乐输入界面以方便具有不同音乐背景和拥有不同音乐资源的用户使用不同的方式输入查询音乐( 现有的基于内容的音乐检索系统大多局限于提供单一的查询音乐输入方式) 。系统可将各种类型的单音色、单声部输入查询音乐统一转换成符号化的类简谱形式( 详见本论文 3 1 和3 2 节) ，并提供一系列的交互方式使用户可以根据自己的音乐能力对类简谱表达的查询音乐旋律特征实施校正( 详见本论文5 2 3 、5 3 2 和5 3 3 节) 。使最终输入系统的查询音乐能与用户所期望的查询尽可能地接近； ( 2 ) 提出一种包含休止符归并和长音分段的二次规整匹配新算法( 详见本论文3 3 节) 。并将其用于单音色、单声部的波形音乐分析模型和多声部波形音乐的区域并发旋律音符分析模型( 不同于现有的检索多声部波形音乐的两种典型方法，即将人声主旋律和背景伴奏音乐相分离【2 纯8 】和直接对多声部波形音乐进行和声及调性分析2 9 , s 0 3 ) l ( 3 ) 将j c r c m y 提出的基于和声模型的符号多声部音乐检索技术推广到使用多声部m p 3 音乐检索数据库中具有相同或相似音乐结构的m p 3 音乐文件( 详见本论文第四章) 。 1 5 论文的结构本论文共分六章。第一章是绪论，介绍了本课题的研究目的及意义、国内外的相关工作、所使用的关键技术和本论文的主要创新点及特色。第二章是对m p 3 格式和音乐旋律特征提取技术的研究。首先介绍了m p e g 标准、m p 3 的帧格式和编解码算法，接着详细描述了本论文如何对解码后的原始波形音频进行基频提取、音符识别和时值确定，分别构造单声部和多声部音乐的旋律特征。第三章介绍了如何使用二次规整匹配算法实现单声部波形音乐对多声部m p 3 音乐数据库的检索。第四章介绍了如何使用两种和声模型来实现多声部音乐查询检索多声部 m p 3 数据库第五章描述了音乐检索原型系统的设计和实现，通过实验检验了文中算法和模型的有效性和可行性，并对实验结果进行了详细的分析和评估，同 9 基于内容的m p 3 音乐检索研究和实现时提出需要进一步改进和深入研究的方面。第六章对全文做出总结，并对未来的工作提出建议和展望。 i 0 第二章m p 3 音乐格式分析和旋律特征抽取第二章m p 3 音乐格式分析和旋律特征抽取本论文所研究的基于内容的音乐检索系统将涉及两种类型的m p 3 音乐。其一是单音色、单声部的m p 3 音乐。它可以通过用户哼唱并以m e 3 格式或w a y 格式录制而成，也可以是用户手里已有的或通过其它途径录制的单音色、单声部的m p 3 查询音乐。其二是多声部的m p 3 音乐。它可以是被查询数据库中的整首 m p 3 音乐，也可以是其中的某一多声部m p 3 音乐片段。无论是哪种类型的m p 3 音乐，本论文所采取的策略都是先将其解压成原始数字音频信号流p c m ，而后再作进一步的分析处理。为此，本论文将首先介绍m p 3 音乐格式及其编解码算法，然后在第二节详细描述如何从包含单声部和多声部音乐的p c m 数字音频信号中分别提取相应的旋律特征。 2 1m p 3 的音乐格式分析及编解码算法 2 1 1m p e g 概述 m p e g ( m o v i n gp i c t u r ee x p e r t sg r o u p ) 是动态图像专家组织的英文缩写，是一个致力于数字视频、音频技术发展及标准化的杰出组织。该组织于1 9 9 2 年正式推出了具有1 5 m b i t s 数据传输率的数字存储媒体运动图像及其伴音的 m p e g 1 的标准草案，并于1 9 9 3 年正式通过。该标准规定了数字音视频编码的国际标准，主要包括系统、视频和音频三个方面。视频压缩仅仅包含画面信息，音频压缩包含声音信息系统实现音频和视频的同步。所有播放音频压缩数据所需的时钟信息都包含在系统流中，其中音频编码可以独立使用【3 3 】。m p e g 1 音频编码标准可以把c d 音质的两个通道共同包含的1 4 m b i t s 数据流压缩到 1 2 8 l 伯i t s ，且仍保持高保真的声音，很快得到了国际认可 m p e g 1 和m p e g - 2 音频编码都提供了三个压缩层。l a y e rl 是简单压缩，它是一种听觉心理声学模型下的亚抽样编码；l a y e r2 加入了更高的精度：l a y e r 3 就是现在流行的m p 3 音乐格式，加入了非线性量化、哈夫曼编码和其它实现低速率高保真音质的先进技术，可以把一个1 4 m b i t s 的立体声双声道数据流压缩为3 2 k b i t s 3 8 4 k b i t s ，且保持高保真的音质【3 4 , 3 5 2 1 2m p 3 编码原理基于内容的m p 3 音乐检索研究和实现 m p 3 编码主要由七部分组成，其基本原理是将声音信号由时间域转换成频率域，且仅保留人耳听觉范围2 0 2 0 k h z 的声音信号，因此也可以将这种编码方法称为听觉心理的演算法( p s y c h o a c o u s t i ca l g o r i t h m ) 1 3 6 。编码过程如图2 - 1 所示。 _ 1 耋矍薯h 如凹hf _ lh u 纰f f i m n a n l _ 码 i 一一4i lii 硼”流 t 非线性量化和格比特率控制式 - - - - l 肿u 然 _ jl 边信息化图2 1 - m p 3 编码过程 ( 1 ) 多相滤波器组。使用m p e g a u d i o 的演算法提供时间域与频率域的对应转换，将每帧的p c m 样值分解到3 2 个等宽的子带内，每个子带内包含3 6 个样值。 ( 2 ) m d c t 。将每个多相滤波器组输出的每个子带的3 6 个信号转换到频域，并增强每个子带的频谱分辨率。同时定义了四种窗函数类型，分别为长窗( 1 0 n g w i n d o w ) 、短窗( s h o r tw i n d o w ) 、开始窗( s t a r tw i n d o w ) 和结束窗( e n dw i n d o w ) 。 ( 3 ) 心理声学模型。以听觉心理学的原理为依据，用来模拟人的听觉特性，决定当前声音中的哪些特性是和听觉相关的，哪些特性是和听觉无关的，针对多相滤波器组的每个子带进行声音信号的掩蔽。在m p e g 1 音频标准中定义了两种可以在m p 3 编码器中使用的心理声学模型，这两种模型都先将信号经过傅立叶频谱转换，再映射到临界频带( c r i t i c a lb a n d s ) ，并根据频谱的分析结果进行窗函数的选择。 ( 4 ) 非线性量化和比特率控制。采用非线性量化方法，根据声学模型提供的信掩比，动态分配比特，以满足码流速率和量化噪音要在临界频带中听不到的要求。 ( 5 ) h u f f i n a n 编码。由于h u f f m a n 编码是一种无损压缩算法，因此在解码端可以完全恢复量化后的频率线。 ( 6 ) 边信息。传递编码过程中用到的所有相关参数，如h u f r m a n 编码表的 1 2 第二章m p 3 音乐格式分析和旋律特征抽取选择、量化因子和m d c t 中应用的窗函数类型等。 ( 7 ) 码流格式化将h u f f m a n 编码后的频率线、量化参数、边信息、帧头信息、辅助信息等封装成一定格式的帧，根据需要还可以加入c r c 校验。 2 1 3m p 3 帧格式帧是m p 3 文件最小组成单位，由帧头信息、c r c 校验字、边信息

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于内容的mp3音乐检索研究和实现.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于内容的mp3音乐检索研究和实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档