




已阅读5页,还剩64页未读, 继续免费阅读
(信号与信息处理专业论文)基于音乐旋律的特征聚类算法研究及其应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 在基于旋律的检索机制中,主要研究的内容是旋律的特征提取、特征表示以及 特征匹配引擎,在目前的研究中,旋律匹配高速化算法以及旋律模型的鲁棒性建模 方面已取得了一定的成绩。本文的研究是围绕基于内容的音乐检索技术进行展开的, 旨在实现较高检索精度的基础上,提高检索的效率。 本文的主要工作涉及了语音信号处理、m i d i 主旋律提取、模式识别、数据挖掘 等领域的相关技术。研究的主要内容包括m i d i 格式音乐的主旋律提取、哼唱波形文 件的特征提取、特征数据库聚类以及旋律匹配问题等。围绕上述研究内容开展了以 下研究工作: 1 搜集m i d i 格式乐曲并分析其格式信息,对多音轨m i d i 乐曲进行主旋律提取, 将提取的旋律特征数据存储为特征数据库,该方法为乐曲库的聚类分析和检 索匹配提供了数据支持。 2 针对哼唱旋律特征提取的方法,就时域分析法和频域分析法做了补充实验, 并将基于m a t l a b 环境下提取的特征数据调用到v s 环境下,该做法改善了原 系统的操作性能,为后续研究提供了实用性较强的实验环境。 3 在数据挖掘技术中,聚类方法常用于对海量数据的分析研究中。为使本文匹 配检索效率提高,本文根据对音频聚类算法的研究分析以及对两级匹配算法 的认识,提出了在乐曲匹配检索之前将数据库进行自动分组的单侧连续匹配 聚类算法,实验证明该方法可以在提高检索效率的基础上,保证检索的准确 度。 4 最后,结合特征聚类算法和线性对其匹配算法,设计实现了一个基于旋律的 音乐检索测试系统,并通过不同测试,对实验数据进行分析和评价,验证了 本文聚类算法的性能优势以及检索的准确性。 本文围绕m i d i 主旋律提取、旋律特征数据的聚类、旋律的检索匹配以及哼唱 检索系统的搭建等四个主要问题进行研究,重点研究了对旋律信息的特征聚类和旋 律的匹配算法;提出了具有较强容差性的基于单侧连续匹配的聚类算法,实现了候 选歌集的优化;测试实验表明该方法明显降低了检索匹配所需的实际时间,为大规 模乐曲数据库的哼唱检索提供了有参考价值的数据支持,并为基于内容的多媒体检 广东工业大学硕士学位论文 索提供了新的实现途径。 关键词:哼唱检索;特征提取;特征聚类;单侧连续匹配;l a m i l a b s l a c t a b s t r a c t i nt h er e t r i e v a lm e c h a n i s mb a s e do nm e l o d y , t h em a i nr e s e a r c hc o n t e n t sa r em e l o d y f e a t u r ee x t r a c t i o n , f e a t u r e e x p r e s s a n df e a t u r em a t c h i n g e n g i n e ,i n t h e p r e s e n t s t u d y , m e l o d ym a t c h i n ga l g o r i t h ma n dm e l o d ym o d e lh i g hr o b u s t n e s sm o d e l i n g h a dm a d e s o m ep r o g r e s s ,t h i sp a p e ri sb a s e do nt h ec o n t e n to f m u s i cr e t r i e v a lt e c h n o l o g y , a i m st o i m p r o v er e t r i e v a le f f i c i e n c yo nt h eb a s i so fr e t r i e v a la c c u r a c y t h i sp a p e ri n v o l v e ss p e e c hs i g n a lp r o c e s s i n g ,m i d it h e m a t i ce x t r a c t i o n ,p a r e r n r e c o g n i t i o n ,d a t am i n i n ga n do t h e ra r e a so fr e l a t e dt e c h n o l o g i e s t h em a i nc o n t e n t s i n c l u d em e l o d ye x t r a c t i o no fm i d if o r m a tm u s i c ,f e a t u r ee x t r a c t i o no fh u mw a v e f o r m f i l e ,c l u s t e r i n go ff e a t u r ed a t a b a s ea n dm e l o d ym a t c h i n gp r o b l e m ,e t c a r o u n d i n gt h e r e s e a r c hc o n t e n tl a u n c h e dt h ef o l l o w i n gr e s e a r c hw o r k : 1 c o l l e c t i n gm i d if o r m a tm u s i ca n da n a l y z i n gt h e i r f o r m a ti n f o r m a t i o n o fm i d i s o u n dt r a c km u s i cm e l o d ye x t r a c t i o n c o n s i d e r i n ge x t r a c tm e l o d yf e a t u r ea sf e a t u r e d a t a b a s ed a t as t o r a g e t h i sm e t h o dp r o v i d e sd a t as u p p o af o rm u s i cl i b r a r yc l u s t e r i n g a n a l y s i sa n dr e t r i e v a lm a t c h i n g 2 f o rr e f e r e n c eg r o u pi m p r o v i s a t i o n sm e l o d yf e a t u r ee x t r a c t i o nm e t h o d ,a n dm a d e s u p p l e m e n te x p e r i m e n tb a s eo nt i m e - d o m a i na n a l y s i s a n dm e t h o do ff r e q u e n c y d o m a i n i n v o c a t ee x t r a c tc h a r a c t e r i s t i cd a t ao fm a t l a be n v i r o n m e n tt o v s t h i s p r a c t i c ei m p r o v e dt h eo r i g i n a ls y s t e mo p e r a t i n gp e r f o r m a n c e ,a n dp r o v i d e sp r a c t i c a l s t r o n g e re x p e r i m e n t a le n v i r o n m e n tf o rf o l l o wu ps t u d y 3 i nd a t am i n i n gt e c h n o l o g y , c l u s t e r i n gm e t h o di so f t e nu s e df o re x t e n s i v ed a t aa n a l y s i s r e s e a r c h t o i m p r o v er e t r i e v a le f f i c i e n c y o ft h ep a p e r , p u ta u t o m a t i cg r o u p i n g u n i l a t e r a lc o n t i n u o u sm a t c h i n gc l u s t e r i n ga l g o r i t h mb e f o r ed a t a b a s er e t r i e v a lo f p a c k e tu n i l a t e r a lc o n t i n u o u sb a s e do nc l u s t e r i n ga l g o r i t h mf o ra u d i or e s e a r c ha n d a n a l y s i so ft w ol e v e lm a t c h i n ga l g o r i t h ma n dt h eu n d e r s t a n d i n g t h ee x p e r i m e n t a l p r o o f so fc l u s t e r i n ga l g o r i t h mc o u l di m p r o v et h es e a r c h i n ge f f i c i e n c yi nb a s i sa n d e n s u r er e t r i e v a la c c u r a c y 4 f i n a l l y , c o m b i n e d w i t hf e a t u r e s c l u s t e r i n ga l g o r i t h m a n dl i n e a r m a t c h i n g a l g o r i t h m ,d e s i g nam u s i cr e t r i e v a ls y s t e mb a s e do nt h em e l o d yt e s t i n g ,a n dt h r o u g h d i f f e r e n tt e s t ,m a k ea n a l y s i sa n de v a l u a t i o no ne x p e r i m e n t a ld a t a ,a n dv e r i f i e st h e p e r f o r m a n c ea d v a n t a g e so fc l u s t e r i n ga l g o r i t h mi nt h i sp a p e r a n dr e t r i e v a la l g o r i t h m i i i 广东工业大学硕士学位论文 t h i sp a p e rf o c u so nm i d it h e m a t i ce x t r a c t i o n ,m e l o d yf e a t u r e sd a t ac l u s t e r i n g ,m e l - o d i e sr e t r i e v a lm a t c h i n ga n dh u mr e t r i e v a ls y s t e mc o n s t r u c t i o no ft h ef o u rm a i n p r o b l e m ss u c ha ss t u d yo fm e l o d y f o c u so n t h em e l o d i e si n f o r m a t i o nf e a t u r e sc l u s t e r i n g a n dm e l o d i cm a t c h i n ga l g o r i t h m s p u t sf o r w a r dc l u s t e r i n ga l g o r i t h mw i t hs t r o n gt o l e r a n c e b a s eo nu n i l a t e r a lc o n t i n u o u sm a t c h i n g r e a l i z et h eo p t i m i z a t i o no ft h ec a n d i d a t es o n g c o l l e c t i o n t e s tr e s u l ts h o w st h a tt h i sm e t h o do b v i o u s l yd e c r e a s et h em a t c ht h ea c t u a l t i m en e e d e dt os e a r c hf o rl a r g e - s c a l em u s i cd a t a b a s e ,p r o v i d e sv a l u ed a t as u p p o r to ft h e h u mr e t r i e v a la n dp r o v i d e san e ww a yo fm u l t i m e d i ar e t r i e v a lb a s e do nc o n t e n t k e yw o r d s :q u e r yb yh u m m i n g ;f e a t u r ee x t r a c t i o n ;f e a t u r em a t c h i n g ;u n i l a t e r a l c o n t i n u o u sm a t c h i n g ;l a m i v 广东工业大学硕士学位论文 c o n t e n t s a b s t r a c t i i i c o n t e n t s v i i i c h a p t e r1i n t r o d u c t i o n 1 1 1b a c k g r o u n da n dm e a n i n go fs e l e c t e dt o p i c 1 1 2c u l l r e mr e s e a c hs i t u a t i o na th o m ea n da b o a r d 2 1 2 1r e t r i e v a lm a t c h i n gk e y t e c h n o l o g yr e s e a r c hs i t u a t i o n 2 1 2 2r e s e a c hs i t u a t i o no f a u d i oc l u s t e r i n gm e t h o d 4 1 2 3r e s e a c hs i t u a t i o no f a u d i om a t c h i n ga l g o r i t h m 5 1 3m a i nc o n t e n ta n dp a p e rs t r u c t u r e 6 1 4s u m m a r y 7 c h a p t e r2t h e a b s t r a c t i o no fm l d it h e m a t i c 。8 2 1t h er e a s o n so f c h o o s e i n gm i d i 。8 2 2t h ei n t r o d u c t i o no fm i d i 8 2 2 1f o r m a t t i n gi n f o r m a t i o no f m i d i 8 2 2 2t b em u s i cf o r m a t so fm i d i 9 2 3t h ea b s t r a c t i o no fm i d it h e m a t i c 1 1 2 3 1t h ef e a t u r e so fm i d it h e m a t i c 1 1 2 3 2t h ee x t r a c t i o no fm i d it h e m a t i c 12 2 3 3p e r f o r m a n c ea n a l y s i so fm i d it h e m a t i ce x t r a c t i o n 1 4 2 4s u m m a r y 1 4 c h a p t e r 3m e l o d yf e a t u r er e p r e s e n t a t i o na n de x t r a c t i o n 15 3 1t h ee x t r a c t i o no fm e l o d yf e a t u r e 15 3 1 1t h ep r i n c i p a lt h e o r y 1 5 3 1 2t h ec o n c r e t er e a l i z a t i o no ff e a t u r ee x t r a c t i o n 2 0 3 2t h ef e a t u r er e p r e s e n t a t i o n 2 5 3 3t e s tr e s u l t sa n de v a l u a t i o n 2 5 v 1 1 1 c o n t e n t s :;4s u m m a r y 2 6 c h a p t e r 4r e s e a c ha n di m p l e m e n to fh i e r a r c h i c a lc l u s t e r i n ga l g o r i t h m 2 8 4 1r e v i e wo f c l u s t e r i n ga n a l y s i s 2 8 4 2t y p i c a lc l u s t e r i n gm e t h o d 2 9 4 2 1p a r t i t i o n g n i n gm e t h o d 2 9 4 2 2h i e r a r c h i c a lm e t h o d 31 4 3a u g o r i t h mi m p l e m e n to fm e l o d yf e a t u r e sc l u s t e r i n g 3 2 4 3 1r e a l i z a t i o nd i a g r a mo f h i e r a r c h i c a lc l u s t e r i n gs y s t e m 3 2 4 3 2s i m i l a r i t yc a l c u l a t i o nu n i l a t e r a lc o n t i n u o u sm a t c h i n ga l g o r i t h m s 3 2 4 3 3a l g o r i t h mp r o c e s sa n di m p l e m e n to fh i e r a r c h i c a lc l u s t e r i n g 3 4 4 4t e s tr e s u l t sa n de v a l u a t i o n 3 6 4 5s u m m a r y 3 8 c h a p t e r5r e s e a c ha n di m p l e m e n to fm e l o d ym a t c h i n ga l g o r i t h m 3 9 1 ;1l a m a l g o r i t h m 3 9 1 ;1 1d e s i g ni d e ao fl a m 3 9 5 1 2t h ec o n c r e t er e a l i z a t i o no fl a m 4 0 5 2c o n c r e t er e a l i z a t i o nc o m b i n e dh i e r a r c h i c a lc l u s t e r i n gw i t hl a m 4 3 5 3t e s tr e s u l t sa n de v a l u a t i o n 。4 4 5 4s u m m a r y 4 5 c h a p t e r6t e s ta n a l y s i sa n de v a l u a t i o no fq u e r a yb yh u m m i n gs y s t e m 4 6 6 1s y s t e mf u n c t i o nr e a l i z a t i o ns t r u c t u r ed i a g r a m 4 6 6 1 1s t r u c t u r ed i a g r a mo fs y s t e mf u n c t i o n 4 6 6 1 2f o u c t i o nm o d u l ed e s i g n :4 7 6 :! t t :s tc o n d i t i o n 4 9 6 3t c s tr e s u l ta n de v a l u a t i o n 5 0 6 3 1m u s i cc l a s s i f i c a t i o nr e s u l t sa f t e rc l u s t e r i n g 5 0 6 3 2r e s u l t sa n a l y s i so f h u m m i n gr e t r i e v a l 5 1 6 4s u m m a r y 5 4 i x 广东工业大学硕士学位论文 c o n c l u s i o na n dp r o s p e c t 5 5 r e f e r e n c e s 5 7 p u b l i c a t i o nd u r i n gt h ep u r s u i n go fm a t e r sd e g r e e 6 1 o r i g i n a ls t a t e m e n t 6 2 a c k n o w l e d g e m e n t s 6 3 x 第一章绪论 1 1 研究的背景和意义 第一章绪论 随着i n t e r n e t 的发展,多媒体数据已经成为互联网信息高速公路上传输的主要 信息。其中音频、视频、图像等多媒体内容在w w w 中占据1 5 的数据量【lj ,且该趋 势逐年上升,其中音频信息作为除了视觉信息外最重要的信息在人们日常生活中占 据了重要部分。大容量的信息存储系统为声音的海量存储提供了基本保障,但是如 何从海量的音频数据中挖掘出对用户本身有用的音乐信息成为今后研究的迫切需 要。我们已经接触过的很多强有力的搜索引擎,比如b a i d u ,g o o g l e ,y a h o o ,但这 些搜索引擎都是基于关键字词的检索方式,对于音乐检索的实效性有一定的限制, 针对这一现象,越来越多的国内外研究者不仅局限于音频的外部特征( 如标题、作 者、演唱家、歌词等) ,而更多关注于音频的内容信息( 如声学特征、感知特征等) 进行音乐检索,即基于内容的音乐检索技术c b r ( c o n t e n tb a s e dr e t r i e v e ) 。 在众多基于内容的音乐检索中,基于旋律的检索方式是近几年来比较热门的研 究方向,该检索方式是根据音乐的旋律、节奏等音乐特征进行检索,涉及音乐旋律 的表达、音乐旋律的特征提取、用户查询构造、音乐旋律匹配以及音乐数据库构造 等很多问题,目的是使得用户可以在智能化的查询接口辅助下,检索媒体信息。另 外,从音乐到文本的转换要失去大量的语义信息,因此在音乐检索中,用户提交文 本作为查询关键词并不实用,最直接的查询方式是哼唱( h u m m i n g ) ,即用户通过麦 克风将熟悉的旋律“哼 出来,计算机将这些旋律预处理后输入给服务器端,服务 器端使用搜索引擎去寻找音乐库中的歌曲,最后将匹配结果输出给用户。相对于文 字来说,旋律这种感性记忆更容易被记住,因此目前已经有一些研究人员在这方面 做了很多研究( 绝大多数是针对m i d i 音乐的) ,但效果始终不是很理想,查准率和 查找速率始终是研究者关注的主要问题,如何权衡二者并有突破性的发展成为了今 后研究的主要方向。 音频信息检索具有非常广泛的实用价值,可以用于互联网音频信息搜索、音像 馆和图书馆资料的管理以及满足公安、安全部门的业务等诸多需要,所以目前已成 为研究热点f 2 】。哼唱检索的目的在于能够通过哼唱曲调或者唱歌词等方式来尽可能 广东工业大学硕士学位论文 快的找到所需要的音乐,这是具有实际意义的。尤其是当需要从海量数据库中查找 出所关心但又不记得它的名字或者作者的时候,比如当人们在i n t e r a c t 网上寻找一 首音乐或者到音像店购买某张c d 的时候,却不记得歌名、歌手、或者歌词等外部 特征信息,但是却记得一些旋律片段,那么基于关键字的检索方式就很难达到用户 要求。在这种情况下一种智能化的人机接口输入方式就显得尤为重要,可以想象这 将带来多么巨大的益处,用户可以很方便的检索到自己感兴趣的歌曲,而商家也可 根据这一突破性的检索方式吸引顾客,获得经济利益。同时,随着现代教育的发展, 基于多媒体计算机和i n t e r a c t 的网络远程教育逐渐发展起来。网上教学的基础和核 心是教学资源,为了更好地发挥网络远程教育的优势,将优秀教学资源划分成各种 素材,进行系统化、科学化的分类,并以多媒体化的电子信息形式存储于各种数据 库中,构建成统一的教学资源库,是资源建设的必然和方向。视频是比音频和图像 更为复杂的媒体形式。视频的检索往往转化为文本、图像和音频的检索,音频检索 的发展势必对视频检索产生巨大的影响,而且在理论上也可以对视频媒体检索产生 一定的贡献,特别是对研究基于内容的通用多媒体数据库管理系统做出应有的贡献。 1 2 国内外研究现状 1 2 1 检索匹配关键技术国内外研究现状 旋律是乐曲相似性的决定依据已经成为不争的事实,于是围绕着乐曲的旋律的 相似匹配我们总结出哼唱检索的三个核心问题:旋律的表示形式、旋律的特征提取、 旋律的匹配算法。 1 国外研究 1 9 9 5 年,a s i fg h i a s 等人开创性地提出了哼唱检索的系统架构,在其发表的论 文中详尽讨论了各种关键技术,以及首次提出音高轮廓( p i t hc o n t o u r ) 的概念。他 们采用u s d 串来表示音乐中连续音程之间的关系,u 表示后一个音比前一个音高, d 表示后一个音比前一个音低,s 表示后一个音与前一个音相同,在特征提取中, 根据人类声音模型采用三种方法即自相关、最大似然以及对数倒谱分析来记录入声 的音高,但他们并没有全部给出具体的方法和实验效果,o h i a s 的实验乐曲库仅包 含1 8 3 首乐曲,其检索查准率达1 0 0 ,虽然乐曲库规模太小,也没有标准去论证 2 第一章绪论 其查准率,但其首创性的研究为基于内容的音乐检索技术做出了不可忽视的贡献f 3 】。 随后,1 9 9 6 年r j m c n a b 等人在g h i a s 基础上实现了第一个在线哼唱检索系 统。他们采用g o l d e n r a b i n e r 方法来提取基频,旋律表示方面沿袭了g h i a s 音高轮 廓的概念,并提出了音程和节奏的特征描述需要,其采用了基于时域上的分析方法, 如过零率检测、能量变化率以及中值滤波等方法来处理哼唱数据,但是在他们的研 究方法中,仅对离散的音符哼唱是有效的,对于连续旋律的哼唱而言这些方法应用 上就显得力不从心了,但其在大规模乐曲库上实现了精确匹配和模糊匹配两种情况。 他们的哼唱检索系统m e l d e x 中有9 4 0 0 歌曲,不过没有说明查准率和差准速率等 标准参数。 2 0 0 0 年l i el u 等对输入的音频进行特征提取,通过分析能量来对音符进行切 割,计算过零率和自相关函数提取音高,用( p i t c hc o n t o u r ,p i t c hi n t e r v a l ,d u r a t i o n ) 三元组为单位表示旋律。匹配方面,先用d p 算法粗略比较p i t h c hc o n t o u r ,对于误 差小于一定阈值的旋律,再用更精确的算法比较p i t c hi n t e r v a l 和d u r a t i o n 。他们的系 统对用户的哼唱发音没有限制,就用平时习惯的“d a d a 发音。在规模为1 0 0 0 首音乐的乐曲库中检索,只获得了7 4 的前三位命中率。不过他们这种分级匹配的 思想为以后大多数研究所引用【5 1 。 同年j a n g 等f 6 】采用每1 1 6 秒一个音高值方法表示旋律,这使得他们的系统对哼 唱没有限制,但也导致了音高矢量的长度大增,带来匹配速度上的不足,同时也要 求用户从头开始哼唱,这样对用户有了很大的限制。匹配前使用m e a n a d j u s t m e n m e t h o d 使输入和模板的音高在平均值上对齐。匹配时,采用跟l i el u 的相同的分级 过滤匹配算法,先过滤掉8 0 的候选乐曲,再对剩下的做精确匹配。他们的系统有 3 0 0 0 首乐曲,获得了6 8 的前三位命中率。不过文中对过滤算法的参数调整优化有 详细的阐述,对后来的研究者有很大的帮助。 2 0 0 1 年t o mb r o n d s t e d 等【7 1 、k o s u g i 等【8 1 同时使用了音高变化和音长变化对旋律 进行编码,可以在一秒钟内检索1 0 0 0 0 首乐曲,并取得了7 5 的前五位命中率。用 户必须在一个节拍器的伴奏下哼唱,虽然系统大大的提高了查准率和速度,但是用 户使用起来非常不方便。 2 国内研究 台湾新竹清华大学的张智星等人1 9 i 在哼唱检索方面起步较早,他们开发了一个 著名的“卡拉迷”的多模态点歌系统,目前该系统大约有1 3 0 0 0 首歌曲。他们采取 广东工业大学硕士学住论文 直接使用基频曲线进行旋律匹配,系统的检索速度较慢。 上海交通大学的李扬等人【1 0 1 在对几何相似性匹配方法上加以改善,提出了一种 近似旋律匹配的新方法线性对齐匹配法( l a m ) 。他们的哼唱系统包含3 8 6 4 首 乐曲,检索6 2 段人声哼唱,该匹配算法取得了9 0 3 的前三位命中率,相比传统的 近似符号匹配算法高出1 1 以上。 复旦大学的富亮等人l 对m p 3 音乐检索做了一定的研究,提出了面向m p 3 音 乐哼唱检索的新算法。虽然他们的系统针对独唱歌曲有较好的效果,但对于多声部 演唱及无人声纯音乐效果却很不理想。 1 2 2 音频聚类方法研究现状 基于内容的多媒体信息检索是一个热门的研究领域,不过大多数的已有研究把 媒体格式定在文字、图像和视频上,基于内容的音乐检索是近年才新兴起来的一个 分支。聚类是检索的基础,高层的音频内容分类可以有效提高检索效率,从发展的 角度看,将音频序列聚类仍是一个开放性的研究。而基于内容的音乐检索研究从2 0 世纪9 0 年代到现今,也不过十几年的历史,国外的研究相对与国内的研究较早一些, 技术上也成熟许多。所以基于内容的音乐检索仍然是我们今后研究的方向。 在对音频特征数据库进行匹配研究中发现,大量的冗余数据对检索的效率有一 定的抑制作用,如何对特征数据库进行优化,从而为匹配算法提供快速有效的检索 环境成为研究热点方向,对音频文件进行自动聚类,即使用各种算法来计算音频文 件之间的相似度,即特征向量之间的距离,从而在音频特征向量空间里形成一个个 音频文件簇,类似于文本信息检索中的向量空间模型。目前比较有代表性的研究有g 美国普林斯顿大学音乐信息检索工具使用了两种方法进行分类【1 2 1 :a 高斯混合 模型( g m m ) :用一组已经标注的训练样本集对分类算法进行训练,然后再使用经 过训练的分类算法对真实的音频文件进行分类;b k 极近邻居算法:该算法是通过 计算特征向量之间的距离来进行分类和检索。 康柏计算机公司的剑桥研究实验室的网络音频分类研究中,对一万多音频文件 首先人工标注为音乐和语音两个范畴,然后使用名为f i s h e rk e r n e l 的方法对这些音 频信息进行粗略分类,该方法以高斯混合模型为基础的改进方法,优点是可以处理 不同长度的音频文件,基本思想是将音频文件分为两部分,一部分用来训练这种分 4 第一章绪论 类算法,另一部分作为测试集合来检验这种方法的分类效果,这种方法可以达到7 5 左右的准确犁1 3 1 。 美国南加州大学的基于内容的音频分类与检索研究中,研究人员按照短时能量 函数,平均过零率( z c r ) 和基频( f u f ) 三种音频特征将特征粗略的分为语音,音 乐,环境音响和默音四种基本类别。再根据从音频文件的时间( 频率) 表示中抽取 出来的音色、音高和变化模式等特征对以上基本类别进行细分,分类准确率达9 0 以上1 1 1 。 新加坡南阳技术大学使用n f l ( 极近特征线,n e a r e s tf e a t u r el i n e ) 方法对基 于内容的音频进行分类【1 5 】,该方法的基本思想是:假定已经存在了人工标注好的一 组音频文件,并且每个类中至少包含两个文件,这样在分类前就建立了一个特征空 间,定义每一个类中的向量对之间的连线为一条特征线,每一类就可以看做是特征 线的集合,一个向量到一个类之间的距离定义为这个向量到这个类里所有特征线距 离的最短距离,在分类时,对一个新的音频文件,计算其相对应的向量到各个类之 间的距离,并将其归入距其最近的类,研究人员对4 0 9 个样本用n f l 方法进行分类, 获得9 0 以上的准确率。 1 2 3 音频匹配算法研究现状 匹配算法主要用于评价和计算旋律之间的相似性。目前存在很多的匹配算法, 但是根据音乐风格的不同采取哪种算法仍是研究者研究的课题。目前应用比较多的 算法有两级匹配算法、分级过滤匹配算法、音高轮廓几何相似性算法、统计模型算 法以及神经网络算法。由于各种算法之间存在互操作性,所以接下来将归类对各个 算法进行论述。 近似字符串匹配算法,如d p 法,n g r a m 法。从纯符号串的角度考虑两个音符 串的近似程度。一般通过计算如何使用最好的插入,删除,改变符号,以使得两个 符号一致,从而判断其匹配程度。 基于统计模型的算法,如m a r k o v 模型。这是从另一个借用传统的符号匹配算 法的例子,依旧是音符串,但这里是从统计模型上考虑输入音符串再由模板训练的 m a r k o v 模型下的概率,概率越大表示匹配度越高。 基于音高曲线的几何匹配算法,如o m a i d i n 等人【1 6 1 在2 0 0 0 年提出的音高轮廓 广东工业大学硕士学位论文 几何相似算法。对输入音频做信号处理,画出音高曲线后,将其与模板库中的音高 曲线在几何上判断相似性。后来c f r a n c u l l 7 】对这种方案加以改善,在比较前允许对 音高曲线做时间轴上的线性延展,从而使得匹配不同节奏的相同旋律成为可能。我 国李扬等人的线性对其匹配思想也是根据相似旋律音高轮廓几何上的相似性,将音 高和节奏一并考虑设计。 基于动态规划的匹配算法。如l e il u 等人提出的“启发式匹配”,就是通过一 步步的比较和筛选得到最好的匹配结果。国内个别研究人员也采用分级匹配的思想, 提出了一种“走势峰值匹配算法 1 9 l ,其思想是通过结合音高轮廓来过滤候选乐曲, 再采用之前提到的线性对齐匹配算法来精确匹配。 还有某些研究引入基于时间序列上的包络转换【1 9 】的概念,改善已有的动态时间 校正索引技术来实现匹配算法,以此来提高其容差性上的能力。另外还有一种应用 比较少的基于特征空间的算法。如k n e a r e s tn e i g h b o rs e a r c h 算法。该方法把提取 到的特征向量转化成为特征空间中的曲线,然后采用经典的特征空间中的匹配算法 计算相似度,优势在于不需要做音符切分。 选用哪种匹配算法不仅跟具体的系统资源有关,而且与前面提到的旋律表示方 法有密不可分的关系。如何更好的把他们在有机的结合起来,仍是研究的热点问题, 本文旨在设计一个系统资源经过聚类分析后,综合考虑音高和音长进行匹配检索的 改进算法,因为音高和音长这两个特征对检索的效果作用是最明显和直接的【2 们。 1 3 本文主要研究内容和结构 在基于内容的音乐检索中,针对基于内容的音乐检索在查准率和查找效率上不 能同时达到理想效果的情况,本文提出一种基于单侧连续匹配的分层聚类算法,即 在匹配之前对音乐特征进行聚类,根据相似度值对特征空间进行分类,形成不同簇 类,并对簇中心进行标记,再对聚类后的数据库进行精确匹配。 本课题的研究具体内容如下: 1 研究m i d i 格式媒体资源库系统的搭建,这是保证系统正常运行、测试检索 结果的前提保证。主要包括原始资源库的搭建,特征数据库的生成,检索匹 配引擎,哼唱旋律的数据预处理以及各个模块接口的设计。 2 研究现有的聚类算法,引入数据挖掘思想,对原始特征数据库进行特征聚类, 6 第一章绪论 设定聚类条件、确定聚类中心和实现聚类方法。 3 研究改进现有的精确匹配检索方法,在原有的基础上进一步提高或改善原有 匹配检索的性能,为匹配算法的进一步研究提供实验数据支持。 1 4 本章小结 在本章中,主要介绍了目前基于内容的音乐检索技术的国内外研究现状,论述 了基于内容的音乐检索的研究目的和意义,并重点介绍了本文主要研究的内容和结 构。 7 广东工业大学硕士学位论丈 第二章di 主旋律提取 在q b h 系统中,除了在小规模乐曲库中采用单轨m i d i 数据格式外,大都直接 采用复合音音乐数据格式文件,如音频波形文件w s v 、m p 3 或者演奏数据文件多音 轨m i d i ,采用这种复合音音乐数据的检索处理,带来了大量的计算量以及复杂的匹 配算法。在m i d i 音乐中提取出主旋律可以有效
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年教师招聘之《幼儿教师招聘》题库带答案详解(精练)
- 年产200kt磷酸铁锂正极材料生产线项目可行性研究报告模板-立项拿地
- 2025玛纳斯县司法局招聘编制外专职人民调解员(5人)笔试备考题库及答案解析
- 2025年文化与科技融合趋势下的智慧农业解决方案报告
- 2025年工业互联网平台传感器网络自组网技术在智能工厂设备智能调度中的应用报告
- 合作学习:大学英语词汇教学的创新与突破
- 教师招聘之《小学教师招聘》考试历年机考真题集附参考答案详解【典型题】
- 教师招聘之《小学教师招聘》高分题库附答案详解(综合卷)
- 教师招聘之《小学教师招聘》通关测试卷含答案详解(综合题)
- 押题宝典教师招聘之《幼儿教师招聘》模考模拟试题附答案详解(模拟题)
- 2025下半年新疆生产建设兵团事业单位招聘(2398人)考试参考试题及答案解析
- 医疗质量 岗前培训课件
- (2025秋新版)二年级上册道德与法治全册教案
- 电子产品出厂质量验收标准
- 项目可行性研究报告评估咨询管理服务方案投标文件(技术方案)
- 2025年事业单位工勤技能-广东-广东水生产处理工一级(高级技师)历年参考题库典型考点含答案解析
- 公共机构建筑能源审计和能耗基准值技术服务方案投标文件(技术标)
- 2025-2026学年人教PEP版(2024)小学英语四年级上册教学计划及进度表
- 2025广西公需科目考试题库和答案(覆盖99%考题)广西一区两地一园一通道+人工智能时代的机遇
- 脓毒症护理查房记录
- 2025年全国中小学校党组织书记网络培训示范班在线考试题库及答案
评论
0/150
提交评论