(信号与信息处理专业论文)基于旋律的音频特征提取与旋律表示方法研究.pdf_第1页
(信号与信息处理专业论文)基于旋律的音频特征提取与旋律表示方法研究.pdf_第2页
(信号与信息处理专业论文)基于旋律的音频特征提取与旋律表示方法研究.pdf_第3页
(信号与信息处理专业论文)基于旋律的音频特征提取与旋律表示方法研究.pdf_第4页
(信号与信息处理专业论文)基于旋律的音频特征提取与旋律表示方法研究.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(信号与信息处理专业论文)基于旋律的音频特征提取与旋律表示方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ad i s s e r t a t i o ns u b m i t t e dt og u a n g d o n g u n i v e r s i t yo ft e c h n o l o g y f o rt h ed e g r e eo fm a s t e ro f e n g i n e e r i n gs c i e n c e r e s e a r c ho fa u di of e a t ur ee x t r a c t i o na n d r e p r e s e n t a t i o nb a s e do nm e l o d y m a s t e rc a n d i d a t e :l i a oy i m i n g s u p e r v i s o r :s e j i a n gy o n g p i n g j u n e2 0 1 0 f a c u l t yo fi n f o r m a t i o ne n g i n e e r i n g g u a n g d o n gu n i v e r s i t yo ft e c h n o l o g y g u a n g z h o u ,g u a n g d o n g ,p r c h i n a ,510 0 0 6 uui洲8 洲0洲6m 4叭7川1洲y 厂 摘要 摘要 随着网络技术的不断发展,越来越多的人们希望通过网络寻找到他们感兴趣的 东西,如音乐、图片等。人们的这种需求对多媒体检索提出了新的要求。音乐检索 是继图像检索之后在基于内容的检索领域中发展起来的研究新热点。作为基于内容 的音乐检索的一个分支,哼唱检索为用户提供了一种全新的检索方式,使得用户可 以通过哼唱音乐片段的方式,在大规模的音乐数据库中快速的寻找到目标歌曲。 目前对哼唱检索系统的研究大部分都是针对m i d i 格式的检索,对w a v 等波 形文件格式的处理研究的较少。本文以基于语义的多媒体资源库中的音频检索为背 景,针对波形文件进行研究,研究的三个主要问题是哼唱声音的特征提取和表示, 声音和旋律的检索匹配以及哼唱检索测试系统的搭建。本文紧紧围绕着这三个问 题,开展了以下研究工作: 1 在对哼唱检索理论进行较深入的研究基础上,结合多种音乐的乐理特点和音乐 的数字化表示,给出了哼唱检索引擎核心模块的具体研究方案。 2 研究数字信号处理和语音识别技术在旋律特征提取中的应用。对时域分析法和 频域分析法作了细致的分析和研究。在哼唱片段处理过程中,给出了信号预处 理、基音提取、提取后处理等相关步骤的具体实现方法。提出了将端点检测应 用到基音提取算法中以区分哼唱声中混杂的无声段和噪声段,使得音符切分的 结果更为准确。 3 通过对音乐信号基本理论的研究,使用音高差和音长差的方法来表示音乐旋律, 尽可能多的保留了音乐的旋律信息,极大的提高了旋律匹配模块的准确度。同 时,采用线性对齐匹配算法计算哼唱旋律与数据库中乐曲的相关度,通过对音 符单位的线性扩展和对齐匹配,有效提高了系统检索的准确性。 4 最后,设计并实现了一个基于内容的音乐哼唱检索测试系统,通过多项测试, 对系统的检索效果进行了评价和分析,并总结了对检索结果产生影响的各种因 素。测试数据表明,本文研究的旋律特征提取与旋律表示方法确实能够提高系 统检索的准确度,平均能将检索成功率提高5 个百分点左右。 本文围绕旋律的特征提取和表示、旋律的检索匹配以及哼唱检索系统的搭建等 广东工业大学硕士学住论文 研究,重点研究了旋律特征提取和旋律的表示方法。提出采用语 点检测方法对音高序列进行端点切分,使得最后得到的基音曲线 唱检索测试,得出了有一定价值的理论思想与可行的实际应用成 征提取在更加准确与快捷的同时,更加方便与易于操作,为基于 检索,特别是对旋律和波形文件以及音乐检索的研究,提供了新 ;旋律特征提取;旋律匹配;基音提取算法 a b s t r a c t a bs t r a c t w i t ht h ed e v e l o p m e n to fi n t e r n e t ,m o r ea n dm o r ep e o p l eh o p et os e a r c ht h et h i n g s i n t e r e s t i n gt h e m ,s u c ha sm u s i ca n dp i c t u r e s ,w h i c hr a i s e st h er e q u i r e m e n tf o rm u l t i m e d i a s e a r c h a u d i or e t r i e v a li san e wf o c u sa f t e ri m a g er e t r i e v a li nt h ef i e l do f c o n t e n t - b a s e d r e t r i e v a l a sab r a n c ho fc o n t e n t b a s e da u d i or e t r i e v a l ,c o n t e n t b a s e dm u s i c r e t r i e v a lq u e r yb yh u m m i n go f f e r sat o t a l l yn e wr e t r i e v a lm e t h o db ys e a r e h i n gt h e d e s i r e ds o n gb a s e do nt h eu s e r sh u m m i n gs e g m e n t si nl a r g ed a t ab a s eq u i c k l y p r e v i o u sw o r ki nm e l o d yr e t r i e v a lb yh u m m i n gh a sm a i n l yf o c u s e do nt h em i d i t y p er e t r i e v a l l i t t l ea t t e n t i o n sa r ep u to nt h em p 3t y p e i nt h i sp a p e r r e s e a r c h i n gf o rt h e w a v e f o r mf i l e i nt h eb a c k g r o u n do ft h ea u d i os e a r c ho fs e m a n t i c b a s e dm u l t i m e d i a r e s o u r c el i b r a r y t h et h r e em a i np r o b l e m si sh u m m i n gs o u n df e a t u r ee x t r a c t i o n ,m e l o d y w i t hs o u n dr e t r i e v a lm a t c h i n ga n db u i l d i n gt e s t i n gs y s t e mo fq u e r yb yh u m m i n g t h i s p a p e rm a k e s t h ef o l l o w i n gr e s e a r c h ,f o c u s i n go nt h et h r e ek e yp r o b l e m 1 b a s eo nt h es t u d y i n gt h e o r yo fh u m m i n gr e t r i e v a l ,c o m b i n e dw i t hav a r i e t yo fm u s i c t h e o r ya n dm u s i cd i g i t a le x p r e s s i o n ,t h i sp a p e rg i v e st h es p e c i f i cr e s e a r c hp r o g r a m s o fs e a r c he n g i n ea n dc o r em o d u l e so fh u m m i n gs y s t e m 2 r e s e a r c h i n go na p p l i c a t i o no fd i g i t a ls i g n a lp r o c e s s i n ga n ds p e e c hr e c o g n i t i o n t e c h n o l o g i e si nt h em e l o d yf e a t u r ee x t r a c t i o n ,a n dd e t a i l e do nt i m ed o m a i na n a l y s i s a n d f r e q u e n c y d o m a i n i n p r o c e s s i n gh u m m i n gs e g m e n t ,g i v e s t h e i m p l e m e n t m e t h o d so fs i g n a lp r e p r o c e s s i n g ,p i t c he x t r a c t i o n ,a f t e re x t r a c t i o np r o c e s s i n ga n d r e l a t e ds t e p s p r o p o s e dt h a te n d p o i n td e t e c t i o nw i l lb ea p p l i e dt ot h ep i t c he x t r a c t i o n a l g o r i t h mt od i s t i n g u i s ht h eh u m m i n gs o u n do fas i l e n ts e c t i o na n d t h en o i s em i x e d i np a r a g r a p h ,t om a k en o t e ss e g m e n t a t i o nr e s u l t sm o r ea c c u r a t e 3 b yr e s e a r c h i n gt h eb a s i ct h e o r yo fm u s i cs i g n a l ,u s i n gal o n gp i t c he l e v a t i o na n d d u r a t i o nw a yt oe x p r e s sm u s i cm e l o d y , a sm u c ha sp o s s i b l et or e t a i nt h em e l o d y i n f o r m a t i o n ,a n dg r e a t l yi m p r o v e st h ea c c u r a c yo fm e l o d ym a t c h i n gm o d u l e a tt h e s a m et i m e ,b yu s i n gl i n e a ra l i g n m e n tm a t c h i n ga l g o r i t h mt oc o m p u t ec o r r e l a t i o n b e t w e e nh u m m i n gm e l o d ya n dm e l o d yi nd a t a b a s e s b yl i n e a re x p a n s i o na n d i i i 广东工业大学硕士学位论文 a l i g n m e n tm a t c h i n g ,e f f e c t i v e l yi m p r o v e st h er e t r i e v a la c c u r a c yo ft h es y s t e m 4 f i n a l l y , d e s i g n i n ga n di m p l e m e n t i n ga c o n t e n t - b a s e dm u s i c o fh u m m i n gt e s t s y s t e m t h r o u g han u m b e ro ft e s t ,t o e v a l u a t ea n da n a l y z et h ee f f e c to fr e t r i e v a l s y s t e m ,a n ds u m m a r i z et h ei m p a c to nt h es e a r c hr e s u l t so fv a r i o u sf a c t o r s t e s td a t a s h o wt h a tt h i s p a p e rs t u d yw h i c h m e t h o do fo fa u d i of e a t u r ee x t r a c t i o na n d r e p r e s e n t a t i o ni n d e e dc a ni m p r o v et h ea c c u r a c yo fr e t r i e v a ls y s t e m t h ea v e r a g e s u c c e s sr a t ec a nr e t r i e v ea b o u t5p e r c e n t a g ep o i n t s t h i sp a p e rm a k e st h i sr e s e a r c h ,f o c u s i n go nt h et h r e ek e yp r o b l e m ,w h i c hi sm e l o d y f e a t u r ee x t r a c t i o na n de x p r e s s i o n ,m e l o d yr e t r i e v a lm a t c h i n ga n db u i l d i n gt e s t i n gs y s t e m o fq u e r yb yh u m m i n g e m p h a s i so nm e l o d yf e a t u r ee x t r a c t i o na n de x p r e s s i o n p r o p o s e d t h a tb yu s i n ge n d p o i n td e t e e t i o no fv o i c er e c o g n i t i o nt e c h n o l o g yc o n d u c t se n d p o i n t s e g m e n t a t i o nt op i t c hs e q u e n c e ,m a k e sp i t c hc u r v eo b t a i n e dm o r ea c c u r a t e b yt e s t i n go f h u m m i n gr e t r i e v a l ,r e a c h e dc e r t a i nt h e o r e t i c a li d e a sa n dp r a c t i c a lv a l u eo ft h ep r a c t i c a l a p p l i c a t i o no fr e s u l t s n o to n l yc o n t r i b u t et ot h em e l o d yf e a t u r ee x t r a c t i o nm o r ea c c u r a t e a n df a s t e r ,b u ta l s om o r ec o n v e n i e n ta n de a s yt oo p e r a t e f o rc o n t e n t - b a s e dm u l t i m e d i a d a t ar e t r i e v a l ,e s p e c i a l l yt h er e s e a r c ho fm e l o d ya n dw a v em u s i cr e t r i e v a l ,p r o v i d e sn e w w a y st or e a l i z e k e y w o r d s :q u e r yb yh u m m i n g ;m e l o d yf e a t u r ee x t r a c t i o n ;m e l o d ym a t c h i n g ;p i t c h e x t r a c t i o na l g o r i t h m i v 目录 目录 摘要i a b s t r a c t i i i 目录v c o n t e n t s v i i i 第一章绪论1 1 1 研究的背景和意义1 1 2 国内外研究现状2 1 3 本文主要研究内容和结构4 1 4 本章小结5 第二章基于内容的音乐检索综述6 2 1 音乐的乐理基础6 2 2 音乐的数字化表示7 2 2 1m i d i 文件一7 2 2 2 波形文件8 2 2 3 模块文件9 2 3 哼唱检索引擎及核心技术1 0 2 4 本章小结1 3 第三章旋律特征提取与表示一1 4 3 1 声音信号处理一1 4 3 1 1 时域分析法1 4 3 1 2 频域分析法18 3 2 旋律特征提取的实现一2 1 3 2 1 特征的选取2 l 3 2 2 声音信号的预处理2 2 3 2 3 端点检测2 3 v 广东工业大学硕士学位论文 的实现2 7 示3 2 :;:; 第四章旋律匹配算法的研究与实现3 4 4 1 各种匹配算法的简介及比较3 4 4 1 1 近似字符串匹配算法3 4 4 1 2 基于统计模型的算法3 6 4 1 3 基于音高轮廓几何匹配算法3 7 4 1 4 基于特征空间的算法3 8 4 1 5 算法的比较3 9 4 2 线性对齐匹配( l a m ) 算法4 0 4 2 1l a m 算法的设计思想4 0 4 2 2l a m 算法的实现4 1 4 2 3l a m 算法性能测试4 4 4 3 本章小结4 6 第五章哼唱检索测试与评价4 7 5 1 系统结构和功能4 7 5 1 1 系统结构4 7 5 1 2 功能模块4 8 5 2 测试环境5 0 5 3 测试结果与评价5 1 5 3 1 评价指标5l 5 3 2 不同环境下的哼唱检索测试5 2 5 3 3 不同基音提取算法的哼唱检索测试5 4 5 4 本章小结5 6 总结与展望5 7 参考文献5 9 攻读学位期间发表的论文6 3 目录 独创性声明6 4 致谢6 5 v c h a p t e r3m e l o d yf e a t u r ee x t r a c t i o na n dr e p r e s e n t a t i o n 1 4 3 1v o i c es i g n a lp r o c e s s i n g 1 4 3 ;1 1t i m ed o m a i na n a l y s i s 1 4 :;i 2 f r e q u e n c y d o m a i na n a l y s i s 1 8 3 2i m p l e m e n to fm e l o d yf e a t u r ee x t r a c t i o n 21 3 2 1f e a t u r es e l e c t i n g 2 1 3 2 2v o i c es i g n a lp r e p r o c e s s i n g 2 2 3 2 3e n d p o i n td e t e e t i o n 2 3 3 2 4i m p l e m e n to ff e a t u r ee x t r a c t i o n 2 7 3 3m e l o d yf e a t u r er e p r e s e n t a t i o n 3 2 3 4s u m m a r y 3 3 c u n l e n l s j , c h a p t e r4r e s e a r c ha n di m p l e m e n tm e l o d ym a t c h i n g 3 4 4 1i n t r o d u c t i o na n d c o m p a r i s o no fs o m em a t c h i n ga l g o r i t h m 一3 4 4 1 1a p p r o x i m a t ec h a r a c t e rs t r i n gm a t c h i n ga l g o r i t h m 3 4 4 1 2m a t c h i n ga l g o r i t h mb a s e do ns t a t i s t i c a lm o d e l 3 6 4 1 3m a t c h i n ga l g o r i t h mb a s e do ng e o m e t r i cp i t c hc o n t o u r 3 7 4 1 4m a t c h i n ga l g o r i t h mb a s e do nf e a t u r es p a c e 3 8 4 1 5c o m p a r i s o no fs o m ea l g o r i t h m 3 9 4 2l i n e a ra l i g n m e n tm a t c h i n ga l g o r i t h m 4 0 4 2 1d e s i g nt h e o r yo fl a m a l g o r i t h m 4 0 4 2 2i m p l e m e n to fl a m a l g o r i t h m 4 1 4 2 3p e r f o r m a n c et e s t i n go fl a m a l g o r i t h m 4 4 4 3s u m m a r y 4 6 c h a p t e r5t e s ta n a l y s i sa n de v a l u a t i o no fq b hs y s t e m :4 7 5 1s y s t e ms t r u c t u r ea n dm o d u l e 4 7 5 1 1s y s t e ms t r u c t u r e 4 7 1 ;1 2f u n c t i o n a lm o d u l e z 1 8 5 2t e s tc o n d i t i o n 5 0 5 3t e s tr e s u l t sa n de v a l u a t i o n 51 5 3 1e v a l u a t i o ni n d e x s 5l 5 3 2t e s tb yd i f f e r e n tc o n d i t i o n so f q u e r yb yh u m m i n g 5 2 5 3 3t e s tb yd i f f e r e n tp i t c he x t r a c t i o na l g o r i t h mo fq u e r yb yh u m m i n g 5 4 1 ;4s u m m a r y ! ;6 c o n c l u s i o na n dp r o s p e c t 5 7 r e f e r e n c e s 5 9 p u b l i c a t l o nd u r i n gt h ep u r s u i n go fm a s t e r sd e g r e e 6 3 o r l g i n a ls t a t e m e n t 6 4 a c k n o w l e d g e m e n t s 6 5 i x 第一章绪论 1 1 研究的背景和意义 第一章绪论 互联网的迅猛发展使人们能比以往更方便、快捷地获取大量的信息与资讯。音 乐,作为最为传统的娱乐方式之一,在互联网的帮助下越发显示其无与伦比的魅力 与能量,成为人们生活必不可少的一部分。越来越多的用户习惯通过网络这种渠道 获取娱乐、学习和商务方面的音乐信息。这就对音乐信息检索提出了更高的要求。 尽管现在有许多网站提供音乐的销售或者共享,但他们提供的用户界面并不足以方 便地帮助用户找到他们想要的音乐。这些音乐网站只提供音乐分类,或者基于文字 字面的查找功能。为了寻找一首乐曲,用户必需准确地知道标题、作者、演奏家或 者其他相关的文字描述,否则就只能花费大量时间,逐一浏览这个音乐分类下的所 有乐曲。所以,针对音乐检索的特点,研发一种的方便实用的人机接口,是在互联 网上实现基于内容的音乐检索的必要条件【1 1 。 近年来,多媒体和网络技术发展迅速,数字音乐早已成为一种大众娱乐,从音 乐的网上销售、卡拉o k 服务、小巧的便携式m p 3 播放器,到专业音效库的共享, 以及最近兴起的视频点播服务中的音频内容检索,都对音乐信息的检索提出了越来 越高的要求。基于内容的音乐检索( c m r :c o n t e n t b a s e dm u s i cr e t r i e v a l ) 是近年才 新兴起来的一个分支,哼唱检索( q b h :q u e r yb yh u m m i n g ) 是属c m r 的一种方式。 q b h 作为一种新颖方便的检索手段,引起了包括图书馆管理,计算机科学,信息科 学,认知科学等领域学者的广泛兴趣,也越来越受到多媒体信息服务商、开发商以 及广大用户们的关注。在当今网络化多媒体技术飞速发展的背景下,基于内容的音 乐检索技术具有广阔的应用前景。 对用户来说,基于旋律的音频检索使用方法的便利性相对于基于文字描述的检 索有着显而易见的优势。说到歌曲,人们可能会忘了它的歌名,可能无法完整记得 它的歌词,但是一定会在第一时间回忆起它的旋律,哼唱出来。很多人都有这种经 验,能一下子哼出多年前的一首老歌,却说不出歌曲的名字。由此可见,旋律对人 们辨别歌曲的重要性,这也就是为什么我们选取旋律作为基于内容的音乐检索的特 征【2 】o 广东工业大学硕士学位论文 基于旋律的音频检索,也是基于内容的多媒体检索的一个分支。其中涉及到很 多关键技术,如内容特征提取,描述,匹配等,这些技术对于其他媒体,尤其是视 频检索的研究具有不可忽略的意义【3 】。因为视频是比音频和图像更为复杂的媒体形 式。视频的检索往往转化为文本,图像和音频的检索,音频检索的发展势必对视频 检索产生巨大的影响。而且在理论上也可以对视频媒体检索做一定的贡献。 同时,随着现代教育的发展,基于多媒体计算机和i n t e m e t 的网络远程教育逐 渐发展起来。网上教学的基础和核心是教学资源,为了更好地发挥网络远程教育的 优势,将优秀教学资源划分成各种素材,进行系统化、科学化的分类,并以多媒体 化的电子信息形式存储于各种数据库中,构建成统一的教学资源库,是资源建设的 必然和方向。现有的教学资源库大多是传统的基于文本的资源存储共享和检索模式, 在传统的文本检索模式的基础上添加进基于旋律的音频检索模式,必将极大的丰富 和发展教学资源库的资源类别和网络远程教育的教学方式,对研究基于内容的通用 多媒体资源库管理系统做出应有的贡献。 1 2 国内外研究现状 基于内容的音乐检索是继基于内容的图像检索之后发展起来的一个新兴研究 方向。近年来,己经受到越来越多研究者的关注。 在国外,c h i a s 等【4 l 被公认为是已知最早的基于哼唱来检索乐曲的研究。1 9 9 5 年,他开创性地提出了哼唱音乐检索的系统架构,详尽讨论和比较了各种音高提取 技术( 时域上和频域上) 。他把旋律的音高起伏表示成( u ,d ,s ) 的符号序列,不 考虑节奏特征,并提出音高轮廓( p i t hc o n t o u r ) 的概念。匹配的时候采用经典的快 速近似匹配法【5 1 ,在符号级别上比较序列的相似性。c h i a s 的实验乐曲库仅包含1 8 3 首乐曲,但其检索命中率接近1 0 0 。具体比较了自相关函数,改进的自相关函数, 倒谱方法,最后g h i a s 决定用改进的自相关函数来检测音高,用能量来切分音符。 检测出来的音符用3 种方法标记:音符同前一音符音高相同( s ) ,比前一音符高( u ) , 比前一音符低( d ) ,这样哼唱输入就转化为一个( u ,d ,s ) 组成的字符串。 在c h i a s 的基础上,r j m c n a b 等【6 】讨论了在大规模乐曲库上进行哼声检索 的技术。他的匹配方法沿袭c h i a s 音高轮廓( p i t hc o n t o u r ) 的概念,在时域上的用 g o l d r a b i n e r 音高检测算法,再采用动态规划近似匹配符号串。他们乐曲库规模 达到9 4 0 0 首歌曲,但文中没有给出详细的实验数据说明系统性能。 2 第一章绪论 l i e l u 等1 7 】对输入音频做特征提取,能量和过零率曲线做音符切分,计算自相关 函数提取音高,最终转换成三元组序列( 音高曲线,音高距离,持续时间) 。音高距 离代表音符变化的幅度,即两个音符频率差。持续时间为一个音符持续的时间。能 量曲线和音高曲线用来做音符切分。匹配过程采用两阶段匹配,先用d p 算法对音 高曲线进行粗略比配,相符后,再进行精确匹配。他们要求用户以“d a d a ”发音, 在1 0 0 0 首乐曲中检索,获得了7 4 的前三位命中率。 j a n g 等【8 】采用音高值帧序列方法表示旋律,帧长为6 2 5 m s 。输入采用低通过 滤掉超过1 0 4 7 h z 的高频信号,音高检测尝试了自相关函数和a v e r g a em g a n i u t d e d i e f f e r n c e uf a c o t i n ( a m d f ) 。无音段和随机噪音会被检测为高频音高,很强的第二 谐波会被使得音高加倍,为了消除这些错误点,系统采用了简单的基于能量的端点 检测机制。同以前的工作不同,这里并不进行音符切分,文中认为音符切分很难做 到避免错误,而且不切分音符就可以让用户采用更为自然连续的哼唱方法,不用局 限于“d a d a ”一类型的哼唱。匹配前,先使输入和模板的音高在平均值上对齐,然 后采用一种分层匹配算法。他们的系统对哼唱发音没有限制,但匹配速度的缓慢, 且要求用户必须从乐曲的开头哼唱。在规模为3 0 0 0 首的乐曲库中检索,获得了6 8 的前三位命中率。 o m a i d i n 等【9 1 提出一种基于音高轮廓几何相似性的匹配方法。他根据输入音 频提取音高曲线,然后在二维空间中比较两条音高曲线的几何相似性,即计算夹在 两条曲线间的面积,面积小则表示两旋律接近,反之则有差异。c f r a n c u 等d o 又 对o m a i d i n 的几何相似性匹配方法加以改善,对音高曲线在时间轴上作线性的延 展,从而使得匹配不同节奏的相同旋律成为可能。他们的系统经过简单的性能试验, 在1 0 0 0 0 首乐曲中检索2 0 个哼唱片段。文中,他们在每一次检索都成功定位到正确 乐曲的多个版本,大多数情况下误判都小于三首。除了上述的基于符号匹配的检索 方案,m a i d i n 等人1 还提出一种基于音高轮廓几何相似性的匹配方法,并按时间的 变化画出音高曲线,而后在二维空间中比较两条音高曲线的几何相似性,通过在音 高轴上的平移对齐输入哼唱和旋律模板的平均音高,再通过计算夹在两条曲线间的 面积,判断两段旋律的匹配相似程度,面积越小相似度越高。 在国内,如中科院声学研究所、上海交通大学、西北大学可视化研究所、北京 师范大学信息学院等众多单位也开始了基于内容的音乐检索研究,近期的主要研究 焦点集中在解决音乐检索中面临的实际问题,以及如何使音乐检索系统能兼容各种 3 广东工业大学硕士学位论文 应用环境中。 复旦大学的富亮等人对m p 3 音乐检索做了一定的研究,提出了面向m p 3 音乐 哼唱检索的新算法。虽然他们的系统针对独唱歌曲有较好的效果,但对于多声部演 唱及无人声纯音乐效果却很不理想。 上海交通大学的李杨等【1 2 】提出了一种新的近似旋律匹配方法,并且利用这个旋 律匹配方法实现了一个音乐检索系统。与已有的基于内容的音乐检索不同,该算法 不是基于近似符号串匹配,统计模型或者特征空间,而是根据相近旋律的音高轮廓 在几何上的相似性,将音高和节奏特征一并考虑设计的新算法。实验系统在包含 3 8 6 4 首歌曲的搜索空间中,检索6 2 段哼唱输入,取得了9 0 3 的前3 位命中率, 相比传统的近似符号匹配高出近1 1 。 1 3 本文主要研究内容和结构 基于内容的音乐检索理论近年来在国外得到了较快的发展,但是由于算法复杂 度较高,检索速度较慢、没有得到广泛应用等原因,该项研究在国内进行的较少。 本文主要的研究内容是在研究学习国外部分最新算法的基础之上,研究开发出一套 复杂度相对较低,检索速度较快又较实用的基于内容的音乐检索系统,及其相关算 法。主要从以下几个方面开展工作: ( 1 ) 音乐哼唱检索技术原理研究。本文从分析音乐乐理、音乐的信号特征入 手,研究了哼唱检索的原理,并给出了用于系统实现的技术路线。 ( 2 ) 哼唱检索特征提取算法研究。本文将从多角度研究哼唱片段的特征提取 技术,建立旋律特征提取和旋律表示的数学模型,探讨一种旋律特征提取算法和旋 律表示策略,并给出相应算法。 ( 3 ) 音乐匹配及相似度算法研究。研究相关基于内容的音乐检索理论,在检 索理论的基础上引入线性匹配对齐算法,提高检索的成功率,实现基于内容的哼唱 检索。 ( 4 ) 进行哼唱检索系统的测试,通过大量的测试数据来验证旋律提取算法和 旋律匹配算法的合理性和有效性,并测试本文哼唱检索算法的稳定性和适应性。 4 第一章绪论 1 4 本章小结 在本章中,主要介绍了基于内容的音乐检索技术目前的国内外研究现状,论述 了基于内容的音乐检索的研究目的和意义,并重点介绍了本文的主要研究内容。 5 即高一个八度。在一个八度音内,有1 2 个半音。半音的名字按照频率由低到高分别 是a 、b 6 、b 、c 、c 群、d 、e 6 、e 、f 、f 撑、g 、g 撑。每两个音高之间相差一个半音, 之间的频率可以用公式2 1 表示。 d = 1 2 木l 0 9 2 ( i ) ( 2 1 ) 厶与z 分别表示两个音高对应的频率,d 表示以所对应音高与z 所对应音高相 距的半音个数。为解决合唱、合奏的定音、作曲的定调和乐器的制造的音高校正等 制定了统一音高标准。现行的国际标准音高为1 9 3 5 年5 月国际标准协会在伦敦通 过的a = 4 4 0 h z ,亦称“第一国际音高”。其他音高均可以通过公式2 1 和第一音高 6 第二章基于内容的音乐检索综述 计算出。 2 音长 音长就是声音的长短,它是由发声体振动延续的时间长短来决定的。延续时间 长,音长就长,反之音长就短。不同长短的音相互结合起来就产生了音乐的节奏、 节拍,从而构成了旋律的骨架。所以音长在音乐中占有十分重要的位置。 3 音量 音量就是声音的强弱,它是由发声体振动幅度的大小来决定的,又称为能量 ( e n e r g y ) 或强度( i n t e n s i t y ) 等。一般来说,振幅越大,音量就越强,反之音量就越弱。 在音乐中,音量的强弱会形成有规律的节奏、节拍重音,产生音乐的基本律动,不 同的音乐风格就有不同的强弱规律;同样,音乐情感的表达也离不开音乐强弱的变 化。 4 音色 音色就是声音的色彩,它是由发声体产生的泛音的多少和各个泛音的强弱来决 定的。主要是由发音体的材料性质、结构形状、发声方式及其泛音的多少等不同因 素来决定的,当不同的人或者不同的乐器以同样的响度说同一句话,或者演奏同一 首曲子的时候,入耳感觉不一样,人们能够反应出它们的差别,主要就是因为它们 的音色不同【1 4 1 。 2 2 音乐的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论