(信号与信息处理专业论文)基于内容的钢琴音乐检索研究.pdf_第1页
(信号与信息处理专业论文)基于内容的钢琴音乐检索研究.pdf_第2页
(信号与信息处理专业论文)基于内容的钢琴音乐检索研究.pdf_第3页
(信号与信息处理专业论文)基于内容的钢琴音乐检索研究.pdf_第4页
(信号与信息处理专业论文)基于内容的钢琴音乐检索研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(信号与信息处理专业论文)基于内容的钢琴音乐检索研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文 第1 页 摘要 随着网络技术和多媒体技术的快速发展,人们已经能够方便地接触到越来 越多的音乐,随之而来的问题是如何在这浩瀚的音乐中快速找到自己需要的音 乐。因此,对音乐检索的研究就变得尤为重要,它也逐渐受到人们的广泛关注。 传统的音乐检索都是针对哼唱那样的单声道音乐,对钢琴这样的复调音乐检索 研究则相对较少。但是,随着人们生活水平的提高,越来越多的人特别是儿童 对学习钢琴产生了浓厚的兴趣,并且钢琴是音域最为广泛的乐器。所以,研究 基于内容的钢琴音乐检索对于人们的生活娱乐和复调音乐检索研究都有很重 要的意义。 基于内容的钢琴音乐检索研究主要包含乐曲特征库的建立、特征提取、检 索匹配及相似度计算等几个方面,就此有以下研究工作: 1 、乐曲特征库的建立。通过读取m i d i 格式音乐文件,建立标准音高曲 库,为了提高检索速度,在标准音高曲库的基础上引入n g r a m s 索引算法,建 立以高音为关键词的特征索引库。 2 、分析o n s e t 点检测中关于峰值提取的自适应门限算法,发现基于中值滤 波的自适应门限具有不稳定性。通过对基于均值滤波的门限特性分析,研究中 值滤波和均值滤波结合的方法,使自适应门限比原来更为平滑,具有更高的稳 定性。并且进行了这两种门限情况下o n s e t 点检测结果的对比实验,结果表明 改进后的算法能取到更好的效果。 3 、针对现有音高估计算法无法准确提取钢琴音乐音高的情况,通过对谐 波峰值法的分析,给出以提取候选音高序列来代替提取准确音高。每个候选音 高序列的中的音高按照其频域幅度大小依次排序,根据音高所在位置的不同给 予不同得分,再根据得分得到相应地相似度计算算法。 4 、根据对钢琴音乐检索算法的研究,设计并实现了一个基于内容的钢琴 音乐检索演示系统。实验测试了不同长度音乐检索输入时,该系统的检索时间 和检索准确度的情况,从而给用户一些检索输入建议,以便能得到较高的检索 准确率。 关键词:钢琴音乐检索;o n s e t 点检测;音高提取;相似度计算 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h en e t w o r kt e c h n 0 1 0 9 ya n dt h em u l t i m e d i a t e c h n o l o g y ;p e o p l ea r ea b l et oc o n t a c tc o n v e n i e n t l ym o r ea n dm o r em u s i c t h e p r o b l e mi sh o wt of i n d 也em u s i cq u i c k l yt h a ti sp e o p l e sn e e di nt h ev a s tm u s i c t h e r e f o r e ,t h es t u d yo fm u s i cr e t r i e v a lb e c o m e sv e r yi m p o r t a n ta n d i ti sc o n c e r n e d g r a d u a l l yb yp e o p l e t h et r a d i t i o n a lm u s i cr e t r i e v a l a i m sa tm o n o p h o n i cm u s i c , s u c ha sh u m m i n g ,b u tt h e r ei sal i t t l er e s e a r c ho np o l y p h o n i cm u s i c ,s u c ha sp i a n o m u s i c h o w e v e r , w i t ht h ei m p r o v e m e n to fp e o p l e s1 i v i n gs t a n d a r d s ,m o r ea n d m o r ep e o p l e ,e s p e c i a l l yc h 订d r e nw h oh a v es t r o n gi n t e r e s t e di n1 e a r n i n gp i a n o ,a n d t h ep i a n oh a st h em o s te x t e n s i v er a n g eo fp i t c hi na l lo ft h ei n s t r u m e n t s s o ,t h e s t u d yo ft h e c o n t e n t b a s e dp i a n om u s i cr e t r i e v a li si m p o r t a n t t o p e o p l e s e n t e r t a i n m e n tl i f ba n dr e s e a r c ho np o l y p h o n i cm u s i cr e t r i e v a l r e s e a r c ho nt h ec o n t e n t b a s e dp i a n om u s i c r e t r i e v a li n c l u d e st h e e s t a b l i s h m e n to fa u d i of c a t u r e sd a t a b a s e ,f c a t u r ee x t r a c t i o n ,r e t r i e v a lm a t c h i n g a n ds i m i l a r i t vc a l c u l a t i o n t h i st h e s i sh a st h ef b l l o w i n gs t u d i e s : 1 e s t a b l i s h m e n to fa u d i of e a t u r e sd a t a b a s e s t a n d a r dd a t a b a s 9o fm u s i cp i t c h w a sc r e a t e db yr e a d i n gt h em i d if o m a tm u s i ca n dt h en g r a m si n d e xa l g o r i t h m w a si n t r o d u c e dt oe s t 2 山l i s hc h a r a c t e r i s t i ci n d e xd a t a b a s et a k i n gt h et r e b l ea s t h e k e yw o r d 2 a r e ra n a l y z i n gt h ea d a p t i v et h r e s h o l do nt h ep e a ke x t r a c t i o no fo n s e t d e t e c t i o n ,t h ei n s t a b i l i t yo ft h r e s h o l dr e s u l t e d f r o mt h em e d i a nf i l t e r i n gw a s f o u n d b ya n a l y z i n gt h ec h a r a c t e r i s t i co fa v e r a g e6 l t e r i n gt h r e s h o l d ,t h em e t h o d o fc o m b i n i n gt h em e d i a nf i l t e ra n dt h em e a nf i l t e r i n gw a sr e s e a r c h e dt oi m p r o v e t h es t a l b i l i t yo fa d a p t i v et h r e s h o l d t h ei m p r o v e da l g o r i t h ma n do r i g i n a l a lg o r i t h mw e r es i m u l a t e d ;t h er e s u l t ss h o wt h a tt h ei m p r o v e da l g o r i t h mc o u l d r e c e i v eb e t t e re f f b c tt h a no r i g i n a la l g o r i t h m 3 f o re x i s t i n gm u l t i p l ef u n d a m e n t a lf r e q u e n c ye s t i m a t i o na l g o r i m m sc a nn o t e x t r a c tp i t c ho fp i a n om u s i ca c c u r a t e l y am e t h o do fe x 仃a c t i o nt h es e q u e n c eo f c a n d i d a t e sf o rp i t c hw a sp r e s e n t e dt oi n s t e a dt h ea c c u r a t ep i t c hb a s e do nt h e a l g o r i t h mo fh a m o n i cp e a k s t h es o r to f e a c hp i t c hi nt h es e q u e n c eo fc a n d i d a t e s f b rp i t c ha c c o r d i n gt oe a c hp i t c h sm a g n i t u d eo ff i r e q u e n c yd o m a i n ,i na c c o r d a n c c w i t ht h ed i f - f e r e n t1 0 c a t i o no fc a n d i d a t e sf - 0 r e a c hp i t c hi ns e q u e n c e ,d i f f c r e n t 西南交通大学硕士研究生学位论文第1 il 页 l o c a t i o n so ft h e p i t c hw a sg i v e n d i f l f e r e n ts c o r e s a l g o r i t h mo fs i m i l a r i t y c a l c u l a t i o nw a sp r e s e n t e db a s e do nt h e s es c o r e s 4 a c c o r d i n gt ot h er e s e a r c ho nt h ea l g o r i t h m so fp i a n om u s i cr e t r i e v a l ,a c o n t e n t - b a s e dp ia n om u s i cr e t r i e v a ld e m os y s t e mw a sd e s i g n e da n dr e a l i z e d t h e e x p e r i m e n t a lr e s u l t sw e r ea n a l y z e da b o u tt h es e a r c ht i m ea n dr e t r i e v a la c c u r a c yi n t h ec a s eo ft h ed i f f b r e n tl e n g t ho fi n p u tm u s i ca n ds o m es u g g e s t i o n sw e r eg i v e nt o u s e r sa b o u tt h el e n g t ho fi n p u tm u s i ci no r d e rt og e th i g h e rr e t r i e v a la c c u r a c y k e yw o r d s :p i a n om u s i cr e t r i e v a l ;o n s e td e t e c t i o n ;p i t c he x t r a c t i o n ;s i m i l a r i t y c a l c u l a t i o n 西南交通大学硕士研究生学位论文 第1 页 1 1 研究背景及意义 第1 章绪论 从2 0 世纪9 0 年代开始,音频信息检索就成了国内外学者的主要研究对象 之一,主要是通过研究利用音频信息的幅度、频谱等物理特征,实现基于内容 的音频信息检索。根据检索对象和检索方法的不同,音频信息检索方面的研究 大体分为:语音类数据的检索、音乐类检索和音频例子检索【l 】。 随着互联网的发展和数字音乐的出现,人们已经可以更加便捷地接触到音 乐。早在2 0 0 5 年的时候,全世界人们下载音乐和手机铃声的价值就已经达到 了l l 亿美元,而这个数据就已经可以直接抵消唱片业下滑所带来的经济损失 【2 】。相应地,传统的听音乐和发现新音乐的方式,例如通过广播和唱片,也已 经被直接从网络下载的方式所取代。随着音乐的快速更新,人们现在的问题已 经不再是缺少音乐,而是如何在浩瀚的音乐世界中快速准确地挑选出自己所需 要的音乐,这是广大用户所面临的问题,也给相关网络公司提供了具有巨大商 业潜力的机遇。 因此,近些年来音乐检索成为了音频检索中最炙手可热的研究领域,早在 2 0 0 0 年,就有专门的会议“国际音乐信息检索研讨会( i n t e m a t i o n a ls m p o s i u m o nm u s i ci n f 0 咖a t i o nr e t r i e v a l ,i s m i r ) ”关注于此领域中的相关研究。根据检 索方式的不同,音乐检索分为哼唱检索、节拍拍打检索、演奏输入检索和乐谱 录入检索【1 1 ,钢琴音乐检索属于演奏输入检索。 传统的搜索引擎在信息检索方面已经取得了巨大的成功,类似g 0 0 9 l e 、 b a i d u 和y a h o o 等都是采用基于文本( t e x t - b a s e d ) 的检索技术,但对音频信息的 检索,目前还没有很成熟、有效的基于内容的检索方法【3 】,没有哪个搜索引擎 能够在音乐检索领域取得像g o o g l e 、百度在文本搜索领域中取得的成功。目前 的一些音乐搜索引擎,如搜狗音乐、百度m p 3 等,用户需要输入音乐的一些 外部特征,如乐曲名、作曲者、作词者、演唱者以及歌词、歌谱、音乐的风格 等信息来查找想要找的音乐。 很多时候,人们往往只记住了一些旋律曲调的片段,却不知道歌名、歌手、 歌词等信息,通过一首首听的方式来找想要的音乐是不现实的。在这样的情况 下,假如通过哼唱自己记得的旋律,而不需要提供其它与该音乐相关的文字信 息,就可以得到想要寻找的音乐,无疑会给人们带来很大的方便。需要注意的 西南交通大学硕士研究生学位论文 第2 页 是,并不是所有的音乐都可以通过哼唱检索的方式来完成,对于一个钢琴爱好 者,特别是初学钢琴的儿童,他们很难准确地记住钢琴音乐的曲名、作曲者等 一些基本信息,但是他们对钢琴的旋律却有着独特的敏锐性,他们更愿意希望 通过弹奏一段钢琴曲找到整首曲子。众所周知,绝大多数的钢琴曲并不是哼唱 那样的单声部音乐,而是多声部音乐,而且目前还无法准确地获得某一时间段 的准确音高,因此哼唱检索的方法还不能用来实现钢琴音乐检索。所以,如何 对现有的音乐检索方法做改进,对有效的检索钢琴音乐以及多声部音乐都有着 重要的意义。 1 2 国内外研究现状 音乐检索的研究工作主要是研究如何利用音乐特征等实现音乐信息的检 索,经过国内外众多学者几十年的研究,一系列针对音乐检索的不同处理阶段 的方法被提了出来,主要分为音乐特征提取和检索匹配算法。 1 特征提取算法 对连续音符的切分是特征提取的准备工作,可以通过o n s e t 点检测来实现, 其算法主要集中在检测函数和峰值提取上面。检测函数主要有基于信号特征的 算法和基于信号概率模型的算法,信号特征方面主要有时域特征【4 】、频域能量 特征及相位特征【5 】;概率模型主要包括基于变化点检测的模型【6 】和基于不同模 型间的检测瞬时转变算法【7 】。这几种算法都有其自身的不足,例如时域特征在 音乐信号幅度变化很小时效果不理想;频域能量特征的算法不能较好的检测非 打击乐的o n s e t 点:而基于概率模型的算法却普遍存在复杂度高、耗时的缺点。 峰值提取方面主流算法是通过采用基于中值滤波的自适应门限【8 】来提取正确 的峰值点,但其效果很不稳定。 通过音符切分,音乐便被分割成一系列单个音符,接下来就要提取每个音 符内的关键特征。连续的音符构成能够反映音乐内容特征的旋律,所以,现有 的音乐检索主要是利用音乐的音符、旋律、节奏等声学感知层特征,绝对音高 序列和相对音高序列就是常用的两种旋律表达方式。 绝对音高序列是由提取到的音符准确音高组成旋律轮廓,它能够达到对音 乐最为精准的检索,这就意味着用户要能非常准确的输入音乐音高,不容许有 变调之类的情况出现,否则就会导致检索失败。 相对音高序列组成的旋律轮廓降低了绝对音高序列中对用户准确把握音 高的条件,因此在实际中也得以更广泛的应用。g h i a s 等【9 】和r j m c n a b 等【l o 】 在哼唱检索方面用符号u 、d 、s ( 或r ) 表示音高的变化,s 表示音调的重复, 西南交通大学硕士研究生学位论文 第3 页 u 表示比其前面音符的音调高,d 表示比其前面音符的音调低。这种简化忽略 了音乐的其它信息,当数据库很大时就会出现检索不准确的问题【3 】。为此,文 献【1 1 】使用相邻音符音高的具体差值构成旋律轮廓,在具体差值的基础上定性表 示音高差值变化,对不同的差值进行区间划分,从而用不同的符号表示这些不 同区间。音乐旋律不仅包括音符音高,还包括音符的音长和音强等信息,所以 在只包括音高的情况下,检索准确度会随着数据库的增加而大幅降低。 同时是采用音乐旋律的三个基本要素构成旋律轮廓,即同时将音高、音强 和音长作为检索特征,相应的就要在提取音高的基础上再提取音强和音长信 息。t o mb r o n d s t e d 等【1 2 】同时使用音高变化( u ,d ,r ) 和音长变化( 1 0 n g e r ,s h o r t e r r e p e a t ) 作为特征。l i el u 【13 1 ,h u n g c h es h e n 【1 4 1 等用三元组合( 音高,音长,音 强) 来表达其特征,使用这样的三元组合进行检索时,要针对不同的检索输入 对这三个元素分别给予不同的权重,使这三个元素在对检索结果的影响不同, 从而提高检索准确度。 钢琴音乐属于多声部音乐,其旋律很难从音频信号中提取出来,因为音频 信号中的往往是多个频率成分的叠加,就算采用最先进的技术手段也很难将单 个频率从多声道音乐中分离出来【3 】。基于内容的钢琴音乐检索需要做进一步深 入研究,寻找适合钢琴音乐检索的有效特征。 2 音乐检索匹配算法 在音乐检索匹配算法中,旋律匹配是众多学者研究的重点之一,现有的主 流的检索方法大致分为四类: ( 1 ) 近似字符串匹配算法,这是从基于字符串的角度出发来考虑旋律的相 似度,通常计算两个旋律之间的编辑距离,即通过使用最少的插入、删除和替 换符号来实现两个旋律的一致,再根据符号变化的情况判断旋律匹配程度。如 动态规划( d y n a m i cp r o g r a m ,d p ) 法【15 1 ,n g r a m s 法【1 6 】等。 。 ( 2 ) 基于统计模型的算法,依据的是旋律频谱特征值在统计上的规律。对 旋律信号作短时分帧,从每帧的频谱提取特征向量,考察这些特征向量序列在 统计上的规律,多采用m a r k o v 统计模型【1 7 】。在检索前要对每首已知旋律分别 训练建模,然后计算待测旋律在这些模型上的概率,挑选概率最大的作为检索 结果。 ( 3 ) 音高轮廓几何匹配算法,将提取到的连续音高以曲线的形式描绘出来, 判断其与特征库中的音高曲线相似度,通常比较两条曲线之间的面积大小,面 积越小则相似度越高,这种曲线的比较还可以通过平移、伸缩寻找两条曲线的 最小面积,这样做也就提高了音乐检索的容错性。常见算法有线性对齐匹配算 法【1 8 】和跨越式快速匹配算法( l e a p t ) r p eh i g h s p e e dm a t c h i n g ,l h m ) 【1 9 】等。 西南交通大学硕士研究生学位论文 第4 页 ( 4 ) 基于特征空间的算法,通过特征提取步骤提取到音频信号的特征向量, 再将其通过特征空间曲线的形式表示出来,然后采用经典的特征空间中的匹配 算法计算相似度,经典算法如k n e a r e s tn e i g h b o rs e a r c h 【2 0 1 ,这种算法的最大 优势在于不用对连续音符做分割。 检索算法的选取很大程度上依赖于提取特征的情况,对于钢琴音乐,目前 无法提取到精确的音高,这给钢琴音乐检索提出了巨大的挑战。本文拟通过提 取含有音高的序列来代替准确音高,再通过深入学习音乐检索匹配算法,完成 钢琴音乐检索工作。 1 3 论文的主要研究工作及内容安排 近年来,基于内容的音乐检索研究已经取得了较快的发展,其算法也相对 成熟。但是复调音乐检索研究就相对要少很多。本论文的研究目的就是在学习 和研究单调音乐检索的基础上,研究以钢琴音乐为例的复调音乐检索。 按照音乐检索的一般步骤,结合国内外音乐检索及其相关理论的研究动 态,将从以下几个方面着手研究:钢琴音乐音符分割、音乐音高提取、音乐检 索算法研究及系统实现。 第一章,绪论。阐述论文背景、研究意义、基于内容的音乐检索国内外研 究现状及本论文的研究工作和内容安排。 第二章,基于内容的音乐检索基本知识。针对音乐检索要用到的一些基本 理论知识,介绍音乐基本乐理知识,阐述目前现有的常用音乐数据表示形式, 着重描述m i d i 表示形式,最后给出通常情况下的音乐检索步骤,这也是论文 后面工作的主线。 第三章,主要分析音符分割和音高提取算法。采用现有基于频域特征的音 符分割算法实现对钢琴音乐的音符分割。采用自适应门限完成对检测函数的峰 值提取,针对基于中值滤波的自适应门限不稳定这一缺陷,将均值滤波和中值 滤波结合,使自适应门限更为平滑从而提高门限的稳定性。针对钢琴音乐音高 提取难度大的特点,通过对传统音高提取算法的分析,在基于谐波峰值法的基 础之上提取候选音高序列,并以此为检索特征。 第四章,研究基于内容的钢琴音乐检索算法。主要包括n g r a m s 索引算法、 近似字符串快速匹配算法和字符串相似度计算算法,通过对这些算法的分析, 结合候选音高序列为检索特征这一实际情况,建立只包含高音的n g r a m s 索引 特征库以提高搜索速度。最后,根据提取的候选音高序列特征,给出相应的钢 琴音乐相似度计算算法。 西南交通大学硕士研究生学位论文 第5 页 第五章,通过对钢琴音乐检索算法的分析和研究,使用m a t l a b 设计并 实现了一个简单的钢琴音乐检索演示系统。给出了整个检索系统的结构示意 图,并对系统做了检索准确度测试和耗时测试,对实验结果进行分析,同时也 指出了该系统的一些不足之处。 总结与展望。总结了本文所做的主要研究工作,并分析了现有工作的不足 之处,同时对今后的工作做了展望,指出以后需要继续研究的若干问题。 ,西南交通大学硕士研究生学位论文第6 页 2 1 引言 第2 章基于内容的音乐检索基本知识 目前,音频检索中最活跃的研究领域就是音乐检索,通过基于内容的音乐 检索能够实现对用户音乐片段输入检索。为了后面研究工作的顺利进行,本章 首先介绍音乐的基本乐理知识和音乐存储的不同格式,同时也简要介绍m i d i 音乐格式结构,最后给出基于内容的钢琴音乐检索步骤图,论文后面的工作就 按照音乐检索步骤依次进行。 2 2 音乐乐理基础 研究音乐检索的第一步就是先要了解基本的乐理知识,下面着重介绍一些 与检索有关的基本乐理知识。 按照音乐理论,“乐音体系 是指在音乐中使用的有固定音高的音的总和 【2 。乐音体系中有以下概念: 音级:乐音体系中的各个音,是划分音阶中各个音间音程的单位,分为基 本音级和变化音级两种。乐音体系中七个具有独立名称的音级叫做基本音级 瞄,分别以c 、d 、e 、f 、g 、a 、b 这7 个字母命名;由基本音级通过升高 或者降低而得来的音就是“变化音级 【2 1 1 。 音程:音与音之间音高的距离,以度为单位来衡量【2 。以简谱为例,从 1 到l 或者从3 到3 都是一度,从1 到3 则是三度。 音列:是指将乐音体系中的音,按照下降或上升的次序排列起来【2 1 1 。 音域:包括总的音域和个别的人声或乐器的音域两种类型【2 1 1 。总的音域是 对音列中最低音到最高音间的距离而言。个别的人声或乐器的音域是指对于整 个音域而言,人声或乐器的音域所能达到的那一部分,如钢琴的音域是a 2 c 5 。 音符( n o t e ) 是乐谱中用来记录长短不同的音的符号,包括符头、符干和符 尾三部分组成【2 。从特征方面来讲,每个音符又包含音高、音长和音强三个部 分,下面依次描述这三个特征。 音高( p i t c h ) 表征音符音调的高低情况,在物理学上,音高和频率关系密切, 频率越高对应的音高越高,反之则音高越低。与此相关的还有基音和泛音的概 念,基音和泛音从物理学的角度来讲分别是本征频率和谐振频率。音高由基音 西南交通大学硕士研究生学位论文 第7 页 决定,而音符的音色则是由泛音决定,但人们还是能够清楚的感觉到基音的响 度【3 1 。 以钢琴键盘为例,钢琴上的8 8 个键盘分别对应一个音高,不管黑键还是 白键,相邻两个键都是相差半音的距离。通过文献 2 2 可知,按照五= 4 4 0 h z , 与石相差咒个半音数目的音x 的频率六可通过公式( 2 - 1 ) 得到: 六= 厶( w 2 ) 4( 2 1 ) 公式( 2 1 ) 中刀= 4 8 :3 9 。若需要计算的频率六高于石,取,l o ,反之当 珂 0 时得到的正低于。钢琴中,珂= 一4 8 对应琴键的最低音2 7 5 0 h z ,靠= 3 9 则对应琴键的最高音4 18 6 0 0 h z 。 音长是指单个音符发音所持续的时间。在音乐中,音符的持续时间有着明 确的规定,即不同音符的持续时间之间有严格的比例关系,以全音符为基础, 其它的音符命名均以与它的比值来定,如全音符的二分之一就是二分音符、四 分之一则为四分音符,依次有八分音符和十六分音符等【2 。 音强代表音符的强弱,由振幅( 音的振动幅度大小) 决定,在主观感受上表 现为响度。以弹奏钢琴为例,音强越强说明按键的力度越大,音强越弱则表明 按键力度越小。 除此之外,还有必要了解音乐的旋律,也称为曲调。简单的定义是单调的 连续音阶序列,是按照音的高低、长短和强弱关系而组成的音的线条,其音高、 长短和强弱中任何一个发生变化,旋律就会变化。 2 3 音乐数据的表示形式 为了更好的研究音乐检索,有必要先了解音乐的数据形式,其表示形式可 分为如下三类【l 】: 1 结构化的符号表示形式。这种格式的有m i d i ( m u s i c a l i n s t r u m e n td i g i t a l i n t e r f a c e ) 、n i f f ( n o t a t i o ni n t e r c h a n g en l ef 0 珊a t ) 和s m d l ( s t a n d a r dm u s i c d e s c r i p t i o nl a n g u a g e :f 等。m i d i 格式是最常用的格式,其记录音乐的演奏方式 是以时间标记音乐事件的方式来完成,能够包含丰富的音乐信息,但要表达人 的声音却很难。 2 音频形式。音频数据用以描述音乐、语音等所有声音,按照存储格式 的不同分为压缩格式和非压缩格式,如常见的m p 3 、m p g e 等就是压缩格式的 音频数据,而p c m 、w a v 格式则是非压缩格式。 3 乐谱形式。它包含了音高、歌词等丰富的音乐信息,是一种传统的音 西南交通大学硕士研究生学位论文 第8 页 乐表示形式。这种表示形式常用于印刷品的音乐书刊和杂志中。 接下来,从另一个角度再来看看音乐的分类,这是根据音乐中同时发音的 音符数量多少和发音时间是否相同,将音乐分为如下三类【l 】: 1 单声部音乐( m o n o p h o n i cm u s i c ) 是指前一个音符结束发声后,下一个音 符才开始发声,同一时间只能有一个音符发声。 2 齐奏音乐( h o m o p h o n i cm u s i c ) 是指多个音符可以同时发声,这些同时发 声的音符必须同时开始、同时结束。 3 多声部音乐( p o l y p h o n i cm u s i c ) 是指同一时间可以有多个音符发声,各个 音符没有像齐奏音乐那样对音符的时间限制。 本论文的研究对象钢琴音乐属于多声部音乐,其音乐结构也是最复杂的, 这使得其检索工作难的加大。目前的音乐检索关于单声部的m i d i 方面研究较 多,对多声部音乐检索,由于输入片段特征提取和相关的快速匹配工作都比较 困难,所以研究的相对较少【l 】。 2 4m i d i 音乐格式分析 m i d i 又名乐器数字接口,是一个工业标准的龟子通信协议,为电子乐器 等演奏设备( 如合成器) 定义各种音符或弹奏码,容许电子乐器、电脑或其它的 演奏配备彼此连接,调节和同步,得实时交换演奏数据【2 3 1 。 m i d i 是以指令序列( 二进制指令的形式) 的方式记录音乐演奏的音符事件, 能明确的说明演奏的乐器在什么时候演奏什么音符。每个音符的属性及相关信 息( 如音符的开始时间、结束时间和音高,以及演奏所用的乐器等) 都有明确记 录,所以通过对m i d i 格式的解析就能获得较准确的音乐旋律。 m i d i 文件中的音符都是存在于某个通道中,通常一个通道会对应某一个 乐器,各个通道之间相互独立,不同通道中的音符也是相互独立。对每首m i d i 音乐来说,其通道数目不定,但是最多不能超过1 6 个。 标准的m i d i 文件格式基本上都是由头块和轨道块两部分组成【2 3 1 。头块中 存储描述文件格式的信息,轨道块中存储的则是描述m i d i 音乐的信息。 1 头块 头块出现在文件的开始,用1 4 个字节的长度提供关于整个m i d i 文件的 最小数量信息,其头块格式为:4 d5 46 86 4o o0 00 00 6f ff fn n n nd dd d 。前四 个字节“4 d5 46 86 4 是“m t h d 的a s c i i 码,标示m i d i 文件类型;后面 的“o o0 0o o0 6 ”为头文件长度,目前的头文件长度都是6 字节,所以这也是 一固定值;表2 1 描述最后的6 个字节意义: 西南交通大学硕士研究生学位论文 第9 页 表2 1m i d i 文件头块数据意义 字节含义 n nn n 指定音轨数目。 d dd d 一个四分音符的t i c k ( m i d i 中的最小时间单位) 数,即四分音符的时间。 2 轨道块 头块之后就是轨道块,所有的轨道块都要包含一个头部和许多m i d i 命令。 轨道块头部的格式为:4 d5 47 26 bx x x xx xx x ,其中“4 d5 47 26 b 是 “m t r k 的a s c i i 码,也是音轨的标识符。紧跟其后的4 字节“x xx xx xx x 表明该音轨是多少个字节的长度。 轨道块头部之后就是m i d i 事件序列,一般情况下格式为 ,d e l t a t i m e 表示后面事件和前一事件之间的间隔节奏数, 单位是t i c k 。e v e n t 就是m i d i 事件,其种类很多,如音符打开、音符关闭等信 息。 m i d i 文件音高提取是指从m i d i 文件解码中得到与音高有关的音符序列, 这些音符序列中有一部分是主旋律还有一部分则属于伴奏乐。根据文献【2 4 】可 知,音乐主旋律通常都会有以下特点:( 1 ) 主旋律的音高相对伴奏都比较高;( 2 ) 主旋律的音量一般都比伴奏的音量大,音乐的主要声音来源就是主旋律;( 3 ) 和 弦不会在主旋律中大量存在;( 4 ) 主旋律的音高、曲调变化丰富,伴奏的变化则 过于缓慢;( 5 ) 自始至终都处于节奏很快的一般不会是主旋律,这有可能是伴奏; ( 6 ) 具有相同旋律片段不断重复的是伴奏的可能性要大,主旋律不会有太多的 重复片段出现;( 7 ) 主旋律的音轨通常都比较长,过短的音轨是主旋律的可能性 不大。 根据以上这些特点,文献 2 5 】给出了提取主旋律的算法,本论文使用提取 主旋律的方法完成了提取钢琴音乐的高音,从而建立了以高音为关键词的特征 索引库。 2 5 钢琴音乐检索步骤 基于内容的音乐检索步骤,从大的方面来说包括乐曲特征库生成和乐曲特 征库检索。乐曲特征库生成是通过对音乐数据的特征提取来完成,采用提取 m i d i 格式的钢琴音乐音高来组建检索特征库。当用户输入检索音乐片段时, 西南交通大学硕士研究生学位论文 第1 0 页 通过特征提取生成检索特征,再通过和音频特征库的匹配来找到目标音乐,最 后将检索结果返回给用户。具体检索步骤见图2 1 所示: 乐曲特征 库生成 乐曲特征 库检索 图2 1 基于内容的钢琴音乐检索步骤图 整个音乐检索工作中,乐曲特征库检索是关键部分,其中最为重要的是特 征提取和检索匹配。用户输入检索音乐片段后,首先做音符分割,然后提取用 于检索的特征,该特征要能够足以表征音乐的特点,所以一般都采用音符音高 为检索特征。 一一提取到检索特征之后就要做检索匹配。根据前面提取到的检索特征,为了 提高检索速度考虑引入索引,然后在索引的基础之上再做快速匹配。因为这里 要引入索引,所以在建立音频特征库的时候,也要建立一个供索引用的特征库, 通过索引再确定检索特征应该与哪首音乐做快速匹配。同时,在匹配中还需要 定义相似度计算算法,最后按照相似度高低,将相似度最高的若干首乐曲名作 为检索结果返回给用户。 2 6 本章小结 对音乐,特别是钢琴音乐的基本乐理知识给了简要介绍,同时也阐述了音 乐的存储形式和分类,其中详细描述了m i d i 音乐格式的基本信息,最后给出 了音乐检索工作步骤图,论文后面的工作也是根据此检索步骤依次展开。 西南交通大学硕士研究生学位论文 第1 1 页 3 1 引言 第3 章音乐旋律特征提取算法研究 音乐的众多特征中,旋律不可否认是音乐的灵魂,是音乐的本质特征。一 系列连续音高表现为旋律,面对采集到的连续音乐信号,要提取音高就必须先 要做端点检测以完成音符分割,然后才可以进行特征提取。本章分析端点检测 和音高提取的算法,改进原有端点检测算法,并且在无法准确提取音高的情况 下转而提取候选音高序列为检索特征。 3 2 音乐端点检测算法 音乐检索中,钢琴音乐以音频信号的形式采集到计算机内部,这些被采集 到的音频信号都是附加( 连续音符之间是叠加、互不隐藏的) 和非平稳的,不可 一- 一一能从时域就能准确的检测出音符的端点。在分析现有算法之前,先通过下面的 图3 1 来了解一下单个音符的各个组成部分8 1 。 幅 度 时间 图3 1 理想状况下的单个音符示意图 如图3 - 1 所示,单个音符主要包括4 部分:a t t a c k 即起奏,是音符幅度包 络快速上升的时间段;t r a n s i e n t 即瞬态,指示演奏者的真正演奏时间,之后的 西南交通大学硕士研究生学位论文第12 页 时间就是乐器本身的缓慢衰减( d e c a y ) 和共振;o n s e t 为起始点,是演奏一个音 符的真正开始时间,通常o n s e t 点也是瞬态的最初时间点。 端点检测就是检测出图3 1 中的o n s e t 点位置,国内外学者对此已经提出 了很多算法。j u a np a b l ob e l l o 【8 】在2 0 0 5 年的时候就已经写了关于o n s e t 点检测 算法的综述性文章,同样具有指导性的还有s d i x o n 【2 6 】的文章。音乐端点检测 的难点是能够准确的检测出各种音乐信号的端点,比如不同节奏、不同风格等 等音乐信号。主流的端点检测算法过程如图3 2 所示: 0 2 譬。删鳓 on 5 。;f 原始音频信毒言 2 时间s 2 5 a ) 原始音频信号图 6 0 0 一- 一1 一 淄4 0 0 4 喵i 拦2 0 0 i 0 , ,“、 一 ol土=_二二一:_=一 01 0 2 03 04 05 0 b ) 简化 帧数 o 2 石刁丁刁u - c 广一西一 羹。期删删黼 :煳:与 2 时卧2 5 c ) o n s e t 检测图 。_ 5 图3 2 端点检测算法过程图 如图3 2 所示,端点检测算法一般分为以下3 步: 1 预处理。对采集到的原始音乐信号做降采样、分帧等处理,以提高检 测算法的性能。 2 简化。将原始音频信号转换为能突出音符起始点的特征序列,也称为 检测函数,这一步是端点检测的关键步骤,也是该方向众多学者研究的热点之 一,其算法可以分为基于信号特征的算法【4 】和基于概率模型的算法【6 ,2 7 1 两类。 其中基于概率模型的算法普遍耗时很多【8 】,这不利于音乐检索的要求,所以选 取基于信号特征算法中的基于频谱差值的方法,虽然这种方法很简单,但与其 它方法【2 8 ,2 9 】相比却能取得相同甚至更好的效果【3 0 1 。 3 峰值提取。检测函数已经表征了o n s e t 点的位置,这一步的任务就是提 西南交通大学硕士研究生学位论文 第13 页 取检测函数中表征o n s e t 点的峰值点,这方面的峰值提取算法主要是通过设置 门限【8 1 来完成提取真正峰值点、去除伪峰值点的工作。 3 2 1 基于信号频谱差值的检测算法分析 检测函数采用基于信号频谱特征的方法【8 1 ,这种方法在多乐器演奏的多声 部音乐中取得了良好的效果。首先考虑信号z ( ,1 ) 的短时傅里叶变换( s h o r t t i m e f o u r i e rt r a n s f o m ,s t f t ) : 盟一l 五( 力) = 工( 砌+ 研) w ( 所) e 亍厂 ( 3 1 ) 7 22 ,删,l 七 m :一型 上式中以朋) 是点的窗函数,进行傅里叶变换取2 的幂次数,j 7 l 是帧移, 一般情况下取帧移为的一半即可。选取窗函数的时候,窗口选择的不同将直 接影响到音频信号分析的结果。所以必须考虑窗口的形状和长度,一般常用的 有矩形窗,或其他形式的汉明窗。矩形窗函数形式: 州= 怯巍州 限2 , 汉明窗函数形式: 川4 以4 6 c 0 s 口翮心。1 妇巍州 ( 3 3 )以玎) 2 1o , 。 、 川 其他 ( 3 3 上面的两个窗函数都具有低通的特性,但对信号分帧后短时特征的影响却 不同。矩形窗具有良好的谱平滑性,缺点是会丢失波形细节,易导致泄漏现象 的发生;相比下的汉明窗因其能够有效地克服泄漏现象而得到了最广泛的应 用。 再来看窗口长度,信号的采样周期z 、窗口长度和频率分辨率鲈之间 的关系【1 】是: 产 1 ,= 一 。i ( 3 4 ) 其中,f 为采样频率,z 为采样周期。 从公式( 3 4 ) 可以看出,能否反映音频信号的幅度变化,窗的长度起决定性 的作用。如果特别大,对音乐信号就相当于很窄的低通滤波器,所以就无法 完整的反映波形变化细节;相反,如果特别小,窗口内的信号能量对于信号 波形的细微变化都会有迅速的起伏,但却无法得到平滑的短时信息,因此窗口 的长度要选择合适。 西南交通大学硕士研究生学位论文 第14 页 接下来实现第2 步简化。信号能量通常集中在低频部分,对于连续音符构 成的音频信号,其引发能量显著变化的瞬态却是在高频部分【3 1 1 。因此,n i c k c o l l i n s 等人【3 2 1 为了获取较好的检测效果,在计算能量时加入权重以提高高频 部分的能量,具体见下面公式( 3 5 ) : ,孚j 啻= 专艺k ( 以) 1 2 ( 3 5 ) t 。旦 2 公式( 3 5 ) 中的就是频率权重。m a s r i 【3 3 1 使= 提出了高频分量的检测 函数,这种方法使瞬态期的峰值更加尖锐,而且对由敲击乐器所发出的音符起 始点检测效果很好。 音符分割更重要的是检测频域能量突变的增加部分,更一般的方法是基于 频谱变化的,定义检测函数为连续短时傅里叶频谱的“距离 ,根据度量选择 计算此距离,从而构造检测函数。在距离计算方面,m a s r i 【3 3 使用l 1 范数,然 而d u x b u r y 【2 7 】则采用l 2 范数,即 丝一1 一 妨( 以) = 日( i x 。o ) i _ i x 。( 刀一1 ) 1 ) ) 2 ( 3 6 ) i :一生 2 上式中l 五 ) i _ i 墨一1 ) 计算当前帧和前一帧的短时傅里叶变换系数的差 值,再用月= + h ) 2 仅保留了差值中增加的部分,这样计算出来的结果就 充分体现了能量突变中的增加部分。 取z = 1 10

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论