(计算机软件与理论专业论文)基于哼唱的音乐检索技术研究与实现.pdf_第1页
(计算机软件与理论专业论文)基于哼唱的音乐检索技术研究与实现.pdf_第2页
(计算机软件与理论专业论文)基于哼唱的音乐检索技术研究与实现.pdf_第3页
(计算机软件与理论专业论文)基于哼唱的音乐检索技术研究与实现.pdf_第4页
(计算机软件与理论专业论文)基于哼唱的音乐检索技术研究与实现.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机软件与理论专业论文)基于哼唱的音乐检索技术研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着多媒体技术和网络的迅速发展,数字化的视频、音频信息已取代模拟视频、 音频信息遍及i n t e r n e t ,如何从海量的数字信息中检索出我们需要的内容,是当 前研究的热点问题之一。传统的音乐信息检索方法是基于曲名、作者、演奏者等等 这样的属性。但这种方式并不是最理想的检索方式。这些信息本质上讲不是音乐内 容本身,而是音乐的附属特征。一般情况下人们通过音乐的旋律特征来记忆音乐【n , 所以很自然的想到利用哼唱歌曲旋律的方式来进行音乐的查找。基于内容的音乐检 索技术是近年来的研究热点之一,它试图通过提取音频流中音高、音长等特征来表 达和识别音乐的内容,并按照相似度量的方法检索音乐。其中最主要的两个问题是 音乐特征提取和旋律的检索匹配。 本文以音乐检索为背景,主要对哼唱容易发生的错误,音高的提取和检索算法 进行了研究,在此基础上设计了一种音高提取方法,并从降低哼唱错误和特征提取 不精确对检索的影响出发,提出了一种峰值对齐匹配算法。主要工作如下: ( 1 ) 研究与检索相关的音乐知识。对声音的四要素,乐曲的定调规则,半音与声 音频率的对应关系等进行了深入的研究,在此基础上总结了哼唱的音调与标 准音调之间的差异。这些工作确定了提取何种特征,特征的量化,以及如何 降低哼唱错误对检索的影响。 ( 2 ) 研究数字信号处理在特征提取中的应用。对时域分析和频域分析作了细致的 分析和研究。由于歌曲声中混杂着人声、各种乐器声、掌声以及环境噪声等 问题,因此设计了一种复杂声音环境下的主旋律音高提取算法。在音长提取 方面,本文设计了一种不限定哼唱方式的音符分割方法,该方法也适用于从 一般歌曲中提取的音高特征序列。因为两种算法的设计,使得本文所设计的 原型系统中音乐库可以使用w a y 等格式的音乐,而非多数人使用的m i d i 格 式。 ( 3 ) 提出了峰值对齐匹配法。此算法与( u ,d ,r ) 算法【2 l ,n g r a m 算法【3 l 等字符 串模糊匹配算法t 4 1 及基于h m m 的检索算法等统计模型的算法 s y l 相比较 属于轮廓比较算法【8 】o 该算法可以较容易的降低哼唱中多种错误对检索过程 的影响。算法速度优于以( u ,d ,r ) 算法为代表的部分字符串模糊匹配算法, 捕要 也快于基于h m m 模型的统计检索算法。实验结果表明,该算法是有效的, 查询者绝大多数情况下能在查询结果的前几位找到查询的目标音乐。 通过上述工作,证明了本文中算法的有效性,并建立了原型系统,实现了基于 哼唱的音乐检索。在基于内容的音乐检索方面进行了有益的探索和研究。 关键字:基于内容的音乐检索,哼唱检索,特征提取,基频,音频分割 a b s t r a ( ;r a b s r r a c t w 胁t h er a p i dd e v e l o p m e n to fm u l t i m e d i aa n di n t e r n e tt e c h n i q u e s 。t h e d i g i t a li n f o r m a t i o no fv i d e oa n da u d i oh a st a k e nt h ep l a c eo ft h es i m u l a t e dv i d e o a n da u d i o ,a n db e e nf o u n di nt h ei n t e m e te v e r y w h e r e r e c e n t l y , i ti sah o t p r o b l e mh o wt or e t r i e v et h ei n f o r m a t i o nt h a to u rn e e di nl a r g e s c a l ed i g i t a la u d i o i n f o r n l a t i o n c l a s s i c a im u s i cr e t r i e v a im e t h o di sb a s e dt h e s ea t t r i b u t e so fm u s i c n a m e 。a u t h o ra n dp l a y e lb u tt h i s r e t r i e v a im e t h o dj sn o ti d e a l 1 nt h ev i e wo f i n f o 帅a t i o ne s s e n c e 。t h i si n f o r m a t i o ni sn o tm u s i cc o n t e n tb u ta t t a c h e df e a t u r e u s u a l 嗽h u m a nr e m e m b e rm u s i cb yt h em u s i cm e l o d y , s ow er e t d e v em u s i cb y h u m m i n gt h em u s i cm e l o d y r e c e n t l y , c o n t e n t - b a s e dm u s i cr e t r i e v a lt e c h n i q u e h a sb e e no n eo fh o tr e s e a r c hp r o b l e m s ,a n di te x p r e s s e s ,r e c o g n i z e st h em u s i c c o n t e n tb ye x t r a c t i n gp i t c hf e a t u r e sf o i t ra u d i of r e q u e n c y , a n dr e t r i e v e sm u s i c a c c o r d i n gt oc o m p a r a b i l i t ym e a s u r e t h et w om o s ti m p o r t a n tp r o b l e m sa r e e x t r a c t i n gm u s i cf e a t u r ea n dm a t c h i n g ,r e t d e v i n gm a l c o l m b yt h em u s i cr e t r i e v a l f o rb a c k g r o u n d ,t h i sp a p e rm a i n l yr e s e a r c h e st h e e r r o rw h e nh a m m i n g ,t h ee x t r a c t i n ga n dr e t r i e v a la l g o r i t h mo fp i t c h ,t h e no nt h e b a s i so ft h e s e ,i td e s i g n sae x t r a c t i n gm e t h o do fp i t c h m o r e o v e r , i tp r e s e n t sa k i n do fw a v e d d g em a t c h i n ga l g o d t h m i nt h ev i e wo fr e d u c i n gh a m m i n ge r r o r sa n d t h ee f f e c tt h 酿n o - p r e c i s ee x t r a c t i n gt or e t r i e v a l 1 1 1 em a i nc o n t r i b u t i o n so ft h i s p a p e ra r e : ( 1 ) p r o f o u n dr e s e a r c hm u s i ck n o w l e d g ew j t hr e l a t e dt or e t d e v a l i tp r o f o u n d r e s e a r c h e st h ef o u rf a c t o r so fm u s i c ,m a k i n gt o n a l i t yr u l eo fm u s i c ,t h er e l a t i o n o fs e m i t o n ea n ds o u n df r e q u e n c y o nt h eb a s i so ft h e s e ,i tg e t st h ed i f f e r e n c e o ft o n a l i t yb e t w e e nh a m m i n ga n ds t a n d a r dt o n a l i t y t h e s ew o r kd e t e r m i n a t e e x t r a c t i n ga n dq u a n t i f i c a t i o no ff e a t u r e ,a n dh o wt or e d u c et h ee f f e c tt h a te r r o r h a m m i n gt ot h er e t r i e v a la l g o r i t h m ( 2 ) r e s e a r c ht h ea p p l i c a t i o no fd i g i t a ls i g n a li nt h ep r o c e s so fe x t r a c t i n gf e a t u r e i t p r o f o u n da n a l y z e s ,r e s e a r c h e st h et i m e - d o m a i na n df r e q u e n c y - d o m a i n a c c o r d i n gt ot h e s ep r o b l e m st h a ta r eh u m a ns o u n dm i n g l e di nt h em u s i c v a d o u sk i n d so fs o u n do fm u s i c a ii n s t r u m e n t a p p l a u s ea n de n v i r o n m e n t n o i s e ,i td e s i g n sak i n d o fa l g o r i t h mo fp i t c ho fm a i nm e l o d yu n d e rt h e e n v i r o n m e n to fc o m p l e xs o u n d 1 nt h ed u r a t i o n st i m eo fs o u n da s p e c t i t d e s i g n sak i n do fn o t ed i v i s i o nm e t h o dt h a th a sn oi i m j ti nh a m m i n gw a y s t h i s m e t h o di ss u i t a b l et op i t c hf e a t u r ee x t r a c t e df r o mt h eu s u a lm u s i c b e c a u s eo f t h e s et w oa l g o r i t h m s t h es y s t e m 廿1 a ti sd e s i g n e di nt h i sp a p e rc a r lu s ew a y m u s i ci nt h em u s i cd a t a b a s e h o w e v e rm o s tp e o p l eu s et h em i d im u s i c ( 3 ) p r e s e n tp e a kv a l u ea l i g n m e n tr e t r i e v a l t h i sa l g o r i t h mi sd i f f e r e n tw i t h ( u ,d , r ) ,n - g r a mt h a ta r ec h a r a c t e rs t n n gf u z z ym a t c ha l g o r i t h m s i ti sd i f f e r e n tw i t h b a s e d h m mr e t r i e v a la l g o r i t h mt h a ti sb e l o n g st os t a t i s t i cm o d e l ,i ti sb e l o n g s t oo u t l i n ec o m p a r i n ga l g o r i t h m t h i sa l g o r i t h mc a ne a s i l yr e d u c et h ee f f e c tm a t m a n yk i n d so fe r r o r so fh a m m i n gt ot h ep r o c e d u r eo fr e t r i e v a l 1 1 1 es p e e do f a l g o r i t h mi sb e t t e rt h a n ( u 。d 。r ) a l g o r i t h mt h a tr e p r e s e n t a t i v ep a r tc h a r a c t e r s t n n gf u z z ym a t c ha l g o r i t h m ,a n di sg r e a t l yb e t t e rt h a nb a s e d h m mm o d e l s t a t i s t i cr e t r i e v a la l g o r i t h m e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ea l g o r i t h mi s e f f e c t i v e a n di nm o s lc a s e su s e r sc a nr e t d e v eo b j e c tm u s i ci nt h ef r o n to ft h e r e t d e v a lr e s u l t s t h i sp a p e rp r o v e dt h ee f f i c i e n to fa l g o r i t h m sp r e s e n t e di nt h ep a p e rb yt h e a b o v ew o r k a n dd e s i g n e dap r o t o t y p es y s t e mt h a ti sh a m m i n g - b a s e dm u s i c r e t d e v a l t h i sp a p e rh a sb e n e f i c i a lr e s e a r c h e da n de x p l o r e di nt h ec o n t e n t - b a s e d m u s i cr e t r i e v a la s p e c t k e yw o r d s :c o n t e n t b a s e dm u s i cr e t r i e v a l ,q u e wb yh u m m i n g ,f e a t u r ee x t r a c t i o n , f u n d a m e n t a lf r e q u e n c y , a u d i os e g m e n t a t i o n 论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。 论文中除了特别加以标注和致谢的地方外,不包含其他人或其他机构已 经发表或撰写过的研究成果。其他同志对本研究的启发和所做的贡献均 已在论文中作了明确的声明并表示了谢意。 作者签名:害侄 日期勋们尹 论文使用授权声明 本人同意上海海事大学有关保留、使用学位论文的规定,即:学校 有权保留送交论文复印件,允许论文被查阅和借阅;学校可以上网公布 论文的全部或部分内容,也可以采用影印、缩印或者其他复印手段保留 论文。保密的论文在解密后遵守此规定。 作者签名:鲁侄导师签名:眯峒日期叼a 第一章绪论 1 1 研究问题的提出 第一章绪论 声音是人类信息交流的重要方式之一。实验表明:人类获取的信息大约有7 0 来自于视觉,2 0 来自于听觉,而其他感觉器官获取的信息量仅占1 0 。随着社会 信息化的建设、通讯技术的进步、互联网传输速度的大幅度提高,多媒体技术的迅 速发展,以及新的有效的多媒体编码技术的不断出现,多媒体数据已经成为了网络上 传送的主要信息。互联网上音频、图像、视频等多媒体信息的数量还在飞速增长。 如何有效的管理这些信息,以及高效的从海量的数据中获取有用的信息显得日益重 要。当前主流的搜索引擎,如o o o g l e 、y a h o o 、b a i d u ,在文本检索方面非常强大, 但对多媒体数据的检索也仍然采用的是基于文本检索的方式完成的。研究一些更加 高效,符合人类交流习惯的检索技术是信息技术发展的迫切需要。因此多媒体检索 技术应运而生。音频检索作为多媒体检索技术的重要部分之一,是目前国内外信息 检索技术领域普遍关注的一个课题。 近年来,受到人们广泛关注的基于内容的检索( c o n t e n tb a s e dr e t r i e v a l , c b r ) 1 9 】技 术便是多媒体信息检索最重要的技术之一。它是根据媒体和媒体对象的内容及上下 文联系在大规模多媒体数据库中进行检索,主要是利用媒体对象的语义、视觉和听觉 特征来进行检索。它突破了传统的基于文本检索技术的局限,直接对图像、视频、音 频内容进行分析、抽取特征,利用这些内容特征建立索引并进行检索,使得检索更加 接近媒体对象。如利用图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运 动,声音中的音调、响度、音色等。它的研究目标是提供在没有人参与的情况下能自 动识别或理解图像、声音等重要特征的算法。由此可见,基于内容的检索是一门涉及 面很广的交叉学科,需要利用图像处理、模式识别、计算机视觉、图像理解等技术, 是多种技术的合成,因而有着广泛的应用前景。根据所检索媒体对象的不同,基于内 容的检索又可分为基于内容的文本检索、图像检索、视频检索和音频检索等。音频 主要可以分为三类:语音,音乐,波形声音。 本文研究的重点是音乐的哼唱检索( q u e r yb yh u m m i n g , q b h ) i o , 1 1 l 。工作围绕音 乐和哼唱声的特征提取、匹配进行展开。互联网上的音频信息以音乐居多。很多搜 第一章绪论 索引擎都提供的音乐检索的功能,基本上都是通过音频文件的文件名,以及文件标 签中的文本信息进行检索。当要查询音乐的人不知道歌曲的名字以及演唱者,只记 得其中某一段旋律时,便希望通过哼唱的方式来查找音乐。采用这种方式查询,只 需要用户使用麦克风将音乐片段【1 1 】哼给电脑听,电脑根据你哼的内容来查 找目标音乐。 1 2 国内外研究现状 o h i a s 2 j 等和r j m c n a b 等【1 2 1 在哼唱检索方面较早地展开了研究工作。他们的共 同特点是采用时域上的自相关法提取音高,根据音高变化把旋律表示成符号串 ( u ,d ,s 或者u ,d ,r ) ,基本不考虑节奏特征。匹配引擎采用近似字符串比较算法, 典型的如d p 法和快速近似匹配法【埘。由于当时的计算能力和乐曲库规模的限制, 他们都没有在文献中给出有说服力的性能测试数据。 近期的一些研究把重心放在大型乐曲库的检索上,主要的突破是节奏信息在检 索中的使用,及其分层,分级的高效检索方法。“eb l 等1 1 4 l 用( p i t c hc o n t o u r , p i t c h i n t e r n a l ,d u r a t i o n ) 表示旋律,并提出了一种两级匹配方法,先用d p 算法对齐p i t c h c o n t o u r ,对于误差小于一定阈值的旋律,再用更精确的算法比较对应的p i t c hi n t e r v a l 和d u r a t i o n 。他们要求用户以“d a d a ”发音,在1 0 0 0 首乐曲中检索,获得了7 4 的前3 位命中率。j a n g 等1 1 5 噪用了每1 1 6 s 一个音高值方法表示旋律。匹配时,采 用一种称为h f m 的分层匹配算法,先筛去8 0 左右的候选乐曲,然后对剩余下的 用d p 精确匹配。他们的系统对哼唱发音没有限制,但由于算法速度的不足,要求 必须从乐曲的开头哼唱,在规模为3 0 0 0 首的乐曲库中检索,获得了6 8 的前3 位 命中率。t o mb r o n d s t e d 等在文献【1 6 1 中同时使用了音高变化( u p ,d o w n , r e p e a t ) 和 音长变化( l o n g e r , s h o r t e r , r e p e a t ) 对旋律编码,采用d p 做近似比较。他们的系统 要求用户以“b a b a ”发音,并整小节地哼唱旋律,在3 9 9 2 5 首乐曲的搜索空间中 取得了7 5 6 的前5 位命中率。k o s u g i 掣1 7 1 也提出了一种同时考虑音高和节奏,以 适应大型乐曲库检索的方法。他们的系统称为s o u n dc o m p a s s ,可以在l s 内检索 1 0 0 0 0 首乐曲,并取得了7 5 的前5 位命中率。但是,用户必须在一个节拍器伴奏 下哼唱,这常常是不方便的。 现有的大多数系统都使用近似字符串的匹配算法比较旋律,但也有一些不同方 2 第一章绪论 法。w i l l i a mr a n d 等【1 8 j 提出使用m a r k o v 统计模型比较旋律的相似性,由于是对频 率符号建模,他们的方法对音高不准比较敏感,但能较好地容忍遗漏音符等哼唱误 差。此外,还有一些并不针对人声哼唱的基于内容的音乐检索方法p ,1 9 _ 2 “。 1 3 本文研究的主要问题及安排 本文主要研究基于内容的音乐检索。对音乐的特征提取,特征表示,特征匹配 等问题进行了较为深入的研究,设计并实现了音乐检索原型系统,实现基于“哼唱” 的音乐检索。论文结构安排如下; 第一章:绪论。概括论述了开展基于内容的音乐检索系统的重要意义,以及国 内外研究现状和发展动态。 第二章:基于内容的音乐检索系统。概述音乐检索系统,总结了音乐检索系统 需要重点关注的四个方面。将音乐类音频文件的特征划分了3 个层次,并对每个层 次进行了分析。通过对现有音乐检索系统和音乐特征分层的学习和总结,结合音乐 检索发展趋势,给出了基于语义级特征的音乐检索系统的结构。 第三章:音乐检索中的音乐相关知识。结合音乐知识,对音乐的四要素音 强、音高、音色、波形包络进行了分析。从钢琴的频率与音高对照表出发,分析了 音高与频率的变化关系、音乐定调的规则等等。这些知识将作为调整哼唱与原唱之 间音高不同的调整依据,并确定了基频转化成音高的转化规则。 第四章:信号处理与特征提取。对信号处理方法中的时域分析和频域分析进行 了研究和总结。确认了通过对声音信号分帧、加窗、离散快速傅立叶变换、求卷积、 求对数等步骤求出信号的对数功率谱,根据功率谱的特征提取基频。针对歌曲的声 音成份十分复杂( 混杂人声、各种乐器声、掌声以及环境噪声等) 以及对哼唱方式 不需要作特别要求( 很多系统要求用户哼唱的时候发出如d a d a d a 的声音) ,设计 了复杂声音环境下的主旋律音高提取算法和音符分割方法。 第五章:匹配算法。介绍了三种有代表性的算法,并对这些算法进行了细致深 入的分析,总结了这三种算法的优缺点。对哼唱与原唱之间的差别作了总结和归纳。 从降低这些差别对检索的影响出发,提出了峰值对齐的匹配算法,并将该算法与前 述几种算法进行了比较。最后通过实验验证了该算法的有效性。 第六章:总结与展望。对全文的工作进行了总结,提出了本文下一步将要进行 3 第一章绪论 的研究工作,并分析了基于内容的音乐检索技术未来的发展趋势。 4 第二章基于内容的音乐检索 第二章基于内容的音乐检索系统 基于内容的音频检索技术是一项新兴的技术,它涉及多方面领域的知识,包括 数字信号处理、模式识别、统计学习、神经网络和语音识别等等。 作为声音信号的一种信息载体,音频可以分为三种类型: 波形声音对模拟声音数字化得到的数字音频信号,它可以代表语音、音 乐、自然界和合成的声响。, 语音具有词字、语法等语素,是一种高度抽象的概念交流媒体。语音经 过识别可以转换为文本。文本是语音的一种脚本形式。 音乐具有节奏、旋律或和声等要素,是人声或和乐器音响等配合所构成 的一种声音。音乐可以用乐谱来表示。 根据对音频媒体的划分,可以知道语音、音乐和其它声响具有显著不同的特性, 因而目前的处理方法可以分为相应的三种。这些处理又可分为包含语音的音频和不 包含语音的音频,后者又把音乐单独划分出来。换句话说,第一种是利用自动语音 识别技术,后两种是利用更一般性的音频分析,以适合更广泛的音频媒体,如音乐 和声音效果,当然也包含数字化语音信号。音频信息检索可分为: 语音检索以语音为中心的检索,采用语音识别等处理技术。例如电台节 目、电话交谈、会议录音等: 音乐检索以音乐为中心的检索,利用音乐的音符和旋律等。音乐特性来 检索。例如检索乐器、声乐作品等: 音频检索以波形声音为对象的检索,这里的音频可以是汽车发动机声、 雨声、鸟叫声,也可以是语音和音乐等,这些音频都统一用声学特征来检索。 2 1 音乐检索概述 目前几乎所有音乐网站在为用户提供音乐文件搜索服务时均使用字符检索方式 ( 以标题作者歌词作为关键字) 。对于音乐而言,这种方式事实上与人的生理与心 理特征相违背。人对音乐最敏感的永远是旋律,人们即使忘记了一首歌的歌词,依 然能够轻松的哼唱出它的主旋律,就是一个很好的证明。这种最容易让人产生共鸣 的音乐旋律信息理应作为另一种检索条件被服务器接受并加以利用,无需借助标 5 第二章基于内容的音乐检索 题、作者或歌词关键字,通过旋律一样可以找出用户所要求的音乐文件,而且这种 方式更直观,更贴近音乐的本质。 因此一种基于哼唱的音乐检索系统成为人们迫切的需要。该系统须注意以下几 个方面: ( 1 ) 采用用户哼唱的内容作为关键信息检索 只要使用者通过音频输入设备( 如麦克风) 哼唱一段音乐的旋律,计算机根据 这个旋律在海量的音乐库中寻找出用户需要的目标音乐。这种检索方式的好处显而 易见,它十分符合人们的交互习惯、拉近了计算机与人之间的距离。 ( 2 ) 无须人工干预的对音乐文件进行特征提取 音乐的特征是用来区分不同音乐的属性。例如每一曲音乐的乐谱跟其他音乐的 乐谱都不一样,乐谱就是其音乐特征之一。另外还包括其他类型的特征,如音乐节 奏、音乐的风格等等。提取音乐的这些特征是为了与查询者哼唱的片段进行比较, 以便将相近、相似的音乐提供给查询者。因此特征提取是该系统中重要的一环。而 i n t e m e t 上的音乐资源十分巨大,由人工来完成这些音乐特征的提取工作量十分巨 大,并且不太现实。而且这些音乐资源的数量还再快速的增长。因此我们需要计算 机能代替人工,实现对音乐特征的提取。 ( 3 ) 检索系统的鲁棒性f 笛】 人的哼唱往往带有很多错误。首先是人们在哼唱的过程中音高与歌曲的标准音 高常常不一致,一般都会低于标准音高。其次由于一些人对音乐的旋律不太熟悉, 哼唱的旋律中多了一些原本没有的音符或是少了一些原本乐曲中包含的音符。另外 也有人对节奏把握的不是很好,哼唱的速度高于或者低于乐曲的标准节奏。这些哼 唱中产生的错误将严重影响系统查询效率。另外在麦克风输入的过程中也可能存在 背景噪音等等干扰。为了减少上述情况对查询的影响,系统的各个环节中必须做好 相应工作,以保证查询的效率。例如,在麦克风信号采集后应根据人们发音的特点 进行带通数字滤波等工作,降低输入环节上的干扰。在特征编码,或者检索匹配 的过程中构造好的算法来降低查询者在哼唱中所产生的错误。因此在系统的各个部 分都要考虑的查询的鲁棒性。 ( 4 ) 检索系统的高效性【捌 音乐检索系统的音乐库是十分庞大的。如果检索时匹配时间比较长则会让查询 6 第二章基于内容的音乐检索 者感到不适应。因此需要检索速度必须较快。另外还需要有较高的准确性。绝大部 分查询者通常只愿意浏览查询结果列表的前几项,如果在前几项中查不到用户想要 的音乐,使用者将没有耐性继续查下去。因此系统必须考虑的查询的准确性。系统 中还应加入相关反馈技术来帮助系统的用户进行查找。 2 2 音乐特征处理过程 音频流处理的过程序要经过特征提取、基本特征处理、索引【缸2 9 1 几个关键步骤。 如图2 1 所示 图2 1 音频流处理流程 2 2 1 音乐类音频文件的特征分析 音乐类型音频流拥有各种各样的特征,从下至上分为三个层次,物理样本级、 声学特征级、语义级。如图2 2 所示。 物理样本级 物理样本级所包含的内容主要为采样率,时间刻度、格式、量化精度、编码方 案等等。这是音乐流文件最底层特征。该层次中部分特征对整个系统运行会产生较 大的影响。例如,采样率过低会使高频信息丢失,波形的自相关性丢失等。编码方 案的影响在于过高的压缩比可能导致部分信号失真或丢失。这些问题都会影响高级 特征的提取。 声学特征级 声学特征级主要包含物理特征和感知特征两个部分。物理特征包括,幅度、基 频、过零率等等,感知特征包括,音调、音色、旋律、节奏等等。这两种特征之间 7 第二章基于内容的音乐检索 存在对应关系。例如基频对应着音高,频谱包络对应音色等等。 语义级 语义级主要是指音乐中包含的语义、感觉方面的内容。从音乐暗含的内容看, 音乐剧、歌剧都反映这一些故事情节。这些故事的内容也属于该音乐的特征。从音 乐的风格角度看,音乐可分为古典交响乐、节奏布鲁斯、爵士乐、蓝调等等,还可 以按照民族、国家、乐器等方式分类。这个层次上含有的信息量十分巨大,也十分 复杂。需要有相应的知识库支持,才能完成这个层次的特征提取。 2 2 2 特征处理 图2 2 音乐类音频文件的特征层次 语义蕴 声学特征级 物理样本缓 特征处理一般可分为基本特征提取、基本特征处理和高级特征提取三个方面。 1 、基本提取特征 提取的特征属于物理特征。主要包括基频、过零率、包络等。因为物理特征与 感知特征存在一定的对应关系,要得到音乐所包含音高、音色、节奏等感知特征必 须先提取物理特征。 2 、基本特征处理 基本特征的处理是将物理特征转换成感知特征的处理过程。这个处理过程主要 是为了得到音高、音长、音色等特征。音高与基频对应,系统一般都是提取基频以 及其持续的时间来还原乐谱。频谱包络与音色对应,通过对包络的分析可以确定音 色、演奏的乐器等等。根据所提取特征的自相关性还可以找出音乐的节拍。通过提 8 第二章基于内容的音乐检索 取音高和音长还原出对应的音符进一步还原成乐谱片段。如果系统需要进行语义上 的特征提取,在这个阶段还需要进行语音识别的工作。现在绝大部分的音乐检索系 统都是通过提取音高及音长作为音乐的主要特征。 3 、高级特征提取 高级特征的提取是在对基本特征进行处理后的基础上完成的。对提取的乐谱进 行分析,再结合知识库,可以对音乐进行各种分类。确定这些音乐是哪个民族的音 乐、是欢快的还是忧郁的等等。语音识别的结果,可以得到歌词。歌词中通常也含 有大量的信息,也能对音乐进行分类,结合文本检索、数据挖掘等方面的知识,方 便用户通过叙事内容进行音乐查找。 2 3 基于哼唱的音频检索系统结构 如图2 3 所示,完整的音乐系统还要包括检索匹配模块,人机交互模块等等。 图2 3 中灰色的部分表示对音乐流进行特征提取的过程,图中绿色部分表示进行音 乐检索的过程。首先是用户进行哼唱输入,然后进行基本特征提取、基本特征处理、 高级特征提取,这一过程与对音乐库中的音频流处理过程一样。与音频处理流程不 同的是,检索过程还需要有检索匹配、返回结果列表、相关反馈判断的过程。 图2 3 音乐检索流程 检索匹配 查询者输入的哼唱片段中提取的特征先与索引库中的索引进行匹配,缩小进一 步匹配的范围。然后与特征库中确定范围内的音乐特征进行详细精确的匹配。将相 似度大于一定阈值的查询结果产生一个列表返回给查询者。 9 第二章基于内容的音乐检索 返回结果列表 结果列表中的查询结果按照输入哼唱片段与结果相似度的高低来进行排序。 与输入片段相似度高的结果排在结果列表的前面,相似度低的排在结果列表的后 面。 相关反馈 由于哼唱的不准确,或者查询算法的不尽入意,返回的结果列表中的候选结果 不一定查询者的所查询的目标音乐。对于这类问题的解决可以通过相关反馈技术来 实现。查询者在浏览部分结果后,可以选取其中一些与自己目标音乐接近的结果作 为查询条件进行下一次查询。通过查询者与系统多次的交互,使查询结果越来越接 近目标结果。 2 4 本章小结 本章对音乐检索系统的结构进行了研究。总结了哼唱、非人工干预的特征提取、 鲁棒性、高效性四个音乐检索系统的要点。根据特征的性质将特征分成物理样本级、 声学特征级、语义级三个层次,分析了层次之间的关系。特征层次的划分决定了音 乐特征提取和处理的流程。并在此基础上提出了一种语义级音乐检索系统的结构。 1 0 第三章音乐检索中的相关音乐知识 3 1 音乐概述 第三章音乐检索中的相关音乐知识 广义的讲,音乐就是任何一种艺术的、令人愉快的、审慎的或其他什么方式排 列起来的声音。所谓的音乐的定义仍存在着激烈的争议,但通常可以解释为一系列 对于有声、无声具有时间性的组织,并含有不同音阶的节奏、旋律及和声。 音乐可以通过几种途径来体验,最传统的一种是到现场昕音乐家的表演。现场 音乐也能够由无线电和电视来播放,这种方式接近于昕录音带或看音乐录像。有些 时候现场表演也会混合一些事先做好的录音,如d j 用唱片做出的摩擦声。当然, 也可以制作自己的音乐,通过歌唱,玩乐器或不太严密的作曲。 甚至耳聋的人也能够通过感觉自己身体的震动来体验音乐,最著名聋音乐家的 例子便是贝多芬,其部分著名的作品都是在他完全丧失听力后创作的。 3 2 声音的四个要素与音乐 声音四个要素是:音强、音高、音色和波形包络。现将它们的含义分述如下: 3 2 1 音强 音强就是人们在听闻时感到的响度,也就是我们通常说的声音的强弱或大、小, 重,轻。它是入耳对声音强弱的主观评价尺度之一。其客观评价尺度也即物理 量的测量,是声波的振幅。音强与振幅并不完全一致或成正比,在声频范围的低频 段相差很大,高频段也有相当的差别。 声频范围也就是人们可以听到的声振动频率范国,为2 0 h z 到2 0 k h z 。2 0 h z 以 下称为次声,2 0 k h z 以上称为超声。在声频频率范围内,人耳对中频段i 3 k h z 的声音最为灵敏,对高、低频段的声音,特别是低频段的声音则比较迟钝。人耳还 有一种特征,对很强的声音,感觉其响度与频率的关系不大,或者说同振幅的各频 率的声音,听起来响度差不多但对低声级信号( 即很轻的声音) ,感觉到它的响 度与频率关系甚大:对于同样振幅的声音,低、高频段的声音听起来响度比中频段 的轻。声音振幅愈小,这种现象就愈严重。对l k h z 的声音信号,人耳所能感觉到 第三章音乐检索中的相关音乐知识 的最低声压为2 1 0 _ 4 微巴。微巴是声压的单位,它相当于在1 平方厘米面积上具有 1 达因压力。电声工作者把这一声压称为声压级的0 分贝,通常写为0 分贝s p “s p l 是声压级的缩写) 。不用声压而用以对数表示的“声压级”来表示声音振幅的大小, 有明显的好处。这是因为人耳能听闻的声压范围很大,可由2 1 0 4 微巴到2 1 0 4 微 巴,相差一千万倍。对如此大范围的变化,计算很不方便,用声压级表达就比用声 压方便多了。另外由于人耳对响度的感觉是非线性的,用对数来计量更接近于人耳 的主观特性。当声压级达1 2 0 分贝s p l 时,入耳将感到痛楚,无法忍受,因此,人 听闻的动态范国由0 1 2 0 分贝s p l ,在音乐厅中听乐队演奏,音乐的自然动态范 围是多少昵? 对大型交响音乐,最响的音乐片段可达1 1 5 分贝s p l ,最弱的音乐片 段约为2 5 分贝s p l ,因而动态范围可达9 0 分贝。当然,这是很少有的情况。通常 交响音乐的动态范围约为5 0 8 0 分贝,中、小型音乐的动态范国约在4 0 分贝左右, 语言的动态范围约在3 0 分贝左右。 3 2 2 音高 音高或称音调,是人耳对声音调子高低的主观评价尺度。它的客观评价尺度是 声波的频率。和音强与振幅的关系不一样,音高与频率基本上是一致的。乐器当中 钢琴的音域最宽,从2 7 5 h z 到4 1 8 6 0 0 9 h z 有8 8 个不同的音,每个音对应一个频 率。通过钢琴的频率与音高对照表( 表3 1 ) 来说明频率与音高的对应关系,以及 这些频率之间的相互关系。 如表3 1 所示,钢琴的8 8 个音被分成了8 组,每一组称为一个八度。分别是0 1 旬8 八个组。当两个声音信号的频率相差一倍时,也即,2 ,2 五时,则称正比 高 一个倍频程,即高一个八度。在一个八度音内,有1 2 个半音。半音的名字按照频 率由低到高分别是a 、b b 、b 、c 、c 带、d 、e b 、e 、f 、聊、g 、g 撵。每两个音高之 问相差一个半音,之间的频率可以用公式3 1 表示。 d - 1 2 l o g :( f i ) ( 3 1 ) ,2 与 分别表示两个音高对应的频率,d 表示,2 所对应音高与五所对应音高相 距的半音个数。为解决合唱、合奏的定音、作曲的定调和乐器的制造的音高校正等 制定了统一音高标准。现行的国际标准音高为1 9 3 5 年5 月国际标准协会在伦敦通 1 2 第三章音乐检索中的相关音乐知识 过的a = 4 4 0 h z ,亦称“第一国际音高”。其他音高均可以通过公式3 , 1 和第一音高 计算出。 表3 1 钢琴的频率与音高对照表 n o t eo c t a v e s 0 2 0 30 40 5 0 6 0 70 8 s0 1 a2 7 邬5 5 0 01 1 0 0 02 2 0 呻4 4 0 肿8 舳1 7 6 0 0 03 5 加0 0 矿2 9 1 35 8 2 71 1 6 5 4 2 3 3 鹏 4 6 6 1 69 3 2 3 21 8 6 4 6 53 7 2 9 3 l b 3 0 8 66 1 7 3 1 2 3 4 7 2 拍9 44 9 3 8 89 8 7 7 61 9 7 5 彤3 9 5 1 0 6 c3 2 7 06 5 加1 3 n 8 12 1 成5 2 3 2 51 0 4 6 娜2 0 9 3 肿4 l 晰肿 涝3 4 f 6 46 9 2 91 3 8 5 92 7 7 1 85 5 4 3 61 l 嘴7 32 2 1 7 舶 d3 6 7 07 3 4 11 4 6 8 32 粥硒5 8 7 3 31 1 7 4 6 52 3 4 9 3 1 寸3 8 8 97 7 7 81 5 5 5 6 3 1 1 心 6 2 2 2 51 2 4 4 5 92 4 8 9 0 1 e4 1 2 08 2 加1 6 4 8 1 3 2 9 m 6 5 9 2 5 1 3 1 8 5 22 6 3 7 0 2 f 4 3 6 5 8 7 3 0 1 7 4 l枷2 26 9 8 4 51 3 9 6 9 12 7 9 3 犯 胖4 6 2 49 2 4 9l s 4 9 93 6 9 9 97 3 9 9 81 4 7 9 9 72 酆9 9 5 04 8 9 99 7 9 91 蛄势3 9 1 9 97 8 3 9 91 5 6 7 9 83 1 3 5 4 3 饼5 1 9 l1 0 3 8 62 们s4 1 5 3 08 3 n 6 01 6 6 1 2 13 3 2 2 4 3 用绝对音来唱这些音调为:d o ,r e ,m i ,f 钆s o l ,l a , s i ,d o 其中后面的。d o 比 前厩的d o 高一个八度,即频率高一倍。它们对应简谱为1 、2 、3 、4 、5 、6 、7 、 i ,其中i 为高一个八度的1 。各种类型的音阶1 2 3 4 5 6 7 i 之间的音程差各有不同的 规定。 以大调音阶为例,以2 代表一个全音,1 代表一个半音。( ) 内为相对音名:( 1 ) - 2 - ( 2 ) 2 ( 3 ) 1 ( 4 ) 2 - ( 5 ) - 2 - ( 6 ) - 2 - ( 7 ) 1 ( i ) 。这个意思是指,凡是音 阶符合八个音阶音程差是2 - 2 1 222 1 的都叫大调音阶。绝对音以英文表示:c 、 d 、e 、f 、g 、a 、b 、c 。每一个英文字都代表一个固定数字的频率,是绝对固定 不变的,并且c d e f g a b c 八度之间的音程差是遵守大调规定2 212 - 2 2 1 的。 而所谓的c 大调音阶,就是指1 ( d o ) 被指定为c ,并遵守大调音程规定时所 产生的八个音。所以组成为c 、d 、e 、f 、g 、a 、b 、c 。d 大调的组成音就是d 、 e 、尉、g 、a 、b 、c 擀、d 。其他大调的组成音符可以通过表3 1 进行推导。 小调音阶1 2 3 4 5 6 7 i 的音程差规定为:( 1 ) - 2 ( 2 1 ( 3 ) 2 ( 4 ) 2 ( 5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论