(信号与信息处理专业论文)音乐信号自动分类相关算法研究.pdf_第1页
(信号与信息处理专业论文)音乐信号自动分类相关算法研究.pdf_第2页
(信号与信息处理专业论文)音乐信号自动分类相关算法研究.pdf_第3页
(信号与信息处理专业论文)音乐信号自动分类相关算法研究.pdf_第4页
(信号与信息处理专业论文)音乐信号自动分类相关算法研究.pdf_第5页
已阅读5页,还剩138页未读 继续免费阅读

(信号与信息处理专业论文)音乐信号自动分类相关算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要在数字音乐数量急剧增长的今天,由于音乐本身的复杂性、音乐类属定义的模糊性和对人类听觉感知特性认识的有限性,音乐自动分类相关课题的研究还处于起步阶段,而音乐自动分类是实现音乐资源快速、有效检索的前提,其潜在应用需求巨大,因此音乐自动分类相关课题具有重要的研究价值。本文针对m f c c 倒谱系数、时频分析等经典音频信号分析理论在提取结构和信息丰富的音乐特征时的局限性,分别结合人耳听觉模型、听觉系统感知特性、稀疏编码理论、同态分析、时频分析及音乐信号的固有属性,提出了多种能更精确地反映音乐信号特征的算法,对音乐信号特征进行了深入研究。首先,提出了全信息m f c c 算法。该算法是对同态分析中传统的m e l 频率倒谱系数的改进,由于利用了音乐样本所有可能组合的信息,从而有效抑制了信号截断引起的频谱泄漏,凸显出音乐信号的频谱特征,并能捕捉音高变化的信息。其次,提出了音乐仿生小波算法。该算法基于改进型g i g u e r e 人耳听觉模型和人类听觉系统品质因数的变化特性,结合听觉临界频带,将反映动态变化特性的参数和听觉掩蔽效应引入小波变换,因此具有时间、频率二维独立可调精度,能够跟随音乐信号的瞬时幅度和一阶微分进行自适应地调整。再次,提出了基于音乐特征成分近似负熵极大化的音乐特征基矢量构造和稀疏表示算法。该算法以稀疏编码理论和神经生理学中生物系统对信息处理的稀疏化解释为依据,更好地反映了音乐的特点和结构。文中还利用近似不相关分解,将该算法推广到具有更多结构和特征的超完备特征基向量空间。最后,提出了有噪情况下线性混合乐器的盲分离算法。该算法利用了音乐信号的时间相关统计特征和时序结构,结合时延协方差矩阵和四阶互累积量矩阵,采用了平均特征结构的稳健正交化方法,成功实现了不同类乐器的分离。上述算法的提出改善了对音乐特征及结构信息的表示,因此正确地分离了乐器,与无监督聚类方法结合,实现了音乐的自动分类。关键词:稀疏编码;音乐仿生小波变换;音乐自动分类;超完备特征向量;全信息m e l 频率倒谱系数;盲乐器分离;时间序列a b s t r a c tn o w a d a y s ,t h ea m o u n to fd i g i t a lm u s i ci sr o c k e t i n g b e c a u s eo fc o m p l e x i t yo fm u s i cb yn a t u r e ,p o o r l y - d e f i n e dc o n c e p t i o no fs o r ta n dl i m i t e dk n o w l e d g eo fp e r c e p t u a lf e a t u r eo fh u m a nh e a r i n g ,r e s e a r c h e so nt h er e l a t e dt o p i c so fm u s i ca u t o m a t i cc l a s s i f i c a t i o na r ea l m o s ta tap h a s eo fs t a r t i n gp o i n t u n d e rt h e s ec i r c u m s t a n c e s ,t h es p e e da n de f f i c i e n c yo fm u s i cr e s o u r c e sr e t r i e v a ld e p e n d so nm u s i ca u t o m a t i cc l a s s i f i c a t i o n ,a n dt h ep o t e n t i a ld e m a n d sa r eh u g e ,s oi ti sw o r t hi n v e s t i g a t i n g i no r d e rt oo v e r c o m et h el i m i t a t i o no ft h et r a d i t i o n a la u d i os i g n a la n a l y s i st h e o r i e ss u c ha sm e lf r e q e n c yc e p s t r u mc o e f f i c i e n t sa n dt i m ef r e q u e n c ya n a l y s i si nt h ef e a t u r e se x t r a c t i o no fm u s i cw i t hp l e n t i f u ls t r u c t u r e sa n di n f o r m a t i o n ,t h i sd i s s e r t a t i o np r e s e n t e ds e v e r a la l g o r i t h m sr e f l e c t i n gf e a t u r e so fm u s i cs i g n a lm o r ep r e c i s e l yb yc o m b i n i n ga u d i t o r ym o d e lo fh u m a ne a r , p e r c e p t u a lf e a t u r eo fh u m a nh e a r i n g ,s p a r s ec o d i n g ,h o m o m o r p h i ca n a l y s i s ,t i m e - f r e q u e n c ya n a l y s i sa n dt h en a t u r eo fm u s i cs i g n a l a n dt h ef e a t u r e so fm u s i cs i g n a l sw e r er e s e a r c h e dt h o r o u g h l y f i r s t ,a l li n f o r m a t i o nm f c cw a sp r e s e n t e d i ta r o s ef r o mt h em o d i f i c a t i o no ft h et r a d i t i o n a lm e l o d yf r e q u e n c yc e p s t r u mc o e f f i c i e n t si nh o m o m o r p h i ca n a l y s i s a l lk i n d so fp o s s i b l ec o m b i n a t i o n so fm u s i cs a m p l e sw e r ec o n s i d e r e di no r d e rt od e p r e s ss p e c t r u ml e a k a g ef r o mt r u n c a t i o no fs i g n a l ,e n h a n c ea c t u a ls p e c t r u mo fm u s i cs i g n a la n dg e tt h ei n f o r m a t i o no fc h a n g eo fn o t e s e c o n d m u s i cb i o n i cw a v e l e tt r a n s f o r m a t i o nw a sp u tf o r w a r d i tw a sb a s e do nm o d i f i e dg i g u e r e sh e a r i n gp e r c e p t u a lm o d e lo fh u m a ne a ra n dt h ep r o p e r t yo fq u a l i t yf a c t o ro fh u m a nh e a r i n gs y s t e m ,c o m b i n i n gc r i t i c a lb a n d so fh e a r i n g ,a n dp a r a m e t e r sr e f l e c t i n gd y n a m i cc h a r a c t e r i s t i co fh u m a nh e a r i n ga n dh e a r i n gm a s k i n ge f f e c tw e r ei n t r o d u c e di n t ot h ew a v e l e tt r a n s f o r m a t i o n t h e r e f o r e ,i th a dt w o - d i m e n s i o n i n d e p e n d e n t l y a d j u s t a b l er e s o l u t i o ni nt i m ea n df r e q u e n c ya n dc a nb ea d j u s t e da d a p t i v e l yb yi n s t a n t a n e o u sa m p l i t u d ea n di t sf i r s t - o r d e rd i f f e r e n t i a lo fm u s i cs i g n a l t h i r d ,a l g o r i t h mo ff e a t u r ev e c t o r sc o n s t r u c t i o na n ds p a r s er e p r e s e n t a t i o no fm u s i cw a sa d v a n c e do nt h eb a s i so fm a x i m i z i n ga p p r o x i m a t en e g a t i v ee n t r o p yo fc h a r a c t e r i s t i cc o m p o n e n to fm u s i c i tw a sa c c o r d i n gt os p a r s ec o d i n ga n ds p a r s e l i z e di n t e r p r e t a t i o no fi n f o r m a t i o np r o c e s s e db yb i o l o g ys y s t e mi nn e u r o p h y s i o l o g y , w h i c hf u l l yr e f l e c t st h eb e h a v i o r sa n ds t r u c t u r e so fm u s i c f u r t h e r m o r e ,w i t hq u a s i u n c o r r e l a t e ds p a r s ed e c o m p o s i t i o n ,t h ea l g o r i t h mw a se x t e n d e dt ot h es p a c eo fo v e r c o m p l e t ef e a t u r ev e c t o r sw i t hm o r es t r u c t u r e sa n df e a t u r e s f i n a l l y , b l i n dl i n e a r - m i x e dm u s i c a li n s t r u m e n t ss e p a r a t i o na l g o r i t h mi nn o i s ew a sp r o p o s e d t h ea l g o r i t h mu t i l i z e dt h ef e a t u r e so ft i m e r e l a t e ds t a t i s t i c a lc h a r a c t e r i s t i c sa n ds e q u e n t i a ls t r u c t u r e so fm u s i cs i g n a lt or e a l i z et h es u c c e s s f u ls e p a r a t i o no fm u s i cs i g n a l sf r o md i f f e r e n tk i n d so fm u s i c a li n s t r u m e n t sb yc o m b i n i n gt i m e d e l a y e dc o v a r i a n c em a t r i xa n df o u r t h o r d e rc u m u l a n tm a t r i x ,a n dm a k i n gu s eo fr o b u s to r t h o g o n a lm e t h o dw i t ha v e r a g ef e a t u r es t r u c t u r e so fs o m ed a t am a t r i x e s t h ep r e s e n t a t i o no ft h ea l g o r i t h m sm e n t i o n e da b o v ei m p r o v e dt h er e p r e s e n t a t i o no fs t r u c t u r e sa n df e a t u r e so fm u s i c ,s ot h em u s i c a li n s t r u m e n t sc a nb es e p a r a t e dc o r r e c t l y , a n dw i t hu n s u p e r v i s e dc l u s t e r i n gm e t h o d s ,m u s i ca u t o m a t i cc l a s s i f i c a t i o nw a sr e a l i z e d k e yw o r d s - s p a r s ec o d i n g ;m u s i cb i o n i cw a v e l e tt r a n f o r m a t i o n ;m u s i ca u t o m a t i cc l a s s i f i c a t i o n ;o v e r c o m p l e t ef e a t u r ev e c t o r ;a l li n f o r m a t i o nm e l o d yf r e q u e n c yc e s p e t r u mc o e f f i c i e n t ;b l i n dm u s i c a li n s t r u m e n t ss e p e r a t i o n ;t i m es e r i e s独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得叁鲞盘堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名:菇磁签字f 1 期:抑3 年罗月矿同学位论文版权使用授权书本学位论文作者完全了解苤注盘堂有关保留、使用学位论文的规定。特授权墨鲞盘堂可以将学位论文的全部或部分内容编入有关数掘库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。( 保密的学位论文在解密后适用本授权说明)学位论文作者签名:炱钦导师签名:签字同期:力弦吕年夕月,9 同签字同期:加韶年7 月肜r天津大学博士学位论文1 1 本课题的目的和意义第一章绪论随着网络技术、多媒体技术的发展与普及,音乐因其编、解码容易、体积小、制作、复制与传播方便等特点,成为互联网及数字图书馆中数量增长最快的数据形式之一。全球音乐贸易机构i f p i ( i n t e r n a t i o n a lf e d e r a t i o no ft h ep h o n o g r a p h i ci n d u s t r y ,国际唱片业协会) 发布的( 2 0 0 7 数字音乐报告指出2 0 0 6 年全球数字音乐的销售额增长近一倍。在中国网络音乐高峰论坛上,中国音像协会会长刘国雄也曾预测2 0 0 6 至2 0 1 0 年数字音乐发展将进入快速增长期。对数字音乐不断攀升的需求有力地推动了数字音乐资源的迅速增加。面对互联网和数字图书馆中的海量数字音乐资源,人们要查询到符合自己需求的目标音乐异常困难。因此,音乐信息检索( m u s i ci n f o r m a t i o nr e t r i e v a l ,m i r ) 领域相关课题的研究成为近些年的热点之一1 1 儿引。为了便于查询,音乐资源往往需要按一定规则进行组织与分类。音乐自动分类技术可以建立有效的索引结构,进而提供快速查询能力,因此音乐自动分类技术是对音乐资源进行快速有效检索的支撑技术之一。然而,迄今为止,音乐分类工作却大都由人工完成,需要耗费巨大人力、物力。据相关报道,要对微软m s n 音乐搜索引擎中的1 0 0 ,0 0 0 首歌曲进行人工分类,需要3 0 个音乐工作者一年的时间l l 】。因此在数字音乐数量急剧增长的今天,对音乐自动分类相关技术的研究显得尤为紧迫。音乐自动分类关键技术具有重要的研究价值。根据自动分类结果建立的索引结构将进一步提高音乐检索系统的性能。此外,音乐自动分类系统还有助于在人类感觉、直觉的主观方式之外,建立音乐分析的客观理论体系,减小人为的偏见和成见。音乐风格分类系统通过训练分类器,可以用来识别特定作曲家的作品,以帮助确定未知音乐作品的著作权,并可以用来确定区分不同流派的主要特征。通过与计算机分类器得到的“客观”特征进行比较,分类结果还将支持社会学和心理学中人类音乐相似性概念建立方式和音乐群组形成过程等方面的研究。分类器还可以对加入大型数据库的唱片进行自动分析和分类。基于对音乐内容的分析和分类,音乐推荐系统可以用来在海量音乐数据库中查找流行的或曲高和寡的音乐作品,并根据个人喜好推荐鲜为人知的作品。这种个性化推荐有望削弱流行音乐的强势态势,更好的对海量音乐资源进行检索。经过训练,分类器可以根据情感和场景进行个人音乐收藏的分类,能够在诸如驾驶、会客、扫除等不同情景下自第一章绪论动筛选合适的唱片。相似性分析还可以用来监测各类唱片的分布情况。应用音乐分类的结果,音乐自动抄录系统还可以将不同风格的音效标识成相应的音符。总之,音乐自动分类相关技术的研究将对当前的海量音乐资源进行有效梳理,从而大大提高音乐信息检索的效率,并将推动音乐相似性分析、音乐推荐系统、音乐自动抄录系统等相关领域的研究,是基于内容的多媒体信息分析和检索技术的重要组成部分【3 j 。国外学者对此相关领域有较广泛、深入的研究。从2 0 0 0年起,音乐信息检索国际会议( t h ei n t e r n a t i o n a lc o n f c :r e n c e so nm u s i ci n f o r m a t i o nr e t r i e v a l ,i s m i r ) 已连续举办了七届。而在国内,直到最近几年,音乐信息处理相关问题才引起学者们的注意。音乐自动分类技术是音乐信息分析、处理领域承上启下的关键技术,其研究方法和结论还将推动信号与信息处理基础理论、多媒体、智能信息处理等其他相关领域研究的深入,因此具有重要的研究价值。1 2 音乐自动分类技术的发展和研究现状由于音乐本身的复杂性和对人类听觉感知特性认识的有限性【4 】,音乐自动分类系统相关问题的研究还处于起步阶段。一方面,人耳对声音的感知方式和处理过程尚在研究之中;另一方面,音乐是组成最复杂的音频类型之一,它往往是各种声音,包括不同乐器、人声、以及自然界声音等的组合,而且不同种类的音乐,其各种成分所占的比重相似,这就为音乐信号的内容分析、特征选取与计算增加了很大难度。对于大规模音乐数据( 如数据库包括各种不同类型音乐,音乐文件包括复杂声部等) 的分类与检索更有待于进一步的研究。在众多的音乐分类方法中,以音乐流派( m u s i cg e n r e s ) 和音乐歌手( a n i s e ) 的分类方法最为常见【l 儿5 1 。根据音乐内容的特点将其归入相应的流派一直是音乐分类的一个重要内容。这方面的研究主要借鉴并采用了语音识别中的一些经典方法来解决音乐类属的识别问题,借鉴采用的语音特征包括频谱、自相关系数、能量、平均幅度、过零率、共振峰、线谱对、线性预测系数、倒谱系数等等。结合人工智能和模式识别技术,初步解决了音乐自动分类的问题。如g e o r g et z a n e t a k i s和p e r r yc o o k 采用了高斯混合模型( g a u s s i a nm i x t u r em o d e l ) 来解决音乐的流派分类问题恂j ,p a u ls c o t 则使用了神经网络( n e u r a ln e t w o r k s ) 算法1 7 j ,还有采用k 近邻法( k n n ) 的,他们的解决方案取得了初步成果。澳大利亚人工智能研究院的e l i a sp a m p a l k 等人开发的基于s o m ( s e l f - o r g a n i z i n gm a p s ) 的音乐聚类系统中就采用了模板匹配的类型判断方法,通过计算模板向量和特征向量的欧拉距离来进行匹配1 8 】。f e i t e n b ,f r a n k r 等人,通过训练神经元网络直接将声音类别映射到所标注的文本【9 】。z h ul i u 根据音频特征为每类音频训练简单的多层感知机,并且根天津大学博士学位论文据o n e c l a s s o n e n e t w o r k 的结构实现它们的连接,进行天气预报、新闻、广告等电视节目视频场景的分类【l 。e w o l d ,t b l u m ,等人采用最近邻州n ) 算法构造分类剁;微软研究院的l i el u 等人提出了一种鲁棒的音频分类方法,在该方法中采用了基于k n n 模型的音频分类方法u 2 。国内也有学者在音频信息检索相关领域做了有益的探索和研究,大多集中在音频信息检索、音频分割等方面。而音乐是非语音音频的重要组成部分,它和语音在结构和频谱范围上有很大差别。国内专门研究音乐信号分析及自动分类的学者少之又少。从检索到的文献看,清华大学自动化系的周杰等采用音频分析技术和模式识别技术相结合的方法对八种典型的中国传统戏曲进行了自动分类和相似性分析研刭1 3 j i m j ,在一个包含6 8 0 个唱段的测试数据库上,达到了8 2 4 的平均分类正确率。国防科技大学多媒体研发中心的老松杨等提出的s v m 决策树多级分类器实现了对静音和噪音、非语音语音,纯语音带背景音和音乐环境音的分类,具有较好的分类效果和准确度,但对噪音的分类精度较低【l5 1 。中山大学的欧贵文等,针对隐马尔可夫模型适于处理连续信号和支持向量机适于处理分类问题的特点,提出一种支持向量机和隐马尔可夫相结合的混合模型( s v m h m m )用于解决音乐的自动分类问题,效果较好【l 酬。国防科大多媒体实验室的李恒峰、李国辉等人开发的基于内容的音频分类与检索系统a r s 采用了基于模板的音频检索算法【1 7 】;南京大学软件学院的卢坚博士等人提出了一种基于隐马尔可夫模型的音频分类方法,用于语音、音乐及其混合声音类型的分类1 1 引。综合上述研究成果,可以发现,成果的取得大多借鉴使用了语音分析和识别的方法和思路,结合模式识别等统计学习方法,取得了一定的音乐自动分类效果和相关研究成果。而音乐并非语音,它和语音在信号特征和结构等方面有很大差别,更为复杂。为了更好地针对音乐信号及其内容进行分析、表示和分类,需要在已有研究的基础上,寻找信号处理及统计学习分类方面新的理论和方法。近年来,神经生物学的研究成果认为1 1 9 人的听觉感知系统对声音信息的处理也是基于统计独立性的,于是国外有学者开始结合多元统计数据分析领域中的独立分量分析( i n d e p e n d e n c ec o m p o n e n ta n a l y s i s ,i c a ) 2 u j 、稀疏分量分析( s p a r s ec o m p o n e n ta n a l y s i s ,s c a ) 等,探索表示音乐信号内容的新方法【2 l 】1 2 5 1 。特别是其中的稀疏分量表示方法模拟了人耳听觉系统对声音信号的处理方式,与傅立叶、时频分析等传统方法相比较,可以更好地描述音乐信号的内容与结构。第一章绪论1 3 音乐自动分类技术相关研究课题1 3 1 基于听觉感知特性的音乐信号分析人声和各种乐声是随机信号,其波形十分复杂。可听声音的频率范围一般可达2 0 h z 2 0 k h z ;其中语言的频谱范围约在1 5 0 h z 4 k h z 左右;而各种音乐的频谱范围可达4 0 h z 18 k h z 左右。一般来说,音乐信号包含长、短两种持续性事件。一个音符( n o t e ) 开始时,信号中多个频率的幅度迅速增加( 称为短音长部分,s h o r td u r a t i o ne v e n t ) ,随后缓慢降低( 称为长音长部分,l o n gd u r a t i o ne v e n t ) 。歌唱信号同样也由长短两种音长成分构成。因此在傅立叶变换和小波变换中,用具有相似结构的信号元正交基来表示音乐信号从稀疏性的角度来说不是最有效的方法。而经典理论中,采用短时傅立叶变换来分析信号,频率幅度由谐波函数的系数逼近 2 6 1 1 2 7 。这样通常也不能充分地表示音乐信号,因为音乐信号不仅仅是多个演奏同一音高( 基频) 的乐器的混合,而且每种乐器都具有特定范围的泛音( 这些泛音的集合被称作音色) ,所有的乐器都具有比单一正弦模糊得多的频率分布,而且对特定的乐器或不同的演奏者,该频率分布还有一定波动,加之常常混有演唱者的声音,所以用谐波函数来表示信号就需要相当多的系数。采用小波函数【1 8 】【2 9 1 【3 0 】,g a b o r 函数等时频分析方法可以较好地描述每件乐器,或者描述音乐的不同侧面即音色。因为小波变换的时频分辨率与每个信号相适应,可以更有效地表示信号。为了对音乐进行比较,以便有效地提取特征,需要一种特定的表示方法。由于不同小波变换的能力差异,适用于一种特征提取的音乐信号表示方法在描述其它特征时却不那么充分,因此需要对每个特征予以不同表示。稀疏分量变换是目前为止可以对多种特征进行较充分描述的方法。例如,d i r a c 基可以描述信号中的随机噪声,d c t 可以描述整个时间间隔内的频率特征,而小波包【3 l 】【3 2 】f 3 3 】可以用来描述信号的短音长事件,例如音符起始时的现象和长音长事件。通过实验和分析,需要找到可以有效表示音乐信号不同特征的字典( d i c t i o n a r y ) 函数集合。稀疏编码建立在极大化非高斯性基础上,与“正交”、“独立”这些性质相比,具有更好的生物背景【蚓【3 5 l 【3 6 】。而且稀疏表示有较强的数据冗余度压缩能力,已有研究显示与人类听觉系统提取信息的特点相似【l9 】。通过对音乐频谱图的观察分析发现,每个音符都以谐波函数的某种模式出现,而且不同乐器演奏的音符在时频谱图中的形状有显著差异,音乐中虽然包含大量的音符,但同一时刻只有为数天津大学博士学位论文不多的几个出现,因此对音乐信号进行稀疏表示,特别适合对音符、打击乐器的分析,及音高、乐器的识别1 3 川。此外,对于音乐等音频信号的分析,经典理论中多采用二阶统计量,而信号的高阶统计量则包含了更丰富的信息【3 引,例如相位结构信息,却常被忽略。通过对信号进行独立分量分析可以得到自然音频信号的高阶结构,由此得到的独立特征基向量与音乐信号具有相似的瞬时包络和相同的音蒯3 9 j 。综上所述,通过对近年来信号与信息处理领域新理论和方法的研究和应用,结合人听觉处理系统对信息冗余度压缩的识别特点和音乐信号的结构特征,可以取得效果更优的音乐信号表示方法。1 3 2 基于内容的音乐特征表示音乐特征可以分为基本特征、复杂特征和整体特征三个层次。基本音乐特征包括:音高( p i t c h ) 【蚰】、音长( d u r a t i o n ) 、音色( t i m b r e ) 【1 3 】1 4 1 】、速度( t e m p o )1 4 2 】1 4 3 】【州、力度( d y n a m i c s ) 1 4 5 1 【4 6 1 等。复杂音乐特征包括节奏( r h y t h m ) 、旋律( m e l o d y ) 、和声( c h o r d ) 。而整体音乐特征则包括:曲式结构( s t r u c t u r e ) 、音乐风格( g e n r e ) 、情感内涵( e m o t i o n ) 等1 47 | 。节奏这一概念从狭义上来说是指音值序列的重复,而节奏特征识别的主要目的正是找到这种脱离音高关系相对稳定的节奏型。目前节奏识别针对节奏型比较固定且特点鲜明的音乐作品,特别是舞曲的识别效果较好1 4 4 】【4 8 】【4 9 】【5 0 】。影响旋律特征的因素主要有音高和音长等【5 1 】- 【5 6 j 。由于人感知到的旋律只是一种有意义的轮廓,它远远超过人对于单纯音高的感知。对旋律的描述方法大致有以下四种:第一种方法是以所研究乐段的第一个音作为标准音来记录其他音符与标准音音高的差值;第二种方法是记录两个相邻音符的音高之差。上述两种方法的优点在于节省存储空间,并且避免了转调对旋律本身的影响,缺点是不够形象,而且不适合记录和声。第三种方法在以上两种方法的基础上进行了扩展,把相对音高的音值用二维坐标来表现,这种方法更加直观,并且解决了记录和声的问题。第四种方法是采用树状的结构,不仅能够记录旋律的轮廓,而且可以体现旋律的结构特点。此外,也有学者采用了模糊集合的方法。对于复调音乐作品,旋律识别的主要内容是找到乐曲的主旋律。由于一首乐曲或者乐曲的一个乐章都会有一个主题,这些主题大都通过主旋律来反复重申。但主旋律往往通过模仿、卡农、转位、增值、减值、逆行六种方式被不断改写,而不是简单的重复。和声分析的难点和重点在于如何把和声方面的乐理知识用合理的方式嵌入到整个系统之中。音乐中个性化的成分很多,很难完全用已有的音乐理论来解释,因此对和声的分析也仅局限于某种风格或某个时代的音乐作品i 卯j 。整体音乐特征中曲式结构是指音乐的整体结构特征,包括二部曲式和三部曲第一章绪论式。不同风格的乐曲往往有着不同的曲式特征,例如圆舞曲就有着相对严格的结构特点。曲式结构的识别主要包括乐句的划分和乐段的划分。每一种风格的音乐都有其独特之处,对音乐风格的分析必须全面地考察旋律、节奏和声、曲式、配器等特征【5 8 】【6 3 1 。音乐情感内涵识别需要综合考虑音乐的基本特征( 如音强、速度等) 和音乐的复杂特征( 旋律、节奏及和声) 畔】【6 5 】。1 3 3 分类算法及分类结果可视化对音乐作品的分类主要基于特征的相似度。目前,音频分类器的实现主要基于以下几类方法:一、基于规则的音频分类方法该方法的基本思路是:选取可以识别某种音频类别的合适特征,然后设定该特征的阈值,根据事先约定的规则,用实际计算的特征值与阈值比较,识别音频类别。这种方法操作虽简单,但只适用于识别特征简单的音频类型,如静音。该方法存在以下缺点:1 、决策规则和分类顺序并不一定是最优的:2 、上层的决策错误会积累到下一层而形成“雪球”效应;3 、分类误差大,需要人的先验知识和试验分析,特别是阈值的确定。所以基于规则的分类方法分类精度较低,只适用于区别明显、简单的音频类别,难于满足复杂的、多特征的音频分类应用。二、最小距离音频分类方法该分类器利用模板匹配的思想,为每一个音频类型建立一个模板,然后计算实际音频帧的特征向量,用特征向量匹配模板向量( 通常是计算它们在向量空间中的距离) 识别音频类型。在澳大利亚人工智能研究院的e l i a sp a m p a l k 等人开发的音乐聚类系统中就采用了模板匹配的类型判断方法,通过计算模板向量和特征向量的欧拉距离来进行匹配【8 】;国防科大多媒体实验室的李恒峰、李国辉等人开发的基于内容的音频分类与检索系统a r s 也采用了基于模板的音频检索算法【l7 】o三、基于统计学习算法的音频分类方法早期的基于统计学习算法的音频分类研究主要集中在神经网络算法的应用上,其代表人物f e i t e n b ,f r a n k r 等人,通过训练神经元网络直接将声音类别映射到所标注的文本【9 】。z h u 、l i u 根据音频特征为每类音频训练简单的多层感知机,并且根据o n e c l a s s o n e - n e t w o r k 的结构实现它们的连接,进行天气预报、新闻、广告等电视节目的视频场景的分类i l0 1 。近些年,人工智能、机器学习等领域的进展,为开展具有自主学习能力的音频自动分类研究提供了良好的技术基础,越来越多的研究者将隐马尔可夫模型、k 阶最近邻算法、高斯混合模型等统计学习算法应用到了音频分类研究中。天津大学博士学位论文e w b l d ,t b l u m ,等人采用最近邻州n ) 算法构造分类器【1 1 】:文献 1 0 】提出了一种基于神经网络的分类器用于电视节目的分类;微软研究院的l i el u 等人提出了一种鲁棒的音频分类方法,在该方法中采用了基于k n n 模型的音频分类方法l l 副;南京大学软件学院的卢坚博士等人提出了一种基于隐马尔可夫模型的音频分类方法,用于语音、音乐及其混合声音类型的分类【1 8 】。聚类是分类的前提,合理的类别划分是完成分类任务的基础。聚类问题与分类问题训练集中包含样本点的类别已知不同,其训练集中只包含样本点输入。聚类的过程完全依赖于样本点之间的特征差别或相似程度,按照音乐风格、曲式结构、情感内涵等特征对相似程度的度量,把训练集中所有相似的样本点归于一类,不相似的样本点归于不同的类别。配合分类所做的聚类分析有助于形成开放式的分类体系,当有新的类别产生时,可以对原有类属体系进行扩充,从某种程度上降低由此产生的错误率。分类问题实质上是一个相似问题。分类问题的求解,依赖于对音乐信号结构特征的表示、对相似性和相似程度的度量。1 4 本论文的结构及创新点本论文主要分为音乐信号特征分析和特征聚类、可视化两部分。由于特征提取是音乐自动分类系统中起决定作用的因素,所以本文侧重子依据人的听觉感知特性,对同态滤波、时频分析、多元统计分析等方面的理论和方法进行改进,以适于音乐特征的选择、分析和提取。对于特征的聚类及分类结果可视化则多采用经典理论和方法。本论文的结构如下:第二章,从物理学、人类听觉生理学的客观角度,人类听觉心理学的主观角度系统、全面地描述了关键音乐信号量。第三章,基于入耳听觉模型的音乐信号分析,根据音乐频率域和人耳感知到的旋律域之间的非线性关系,研究适合音乐信号表示的倒谱系数。第四章,根据改进型g i g u e r e 听觉模型和人类听觉系统合理的品质因数变化范围,将反映人耳听觉特性的动态参数及临界频带率引入小波变换,构造更适合音乐信号的时频分析方法。第五章,基于稀疏编码的音乐信号特征基向量,结合稀疏编码与神经生物学的研究结果,利用极大化非高斯性的独立成分分析方法,构造稀疏准则下音乐信号的特征基向量和超完备特征基向量,及与之对应的特征滤波器组,实现对音乐信号的稀疏表示。第一章绪论第六章,利用音乐信号是时间序列,具有时序结构的特点,结合不同时延下的自相关函数和峭度,提出线性混合不同类乐器的盲分离算法。第七章,音乐自动分类系统及其可视化,研究利用无监督聚类方法,对音乐特征进行聚类,得到描述音乐作品的标识,根据e a r t hm o v e r s 距离测度分析音乐作品的相似性。采用自组织映射、平滑数据直方图技术将高维空间矢量降至二维,对聚类结果进行可视化。第八章,对本文的研究工作进行总结与展望。本论文的主要创新点包括如下四个方面:第一,提出了全信息m f c c 算法。该方法基于人耳对音调的主观感知量和客观频率之间的非线性关系,对同态分析中传统的m e l 频率倒谱系数进行了改进,利用了音乐样本所有可能组合的信息,从而有效地抑制了信号截断引起的频谱泄漏,削弱了不同频率间的干扰,凸显出音乐信号的实际频谱特征,捕捉音高变化的信息。此外,通过对音乐信号统计意义上的结构和特点的分析,改进了m e l 频率倒谱系数的去相关算法,更多地保留了音乐信号节奏、频率方面的结构特征。第二,提出了音乐仿生小波算法。该算法根据改进型g i g u e r e 人耳听觉模型和人类听觉系统品质因数变化的特点,结合听觉临界频带,将反映人耳听觉动态变化特性的参数及听觉掩蔽效应引入小波变换。由于品质因数不再为常量,因此该算法具有时间、频率二维独立可调精度,能够根据音乐信号的瞬时幅度和一阶微分进行自适应地调整,得到更适合音乐信号分析的时频窗。第三,提出了极大化音乐特征成分负熵的音乐特征基矢量构造和稀疏表示算法。该算法以稀疏编码理论和神经生物学中生物系统对信息处理的稀疏化解释为依据,与固定基矢量的传统信号表示方法相比,基于统计学习的基矢量能够更好地反映音乐的特征和结构。同时,根据高维空间的准正交性,利用近似不相关分解,将算法推广到了具有更多结构和特征的超完备特征基向量空间。第四,提出了有噪情况下线性混合乐器的盲分离算法。利用音乐信号是时间序列,具有与时间相关的统计特征和时序结构的特点,结合时延协方差矩阵和四阶互累积量矩阵,并且,从统计学的角度,采用平均特征结构的稳健算法,从而能够正确地分离不同类的乐器。上述算法的提出改善了对音乐特征及结构信息的表示,不但正确地分离了乐器,与无监督聚类方法结合,还实现了音乐的自动分类。天津大学博士学位论文第二章音乐信号量传统意义上,声音分为乐音和噪声。乐音的振动有一定的周期性,表现出一定的音高,频谱是离散的;而噪声的振动是一些杂乱的、无周期性的振动,没有明确的音高感觉,频谱是连续的。在现实的音乐世界里,音乐声指的是乐音、出现在一部分音乐中的噪声以及在谐波中出现的对音色有影响的超声等在音乐生活的各个领域或过程中出现的所有声音。在音乐中,习惯用周期的倒数频率而不用周期,用与振幅的平方成比例的声强而不用振幅,时间用时值这个术语来描述音乐信号。除此以外,还常用声谱来表示音乐声。声压( 或声压级) 、声功率或声强按频率的分布就是频谱。频谱分为离散谱和连续谱,至今仍是研究声音的主要手段之一。音乐的物理实质是振动的传播。振动由强弱、频率、时间等要素构成。反映到主观听觉上又出现了音调、响度、音色和音程等要素,进而形成了更高一层的旋律、节奏、和弦、曲式、情感【7 4 】等特征,这些要素又形成了不同的音乐风格和体裁。2 1 音乐的基本物理量2 1 1 频率归根结底,音乐是一种声音,而声音又是一种在介质中传播的机械波。因此,表征音乐的物理量从根本上有四个要素:振动频率或周期,振动的振幅或强度,振动持续的时间即时值,以及波的相位。人耳能够听到2 0 h z 到2 0 k h z 频率范围内的声波。声音的音高( p i t c h ) 指的就是对声音主要( p r o m i n e n t ) 频率的感知。基频( f u n d a m e n t a lf r e q u e n c y ) 高的声音音高就高,反之,基频低的声音音高也低。基频的谐波,也就是泛音,与基频有整数倍的关系。音高虽然跟人的主观感知有关,但它也有客观的标准,这对于乐器制作、乐队定音、调弦和合奏等方面来说尤为重要,音乐学中的音律学( t e m p e r a m e n t ) 就是研究这方面的理论。第二章音乐信号量表2 _ 1a 4 = 4 4 0 h z ,平均律中的基音频率f r e q u e n c yy r e q u e n q n o r e( h z )n o t en o t ef r e q u e n c y( h z )( 珏z c o1 6 3 5b 21 2 3 4 7矽筝心s7 3 9 。9 9( 弓j 移台1 7 3 2c 31 3 0 8 lg 57 8 3 9 9d o1 8 3 5c # d 、1 3 8 5 9g 5 :a b 58 3 0 6 l刀参j 互1 9 。4 5d 31 4 6 8 3a 58 8 0 ,o oe o2 0 6 0d 气星、15 气6疋x 嗒,9 3 2 3 3f o2 1 8 3e 31 6 4 8 lb 59 8 7 。7 7l :o :o b o2 3 1 2f 31 7 4 6 lc 61 0 4 6 5 0g o2 4 5 0矿3 ,7 g 1 8 5 o oc :乃鲁l 1 0 8 7 36 刍厦台2 气0 6g 31 9 6 o od 61 1 7 4 6 6a o2 7 5 0g 肆3 值。32 0 7 6 5d ;匹名1 2 4 4 5 la 各雪台2 9 1 4a 32 2 0 o oe 61 3 1 8 5 lb o3 0 8 7a ;b b 32 3 3 0 8f 61 3 9 6 9 lc 13 2 7 0b 32 4 6 9 4p 心b1 4 7 9 9 8r l 囝。l3 4 6 5c 42 6 1 6 3g 61 5 6 7 9 8d 13 6 7 lf ;刀弓2 7 7 。1 8g g 心b1 6 6 1 2 2d l i 但。l3 8 8 9a 37 b 。32 3 3 0 8a 61 7 6 0 o oe i4 1 2 0b 32 4 6 。9 4a 滞1 8 6 4 6 6f i4 3 6 5c 2 6 1 6 3b 61 9 7 5 5 3r l 炝6 l4 6 2 5c ;j 刃刍2 7 7 1 8c ,2 0 9 3 0 0g 14 9 0 0d 五2 9 3 6 6c 牟7 d 5 72 2 1 7 。4 6萨l ,a b l5 l 。9 ld 弓匹刍3 1 1 1 3d 2 3 4 9 3 2a 15 5 。o oe 43 2 9 。6 3萨7 怎、2 4 8 9 。0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论