(信号与信息处理专业论文)基于压缩感知的音乐识别研究.pdf_第1页
(信号与信息处理专业论文)基于压缩感知的音乐识别研究.pdf_第2页
(信号与信息处理专业论文)基于压缩感知的音乐识别研究.pdf_第3页
(信号与信息处理专业论文)基于压缩感知的音乐识别研究.pdf_第4页
(信号与信息处理专业论文)基于压缩感知的音乐识别研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(信号与信息处理专业论文)基于压缩感知的音乐识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着网络技术和多媒体技术的迅速发展,各种多媒体信息星几何级数增 长,人们也更有机会接触到大量的多媒体内容。音频是多媒体信息中重要的一 种,如何自动地对这些音频数据进行管理就成为一个突出的问题。特别对于身边 种类繁多的音乐数据,人们需要快速高效的方法对其进行识别和检索,以便于 快速找到需要的音乐信息。 本文研究的重点是应用压缩感知算法基于音乐自身特征的识别与检索,属 于基于内容的音乐识别范畴,利用音乐的节奏特点达到识别不同音乐曲目的目 的,节省了人为输入音乐主观信息的繁琐劳动,提高了音乐录入数据库的效 率,扩展了音乐检索的方式。 本文首先讨论了音乐的基本特性,并围绕音乐识别进行展开,提出了能代 表音乐特点的并适合压缩感知理论的节奏特征作为识别特征。其次重点讨论了 压缩感知算法在处理多媒体数据上的优势,以及应用于是音乐识别领域的可行 性。最后通过仿真实验验证应用该算法进行音乐识别的可行性,测试了不同情 况下音乐的识别效果。 关键字:音乐特性:音乐识别:特征提取;信息检索;压缩感知 a b s t r a c t w i mt h er a p i dd e v e l o p m e n to ft h en e t w o r kt e c h n o l o g ya n dt h em u l t i m e d i a t e c h n o l o g y ,v a r i o u sk i n d so fi n f o r m a t i o ng r o wg e o m e t r i c a l l y ,a n dp e o p l ea r ea l s o m o r ee x p o s e dt ot h el a r g ea m o u n to fm u l t i m e d i ac o n t e n t a u d i oi so n eo ft h em o s t i m p o r t a n tm u l t i m e d i a o n eo ft h ep r o m i n e n ti s s u e si sh o w t oa u t o m a t i c a l l ym a n a g e t h ec o n t e n to fs u c ha u d i om e d i a e s p e c i a l l yf o rm a n yt y p e so fm u s i c ,i tr e q u i r e sf a s t a n de f f i c i e n tw a yt oi d e n t i f yt h e mi no r d e rt of r e dt h en e c e s s a r ya u d i oi n f o r m a t i o n q u i c k l y t l l i sd i s s e r t a t i o nf o c u s e do nm u s i ci d e n t i f i c a t i o nb a s e do nc o m p r e s s i o n s e n s i n ga l g o r i t h m t h ef o c u so ft h i st h e s i s ,m u s i ci d e n t i f i c a t i o nb a s e do nc o m p r e s s e ds e n s i n g a l g o r i t h m , w h i c hb e l o n g st ot h ef i e l do fc o n t e n t b a s e dm u s i ci d e n t i f i c a t i o n i tn o to n l y s a v e st h em a n u a li n p u tw o r ko fm u s i c ss u b j e c t i v ei n f o r m a t i o nb u ta l s oe x p a n d st h e w a yo fm u s i cs e a r c ht oi d e n t i f yd i f f e r e n tm u s i cb yt h er h y t h mf e a t u r e so fm u s i c t h i st h e s i sf i r s td i s c u s s e dt h eb a s i cc h a r a c t e r i s t i c so fm u s i ca n dm u s i c i d e n t i f i c a t i o n , a n dt h e np r o p o s e ds e v e r a lr h y t h mf e a t u r e sw h i c hc a nb eu s e dw i t ht h e c o m p r e s s e ds e n s i n gt h e o r ya sm u s i ci d e n t i f i c a t i o nf e a t u r e s s e c o n d , f o c u s e do nt h e c o m p r e s s e ds e n s i n ga l g o r i t h mi nd e a l i n gw i t hp e r c e i v e da d v a n t a g e so fm u l t i m e d i a d a t a , a n di d e n t i f ya r e a so ft h em u s i cu s e di nt h ef e a s i b i l i t y f i n a l l y ,s i m u l a t i o nr e s u l t s v 嘶匆t h ef e a s i b i l i t yo fm u s i ci d e n t i f i c a t i o nb a s e do nc o m p r e s s e ds e n s i n gt h e o r y ,a n d t e s t e dm a n yt h ed i f f e r e n ts i t u a t i o n so fm u s i cr e c o g n i t i o n k e yw o r d s :m u s i cf e a t u r e s , i n f o r m a t i o nr e t r i e v a l ,c o m p r e s s e ds e n s i n g m u s i ci d e n t i f i c a t i o n , f e a t u r ee x t r a c t i o n , ( c s ) 第一章绪论 第一章绪论 本章首先介绍课题的研究背景和意义,之后分析国内外音乐识别的研究发 展现状,最后简述课题研究的主要内容。 1 1 课题研究的背景和意义 随着因特网( i n t e r n o t ) 的普及和网络带宽的增加,在过去的二十年中产生了 大量的音视频多媒体数据,并且这个趋势还有愈演愈烈的趋势。面对日渐庞大 的音频、视频的多媒体信息,人们面临的问题不再是缺少媒体信息,而是如何 在浩如烟海的信息中快速、容易地获得自己需要或是感兴趣的内容,这一问题 已经成为当前必须要解决的突出矛盾。 虽然现在网络上已经涌现了众多搜索引擎用来缓解人们对于检索的需求与 海量信息之间的矛盾,但是传统的搜索引擎( 谷歌、百度、b i n g 、雅虎等) 大都 只能给人们提供一种基于文本的解决方案。在音乐信息检索系统中,用户除了 可以利用歌曲名,演唱者,词曲作者等文本信息进行检索外,更方便的检索方 式是直接通过哼唱音乐特征片断的方式检索音乐信息。这种音乐检索方式属于 基于音乐自身特性的识别检索,即基于内容的音乐检索【l 捌,它主要依据音乐的 节奏、旋律、音色、声调、情感等特征的差异以及演奏乐器的不同对音乐进行 识别和检索。咪嘟咪( w w w m i d o m i c o m ) 网站就是一个通过哼唱的方式来检索 音乐信息的一个搜索引擎。 基于文本的检索对音乐进行描述时存在信息不全面、录入信息繁琐、高度 主观、不准确和容易误导用户等问题,而基于内容的的检索技术就是为了解决这 个问题。学术界对音视频信息检索领域也投入了大量的热情,提出了许多高效的 音乐分类算法。本文研究的基于压缩感知的音乐识别也属于基于内容的音乐检 索范畴,扩展了压缩感知算法的应用,利用了该算法高效数据压缩的特点及稀 疏特征表示的优点,减少了音乐检索过程中要处理的数据量,提高了识别检索 的效率。 第一章绪论 1 2 国内外音乐检索发展与现状 早期的音乐检索继承于应用广泛的文本信息检索,用户输入要检索的歌曲 名,演唱者或作曲家,通过与音乐文件的标签信息内容匹配的方法实现音乐的 信息检索。传统的音乐识别和检索方法存在很多缺陷:第一,文本信息由于是 人为输入因人而异存在很大的主观性,不能客观反映音乐的实际特点。第二, 音乐文件的标签信息由于字符数的限制,所能描述的音乐特征信息极为有限, 存在表述不全面的问题。第三,数据库中每一首音乐的标签内容需要专人手工 输入,不利于自动化完成,效率较低。最近几十年间,倍受广大学者和研究人 员关注的音乐检索手段是基于内容的音乐检索技术【坫】。取得了可喜的研究成 果,提出了很多新的检索算法与系统模型【4 5 一。 早在上个世纪九十年代,g h i a s 等人【s 】就提出将音乐信号以符号串的形式进 行表示,每个符号代表音符的高低变化,如用u 表示音高升高,d 表示音高降 低,s 表示音高不变等等。这样就形成了一个高低起伏的轮廓,通过这种方法 将音乐的匹配问题简化为字符串的匹配问题。j f o o t e 3 】提出了利用音乐的m e l 频率倒谱系数( m e l f r e q u e n c yc c p s t r a lc o e f f i c i e n t s ,m f c c ) 特征来区分表示不同 的音乐。w o l d 等人【9 l 构建了一个基于音乐内容的识别检索系统。他们通过研究 了音乐的响度、音高、带宽等物理学特征,以一维向量的形式表示音乐片断特 征,根据最近相邻法则( n e a r e s tn e i g h b o r , n n ) 判断音乐之间的相关性,达到音 乐识别的目的。在音乐识别检索算法的理论研究中也有新的进展,l e m s t r o m 等 人 1 0 , 1 1 , 1 2 1 研究通过不同的算法来实现音乐特征的匹配,有p l 、p 2 、p 3 、 m o n o p o l y 、i n t e r v a l m a t c h i n g 、s h i f l o r a n d 、p o l y c h c c k 、s p l i t t i n g 和l c t s 等9 种 不同的算法,并搭建了c b r a h m s 音乐检索系统。文献 1 3 】还提出了利用极大互 相关信息准则( m a x i m u mm u t u a li n f o r m a t i o n ,m m i ) 来量化音乐特征的相似性, 并根据最近相邻( n e a r e s tn e i g h b o r ,n n ) 的结果来判定音乐的各类。l i 等人( 1 4 , 1 5 1 提出了利用最近特征线( n e a r e s t f e a t u r e l i n e ,n f l ) 和支持向量机( s u p p o r t v e c t o r m a c h i n e ,s ) 算法实现音乐的分类检索的方法。 国内对音乐检索的研究热情也比较高,在基于内容的音乐识别、分类、检 索等领域的研究也有较大的人员投入,如西北大学、上海交通大学、清华大学 等众多知名大学都设有相关课题组,以及中科院等研究机构等。经过多年的研 究发展和积累有一批专利和成果已经陆续发表,如中国科学院自动化研究所的 “基于旋律的音乐检索方法及装置”专利。 目前已经有少数网站,如w w w b a d s o n l i n e c o r n ,w w w m u s c l e f i s h c o m 。 w w w m i d o m i c o r n 提供基于哼唱的音乐识别检索,但这些现在有的检索系统在 2 第一章绪论 效率、准确度以及用户接口实现上难以满足用户越来越高检索要求。综上可 见,无论是在国外还是国内,基于内容的音乐检索还是只停留在初始阶段,这 一领域的研究还有很多问题亟待解决,应用与发展存在很在空间,值得长期关 注和研究。 1 3 论文的主要研究内容 本文主要研究了音乐的相关特性以及音乐的识别与检索算法,提出了利用压 缩感知算法提取音乐的特征信息,并基于此构建音乐识别与检索模型。利用压缩 感知在信号处理上的优势,将其融入到基于内容的音乐识别中,探索通过新的 方法实现对音乐的识别和检索。 基于压缩感知的音乐识别与检索流程如图1 1 所示。本文将分别对其进行详 细的研究说明。首先,以研究音乐的基础理论为切入点,了解音乐识别中所需的 特性。其次,对音乐预处理的方法进行研究讨论。第三,深入研究了压缩感知算 法的理论基础,以及如何将其应用到音乐识别检索中,建立音乐识别模型。最后 能过实验对该模型进行可行性验证,并评价仿真结果。 音乐 信号 输入 预处理特征提取压缩感知匹配 短时平均过零率 压缩感知编码 a i 信号重建ii 短时平均能量i1 音乐数据厍 短时平均幅度 歌曲匹配 图1 1压缩感知的音乐识别与检索流程 输出 检索 结果 主要研究内容包括: ( 1 ) 研究学习音乐信号的相关理论知识。包括音乐的物理特性,如频率、音 高、响度等;主观特性,如节奏、旋律、情感等;短时特性,如短时平均能量, 短时平均幅度等音乐特征表示的方法。 ( 2 ) 研究学习压缩感知理论的相关数学理论知识。具体研究内容包括压缩感 知理论的基本原理,适用领域以及算法实现中所需的数学理论知识。 ( 3 ) 建立了音乐信号特征的索引数据库,从互联网中获曲音乐数据文件,随机 选取1 2 5 首风格各异的歌曲或乐曲组成了一个规模较小测试用音乐信息数据库。 数据库内数据为使用压缩感知算法提取的音乐特征信息。 第一章绪论 ( 4 ) 构建基于压缩感知算法的音乐识别系统模型,通过实验仿真验证该模型 音乐识别与检索的可行性。 ( 5 ) 研究学习m a t l a b 的语音处理工具箱,并编写程序实现了音乐信号的采 集,预处理,特征提取,压缩感知算法实现等工作。 4 第二章音乐的基本理论 第二章音乐的基本理论 音乐信号属于声音信号的一种,要研究音乐信号的特点首先要以声音信号为 基础,因此本章在讲解音乐信号自身特点前简单介绍了声音的基本理论,有助于 对音乐信号特性的理解。 音乐的自然基础就是发声物体( 乐器或声袋) 振动在空气中的传播。振动主 要由强弱、频率、时间等要素构成。人耳接受到振动经过大脑的处理,又表现为 音调、响度、音色和音程等要素,进而形成了更高一层的旋律、节奏、和弦、曲 式等特征,这些要素又形成了不同的音乐风格和体裁,凭借音乐的这些要素就可 以将识别不同的音乐曲目,达到检索的目的。 在音乐信号的表示中,经常用到的是周期的倒数而不用周期,用与振幅的平 方成比例的声强而不用振幅,时间用时值这个术语。除此以外,还常用声谱来表 示音乐声。声压( 或声压级) 或声功率或声强按频率的分布就是频谱。频谱分为 离散谱和连续谱,至今仍是研究声音的主要手段之一。 2 1 音乐生理学 2 i 1 人耳听觉特性模型 以上分析是对音乐信号本身进行研究,音乐欣赏者毕竟是人,而不是计算机, 在感知音乐信号特点的过程中入耳有其自己特点。因此了解人的听觉系统及其工 作原理,对利用计算机程序更好的模拟和实现类似人的分析方法,有助于提高分 析音乐信号的准确度。接下来,本节将对人耳的听觉系统进行研究。 图2 1 为人耳的听觉系统模型,人的听觉系统由外耳道、中耳、内耳和听觉 神经系统组成。其中外耳道、中耳、内耳主要负责收集声音,并将收集到的声音 传递给神经系统,交由神经系统分析处理。 第二章音乐的基本理论 图2 1 人耳的听觉系统结构图 人耳由分为外耳,中耳和内耳,内耳经神经连至大脑。外耳由耳壳、听道 构成,主要起收集声音的作用。中耳是一个空腔,由鼓膜,尤氏管通鼻腔和口 腔,有三个听小骨:槌骨、砧骨和磴骨,主要用来放大和传送声音信号,声波从 外耳道接收经鼓膜将振动向内传递,这些构成了拾音器和机械放大器。内耳由卵 圆窗连接耳蜗,有三个掌管身体平衡的半规管和耳蜗,基底膜将耳蜗分成两 半,在蜗顶相连,内耳蜗中充满了淋巴液。声波传到鼓膜,经过磴骨、卵圆 窗,使耳蜗内淋巴液振动,导致基底膜的振动,而基底膜上有毛细胞,外纤毛 细胞放大了基底膜的振动,传给内纤毛细胞,内纤毛细胞上的神经末梢受到刺 激,产生神经脉冲传到大脑。耳蜗形状为螺旋形,这种结构是天然的分频器,低 频声音信号在耳蜗的深处进行接收,可见人耳的听觉系统并非是线性的,它是一 个非线性的复杂的滤波器。 2 1 2 听觉掩蔽效应 听觉掩蔽效应是人耳在处理声音时的一个生理学现象,当两个频率相近的发 声源同时存在时,响度较小的声源会被响度较大的声源掩盖,人耳将无法感觉到 全部的声音,这种现象叫作听觉欣掩蔽效应。掩蔽效应分为j 乙种,有前向掩蔽效 应、后向掩蔽效应和同时掩蔽效应三种。它与声音的声压级、频率、相对方向、 延续时间有关。 第二章音乐的基本理论 声压级( d b ) 图2 2 掩蔽效应的种类 时间 m r s c h r a o d e r 掣16 】经过研究给出了一个优化的扩展函数用来模拟中间声 级的频谱掩蔽效应。掩蔽音对频率相近的声音掩蔽效应明显,低频更容易掩蔽高 频的声音。位于掩蔽音附近的由纯音组成的窄带称为临界带,临界带的单位是巴 克( b a r k ) 。临界频带刁对乃的影响满足式( 2 - 1 ) 。 ( 峨砖) = 1 5 8 1 + 7 5 ( a z + 0 4 7 4 ) - 1 7 5 0 + ( a z + 0 4 7 4 ) 2 ) 啦 ( 2 1 ) 其中a z = 刁一z j 。 图2 - 3 频率和b a r k 之间的关系 第二章音乐的基本理论 图纠b a r k1 0 的扩展函数。 图2 _ 3 的横坐标为频率,纵坐标为临界频带率,图中给出了频率和临界频 带率的对应关系。图“为b a r k1 0 的扩展函数,从中可以看出,低频对高频有 较强的掩蔽效应。 2 1 3 听觉临界频带 当以一个带宽有限制的高斯噪声作为某一单一频率声音( 纯音) 的掩蔽声来 研究人耳的听阈时发现,人耳对于这一纯音的听阈随着高斯噪声带宽的加大而不 断提高,但是当噪声的带宽超过超一阈值后纯音的听阈不再继续提高,基本保持 不变。f l e t c h e r 将其解释为人耳的听觉1 1 6 j 界频带效应【1 7 1 。f l e t c h e r 认为,人耳在 处理声音信号时可以看做由一组中心频率连续、通带互相交叠的带通滤波器组构 成,声音信号的振动经人耳传递到人的大脑的过程,可近似的看成一个数字信号 经过一连串并联的中心频率不同的带通滤波器组。由数字滤波器的知识可知,声 音信号的频率中与滤波器的中心频率相同时响应最大,声音信号与滤波器的中心 频率相差很远时,滤波器则不会产生响应。在这里,将这些带通滤波器称为听觉 滤波器。称使人耳的听阈保持不变时高斯噪声的带宽为临界频带,临界频带是反 映了人耳能够感知的纯音的有效带宽。 人耳感知声音信号的频率响应如式( 2 - 2 ) 所示。图2 5 为人耳的频率响应 曲线。 4 扭( z 舷) = - 3 6 4 ( 1 0 q ) _ 0 舟+ 6 5 e x p ( - 0 6 ( 1 0 3 f - 3 3 ) 2 ) - 1 0 q ( 1 0 q 厂) 4 ( 2 - 2 ) 第二章音乐的基本理论 冒 已 毯 蜃 2 2 音乐的基本物理量 图2 - 5 耳的频率响应 音乐作为声音的一种,表征它的基础物理量与声音基本相同,声音的四个基 本要素是:振动的频率或周期,振幅或强度,振动的持续时间,以及波的相位, 本节对根据声音的基本要素构成对音乐信号进行分析。 2 2 1 声音信号 声音信号是指人耳可以听到的各种声音。声音的产生,是由声源振动对空气 产生压缩和膨胀,形成声波,声波传播到人耳会使耳膜感觉到一定的压力信号, 由耳神经将压力信号转换为电信号传递到大脑,经过大脑的解读就听到了声音。 理论上讲,所有的声音都是由振动产生的,音乐信号不例外,如琴弦的拨动,鼓 面的敲击,吹管乐器腔体内部共鸣,以及歌唱者发声时声带的振动。人耳听到的 每一个声音都是由物体振动产生的。 声音信号根据分类方式的不同可以分为不同的种类,按声源来划分,大致可 分为生物音和非生物音;按频率划分,可分为高音,中音,低音等等。本文研究 的音乐信号不以声音的单一物理指标进行区分因此根据声音信号的主观综合特 9 第二章音乐的基本理论 征将声音分为乐音和噪音两类。区分乐音与噪音的主要判据是看声音的振动频率 是否具有周期性,乐音的振动有一定的周期性,表现出一定的音高,频谱也是分 散的,而噪音的振动比较杂乱,无周期性的振动,没有明确有音高感觉,频谱是 连续的。在研究中遇到的大多数音乐,音乐信号以乐音成分为主,也会出现少量 噪音,但是不影响音乐的正常欣赏。 2 2 2 频率 人耳能听到声波的频率范围是有限的,在2 0 h z 2 0 k h z 之间,超出这个范围 的声波人耳在正常情况下是无法感知的。对一首音乐音高的感知主要由音乐的基 频( 基音) 决定,基频高的音乐音高就高,基频低的音乐音高就低。发音体整体 振动产生的最低的音是基频,以基频为标准,其余1 2 、1 3 、1 4 等各部分也是 同时振动,为基频的各次谐波,就是泛音,它与基频成整数倍的关系。泛音的组 合决定了特定的音色,并能使人明确地感到基频的响度。乐器和自然界里所有的 音都有泛音。 对于不同的乐器,其基频差别很大,泛音的差别就更大了。如小提琴的基波 频率大约为2 0 0 h z 一2 5 k h z ,而泛音却要超过1 0 k h z 。低音提琴的基波频率大约 是4 0 h z 2 0 0 h z ,而泛音却可以达到5 k h z 。单簧管的音域比较宽,基音频率约在 1 6 0 i - - i z 1 4 k h z ,泛音却要超过1 5 k h z 。短笛的频率比较高,基音频率在 6 0 0 h z , - , 4 k h z ,泛音频率可达2 0 k h z 。钢琴的音域是最宽的,它的基音频率从 3 0 h z , - , 4 2 k h z ,而泛音频率可在2 0 k h z 以上。 同时奏出的令人愉悦的某些声音,称之为谐和音,是构成音程的基础。例 如,频率比为2 :1 的两个声音是八度音程,一个八度音程按等比数列均分十二份 得十二半章,称为十二平均律。因此,十二平均律各相邻两音之间得频率比为 垣= 1 0 5 9 4 6 3 0 9 4 。 1 9 3 9 年,在英国伦敦召开的国际会议决定将a i = 4 0 0 表示的高度定义为第一 国际高度。另一种常用在物理学计算中的标准高度是c 1 = 2 5 6 ,它依照音乐中的五 度相生律定制,由a i = 4 2 6 6 6 得到,称其为“物理学高度”或“理论标准高度”。 “十二平均律”这种律制是把一个八度的声音信号平均分成十二个半音。要注意 的是,十二平均律是各个相邻律( 即半音) 之间其频率比相均等的一种律制。一 般的键盘乐器,如钢琴等都使用十二平均律,也就是说在钢琴上,每个相邻的琴 键所发出的音的频率比值均相等,音乐上也定义钢琴上每相邻的两个琴键为一个 半音。依照上述十二平均律的定义和钢琴键盘排列,可以计算出钢琴键盘上每音 的理论频率值: 在从a a 1 八度内的音x 的频率后计算方法可以使用式( 2 3 ) 。 1 0 第二章。音乐的基本理论 六= f o ( 虹) “ 2 2 3 谱能量 谱能量为音乐信号的一个特征统计量,其定义如式( 2 - 4 ) 所示。 e ( 沪丙1 刍n - i 协) 1 2 ( 2 3 ) ( 2 4 ) 基频可以用来表示不同音乐的音高,谱能量同样可以用来表示不同音乐。 将音乐信号的谱能量1 2 等分组成音乐的色度向量,向量中的每一个元素对应于 1 2 种基音频率,类似于西方音乐中的1 2 个等音阶,即可使用谱能量表示一首音 乐。对谱能量开方得到的均方根能量是一个与音强有关的量。 2 3 音乐的主观表示 分析一首音乐不能仅考虑它的物理特征,同时要考虑听众的感受,同一首音 乐由于演奏或演唱的方法或乐器不同给人的主观感觉也会有所不同,原本优美的 音乐响度放大几倍也会变成刺耳的噪音,后现代的金属风格音乐在一些人看来是 噪音,但仍有很多人疯狂的迷恋,因此对一首音乐进行研究不能仅仅通过其物理 指标进行简单的评价,要综合考虑人的主观因素,毕竟音乐创作出来是为满足听 众需要的要考虑人的主观听觉感受。 声学的奠基人之一、德国物理学家亥姆霍兹在分析音乐给人的主观感受时曾 提出,音调、响度和音色,用这三个要素来表示音乐的三个主观分量。本节将针 对这三个主观量进行讨论。 2 3 1 音调 音调,即音的高低,与发生体的振动频率有关,表示人耳对声音调子高低的 主观感受。它取决于发声体振动频率的高低,基频高的声音,人们听起来音调 也越高;基频越低,人们听起来音调就越低,频率的单位用赫兹( h z ) 表示,音调 的单位是“美”。通常响度为4 0 方的1 k h z 的纯音的音调为1 0 0 0 美。人耳对于 音调的感知与声音的频率有关,但二者不是线线递增的关系,对于音乐的中频段, 频率每增高至两倍,音调听起来高一个八度。而在高音部分,听感偏低,即频率 增加一倍,听起来不到高八度而偏低,低频段则听感偏高。音调的高低与声音的 频率密切相关,同时又受到声音的响度和背景干扰等因素的影响。根据人耳对于 音调的实际感受,人的话音频率范围在8 0 h z 1 2 k h z 之间,对于音乐信号这个范 1 1 第二章音乐的基本理论 围会更宽,听觉效果会更好。 2 3 2 晌度 响度也称为音强,通俗的讲就是人耳在听到声音的强弱程度,它代表人们 听觉的主观感受。对应于声音的物理表示为声波的振幅。但是音强与振幅并不 完全成线性关系,中频段音强与振幅可近似看作线性关系,但在声音的低频段 相差很大,高频段也有相当的差别。人耳可感的声音振动频率范围在 2 0 h z 一2 0 k h z 之间,此外2 0 h z 以下的声音称为次声,2 0 k h z 以上的声音称为超 声。在可感声音频率范围内,人耳对所有频率声音的感知能力并不相同,对中频 段1 5 k h z 左右的声音最为灵敏,对高、低频段的声音要迟钝很多,特别是低频 段的声音最为迟钝。 音调与响度的区别主要有三点:1 从物理意义上,音调是指声音高低的程 度,响度是指声音大小的程度。2 音调和响度由不同的物理量决定,音调由发 声体振动的频率决定,振动频率小单调就低,反之则高,而响度由发声体振动 的幅度决定,振幅越大,响度越大。3 响度与发声体距离远近有很大关系,距 离远响度会逐渐变小,而音调不受与发声体距离远近的影响。 响度的计量单位也为分贝( d b ) ,它是根据1 0 0 0 h z 的声音在不同强度的声压 比值,取其常用对数值的1 1 0 而定的。取对数的原因是由于人耳对响度的感觉 是非线性的,用对数来计量更接近于入耳的主观特性。例如声音强度大到l o 倍 时,听起来才响了一级( 1 0 d b ) ,强度大到1 0 0 倍时听起来才响了两级( 2 0 d b ) 。对 于1 0 0 0 h z 的声音信号,人耳能感觉到的最低声压为2 1 0 5 p a ,把这一声压级定 为0 d b 。 图2 _ 8 给出了人耳的听觉范围,横坐标轴是频率,纵坐标轴是声压级。从 图中可见,只有在一定的频率和声强范围内人耳才能听见声音。最小的区域是 人语音和歌唱的范围,稍大的是音乐的范围,最大的区域是全部可听声域。值 得注意的是,在1 k h z 一5 k i - i z 附近,即使声音很微弱,人耳也听得到。 1 2 第二章音乐的基本理论 图2 - 6 耳的听觉范围 可感声强的范围因人而异,各人耳朵的听力不同。随着年龄的增大,人耳 对声强的感知阈值也会提高。对一般人来说,人耳可听声音的强弱范围在频率 为l k h z 下约为1 0 5 p a 1 0 2 p a ,声压级( s p l ) 为0 d b 1 4 0 d b ,与信号频率有关, 与信号时值长短有关。一般来说,低频信号与高频信号都难以察觉,多频谱的 声音比单音难以察觉。弱信号的变化比强信号的变化难以察觉。 对于同样强度的声音,不同频率的主观感觉是不同的。图2 _ 8 中相对于 l k h z 时的听觉强度曲线。声压级越高,曲线越平直。对于低强度的声音,人的 听觉频率范围越小。对于高于2 0 k h z 、低于1 6 h z 的声音,不论声级多高,耳朵 都难以听到。而在3 k h z 5 k h z 之间听觉最敏感。 可 , t 膏 叠 曩 生 他 c b 、 :0 i i i c浊l ? k ,覃h z l 第二章音乐的基本理论 图2 - 7 人耳对纯音轻度变化的分辨限 图猫相对于l k h z 的听觉强度 f 响度是声强的主观量。以l k h z 时的声压级定位响度级,单位为“方”。4 0 方产生的响度为l “宋”。每增加1 0 方,响度加倍,即5 0 方产生的响度为2 宋, 6 0 方为4 宋。这种定义响度的方式考虑了人耳的听觉特性,即刺激量( 声强) 增加为指数方式,感觉量增加为差数方式,以对耳膜进行自动保护。图2 _ 9 为 等响曲线,不同频率下对不同声压所听到的响度相同。例如,在3 k h z 一5 k h z 之 间很小的声强听起来也和6 0 h z 时较大的声强响度相同。 图2 - 9 等响曲线 1 4 第二章音乐的基本理论 2 3 3 音色 音色也是表示音乐的重要主观要素之一,是表现音乐特色的重要参数之一。 然而由于其具有很强的主观性,至今学术界都未对音乐形成统计的定义。本文参 考美国国家标准协会对音色的定义如下:音色为一种听觉属性,基于这一属性, 欣赏者可以辨别出两个具有相同音调和响度的音之间的不刚1 8 】。根据定义可知, 音色对于区分不同的发生源发出的乐音有很大的帮助。 虽然音色是一种人的主观感受,还有很多无法直接量化的成分,但是这些并 不影响在音乐识别中使用音色来区别两首不同的音乐。从物理学角度研究音色, 影响音色的主要物理因素不仅包括音乐的时域信息还包括音乐的频域信息,时域 信息主要指音符的起止时间,而音色的频域信息主要包括三个部分内容:声波的 相位( 波形) 信息,声波的泛音成分数量以及声波的泛音强度比等。 2 4 本章小结 本章主要介绍了音乐的基本物理特征;音乐的心理学特征及与音乐欣赏相 关内容,为进一步研究音乐的特征识别提供了参考依据。 第三章音乐信号处理 第三章音乐信号处理 音乐信号属于声音信号的一种,对于音乐信号的处理有很多可以借鉴声音 信号处理,特别是语音信号处理领域中经常用到的经验和方法。本章将针对音 乐信号的自身特点讨论声音信号处理的流程,并对音乐识别检索中使用到的节 奏信息进行了分析和研究。 3 1 预处理 通过采样获得的原始音乐信号,不能直接用于特征提取。首先需要对其进行 一定的处理,以满足后续分析提取音乐特征的要求。这一小节将着重介绍音乐 信号的预处理技术。音乐信号的预处理流程如图3 1 所示,分为五个步骤:下采 样、分帧、预加重、加窗和静音帧判别。本文中使用的音乐信号为从歌曲中随机 截取的l o s 长的片断,对该片断按预处理流程进行处理。 图3 1 预处理的流程 1 6 第三章音乐信号处理 3 1 1 下采样 无论是从网络上下载的音乐专辑还是通过信息采集设备录制的音乐文件,输 入音乐识别系统中的音乐信号的采样频率并不统一,音乐的编码方式也有所不 同。采样频率的差异直接影响到一帧音乐信号所能包含的音乐信息,因此在分帧 前有必要统一音乐信号的采样频率,并统一音乐的编码格式。可将输入的测试音 乐文件转为m a n a b 中经常用使用且易于是处理的w a v 格式的音频文件。 根据人耳听觉特性,人耳能够感知的最高频率为2 0 k h z ,按照n y q u i s t 采样 定理,采样速率为信号最高频率的两倍以上,通常以4 4 1 k h z 进行采样得到的音 乐信号一般来说是过采样的,高频部分人们真正关心的音乐信息较少。因此为了 减少运算量,提高算法的执行效率,在不损失音乐基本识别特征的前提下可以对 测试音乐信号进行下采样,即以小于是n y q u i s t 采样频率的速率进行抽样。本文 中使用的下采样频率为8k h z ,基本保留了音乐的主要特征信息,对音乐的识别 效果影响较小。 3 1 2 分帧 音乐信号为时间连续的信号,本质上音乐信号属于非平稳信号,其信号特 征会随时间改变发生明显的变化。但是在音乐信号处理中在很短时间( 一般小于 3 0 m s ) 内音频信号可近似视为平稳的,即音乐信号的短时平稳特性,根据这一 特性在对原始音乐信号进行预处理首先应分帧处理,因此分帧长度的选择将会 直接影响到后续预处理及特征提取等操作【3 1 】。 设采样周期为z = 、z 表示音乐信号的采样频率,分帧长度与频率分辨 率v 之间满足式( 3 1 ) 。 厂:l _( 3 1 ) 。以 可见,当采样周期z 一定时,频率分辨率鲈与帧长是成反比的关系,即 鲈会随着帧长的减小逐渐增大。值越小表明频率分辨能力越强,当帧长 增大时频率分辨率得到提高,但同时时间分辨率降低;如果缩短帧长,频率 分辨率会下降,而时间分辨率得到提高,可见时间分辨率与频率分辨率两者是 矛盾的,实际应用中应根据需要折中选择适合的帧长度。本课题中根据音乐自身 的特点选择帧长为4 0 0 。 1 7 第三章音乐信号处理 3 1 3 预加重 在音乐信号中由于演唱者受到生理发声能力的限制,高频端信号的幅值较 低频端会出现明显的下降,所以在分析音乐信号频谱特性时,就会发现高频成 分信息相对缺失较多,这对分析音乐高频部分特性影响很大。对音乐信号进行 预加重目的就是为了提高其高频部分,使音乐在整个频带内部趋于平坦信噪比基 本不变,以便于分析音乐的特征参数。 d b i o g 正 il 一一 ( a ) 预加重响应曲线( b ) 去加重响应曲线 图3 2 预加重去加重响应曲线。 通过一价数字滤波器( 如一阶f i r 滤波器) 即可实现信号的预加重处理。本 课题中采用的是一阶固定滤波器,其传递函数如式( 3 - 2 ) 所示: _ h ( z ) = l 一胆一10 9 2 厶或弓 2 c o ) ,才能无失真的恢复原 始带限信号,显然如果按照采样定理对连续时间信号进行采样对数据信息的采 集、存储和传输等各个信息处理过程都存在无法跨越的瓶颈。 主要表现在两个方面: ( 1 ) 数据获取和处理方面。随着科研的不断深入,科技的不断发展,人们需要 采样的信号的频率不断的提高,如通信领域中的超带宽通信、核磁成像、宇宙探 索等的信号频带很宽,已经无法通过单纯的提高采样频率来满足频率拓宽的需 要。研究人员试图通过各种途径来避开n y q u i s t 采样的限制,其中影响较大的有, 由d o n o h o ,c a n d e s 等人提出的压缩感知( c o m p r e s s e ds e n s i n g ,c s ) 理论i 峪】, 非均匀采样( n o n u n i f o 册s a m p l i n g ) 理论【3 2 1 ,有限新息率采样( f i n i t er a t eo f i n n o v a t i o ns a m p l i n g ) 理论【 等。 第四章压缩感知理论研究 ( 2 ) 数据存储和传输方面。为了减小存储所需的空间,缩短传输时间,对于 得到的采样信号一般的做法是按照一定的压缩首先对其进行压缩,存储和传输过 程中的数据是经过压缩了的数据。但是,前提是需要较大的转存空间,数据压缩 完成后才能删除原始采集数据,对数据进行压缩也需要一定的时间,另外,为保 证信息的安全传输,通常的加密技术是用某种方式对信号进行编码,这给信息的 安全传输和接受带来一定程度的麻烦,利用压缩感知算法进行信号采集在某种程 度上可以对数据起到加密的作用。 综上,随着通信及信号处理领域的不断发展,简单依照传统的n y q u i s t 采样 理论无法解决在信息获取、处理、融合、存储以及传输中遇到的新的应用问题, 需求新的理论支持成为信号处理领域发展的有效途径之一,压缩感知算法于是应 运而生。 4 3 压缩感知理论 自采样定理的提出,短短几十年间,信息采集技术和能力不断提高,获取的 数据量随之激增,传统的采样理论遇到了发展的瓶颈,数据的获取、存储、传输 和处理都面临着极大的挑战,信号处理的成本也随之增加。压缩感知理论就是在 这样的背景下提出的,其起源可追溯到2 0 世纪中期。2 0 0 4 年,由d o n o h o ,c a n d c s 等提出了压缩感知( c o m p r e s s e ds e n s i n g ,c s ) 理论,该理论充分利用了信号稀疏 特性【l5 1 ,当待采样信号的原始信号为稀疏信号时可以通过远低于n y q u i s t 采样的 信息实现对原信号的恢复和重建。 4 3 1 音乐信号的稀疏表示 稀疏表示 ( a ) 视频等 p ( a t ) jl 、 l 夕 。k 一 一 图4 - 4 人类神经系统稀疏采样模型 口f ( b ) 信号的采集过程称为信号的稀疏表示( s p a r s er e p r e s e n t a t i o n ) 。o l s h a u s c n , 2 7 + 第四章压缩感知理论研究 f i e l d 在压缩感知理论基础上进一步提出了信号的稀疏编码模型【2 们,该模型是通 过对人类神经系统利用各种感觉器官感知外界信息的特性研究发展而来。模仿人 类神经细胞感知外界信息变化的特点,稀疏编码模型利用已知的信号特征构成稀 疏基矩阵,将原信号与稀疏基矩阵进行线性叠加,得到的采样信号只有少量差异 信息,极大的减轻信号存储和处理的压力。图4 - 4 为人类神经系统稀疏采样模型, ( a ) 图表示感觉器官的神经元系统对外界信息进行稀疏编码。人类的感觉神经系 统在采集外界信息的时候为了提高效率,减少体力能量消耗和新陈代谢1 2 1 j ,并不 是所有的感觉神经同时兴奋,当外界信息到来时,只有少量神经元处于活跃状态。 图( a ) 中只有少量标为黑色斑点的神经元处理兴奋状态,正在采集外界信息,其余 神经元不工作。m ) 图表示单个神经处于激活状态的概率,a l 为神经元数量,p ( a f ) 表示神经元处于激活状态的概率。其中实线表示神经元处于激活状态数的概率 分布。神经元处于激活状态数量在零值附近的概率较高,即大部分神经元在大部 分时间内是非激活的,只有在极少的情况下大多数神经元会同时工作,可见人类 的神经系统在响应外界信息时具有稀疏特性,( b ) 图中虚线为具有相同均值和方 差的正态分布曲线,与实线进行比较可见稀疏编码系统较正态分布更适合于信号 的表示。 h k 一。ii r i r7 丌一rtii 叶。r f 1 一 音乐信号 一h _ 嘲 巾h _ 删 峭叫籼 + 。 1 l _ = 宁r 1 r 一1 r “:7 一 信号的稀疏表示 训练矩阵 噪声 图4 _ 5 音乐信号的稀疏表示模型 人类的神经系统及人耳的听觉特性的研究2 2 2 4 筇2 6 1 表明,音乐信号具有稀疏 特性,能够找到一组稀疏基对其进行稀疏表示,因此可以应用压缩感知理论对其 进行处理。设x 为音乐片断信号,长度为n ,记为z ) ,行【1 ,2 ,n 】,根据稀疏 编码模型可用一组稀疏矩阵甲r = 【一,也,k 】的线性组合表示音乐信号石( 其中 、l ,7 表示矩阵甲的转置矩阵) ,则有: , x = 甲 = 甲口 ( 4 5 ) 式中:口。= 为音乐信号与稀疏矩阵的内积,口与工都是1 维的向 , 2 8 第四章压缩感知理论研究 量,甲为n x n 矩阵。当音乐信号x 在某个基、壬,上仅有k ( 脉 ) 个非零( 或远 大于零值) 的系数吼时,称甲为信号x 的稀疏基,称音乐信号x 可以使用稀疏基 甲表示【2 3 1 。 当音乐信号x 仅通过k 个非零系数即可表示时称该信号为严格稀疏的。一般 来说一首复杂的音乐不可能是严格稀疏的,但仍能通稀疏编码的方法进行表示, 稀疏表示后音乐信号的绝大部分系数近似为零,只有少量的远大于零的参数,这 k 非零值可以表示音乐的特征信息。选择不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论