(电路与系统专业论文)基于最小一范数的稀疏表示音乐流派与乐器分类算法研究.pdf_第1页
(电路与系统专业论文)基于最小一范数的稀疏表示音乐流派与乐器分类算法研究.pdf_第2页
(电路与系统专业论文)基于最小一范数的稀疏表示音乐流派与乐器分类算法研究.pdf_第3页
(电路与系统专业论文)基于最小一范数的稀疏表示音乐流派与乐器分类算法研究.pdf_第4页
(电路与系统专业论文)基于最小一范数的稀疏表示音乐流派与乐器分类算法研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(电路与系统专业论文)基于最小一范数的稀疏表示音乐流派与乐器分类算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要最近几年,随着i n t e m e t 网和数字音频技术的发展,基于内容的音乐信息研究逐渐成为研究热点。音乐信息检索是基于内容的音乐信息研究的重要课题之一。最近随着互联网上音乐的迅速增加,从互联网上检索出所需要的音乐变得十分困难。然而,目前大多数的音乐的分类都是基于手工分类,面对数字音乐如此蓬勃发展,手工分类已经不足以应对这种发展态势,因此,基于内容的音乐分类技术就显得迫切和重要。本文在音乐特征提取方面,引入音质特征,主要包含其统计方面的特征。在模式识别与分类方面,本文将新的模式识别与分类的方法应用于本文的音频分类系统中。在音乐流派自动分类系统中,本文新引入的特征比较有效,并且提高了正确率。在分类方法上,将支持向量机方法与基于最小一范数的稀疏表示方法的进行比较,基于稀疏表示的分类方法体现出较好的分类效果。同时通过实验说明p c a 与分类方法的有效结合,可以提高分类正确率。中国古典乐器是世界乐器的重要组成部分,具有悠久的历史。然而对中国古典乐器的研究少之又少,为此,本文将中国古典乐器的研究纳入音频分类系统中。结合本文提取的特征和模式识别与分类方法,在分类效果上取得了比较高的正确率。通过对音乐流派与乐器的分类,也进一步说明本文引入特征的有效性,以及基于稀疏表示方法相对于支持向量机的优越性。关键词:特征提取音乐流派分类乐器分类稀疏表示分类a bs t r a c ti nr e c e n ty e a r s ,w i t ht h ed e v e l o p m e n to ft h ei n t e r n e ta n dd i g i t a lm u s i c ,t h ec o n t e n t b a s e dm u s i c a lr e s e a r c hh a sb e c o m et h eh o ts p o t so ft h e r e s e a r c h t h em u s i c a li n f o r m a t i o nr e t r i e v a li so n ei m p o r t a n tp a r to ft h ec o n t e n t - b a s e dm u s i c a lr e s e a r c h r e c e n t l y , w i t ht h en u m b e ro ft h em u s i ci n c r e a s i n gg r a d u a l l y ,w er e t r i e v a lt h em u s i cw en e e do nt h ei n t e r n e tb e c o m ev e r yd i f f i c u l t h o w e v e r ,m o s to ft h em u s i c a lc l a s s i f i c a t i o nm e t h o d sa r em a n u a l l y , w i t ht h ed e v e l o p m e n to ft h ed i g i t a lm u s i c ,m a n u a lc l a s s i f i c a t i o nc o u l dn o tb ed e a lw i t ht h i sd e v e l o p m e n ts i t u a t i o n ,s ot h ed e v e l o p m e n to ft h ec o n t e n t - b a s e dm u s i c a lc l a s s i f i c a t i o nb e c o m e su r g e n ta n di m p o r t a n t t h es t u d yi sb a s e do nt h ee x i s t i n gr e s e a r c h i nf e a t u r ee x t r a c t i o n ,t h i sp a p e ri n t r o d u c e st h en e wt i m b r ef e a t u r ew h i c hm a i n l yc o n s i s ts t a t i s t i c a lf e a t u r e s an e wc l a s s i f i c a t i o nm e t h o du s e di n t h i sp a p e r sa u d i oc l a s s i f i c a t i o ns y s t e m t h ei n t r o d u c t i o no ft h en e wf e a t u r eh a sb e e ni m p r o v e de f f e c t i v ei nt h em u s i c a lg e n r ec l a s s i f i c a t i o n ,w h i c hi m p r o v e st h ea c c u r a c yo f t h ec l a s s i f i c a t i o n t h i sp a p e rc o m p a r e dt h es u p p o r tv e c t o rm a c h i n ea n ds p a r s er e p r e s e n t a t i o n - b a s e dc l a s s i f i c a t i o n , a n dt h ec l a s s i f i c a t i o nb a s e do nt h es p a r s ep e r f o r m sb e t t e rt h a ns u p p o r tv e c t o rm a c h i n e t h ee x p e r i m e n ts h o w st h ec o m b i n a t i o nt h ep c aa n dt h ec l a s s i f i c a t i o nm e t h o dt oi m p r o v et h ec l a s s i f i c a t i o na c c u r a c y c h i n e s ec l a s s i c a lm u s i c a li n s t r u m e n t sa r ea ni m p o r t a n tp a r to ft h ew o r l dm u s i c a li n s t r u m e n t ,a n dc h i n ah a sal o n gh i s t o r yo fc l a s s i c a lm u s i c a li n s t r u m e n t s h o w e v e r ,v e r yl i t t l ew o r ks t u d yc h i n e s ec l a s s i c a li n s t r u m e n t ,i nt h i sp a p e r ,t h ea u t h o rr e s e a r c ho nc h i n e s ec l a s s i c a li n s t r u m e n tc l a s s i f i c a t i o n t h i sp a p e ra c h i e v e sh i g hc l a s s i f i c a t i o na c c u r a c yw i t ht h ec o m b i n a t i o no f t h ef e a t u r e sa n dc l a s s i f i c a t i o nm e t h o d t h r o u g ht h ec l a s s i f i c a t i o no fm u s i c a lg e n r e sa n di n s t r u m e n t s ,t h ea u t h o ri l l u s t r a t e st h ee f f e c t i v e n e s so ff e a t u r e si n t r o d u c e di n t h i sp a p e r ,a n ds h o w st h ea d v a n t a g e so fs p a r s er e p r e s e n t a t i o n - b a s e dc l a s s i f i c a t i o nc o m p a r i n gt os u p p o r tv e c t o rm a c h i n e s k e yw o r d s :f e a t u r ee x t r a c t i o n , m u s i c a lg e n r ec l a s s i f i c a t i o n , i n s t r u m e n tc l a s s i f i c a t i o n ,s p a r s er e p r e s e n t a t i o n - b a s e dc l a s s i f i c a t i o n第一章绪论第一章绪论1 1 本论文课题的研究目的和背景随着互联网技术的快速发展,音乐音频文件因其占用空间小、存储和复制方便等特点,使得数字电子音乐得到了极其快速的发展。然而,面对i n t e m e t 网和数字图书馆上的大量音乐,搜索到人们所需要的音乐变得更加困难,这就要求网络或者网站可以对这些海量音乐事先做好分类,以便使得检索音乐变得容易。因此,音乐信息检索( m u s i ci n f o r m a t i o nr e t r i e v a l ,m i r ) 成为最近几年的研究热点之- - 1 】【4 1 。为了方便检索,需要对海量音乐按照一定的规则或者方法进行重新分类和组织。目前对于音频的分类还是停留在人工分类的阶段,然而面对i n t e m e t网和数字图书馆上的海量音乐,人工手动的分类具有工作量大,工作效率低等特点,因此基于内容的音乐自动分类算法的研究显得尤为重要和紧迫。音乐自动分类技术具有极其重要的研究价值。按照不同的方法或者标准,可以根据分类结果将音乐建立不同的索引,并且还可以提高音乐自动分类和检索的性能。基于内容的音乐自动分类系统可以建立相对比较公正、客观的类别体系,减少相对的人为的主观偏见。在众多基于内容的音乐自动分类系统中,研究最多的是音乐流派自动分类、乐器自动分类、情感自动分类和歌手自动分类与识别。音乐流派自动分类系统通过训练分类器,可以识别不同的流派音乐,还可以用来确定不同的音乐流派特征。音乐乐器自动分类系统可以用来区分不同乐器种类。同时基于内容的音乐自动分类技术通过训练分类器,可以用来在海量的音乐数据库中查找所需要的音乐,并且还可以为人们推荐一些鲜为人知的音乐。分类器还可以通过训练,根据音乐的情感、曲式结构和场景对个人收藏的音乐进行分类,这样可以在不同的场景、不同的心情下进行自动筛选音乐。总之,音乐自动分类技术具有极其重要的研究价值,能够对当前的音乐数据库建立非常有效的索引,提高音乐检索的效率。音乐信息检索的研究属于交叉学科的综合应用,其研究成果可以帮助音乐、信号与信息处理、计算机科学、算法和数学等相关学科的研究。本文主要进行了音乐流派自动分类和中国古典乐器自动分类的研究。第一章绪论1 2 音乐流派自动分类技术的发展及研究现状随着数字音乐的快速发展,如何快速、有效的组织和处理音乐成为一个巨大的挑战。流派是一种有效的组织和处理音乐的方式。然而目前对于音乐流派的分类还处于人工分类阶段,这已经不能与电子音乐的快速发展相适应。因此音乐流派分类的研究显得尤为重要和迫切。音乐流派自动分类系统可以取代人工分类,使得分类工作变得更容易、更加精确和更加客观;同时可以为个人音乐数据库找回丢失的音乐流派标签。而且音乐流派分类的研究又是音乐信息检索的重要课题之一。基于以上原因,国内外很多学者开始关注和研究音乐流派分类。大多数的研究工作是借鉴语音识别方面的特征其中包括频谱能量、过零率、线性预测系数、美尔倒谱系数、自相关系数和共振峰等,结合模式识别与分类的方法对音乐流派进行分类。如g e o r g et z a n e t a k i s 和p e r r yc o o k 等【2 】采用了高斯混合模型( g a u s s i a nm i x t u r em o d e l ,g m m ) 来解决音乐的流派分类问题,作者为我们提供了三个特征集合,这三个集合分别是音质特征、节奏( 鼓点) 特征和音调特征;其中音质特征包括:频谱中心、频谱滚降点、频谱通量、过零率、低能量和美尔倒谱系数。t a ol i t z a n e t a k i s g 等人【8 】分析了不同的特征因素对音乐流派分类效果的影响,并且采用了支持向量机( s u p p o av e c t o rm a c h i n e ,s v m ) ,多层支持向量机( m u l t i c a t e g o r yp r o x i m a ls u p p o r tv e c t o rm a c h i n e s ,m p s v m ) ,和线性判别分析( l i n e a rd i s c r i m i n a n ta n a l y s i s ,l d a ) ,他们发现短时傅里叶变换特征( f f t ) +美尔倒谱系数特征( m f c c ) + 鼓点特征( b e a t ) + 音调特征( p i t c h ) 的特征组合的分类正确率最高。c h a n g s h e n gx u 和m a d d a g e n c 等人【9 】在他们的工作中采用节奏谱、线性预测编码、过零率、频谱能量和m f c c 等特征对音乐流派进行分类,在他们的工作中他们发现s v m 的效果要好于最邻近法( k - n e a r e s tn e i g h b o r ,k 小小i ) 、g m m 和隐马尔科夫模型( h m m ) 。t a ol i 和m r s u n o r io g i h a r a 等人【3 1 研究出一种新的可应用于音乐流派分类的特征提取方法,这种方法是基于小波变换理论,采用统计的方法计算小波系数的统计值,从而获得特征:同时他们将不同的模式识别与分类的方法作比较,像s v m 、g m m 、l d a 和k n n ,他们发现s v m 的效果是最好的。s h e n j ,s h e p h e r d j 和n g u a h h 等【l o 】研究出一种新的特征提取系统1 n m a f ,该方法基于神经网络,并用多种分类器进行了分类,从他们提供的实验数据中发现s v m 的效果最好。k i r s s 等人【l l 】在应用不同的工具包从而提取了不同的音乐特征,并采用了不同的模式识别与分类的方法对五种音乐做了分类。2第一章绪论国内学者很少有做音乐流派分类的领域研究,从检索的文献看大多数的工作集中在音频信息检索、音频分割等方面。而音乐又是音频的重要组成部分之一,但是,在频谱上,语音和音乐具有很大的差别。在国内,专门研究音乐信号自动分类的学者比较少。根据检索的文献来看,国防科技大学的白亮等提出的s v m决策树多级分类理论实现了非语音语音,静音噪音,纯语音背景音和音乐一环境音的分类,表现出了良好的分类效果,但对噪音的分类精度较差i l2 。中山大学的欧贵文等,根据h m m 适合处理连续信号和s v m 适合处理分类问题的特点,将支持向量机和隐马尔可夫相结合,得到了混合模型( s v m h m m ) ,这种混合模型用于解决音乐的自动分类问题,效果较好【b 】。国防科大的李恒峰、李国辉等人开发的音频分类与检索系统一a r s ,这种系统采用了基于模板的音频检索算法【1 4 ;南京大学的卢坚等人提出了一种基于隐马尔科夫模型的音频分类方法,可以用于处理语音、音乐和其混合声音类型的分类问题【l5 1 。最近几年的研究工作中,国内外学者将一些新的特征提取方法应用到音乐流派分类领域。k a ic h e n 等人结合当前的音乐流派分类的方法和文本分类技术提出了一种新的流派分类方法【16 1 。h o l z a p f e l 等人基于非负矩阵分解( n o n n e g a t i v em a t r i xf a c t o r i z a t i o n ,n m f ) 提出了一种新的特征提取方法,并将这种方法与传统的且应用广泛的经典特征m f c c 相比较,他们采用g m m 对数据进行了分类【1 7 】。b a g c i 等人利用流派类别之间的相似性模型引进了一种新的分类器,并且还分析了音质特征的动态特性,并改善了分类的效果和准确掣1 8 】。k i t a h a r a 等人从低音线上提取出新的特征,并且应用贝叶斯准则进行分类,但是分类效果并不理想【l9 1 。y p a n a g a k i s 等人【7 】结合音乐录音的调制特性和基于稀疏表示的分类器( s p a r s er e p r e s e n t a t i o n - b a s e dc l a s s i f i e r s ,s r c ) 提出了一种稳健的音乐流派分类系统,在g t z a n 的数据库上取得了较高的分类准确率。p a n a g a k i s y 等利用拓扑非负张量分解( t o p o l o g yp r e s e r v i n gn o n - n e g a t i v et e n s o rf a c t o r i z a t i o n ,t p n t f ) 提取特征,采用s r c 作为分类器,取得了较好的分类效果【2 0 。综上所述可以发现,音乐流派的分类的研究基本朝着两个方向发展,一方面是寻找更加有效的特征去表述各种音乐流派,另一方面是应用更加新颖的或者更加有效的分类器。而且从上述描述来看寻找更加有效的特征和应用更加有效的分类器是一个必然的趋势。这同时也表明旧的的音乐特征不足以充分的表述音乐流派之间的差异;而且表明旧的分类器的分类效果并不理想,因此需要我们对其进行改进,以提高分类的准确率。从以前的研究工作来看,一方面音质的特征的分类效果要比鼓点特征和音调特征的分类效果都好【3 ,】o l ,然而这些音质特征并没有充分的表述音质。从另一方面开看,最近几年的出现的新的分类器s r c 的分类效果要优于s v m 7 , 2 1 , 2 2 ,这无疑给音乐流派分类领域带来了新的希望。但是在第一章绪论文献 7 ,2 1 ,2 2 1 q h 他们均采用了一种特征,然而我们知道一种特征并不能够很好的充分的描述音乐流派之间的差异。因此本文采用了多种特征组合的方式。1 3 中国古典乐器自动分类技术的发展及研究现状乐器标签是音乐分类的一种重要标签,同时乐器还可以预测音乐的情感,流派种类,和音乐场景等。如果我们知道某一种音乐所使用的乐器,那么我们可以根据乐器信息来改善音乐自动分类的分类效果和区分潜在的音乐集。因此最近一段时间乐器分类的研究工作吸引了众多学者的注意,原因就是研究乐器分类可以帮助我们研究其他音频领域的分类工作。到目前为止,大多数的乐器研究工作都集中在西方乐器的研究上,很少有人研究中国古典乐器自动分类。众所周知,早在公元前4 世纪,古典乐器就已经在中国出现,此时的乐器分类是依据乐器的材料分类,然而中国乐器也是世界乐器的一部分,因此非常有必要研究中国的古典乐器。本文的研究工作中采用了1 4种中国古典乐器。通常情况下,音频自动分类包含两个基本的步骤:特征提取和有监督的或者无监督的分类。对于音乐乐器自动分类,乐器之间的巨大差别是乐器的音质,也就是说泛音的多少和组成。因此音乐乐器自动分类的研究工作的方向是寻找具有区分力的特征,这种特征可以反映出不同的乐器中间的差异;以及应用效果比较好的分类一次来提高分类的准确率。很多学者都已经在乐器分类的研究中作了大量的工作,基本上是应用不同的特征提取方法提取音质特征,以此改善分类的正确率;并且通过应用不同的分类器包括s v m 、g m m 、h m m 和k n n 等提高分类效果。如a g o s t i n i 等人提取音质特征包括:频谱中心、频谱宽度、前四个部分中的不和谐的泛音的能量比和泛音能量的三阶矩,用二次判别分析( q u a d r a t i cd i s c r i m i n a n ta n a l y s i s ,q d a ) 进行分类取得了较好的分类效果【2 1 1 。b e n e t o s 等人将非负矩阵分解应用到音乐乐器分类中,取得不错的分类效果【2 2 1 。p r u y s e r s 等人将离散小波分析理论应用到乐器分类中【2 3 1 。d ad e n g 等人利用机器学习技术选择和评价提取出的不同的特征,并且挑选出了和乐器分类最相关的特征【2 4 1 。n i e l s e n 等人对乐器分类分析了频谱特征的相关性【2 5 1 。s o m e r v i l l e 等人利用k n n 和多音质特征对西方乐器进行了分类取得取得了较好的效果【2 6 1 。j i n gl i u 等人利用支持向量机方法对中国古典乐器和西方乐器作了分类和比较【27 1 。4第一章绪论依据目前本文检索的文献看来,基于稀疏表示的分类器并没有应用到乐器分类的领域,更没有应用到中国古典乐器分类的研究中,因此本文将基于稀疏表示的分类器应用到这一研究领域。1 4 本论文的结构及创新点本论文按照音乐自动分类系统的研究过程,主要分为音乐信号特征分析提取、音频分类系统设计以及实验验证三部分。本文详细介绍了所提取的特征以及新引入的特征,同时从多个方面对比了s r c 与s v m 的分类效果。具体来说,第二章,简要的介绍了音乐信号量,从物理学角度介绍了一些基本的物理量如频率、频谱等;从声音的主观上介绍了音调、响度、音色等;从音乐学的角度介绍了节奏、旋律、音乐流派和中国古典乐器等。第三章,基于短时傅里叶变换和小波变换提取音质特征、鼓点特征以及小波域特征。第四章,详细介绍了s r c 、s v m 和p c a ,以及它们的理论模型。第五章,通过实验验证并评价新引入的特征的分类效果,并对s r c 与s v m的分类效果进行比较。第六章,对本文的研究工作进行总结与展望。本论文的主要贡献包括如下三个方面:第一,引入一些新的音质特征,如频谱方差、频谱离度、频谱峰度、频谱熵、频谱非均匀度、频谱平坦度、频谱幅度和频谱低能量,这些特征使对音乐信号音质的描述更加充分,更加有效。第二,采用p c a 技术对提取的特征进行降维,降低了特征的维数,同时提高了分类的正确率。第三,根据稀疏编码基本理论,探讨了基于稀疏表示分类的模型;将本文提取的特征进行组合,并将s r c 的应用范围扩展。第二章音乐简介第二章音乐简介众所周知,大自然中的声音按照感情色彩分类可以分为噪声和乐音两种。噪声的振动是杂乱、无规律可循的振动,并且在频谱上是连续的。而乐音的振动具有一定的周期性,并且在频谱上是离散的。其实在现实的音乐世界里,乐音、出现在音乐中的噪声以及在谐波中出现的超声都称之为音频声音【3 0 1 。在音乐中,习惯上采用的参数如:周期,频率,振幅,以及声强( 与振幅的平方成比例) 。除此以外还可以用声谱描述音乐声。声谱描述的是声功率按频率的分布。频谱有离散谱和连续谱两种,至今,在信号处理领域,频谱分析仍然是研究信号的主要的有效的手段之一。在物理上,音乐的实质是振动的传播。振动由振动的幅度、频率、时间周期等要素构成。这些物理量反映到听觉上,幅度表现为响度、频率表现为音调、频谱体现的是音质等,进一步又形成了更高一层的特征如旋律、节奏、和弦、曲式等,进而又形成了不同的音乐流派、音乐风格和音乐体裁。2 1 音乐的基本物理量2 1 1 频率众所周知,音乐也是一种声音,从物理学角度讲,声音是一种依靠介质传播的机械波。表征机械波的物理量有四个基本要素:振动的频率或周期,振动的幅度或强度,振动持续的时间,以及相位。人耳能够听得到的声音频率范围是2 0 赫兹到2 0 千赫兹。声音的音高是指对声音主要频率的感知。如果声音的基频高,那么它的音高就高,反之,如果声音的基频低,那么它的音高就低。其中泛音是指基频的谐波,与基频的整数倍有关系。虽然音高跟人耳的主观感觉有关,但是对于乐器的制作,调节和弦和节奏需要客观的标准,对于制造不同的乐器而发出相同的基频则显得更加重要。在实际生活中,我们所听到的合奏,大多数是多种乐器的合奏,这种合成的声音的波形比较复杂,其中包含的频率也比较复杂,无法用简单的数学公式表示出来。但是泛音是非常丰富的,甚至有些泛音是在人耳的听觉范围之外的。和谐音是指同时奏出的令人愉悦的某些声音,是构成音程的基础。6第二章音乐简介在不同的历史时期,各个国家指定的标准音和音高都不尽相同。目前,国际标准音高为第一国际音高4 4 0 i - i z ,也称作演奏会音高。在音频分类系统中,频率对于提取特征具有重要的意义,对信号经过傅里叶变换后,大多提取的特征都需要依据频率;同时频率对于提取鼓点特征更为重要。2 1 2 谱能量谱能量是一个统计量,其定义如下,e ( 沪丙1 壶n - 胁) 1 2( 2 - 1 )均方根能量是一个与音强有关的量,将谱能量开方即可得到均方根能量。频谱能量来源于离散傅里叶变换,上面己经提到,频谱分析在现代信号处理领域起着非常重要的作用,而本文提取的大多数的音质特征都是基于短时离散傅里叶变换而求得。2 2 声音的主观量德国的著名物理学家亥姆霍兹曾经提出,音乐的三个主观量是音调、响度和音色。虽然从物理的角度看,噪声和音乐各自有各自的定义,但是从主观的心理感受上看,心情不好的时候,动听的音乐会令人心烦,而心情好的时候,周围的一切环境都会让人感觉美好。因此对音乐信号的研究既要研究客观世界,也要研究人的主观感受。虽然它们是主观量,但是也有相应的客观标准。这里叙述的主观量主要和音乐信息检索的课题相结合,即描述音乐的这些量的规律如何应用到音乐信息检索课题中。2 2 1 音调音调,即声音的高低,由发生物体的振动频率所决定,是评价声调高低的主观评价尺度。发声物体的振动频率越高,那么它的音调也就越高;发声物体的振动频率越低,那么它的音调也就越低。一般来讲,大提琴的音调比小提琴的低,女性的平均声音比男性的高。频率与音调的并不是按比例严格对应的;在中频段,一般认为,频率每提高两倍,音调听起来提高一个八度:音调的客观评价尺度是声波的频率,音高与频率基本上是一致的 3 0 1 。第二章音乐简介用不同的乐器演奏同一个音符时,由于相同的音符的基频相同,所以听起来音高相同。然而乐器发出的每一个音都包含基频和谐波一与基频的整数倍有关系;基频决定的是音高,而决定乐器音色的是每种乐器的各次谐波。2 2 2 响度响度即是声音的强弱,是人们对于声音强弱的主观评价尺度,振幅是人们对于声音强弱的客观评价尺度。响度的单位是分贝,由于入耳对于响度的感觉是非线性,所以在计算响度时根据1 0 0 0 h z 的声音在不同强度下的声压比值在取其对数值的1 1 0 ,取对数的原因是对数的特性比较符合人耳的听觉特性。人耳有一个显著的特征是,人耳对于轻的声音比较敏感,而对于强的声音相对来说就比较迟钝。举例来讲,当人耳听到很轻的声音时,会感觉到声音的强度与频率之间的关系很大;而当人耳听到很强的声音时,会感觉到声音的强度与频率的之间的关系很小,换句话说,对于很强的声音,在相同振幅情况下,人耳对于各频率的声音的响度感觉比较接近。同样是对相同振幅的声音,人耳对于高频和低频部分的声音感觉响度比较大,而对于中频段的声音则感觉响度比较低。图2 - 1 给出了人耳的听觉频率范围,x 轴是频率 y 轴是声压级s p l 。从图2 1 中可以看出,人耳只有在一段频率范围和声压范围内才能听得见声音。从图2 1 中可以发现,在3 k h z - 5 k h z 附近,虽然声压很小,人耳也听得到。对于一般人来说人耳听声音的强弱范围在频率为1 k h z 下约为1 0 。5 p a 至1 0 2 p a ,声压级为0 d b 至1 4 0 d b ,与信号频率有关,与信号时值长短有关【3 们。图2 - 1 人耳的听觉范围口8 】8第二章音乐简介2 2 3 音色泛音决定了不同的音色。当我们说话时,我们发出的声音除了含有一个基频以外,还包含了很多不同频率的泛音,正是这些泛音能够是人的耳朵根据不同的声音辨别出不同的人。同样的道理当人的耳朵区分不同流派的音乐、不同乐器的音乐也是根据泛音区分的。音质即是声音的品质,包含了音高、音调和音色。当我们提取特征来区分不同的音乐时,更多应该注重提取音质的特征,其中提取出音色的特征,对于区分不同的音乐会有比较大的贡献。在本文系统中,大多数的特征都是基于音色、音质提取的,在实验部分,通过实验数据说明了音质特征的重要性。2 3 音乐学音乐学是研究音乐的所有理论,通过研究与音乐相关的各种现象来描述音乐的本质和规律。在音乐信息检索领域可以借助音乐学所研究出的规律和本质,利用数学的方法提取出最具有针对性的特征。在音乐信息检索领域我们主要分析音乐的节奏、旋律、情感、流派类属和相似度等。2 3 1 节奏节奏是音乐的“进行”,从不同的音乐种类来看,节奏具有轻重缓急,也有松散和紧凑的。节奏是区分不同音乐类别的重要特征。当人耳听取音乐的节奏主要听的是音乐的拍点和速度,通过这两点我们可以区分不同类别的音乐如古典音乐和嘻哈。音乐中的节奏是交替出现,即具有一定的周期性,也就是有一定的规律,可以采用数学分析的方法,将这些节奏的特征特点提取出来,用来比对不同的音乐类别。节奏一般用b p m 来表示,即b e a tp e rm i n u t e ,每分钟的节拍数。b p m 值比较大的音乐节奏感比较强,比如h i p h o p 的音乐节奏感非常强,b p m 值也比较大。一般情况,相同流派的音乐的节奏感都差不多,而不同的音乐流派的音乐的节奏会有所不同。因此本文选用节奏或者鼓点特征,并将其应用到本文的音频分类系统中。2 3 2 旋律旋律又称为曲调,一首歌曲主要有两个要素组成:歌词和旋律,有的音乐并9第二章音乐简介没有歌词。旋律在音乐中的地位非常突出,很多时候,一首音乐的名字可能忘记了,但是还能记住音乐的旋律。大脑识别一首音乐的时候,仅凭起始的旋律就可以判别出这首音乐,因此研究音乐的旋律具有非常重要的意义。旋律更多的是音乐的诸多基本要素的有机结合。有些情况中,相同的风格的音乐,音乐的旋律的特征可能是相似,本文没有将旋律特征放入到音频分类系统中,主要考虑到不同音乐的旋律必然是不同的,相同的流派的音乐的旋律特征也具有不同点。但是在旋律提取、音乐相似性检索以及哼唱检索系统中,旋律都起着非常重要的作用。2 4 音乐流派音乐流派主要讲的是针对西方音乐,西方音乐的音乐流派种类有很多种,包含古典、蓝调、摇滚、嘻哈等等。西方音乐流派的发展几乎贯穿整个西方音乐的发展,在不同的时期以不同的流派呈现,流派的提出起初是为了减少音乐的复杂度,使得相同的音乐归为一类,这也为后来的研究提供了便利。在现代的流派中,同一类型流派的音乐具有差不多相同的特征,所以研究起来也比较方便,但是音乐流派之间并没有严格的界限,而且随着音乐的发展,音乐流派之间难免会出现交叉,这又提高了音乐流派的研究难度。在西方音乐中,音乐流派将音乐划分的一种重要方法,同时音乐流派分类也是音乐信息检索的课题之一,也是最近几年的研究热点。目前音乐信息检索中,音乐流派分类的研究工作分为两种,美国音乐流派分类和拉丁音乐流派分类。本文的研究工作是建立美国音乐流派的研究基础之上。下面简单的介绍各个音乐流派:蓝调:蓝调音乐起源于美国黑人奴隶的歌曲,蓝调音乐对于西方音乐都有很大的影响,可以说是现代西方音乐的根源。蓝调音乐几乎都会使用一种标准曲式,这一特征为分类带来了便利;但同时现代的很多西方音乐都是从蓝调中发展而来,也导致分类的困难。古典音乐:古典音乐又称为经典音乐,古典音乐不同于流行音乐,古典音乐具有丰富的内涵,听起来能够发人深省,可以使人高尚。古典音乐是一个非常独立的流派,会有比较好的分类特性。乡村音乐:乡村音乐是当代的一种流行音乐,它融合多种风格的音乐,乡村音乐的曲调都比较流畅和动听,曲式结构以歌谣体、二部曲式或者三部曲式为主。嘻哈音乐:嘻哈音乐始于美国的黑人文化,嘻哈音乐节奏感强,鼓点特征比较明显,目前比较流行。1 0第二章音乐简介爵士:爵士音乐起源于美国一个夜总会里,爵士音乐具有显著的特征,第一是强调爵士音乐色彩化地变换音高,其次是爵士音乐强调音色的粗犷和变化,第三是把本来不该切分的音型进行切分处理。雷鬼音乐:雷鬼音乐源于牙买加,更多得使用电声乐器,是摇滚音乐中的一种重要体裁。摇滚音乐:摇滚音乐是以打击乐器的形式表现音乐,节奏明显。2 5 中国古典乐器中国古典乐器具有悠久的历史,在不同的历史时期,乐器都得到了不同程度的发展,但是乐器的本身的并没有太大的变化,这就意味着相同名字的乐器都是一样的。因此,这种相同点决定了相同的乐器发声都是相同,不同的乐器发声是不同,不同的乐器制法也是不相同。当人去辨别这些乐器的时候,更多的是根据乐器发出声音的音质。在本文的音频分类系统中,更多是研究音质特征,并将这些音质特征应用到音频分类系统中。第三章特征向量集第三章特征向量集语音是人类信息交流的重要的媒介。最近几年,语音信号的研究获得了长足的发展,语音识别与分类技术也得到了快速发展,并成为近几年的研究热点,而其研究成果也为音乐信息检索与分类提供大量有益的借鉴。3 1 信号预处理通常情况下,在对于语音或者音乐信号进行处理之前,通常要都会对信号做一些预处理,这一小节介绍本文对音乐信号进行的预处理技术。预处理的流程如图3 1 所示,分为三个步骤:分帧、预加重、加窗。图3 1 音乐信号预处理流程图3 1 1 分帧对于信号处理,一般都会进行分帧处理,分帧的目的是便于提取特征,分帧也可以降低特征矩阵的维数。在分帧的时候,需要选取适当的帧长和帧移。采样周期丁= 多、窗口长度为和频率v 之间存在下列关系:y = 而1 ( 3 - 1 )由式3 1 可以知,当丁一定时,厂随窗口宽度的增加而减小,即频率分辨率相应得到提高,但是同时时间分辨率降低;如果窗口宽度变短,则频率分辨率下降,而时间分辨率却得到相应提高,因而窗口宽度和频率分辨率是矛盾的,因此我们应该根据不同的需要选择合适的窗口长度。在选取长度时还应该考虑适合计算机运算,计算机的运算是建立在二进制的基础之上,因此我们选取的长度也应该尽量是2 的整数倍。3 1 2 预加重在说话的时候,语音信号的平均功率谱受声门激励的影响使得高频部分的频1 2第三章特征向量集谱比较难求,因此我们需要对信号进行预加重处理,预加重的目的是提高频谱的高频部分,使信号的频谱变得更加平坦,使得可以在低频到高频的整个频带中,可以用相同的信噪比求频谱,这样可以便于频谱分析和声道分析,对信号的预加重处理一般是采用一阶的数字滤波器,公式如下:值接近于1 。3 1 3 加窗h ( z ) = 1 一i 1 z 。1( 3 2 )加窗是为了分帧服务,本身分帧就意味着加了窗函数,但是由于分帧的时候,会产生帧的截断效应,所以应该选择一个好的窗函数。一个好的窗函数窗两端的坡度应当尽量缓慢下降不应该是急剧变化。分帧是可移动的有限长度窗口进行加权的方法来实现,这就是用一定的窗函数w ( 刀) 来乘s ( n ) ,从而形成加窗语音信号s 。( 玎) = s ( 刀) 幸w ( n ) 。在语音信号数字化处理中,常用的窗函数是矩形窗和汉明窗,其表达式如下,其中表示帧长:矩形窗:r 1 ,0 万 o低能量常常被用来区分语音和音乐。m e l 频率倒谱系数( m f c c )美尔倒谱系数用于描述音频音乐,已经被广泛应用于语音识别系统。美尔倒谱系数用于描述声谱,其最大的特点是,美尔倒谱系数体现的是人耳对于音乐音质感知的相似性。人耳通过感知音质可以识别不同的声音,这种特殊的功能使得人耳可以复杂的环境中仍然可以正确地分辨出各种声音。这里,耳蜗对于人耳分辨各种声音起到了非常大的作用。从信号处理角度讲,耳蜗实际上相当于滤波器,在l k h z 以下,滤波器为线性尺度,在lk h z 以上滤波器为对数尺度。研究学者利用这一发现,研究出类似于耳蜗作用的滤波器,也就是本文所说的美尔倒谱系数,美尔频率与频率厂之间的关系如式( 3 1 0 )麓j = 2 5 9 5 l o g ( 1 + f 7 0 0 )( 3 - 1 0 )美尔倒谱系数与其他特征最大的不同是,美尔倒谱系数模拟入耳的功能,并且对于频率轴的处理也与其他特征不同,在实际计算中,美尔倒谱系数的计算方法如下:将信号进行分帧处理。对分帧后的信号预加重处理。对预加重后的信号加汉明窗处理。对加窗后的信号进行短时傅里叶变换并得到其频谱。求出能量谱,用m 个美尔带通滤波器对其进行滤波,将每个滤波器频带内的能量进行叠加,得到功率谱并设第i 个滤波器输出功率谱为x 倒。对每个滤波器输出的功率谱取对数,得到相应频带对应的的对数功率谱。将对数功率谱进行离散余弦逆变换,得到1 个m f c c 系数,则m f c c 系数为:第三章特征向量集mg = l o g x ( k ) c o s t r ( k - 0 5 ) n m ,n = l 2 ,( 3 - 11 )k = l得到的m f c c 特征作为静态特征,对m f c c 做一阶差分和二阶差分,则得到其动态特征。3 3 新音质特征频谱方差( s p e c t r a ls p r e a d )频谱方差又称为频谱的二阶距,其数学表达式如下:“- c ) 2 p ( z )印= 型l 百一p ( z )n = l( 3 - 1 2 )频谱离度( s p e c t r a ls k e w n e s s )频谱离度又称为频谱的三阶距,其数学表达式如下:n( z c ) 3 p ( z )如= 丑可一( 3 1 3 )s p 3 p ( z )频谱离度( 偏态) 描述的是频谱分布的对称程度,如果为零值则表示频谱的分布是对称的。频谱峰度( s p e c t r a lk u r t o s i s )频谱峰度又称为频谱的四阶距:其数学表达式如下:( z - c ) 4 p ( z )s s k = 型_ r 一s p 4 p ( z )己,f jn = l( 3 - 1 4 )频谱亮度( s p e c t r a lb r i g h t n e s s )频谱亮度描述的是大于某一频率的幅度和,本文所选的频率点是1 5 0 0 h z 。其数学表达式如下:1 6第三章特征向量集_ 一ll 一p ( z 1 5 0 0 )曲= 型l 矿一p ( z )n = l频谱亮度衡量的是更高频率下信号的内容。频谱熵( s p e c t r a le n t r o p y )( 3 - 1 5 )日:黧i = l 黑,p :粤x u )( 3 1 6 )肚丽肚丽。j 回熵描述的是信号的混乱程度,也可以用来描述波形分布的成峰度。频谱非均匀度( s p e c t r a li r r e g u l a r i t y )频谱非均匀度描述的是一段频谱内波峰的连续变换,其数学表达式如下两种形式:k r i m p h o f f :ns i r = = ( ( 口。口。+ 。) 2 ) 订。2( 3 1 7 )k = lk = l_ 一ls 护= l a kk = l其中,a k 为频谱在k 频率点的波峰值。频谱平坦度( s p e c t r a lf l a t n e s s )频谱的平坦度描述频谱在分布上是平坦的还是尖的,数学表达式如下:( 3 1 8 )( 3 - 1 9 )如果值接近l 表明频谱是平的,如果值接近零表明频谱是尖的。频谱幅度( s p e c t r a l - p o w e r )s p e c t r a l p o w e r = lol g ( x k ) ,x k = 4f f t ( x n ) l( 3 _ 2 0 )频谱低能量( s p e c t r a l - l o w - e n e r g y )频谱低能量的描述类似于时域低能量,其时域表达式与频域表达式类似。1 7第三章特征向量集3 4 多贝西小波系数直方图多贝西小波系数直方图又称为d a u b e c h i e sw a v e l e tc o e f f i c i e n th i s t o g r a m s ,d w c h 。一个语音文件在时域上是振动的波形,同时它又可以看成是幅度和时间的函数,而小波变换可以根据波形在幅度上的变化来区分不同的语音信号。由于基于信号的音乐分析的关键是确定波形幅度的变化,因此小波变化可以用来进行音乐分类。直方图是描述概率分布的一种有效方式。然而,对于基于内容的分类,时域并不能很好描述其特征,因为很多的区分性特征是隐藏在频域范围内的。对于声音信号,频率通常被分成若干八度音程,而八度具有特殊的性质,频率比为2 :1的两个声音为八度音程。所以一个八度音程在频域是对数尺度。小波分解刚好符合声音的八度音程分解,同时为时域和频域提供了好的解决方案。也就是说,小波将信号在频域分解成不同的子边带,而每一个子边带都具有不同的特性。通常情况下,设定缈( x ) 为母小波函数,则妒( x ) 是属于正交基r ( r ) 。这些基函数通常称为小波。这里有许多小波滤波器,包含d a u b e c h i e s 小波滤波器组和g a b o r 滤波器组。d a u b e c h i e s 小波滤波器组经常被用于图像检索领域。通常母小波函数可以写成:y ( x ) = ( 一1 ) b k 驴( 2 x - k ) ( 3 - 2 1 )k - - - - 其中,y ( x ) 是母小波函数,妒( x ) 是比例函数。下图3 - 2 给出比例函数与小波函数关系的一个实例:呦函数o5 o 5o5图3 2 比例函数与小波函数关系实例l o第三章特征向量集因此本文采用文献【3 】中的方法- d w c h ,采用d b 8 小波滤波器组对信号进行7 层分解,对分解后的信号求出每一层小波系数的直方图。定义子带能量为,小波系数的平均值,并且求出小波系数的前四阶矩。文献 3 l e o 将分解得到的7 层小波系数保留第3 ,5 ,6 ,7 层小波系数。因此d w c h 特征的球的方法如下:对输入的音乐信号用d b 8 进行7 层小波分解,并保留第3 ,5 ,6 ,7 层。求出每一层信号的一阶矩、二阶矩、三阶矩和四阶矩。求出每一子带

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论