(信号与信息处理专业论文)乐器音色特征的分析.pdf_第1页
(信号与信息处理专业论文)乐器音色特征的分析.pdf_第2页
(信号与信息处理专业论文)乐器音色特征的分析.pdf_第3页
(信号与信息处理专业论文)乐器音色特征的分析.pdf_第4页
(信号与信息处理专业论文)乐器音色特征的分析.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(信号与信息处理专业论文)乐器音色特征的分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 摘要 乐器音色的分类研究是探索乐器音色本质的基础。由于乐器发声机理的差 别、音色衡量的不确定性以及人类对人耳听觉感知过程认识的有限性,使得乐器 音色的研究处于一个瓶颈阶段。本文主要从时域、频域和倒频域三个方面对乐器 单音的音色特征进行研究。 时域方面,通过对乐器单音时域包络的研究,将一个单音的时域包络分成五 段并分别计算每段占整个单音长度的比值作为时域特征一一时域包络分段比。实 验结果表明,在乐器家族内,该特征的分类结果较好。 频域方面,通过短时傅里叶变换( s t f t ) 、常q 变换( c q t ) 和修正的常q 变换( m c o t ) 得到三种不同的频谱,然后分别计算三种频谱的谱宽、谱偏态、 谱峰态、谱质心、谱滚降和谱通量的均值和标准差作为频域特征参数。实验结果 表明,c q t 谱的频域特征参数组合总体的分类结果最好,而m c q t 谱的频域特征 参数组合在乐器家族内的分类结果最好。 倒频域方面,共得到五种倒频域特征。分别基于s t f t 谱、c q t 谱和m c q t 谱计算相应的实倒谱,再分别将s t f t 谱和c q t 谱结合听觉感知特性,计算了基 于s t f t 的m e l 倒谱系数( m f c c ) 和基于c q t 的m f c c 。从各倒频域特征取某些 维数在相同乐器不同音高以及不同乐器相同音高间的相似性分析、各倒频域特征 取不同维数用来分类的结果两个角度得出基于s t f t 的实倒谱第l 2 5 维、基于 c q t 的实倒谱第1 7 维、基于s t f t 的m f c c 第1 1 2 维和基于c q t 的m f c c 第1 1 2 维较有利于音色分类,而基于m c q t 的实倒谱的高维部分和低维部分区分音色的 能力差别不明显。 将三种频谱和各种倒频域特征分别用来分类,得到基于s t f t 的m f c c 分类错 误率最低。把时域包络分段比分别与各特征组合用来分类,分类结果取得了较大 的改善。其中,加入时域包络分段比后,基于m c q t 的实倒谱和m c q t 对数谱分 类结果最好。 关键词:乐器分类:音色特征;c q t 山东大学硕士学位论文 山东大学硕士学位论文 a b s t r a c t t h er e s e a r c ho fc l a s s i f y i n gm u s i c a l n s t r u m e n t si st h ef o u n d a t i o no fe x p l o r i n g t h en a t u r eo fm u s i c a li n s t r u m e n t s d u et ot h ed i f 佗r e n c eo fm u s i c a li n s t r u m e n t s s o u n d i n gm e c h a n i s m s ,t h eu n c e r t a i n t yo fm e a s u r i n gt i m b r e ,a n dt h el i m i t a t i o no f h u m a nc o g n i z i n gt h ep r o c e s so fa u d i t o r yp e r c e p t i o n ,t h er e s e a r c ho ft i m b r ei ss t i l li n t h eb o n l e n e c ks t a g e t h ef e a t l i r e se x t r a c t e d r e s p e c t i v e l y f r o mt h et i m ed o m a i n , f r e q u e n c yd o m a i n ,a n dq u e f r e n c yd o m a i na r es t u d i e di nt h i sp a p e r i n t h et i m ed o m a i n ,t h ee n v e l o p eo f s i n g l e n o t ei ss t u d i e da n dt h e r o o t - m e a n s q u a r e ( r m s ) e n v e l o p eo fas i n g j en o t ei sc u ti n t on v es e g m e n t s t h er a t i o b e t w e e nt h el e n g t ho fe a c hs e g m e n tt ot h el e n g t ho ft h en o t er a t i oi sc a l c u l a t e da sa f e a t u r ei nt h et i m ed o m a i n ,w h i c hi sc a l l e da se n v e l o p es e g m e n tl e n 舒hr a t i o s i m u l a t i o nr e s u l t ss h o wt h a t t h i s r a t i oi sg o o da t c l a s s i f y i n gm u s i c a li n s t r u m e n t s w j t h i no n ek j n do fi n s t r u m e n tf a m i 】y i nf e q u e n c yd o m a i n ,t h r e ek i n d so fs p e c t r aa r eo b t a i n e dn - o ms h o r tt i m ef o u r i e r t r a n s f o n l l ( s t f t ) ,c o n s t a n tqt r a n s f o r n l ( c q t ) a n dm o d i 6 e dc o n s t a n tqt r a n s f o 肿 ( m c q t ) ,r e s p e c t i v e l y t h em e a n sa n ds t a n d a l dd e v i a t i o nso fs p e c t i a lw i d t h ,s p e c t r a l a s y m m e t r y ,s p e c t r a lk u r t o s i s ,s p e c t r a lc e n t r o i d ,s p e c t r a lr o l l o f fa n ds p e c t r a l f l u xa r e e x t r a c t e df r o mt h e s et h r e ek i n d so fs p e c t r a s i m u l a t i o nr e s u l t ss h o wt h a tt h ef e a t u r e c o m b i n a t i o no fc q ts p e c t r ai so v e ra l lt h eb e s ta tc l a s s i 毋i n gn o t e s ,a n dt h ef e a t u r e c o m b i n a t i o no fm c q ts p e c t r ah a st h eb e s tp e r f b h n a n c eo fd i s t i n g u i s h i n gn o t e s b e t w e e nd i f 佗r e n ti n s t r u m e n t si no n ek i n do ff a n l 订y i nq u e f r e n c yd o m a i n ,t h r e ek i n d so fc e p s t r aa r eo b t a i n e df r o ms t f t ,c q ta n d m c q t ,r e s p e c t i v e i y c o m b i n e dw i t hh e a r i n gp e i e p t i o nm o d e l ,s t f tb a s e dm f c c a n dc q tb a s e dm f c ci so b t a i n e d c o m p a r e dt h ed i 】诧r e n tc e p s t r a ,t h ee f f e c t i v ep a r t s f o rm u s i c a li n s t r u m e n tc l a s s i n c a t i o na r ed i f 佗r e n t t h ee x p e r i m e n t sa r ed o n ef r o mt w o a s p e c t si n c l u d i n gf e a t u r ei m p o n a n c eo fe v e r yd i m e n s i o na n dt h es i m i l a r i t yb e t w e e n d i f 俺r e n tn o t e sw h i c hi sc a l c u l a t e df ms o m ed i m e n s i o no ff e a t u r ei nq u e f 沱n c y d o m a i n b ye x p e r i m e n t s ,t h ep r o p e rd i m e n s i o n si n c l a s s i n c a t i o na r et h en r s t2 5 d i m e n s i o n si ns t f tb a s e dc e p s t r u m ,t h en r s t7d i m e n s i o n si nc q tb a s e dc e p s t r u m , t h ef i r s t12d i m e n s i o n si nm f c ca n dt h en r s tl2d i m e n s i o n si nc q tb a s e dm f c c t h ec a p a c i t yd i f 五:r e n c eo fd i s t i n g u i s ht i m b r eb e t w e e nt h eh i g hd i m e n s i o n a lp a r ta n d l u 尔大学硕士学位论文 t h el o wd l m e n s l o n a lp a nl sn o to b v i o u s t h r e ek i n d so fs p e c t r aa n dn v ek i n d so ff e a t u r e si nq u e f e n c yd o m a i na r eu s e di n t h ec l a s s i 行c a t i o n t h em i s c l a s s i n c a t i o np r o b a b i l i t yo fs t f tb a s e dm f c cj st h e s m a l l e s t t h ee f f e c to fc l a s s i 矗c a t i o ni s i m p r o v e dg r e a t l yb yc o m b i n i n ge n v e l o p e s e g m e n tl e n g t hr a t i ow i t ho t h e rf e a t u r e c l a s s i 矗c a t i o nw i l lb em o r ee f f e c t i v ew h e n e n v e l o p es e g m e n tl e n g t h n l t i o si sc o m b i n e dw i t hm c q tl o g r i t h m i cs p e c t r u mo r m c q t b a s e dc e p s t r u m k e yw o r d s :m u s i c a li n s t r u m e n tc l a s s m c a t i o n ;t i m b r ef e a t u r e ;c q t i v 学位论文评阅及答辩情况表 专业技术是否博导 姓名所在单位总体评价 职务( 硕导) 论 、 又 评 阅 人 专业技术是否博导 姓名所在单位 职务( 硕导) 主席 答 辩 委 员 委 会 成 员 员 答辩委员会对论文 答辩秘书 答辩 的总体评价日期 备注 优秀为“a ”;良好为“b ”;合格为“c ”;不合格为“d ”。 j 东大学硕士学位论文 c o n t e n t a b s t r a c ti nc h i n e s e i a b s t r a c ti ne n g l i s h 1 1 1 c h a p t e r1 i n t r o d u c t i o n 1 1 1b a c k g r o u n d 1 1 2c u r r e n ts i t u a t i o na n dt r e n d 2 1 3c o n t e n t sa r r a n g e m e n t c h a p t e r2b a s i ct h e o r y 一6 2 1a p p r o x i m a t eo p t i m a ld e c o r r e l a t i o no fd c t 6 2 2f e a t u r es e l e c t i o n 一7 2 3c h a p t e rs u m m a r y 8 c h a p t e r3t i m b r ef e a t u r e 9 3 1f e a t u r ei nt h et i l l l ed o l l l a i l l 9 3 2f e a t u r ei nf r e q u e n c yd o m a i n 1 0 3 2 1s t f t 1 0 3 2 2c q t 1 l 3 3 3f e a t u r ei nf r e q u e n c yd o m a i n 3 3f e a t u r ei nq u e f r e n c yd o m a i n 3 3 1c e p s t r u m 1 8 3 3 2m f c c 19 3 4a n a l y s i sa n de x p e r i m e n tr e s u l t 2 0 3 4 1t h ed a t ao f t h es i m u l a t i o ne x p e r i m e n ta n dp r e t r e a t m e n t 2 0 3 4 2f e a t u r ea n a l y s i si nt h et i m ed o m a i n 3 4 3f e a t u r ea n a l y s i si nf r e q u e n c yd o m a i n 2 2 3 4 4f e a t u r ea n a l y s i si nq u e f r e n c yd o m a i n 2 6 3 5c h a p t e rs u m m a u 3 2 c h a p t e r4 e v a l u a t i o no f f e a t u r e 3 3 4 1t h ed e s i g no f c l a s s i 6 c a t i o na n dt 色s t i n gm e t h o d 3 3 4 2t h ec l a s s i n c a t i o no fs i n g l ef e a t u r e 3 3 4 2 1i m p o r t a n c eo fe a c hd i m e n s i o ni nf e a t u r e 3 4 4 2 2m i s c l a s s i n c a t i o np r o b a b i l i t yo fs i n g l ef e a t u r e 3 8 4 - 3t h ec l a s s i n c a t i o no f f e a t u r ec o m b i n a t i o n 一4 0 山东大学硕士学位论文 4 3 1c o m b i n e df e a t u r ei nf r e q u e n c yd o m a i n 4 1 4 3 2c o m b i n e dw i t he n v e l o p es e g m e n tl e n g t hr a t i o 4 2 4 4c h a p t e rs u m m a r y 4 4 c h a p t e r5s u m m a ua n df o r e c a s t 4 6 r e f e r e n c e s 4 8 a c k n o w l e d g e m e n t s 51 山东大学项士学位论文 1 1 研究背景及意义 第l 章绪论 音频蕴含着大量的信息。音频信息的处理、分析、检索和识别是当前信号处 理领域的重要研究课题,在搜索引擎的音频搜索中,扮演了重要角色。乐器音色 的分析提取是其中必不可缺的一部分。音乐是全人类的共同语言,是人类几千年 文化发展的成果,所以对音乐的研究具有至关重要的价值。目前,基于多媒体内 容的管理和检索( 如音乐自动摘要,音乐情感分析和音乐流派分类等) 、音乐可视 化( 如多媒体音乐喷泉) 、电子器件模拟传统乐器、计算机辅助音乐教学( 音乐标 注) 、音乐转录、高保真度的音乐压缩编码、自动伴奏系统( 包括变音) 、辅助音 乐创作等应用中,对乐器音色特征的体现尚存在很大的欠缺。这一欠缺直接影响 了计算机智能分析音乐的准确度及音乐实现的真实感。因此,寻找一组能够准确 反映乐器音色的特征成为乐音信号处理领域迫切需要解决的问题。 音色通常定义为使得两个具有相同音高和响度的声音听起来不同的感知特征 【1 1 。到目前为止,仍然不明确到底哪些物理参数与音色紧密相关,而乐器音色是 区分不同乐器声音的根本依据。为了定量地描述乐器音色,国内外学者对乐器音 色进行研究,并取得一定的成果。研究表明,乐器的音色信息主要通过频谱表现 出来,然而,乐器的频谱变化十分复杂,即使是同一种乐器,由于演奏技法的不 同,音色也会发生显著变化。此外,音色并不只由频谱决定,其他的非频谱因素 对音色也起着相当重要的作用,因而定量分析乐器音色,是实现计算机智能分析 音乐的前提。由此可见,分析乐器音色这一研究课题的重点在于找到有效地表示 音色的方法。 人类可以感知乐音信号的多种表现形式,如人类能够很容易辨别同一首乐曲 由不同乐器演奏的效果差别,也能够听出同一首乐曲里有多种乐器同时演奏。如 何让计算机也能认识到这些不同,就需要衡量乐器的音色。经过多年训练的专家 才能较准确地区分一个大类的乐器( 比如萨克斯与双簧管) ,而未经过专门训练的 人错分的可能性很大【2 】。本文所做的研究,可以让计算机在短时间的训练后就可 以达到比经过数年训练的专家更高的分类正确率。 山东大学硕士学位论文 目前,语音信号处理技术已经很成熟,语音识别技术也取得相当不错的成果。 因此,作为语音识别技术核心的音色特征研究也受到更多的关注。很多语音音色 特征被用来研究乐器音色,如谱质心、谱通量、谱滚降、倒谱、m f c c 等。然而, 由于乐器的发声机理以及音高范围不同于语音,需要验证语音音色特征直接用于 乐器音是否有效。本课题首先提取常用的音色特征,并在已有的基础上,结合声 学理论和乐理进行改进,比较所提取音色特征的分类结果,然后试图找到能够合 理反映乐器音色的组合特征,最后采用组合特征进行分类并评价所得的组合特征。 1 2 课题研究现状与发展趋势 音色特征的研究最早可以追溯到1 9 5 4 年,h e l m h o l t z 提出谐波结构理论,指 出音色感知与频谱形状有关3 1 。目前,音色特征主要从以下三个方面来研究。 1 时域特征 时域特征反映了声音的动态变化。因此,声音的时域包络也反映了音色。乐 器单音的时域包络一般分为四段,包括起奏( a t t a c k ) 、衰减( d e c a y ) 、持续 ( s u s t a i n ) 、消逝( r e l e a s e ) ,每段都对音色有影响。例如,打击乐起奏很短,敲 击木鱼只有起奏和持续两段,管风琴没有衰减段,有些合成器只有起奏、衰减段。 用于描述音色的时域特征有很多,例如过零率、短时能量、均方根包络、波 峰因子、对数上升时间( l o g a t t a c a kt i m e ) 和时域质心( t e m p o r a lc e n t r o i d ) 等【4 1 。 以上参数分别从不同的方面反映了音色的差别。过零率是给定音乐信号时域符号 的变化,一定程度上可以反映出频率的信息,可根据过零率识别打击乐器。均方 根是对信号功率的度量,均方根包络描述了信号幅度随时间的变化。l a n g m e a d 认为单音起奏包络倾斜度( s p e c t r a lo n s e ta s y n c h r o n o u s ) 不同,对乐音音色有较 大的影响【5 ,6 l 。 2 频域特征 音色主要由频谱特征决定。对音色的描述有谐波谱质心( h a r m o n i cs p e c t r a i c e n t r o i d ) 、谐波谱偏差( h a r m o n i cs p e c t r a ld e v i a t i o n ) 、谐波谱伸展( h a m o n i c s p e c t r a ls p r e a d ) 、谐波谱波动( h a r m o n i cs p e c t r a lv a r i a t i o n ) 、谱质心( s p e c t r a l c e n t r o i d ) 、谱滚降、谐波能量比、谐度、偶次谐波含量、奇次谐波含量和谐波的 山东人学硕士学位沦之 三色激励参数等m 1 。 频域分析尺度不同会得到不同的频谱。最常用的s t f t 滤波器组中心频率成 线性上升,每个滤波器的带宽不变,而品质因子是变化的。另外,c o t 在乐音信 号分析中有着独特的优势,特别是在音准很好的乐器音分析中【9 1 。c q t 通过中心 频率成指数分布的滤波器组,将乐音信号表示为确定音乐单音的谱能量,滤波器 组的品质因子保持常数,在低频处具有较高的频率分辨率、较低的时间分辨率, 在高频处具有较高的时间分辨率、较低的频率分辨率。 频域的音色特征从不同的方面反映了声音的物理特性。谱质心是对声音明亮 度的衡量。谱滚降通常指示一帧中频率的不对称性。谱滚降、谱质心都反映了信 号能量在频率上的分布情况。谱通量是对连续乐音帧之间谱能量变化的度量,体 现了乐音信号的动态特征。乐音有明显的谐波结构,能量主要集中在低次谐波, 不同乐器所含的谐波次数不同。高次谐波丰富、幅度大的乐音,听起来较明亮。 声音的谐波次数反映了音色,一般第1 7 个谐波最重要,而更高阶次的谐波对音 色的贡献并不明显【10 1 。 3 倒频域特征 语音的发声是激励和系统分量卷积的结果,乐器的发声与其类似。一般把激 励假设为理想的周期性脉冲,则激励决定音高。系统分量决定音色。所以,很多 乐器音色特征的提取是通过倒谱分析来实现的【2 1 1 ,1 2 】,取低的倒频系数( 对应于系 统分量) 作为音色特征。 考虑到人耳的听觉特性,加类似于耳蜗( 对低频信号比对高频信号更敏感) 的滤波器组得到m f c c 。通常把m f c c 作为静态特征,或进一步做一阶或二阶差 分,得到相应的动态特征。结合人耳听觉特性得到的m f c c ,能较好地反映音色 特征【1 引。2 0 0 8 年,关欣提出了全信息的m f c c 算法和音乐仿生小波算法,但这 种基于听觉感知模型的特征改进较为复杂,不易实现i | 4 | 。 更进一步的研究,需要把已有的音色特征结合起来,进行音色建模【1 5 叫8 1 ,在 新的音色空间中描述信号。例如,构建音色特征的多元正态函数,利用贝叶斯判 决函数对单个乐器水平的分类取得较好的结果19 1 。对音色动态谱包络的建模2 0 1 , 在多音高乐器音的分类研究上具有优势,但并没有充分考虑起奏、衰减、持续、 消逝四个部分的不同对音色影响。这类方法的研究尚处于初级阶段,没有一个快 山东大学硕士学位论文 速有效的方法满足实际应用的需求。 b r o w n 和h o u i x 把倒谱、c q t 、谱质心、自相关系数和r m s 结合起来,对4 种木管乐器分类,采用基于高斯混合模型的k 均值分类器,达到7 5 8 5 的分类 正确率【2 1 1 。e s s i d 等人,把谱宽、谱质心、谱峰态、谱偏态、m f c c 和一阶差分 m f c c 作为特征,使用支持向量机分类正确率达到7 6 【2 2 j 。l i v s h i n 和r o d e t 把 6 2 种特征( 包括时域、能量、谱、谐波、感知的特征) 经过特征选择后,留下2 0 个特征,使用k 近邻分类器,通过“留一法”交叉验证,实时地在连续的独奏和 二重奏中检测乐器,获得8 5 的分类正确率【2 引。在d a d e n g 的研究中,使用了 m f c c 、过零率、均方根和m p e g 7 中的描述子【2 4 】。 1 3 本论文的主要研究内容 本文主要讨论乐器音色特征的提取方法,分析这些特征的物理特性,并通过 实验评价分类有效性。全文分五章,各章节安排如下: 第l 章,介绍本论文的研究背景及意义、发展现状和未来一段时间内相关领 域的发展趋势,以及本论文的内容安排。 第2 章,介绍本论文所用到的基础理论,包括d c t 近似最优的解相关性、音 色特征选择的原则。 第3 章,分别从时域、频域和倒频域提取音色特征,观察特征在相同音高不同 乐器间、相同乐器不同音高间的表现,从而确定该特征是否在同一种乐器中稳定, 在不同乐器中差别大,并得到可能的分类效果。时域方面,通过对乐器单音时域 包络的研究,把一个单音的时域包络分成五段并分别计算每段占整个单音长度的 比值作为时域特征一一时域包络分段比。频域方面,通过s t f t 、c q t 、m c q t 得 到三种不同的频谱,分别从这三种频谱上求得六个频域特征在不同帧的均值和标 准差。倒频域方面,分别基于s t f t 谱、c q t 谱和m c q t 谱计算相应的实倒谱,再 分别将s t f t 谱和c q t 谱结合听觉感知特性,计算基于s t f t 的m e l 倒谱系数 ( m f c c ) 和基于c q t 的m f c c 。从各倒频域特征取不同维数在相同乐器不同音 高以及不同乐器相同音高问的相似性分析得出较有利于反映音色的部分。 第4 章,用时域、频域和倒频域的特征分别进行分类,并分析向量特征各维 山东大学硕士学位论文 的重要度,验证第3 章得到较有利于反映音色的倒频域部分。频域特征参数分别 在三种频谱上组合并分类,得出c o t 频域特征参数组合的总体分类结果良好, m c o t 频域特征参数组合在乐器家族内的分类结果较好。加入时域包络分段比的 特征组合分类结果得到明显改善,加入时域包络分段比后基于m c q t 的实倒谱和 m c q t 对数谱的分类结果较佳。 第5 章,对本论文的工作进行总结,并对该课题的研究进行展望。 山东大学硕士学位论文 第2 章基础理论 本章主要介绍了文中将用到的基础理论知识。第一节,介绍在语音和乐音处 理中频繁用到的离散余弦变换( d c t ) 理论,并论述d c t 的近似最优的解相关性。 第二节,分析合理选择音色特征的原则。 2 1d c t 近似最优的解相关性 d c t 的形式多种多样,最常用的形式是 c = 专篓删c o s ( 骂掣 沼, 其中,七= 0 ,1 ,一1 。 c = d ( 2 2 ) d 是m 维的余弦基函数,若x 是对数幅度谱,则c 是x 的实倒谱系数。 d c t 和k a r h u n e n l o 邑v e 变换( k l t ) 都是正交变换,能减少x 中各维间的 相关性,并将x 的能量集中于少数系数上。通常解相关系数比相关系数更加适用, 去除对数幅度谱各维之间的相关性能获得对分类更有效的特征。解相关的能力及 能量集中的程度取决于所选择的基函数。k l t 寻找正交矩阵4 ,使得月对x 的变 换l ,的协方差矩阵为对角阵【2 5 1 。k l t 能在保证最小均方误差的情况下去除x 的相 关性,并保留最大的能量,具有最优的解相关性 2 6 】。正交矩阵爿是由k l t 的基 向量组成,而这些基向量依赖于所要变换的数据,一般情况下不能解析地给出, 把所有的样本都用来求协方差矩阵获得基向量是不实际的,缺少快速的算法。 m a r h a v 等人推出两个引理,并通过实验验证了实倒谱系数的协方差矩阵近似 单位矩阵( 主对角线上元素接近于l ,其他元素接近于0 ) 【27 1 ,这表明d c t 具有 近似最优的解相关性。b e t hl o g a n 也通过实验证实了在语音和乐音中d c t 余弦基 与m e l 对数幅度谱的k l t 的特征向量相似,尤其是频率较低的余弦基与大的特征 值对应的特征向量相似【2 8 】。d c t 变换的基是给定的正交基,易于用算法表示,并 能够近似最佳的正交变换k l t ,具有近似最优的解相关性,因此d c t 是一种合 适的变换【2 9 】。 本文将对数幅度谱做d c t 变换来获得对音色分类有效的特征。 6 山东大学硕士学缸论文 2 2 特征选择 在模式分类中,特征数量通常较多,可能存在与分类无关的特征,也可能存 在相互依赖的冗余特征。特征维数越多,分析特征、训练分类模型用的时间就越 长,容易引起“维度灾难”,分类模型复杂,推广能力下降。特征选择,是指从全 部特征集中选取一个特征子集,使得分类的效果最好。通过特征选择,来剔除无 关和冗余的特征,从而减少特征维数,提高分类正确度,减少运行时间。有效的 特征要满足两个条件,一是数据压缩性,即在不损失或少损失原始数据有用信息 的前提下,抛弃冗余特征,留下有效特征;二是类别可分性,即所选特征相对于 其他特征能够更有效地分类 3 叫。 乐器音色分类是与人类认知和听觉过程紧密相关的问题,音色特征的获取是 乐器音色分类的核心问题。大脑在感知乐器声音的过程中,利用大约3 万听觉神 经纤维,从高维的音色感知特征中提取较低维数的感知关联特征来完成对乐器音 的区分。提取出最有利于乐器音分类的有效信息,即为寻找隐藏的有效的低维数 据来描述乐器音,并依此分析和探索乐器音色的内在规律。 根据特征有效性的条件。音色特征应符合以下两个要求。第一,要具有较少 的维数,即必须满足特征间的相关性小,不同样本具有相同的特征属于无效特征, 应舍去;第二,要能够有效地分类,即所选特征须在类内稳定,在类间差别大。 本课题所选的特征要在同一种乐器中稳定( 不随音高的变化变化) ,在不同种乐器 中差别大【3 1 。k i t a h a r a 等人尝试用多元正态分布来消除所选音色特征随音高变化 而变化对音色分类判决的影响【1 9 】。本文通过实验分析音色特征与音高变化关系。 综上所述,本文筛选特征的原则,一方面,要考虑分类的正确性,具有较好 的分类结果,另一方面,要考虑特征的维数,这可以从特征所代表的物理意义上 区分,从而去除特征问的相关性,取最能表现音色不同方面的特征组合。 有数个评价特征子集优劣的指标,包括相关性( c o r r e l a t i o n ) 、距离测度 ( d i s t a n c em e t r i c s ) 、信息增益l g ( i n f o r m a t i o ng a i n ) 、增益比g r ( g a i nr a t e ) o 鲥j 、 s u ( s y m m e t r i c a lu n c e r t a i n t y ) 、一致性( c o n s i s t e n c y ) 等。l y u 和h l i u 基于s u 作为相关性测量,提出一个近似的方法来分析相关性和冗余度【3 4 】。g r i m a l d i 等人, 在音乐流风分类中,对比了i g 和g r 【3 2 】。 山东大学硕士学位论文 虽然有众多评价特征子集的方法,但没有一个普适的特征选择策略。事实上, 特征子集的性能,取决于所选的分类器。以上几个指标都是通过分析特征子集各 维间的关系来衡量优劣,与具体的分类算法无关,一般用在分类之前,用来对特 征进行初步筛选,在不同的分类算法之间较容易推广,计算量也较小。另外,可 以用分类错误率评价特征子集的优劣。但分类错误率应用具体的分类算法进行分 类,计算量较大,推广到其他分类算法的效果不确定。 本文考虑了距离测度、一致性、分类错误率三个指标来评价得到的特征。 1 距离测度 距离测度是用来度量特征子集在类内、类问的相似性。假设特征子集使得同 一类的样本距离尽可能小,不同类样本之问的距离尽可能大,则该特征子集较优。 本文采用余弦距离定义距离测度。 两个p 维的向量 ,和”的距离测度为 屯护h c o s h ) 斗蹦 协3 ) s ( i 力= 2 ,表示两个向量方向相反:s ( ) = 0 表示两个向量相同:s ( u ) = 1 表示两 个向量独立;取其他值指示了两个向量的相似度,值越小越相似。 2 一致性 属于不同类的样本1 与样本2 ,在某特征子集的取值完全一样,那么该特征 子集没有意义,不能作为最终的分类特征。 3 分类错误率 将不同特征子集分别输入到相同的分类器,用分类错误率的大小来衡量特征 子集的优劣。分类错误率小的,特征子集良好,反之亦然。 2 3 本章小结 本章介绍本文涉及到的基础知识,为后续的研究做理论准备。首先,论述在 语音和乐音中d c t 近似最优的解相关性。然后,考虑特征要具有数据压缩性及类 别可分性,结合乐器音的实际情况,所选的分类特征不随音高变化而变化,在同 一种乐器中稳定,不同种乐器中差别大。最后,介绍适用于音色特征选择的指标。 山每;大学硕士学位论文 第3 章音色特征 本章分别从时域、频域和倒频域提取音色特征,观察特征在相同音高不同乐 器间、相同乐器不同音高间的表现,从而确定该特征是否在同一乐器中稳定,在 不同乐器中差别大,得到可能的分类效果。第一节,计算了时域包络分段比。第 二节,介绍s t f t 谱、c q t 谱和将c q t 谱中对应阶次的谐波对齐得到的m c q t 谱上,并介绍六种频域特征参数。第三节,介绍了实倒谱和m f c c 。第四节,对 真实的四种乐器音,分析提取到的音色特征。 3 1 时域特征 由于乐器激励和共振部分的耦合方式不同使得乐器单音起奏和结束的包络不 同,例如不同弦乐器的弦振动引起的共振不同,管乐器不同的泛音引起的非线性 反馈不同都会造成包络的差别。对数上升时间是在文献【3 5 】提出的,并成为 m p e g 一7 中的一个时域描述子。文献【3 6 】把对数均方根包络分别从最大值降低到 一3 d b 和一1 0 d b 的分界点,作为识别乐器的特征。本文受此启发,将时域包络分段, 分别计算各段占整个单音长度的比值,作为音色特征。 时域包络分段比 信号的时域包络,是由各帧信号时域的均方根( r m s ) 求得。 ( 3 1 ) x 是时域信号,是帧下标,f l ,2 ,r ,尺是总共的帧数目,是帧长。 时域包络分段比的求解步骤: ( 1 ) 求每个音高文件的各帧的r m s ,将得到的r m s 包络作为时域包络: ( 2 ) 用多项式拟合时域包络,实验得出拟合阶次为6 次足够,得到拟合曲线e ; ( 3 ) 对曲线一分别进行归化,然后取对数, f 。2 呶1 0 麦瓮 。2 ) 其中,c 嘶。是一的最小值,e 一。是b 的最大值。 ( 4 ) 如图3 一l 所示,取等于一3 d b ,一l o d b 处的位置,得到m 厶,厶,厶四个 山东大学硕士学位论文 分界点,从向将时域包络分为s t a n ( 开始) 、a t t a c k ( 起奏) 、s u s t a i n ( 持续) 、 r e l e a s e ( 消逝) 、e n d ( 结束) 共5 段; ( 5 ) 计算各段长度占整个单音长度的比值,尺个数据的总间隔为= r 一1 ,第一段 所占的比值为三。:量,第二段占的比值为上:三量,第三段占的比值为 铲华瑚啪雌她= 半糯枷雌批= 半。 1 11 2 l , 1 4 时间帕 _ m 1 图3 一】时域包络的拟合曲线归一化的分段示意 由此,得到每个单音5 段的比值,作为乐器分类的音色特征。 3 2 频域特征 不同乐器单音的频谱差别较大,因此,频域特征是研究乐器音色必不可缺的 特征。本文将分别从s t f t 、c q t 和m c q t 得到的三种频谱上计算乐器单音的频 域特征参数。 3 2 1s t f t 从滤波器组的角度看,s t f t 滤波器组的中心频率呈线性上升,每个滤波器 的带宽不变,且品质因子是不固定的。信号的s t f t 为 x w ,门) 2 丢x o h + ( ,一尼) e 冲( 一,2 万专j ( 3 - 3 ) 其中w ( f ) 是连续窗函数,文中采用汉明窗,在o _ 1 范围外时,w ( f ) 是o 。 如图3 2 所示,四幅图从左到右依次为钢琴、小提琴、长笛和英国管各3 0 个音高文件s t f t 在不同帧的均值,纵轴为频率下标。文中每个图的横轴l 3 0 都 代表3 0 个不同音高的文件按音高从低到高排序,并且每个音高文件的特征都是对 山东大学硕士学位论文 i 廷_ l 黉_ p 畦c hs e q u e n c e p 畦c hs e q u e n c ep 吐c hs e q u e n c e ( a )( b ) ( c ) 图3 2 四种乐器各3 0 个音高的s t f t 谱 p 珐c hs e q u e n c e ( d ) 3 2 2c q 。l 乐音信号有明显的谐波结构,对音色特征提取具有重要价值。文献【9 依据人 类对音高的感知提出了c q t ,将按照指数上升的实际的音高频率转化为人耳的听 觉感知上的线性关系。c q t 可以看作是一种小波变换,c q t 的滤波器组品质因子 固定,中心频率按照指数上升37 1 。第九帧信号的c q t 谱的第| | 个成分为 x c q 7 ,刀) = 无b :u n + 。2 ) ( 3 - 4 ) 月+ 1 v 2 其中,i 1 表示向负方向取整;七= o ,l ,k ,尼表示c q t 的频率下标,k 表示频 率下标总数, k = 卜g2 i 限5 , 表示向正方向取整,b 表示每八度音阶的下标数目,和厶m 分别对应于最高、 最低的中心频率。以:g ) 代表口。g ) 的复共轭,且口。b ) 定义为 山东大学硕士学位论文 吼= 击文袁 唧 - f 2 万刀尝 c 3 - 6 , 其中,石是采样频率;w ( 力采用汉明窗,、f 在o 1 范围外时,w ( f ) 是o ;对应于下标 尼的中心频率五为 = 厶2 嚣 ( 3 - 7 ) q 表示品质因子, q = p - l p8 , 频率下标七处对应的窗长m 为, m = 阔 限9 , 凰表示可选取的帧跳范围, o iejloqj_ao 山东大学硕士学位论文 ( 小提琴和钢琴) 的谱宽明显区别于管乐器( 长笛和英国管) ,可能会在乐器家 族间的分类错误率小。在c q t 谱中对于相同音高的音,小提琴、英国管比长 笛、钢琴明显的谐波次数多,因此

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论