(信号与信息处理专业论文)基于稀疏分解的音符识别研究.pdf_第1页
(信号与信息处理专业论文)基于稀疏分解的音符识别研究.pdf_第2页
(信号与信息处理专业论文)基于稀疏分解的音符识别研究.pdf_第3页
(信号与信息处理专业论文)基于稀疏分解的音符识别研究.pdf_第4页
(信号与信息处理专业论文)基于稀疏分解的音符识别研究.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(信号与信息处理专业论文)基于稀疏分解的音符识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第1 页 摘要 音乐是人们日常生活的重要组成部分,可谓是人类精神生活的润滑剂,从古至今 音乐的熏陶与鼓舞从未间断。分析音乐信号对研究音乐有积极的促进作用,而音乐信 号音符识别在自动音乐标注、音乐分离、音乐检索等研究领域扮演重要角色。 目前主要使用信号时域分析、频谱分析等技术估计音乐信号的基频,从而得到混 合音的音符组成,但由于音乐信号存在高次谐波频率偏移,基频消失,低音基频间隔 太小,频谱重叠等基频提取过程中的难点,导致现有时域、频域信号处理方法检测多 基频混合音乐信号基频时都存在或多或少的不足之处。 尽管如此,现有的音乐信号多基频提取算法从不同的角度出发,为解决音乐多基 频估计的难点提供了诸多的思路,如采用人耳滤波器解决频率偏移问题,用周期或较 高的频率分辨率识别低音区音符组成的音乐信号。 在这些优秀的成果基础上,本文主要做了如下工作: 1 、稀疏分解作为一种新兴算法,在信号处理领域中有着诸多的优良特性。文中将 信号稀疏分解算法引入到音乐信号多基频估计领域,围绕音乐基频定义和音乐信号的 数学模型,利用音符基频分布的频域稀疏性,采用匹配追踪( m a t c hp u r s u i t ,m p ) 法提取 音符的频谱分布特征。 2 、引入人耳的听觉响应模型,模拟人耳的频率响应特性,采用多分辨率分析技术 建立起模拟听觉特征的原子库。将信号分解到模拟听觉特征的原子库上,用m p 分解系 数反应音乐信号的听觉特征,得到与音符一一对应的简化表述,从而提取出音符的听 觉频域分布特征。 3 、应用琴弦振动发声类乐器的音乐人工合成技术,推导得到钢琴音符的基频及其 各次谐波的能量呈指数规律衰减。按此规律,用m p 算法提取到的音符听觉特征,重建 各音符的音色即频谱分布。根据音色,使用目前学术界广泛认同的音乐信号正弦模型 重建出音符时域信号,建立起音符原子库。 4 、提取混合信号的听觉响应特征,再由此特征对信号进行简化的重表述,采用基 追踪( b a s ep u r s u i t ,b p ) 算法将混合信号分解到音符原子库上,取分解系数实现混合音乐 信号的多基频估计,从而得到混合信号的音符组成。在仿真试验中,该算法取得了很 高的准确率。 关键词匹配跟踪;基追踪;多分辨率分析;人耳频率特性;音色特征 a b s t r a c t m u s i cw h i c hc i v i l i z e sa n di n s p i r e sm e n e v e r y w h e r ei so n eo ft h em o s ts i g n i f i c a n tp a r t s i no u rd a i l yl i f e a n dt h ea n a l y s i so fm u s i cs i g n a lp l a y sa na c t i v er o l ei nt h ec o u s eo f m u s i c r e s e a r c h p i t c ha sam a j o rp a r to fm u s i ci n f o r m a t i o nc a nb ed e t e c t e da n di m p l e m e n t e di n a u t o m a t i cm u s i ct r a n s c r i p t i o n , m u s i cs e p a r a t i o na n dm u s i cr e t r i e v a le t c m a n ys i g n a lp r o c e s s i n gt e c h n i c a lw h i c hb a s eo nt i m ed o m a i no rf r e q u e n c yd o m a i n p o i n th a v eb e e nu s e di ne s t i m a t i n gf u n d a m e n t a lf r e q u e n c yo fm i x e dm u s i cs i g n a l b u ta l lo f c u r r e n tm e t h o d sh a v em o r eo rl e s ss h o r t c o m i n gb e c a u s eo ft h ei n h a r m o n i co f h i g hp a r t i a l s , f u n d a m e n t a lf r e q u e n c yc o m p o n e n tm a yb ed i s a p p e a r e d ,t h ei n t e r v a lo f p i t c hi st o os m a l li n b a s sl i n e ,t h eo v e r l a p p i n go fs p e c t r m ni nd i f f e r e n tn o t e s a l t h o u g ka l o to fm e t h o d sw a sp o s e df r o md i f f e r e n tv i e wf o rs o l v i n gt h ed i f f i c u l t i e si n e x t r a c t i n gf u n d a m e n t a lf r e q u e n c y f o re x a m p l e ,t h ef i l t e rw h i c hc o r r e s p o n d st oh u m a n s a u d i t o r ys e n s ec a l lb eu s e dt os u p p r e s si n h a r m o n i cc o m p o n e n t s a n db a s sn o t e sc o u l db e d e t e c t e db yp e r i o do ru s i n gah i g h e rf r e q u e n c yr e s o l u t i o nt h a nm e l o d yn o t e s t h em a i nc o n t e n to ft h i st h e s i sw a ss u m m a r i e da sf o l l o w s : i 、s p a r s ed e c o m p o s i t i o ni san e w l ye m e r g i n gt e c h n o l o g yw i t hg r e a ta d v a n t a g ei ns i g n a l p r o c e s s i n g i ti sl e a d e dt ot h ef i e l d so fm u t t i p i t c he s t i m a t i o nf o rm u s i cs i g n a lp r o c e s s i n gi n t h i st h e s i s a c c o r d i n gt os p a r s ep r o p e r t yo fp i t c h , t h em a t c hp u r s u i t ( m p ) i sa p p l i e df o r e x t r a c t i n gt h es p e c t r u mo fn o t e sb a s e do np i t c hd e f i n i t i o na n dm u s i cm o d e l 2 、ad i c t i o n a r yw h i c hs i m u l a t e sh u m a n sa u d i t o r ys e n s ec a nb eb u i l tb yb r i n gi ne a r f r e q u e n c yr e s p o n s ea n dm u l t i - r e s o l u t i o nt e c h n o l o g y o b v i o u s l y , t h em pc o e f f i c i e n t s r e s p o n s et oa u d i t o r ys e n s ea n dau n i q u ee x p r e s s i o nw h a tm e a n sa u d i t o r yf r e q u e n c yo fn o t e s h a sb e e ng o r e n 3 、i nt h el i g h to fm u s i cs y n t h e s i st h e o r yo fv i b r a t i o nc h o r d ,t h ee n e r g yo ff u n d a m e n t a l f r e q u e n c yc o m p o n e n ta n d i t sh a r m o n i cp a r t i a l si se x p o n e n ta t t e n u a t i o na n dt h et i m b r ek n o w n a ss p e c t r u mo fn o t ec a nb ee x t r a c t e df r o mm pc o e f f i c i e n t s s oan o t e sd i c t i o n a r yc o u l db e b u i l tb yu s i n gs i n u s o i d a lm o d e lw h i c hi sa c c e p t e dw i d e l yi na c a d e m i c 4 、t h em i x e ds i g r 浏i sf i r s ts i m p l i f i e dw i t hm p d e c o m p o s i t i o no na u d i t o r yb a n d ,t h e n r e c o n s t r u c t e da n dd e c o m p o s e dt on o t e sd i c t i o n a r yb yb a s ep u r s u i t ( s p ) a l g o r i t h m b p c o e 伍c i e n t sd e s c r i b et h ec o m p o s i t i o no fn o t e ss oa l lo f p i t c h e sa r ee x t r a c t e d t h es i m u l a t e t e s ts h o w si tw o r k sp r e t t yw e l l k e yw o r d s :m a t c h i n gp u r s u i t ;b a s ep u r s u i t ;m u l t i p l e - r e s o l u t i o n ;e a rf r e q u e n c yr e s p o n s e ; t i m b r ec h a r a c t e r i s t i c s 西南交通大学硕士研究生学位论文第1 页 1 1 研究背景及意义 第1 章绪论 音乐存在于人们日常生活的每一个角落,是人类文化的重要组成部分,可谓是人 类精神生活的润滑剂,从原始部落到战争年代乃至现代社会,音乐的熏陶和鼓舞从未 间断。 随着科学技术的进步,尤其是在信号和声学领域的巨大进步,人们对音乐信号的 研究逐步深入,研究人员开始使用信号处理工具科学客观的分析音乐,发展音符提取 技术,自动提取音乐信息。以客观数据分析帮助因缺乏专业技能而苦于指导孩子学习 乐器演奏的家长们;通过改变手把手教学模式来降低音乐受教育门槛,使学习乐器不 再是城市优越家庭孩子的专利,而走向普通人家尤其是广大农村地区。 基音周期在语音编码、语音识别等工程应用中极其重要,所以自相关方法、倒谱 法、线性预测编码( l p c ) 法、基于短时平均幅度差函数( a m d f ) 法等单基频提取算法和 技术取得了很大的发展。同时,信号时域自相关分析技术,梳妆滤波器法,基于幅度 谱,功率谱,谐波结构等频谱分析方法以及时频分布等大量的信号处理方法被用于音 频信号分析。近年来,人们在雷达及声纳目标分离,语音分离等领域提出了包括计算 听觉场景分析( c o m p u t a t i o n a la u d i t o r ys c e n ea n a l y s i s ,c a s a ) ,盲源分离( b l i n ds o u r c e s e p a r a t e ,b s s ) 等众多信号分离算法。这些优秀成果的取得为研究信号多基频提取,实 现混合音乐的音符识别奠定了坚实的基础。 尽管音乐信号分析技术在近年来得到一些发展,但仍没有成熟可靠的多基频提取 算法,现有的音乐分离方法大多源于语音基频提取、背景声音分离等处理算法,通常 假设混合信号中各分量统计独立,同时不考虑环境噪声的干扰。音乐中音质、音色的 特殊性,使现有多基频提取算法效果并不令人满意。 原因主要是由于音乐信号极强的时间递变性和频谱层次性【3 】与其它音频信号存在 根本上的差异。演奏多个乐器或多声部乐器( 如钢琴) 时,主旋律音与伴奏音的时间递变 性不同,不同音符的频率分量会重叠,使基于计算听觉场景分析的多基频提取非常困 难。不同音符音程、节拍和曲调相似,破坏了信号的统计独立性假设。同时在实际的 工程应用中,不存在假设中的理想环境,所以环境声干扰必然存在。 总之,现见报的音乐信号多基频提取算法都存在或多或少的不足之处。寻求真正 意义上有效的音乐信号分析模型和在新模型下作多基频估计的新理论、新方法是音乐 信号处理算法迫切需要解决的问题,也是厄待解决、难度很大的前沿性课题。 西南交通大学硕士研究生学位论文第2 页 1 2 国内外研究现状 音频分析技术的发展极大推动了基频估计算法研究,语音是很好的单基频提取算 法研究素材,而音乐信号则是理想的多基频提取研究对象,如自动音乐标注方法就是 以提取音符的音高、时值为目的。最早的多基频提取算法就是为完成多声部音乐自动 标注。近年来,国内外有关学者己作了许多探索性研究工作,并取得了重要进展。 ( 一) 单基频提取 基频提取算法源于语音基音周期提取【l 】,主要方法有采用中心削波技术的修正自相 关方法,倒谱法,基于时域并行处理( p p r o c ) 的方法,简化反滤波( s i f t ) 算法,数据还 原法( b a r d ) ,短时平均幅度差( a m d f ) 算法,线性预测编码( l p c ) 法。瞬时频率法【2 】【3 】, 人耳模型问和听觉感知特征的音高跟踪( f b p t ) 法【5 】,谐波乘性谱( h p s ) 【6 】,b r u c e 等采用 的线性预测方法与动态规划方法相结合的综合音高跟踪算法( i p t a ) 【7 1 ,m e d a n 等提出 的高分辨率音高提取( s p r d ) 算法【8 】以及增强的高分辨率音高提i | 7 , ( e s r p d ) 算法【9 】。基 于神经网络的统计学习类方法【1 0 1 。c h e v e i g n e 等提出的y i n 法【1 1 1 等语音和音乐的单基频 提取算法。 ( 二) 多基频提取 多基频估计可追溯至u1 9 7 0 年m o o r e r 的二重奏自动标注系统【1 2 】,而m a h e r 使用正弦模 型讨论谐波重叠问题,并在信号源的每一个模式下作了音符的最佳估计f l3 1 ,这些早期 系统处理的音高范围很有限,并且同时存在的基频数不能大于二。多基频估计算法包 括普通的信号时域、频域分析方法,基于人耳频率响应特性和听觉心理声学的方法以 及解混合方法。 1 、普通的分析方法 ( 1 ) 时域算法 时域的方法通过计算时域信号的自相关函数或倒谱求取基频值【1 4 】【15 1 ,t a d o k o r o 等 对低音区音乐信号使用陷波型梳状滤波器组,把输出信号能量最小值所对应的频率作 为基频,对中音区和高音区则使用使用震荡型梳状滤波器组,以输出信号能量最大值 所对应的频率作为基频。这一方法可处理的音域范围宽,能有效应对f f t 等频域方法在 处理低音区信号时频率分辨率不足的问题。但当同时有两个以上音符演奏时其估计效 果会急剧变差【阚。 ( 2 ) 频域算法 频域方法通过计算幅度谱或功率谱的自相关函数,从声音各频率分量的间隔得到 基频值,这一方法已在很多基频估计器中得到应用【1 7 1 1 引。基于谐波结构模式的方法 【1 9 】【2 0 1 ,根据不同音符的音色不同,表现为谐波结构即频谱分布不同,对不同的谐波结 构模式作匹配,从而找出基频值。 西南交通大学硕士研究生学位论文第3 页 2 、听觉感知和心理声学方法 ( 1 ) 基于人耳频率响应特性的算法 鉴于人耳能从复杂的混合声音中分辨出不同频率的声音源,m e d d i s 等提出了音高 感知归一化模型,在多基频估计算法的研究中产生了重要的影响【2 1 1 1 2 2 1 。t o l o n e n 等对归 一化音高模型进行了简化,采用基于b a r k 尺度的卷线性预测模拟人耳频率响应特性, 以双通道输出信号的自相关系数求和代替e r b 尺度下的多通道信号的自相关系数求 和,极大地简化了计算复杂度,然后使用扩展拉伸和线性插值的方法,逐一相减从而 求出各基频【2 3 】。c h e v e i g n e 等使用m e d d i s 等提出的模型,在时域递归的消去检测出的基 频信号的方法估计基频【2 4 】。s e t h a r e s 和s t a l e y 提出的周期变换算法在逐个提取基频方面 的思想与c h c v e i g i l e 的方法相似1 2 副。k l a p u r i 采用符合e r b 尺度的三角型窗,对输入信号 的对数功率谱进行平滑,然后逐个相减求出基频【2 6 1 2 7 1 。 ( 2 ) 基于听觉心理声学的算法 基于心理声学分析的方法将多基频提取算法研究扩展到了计算听觉场景分析的领 域 2 8 1 。k a s h i n o 等使用贝叶斯网络作音乐预测,根据音符,和旋,旋律,音色等感知知 识进行音乐听觉场景分析,他们的系统只能输出m i d i 流或重建的源信号声音,假设网 络只能是分层树结构 2 9 1 。m a r t i n 采用f r o n t - e n d 处理技术,利用音乐规则作同时有四个音 符的钢琴曲自动标注【3 0 】。g o t o 用低通滤波器组和多分辨率技术求取瞬时频率以获取曲 调和低音线,基于最大后验概率的频域分析模型,通过期望最大化算法,把极大似然 估计概率观察值对应频率作为基频【3 1 1 。r a p h a e l 采用隐马尔可夫模型对钢琴信号进行标 注1 3 2 】。s a t a r b o r o u j e n i 等采用卡尔曼滤波器跟踪各- 目e , - 1 y 坐删从六旧议u j x 、 3 3 】。c e m g i l 等则基于动态贝叶斯网络,建立起针对音乐信号特点的图形模型【3 4 1 。 3 、解混合方法 解混和方法对信号混合方式和结构建模,通过多个传感器记录观察值估计混合矩 阵,然后计算解混合矩阵分离源信号。空域方法使用概率模型描述多麦克风立体声音 乐信号混和过程,利用线性归一化传感器阵列,结合卷积盲源分离和自适应波束形成 技术,通过到达角分离源信号【3 5 】。当解混合信号出现涡旋噪声时【3 6 1 ,此法就会失效。 时域方法假设源信号各分量彼此互不相关,早期研究主要基于线性瞬时混合,采用神 经网络和信息论方法【3 7 1 ,后来扩展到卷积混合【3 引,该法要求源信号数不能大于传感器 数。频域方法用于单声道混合信号分离,用( i c a ) 技术分析非高斯时变信号模型的s t f t 混合结构【3 9 l 4 0 l 。 独立子带分析( i s a ) 将混合信号功率谱分解为一系列时变典型谱的和,已被用于包 括m p e g7 标准【4 1 】在内的很多单声道混合信号分离 4 2 1 1 4 3 1 。非负矩阵法( n m f ) 把混合信 号短时幅度谱分解为以恒定幅度谱和时变增益为模型的多个分量和,除假设频率和增 益必须为正以外没有其它限制,已经用在包括音乐分离在内的许多有非负约束的非监 西南交通大学硕士研究生学位论文第4 页 督学习任务中,并被证明是有效的。 稀疏编码法结合最速梯度下降和乘性递推规则估计解混和矩阵【4 5 】,处理敲击类乐 器时效果较好,而处理调式乐器和演唱信号1 4 6 1 时欠佳。移不变非负矩阵和张量分解法 【4 7 1 ,允许对不同的音符使用相同的频率基函数建模,能跟踪频谱的时间演进,缺陷是 所有信号源需要有相同的参数1 4 引。 总之,上述方法为多基频估计的进一步研究奠定了坚实的基础。 1 3 本文内容安排 本文将稀疏分解应用于音乐信号多基频估计,相对于传统基于d f t 类方法,更有 效的利用了音乐信号的频域稀疏性。结合人耳频率响应特性和多分辨率方法,以音符 基频为中心频率建立带通原子库,将音乐信号分解到各频带从而提取听觉感知特征。 根据信号听觉特征对各音符的音色即谐波结构建立原子库,同时简化的表述信号并分 解混合信号,根据分解系数估计基频。 本文的主要工作及内容安排: 第二章,音乐信号分析。本章简要介绍了声音、声音信号以及一些乐理常识,将 音乐声音与信号理论相联系;然后对钢琴声音信号作频谱分析,详细分析了钢琴音基 频估计的难点和缘由;最后给出解决这些难点的思路。 第三章,音乐频率特征提取。本章首先介绍音乐信号基频提取的时域算法,分 别描述了使用衰减型梳状滤波器和增强型梳状滤波器提取信号基频的原理、方法以 及优缺点。然后讲述了音乐信号基频提取的频域算法,重点叙述三种尺度的人耳频 率响应特性以及使用滤波器模拟听觉响应的方法,详细讲解了广义自相关算法。 第四章,基于m p 音乐特征提取。本章给出了基于m p 分解的音符听觉特征提取 算法。首先描述音符基频的频域稀疏性,分析了相对于传统d f t 类方法使用稀疏分解 作基频估计的优点。然后引入人耳频率响应特性建立带通原子库,并详细介绍了带通 原子库的建立原理、过程及方法,列出了使用m p 稀疏分解提取音乐信号听觉响应特 性的过程,并给出了算法分析和总结。 第五章,基于b p 音乐基频估计。本章针对m p 提取到的音乐信号听觉特征,利用 琴弦振动乐器的音乐合成算法,详细分析了信号不同频率成分的幅度衰减规律。并由 此重建出各音符信号,建立音符的音色原子库。再提取混合信号的听觉特征,并简化 的进行重新表述,将其分解到音色原子库上,利用b p 分解系数识别音符。最后,通过 计算机仿真实验,证明了算法的有效性。 西南交通大学硕士研究生学位论文第5 页 2 1 引言 第2 章音乐信号分析 声音是由物体振动产生的,在自然界中被人听觉系统所感受的声音特征主要有音 高,音长,强弱,音色,分别对应振动频率,持续时间,振动幅度和频率分布。 声音的高低取决于振动的快慢即频率,振动快、频率高则声音高,振动慢、频率 低则声音低。音长决定了声音的持续时间,音长大表示声音持续时间长,反之表示持 续时间短。强弱对应振幅的大小,振动幅度越大,振动的能量就越高,声音越强,反 之声音弱。音色是各频率声音成分的组合,因频率分布不同或不同频率的振幅不同而 有所不同。 , 单一频率简谐振动的发音体所发的声音为纯音。而发音体任意振动,不同频率的 成分混合在一起,产生的声音称作复音,其中频率最低者是基频,对应的声音称为基 音,其余频率称为泛频,对应泛音。基频值整数倍的泛频称为谐频。 但纯音是为作研究而从理论上提出的假设,在实验室理想条件下才会出现,现实 环境中的声音都是复音。同一时刻只有一个复音的音乐称为单音音乐,而多音音乐包 含一个或多个复音。传统基频提取算法【l 】大都是针对单基频( 如语音) 信号提出的,而大 多数声音( 如复调音乐) 信号属于多基频信号,单基频提取算法不再适用。一个音符对应 一个基频和一系列谐波,同时演奏多个音符时,各频率分量相互重叠,混合信号变得 非常复杂,使多基频估计难度特别大。 因此,重点研究复调音乐的多基频估计算法具有特殊意义。 2 2 音高及十二平均律 按照律制,音高在物理上反映为音符的基频值。首先将某一频率值确立为标准音 符的音高,然后通过运用某种预定义的数学规则,从标准音符的音高推算出一个倍频 程内其它音符的音高频率值。 钢琴素有“乐器之王”的美誉,其音域范围极宽,因此钢琴音是多基频提取算法 的理想素材。钢琴这一类键盘乐器,确定音高频率值的律制均为十二平均律。 从信号处理角度出发,音乐上的八度概念反映到频域即为倍频程,音高相差一个 八度的音符,其基频的频率值相差一倍,即音高基频值为厂的音符,比它高一个八度 的音符基频值是2 f 。 在1 9 3 9 年的英国伦敦国际会议上,规定a l = 4 4 0 h z 为标准音高,这一音高又被音 西南交通大学硕士研究生学位论文第6 页 乐界称作“第一国际高度”。另有“物理学高度”是经过严密的物理学公式推导,得出 c l = 2 5 6 h z ,因此a l = 4 2 6 6 6 h z ,又称为“理论标准高度”。 按照十二平均律制,一个八度分为十二个频率比相等的半音,即钢琴相邻的两个 琴键频率比相等,因此音乐上也定义相邻的两个钢琴键为一个半音,由此可推算出钢 琴键盘8 8 个按键音高的理论频率值1 2 7 】: , z = f o x 2 1 2 f = _ 4 8 3 9 ,i n ( 2 1 ) 本文中五取第一国际高度定义值,即五= 4 4 0 h z ,由以上表达式( 2 1 ) 计算得钢琴的音 符基频频率范围为2 7 5 0 h z 一4 1 8 6 0 0 h z 。8 8 个钢琴按键的音符音高频率值如- f t 蔓t ( 2 1 ) 所示。 磊豸= 趟= = j 甄= 了二卫匦= = 疆二= = j 蟊 :j 匠! 刍蔓匿j 两避 出趟 忸 监j,衄y 卫露【二耍雪c 三唾 m 12 22 52 7 踅3 23 4 3 7 3 94 24 4 崩 弗j 1 5 45 6 毙 6 1 韶 6 6 能7 0 竹7 5 7 9 斌船”舯m 口盯l f r y l n l 似” 山uuu 山uuuu 山uul j 山uuuuuuuul j i fr ;f 早 f ? r ;l ,譬r i , ;,97 ;2 。5 ;ij r o ;:1 ;i ;j ;j ; ; 淄翳i 磊鬟蘸骧裂绻瓣搿l 妻l 辫攘獾型燮燮 i l ;淄蔼澄嘲裂崔l 曩霭漤攀骥燃戮l 图2 - 18 8 个钢琴按键的音符基频值分布图 上图( 2 1 ) e e 表示出钢琴8 8 个琴键的音符分布,图中从上到下依次为各琴键所属的 音域,音符分组,及其所对应的m i d i ( m u s i c a li n s t r u m e n td i g i t a li n t e r f a c e ) - 弓- ,音名,简 谱唱名,基频。 2 3 钢琴音乐信号模型 在针对钢琴音乐信号的研究中,目前学术界大都采用正弦模型【3 1 1 4 9 1 ,其数学表达 式为: mh 纠”】_ k 【 】c o s ( ( 1 + 屯,k ) k 刀+ 【疗】) + ,【疗】 ( 2 2 ) m = l _ = l 式中 y 【刀】一离散时间音乐信号; 咒一离散时间: m 一信号中音符个数; 肌一源信号标号,表示第聊个音符信号成分。 吃一源信号m 的h 次谐波; 西南交通大学硕士研究生学位论文第7 页 ! , i , i i i _ i i i i 皇曼曼皇曼曼曼曼曼曼量曼邑曼量舅置量量皇曼曼曼曼蔓曼曼 一源信号m 的角频率,= 2 矾中为源信号m 的基频; 【胛】_ 一源信号m 在拧时刻的相位; 。【刀】一源信号m 第h 次谐波信号分量在,z 时刻的幅度: 毛 【刀卜一源信号m 第h 次谐波信号分量在r 时刻的频率偏移系数; 1 ,【行】一混合音乐信号中的噪声成分。通常情况下假设噪声成分远小于正 弦信号分量。 通常情况下,钢琴音的频谱分布会随着击键方式的不同而有所区别,但基频不会 发生变化。通过生成混合信号的功率谱或出于简化考虑而直接使用幅度谱,取频谱图 上的能量峰值点【5 0 】,峰值点对应的频率值就可以作为估计基频的信息。 假设峰值点对应信号的一个或多个正弦成分,而非峰值点都对应噪声成分,并且 信号成分的能量要大于噪声成分,即信号中的音乐分量能量高于噪声,则频谱图上有 效信号分量就反映为峰值点。 令输入的钢琴音乐声音信号为s ( f ) ,其时间变量r 0 ,) 。这就意味着信号s ( r ) 的 均值与时间,无关【5 s 】,是一个常数。令 l a s = s ( f ) 将音乐信号零均值化,用下式( 2 - 4 ) 去除信号的均值 x ( r ) = s o ) 一以 则x ( f ) 在f l 时刻和乞时刻的自相关函数仅取决于时间差f l - t 2 ,定义式为 d e f p ) = e x ( t ) x + 9 一f ) 自协方差函数为 应, 、 巳( f ) = e x ( t ) - g x ( t - r ) - p , ) = 如( r ) 一以反 = ( f ) 一i 段1 2 式中变元f 一两个信号取值的时间差,称为滞后。 由于输入音乐信号x ( r ) 在一段有限时间内取值,当0 | l = 刍r 7 r r 叫地) 刊刊) e - j 2 x f ( t ! - t 2 ) d t j d t 2( 2 - 9 ) = i r g ( 1 一川斫出 0 显然,式( 2 9 ) 9p r ( f ) 表示信号x ( ,) 在时间段( 0 ,2 t ) 的平均功率随频率的分布。当 r 一时,这一分布给出功率谱密度 足( ) = ! i 理弓( ) = l 。巳( ) p 吖2 力7 d r 0 ( 2 - 1 0 ) 一 , 上式( 2 1 0 ) 及其重要,给出了功率谱密度的定义,并且表明了功率谱密度不可能为负。 由于以= 0 ,即 x ( f ) ) 是零均值信号,由( 2 - 6 ) 知其协方差函数与相关函数等价,即 c 。( f ) = ( f ) ,此时式( 2 1 0 ) 等价为 足( ) = 如( f ) e - j z x f r d f ( 2 - 11 ) 式( 2 1 1 ) 可用文字表示为:音乐信号零均值化后的功率谱密度乞( ) 是它的自相关函数 的傅里叶变换。 现在以钢琴中音区小字一组的7 个白色按键:c 1 ,d l ,e 1 ,f l ,9 1 ,a 2 ,b 2 音符信号为 例。在1 1 0 2 5 h z 采样率条件下,c l 音时域波形如图2 - 2 中( a ) 所示,图( b ) 至( h ) 是这7 个 音符的功率谱分布图。图中所取信号时长为9 3 毫秒( 1 0 2 4 采样点) ,由于小字一组音符 基频都小于5 0 0 h z ,所以功率谱图中频率取值范围为0 至4 0 0 0 h z 。 。c 1 。音时域波形图 ( a ) 世 馨 ( c )( d ) 西南交通大学硕士研究生学位论文第9 页 ( e ) (g)01) 图2 - 2 小字一组音符波形及频谱分布图 从上图2 2 功率谱密度发现,功率谱图上所有的能量峰值点都出现在音符基频或 谐波处。图b 峰值点在钢琴4 0 号键c 1 音基频( 2 6 1 6 3 h z ) 和二次谐波( 5 2 3 2 5 h z ) 处;图 c 峰值d 1 音基频( 2 9 3 6 7 h z ) 和二次谐波( 5 8 7 3 8 h z ) 处;图d 峰值在e l 音基频( 3 2 9 6 3 h z ) 、 二次谐波( 6 5 9 2 6 h z ) 、三次谐波( 9 8 8 8 9 h z ) 、四次谐波( 1 3 1 8 5 n z ) 处;图e 峰值在基频 ( 3 4 9 2 3 h z ) 、二次谐波( 6 9 8 4 6 h z ) 、三次谐波( 1 0 4 7 6 9 h z ) 处;图f 峰值在基频( 3 9 2 0 0 n z ) 、 二次谐波( 7 8 4 0 0 h z ) 、三次谐波( 1 1 7 6 0 0 n z ) ,四次谐波( 1 5 6 8 0 0 h z ) 处;图g 峰值在a 2 音基频( 4 4 0 0 0 n z ) 、三次谐波( 1 3 2 0 0 0 h z ) 处;图h 中峰值点在b 2 音基频( 4 9 3 8 8 h z ) 处。 从以上结果不难发现,峰值点都对应正弦信号分量,而非峰值点都对应噪声成分。所 以可通过峰值点对应的频率值估计基频。 2 4 基频估计技术难点 难点一: 在频谱图上,通过能量峰值点对应的频率估计基频,无论采用功率谱还是简化的 直接采用幅度谱,这一类基于d f t 的方法频率间隔固定,受频率分辨率限制,无法分 辨出频率差小于频率分辨率的混合信号。 如2 2 图b 至图g 的功率谱中,在1 1 0 2 5 h z 采样率条件下,用1 0 2 4 采样点为一帧 计算出功率谱的频率分辨率为疋n = 1 1 0 2 5 1 0 2 4 = 1 0 7 6 6h z 。对于混合音中基频差小 于1 0 7 6 6 h z 的成分,在功率谱图中无法体现出来,不能估计出这些基频值。钢琴低音 区大字二组的a 2 音符基频2 7 5 h z ,a 2 音符升调基频2 9 1 3 5 h z ,基频差1 6 3 5 h z ,为 西南交通大学硕士研究生学位论文第1 0 页 了分辨出a 2 音和a 2 音升调,每帧数据的采样点数应大于6 7 4 4 ,即大于6 1 2 毫秒。 但现实中,演奏钢琴曲时,每个音符的时值几乎不可能达到6 1 2 毫秒,绝大多数 音符的时值也没必要这么长,如钢琴高音区小字四组的c 5 音符基频4 1 8 6 0 h z ,小字三 组b 4 音符的基频3 9 5 1 1 h z ,基频差为2 3 4 9 h z ,为了分辨出c 5 音和b 4 音,每帧数据 的采样点数只需大于1 1 0 2 5 2 3 4 9 = 4 7 ,即大于4 3 毫秒即可。 难点二: 由于演奏环境影响、乐器制作误差等因素的存在,音乐谐音与基音的频率值之间 并非严格满足倍数关系,而与谐波理论频率值之间存在一定偏移。 假设音符的基频为,那么该音符的h 次谐波频率理论上应该为胪,但事实上厅次 谐音频率为 五= h f 扛而 ( 2 - 1 2 ) 上式中的不谐和参量由琴弦本身的物理性质琴弦长度,材质等决定。正是由于信号 谐波成分存在不谐和性,这种不谐和性在语音信号处理中可以忽略,但在音乐信号中 却必须考虑。 所以钢琴音乐信号模型表达式( 2 2 ) 中,频率偏移系数艿通常不会等于零,并且在 混合源信号中,信号分量坍第乃次谐波成分的频率偏移系数瓯, - 各不相同。 难点三: 由于混合音乐信号中八度音频谱分量会相互重叠,当输入的钢琴声音信号音域范 围很宽即混合音符属于不同的八度时,各音符的相同频率成分相互重叠,使混合音基 频估计非常困难。 由式( 2 2 ) 知,一个音符的基频和谐波与低八度音的谐波重叠,功率谱峰值出现在 频谱图的相同位置,通过取频谱能量峰值点并不能得到足够多从复调音乐信号中估计 多个基频所需要的信息。如三个八度3 6 个半音的基频与谐波存在如下频率关系: 上一p + 1 2 2 = 2 ( 五2 1 2 ) = 厶21 2 = + 1 2 上p + 1 9 3 l = 3 ( 石2 1 2 ) = 兀21 2 = 厶l , 旦p + 2 4 4 l = 4 ( 石2 1 2 ) = 五21 2 = 无+ 2 4 ( 2 1 3 ) 上p + 2 8 5 l = 5 ( 石2 1 2 ) = 兀x 21 2 = 厶2 8 卫旦塑 6 l = 6 ( 五2 1 2 ) = f o 21 2 = 以+ 3 1 其中无表示音p 的基频值。即p 音的二次谐波频率值与比p 音高1 2 个半音的音符基频 值相等,p 音的三次谐波频率值与比p 音高1 9 个半音的音符基频值相等,同理,由式 ( 2 1 3 ) 口- - j 知,p 音的六次谐波频率值与比p 音高3 1 个半音的音符基频值相等。 西南交通大学硕士研究生学位论文第11 页 难点四: 对于某些音符的钢琴音,在声音信号功率谱分布中,能量最大值点并非出现在基 频处,在这些音符的功率谱图上,能量峰值分别对应音符基频和一系列谐波,而能量 最大值出现在谐波处,如下图( 2 4 ) 所示。对于包含这些音符的混合音,单从频谱分布 上不能判断出基频。 1 譬0 5 x1 0 4 “d 音频谱图 - 1 i 图2 - 3 “d ”音和“e 1 ”音频谱图 在图( 2 4 ) 中,d 音的基频,二次谐波,三次谐波,五次谐波和六次谐波处都出现了 功率谱能量峰值点,但最大值点处是二次谐波。e 1 音在基频和二次谐波出现峰值,最 大值在功率谱二次谐波处。d 音的二次谐波与e 1 的基频,d 音的四次谐波与e 1 音的二 次谐波频率值相等,频谱分布重叠,所以在多音符混合时,无法通过功率谱判断谐波 峰值处是否包含基频成分。 总之,由于钢琴音频谱分布的特殊性,使钢琴声音信号的基频难于从频谱分布中 估计出来。 2 5 音乐信号的时频分布 由于通过频谱信息估计音乐信号基频的诸多难点,大多数音乐信号的基频估计算 法,都包含频率成分跟踪部分和音符分离部分1 5 0 j ,在频率跟踪部分,先检测混合声音 中音符各频率成分,再引入时间信息追踪其变化,然后根据检测和跟踪结果,从混合 钢琴声音中分离出各音符。事实上,由于音符和基频的一一对应关系,提取基频和分 离音符是同一个问题。 频率跟踪部分首先获取信号简明的时频分布,所谓简明的时频分布是指混合源信 西南交通大学硕士研究生学位论文第12 页 号的时频图包含的能量峰值点中,除了基频成分外包含尽可能少的干扰项。基于短时 功率谱的时频分布,如下图( 2 - 4 ) 所示。 时频分布 t ,s 图2 - 4 练习曲时频分布 在图( 2 4 ) 中,给出了一段练习曲“1 2 3 4 5 6 7 i ( c l ,d l ,e l ,f l ,g l ,a l ,b l ,c 2 ) ”的短时功率 谱,在图中频率取值间隔为,= 1 1 0 2 5 1 0 2 4 = 1 0 7 6 6 ,共取了5 1 3 个频点,显然没 必要取这么多频率,因为我们只关心8 8 个钢琴基频。上图中还同时存在大量的谐波成 分,而这些都会干扰基频提取,不符合简明的要求。 2 6 本章小结 本章首先简要介绍声音的基本特征以及声音信号的特征参数,说明乐音与其它声 音的区别;接着介绍了些乐理常识,十二平均律,将音乐声音与信号理论联系起来; 然后根据目前学术界普遍使用的钢琴音信号模型,对钢琴声音信号作频谱分析;再通 过频谱分析结果列出钢琴音基频估计的难点,并重点分析缘由;最后给出解决这些难 点的思路。 西南交通大学硕士研究生学位论文第1 3 页 3 1 引言 第3 章音乐频率特征提取 上一章中重点阐述音乐信号处理的技术难点:低音区和高音区音符基频间隔相差 很大,低音区要求频率分辨率高,而高音区要求时间分辨率高;信号谐音存在频率偏 移现象,使谐音频率与基频不满足倍数关系;在音符基频处的功率谱密度并不总是出 现峰值,即基频消失现象;音乐信号频率分布特殊,使八度音频率成分相互重叠,一 旦叠加就很难再分得开。 这一章将分别从时域和频域角度,分析解决以上技术难点的方法。重点引入人耳 的频率响应特征,模仿人耳的听觉特性,将混合源信号的频谱分量映射到听觉响应频 带,以提高基频估计算法的鲁棒性。将理论分析和仿真实验相结合,分析时域和频域 方法检测基频的不足之处。 3 2 基频时域提取法 在第二章中曾分析过,钢琴低音区的音符基频间隔很小,当识别大字二组的音 符时,频率分辨率要求非常高,普通的基于d f t 类算法,信号的时长必须要非常大, 才能达到频率分辨率要求,但在现实中,信号的时长达不到。所以在此处,我们采 用另一思路【16 1 。 将声音信号按基频分成两组。由z = 1 t 知频率与周期成反比,在低音区频率小 而周期大,利用衰减型梳状滤波器 日( z ) = 1 一z 刊( 3 - 1 ) 式中为离散时间延迟。而在中音区和高音区频率大、周期小,采用增强型梳状滤 波器 1 日( z ) 2 亡 ( 3 _ 2 ) 通过周期信息来区分不同音符。 3 2 1 衰减型梳状滤波器 在上式( 3 1 ) 衰减型梳状滤波器的频率响应表达式中,令h ( z ) = 1 一z 一= 0 则有 = 1 m e 7 2 耐 ( 3 - 3 ) 西南交通大学硕士研究生学位论文第14 页 于是得 ,丝, z 。= e 。,i = 0 ,1 ,- 1 ( 3 - 4 ) 即在单位圆上日( z ) 包含个角度等间隔的零点,它的频率响应 日( p 归) :1 一p 巾= 2 j e 一等s l 毗_ c o n ) ( 3 - 5 ) 因而幅度响应为 i 缈h ) | = 2 l s t 瞰刮 p 6 , 采样率z 条件下,m 音零点位于z 埘处,其中卅是m 音一个周期的延迟单元 数。显然,m 音的基频厶- f , 埘,谐波帆,经过梳状滤波器后的输出值都应该等于 零,如1 茎t ( 3 1 ) 所示。也就是说,可以通过零输出估计基频。 频率i , s i - i z 衰减型梳妆滤波器频率响应特性 图3 - 1 衰减型梳状滤波器频率响应特性 在上1 茎t (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论