




已阅读5页,还剩56页未读, 继续免费阅读
(电路与系统专业论文)独立成分分析在音乐信号处理中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在数字音乐数量急剧增长的今天,由于音乐本身的复杂性、音乐类属定义的 模糊性和对人类听觉感知特性认识的有限性,音乐信号处理已成为信号处理领域 一个新的分支,音乐信息检索已成为研究的热点,很多新的技术都已运用到音乐 信息检索中。独立成分分析( i n d e p e n d e n tc o m p o n e n ta n a l y s i s ,简称i c a ) 是近年 来统计信号处理发展起来的新技术,它着眼于信号的高阶统计特征,用于揭示信 号中的隐藏成分。i c a 有别于其他方法的地方是,它寻找的是既统计独立又非高 斯的成分。 本文主要研究了i c a 在音乐信号处理中的应用,首先,将i c a 方法用于音 乐中的音符检测,根据音符的某些特性,用i c a 模型来处理音乐数据,提出了 基于概率的数学模型,定义了检测函数,当音符开始时,检测函数会有一个突变, 根据这个原理,可以成功地检测音符起始点,并体现出i c a 模型较传统模型的 优点。其次,用i c a 对音乐信号进行了特征提取,提取出来的基向量有着局部 特征,用这些特征基向量可以很好表示音乐信号,并进一步给出音乐信号的稀疏 表示,更好地去除了数据中的冗余信息,压缩了数据。 关键词: 独立成分分析音乐特征提取音符起始点检测 a b s t r a c t n o w a d a y s a m o u n to fd i g i t a lm u s i ci sr o c k e t i n g d u et ot h ec o m p l e x i t yo f m u s i c b vn a t u r e p o o r l y - d e f m e dc o n c e p t i o no fs o r t a n dl i m i t e dk n o w l e d g eo fp e r c e p t u a l f e a t u r eo fh u m a nh e a r i n g ,m u s i ci n f o r m a t i o nr e t r i e v a lh a sb e e nt h et o p i c r e s e a r c h i s s u e a n dm e a n w h i l e ,m u s i cs i g n a lp r o c e s s i n gh a sb e e nan e wb r a n c h o fs i g n a l p r o c e s s i n g m o r ea n dm o r en e w t e c h n o l o g i e sa r ea p p l i e dt om u s i cs i g n a lp r o c e s s m g i n d e p e n d e n tc o m p o n e n ta n a l y s i s ( i c a ) i san e w t e c h n o l o g yd e v e l o p e di n s t a t i s t l c s s i g n a lp r o c e s s i n gr e c e n t l y i tr e v e a l sh i d d e nf a c t o r s t h a tu n d e r l i es e t so fs i g n a l sb a s e d o nb a s e do nh i g h e r - o r d e rs t a t i s t i c a li n d e p e n d e n c e i c af r o mo t h e rm e t h o d s l st h a ti t l o o k sf o rc o m p o n e n t st h a ta r eb o t hs t a t i s t i c a l l yi n d e p e n d e n t ,a n dn o n g a u s s l a n t h i st h e s i sm a i n l yr e s e a r c h e st h ea p p l i c a t i o n so fl c a i nm u s i cs i g n a lp r o c e s s i n g , f i r s t l v i c ai sa p p l i e dt ot h eo n s e to fn o t ed e t e c t i o n u n d e rt h eh y p o t h e s i st h a t t h e m u s i cs i g n a ld a t ai sg e n e r a t e db yi c am o d e l ,a c c o r d i n gt o t h ep r o p e r t yo fn o t e , d e f t n e dt h ed e t e c t i o nf u n c t i o nw h i c ho c c u r as u d d e nd i pa tt h eb e g i n n i n go fn o t e i n t e r n l so f t h ep r i n c i p l e t h et i m eo fn o t e so n s e tc a n b ee x t r a c t e d a n dt h es u p e r i o r i t yo l i c ai sb o d i e dc o m p a r e dw i t ho t h e rm e t h o d s s e c o n d l y , i c ai sa p p l i e dt oe x t r a c tt h e f b a t u r e so fm u s i cs i g n a l s t h eb a s i sv e c t o r se x t r a c t e dh a v el o c a lf e a t u r e s ,t h e yc a n r e p r e s e n tm u s i cs i g n a l s s p a r s er e p r e s e n to f m u s i cc a nb eg i v e nb yt h ev e c t o r s ,a n di t r e d u c e st h ed a t a ,sr e d u n d a n c y , c o m p r e s s i n gt h ed a t ap r e f e r a b l y k e yw o r d s - i c a ,m u s i c ,f e a t u r ee x t r a c t i o n ,n o t eo n s e td e t e c t i o n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得苤鲞盘鲎或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:旧谀书签字日期:加7 年f 月f 日 学位论文版权使用授权书 本学位论文作者完全了解墨鲞盘堂有关保留、使用学位论文的规定。 特授权丕壅本堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:洪午 导师签名: 签字日期:年月日签字日期:沸舌月日 第一章绪论 第一章绪论 1 1 音乐信号研究背景和意义 音频是多媒体中的一种重要媒体,人耳能够听见的音频频率范围是 2 0 h z 2 0 k h z ,其中语音频率大约分布在3 0 0 h z - 4 0 0 0 h z 之间,而音乐和其他自 然声响则是全范围分布。在以数字音频为主的现在音乐时代,音乐成为广为普及 且易于收集的作品,千家万户了解的艺术。在动画,图象压缩技术传播技术日益 成熟的条件下,作为简单的二维信号,展现了数字音频信号的优势:更加易于处 理研究。随着网络技术、多媒体技术的发展与普及,音乐成为互联网及数字图书 馆中数量增长最快的数据形式之一。在中国网络音乐高峰论坛上,中国音像协会 会长刘国雄也曾预测2 0 0 6 至2 0 1 0 年数字音乐发展将进入快速增长期。对数字音 乐不断攀升的需求有力地推动了数字音乐资源的迅速增加。面对互联网和数字图 书馆中的海量数字音乐资源,人们要查询到符合自己需求的目标音乐异常困难。 因此,音频信息检索领域相关课题的研究成为近些年的热点之一i l 】【2 】。 音频信息检索是信息检索的一个重要分支,顾名思义,就是从众多的音频数 据中定位及提取用户比较感兴趣的信息。与文本检索不同,用户的信息需求一般 难以用关键词的形式提交,因为从原始数据中抽取检索项的方法并不适用于音频 数据这种数字信号。多媒体音频检索方面,音调、音色、节奏等效果是很难用符 号化的方法加以描述的。基于内容的音频信息检索方式突破了传统文本检索方式 的限制,它根据音频信息具有的特征参数而非人工标注的外部属性对音频内容进 行检索。其基本思想是通过音频数据的处理,提取并分析音频特征参数,建立它 们的结构化组织和索引,通过分类处理使音频有序化,在此基础上进行检索和浏 览。音频信息检索具有非常广泛的实用价值,可以用于互联网音频信息搜索、音 像馆和图书馆资料的管理以及满足公安、安全部门的业务等诸多需要,所以目前 已成为研究热点。 1 2 音乐信号处理的现状 音乐信号处理包括音乐的压缩编码、音乐的合成、音乐的分类、音乐的分类 检索等。音乐的压缩编码和音乐的合成都取得了相当的成功,人们可以将很多的 第一章绪论 音乐下载到音乐播放器中以便于随时随地欣赏。目前的音乐信号处理主要集中在 以下几个方面: ( 1 ) 音乐的分类检索:由于网络的飞速发展,音乐资源变得越来越多,传统 的基于文本的音乐检索已不能满足人们的要求。人们要想在庞大的音乐资源中找 到自己所需要的音乐已变得越来越困难,因此基于内容的音乐信息检索是学者们 研究的一个热点。由于音乐本身的复杂性和对人类听觉感知特性认识的有限性, 音乐检索分类系统相关问题的研究还处于起步阶段。一方面,人耳对声音的感知 方式和处理过程尚在研究之中;另一方面,音乐是组成最复杂的音频类型之一。 它往往是各种声音,包括不同乐器、人声、以及自然界声音等的组合,而且不同 种类的音乐,其各种成分所占的比重相似,这就为音乐信号的内容分析、特征选 取与计算增加了很大难度。对于大规模音乐数据的分类与检索更有待于进一步的 研究。 由于音乐有着很丰富的特征,音乐检索都是基于特征来进行的,因此音乐检 索主要有:基于旋律的检索,给出一段旋律,即可检索出和此旋律相符的音乐; 基于音乐片段的检索,只记住音乐里的某一个片段,就可以唱出这个片段,找出 此首音乐的名字;基于音乐情感的检索,给出整首音乐,就可以找出与这首音乐 有着相似情感的其他音乐。 国外研究机构对音频检索进行了多方面的研究,如:m u s c l e f i s h 音频检索 引擎;c a m b r i d g e 大学v m r 小组的视频邮件检索技术;m a r y l a n d 大学的v o i c e g r a p h 检索系统;m i t 、南加州大学也进行了分类、检索方面的研究;g u o h u i l i 等提出了使用小波方法进行音频检索;c h e n gy a n g 、g e o r g et z a n e t a k i s 等用不同 的算法实现了具有音乐检索功能的系统。 国内也有学者在音频信息检索相关领域做了有益的探索和研究,大多集中在 音频信息检索、音频分割等方面。而音乐是非语音音频的重要组成部分,它和语 音在结构和频谱范围上有很大差别。国内专门研究音乐信号分析及自动分类的学 者少之又少。从检索到的文献看,清华大学自动化系的周杰等采用音频分析技术 和模式识别技术相结合的方法对八种典型的中国传统戏曲进行了自动分类和相 似性分析研究【3 】。综合上述研究成果,可以发现,他们大多借鉴使用了语音分析 和识别的方法和思路,结合模式识别等统计学习方法,取得了一定的音乐自动分 类效果和相关研究成果。而音乐并非语音,它和语音在信号特征和结构等方面有 很大差别,更为复杂。 ( 2 ) 音乐信号的理解:近十年来由于数字信号处理技术的发展和计算机处理 速度的提高,人们对音乐信号的研究发展迅速。这一领域的研究主要集中在:基 音估计,提取出音乐信号中的基音部分,去除它的谐音部分以便于更好地理解音 2 第一章绪论 乐:音乐情景描述,音乐情景描述主要是从听者的角度去理解音乐信号,具体研 究音乐的旋律、节拍、和唱、低音、乐器的音色等。 音乐信号的理解就是为了更好地提取音乐信号的特征,为音乐信号的自动分 类和检索提供一个好的基础。国外很多学者用很多方法都较好地提取出音乐的特 征。m i c h a e ls l 利用极大似然方法提取出了包括自然声音、环境声音和动物声 音的特征成分,得出了时域滤波器,并进行了比较【4 】。t h o m a s b ,m i k e d 利用稀 疏分量分析方法找出了音乐的特征基向量并给出了音乐的稀疏表利5 1 。 1 3 独立成分分析概述 独立成分分析( i n d e p e n d e n tc o m p o n e n ta n a l y s i s ,简称i c a ) 1 6 】【7 】【8 】【9 1 方法是近 年来由盲源分离技术( b l i n ds o u r c es e p a r a t i o n ,简称b s s ) 发展来的一种新的多维 信号处理方法,其基本思路是将多维观察信号按照统计独立的原则建立目标函 数,通过优化算法将观测信号分解为若干独立成分,从而帮助实现信号的增强和 分析。i c a 从多维观测数据的高阶统计特性出发,提取其中的独立成分,往往使 得分解结果更具生理意义。 在信号处理领域内,盲信号处理是2 0 世纪9 0 年代后期发展起来的。i c a 最 初是用来解决盲源分离问题的。文献报道上一般把i c a 的最早提出归功于j u t t e n 和h e r a u l t 在1 9 8 6 年和1 9 9 1 年发表在s i g n a lp r o c e s s i n g 上的一组论文【1 刚。论文 虽然比较实用,但理论上不够完善。其后,c o m o n 在1 9 9 4 年发表的论文,从理 论上对其作了比较严密的讨谢。 2 0 世纪9 0 年代中期,a j b e l l 和t j s e j n o w s k i 发表了他们基于信息极大原 理的方法后,i c a 吸引了更为广泛的关注,人们对它的兴趣也不断增长。自那时 以来,涌现出大量致力于i c a 的文章,研讨会和专题分组会议。i c a 的第一届 国际研讨会1 9 9 9 年1 月在法国的a u s s o i s 召开,第二届研讨会2 0 0 0 年在芬兰赫 尔辛基召开。两次会议都吸引了上百位i c a 和盲源分离方面的研究者,他们的 贡献使得i c a 已经成为一个被人们承认并业已成熟的研究领域。 独立成分分析是一种统计和计算技术,用于揭示随机变量,测量数据或信号 中的隐藏成分。对于通常以大量样本数据库形式给出的多元观测数据,i c a 定义 了一个生成模型。此模型假设观测数据变量是某些未知的内在变量的线性或非线 性混合,而且不仅内在变量是未知的,实现混合的系统也是未知的。假定那些内 在变量是非高斯并且相互独立的,即观测数据的独立成分。这些独立成分可以通 过i c a 方法找到。i c a 之所以发展迅速,主要是它与传统的多维信号处理方法 相比有着突出的特点:它的分析处理对象是非高斯信号,并且以相互独立为隐含 第一章绪论 变量的提取准则。 随着研究的深入,i c a 在生物信号处理、语音信号分离、无线通信、故障诊 断、特征提取、金融时间序列分析和数据挖掘等现实领域中也有了很多的应用。 ( 1 ) 生物信息学。脑电图信号是由大脑皮层的不同活动产生的生物电信号混 合而成的信号,仅由脑电图观测到的混合信号不能确切地知道大脑皮层不同的活 动,通过运用i c a 方法对脑电图信号进行分解,可以分解出大脑皮层的不同活 动的信息。 ( 2 ) 特征提取。信号处理中的一个基本方法,就是设计一个观测数据的统计 生成模型,然后用生成模型成分给出数据的一个表示。i c a 模型可以用于提取各 种不同数据的独立牲。可以通过从信号中取出一些分块,然后把它们作为i c a 所需的多维信号,而使得i c a 分析成为可能。i c a 模型可以提取很多类型数据 的特征,如彩色和立体图像、视频数据、音频数据与多谱数据等等。 ( 3 ) 无线通信。在c d m a 通信系统中,i c a 算法可用来解决其中的“远一近” 问题,该问题实际上是一个多用户检测问题。在双向工频自动通信系统中,i c a 算法可大大减小并行传输信号之间的相互干扰。 ( 4 ) 金融领域。在金融信息处理方面,一个零售链的现金流是由销售期、顾 客购买能力、新的商品价格等等诸多因素决定的,而这些因素之间是相互独立的, 使用i c a 算法能仅通过现金流数据大致分析出这些独立因素的情况,从而制定 出相应的管理策略。 1 4 论文的主要内容和方法 本文主要研究1 c a 在音乐信号处理中的应用。论文的结构安排如下: 第一章主要介绍了音乐信号处理当前研究的状况和i c a 算法的发展,应用。 对全文作了一个总的概述。通过本部分的介绍,明确自己要做的任务。 第二章介绍音乐信号的基本知识,具体讲了音乐信号的物理特性和时域,频 域特征,对音乐信号有全面的系统的认识。 第三章介绍独立成分分析的基本模型和处理方法,具体介绍了用于本文的 f a s t l c a 算法。 第四章研究了将i c a 方法用于音符起始点检测和音乐特征提取,给出了实 验结果及其分析。 第五章总结了已经完成的工作和有待进一步研究的工作。 4 第二章音乐信号相关知识 2 1 声学基础 2 1 1 声音的产生 第二章音乐信号相关知识 声音是由物体振动产生,绝大多数物体在振动时,振动的不仅是整个物体, 其它各个部分也在振动,这种振动叫做复合振动。复合振动所产生的音叫复合音, 其中整体振动所产生的音叫基音,各个部分所产生的音叫泛音。 一般的声音是包含了复合声波的声音。例如吉他的任何一根弦,它的声波中 除了基频外,还有许多的泛音。自然界中也有一些物体振动时产生的是单音,如 音叉发出的音是单纯声波,哨子发出的音也是单纯声波。 声音是以声波的方式在空气中传播的。声波足一种纵波,它的振动方向和传 播方向是一致的。声波作为一种波,有着波的两大特征即频率和振幅分别对应声 音的高低和大小。声波的频率是指在单位时间内声波的周期数。频率高的音调就 高,声音显得愈尖锐。人耳能够听到2 0 h z 到2 0 k h z 频率范围内的声波。人们把 频率高于2 0 k h z 的声音称为超声波,低于2 0 h z 的称为次声波。 在乐器中,小提琴的基波频率大约为2 0 0 h z 2 5 k h z ,而泛音却要超过 1 0 k h z 。低音提琴的基波频率大约是4 0 h z - - 2 0 0 h z ,而泛音却可以达到5 k h z 。 单簧管的音域比较宽,基音频率约在16 0 h z 1 4 k h z ,泛音却要超过l5 k h z 。 短笛的频率比较高,基音频率在6 0 0 h z - - - - 4 k h z ,泛音频率可达2 0 k h z 。钢琴的 音域是最宽的,它的基音频率从3 0 h z 4 2 k h z ,而泛音频率可在2 0 k h z 以上。 乐器中基波频率低于8 0 h z 的有钢琴、低音提琴、大提琴、竖琴等。而泛音频率 超过1 5 k h z 的有钢琴、短笛、长笛、单簧管等。民族乐器中的二胡、笛子、锁 呐、笙的泛音频率也是相当高的。 声音的振幅与声音的强弱有关。当声源振动的幅度大时,单位时间内传播出 的能量也越大。 2 1 2 声音的感知 声波是通过空气传导和骨传导两种途径传入内耳的。正常情况下以空气传导 为主,也就是说声波通过这两种途径传入内耳使柯蒂器中的毛细胞兴奋,毛细胞 第二章音乐信号相关知识 义和听神经的末梢相接触,毛细胞辨裔后激发化学物质的释放,使蜗神经产生冲 动。冲动经蜗神经传导路径传入大脑经大脑皮质听觉中枢的综合分析,最后才 使我们感觉到声音,即听到声音。 * m 。,”4 * ;。- * * 一4 一”目一w + t h 圉2 - 1 人耳的构造 人耳由外耳,中耳内耳三部分组成,如图2 1 所示。其中外耳、中耳、 内耳的耳蜗部分是听觉器官。内耳的6 # 挺宙和半规管部分是判定位置和进行平衡 的器官。 外耳:外界的声波由耳廓和耳道组成的外耳收集。当卢音进 耳朵后,耳道 将普通声音响度提高,使它成为更易理解的语音。同时,耳道还保护着耳朵的另 卟重要部分:鼓膜鼓膜是层有弹性的圆形膜,当声渡撞击它的时候会产生 振动, 中耳:声波的振动一直传到中耳。中耳包含了三个很小的骨头,叫做听小骨。 通常人们称z 为锤悟、砧骨和镫骨。它们架起了座从鼓膜到内耳的桥粱。它们 将声音提高加大声音的振动,直到声波通过椭圆宙安全到达内耳。 内耳:是一个类似十蜗牛状的环形外壳,覆盖着一系列充满液体的管了。当 声波穿过椭剧商,液体开始运动,使微小的毛细胞也跟着运动。这些毛细胞依此 将振动转换成电脉冲,沿着听神经传送到大脑。 每一个部分都有其特定的功能,它们允许声渡进入耳朵,转换为大脑可以理 解的电脉冲信号。外耳收集声波将其直接送至中耳。此后,r | 耳放大这些声音 信号井传达至内耳,内耳将声音的振动转换为电脉冲,电脉冲信号会沿着听觉神 经被传输到大脑。 耳朵各个部分的功能以及声音的传导过程如f : 第二章音乐信号相关知识 有凹陷的耳廓可聚集和反射声波,使声音增强,并传n ; t - 耳道,呈s 形的外 耳道使声波产生折射作用,可使声音稍微增强些,并传到鼓膜。声波引起鼓膜的 振动。中耳内的听骨( 锤骨、砧骨、镫骨) 感受到这些振动,并使声音不能以原 有的模式放大,从而减少大声对内耳的伤害。振动通过卵圆窗到达耳蜗,在运行 中设定内部的流动速度。这让特定的神经细胞将声波转换为电脉冲信号。听觉神 经发送这些电脉冲信号到达听觉中枢( 大脑) ,在那儿,这些信号就变成了听得 见的声音【1 2 】。 2 2 音乐的主观量 音乐是一种符号,声音符号,表达人的所思所想,是人们思想的载体之一。 音乐是有目的的,是有内涵的,其中隐含了作者的生活体验,思想情怀。音乐从 声波上分析它介于噪声和频率不变的纯音之间,从效果上讲它可以带给人美的享 受和表达人的情感。所以对音乐信号的研究既要考虑音乐的物理特性,也要考虑 人的主观听觉感受。音乐的三主观量是响度,音调和音色。 2 2 1 晌度 响度,又称音强或音量,它表示的是声音能量的强弱程度,主要取决于声波 振幅的大小。响度一般用声压或声强来计量,声压的单位为帕( p a ) ,它与基准声 压比值的对数值称为声压级,单位是分贝( d b ) 。对于响度的心理感受,一般用单 位宋( s o n e ) 来度量,并定义l k h z 、4 0 d b 的纯音的响度为1 宋。响度的相对量称 为响度级,它表示的是某响度与基准响度比值的对数值,单位为1 :3 方( p h o n ) ,即 当人耳感到某声音与l k h z 单一频率的纯音同样响时,该声音声压级的分贝数即 为其响度级。可见,无论在客观和主观上,这两个单位的概念是完全不同的,除 l k h z 纯音外,声压级的值一般不等于响度级的值。 响度是听觉的基础。正常人听觉的强度范围为0 d b 1 4 0 d b 。固然,超出人 耳的可听频率范罔的声音,即使响度再大,人耳也听不出来。但在人耳的可听频 域内,若声音弱到或强到一定程度,人耳同样是听不到的。当声音减弱到人耳刚 刚可以听见时,此时的声音强度称为“听阈”。一般以l k h z 纯音为准进行测量, 人耳刚能听到的声压为0 d b 、声强为1 0 1 6 时的响度级定为o 口方。而当声音增 强到使人耳感到疼痛时,这个阂值称为“痛阈”。以1 k l - - l z 纯音为准来进行测量, 使人耳感到疼痛时的声压级约达到1 4 0 d b 左右。 第二章音乐信号相关知识 2 2 2 音调 音调或称音高,是人耳对声音调子高低的主观评价尺度。它的客观评价尺度 是声波的频率。和音强与振幅的关系不一样,音高与频率基本上是一致的。 在音乐中,各种不同的乐器,当演奏同样的频率的音符时,人们感觉它们的 音高相同,这里指的演奏的声音具有同样的基频。但乐器每发一个音,这个音除 了具有基频兀,以外,还有与兀成正整数倍关系的谐波。前面说过,每个音的 音高感觉由厶决定,而每种乐器的不同各次谐波成分,则决定乐器特有的音色。 乐器中,基音频率范围最宽的是钢琴,为2 7 5 h z - - , 4 1 3 6 h z 。管弦乐、交响乐的 基音范围是3 0 h z - 6 0 k h z 。我国民族乐器的基音范围则为5 0 h z 一- - 4 5 0 0 h z 。 中音c 图2 - 2 - 4 4 0 钢琴布局 以钢琴为例,钢琴有8 8 个键,按八度分,每个八度有1 2 个键。八度即频率 增加一倍,在每个八度内,相邻键之间保持一个恒定比率的频率比值,由于每个 八度有1 2 个键,故比率为:,= 2 ) i 2 = 1 0 5 9 5 ,根据这个比率再加上一个参照键, 就可以算出所有键的频率,一般以中音c 之上的一个键a 4 4 0 为参照,它的频 率为4 4 0 h z 。中音c 是4 0 号键,可以算出中音c 的频率 厶拙。= 4 4 0 x 2 7 i 2 2 6 1 6 h z 。中音c 上的八度称为c - 主音阶,是音乐中的 基本音调,用“c 、d 、e 、f 、g 、a 、b ”来表示,这些音调的频率如表2 1 所 不。 表2 - 1 基本音调的频率 cdefgab 2 6 2 h z2 9 4 h z3 3 0 h z3 4 9 h z3 9 2 h z4 4 0 h z4 9 4 h z 各种不同的乐器,当演奏同样频率的音符时,人们感觉它们的音高相同,这 里指得演奏的声音具有同样的基频。但乐器每发一个音,这个音除了具有基频二, 以外,还有与石成正整数倍关系的谐波。每个音的音高感觉由二决定,而每种乐 器的不同各次谐波成分,则决定乐器特有的音色。 8 第二章音乐信号相关知识 2 2 3 音色 音色就是声音的色彩,它是由发声体产生的泛音的多少和各个泛音的强弱柬 决定的。主要是由发音体的材料性质、结构形状、发声方式及其泛音的多少等不 同因素来决定的。之所以不同的乐器以同样口自度来演妻同一酋曲子,人耳感觉足 不一样的,主要是乐器的音色不同。 声音渡形的基频所产生的听得最清楚的音称为基音,各次谐波的微小振动所 产生的声音称泛音。单一频率的音称为纯音,具有谐波的音称为复音。每个基音 都有固有的频率和不同响度的泛音借此可以区别其它具有相同响度和音调的声 音。声音渡形各次谐波的比例和随时间的衰减大小决定了各种声源的音色特征, 其包络是每个周期波峰间的连线,包络的陡缓影响声音强度的瞬态特性。声音的 音色色彩纷早,变化万千,高保真音响的目标就是要尽可能准确地传输、还原重 建原始声场的切特征,使人们其实地感受到请如声源定位感、空间包围感、层 次厚度感等各种临场听感的立体环绕声效果。 每种乐器演奏相例的曲子之所以效粜不同,主要就是乐器的音色不同。音色 就是音乐的色彩,决定十乐音的泛音的频谱,冈为乐音的波形绝大多数都不是简 单的正弦波,而足一种复杂的波。如果没有谐波成分,单纯的基音正弦信号是毫 无音乐感的。对不同乐器演奏的音符进行时频分析,得到了如图2 - 3 所不的频谱 图。 ( a ) ,】、提霉 ( c ) 吉他 图2 - 3 四种乐器演奏时的时额崮 第二章音乐信号相关知识 从图2 3 可以看出,不同的乐器演奏相同的音乐时,它们产生的泛音的多少 是不同的,可以看出,钢琴的泛音最大,而且复杂,而吉他的频谱最清晰,这是 由乐器本身决定的,由于不同乐器具有自身独特的频谱模式,可以利用此特点来 进行对乐器的分离。 2 3 音乐信号的特征分析 2 3 1 时域特征 对信号分析最自然直接的方法足以时间为自变量进行分析,音乐信号典型的 时域特征用的最多的是短时能量和短时平均过零率。 2 3 1 1 短时能量和平均幅度 音乐信号的能量随着时间变化比较明显,其短时能量分析给出了反映这些幅 度变化的一个合适的描述。 音乐信号一个短段的能量称为短时能量,第 段的短时能量用e 。表示,它等 于该短段音乐取样值的平方和。设音乐波形时域信号为x ( ,) ,加窗分帧处理后得 到的第n 帧音乐信号为x ( m ) ,则n 矗( ,”) = w ( m ) x ( n + 聊) ,0 m n - 1( 2 - 1 ) 其帆垅) 二位 m = 0 ,1 ,( n - 1 ) 其他 式中: r 为帧长,r 为帧移长度,q = o ,t ,2 t ,。 设第r 帧音乐信号( 聊) 的短时能量用e 表示。计算公式为: n - 1 e = ( 研) m = o ( 2 2 ) e 是一个度量音乐信号幅度变化的函数,它对电平非常敏感( 计算时用的是 信号的平方) ,为此,可用另一个度量音乐信号幅度值变化的函数,即短时平均 幅度函数m 。,它不会因取平方而造成较大差异。它定义为: n - i 鸠= i ( m ) i ( 2 3 ) 短时能量是音乐信号分析中最常用的一个时域特征,计算起来比较简单,很 l o 第二章音乐信号相关知识 多音符检测的方法就用到短时能量的特征。图2 - 4 给出了一段音乐的短时能量图, 从图中可以看出,短时能量能很好的反映幅度的变化。 短时能量 2 3 1 2 短时过零率 图2 - 4 铡琴曲爱的纪念的短时能量图 短时平均过零率是音乐信号时域分析中最简单的一种特征。顾名思义,它是 指每帧信号通过零值的次数。对于离散信号,短时平均过零率实质上就是信号采 样点符号变化的次数。短时平均过零率仍然可以在一定程度上反映其频谱性质, 可以通过短时平均过零率获得谱特性的一种粗略估计。短时平均过零率的公式 为: z 。= 寺i s g n x ( m ) - s g n x ( m - 1 ) 1 w ( n - m ) ( 2 - 4 ) z 1v 所= 月一n + i 其中,s g n 为符号函数,即: s g n t x c 胛,= 二i ,二 :;三: c 2 - 5 , 短时平均过零率可以简单地区别音乐的风格,相似风格的音乐短时平均过零 率差别不很大,而不同风格的音乐短时平均过零率应该差别很大。短时平均过零 率可以区别音乐的静音片段,当其值小于某一个阈值时,可以认为是音乐的静音 阶段。图2 5 给出了一段音乐的短时平均过零率图,其中纵坐标表示每个采样间 隔内信号通过零点的次数。 第二章音乐信号相关知识 较。 短时过零率 图2 5爱的纪念的短时过零率 下面取两首爵士乐和两首流行音乐,并分别求出它们的短时过零率,进行比 d a v eb m b e c kq u a r t e t b l u er o n d oal a t u r kz c r :1 4 m s d a v eb n jb e c kq ua r t e t k a t h y sw a l t z z c r :1 1 m s b o nj o v i b a dm e d i c i n ez c r :3 7 m s e v a n e s c e n e b r i n gm et ol i f e z c r :2 7 m s 图2 - 6 几首音乐的短时过零率 图中的音乐都是采样率为8 0 0 0 h z ,从图2 - 6 可以看出,短时过零率越高, 音乐信号越像噪声。第一首和第二首为爵士音乐,短时过零率差不多,都小于 1 5 m s ,而第三首和第四首为流行音乐,短时过零率都大于2 5 m s 。因此可以用 短时过零率来把爵士音乐和流行音乐区别开来【13 1 。 1 2 第二章音乐信号相关知识 2 3 2 频域分析 人类对音乐信号的感知过程与人类听觉系统具有频谱分析功能是紧密相关 的。因此对音乐信号进行频谱分析,是认识音乐信号和处理音乐信号的重要方法。 傅里叶变换是数字信号处理领域一种很重要的算法。利用傅里叶变换将原来 难以处理的时域信号转换成了易于分析的频域信号,可以利用一些工具对这些频 域信号进行处理、加工。最后还可以利用傅里叶反变换将这些频域信号转换成时 域信号。 一个信号的时间表示具有最高的时域分辨率,它可以分辨任意接近的两个冲 激信号,但完全没有频率分析能力。一个信号的连续傅里叶变换具有最高的频率 分辨率,它可以区分两个频率相近的复正弦信号,但完全没有时域分辨率。而短 时傅里叶变换( s t f t ) 作为一种时频分析工具,具有一定的时间分辨率和频率分辨 率。它是由分别在每一小段时间的傅里叶变换所组成。具体而言,通常将信号的 每一时刻与其相邻时刻信号的傅里叶变换相联系,这样就可及时跟踪信号频谱的 变换【1 4 】。 信号x ( n ) 的短时傅里叶变换定义为: l 以o ) = x ( m ) w ( n m ) e 叩” ( 2 - 6 ) 其中w ( n ) 为窗口函数。 在音乐处理中,语谱图即s t f t 幅度的平方, 实际上就是能量密度谱函数p a w ) 。定义如下: 只( w ) 爿毛p ) 1 2 有着十分重要的作用。语谱图 ( 2 - 7 ) 语谱图是表示音乐频谱随时间变化的图形,其纵轴为频率,横轴为时间,任 一给定频率成分在给定时刻的强弱用相应点的灰度或色调来表示。语谱图中显示 了大量与音乐的语句特性有关的信息,它综合了频谱图和时域波形的特点,明显 地显示出音乐频谱随时间的变化情况,或者说是一种动态的频谱。在音乐信号处 理中,语谱图有着十分重要的作用,由于音乐的每一时刻的频率成分很多,语谱 图能给出每一个频率成分的持续时间,也可以直观地看出音乐中音符的变化情 况。对钢琴曲爱的纪念的一个片段进行时频分析,得到语谱图如图2 7 所示。 第二章音乐信号相关知识 。 ? 7 ,一一1 一一_ 一一 l “ 一- - o ,j 卜一;至型 b :_ :- - 一一= 叠= i :耋l i 晦? 曩= ? ;翔誓每篙;茹劐 从图2 7 中可以看出,在一段时间内某个频率的大小基术保持不变。这是心 为在乐器发声时,每个音符都有稳定的频谱,且会持续一段时间。因此,频谱中 的能量峰值会在稳定的频率位置上保持一段时间。 除了上面介绍的短刊傅早叶变换,常用的时频分析工具还有g a b o r 变换和小 波变换。短时傅里叶变换和g a b o r 变换是一种加窗的博里叶变换,使用固定大小 的时频网格时频网格在时频平面上的率化只限于时间平移和频率平移。在短时 傅早口 变换和g a b o r 变换这两种时频表示中,窗函数宽度是固定的,其时频分辨 率也是崮定的,因此只适用于分析具有固定不变带宽的非平稳信号。而实际应用 中,常希望在对低频成分分析时,频率的分辨率高一些对高频成分分析时,时 司的分辨率高一些。这就要求窗函数的宽度能随着频率变化。小波分析的时频分 析网格的变化除了时间平移外,还有时间和频率比例尺度的改变它使用长宽不 一的长方蟛时频分析阿格,闻商适片 十分析具有固定比例带宽的非平稳信号i l ”。 2 3 3 音乐的m e l 频率倒谱分析 音乐信号的倒谱分析就是求取音乐倒谱特征参数的过程,它可以通过同态处 理来实现。同态信号处理也称为同卷滤波,它实现了将卷积关系变换为求和关系 的分离处理,即解卷。 线性预测系数倒谱系数中“倒谱”的概念来源于同卷处理技术,同态处理技 术也是音乐分析i i i 的重要技术,是将非线性问题转化成线性问题进行处理的种 办法。我们将音乐信号产生过程建模成一个激励信号通过时变系统的过程即一 个卷襁的过程,同态处理可以将卷积变成倒谱域中的线性问题达到解卷的目的, 生成的特征参数称为倒谱参数。对于音乐信号来说,倒谱参数所包含的信息较其 j l # = f ! 一 第二章音乐信号相关知识 它参数多,音乐信号的倒谱参数可以通过l p c 系数直接求得,返也是音乐信号 短时倒谱分析中一种特殊的处理方法。计算公式如下: ”w 一+ 善m u 如n 一 ( 2 - 8 由于倒谱参数t 是由l p c 系数得到的所以可称为线性预测倒谱系数 l p c c l l “。 人的听觉系统是一个特殊的非线性系统,占响应不同频率信号的灵敏度不 同,对音频中低频内容的响应是线性的,而对于高频的响应则是对数的。而基于 m e 频率的倒谱系数( m e lf r e q u e n c yc e p s t r a lc o e f f i c i e n t ,m f c c ) 是将人耳的听觉 感知特性和语音的产生机制相结合,因此目前人多数语音识别系统中广泛使用这 种特征。这种特征同样适用于音乐信号处理。 符合人的听觉系统的频率刻度划分应该在低频上肓较高的分辨率,在高频上 具有较低的分辨荤,m e l 频率与实际频率的具体关系如下: m e “,) = 2 5 9 5 1 9 ( 1 + 高( 2 - 9 ) 在求取m e l 的过程中,根据m e 频章与h z 的对应关系,类似临界频带的划 分可以将语音频率划分成一系列三角形滤波器序列,即m e 频率滤波器组,每 个滤波器在以m e l 为单位的频率轴上是等间距的以h z 为单位的频率轴上是不 等间距的,而是符合临界带宽的分布特性,如图2 - 8 所示。 剐2 - 8m e l 三角滤波器组 第二章音乐信号相关知识 取每个三角形的滤波器频率带宽内所有信号幅度加权和作为某个带通滤波 器的输出,然后对所有滤波器输出做对数运算,再进一步进行d c t ( 离散余弦 变换) ,即得到m f c c 。 求取m f c c 的过程如图2 - 9 所示: 图2 - 9m f c c 参数提取的过程 ( 1 ) 首先对信号进行预处理,一般的预处理包括读取音乐信号、分帧、加窗 处理。然后再进行f f t 得到频谱。 ( 2 ) 求出频谱的平方,即能量谱。利用临界带通滤波器组技术,采用滤波器 个数为m 的三角滤波器组z 乙( 刀) ,根据式( 2 9 ) 将实际频率尺度转换到m e l 频率尺 度,计算& 玎) 经过此滤波器的功率值,得到个参数p 掰,m - - 1 ,2 ,。图 2 - 8 给出了m e l 域等间隔的三角滤波器组及变换至普通频率域对应的滤波器组, 其中普通频率域采用了对数坐标。 ( 3 ) 计算砌的自然对数,得到相应频带的对数功率谱m ,= l ,2 ,n 。 ( 4 ) 对m ,进行离散余弦变换,得到m f c c 参数。 m f c c , = 佶喜聊,c o s ( 詈沪o s ,) 弘 其中m f c c , 表示第i 个m f c c ,n 是带通滤波器的数量,m ,是带通滤波器输出 幅值平方的对数。 在为每帧计算出m f c c 参数后,通常要将m 个m f c c 参数乘以不同的加权 系数,以改善低信噪比时信号的特征性能,标准的m f c c 参数只反映了音乐参 数的静态特征。 1 6 第三章独立成分分析简介 第三章独立成分分析简介 3 1 独立成分分析的引出 统计学、数据分析、信号处理和神经网络研究这一类学科有一个共同的问题, 就足如何获得多变量数据的合适描述方式。对于数据的后续分析,合适描述方式 是重要的。无论是模式识别、数据压缩、去噪、可视化,还是其它任何方式,在 某种意义上,合适描述数据更有助于分析处理。众所周知的线性变换有主成分分 析、因子分析和投影追踪法等。而与之相比,发展较晚的线性变换法独立成分分 析,它要求表达式的每一分量具有最小统计独立性【l7 1 。 3 1 1 盲源分离( b s s ) 信号源盲分离( b s s ) 【1 8 1 是指从若干个观测到的混合信号中恢复出无法直接观 测到的原始信号的方法。通常,观测信号来自一组传感器的输出,其中每一个传 感器接收到多个原始信号的一组混合。 o s 2 0 凡 。” o o 屯 毛 图3 1 信号混合过程示意图 在图3 - l 中,刀个信号源_ ,是,岛,j 。所发出的信号被m 个传感器收到后得 到输出x ix 2 ,恐,x r a 。这里假设传输是瞬时的,即不同信号到达各个传感器的 时间差别可以忽略不计,并且传感器收到的是各个信号源的线性混合,即认为第 i 个传感器的输出为: = a , j s ) + 一( ,) ,i = 1 ,2 ,m ( 3 - 1 ) ,= l 1 7 第三章独立成分分析简介 其中,吃为混合系数,( ,) 为第f 个传感器的观测噪声。可以用矢量和矩阵表示 为: x ( r ) = a s ( t ) + ( f ) ( 3 - 2 ) 其中,s ( f ) = 【s 。( f ) ,s 2 ( t ) ,( f ) 】7 是一个n x l 的源信号列矢量。类似地,x ( f ) 为m x l 的混合信号矢量,行( f ) 为m l 的噪声矢量,而矩阵a 为m ”的混合矩阵,其各 元素为混合系数。 目前在讨论盲分离问题时通常不考虑噪声,即认为不存在噪声或噪声在进行 盲分离之前已经通过其他方法降低到了可以忽略的程度,此时( 3 2 ) 式可以写成: x ( ,) = a s ( t ) ( 3 - 3 ) 盲分离就是指在源信号波形未知,并且混合系数口,也未知的情况下,仅仅 根据传感器所接收到的混合信号x ( r ) 对源信号矢量s ( f ) 或混合矩阵a 进行估计。 信号源盲分离问题也可以表述为:在混合矩阵a 和源信号矢
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学走进田间课件
- 教案及教学课件
- 课件模板制作流程
- 儿童玩水画画课件
- 体育小知识课件
- 欢乐有秘方课件
- 课件有趣自我介绍
- 儿童小班玉米课件
- 广东护理伦理自考考试题及答案
- 2025年中国屏风帘布数据监测报告
- 红火蚁宣传课件
- 学校2025年秋季学期1530安全教育记录(全学期带内容模板)
- 雨棚改造施工管理办法
- 储能电站安全性评估报告
- 中国大模型落地应用研究报告2025
- 2025年中国汽车摆臂行业投资前景及策略咨询研究报告
- 2025至2030中国甲氧基乙酸甲酯行业发展趋势分析与未来投资战略咨询研究报告
- 小区住宅景观设计要点解析
- 江苏手术分级管理制度
- 呼吸机管道安全管理体系
- 2025年重庆市中考英语试卷真题(含标准答案及解析)
评论
0/150
提交评论