




已阅读5页,还剩38页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要基于内容的音乐检索研究摘要在基于哼唱的音乐检索系统中,用户只需对着麦克风哼唱一首乐曲的旋律片段,就可以得到所要检索的乐曲。在模式识别领域中,音乐检索算法由于其易行和高效的特性而得到越来越多的重视,其中哼唱声音的端点检测、特征提取,音乐旋律匹配以及对环境噪声的处理是音乐检索中的难点。本文主要围绕基于内容的音乐检索开展如下研究工作:( 1 ) 特征提取:分析音频信号的时域特征和频域特征,并把不同的特征组合应用到不同类型的音频检索。( 2 ) 端点检测:在传统端点检测方法的基础上,提出了基于贝叶斯决策的端点检测算法,还实现了基于能量跟踪的端点检测算法以及中心削波后基于过零率的端点检测算法。通过实验对三种算法进行对比分析,验证了基于贝叶斯决策的端点检测算法的有效性,实现了较好的音符分割效果。( 3 ) 基音提取:在传统端点检测方法的基础上,采用自相关函数实现了对浊音段基音周期的提取。( 4 ) 旋律匹配算法:依据音乐数据的格式分类,分别论述分析了旋律的特征匹配算法,并借助d t w 算法实现了旋律的特征匹配。通过端点检测对音乐信号做音符分割,提高了音符特征提取的准确性。在端点检测的基础上,改进了d t w 算法,明显提高了识别效果。关键词:基于内容的音乐检索,端点检测,d t w 算法,贝叶斯决策,旋律匹配算法a b s t r a c ti i lt h em u s i cr e t r i e v a ls y s t e mo fq u e r yb yh u m m i n g ,t h eu s e ro n l yn e e dt oh u mp a r to fas o n ga n dc a l lg e tt h es o n gh eo rs h ew a n t e d i nt h ep a t t e r nr e c o g n i t i o nf i e l d ,m u s i c a li n f 0 肌a t i o nr e t r i e v a l ( m m ) i sr e c e i v i n gm o r ea n dm o r ea t t e n t i o n ,t h e r ea l es o m ed i f f i c u l t i e si nt h eq u e r yb yh u m m i n gf i e l d s ,s u c ha sp i t c hd e t e c t i o n 、f e a t u r ee x t r a c t i o n ,m u s i cm e l o d ym a t c h i n g ,e n v i r o n m e n tn o i s ea n de ta 1 s o m er e s e a r c h e sa b o u tc o n t e n t b a s e dm u s i c a lr e t r i e v a lt e c h n i q u ea r ec a r d e do u t 鹊f o l l o w s :( 1 ) f e 砷j r ee x a c t i o n :t h i sp a p e ra n a l y z e da u d i os i g n a lo nt h et i m ed o m a i nc h 撒c t e r i s t i ca n dt h ef r e q u e n c yd o m a i nr a n g ec h a r a c t e r i s t i c ,d i f f e r e n tf e a t u r e sc o m b i n a t i o nc a l lb ea p p l i e di nd i f f e r e n ta u d i or e t r i e v a l ( 2 ) e n d p o i n td e t e c t i o n :t h i sp a p e ri n t r o d u c e dt r a d i t i o n a lm e t h o do fe n d p o i n td e t e c t i o n ,p r o p o s e daa l g o r i t h mo fe n d p o i n td e t e c t i o nb a s e do nb a y e s i a nd e c i s i o n ,r e a l i z e de n d p o i n td e t e c t i o nb a s e do ne n e r g yt r a c k i n ga n dz e r o - c r o s s i n g sc o u n t sa f t e rc e n t e re l i p p i n g ,c o n l r a s t e dt h et :i l r e em e t h o d st h r o u g he x p e r i m e n t ,c o n f i r m e dt h i sa l g o r i t h mi se f f e c t i v e ( 3 ) p i t c hd e t e c t i o n :t h i sp a p e ri n t r o d u c e dt r a d i t i o n a lm e t h o do fp i t c hd e t e c t i o n ,r e a l i z e dp i t c hd e t e c t i o no nv o i c e db ya u t o c o r r e l a t i o nf u n c t i o n ( 4 ) m e l o d y m a t c h i n ga l g o r i t h m s :t h i sp a p e re n u m e r a t e dm e l o d y 。m a t c h i n ga l g o r i t h m sb vm 戚cd a t af o r mc l a s s i f i c a t i o n ,i n t r o d u c e dt h ed t wa l g o r i t h mi nd e t a i l ,a n dr e a l i z e dm e l o d ym a t c h i n gb yt h i sa l g o r i t h m f e 籼ee x a c t i o ni sm o r ea c c u r a t ea f t e re n d p o i n td e t e c t i o n ,i m p r o v e dd t wa l g o r i t h m sr e c o g n i t i o ne f f e c ti si n c r e a s i n ga f t e re n d p o i n td e t e c t i o n k e y w o r d s :c 。n t e n t b a s e dm u s i c a lr e t r i e v a l ,e n d p o i n td e t e c t i 。n ,d t wa l g o r i m m b a y e s i a nd e c i s i o n ,m e l o d y m a t c h i n ga l g o r i t h m s声明本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均已在论文中作了明确的说明。研究生签名:卑。8 年7 月j 日学位论文使用授权声明南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或上网公布本学位论文的部分或全部内容,可以向有关部门或机构送交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对于保密论文,按保密的有关规定和程序处理。研究生签名:牟。 年1 月日硕士论文基于内容的音乐检索研究1 绪论1 1 研究意义音乐是人类传播信息和感情交流的重要媒体。或许你有这样的经历,当听到一段动听的旋律时候,你很知道它是谁唱的,或者很想学会它,但现有的搜索引擎只有基于文本的检索方法,想要找到这样的乐曲是不可能的。上述问题正是基于内容的音乐检索所要解决的问题。近年来基于内容的音乐检索技术吸引了越来越多领域的科学家来共同探讨其中的理论与技术问题,也使得此课题的研究成为计算机领域发展最迅速的重要研究课题之一。这种最容易让人产生共鸣的音乐旋律信息理应作为另一种检索条件被服务器接受并加以利用:无需借助标题、作者或歌词关键字,通过旋律样可以找出用户所要求的音乐文件,而且这种方式更直观,更贴近音乐的本质。此项研究具有广泛的应用前景,既可在k t v 中实现轻松曲目的选择,又便于实现网络海量音频数据的高效提取,以及在军事、刑侦领域方面都有巨大的应用价值和广阔的研究前景。现在每年只是在中国就会有上千张的新音乐专辑出现,对于音乐数据库的管理简单的只是依据手工标注分类已远远不适应了,这就需要对音乐实现基于内容的分类管理。而作曲家和音乐家则需要通过音乐的旋律等特征来进行音乐查找和比对,以解决音乐的著作权和版权问题。同时,面对大量涌现的新音乐和海量的经典音乐,对于喜爱音乐的人们来说,通过他们所熟悉的音乐旋律特征来查找音乐是一种更受欢迎的方法。由此可见,基于内容的音乐检索方法将逐渐取代根据文件名和文本描述的检索方法,成为更方便、快捷和准确的多媒体检索方式。1 2 研究现状近1 0 年间,许多学者投入到基于内容的音乐检索研究中。目前,国内外已开展了大量的基于内容的音乐检索的研究工作。a s i f g h i a s t l 】等和m c n a br j 【2 j 等最早提出了基于哼唱( q u e r yb yh u m m i n g q b h ) 的音乐检索系统架构。该架构提取哼唱片断中的特征,比如音高变化( u p ,d o w n ,r e p e a t ) ,然后搜索相关的音乐文件。随后,研究者们开发了一些实际的基于内容的音乐检索系统。在这些系统中,用户不仅可以通过哼唱,而且可以通过弹奏一段乐曲,或者其它方式来输入要查询的音乐片段,为今后的研究奠定了基础。此后,l i el u 3 1 等用音高轮廓与音高差、音符长度这样的三元组为单位表示旋律来实现匹配,通过对音乐特征更详尽的描述以达到更精确的效果。1 绪论硕士论文j y h - s h i n gr o g e rj a n g 4 1 等采用分级过滤算法进行分层匹配。n a o k ok o s u g i 【5 】等也提出了同时考虑音高和节奏特征的方法。国内对此问题的研究刚刚起步。主要研究机构有上海交大、西安交大、武汉大学、西安电子科技大学、国防科技大学、浙江大学和中科院声学研究所等单位。上海交大的李扬【6 】等提出线性对齐匹配算法,浙江大学的冯雅中【7j 等用递归神经网络记忆旋律轮廓,为音乐检索提供了一种新的思路。1 3 基于内容的音乐检索基于内容的音频检索,是继基于内容的图像检索之后发展起来的一个新兴研究方向,是指通过音频特征分析,对不同音频数据赋以不同的语义,使具有相同语义的音频在听觉上保持相似,其中基于内容的音乐检索是具有较高实用价值的一个部分。在基于内容的音频检索中,对音频的分类检索技术( 如将音频文件分为“音乐 、“演讲 、“噪音”等) 得到了较快的发展。而由于音乐自身的感知特征问题,基于内容的音乐检索技术则发展缓慢。音乐与人的听觉感知紧密相关,它更多的传达了一种感情,一种很难量化的情绪,音乐的这种特性决定了在音频的分类检索技术中所用到的物理特征对音乐分析并不适用。基于内容的音乐检索是根据音乐的内容特征来进行检索,也就是根据音乐的旋律、节奏等音乐特征进行检索。众所周知,语音识别是一项复杂而细节琐碎的技术。但是乐音识别相对来讲就容易得多,从人所发出的乐音旋律中提取音符与节奏,进行音乐文件检索,并且保证算法的高效与健壮,这就是本设计所要实现的主要目的。基于内容的音乐检索通常采用下面通用的步骤m 1 ( 如图1 1 所示) :理。图1 1 音乐检索工作流程( 1 ) 对用户进行话筒采样,并对采样的音乐进行旋律表达,即音频信号的预处( 2 ) 通过对音乐旋律的特征提取,形成查询索引。( 3 ) 对音乐数据库中的音乐建立音频索引。硕士论文基于内容的音乐检索研究( 4 ) 用户查询构造。( 5 ) 旋律的特征匹配,根据查询索引和数据库中音频索引之间的相似性,对音乐片段进行检索。1 4 本文的主要工作基于内容的音乐检索是以人声旋律作为输入源,通过旋律表达、特征提取与旋律匹配三个主要步骤,能够快速有效地定位目标音乐文件。其中,旋律匹配功能模块将由用户哼唱产生的音符序列与乐曲库中的已知旋律逐一比对,取其最相似者作为结果返回的过程是保证整个系统高效率的关键,当数据库中的信息越来越多时,系统的检索速度和查全率都将依赖可靠高效的检索功能。鉴于此,本文主要侧重于如何提高检索效率的研究。本文的章节内容安排如下:第l 章,绪论。在此章中,首先论述研究的目的和意义,随后综述了国内外哼唱音乐检索的研究现状,最后列出了论文的主要工作。第2 章,旋律特征提取。介绍了音乐旋律的表达方法,特征提取的过程一旋律预处理、端点检测和基音提取的方法以及音频信号的时域和频域特征。第3 章,旋律的特征匹配算法研究。对部分最新的基于内容的音乐检索算法进行详细地描述和分析,并分析了旋律的特征匹配过程中存在的一些问题和困难。第4 章,旋律特征提取的实现。提出基于贝叶斯决策的端点检测算法,使用传统的能量跟踪方法和过零率的方法对端点进行检测,通过比较这三种方法做端点检测后的基音提取结果,验证了改进算法的有效性。第5 章,结论。总结了本文的工作,并指出基于内容的音频检索还需进一步开展的研究工作。32 旋律特征的提取硕士论文2 旋律特征的提取在当前研究中,较常的音乐内容的描述方法有m i d i 音乐、m p 3 音乐、w a v 音乐等。虽然方法不同,但描述的内容是一致的。音乐内容是一维的,而且是变化和重要性不均等的。即在一个音乐文件中存在着对整个音乐的内容表达来说非常重要的旋律片段,同时也存在着并不是很重要的前奏或间奏旋律片段。因此,音乐内容的获取则包括音乐内容的结构化( e o 内容分g - f j ) 和音乐主旋律片段提取两部分。对音乐的正确分割以及较准确的音乐主旋律片段提取,是分析音乐内容的重要基础【9 】。本文把基音作为匹配特征。下面将着重介绍基音的提取过程,基音的提取过程可分为预处理、端点检测和基音提取。2 1 旋律的表达音乐的主要特征是旋律。旋律的一个简单的定义是单音调的连续音阶序列。旋律可分为声乐旋律和器乐旋律,声乐旋律是人声演唱的,乐器旋律是乐器演奏的。我们考虑的旋律是简单的、可以很容易哼唱。音符是构成音乐的基本单元。每一个音符包含三部分特征:音高、音长和音强。音高代表音符的高低,一首歌曲可以用不同的音调演唱。基本的音高符号在五线谱中用c 、d 、e 、f 、g 、a 、b 七个字母命名,在简谱中对应的是l 、2 、3 、4 、5 、6 、7 。音高简单的来说就是“调子”的高低。比如有的人说话比较尖,我们就说他音高比较高。这由声音的频率决定的。频率越高,音高越高。音长表明音符的长短,也即是旋律的节奏性。这是以全音符为基础划分的,其它各音符按与全音符的比值命名,如二分音符、四分音符就相当于全音符的二分之一、四分之一。通常音乐都是以四分音符为一拍、八分音符为半拍来演奏和哼唱。一首歌曲可以快节奏地唱,也可以慢节奏地唱,而听者能听出两种演艺其实是同样的旋律。音强简单来说就是声音的大小。比如打雷的声音比较大,我们就说雷声音强比较强。这个是由声音的振幅决定的。振幅越大,声音越响,音强就越强。音乐内容描述是整个基于内容的音乐检索技术的核心技术。音乐内容描述是在音乐内容获取的基础之上进行的,同时是进一步进行音乐特征相似度匹配的必要前提。在表达旋律时主要从以下几个方面考虑:( 1 ) 计算机表示:目前的音乐信号的计算机表示方法非常有限,其中最基本的方法是采样法。虽然这种方法简单、易懂,但采样后的信号量很大,因此导致的存储、计算、检索的开销很大。而且这种方法比较适合以帧为单位的处理,因此多用于语音识别的领域。但对于音乐而言,以帧为单位的时间尺度太短,无法从中提取出足以代4硕士论文基于内容的音乐检索研究表整个乐段的信息,必须采用其他的方式来表示音乐。目前最常用的音乐信号表示方法是有序特征向量法,这种方法以帧为单位,对采样点进行各种各样的特征值抽取,产生一组数值表示的、有序的、时间相关的特征向量。从而使音乐信息的存储、查询信息的特征抽取、不同音乐信息相似度的计算等步骤都建立在有序特征向量的基础上。( 2 ) 音高:每个人嗓音都各有特点,乐感也不尽相同。因此,客户端识别出的音律与真实旋律之间往往会有较大偏差。最常见的现象就是“走调”:唱一首歌时整体旋律同时升高或降低了八度。在这种情况下,所有音符都会大大偏离标准值,匹配精度无法保证。事实上,我们可以只发送音调的变化信息( 音符差) 到服务器,这样既提高了识别的鲁棒性,又能减少发送字节数。通常,可以利用三个字符s s a m e 、u u p 、d d o w n ,也可以用来表示音乐的旋律轮廓 i o 】。音乐音调轮廓描述了相对音调的变化,忽略了音乐的节奏信息,也忽略了音调的精确变化。一段旋律中的字符表示当前音符与其前面的音符的比较,s 表示音调的重复,u 表示比其前面音符的音调高,d 表示比其前面音符的音调低。如1 2 2 3 3 2 2 1可以表示为:u s u s s d s d 。旋律的音调轮廓同样会丢失音乐信息。这样虽然可以减少搜索空间,但同时也使搜索变得不精确,对于一个大型数据库来说查找的结果过多,不利于找到要搜索的目标。为了找到目标歌曲,需要较长的输入串,这会与用户对歌曲的记忆的长度相矛盾。( 3 ) 音长:在旋律中,音长具有较强的相对性,同一个音,即使持续时间完全一致,在不同的旋律中仍然有可能让人感觉到长短差异。如果一个音,它周围的其它音节都比它短,那听起来就自然显得长,反之则短。另外音乐是有节奏感的,如何体现出旋律中的节拍? 同样一首歌,每个人唱得快慢随意,如何利用音长信息匹配旋律?在设计中采用相对音长编码的手段来解决【1 1 1 ,只考虑相邻两音符之间的音长比。在现有研究中大多用音乐信号的某一种信号特征或几种信号特征的组合来对音调持续时间长短、轻重及音调间的高低变化进行表示。2 2 声音信号的处理和分析旋律提取功能模块的主要任务是对输入音频做一系列时域和频域上的信号处理,从中提取出旋律特征,包括组成旋律的每个音符的频率和节奏,最后转换为匹配算法要求的音符序列。2 2 1 预处理实际的语音信号常常混杂着强烈的背景噪声及共振峰频率,使语音信号的波形变得非常复杂,这常常给特征的提取造成困难。因此,在分析音乐信号、提取音乐特征2 旋律特征的提取硕士论文信号之前,需要预先实施一些经常使用的、共同的短时分析处理,如音乐信号的滤波去噪声、预加重、加窗和分帧等处理【1 2 】。预处理的主要任务就是在特征提取前得到浊音段,并尽量去除背景噪声及共振峰的影响。( 1 ) 音乐信号的滤波处理对于由麦克风录音输入的音乐信号,在其由量化转换为数字化的时候会产生量化噪声,同时还会存在电源工频干扰、混叠干扰等。为了减少这些噪声对音乐信号的分析和特征参数的提取产生干扰,首先要对待处理的音乐信号进行滤波处理。可以设计一种带通滤波器来实现滤波处理。( 2 ) 音乐信号的预加重处理对于哼唱输入的音乐信号,由于其平均功率谱受到声门激励,以及口鼻辐射的高频端大约在8 0 0 h z 以上按6 d b 倍频程跌落,所以在求语音信号频谱时,频率越高相应的成分越小,高频部分的频谱比低频部分的难求,为此要在预处理过程中进行预加重处理。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。( 3 ) 音乐信号的加窗和分帧处理在进行音频特征自动抽取之前,首先要对音频文件做加窗处理,即把音频文件划分成一个个小段,每个小段称为一帧,一般每帧的长度为1 0 - 3 0 毫秒,但是为了使帧与帧之间平滑过渡保持其连续性,相邻的两帧之间有几毫秒的重叠。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为0 1 2 ,如图2 1 所示。渡形0l2 4 5 67s 91 0l l1 21 31 4 1 51 6 时闯( 抄)出吕出岜图2 1 音乐信号分帧示意图分帧是用可移动的有限长度窗口进行加权的方法来实现的,较常用到的窗函数是矩形窗和汉明窗。窗形的选择对音乐信号分析来说是比较重要的。矩形窗的谱平滑性能较好,但损失了高频成分,使波形细节丢失,而汉明窗则相反。6硕士论文基于内容的音乐检索研究窗函数的选择( 形状和长度) 对于短时分析参数的特性影响很大。虽然不同的短时分析方法( 时域、频域、倒谱分析) 以及求取不同的语音特征参数可能对窗函数的要求不尽一样,但一般来讲,一个好的窗函数的标准是:在时域中,因为是语音波形乘以窗函数,所以要减小时间窗两端的坡度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样就可以使截取出的语音波形缓慢降为零,从而减小语音帧的截断效应;在频域要有较宽的3 d b 带宽以及较小的边带最大值。最后再对每帧进行离散傅立叶变换( d f t ) 或快速傅立叶变换( f f t ) ,最后用不同算法计算它的音频特征。2 2 2 音乐信号的相关特征语言信号是随时间变化而变化的。它是典型的非平稳信号,具有很强的“时变特性 ,只有在一段时间间隔中,才认为语音信号保持平稳的特性。因此,语音信号一个重要的特性是其“短时性 。在有些短时段中,它呈现出随机噪声的特性,在另外的短时段中又呈现周期信号的特性,有些段是两者的混合,这个特性给语音信号的处理和语音识别的研究都带来了很大的方便。也因为这样,在对语音信号的处理中,我们提取“短时特征”和“短时参数 ,比如:短时能量、短时过零率、短时自相关函数、短时频谱等,这些都是建立在语音的“短时性”基础上的。短时段一般是5 5 0 m s 。短时特性是语音数字信号处理的一个出发点。音频特征的自动抽取结果是进行音频分割、音频聚类和检索的前提。可以用来描述音频信号的特征有很多,它们一般可以分为两类,即时域特征和频域特征。( 1 ) 时域特征音乐信号的时域特征是指通过对音乐信号的时域波形进行分析所提取出的时域参数。时域特征其中包括平均能量、过零率和静音比等。平均能量说明了音频信号的强度,可用于静音检测,对于一个音频例子,如这个音频例子中的某一短时帧的平均能量低于一个事先设定的阈值,则可判定该短时帧为静音。过零率指每秒内信号值通过零值的次数,一定程度上,它说明了平均信号频率。短时平均过零率的公式为:z i i = i 1 l s g n x w ( m ) - s g n x w ( m - 1 ) i( 2 1 )其中,s g n 】是符号函数,即:s 卧= 悭蒜( 2 2 )72 旋律特征的提取硕士论文由于平均过零率可以在一定程度上反映频率的高低,因此在浊音段,一般具有较低的过零率,而在清音段具有较高的过零率,这样可以用短时平均过零率来初步判断清音和浊音。静音比表示静音的声音片段的比。( 2 ) 频域特征音乐信号的频域特征是指先把音乐信号进行傅立叶变换,将原始信号转换到频域后,对频域内的数据进行分析所提取出的频域参数。其y 中包括有带宽、频谱中心、谐音、音调等。带宽说明了声音的频率范围,音乐通常比语音信号具有更高的带宽。频谱中心也称亮度,是一个声音频谱能量分布的中心点。语音与音乐相比,频谱中心较低。频率为最低频率的倍数的频谱成分称为谐音。在有谐音的声音中,频谱成分大部分是最低频率的整数倍数,音乐通常比其他声音具有更多的谐音。音调是听觉分辨声音高低的特性,完全由频率决定,可通过频谱估计。只有阶段性的声音,如那些由音乐设备和语音产生的声音,才会产生一种音调的感觉。可根据音调的级别对声音排序。音调是一个主观特征。2 3 端点检测在语音处理中,常常涉及到语音的端点检测问题。在语音识别系统中,数字语音信号是由语音,静音,和各种背景噪音混合组成的。要在其中将语音信号占优势的时段和其它信号占优势的时段区分开来,常将确定出语音信号的起始点的方法称之为端点检测,这种方法是语音信号处理过程中的一个重要环节。语音端点检测的基本方法就是对输入语音信号进行分析,然后把它们与噪声门限阈值进行比较。如果超过门限阈值则表示当前帧为有语音段;反之则表示当前帧为非语音段。基于能量的端点检测和基于过零率的端点检测是常用的两种方法i l 训。( 1 ) 基于能量的端点检测通常,基于能量的端点检测算法常采用语音信号的短时能量或短时对数能量作为特征参数,并采用门限判别的方法来进行端点检测。通常,基于能量算法的原理是:当语音信号帧的短时能量或短时对数能量连续高于预先设定的门限值时,则把超过门限的第一帧开头当作语音段的起点。当语音信号帧的短时能量或者短时对数能量连续低于预先设定的门限值时,则把低于门限的第一帧开头当作语音段的起点。但在中低信噪比环境中,当背景噪声幅度比较大时,会给门限的确定带来很大的困难,这种算法将会造成比较大的检测误差。从其原理中可看出,这种算法最大的缺点就是会把一些突发的噪声如敲门声、嘀哒声、电话铃声等也错误地当作语音段,因为尽管这些8硕士论文基于内容的音乐检索研究突发噪声持续时间可能比较短,但是它们的能量却可以达到语音信号能量的大小,因此,基于能量的检测算法并不能很好地抑制这种噪声的干扰。( 2 ) 基于过零率的端点检测整个音乐信号的音符分割可以分为四段:静音、过渡段、音乐段、结束。程序中可以使用一个变量来表示当前所处的状态。在静音段,如果过零率超过了低门限,就应该开始标记起始点,进入过渡段。在过渡段中,由于参数的数值比较小,不能确信是否处于真正的语音段,因此只要参数的数值回落到低门限以下,就能将当前状态恢复到静音状态。而如果在过渡段中参数超过了高门限,就可以确信进入了音乐段。一些突发性的噪声也可以引起短时过零率的数值很高,但是往往不能维持足够长的时间,这都可以通过设定最短时间门限来判别。当前状态处于音乐段时,如果参数的数值降低到低门限以下,而且总的记时长度小于最短时间门限,则认为这是一段噪音,继续扫描以后的音乐数据。否则就标记好结束端点,并返回。文本提出了一种基于贝叶斯决策的端点检测方法,并将在下面的章节中进行介绍。2 4 基音提取基音是指声音信号中由于声源振动所引起的周期性,而基音周期是指声源振动频率的倒数。基音周期是语音信号最重要的参数之一,它描述了语音激励源的一个重要特征。基音的变化模式称为声调,音乐信号中基音的变化同音乐文件中的音调变化具有相对应性。所以音乐信号中的基音的提取对于音乐音调特征的提取具有重要的意义。2 4 1 基音提取算法由于人的声道的易变性及其声道特征的因人而异,基音周期的精确检测是比较困难的。信号的基音提取一直是一个重要的研究课题。近年来,多种基音提取算法被提出,如自相关函数( a c f ) 法、峰值提取算法( p p a ) 、平均幅度差函数( a m d f ) 法、并行处理技术( p p r o c ) 、倒谱法( c e p ) 、简化逆滤波法( s i f t ) 、谱图法、小波变换法等等。( 1 ) 自相关法( a c f )自相关函数是对信号作短时相关分析时最常用的特征函数。音乐信号s ( m ) 经窗长为的窗口截取为一段加窗信号瓯( 历) ( 即对其进行分帧,( m ) 为一帧内的信号) ,定义s 。( 朋) 的自相关函数r 。( 七) 为:r ( k ) = 乏:矗( 所) 矗( 聊+ k )( o p ( w 2 ) ,则做出属于w l 的判断;若p ( w 。) p ( ,把工归类于状态嵋;反之,p ( 嵋i x ) p ( w 2 i x ) p ( w 2 ) ,则把x 归类于状态反之,e c w , l x ) e ( w 1 ) 瓦p2 膏p ( 咄则拙归类于状态h ;反之,w 则把x 归类于状态w 2 。由此可见决策结果取决于实际观察到的类条件概率密度p ( x i ) 和先验概率p ( w g ) 两者。按照这种规则进行分类,实际上是对每个工都使p ( p ) 取小者,这就使平均错误率p ( p ) 达到最小【3 2 1 。4 2 贝叶斯决策用于端点检测后的基音提取( 1 ) 端点检测容易知道,在不包含有音乐段的区域,音强变化不大,对读入的音乐音高,设语音段为类别w i ,非语音段类别为w 2 ,r p ( w ,) + p ( w 2 ) = 1 ,根据音乐音高的直方图分布,设定两种类别的音高类的条件概率密度分布服从正态分布,类条件概率密度为:11 苎丛f ( x ) = i 三e2 一( 4 2 )进一步从直方图的峰值位置及分布状况中估计出两个类别的数学期望l 、2和方差盯仃:2 ,同时估计出两个类别在整段音乐中所占比例,即语音段和非语音段的先验概率p ( w 1 ) 和p ( w 2 ) ,且满足p ( w 1 ) + p ( w :) = 1 ,再根据最小错误率贝叶斯决策进行语音段和非语音段的判定。对音乐中的每一帧,若该点的音高值x 满足:! 苎二笪z!:丝芏11面p2 饥2p ( w p 面e2 0 z lp ( w z )则x w 1 ,为语音段部分;若x 满足:4 旋律特* r 的实现颧论文生二丛生:1i了荔i e2 12p ( w ) c 而:e2 p ( m )则z w 2 ,为非语音段部分,从而实现端点检测。实现步骤如下:a ) 获取音乐信号:利用l l s t 函数对信号进行直方图统计;( i i i ) 根据统计结果估算出语音段和非语音的数学期望、方差以及先验概率:( 1 v ) 根据估算出的数学期望、方差以及先验概率进行端点检测。以用户用“d a d a ”声哼唱“两只老虎”中的一段语音信号为例进行端点检测,如图42 所示,并根据直方图估算出语音段和非语音的数学期望即h 、托分别为:- 00 2 4 3 5 和00 0 1 7 3 2 ;语音段和非语音的方差o - ? 、o - ;分别为:o0 0 2 8 和00 0 0 1 6 :语音段和非语音段的先验概率p ( ) 和p ( m ) 为:4 66 和5 34 ,最后根据统计的数值进行端点检测。020- 02o 船菇器 等“一02002( b h 言号直方图。“”勰:器痞絮“1 ”幽4 1 端点检测示例从图41 中,我们可以看到f c l 端点检测结果,可以很清晰将音乐信号进行了音符分割,达到了较为理想的检测效果。f 2 1 基音提取基音提取技术,按其分析方法可分为时域和频域分析两种。本文采用了自相关函数的方法。根据人的发声极限求出的频率被控制在6 肛1 0 0 0 h z 之间,并通过下面的2 2硕士论文基于内容的音乐检索研究公式转换h 黼( s e m i t o n e ) 单位【3 3 】。s e m i t o n e = 1 2 l 0 9 2 ( f r e q 4 4 0 ) + 6 9( 4 3 )实现步骤如下:( i ) 取每段音乐信号的中心点,从中心点取2 5 0 个点做自相关函数计算;( i i ) 对每个音乐信号分段查找第一共振峰;( i i i ) 根据( 4 3 ) 式计算出每个音乐段的音高。同样以用户用“d a d a 声哼唱“两只老虎 中的一段语音信号为例进行基音检测,自相关函数如图4 2 所示,检测出的音高值为4 5 ,4 7 和4 9 。图4 2 基音检测4 3 能量跟踪方法用于端点检测后的基音提取使用能量跟踪方法进行音符分割是一种比较传统的方法,我们将用这种方法对音乐信号进行端点检测,并将这种方法和以上的方法进行对比。用能量跟踪的方法进行端点检测。其中窗函数的选择会直接决定短时能量的性质:一方面,采用什么类型的窗函数;另一方面,应选多大窗长。一般情况下,选择汉明窗或矩形窗。窗长的选择应该包括l 7 个基音周期,但一般男女老少的基音周期差异太大,折中的选择是选择1 0 m s 3 0 m s 的时间作为窗长。我们使用帧长3 0 m s ,采样频率是6 0 0 0 h z ,窗长可以设为3 0 0 个样点。短时能量的函数由以下程序实现:2 34 旋律特征提r 的实现碰论女x 为读八的语音信号,e m 为短时能量n = 3 0 0 ;l 。l e n g t h ( x ) ,l l 2 l e n g t h ( x ) ,n ;e m = z e r o s ( 1 ,( l l - i ) + 3 0 0 ) ;f o r i i = 1 :r l l 1 1 + 3 0 0t e m p3x ( i i :i i + 3 0 0 1 ) ;t e m p = t e m p + h a m m i n g ( 3 0 0 ) ;对每帧加汉明窗e m ( i i l2s mr t e m p + r o m p ) ;e n dj j2 i :( l l 一1 ) + 3 0 0 ;p l o t ( j j ,e m ) ;x l a b e l ( 短时能量( 音符分割) ) ;其中窗函数选择汉明窗,所得短时能量函数波形如图44 ( b ) 所示,可以看出结果较为理想的将音乐分为了3 段,但是起点的判断需要门限值柬判断。o ”“船菇豁嚣”8 ”o ”。3 器。箍器分群7 。0 0 。1 跪音勰相霜数。器检鼎音熬,严”圈43 能量跟踪方法用于端点检测后的基音提取采用和4 2 相同的方法进行基音检测,测得波形如图43 ( c ) 所示,测得的结果为4 5 4 7 和4 9 。4 4 过零率用于端点检测后的基音提取帖o2口o硕士论文基于内容的音乐检索研究为了得到更好的音符分割效果,本文采用中心削波和过零率结合的端点检测方法,对哼唱声音信号进行音符分割,取得了较好的分割效果。实现过程如下:( 1 ) 对声音信号做中心削波主要代码如下:x 为声音信号a m a x = 0 1 9 幸m a x ( x ) ;设定削波阈值为信号最大值的0 1 9f o ri _ - 1 :l e n g t h ( x )i f ( x ( i ) a r n a x )大于正阈值部分x ( i ) = - x ( i ) - a m a x ;e l s e i f ( x ( i ) - a m a x ) 小于负阈值部分x ( i ) - - x ( i ) + a m a x ;e l s e i f ( x ( i ) = - a m a x ) 介于正负阈值之间x ( i ) = 0 ;e n de n d( 2 ) 对中心削波后的信号求短时平均过零率:主要代码如下:x 为声音信号f r a m e m a t = b u f f e r ( x ,f r a r n e s i z e ,o v e r l a p ) ;信号分帧z c r = s u m ( f r a m e m a t ( 1 :e n d 1 ,:) * f r a m e m a t ( 2 :e n d ,:) ,目标m i d i 乐曲的片段的音高时间序列为】,= y l , y :,y 。) ,两者的d t w 检索算法如下:初始化:d ( 1 ,1 ) = 0递归:d ( i ,) = m i n d ( i 一1 ,_ ,一2 ) ,d ( i 一1 ,一1 ) ,d ( i 一2 ,一1 ) ) + d i s t ( i ,)终止:( x ,功= d ( m ,功其中,f 表示哼昌输入的音高时间序列的第f 个音高,表示m i d i 乐曲的音高时间序列的莉个音高。d i s t ( i ,_ ,) 爿f 一i 是f ,j 2 间的欧几里德距离,也是各条路径的代价函数,两者之间的欧几里德距离越大,该路径的代价也越大。( x ,即是两个音高时间序列之间的距离,距离越小,相似度越大。5 3 动态时间规整算法的改进采用上面的d p 技术实现的d t w 主要有以下几个缺陷:( 1 ) 系统识别性能过分依赖于端点检测。( 2 ) 动态规整的计算量太大。( 3 ) 没有充分利用语音信号的时序信息。( 4 ) 求累积距离时,对测试模板的各帧值给予相等的权重。由于匹配过程中限定了弯折的斜率,所以实际上是达不到许多格点的。因此,菱形之外不需要计算格点对应的帧匹配距离。另外,也没有必要保存所有的帧匹配距离矩阵和累积距离矩阵,因为计算每- - y 0 各格点上的匹配只用到了前一列的三个网格。充分利用这两个特点可以减少计算量和存储空间的需要。3 l5 基于d t w 算法的特征匹配硕士论文xo=三。(22m-n,) 3 ,ymn图5 3 匹配路径约束不恿图k 和以都取最相近的整数。由此也可得出对m 和n 长度的限制条件:黑一z 3( 5 4 )i2 一肘2、。当不满足以上条件时,认为两者差别太大,无法进行动态弯折匹配。在x 轴上的每一帧不再需要与】,轴上的每一帧作比较,而只是与】,轴上 ,】间的帧进行比较,i 。和y 衄的计算如下式:) ,m 面:三x ,o x ( 5 5 )1 2 x + ( m 一2 n ) , k 的情况,此时弯折匹配的三段为( 1 ,托) ,( x 6 + 1 ,以) 和( x o + 1 ,) 。对于x 轴上每前进一帧,虽然所要比较的y 轴上的帧数不同,但弯折特性是一样的,累计距离的更新都使用( 5 7 ) 式实现:饥吩,】= d 旷( 惕) ,8 ( m 朋+ d ( 啊- l 所j 1 ) 】( 5 7 )由于x 轴上每前进一帧,只需要用到前一列的累积距离,所以只需要两个列矢量分别保存前一列的累计距离和计算当前列的累计距离,而不用保存整个距离矩阵。每前进一帧都进行更新,即按式( 5 7 ) ,利用前一列的累计距离和当前列的所有帧的匹配距离,求出当前帧的累积距离,保存于矢量d 中,在把新的距离赋值给d ,作为新的累积距离,为下一列计算使用。如图5 4 所示。这样一直进行到x 轴上最后一列,矢量d 的最后一个元素即为两个模板动态弯折的匹配距离。d 1 d ( j d 0 j t )0,、:,、_ = = 淡= := :乏-,一鼍气?,、:毛,图5 4 累计距离矢量的动态更新5 4 动态时间规整算法的实现根据第四章中获取的音程( 音高差) 进行特征匹配。以用户“d a d a 声哼唱“两只老虎”为例,分别根据2 7 0 - 4 5 0 _ 6 3 。和0 0 - 4 5 0 一9 0 0 两种路径计算路径代价,计算的结果如图所示【3 7 1 。5 基于d t w 算法的特征匹配硕士论文( a ) 2 7 0 一4 5 0 - 6 3 。路径限制 0 0 - 4 5 。一9 0 。路径限制图5 5d t w 路径代价从图5 5 可以看出,使用音程( 音高差) 特征在两种路径所产生的路径代价分别为2 3 和3 6 ,可以看出2 7 0 _ 4 5 0 一6 3 0 路径限制条件下有较好的匹配效果。本文音乐数据库采用的是单声道m i d i 音乐文件,因为提取音乐属性,哪怕是极其简单的一段也是非常困难的,所以我们改用m i d i 音乐数据格式解决这个问题。用户可以给出一个旋律查询,然后搜索m i d i 文件,就可以找出相似的旋律【3 阳9 】。本文收集了4 8 首单声道m i d i 音乐,并从中提取音程作为特征值。以2 7 0 - 4 5 0 一6 3 0为路径限制的d t w 算法,本系统性能测试中,我们进行了5 0 次试验。每次随机演唱数据库中的首歌曲,允许歌曲重复,演唱方式为演唱歌谱、使用鼻子哼唱或使用“d a d a ,博唱,分别统计了总成功率( 表5 1 ) 和三种演唱方式的不同成功率( 表5 2 ) 。表5 1 总实验结果搜索前位置精度前3 位8 l 前5 位9 0 。前1 0 位9 4 表5 2 对不同演唱方式的前3 位成功率统计结果演唱方式总次数平均成功率演唱歌谱1 69 3 使用“d a d a ”1 48 6 硕士论文基于内容的音乐检索研究试验结果发现,演唱歌谱的效果最好,其次是使用“d a d a ”声,最差的是鼻子哼,这与我们的预测完全相同:只要能将旋律的高低差异表达出来,就能取得良好的效果。显然,大多数人演唱歌谱都能将歌谱差异表达的比较准确,而哼唱往往不能准确地表达歌谱的旋律。5 5 本章小结在分析语音识别中d t w 算法和矢量量化技术的基础上,编程实现了动态时间规整算法,并实验验证这种方法,取得了较好的效果。动态时间规整的模板计算量较小,其运算速度较快,而在改进了动态时间规整之后,动态时间规整的识别效率明显地提高。3 5结论硕士论文结论尽管基于内容的音频检索技术受到人们越来越多的关注,相关的研究和论述也很多,但音频检索技术在噪声鲁棒性、音频索引等方面仍存在大量急需解决的问题,而且缺少实用化的检索技术与系统。本文主要研究了基于内容的音乐检索各个主要模块的具体实现方法,对整个基于内容的音乐检索理论作了分析,对音乐内容的获取、特征提取和特征匹配三个部分的国内外最新算法作了详细的描述和分析。本文着重研究了d t w 算法,基于该算法实现了对特征值的匹配,并提出了基于贝叶斯决策的端点检测算法。虽然本文对整个系统进行了研究,也提出了一些改进算法,但是由于学术水平和时间有限,有些方法和算法还不成熟,所实现的一些方法也需要进一步的完善,今后需在如下方面开展进一步的研究工作:( 1 ) 目前,在某些情况下对哼唱查询输入提取的音高特征还不是很准确,特别是在噪声环境中。我们可以结合频谱分析的方法来提高音高检测的正确率。( 2 ) 一首歌曲中人们记忆最深的往往是关键段部分,也就是我们平时所说的高潮部分,哼唱时会优先选择哼唱这一部分的旋律,所以可以从提取关键段方面考虑,将分割出来的关键段存入关键段库,在检索时首先检索这个库,来提高检索速度。( 3 ) 在本文中使用单声道m i d i 音乐音高特征作为特征库,对于多声部音乐,匹配搜索算法本身就比较复杂,实现的难度大,进一步增加了音乐匹配搜索的难度,需要研究合适的匹配搜索方法,从而最终实现对多声部音乐的检索。3 6致谢基于内容的音乐检索研究致谢论文终于完成了,并未感到轻松。原因是在论文完成的过程中,遇到了不少的困难,在准备阶段及写作阶段,我阅读了大量的论文和已有的成果,这些资料让我开阔视野,给我启迪,或者在写的过程中参考、借鉴、引用其中的观点和材料。所以,我将对我论文写作有过帮助的方家大作,恭谨地一一列于论文后的参考文献中,以示致敬和感谢!本论文的顺利完成,同样离不开各位老师、同学和朋友的关心和帮助。在此感谢刘传才教授指导和帮
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年基础入门考试题及答案
- 2025年5G网络的物联网连接性能优化
- 新型高强钢-碳纤维复合剪式支撑在极端荷载下的界面失效机理探索
- 新型纳米涂层在重质油分离塔冷凝器中的应用边界分析
- 新型环保型冷却介质对成型产品纯度与设备寿命的长期作用评估
- 数据驱动消毒液使用场景精准化与过度消毒悖论
- 数字化生产模式对传统刻字工艺传承的冲击与机遇
- 政策合规压力下跨国剪扩工具的多模态认证困境
- 拆装工具在极端工况下的可靠性强化设计标准重构
- 成本敏感型市场下阀片材料梯度设计与轻量化结构的创新实践
- 《城市轨道交通车辆段(停车场)物业服务标准》
- 初级招标采购从业人员《招标采购法律法规》近年考试真题试题库(含答案)
- 班本课程的实施与开展培训
- 旅馆消防安全灭火疏散应急预案模版(3篇)
- 汽车吊维保记录
- 教学评一体化理念
- 人音版七年级音乐上册教案全册
- 机房网络改造升级方案
- ECE-R90-欧盟第3版-中文版(R090r3e-01)
- 2023学年武汉市武昌区九年级语文上学期期中检测试卷附答案
- 函数的单调性与最值课件高三数学一轮复习
评论
0/150
提交评论