(信号与信息处理专业论文)音频哼唱检索算法研究.pdf_第1页
(信号与信息处理专业论文)音频哼唱检索算法研究.pdf_第2页
(信号与信息处理专业论文)音频哼唱检索算法研究.pdf_第3页
(信号与信息处理专业论文)音频哼唱检索算法研究.pdf_第4页
(信号与信息处理专业论文)音频哼唱检索算法研究.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(信号与信息处理专业论文)音频哼唱检索算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 近几年,随着网络上多媒体数据的增加,如何采用更加方便的方法进行快速 检索已经成为一个研究的热点。特别是对于音频来讲,由于音乐数据的大量增加, 一种能够更加有效检索这些海量数据的检索系统成为了目前的迫切需要。传统的 检索方式是基于文本进行检索的,这需要对音乐文件进行文本信息的标注,例如 歌名、演唱者、作曲者等。而基于内容的哼唱检索方式仅需要用户哼唱一小段旋 律,就可以检索出相应的歌曲。这种新的检索方式不仅减小了音乐库所需的存储 空间,同时也为用户检索音乐提供了极大的方便。 哼唱系统将采集到的用户哼唱信号经过预处理模块进行语音增强,在特征提 取模块中对增强过的信号进行特征提取,用提取到的特征信息和音乐特征库中的 特征信息进行旋律相似度计算,最后得出检索排名。 本文对哼唱检索( q b h ) 的主要模块预处理模块、特征提取模块和旋律 匹配模块进行了研究和改进。 首先,分析比较了几种语音增强算法的优缺点,采用了基于变参的改进减谱 法作为哼唱检索的预处理模块。经过测试,变参的减谱法在噪声较大的情况下对 于哼唱检索的排名提高有较好的效果,有效率为9 3 3 。 其次,鉴于哼唱旋律音调高低和节奏快慢的不同,提出了对于提取到的语音 特征进行归一化处理的方法。这种方法有效的提高了哼唱检索的排名,有效率为 8 5 7 。 最后,考察了几种旋律相似度计算的方法,构建了一个两层结构的旋律匹配 模块。第一层采用e m d 算法对旋律进行初步检索;第二层采用d t w 算法对第一 层检索排名前2 0 的序列进行进一步检索,计算得到的d t w 旋律相似度与e m d 旋律相似度进行加权和,得到最终的检索排名。同时,本文针对传统e m d 算法 和d t w 算法进行改进,提出基于权值均方的e m d 算法和基于二维变量的d t w 算法。经过测试,e m d 算法的改进有效率为8 5 7 ,d t v v 算法的改进有效率为 7 9 2 。 关键词:哼唱检索,语音增强,旋律匹配 a b s t r a c t i nr e c e n ty e a r s ,t h em e t h o df 6 rq u e r y i n gm u l t i m e d i ad a t ah a sb e c o m ear e s e a r c h h o t s p o tw l t ht h ei n c r e a s i n gd a t ai nn e t w o r k e s p e c i a yt oa u d i o ,t h e r ei sa nu r g e n t d e m a n di nb u i i d i n gam o 陀e f f j c i e n tq u e r ym e t h o dt 0c o p ew i t ht h em a s sa u d i od a t a t h et r a d i t i o n a iq u e 吖m e t h o d ,w h i c hi sb a s e do nt e ) c t ,n e e di a b e lm u s i cf i i e s ,s u c ha s t h en a m eo fm u s i c ,t h es i n g e t h ec o m p o s e le t c h o w e v e r , t h eq u e r ym e t h o d n a m e dq u e r yb yh u m m i n g ( q b h ) ,w h i c hi sb a s e do nc o n t e n t ,o n l yn e e d sas m a p i e c eo fm e l o d ys u n gb yu s e la n dt h e nt h ec o r r e s p o n d i n gn l u s i cc a nb er e t r i e v e d t h en e wq u e r ym o t h o dd e c r e a s e st h es t o r a g es p a c en e e d e db ym u s i c1 b 阳r ya n di s m o r ec o n v e n i e n tt 0u s e l i nc l b h ,t h eh u m m i n gs i g n a ii se n h a n c e di nr e p r o c e s s i n gm o d e i a n dt h e n ,t h e v o i c ef e a t u r ei se 灶r a c t e df r o me n h a n c e ds l g n a l nc h a 阳c t e r i s t i ce 灶陀c t i o nm o d e i f i n a i l y ,t h em e i o d ys i m a r i t yi sc a i c u i a t e du s i n gv o i c ef 色a t u r e so fh u m m i n gs i g n a ia n d m u s i cc h a r a c t e r l s t i ci b 阳r ya n dt h eq u e r yr a n ki s0 b t a i n e d t h i sp a p e rs u g g e s t st h r e ea s p e c t s0 fi m p r 0 v e m e n ti nt h r e em o d e i so fq b h r e s p e c t i v e i y ,w h i c hi sp r e p r o c e s s i n gm o d e i ,c h a r a c t e r i s t i ce x t r a c t i o n m o d e ia n d m e l o d ym a t c h i n gm o d e i f i r s t i ,t h r o u g ha n a i y z i n ga n dc o m p a r i n gt h ea d v a n t a g e sa n dd i s a d v a n t a g e so f s e v e r a is p e e c he n h a n c e m e n ta i g o r l t h m s ,t h ei m p r 0 v e ds p e c t r a is u b t r a c t i o nb a s e d0 n v a r y i n gp a r a m e t e ri sc h o s ei np r e p r o c e s s i n gm o d e i t h et e s tr e s u i tp n ) v e st h a tt h e s p e c t 阳is u b t r a c t i o nb a s e do nv a r y i n gp a 陀m e t e rc a ne 仟b c t i v e i ye n h a n c et h eq u e r y 阳n k i n & a n dt h ee 仟e c t i v e 阳t ei s9 3 3 s e c o n d i y , i nc o n s i d e r a t i o no ft h ed i 仟b r e n c ei n p i t c h a n dr h y t h m ,t h e n o r m a i i z a t i o no ft h ee ) ( t 阳c t e dv o l c ef e a t u r e si sp r o p o s e di nc h a 旧c t e r i s t i ce ) ( t r a c t i o n m o d e i t h eq u e r yr a n k i n gi si n c r e a s e db e c a u s eo ft h en o r m a l i z a t i o n ,a n dt h e e f f e c t i v e 陀t ei s8 5 7 f i n a y ,t h i sp a p e rr e s e a r c h e sa n da n a i y z e ss e v e r a ia i g o r i t h m so fc o m p u t i n g a b s t 陪c t m e i o d ys i m i i a r i t y ,a n dt h e nat w o s t e pm e i o d ym a t c h i n gm o d e l sc o n s t r u c t i ns t e p1 , t h ee a r t hm o v e r sd i s t a n c e ( e m d ) a i g o r i t h mi su s e dt oq u e r yt h em u s i c sp r e i i m i n a r i i y ; l ns t e p2 ,t h ed y n a m i ct i m ew a r p i n g ( d t w ) a k r o r i t h mi su s e dt oq u e r yt h em u s i c s w h i c ha r er a n k e di nt h et o p2 0i ns t e p1 t h ew e i g h t e ds u m0 fm e i o d ys i m i a r i t i e s s t e m e df 巾me m da n dd n ,i st h ef i n a im e i o d ys i m i i a r i t y ,a n dt h e nt h eq u e r yr a n k i n g i so b t a i n e da c c o r d i n gt ot h em e l o d ys i m i i a r i t y :i nt h em e a n w h i i e ,i nc o n t r a r yt o t r a d i t i o n a le m da n dd ? n mt h ei m p r o v e de m db a s e do nw e i g h tm e a ns q u a r ea n dt h e i m p r o v e dd n vb a s e do nt w od i m e n s i o n si sp r o p o s e di nt h i sp a p e lt h et e s tr e a u i t i n d i c a t e st h a tt h ee 仟b c t i v e 阳t e so fi m p r o v e de m da n di m p r o v e dd m a 陀8 5 7 a n d 7 9 2 r e s p e c t i v e i y k e yw o r d s :q u e r yb yh u m m l n g ,s p e e c he n h a n c e m e n t ,m e i o d ym a c h i n g l v 第1 章绪论 1 1 课题研究背景与意义 第1 章绪论 随着现代信息技术,特别是多媒体技术和网络技术的迅速发展,大量的多媒 体信息都可以从网上获得。如何从这些海量数据中找到自己所需要的信息就成为 了一个极为重要的问题,而音乐更成为各搜索引擎中最常被使用者输入的搜索关 键字之一【i 】。传统的音乐信息检索方式基本都是基于文本的,然而基于文本的音 乐信息检索方式有其固有的无法克服的缺陷。首先,用户需要通过输入歌曲的名 称、演唱者信息或歌词等来进行检索,这就迫使用户必须记得歌曲的名称、演唱 者或者是歌词的内容才有办法进行搜寻,这在很多情况下都是较为困难的。我们 可以假想这么一种情况,我们在坐公交车的时候经常会不注意的听到播放的音 乐,你对这首音乐十分喜欢,但是已经错过了歌名信息播出的环节,这时候用传 统的基于文本的音乐检索就无法查找到所需要的歌曲。其次,为了实现对歌曲的 文本检索,需要通过人工方式生成歌曲的文本标注,如文件名、歌曲的演唱者以 及歌词等。人工标注的方法不仅成本高,而且根本无法完成对如此大规模数据的 标注。最后,音乐的一些重要特征,如音乐的旋律、音调、音色等,很难、或者 根本就无法用文本表达清楚,而需要通过其他的方式比如波形来体现。因此,研 究有效的、更易于操作的音乐检索方法是一项重要而又有意义的工作。 基于内容的音乐检索是相对于传统的基于文本的音乐检索提出的。它指通过 对音频的特征加以提取和分析,然后利用这些特征进行检索。目前,基于内容的 音乐检索方式主要有以下几种:哼唱检索( q u e d rb yh l l r i l m i n g ,q b h ) 、节拍拍 打检索( q u e 巧b yt 印p i n g ,q b t ) 、演奏输入检索( 如使用m i d i 键盘等) 、乐谱 录入( 如直接输入音符序列) 检索等。演奏输入检索和乐谱录入可以通过传统的文 本搜索技术来实现,但是对于用户的音乐技能要求太高,并不实用,也无法普及。 节拍拍打检索( q b t ) 需要用户用特定的节拍器进行输入,记录歌曲的节奏。但 是节拍拍打检索只提取了节奏信息,而不对音乐的另一个重要信息音高信息 进行提取,所以检索成功率并不甜2 1 。哼唱检索( q b h ) 通过哼唱歌曲的某个片 段来找到想要搜寻的歌曲,是一种基于内容的音乐信息检索方式,同时提取音乐 音频哼唱检索算法研究 的节奏和音高信息进行匹配,因而成功率较高。同时,哼唱检索方式则由于对用 户要求低、不需要特殊的输入设备、应用方便、易于普及,正逐渐成为最主要的 音乐检索方式。 哼唱检索技术最早是由一家名为m e i o d l s ( m i d o m i c o m ) 的公司推出的,它 旗下网站m i d o m i ,已经实现了这个功能,而且早在0 7 年,m i d o m i 就已经开始 运营。2 0 1 0 年9 月6 日百度推出新的搜索方式:“哼唱搜索”,提供给用户更 方便更直观的音乐搜索体验。百度哼唱搜索是通过用户使用麦克风之类的音频输 入设备哼唱歌曲,然后百度通过对音频来源中的旋律同音乐库中的数据进行详细 分析和比对,最后将最符合这个旋律的歌曲信息提供给用户。2 0 1 1 年5 月,盛 大公司开放其哼唱检索软件源码。哼唱检索正逐渐步入我们的生活。 哼唱检索技术在现实生活中有着广泛的应用前景: ( 1 ) 应用在网站上。通过网络传输的方式将用户的哼唱信息传输到服务器 上进行搜索匹配,这样就构成了一个音乐搜索引擎,用户便可以用哼唱的方式在 网络上搜寻想听的歌曲。 ( 2 ) 应用到卡拉o k 的点歌系统。卡拉o k 是生活中的重要娱乐方式,但在 大量的歌曲中往往需要多次选择才能找到所需的歌曲,用哼唱检索能很方便的实 现歌曲搜索。 ( 3 ) 应用到手机中。随着3 g 技术在手机上的应用和发展,用户从简单的铃 声和歌曲片段中解放出来,能够用手机欣赏大量的音乐。但由于手机汉字输入方 式的限制,这种人机交互并不方便,使用哼唱检索只需哼唱一小段音乐就能下载 到自己想要的歌曲。 ( 4 ) 应用到演唱评分与纠错中。很多卡拉o k 爱好者不仅希望电脑仅仅给出 一个演唱的总体评分,还希望得到更细致更全面的打分说明。哼唱检索不仅可以 给出一个与原唱的相似度评分,同时还能指出哪里需要改进,比如这段旋律唱得 过快,这里音高有问题等。 1 2 哼唱检索系统整体研究现状 国内外研究者和研究机构对哼唱检索进行了多方面研究。1 9 9 9 年,n a o k 0 k 0 s u g i 和y u i c h in i s h i h a 阳就提出了对音乐提取多维信息的哼唱检索算法3 1 。他们 2 第l 章绪论 提取音乐的音符时长和音符音高信息,使用d y 响m i cp r o g r a m m i n gm a t c h i n g ( d p ) 匹配方法来计算编辑距离( e d i td i s t a n c e ) 。距离小的相似度高,对应歌曲在检索 前三位的概率为4 9 2 0 0 0 年,c f r a n c u 和c g n e v 川m a n n i n g 提出建立一个音乐数字图书馆, 使用哼唱检索技术来查找音乐【4 】。由于音乐库的歌曲量较大,有1 0 0 0 0 首之多, 他们采用计算量较小的检索算法。他们将用户的哼唱输入分成2 0 m s 一帧的序列, 提取每帧的音高,用计算哼唱输入和音乐库中文件的音高平均差的方式来进行检 索匹配,匹配的成功率大约为2 5 。 2 0 0 1 年,微软亚洲研究院的l i el u ,h 0 n gy 0 u 和h o n g j i a n gz h a n g 提出一种 新的较为有效的哼唱匹配算法【5 1 。由于人在唱歌的时候选用的绝对音高不同的可 能性极大,他们选用音高差值来取代绝对音高,同时也考虑音乐的节奏信息。对 于提取到的音高差值和节奏信息采用分级匹配的方法来检索,对应歌曲在检索前 十名出现的概率为8 8 。 2 0 0 3 年,h s u a n h u e is h - h 和s s n a r a y a n a n 提出对哼唱信号中的音高和音长 信息使用高斯混合模型( g m m ) 建模,并通过隐马尔科夫模型( h m m ) 来进行 匹配检索,匹配率达到8 0 1 6 】。 2 0 0 5 年,清华大学的z h iw a n g 和b oz h a n g 提出一种基于分级匹配思想的 改进d p 匹配算法【7 】o 将匹配分成两层,第一层在商空间( a 【u o t i e n ts p a c e ) 中进 行,得到一个初步的检索范围。在这个范围中进行第二层检索,在检索速度和准 确率上都有较好的提升。 2 0 0 8 年,m a t t ir w n a n e n 和a n s s ik i a p ur - 一种新的匹配算法,l 0 c a l t y s e n s i t i v eh a s h i n g ( l s h ) 【剐。将提取到的音高和音长信息放到h a s hb u c k e t 中进行匹 配,匹配的成功率为8 6 。 1 3 哼唱检索系统整体架构 3 音频哼唱检索算法研究 哼唱信号 输入 图1 1 哼唱检索系统架构图 哼唱匹配 检索结果 ( 1 ) 哼唱信号输入 将使用者的哼唱歌声经过采样输入到检索系统中。 ( 2 ) 预处理 采集哼唱信号过程中,由于受到环境、采集方式等影响,不可避免的会使信 号带入噪声。在特征提取前,有必要对哼唱信号进行语音增强预处理。这样可以 增强信号的语音特征,提高特征匹配的准确率。为整个算法实现打下良好基础。 ( 3 ) 特征提取 提取哼唱信号中的特征参数,为后面特征匹配做准备。 ( 4 ) 旋律匹配 根据提取到的哼唱特征参数,形成哼唱旋律序列,与音乐特征库中存储的模 板旋律序列进行匹配,计算旋律相似度,列出最可能匹配的一些歌曲名称 ( 5 ) 哼唱匹配检索结果 根据得到的特征匹配结果输出可能匹配的一些歌曲,以及相对应的旋律相似 度。 ( 6 ) 音乐特征库 采用合适的音乐文件格式生成音乐特征库,在特征匹配模块中提供模板旋律 序列。 哼唱系统中预处理模块、特征提取模块和旋律匹配模块最为关键,在很大程 度上影响到匹配的结果,因此本文主要对这三个模块进行研究和改进。 4 第1 章绪论 1 4 哼唱检索系统关键技术研究现状 音乐是人们经常接触的媒体,它有着多种存储形式,例如m i d i ,m p 3 和各种 压缩音乐制品、实时的音乐广播等。研究哼唱音乐检索,首先应该了解音乐的基 础知识。 1 4 1 音乐的基础知识 1 4 1 1 音乐的乐理基础知识 由于音乐检索的许多方法和技术都会涉及到音乐学的一些概念和术语,下面 对其进行简要介绍: 音乐( m u s i c ) 是凭借声波振动而存在,在时间中展现,通过人类的听觉器官而 引起各种情绪反应和情感体验的艺术形式。 音调( p t c h ) 是人们从听觉上判断声音高低的属性。根据它可以把声音排列成 由高到低的序列。音调的高低主要依赖于声音的频率,也称作音高。 响度( l 0 u d n e s s ) 是听觉判断声音强弱的属性,响度的单位是宋( s o n e ) 。 音色( t l m b r e ) 是人在听觉上区别具有同样响度和音调的两个声音之所以不同 的属性。 基频( f u n d a m e n t a lf r e q u e n c y ,通常称为f o ) 是周期性振荡中与其周期相同的 频率,也是振动系统的最低固有频率。 音长( d u r a t i o n ) 是指一个音所持续的时间长度。具体是一个从发音开始 ( o n s e t ) ,到最后音落( o 仟s e t ) 终止的时间段。 音符( n o t e ) 是有音调的声觉,即乐谱中以其形状表示相对音长,并以其在谱 表上的位置表示一定音高的记号。 音程( i n t e r 、,a i ) 指两个音的音调之间的距离。计算音程的单位称“度 ,两个 音之间包括几个音节就称几度。 和声( h a r m o n y ) 是指两个音的基频成简单整数比的情况。旋律( m e i o d y ) 是指经 过艺术构思而形成的若干乐音的有组织、有节奏的和谐运动,就是我们通常所说 的“曲调”。 节奏( r h y t h m ) 是音乐作品的骨架,简单地说,长短不一的音按照一定的规律 s 音频哼唱检索算法研究 组织起来就是节奏。 1 4 1 2 音乐的表示形式 音乐数据的表示形式可分如下三类: ( 1 ) 结构化的符号表示形式 符号音乐的格式有m l d l ( m u s i c a | i n s t r u m e n td 心t a i i n t e r f a c e ) ,g u l d o ( 一位音 乐理论家的名字) 、s m d l ( s t a n d a r dm u s i cd e s c r i p t i o n l a n g u a g e ) 、n i f f ( n o t a t i o n i n t e r c h a n g ef 1 ef o r m a t ) 等,其中最常用的是m i d l 格式,m l d i 以时间标记事件的 方式详细记录音乐的演奏方式,保存了音符、时值、演奏乐器等详细的语义内容, 具有数据量小、便于传输和保存、能很容易地转换成音频形式等独特的优点,用 途比较广泛列。 ( 2 ) 音频形式 音频数据可以描述音乐、语音、音效等所有声音,从存储的格式上可分为压 缩格式,如m p 3 ,m p e g ,r m 等和非压缩格式,如p c m ,w a v 。音频是应用最普遍 的计算机音乐表示形式。 ( 3 ) 乐谱形式 乐谱是传统的音乐表示形式,包含了音符、歌词等音乐信息。这种表示形式 常用于印刷品的音乐书刊和杂志中。 以m i d i 为主的结构化符号音乐中不仅包含了丰富的信息,如音乐的旋律、 节奏、节拍、演奏乐器等,而且容易提取,非常适于检索处理。因此,音乐特征 库采用m i d i 文件来形成。 1 4 1 3 音乐的分类 根据音乐中同时发音的音符数量、发音时间的不同,可将音乐分为如下三 类:【9 】 ( 1 ) 单声部音乐( ( m o n o p h o n i cm u s i c ) 前一个音符结束发声后,下一个音符才开始发声,同一时间只能有一个音符 l = b 及尸o ( 2 ) 齐奏音乐( h o m o p h o n i cm u s i c ) 6 第1 章绪论 多个音符可以同时发声,但同时发声的音符必须同时开始、同时结束。 ( 3 ) 多声部音乐( p o l y p h o n i cm u s i c ) 同一时间可以有多个音符发声,并且不同音符发声的开始与结束时间没有任 何限制。 从音乐的内容上看,单声部音乐结构简单容易检索,齐奏音乐次之,而多声 部音乐则由于同时发声的音符数量、发声时间及音符时值的任意性使检索问题变 得很困难。目前的哼唱音乐检索研究主要集中在单声部的m i d i 音乐检索方面, 对多声部的音乐检索,由于检索输入( 要求查询也是多声部,无法哼唱) 和检索匹 配都比较困难,因此研究的较少。本文的研究目标定位于单声部的音乐。 1 4 2 语音增强算法的研究现状 语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景 中提取有用的语音信号,抑制、降低噪声干扰的技术。语音增强的目的主要有两 个:一是改进语音质量,即消除背景噪声;二是提高语音可懂度。这两个目的往 往不能兼得。由于哼唱系统中更加注重提取到的特征信息的准确性,而不是可懂 度,因此本文主要关注去噪方面。 人耳对语音的感知有很多有趣的特点。对于人耳的感知而言,语音频谱的幅 度变化比较容易察觉,而频谱的相位变化则不易察觉。人耳具有掩蔽效应【l o 】,即 在某频率点上的强信号会掩盖其附近频率的较弱信号。这些特点都被利用到了语 音信号增强当中。 日常生活中可能会碰到的噪声大致分为三类: ( 1 ) 周期性噪声。主要来源于发动机等周期性运转的机械,电气干扰也会 引起周期性噪声。其特点是频谱上有许多离散的、时变的、与语音信号重叠的窄 谱峰。 处理这种噪声主要采用自适应滤波的方法【1 1 l ,缺点是要使用多声道采集系统 效果才比较好,如果使用单声道的话,增强后的语音会带有明显的“音乐噪声 。 ( 2 ) 脉冲噪声。主要来源于爆炸、撞击、放电及突发性干扰等,其特点是 时域波形是类似于冲击函数的窄脉冲,消除这种噪声可以在时域内进行。 处理这种噪声采用卡尔曼滤波法,缺点是计算量大,需要假设l p c 生成模型 7 音频哼唱检索算法研究 的激励源为白噪声源并且只在清音段才成立,主观试听发现该方法对语音造成了 一定的损伤。 ( 3 ) 宽带噪声。来源很多,包括风、呼吸噪声和一般的随机噪声源。量化 噪声通常也作为白噪声来处理,也可以视为宽带噪声。 本系统的语音增强模块主要是处理哼唱系统的输入信号,其中夹带的噪声多 为宽带噪声,因此主要对此噪声滤除的方法进行研究。有以下几种方法: 短时谱幅度的最小均方误差( m m s e ) 估计法【1 2 】,一种对特定的失真准则和后验 概率不敏感的估计方法。这种算法的最大优势在于可以做到语音信号可懂度和降 噪比的折中。缺点是计算量较大,而且语音频谱的先验分布获得在很大程度上要 取决于统计结果的代表性、重现性等。 减谱法,又称噪声对消法,是处理宽带噪声的最通用算法,即从带噪语音频 谱估值中减去噪声频谱估值,从而得到纯净语音信号的频谱b 。1 6 】。减谱法更适合 在不同的背景下对哼唱信号进行快速地有效地增强。从录制的背景噪声中得出噪 声功率,这样噪声功率随着周围环境的变化而变化,扩大了哼唱检索算法的使用 范围,增加了灵活性。 1 4 3 旋律匹配算法的研究现状 1 4 3 1 旋律的表示方法 国内外研究人员对音乐旋律描述方法进行了很多研究,总结出了一些使用的 音乐旋律描述方法。这些旋律描述方法被广泛应用到对m i d i 音乐文件旋律的描 述上,取得了很好的效果。这些方法可以应用到音频音乐信息的描述中来。 一段音乐的旋律包含两方面的内容,一方面是音乐在时间上的延续,另一方 面是音乐随时间的变化。描述一段音乐的旋律,就是要把这两方面的信息如实的 表达出来。 国内外的研究人员对提出的旋律表示方法大致可以分为两类:一类表示法是 在描述旋律的时候忽略乐音在时间上的延续性,只对乐音随时间变化进行描述; 另一类表示法则同时考虑音乐旋律所包含的两方面内容,即乐音在时间上的延续 性以及乐音随时间的变化。 8 第1 章绪论 1 4 3 1 1 忽略乐音的时间延续性的旋律表示方法 ( 1 ) “旋律轮廓 表示法 这是新西兰w a i k a t o 大学的m e l d e x 系统【1 五1 9 1 中提出的表示方法。m e l d e x 系统采用的这种方法完全忽略音乐在时间上的延续性,只关心音乐的音高随时间 的变化上。这种方法的基础是p a r s o n s 在1 9 7 5 年提出的“旋律轮廓 的概念, 以及b o w i n g 在1 9 7 8 年做的一个实验的结果:独立十音程( 两个乐音之间的音高 关系。用”度”表示。以简谱为例,从1 到1 ,或从2 到2 都是一度,从1 到3 或2 到4 都是三度,从1 到5 是五度。) 大小的音程方向是影响旋律识别的一 个重要因素。“旋律轮廓”是指由一个音乐旋律的相邻的两个音的音程方向组成 的音程方向序列。这个概念不仅完全忽略了乐音的时间延续性,而且还忽略了音 程的准确数值,只保留了音程的方向。对于一个具体的音乐旋律,它用来表示 旋律开始的音符,用u 表示上升的音程,用d 表示下降的音程,用r 表示0 音 程,也就是重复的音符。这种方法的一个优点就是允许用户以不同的基调哼唱检 索提问旋律,因为“旋律轮廓 不受哼唱旋律的绝对音高的影响。这样就可以使 检索用户不必记住音符问准确的音程差,只要记住音程的方向,也就是“旋律轮 廓 就行了。 ( 2 ) 音程表示法 美国伊利诺伊大学u r b a n a c h a m p a i g n 分校的j s t e p h e nd o w n i e 在他的研究中 使用了四种方法来表示音乐旋律【2 0 1 。和m e l d e x 系统的音乐旋律表示法相比, d o w n i e 提出的旋律表示法中的后三种表示法的专指性更强,对旋律的分辨能力 也更强。当然这三种表示法也有不足,就是用户在提出检索提问时,必须要部分 或全部记住旋律的准确音程,这无疑增加了用户的负担。因此,在d o w n i e 的检 索实验中使用的检索提问不是用户哼唱的,而是由m i d i 文件中自动抽取的。 1 4 3 1 2 考虑乐音时间延续性的旋律表示方法 ( 1 ) 表示法 美国m l t 媒体实验室的研究人员在他们的研究中使用一个三元组 来表 示一段旋律n s 】。t 表示旋律的拍号,p 表示用u d r 表示的旋律轮廓,b 表示乐 曲的节拍。这种旋律表示方法对用户哼唱的旋律的质量提出较高的要求。 9 音频哼唱检索算法研究 ( 2 ) 音程节奏比率表示法 在英国i m p e r i a ic o i l e g e 的研究人员在进行复调m i d i 音乐文件的旋律的处理 的时候,同时考虑了旋律包含的两方面内容,用【i r l r 。i r i 】的形式表示音乐旋律。 其中i 表示音程,r 表示两个音程间时间的比率,也就是节奏比率。这种表示法 有着和 表示法同样的缺点,对用户哼唱的旋律的质量提出较高的要求。 1 4 3 2 旋律的匹配算法 哼唱的输入向量与音乐库歌曲的比对方式,一般可以分成以下几类: ( 1 ) 切音符的方法 输入的哼唱歌曲和音乐库歌曲都以音符( 包含音高和音长的信息) 为单位来进 行比对,这种方法的好处是比对速度比较快,但是“切音符( n o t es e g m e n t a t i o n ) 本身就可能带来误差,导致对音频的识别率也会降低。典型的方法有编辑距离 ( e d i td i s t a n c e ) 【3 】、e m d ( e a r t hm o v e r sd i s t a n c e ) 【2 1 2 2 1 等。 ( 2 ) 不切音符的方法 输入的哼唱歌曲和音乐库歌曲都以音高向量为单位,每一秒可以包含8 3 2 个音高点,这种方法的好处是比对辨识率比较高,但是所花的计算量也比较大。 典型的方法有线性伸缩( l i n e a rs c a l i n g ) ,d t w ( d y n a m j ct i m ew ar p n g ) 【2 2 4 】 等。 1 5 研究内容及结构安排 本文所有研究均基于盛大2 0 儿年5 月开源的盛大哼唱检索系统,利用现有 的开源盛大哼唱检索系统平台进行测试和进一步的研究。本文主要研究哼唱检索 中的关键问题,即特征提取、语音增强和特征匹配算法。通过研究国内外关于哼 唱检索的相关资料,分析多种算法,并比较其优劣,选择合适的算法并提出改进。 测试改进后算法对于哼唱检索的效果,并对测试结果进行讨论分析。 本文总共分为六章,各章的内容安排如下: 第1 章是绪论,主要阐述哼唱检索算法的研究背景、课题意义和国内外研究 现状。 第2 章详细分析语音增强模块的两种算法,减谱法和最小均分误差法,比较 第1 章绪论 两种方法的计算复杂度和语音增强功能,并提出基于变参的减谱法。 第3 章对特征提取模块进行研究和改进,提出对特征信息进行归一化处理的 方法,进一步提高检索的正确率。 第4 章详细分析特征匹配算法,并提出基于权值均方的e m d 算法和基于二 维变量的d t v v 算法。 第5 章总结全文的工作,并指出进一步工作的设想。 音频哼唱检索算法研究 第2 章哼唱检索预处理模块的研究 在哼唱系统获取哼唱输入信号的过程中,经常会受到外界环境的影响,使得 哼唱信号中带入噪声,这对特征提取模块的结果造成了一些干扰,也使得特征匹 配检索结果出现误差。因此,在对哼唱信号进行特征提取之前,有必要加上一个 预处理模块,增强哼唱信号的特征,这样可以提高匹配的准确率。 2 1 语音增强算法 2 1 1 语音增强的背景 人们在语音通信过程中不可避免地会受到来自周围环境、传输媒介引入的噪 声、通信设备内部电噪声乃至其他讲话者的干扰。这些干扰最终将使接收者接收 到的语音已非纯净的原始语音信号,而是受噪声污染的带噪语音信号。 环境噪声污染使许多语音处理系统的性能急剧恶化。例如,目前的语音识别 系统大都是在安静的环境中工作的,在噪声环境中尤其是强噪声环境,语音识别 系统的识别率将收到严重影响。低速率语音编码,尤其是参数编码,也遇到类似 的问题。由于语音生成模型是低速率参数编码的基础,当模型参数的提取收到混 杂在语音中背景噪声的严重干扰时,重建语音的质量将急剧恶化,甚至变得完全 不可懂。 在实际需求的推动下,早在上个世纪6 0 年代,语音增强这个研究课题就引 起人们的注意,此后人们一直锲而不舍地进行这方面的研究。数字信号处理技术 的崛起,是语音处理的历史转折点。快速傅里叶变换和线性系统理论的发展催生 了语音发音的模型。 第2 章哼唱检索预处理模块的研究 a v 图2 - 1 语音发声模型 其中a v 和a u 分别表示浊音和清音的激励幅度,用全极点模型( a r a u t o r e g r e s s i v e ) 近似表示声道模型的传输函数v ( z ) 为: y ( z ) = 其中n 是模型阶数,鲰是各阶极点的系数,z 是z 变换域的自变量。此模型 与线性预测编码( l p c l j n e a rp r e d i c t i v ec o d e ) 模型是等价的,可使用快速地推算 法如l e v i n s o n d u r b l n 由输出信号求解模型的系数。 带噪语音的模型为: j ,0 ) = s g ) + d g ) ( 2 2 ) 这里,如) 、s g ) 和d o ) 分别代表带噪语音、纯净语音和干扰噪声。本文对研究的语音增 强模型做如下假设: ( 1 ) 噪声是局部平稳的。局部平稳是指一段带噪语音中的噪声具有和语音段开始前那 段噪声相同的统计特性,且在整个语音段中保持不变,也就是说,可以根据语音开始前那段 噪声来估计语音中所叠加的噪声统计特性。 ( 2 ) 噪声与语音统计独立或不相关。 ( 3 ) 只有带噪语音可以利用,没有其他参考信号。 节 音频哼唱检索算法研究 图2 - 2 语音增强的信号模型 语音增强不但与语音信号处理理论有关,而且涉及到人的听觉感知和语音学 范畴。噪声的来源众多,随应用场合的不同,它们的特性也各不相同。目前,某 些语音增强算法在实际应用中已经证明是有效的,它们大体上可以分成统计方 法、参数方法、基于短时谱估计的方法、基于小波分解的方法。 2 1 2 统计方法 1 、隐马尔科夫模型 图2 3 语音信号增强的隐马尔科夫模型 隐马尔科夫模型( h m m ) 是一种统计分析模型。k yl e e 等用隐马尔科夫模 型来估计隐滤波器( h f m ) 的参数巧1 ,得到较好的增强效果。 2 、人耳掩蔽效应法 人耳有掩蔽效应,即强信号对弱信号有掩盖的抑制作用。掩蔽的程度是声音 强度与频率的二元函数,对频率临近分量的掩蔽要比频差大的分量有效得多。以 对噪声的直接掩蔽为基本思路,以估计得到的掩蔽门限建立一种原则,使增强后 第2 章哼唱检索预处理模块的研究 的语音中残余噪声能量在语音掩蔽门限以下,从而在抑制噪声的同时,又能减少 对语音本身的损伤2 6 1 。 2 1 3 参数方法 1 、时域梳状滤波 语音信号的浊音段具有明显的周期性,利用这一特点,可以采用梳状滤波器 来提取语音分量,抑制一些类似于白噪声的残留噪声2 7 l 。时域梳状滤波器的表达 式为 叠:( f ) = c t 毛( f 一蠕) ( 2 3 ) 式子中:为基音周期;m 为经验常数,通常不大;q 为滤波器系数;毛( f ) 为 语音信号;圣:( f ) 为输出信号。梳状滤波器中,输出信号是输入信号的延时加权平 均值。当延时与语音信号周期一致时,使得周期性的语音信号得到加强,而非周 期性的信号会受到抑制或消除,即梳状滤波对于增强语音中的浊音部分效果较 好。但它的局限性在于要准确地估计出语音的基音周期,这在有噪声的环境下是 一件非常困难的事情,而且这种方法对于清音部分的增强效果不好。 2 、维纳滤波 非因果的维纳滤波器的传递函数表示如下: 日( w ) = 揣 ( 2 4 ) 其中,c ( 代表语音的功率谱,最( w ) 代表噪声的功率谱。维纳滤波的原理图如 下: x u = 3 v l w v y 妒,2j 妒 l h ( n ) l 图2 4 维纳滤波原理图 维纳滤波的增强方法就是基于在假设语音是平稳信号条件下的时域上的最 音频哼唱检索算法研究 小均分误差准则,用观测到的当前工g ) 和全部过去的数据x g 1 ) 、x g 一2 ) 、来估 计当前的信号值而) = j 0 ) 。 3 、卡尔曼滤波器 市噪语文,。、。一 、- 7 j 7 k ( n ) 7 上 ,r jlj hf z l 、 图2 5 卡尔曼滤波器原理图 后的语音 ;g ) 这里使用a r 语音生成模型,设阶数为m ,f 是m m 阶转换矩阵,h 为1 m 观测行向量。k ( n ) 为卡尔曼增益,硇i 刀) 为状态向量七) 的滤波估计,圣g i 刀一1 ) 为 状态向量七) 的最小均分估计。卡尔曼滤波不需要过去全部的观测。它是根据前 一个估计值和最近一个观测值来估计当前;0 ) 。 2 1 4 基于短时谱估计的方法 1 、减谱法 无语音期间纯噪声信号 图2 6 减谱法原理图 1 6 第2 章哼唱检索预处理模块的研究 减谱法假设噪声是统计平稳的,即有语音期间噪声振幅谱的期望值与无语音 期间噪声振幅谱的期望值相等。然后利用加性噪声与语音不相关的这一特点,用 无语音期间测量计算得到的噪声振幅谱的估计值取代有语音期间噪声的振幅谱, 与带噪声语音振幅谱相减,得到语音振幅谱的估计值。当上诉差值得到负的幅度 值时,将其置零。减谱得到的振幅谱和带噪声语音的相位一起进行反f f t 变换, 即可获得增强的结果。 2 、频域最小均分误差法( m m s e ) 图2 7 频域最小均分误差法原理图 最小均方误差法假定纯净语音信号幅度谱服从与瑞利分布、纯净语音信号相 位谱服从均匀分布及带噪语音信号服从复高斯分布,这是一种对特定的失真准则 和后验概率不敏感的估计方法。这种算法的最大优势在于可以做到语音信号可懂 度和降噪比的折中,适用信噪比的范围较广。但是这种算法需要统计各种参数, 算法运算量较大。 2 1 5 基于小波分解的方法 小波分解法是随着小波分解这一新的数学分析工具的发展而发展起来的。这 是一种处理时变非稳态信号的理想工具冽,利用信号在不同尺度上的自相似性来 进行语音增强。 1 7 音频哼唱检索算法研究 带噪 增强 图2 8 小波变换实现语音增强原理图 2 2 哼唱信号的语音增强 2 2 1 语音增强算法的比较 从上述几类语音增强算法的介绍中,每种语音增强算法都有其自身的优缺 点。需要对这几类算法进行分析,得出适合于哼唱系统的语音增强算法。 统计类的方法充分利用了语音和噪声的统计特性,但是需要进行训练建立模 型库。对于哼唱系统来说,事先训练不同环境下模型库的初始统计参数,这明显 是不太现实的,而且统计模型的计算量太大。 参数类的方法极其依赖所使用的语音生成模型,需要准确提取模型参数。如 果实际背景噪声和语音条件与模型有较大的差别,或者提取的模型参数不准确, 会对语音增强的效果产出较大影响。而哼唱系统在实际运用过程中噪声的变化会 比较大,不一定适合于所选用的模型,因此参数类方法不予考虑。 基于小波分解的方法主要利用信号在不同尺度上的自相似性,而哼唱信号的 自相似性并不显著,不适用于哼唱信号增强。 基于短时谱估计的方法具有适应信噪比范围大、方法简单、易于实时处理等, 是应用范围最广泛的语音增强方法。这类方法不需要从带噪信号中估计模型参 数,因此使用范围较广,能适应哼唱系统所可能处于的各种环境。其中主要讨论 减谱法和频域最小均方误差法。减谱法算法较为简单,计算量小,但是在语音增 强过程中经常会带入音乐噪声,需要进行一些改进。频域最小均方误差法计算量 较大,但是滤除后语音的可懂度较强,不过由于是应用在哼唱系统中因此可懂度 不是最大的因素,而更应该关注与检索的准确率。因此,本章对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论