(机械设计及理论专业论文)基于内容的多声道音频检索系统开发.pdf_第1页
(机械设计及理论专业论文)基于内容的多声道音频检索系统开发.pdf_第2页
(机械设计及理论专业论文)基于内容的多声道音频检索系统开发.pdf_第3页
(机械设计及理论专业论文)基于内容的多声道音频检索系统开发.pdf_第4页
(机械设计及理论专业论文)基于内容的多声道音频检索系统开发.pdf_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 现有网上音乐检索局限于类浏览和基于文字的查找功能。为了寻找一首乐曲,用户 必需准确地知道标题、作者、演奏家或者其他相关的文字描述,否则就只能花费大量时 间,逐一浏览这个音乐分类下的所有乐曲。这种基于文本的信息检索方式,脱离实际音 乐检索需要很远。例如哼起一首歌曲的主旋律却想不起歌名,很难通过传统的方法来找 到乐曲。这就需要通过对音乐本身特征的识别,实现基于内容的音乐检索。 近年来,基于内容的音频检索技术成为热点课题,对单声道音频的旋律特征提取算 法,国外不少研究机构已有卓越贡献,并开发出基于音频感知特征的音频检索商业化引 擎。我国港台地区学者改进国外已有理论和方法,取得进展。国内相关研究项目也不少, 其成果比国外和港台同类研究还有差距。 本论文工作内容是多声道音频的基于内容的旋律识别与检索。单声道的m i d i 文件 可以按时间延续信息按顺序提取,多声道的m i d i 音乐文件的处理则要复杂的多。在乐 理知识基础上分析多声道音频的旋律特征识别、表达方式,改进提取算法,适应多声道 处理。设计面向多声道m i d i 格式文件作为音乐旋律的数据源,构建基于内容的音频检 索系统,通过人的哼唱即可检索乐曲。另外,还探索了w a v 格式音乐旋律的数据源的系 统。 设计的有效性已通过原型系统实验室运行证实。 关键词: 旋律,哼唱检索,多声道,基于内容的音频检索 a b s t r a c t a b s t r a c t c u r r e n t l y , w e bm u s i cr e t r i e v a li sc o n f i n e di nc a t e g o r i z e ds c a n n i n ga n dt e x tb a s e d s e a r c h i n g t of i n das o n g ,t h eu s e rh a st ok n o was e r i e so fi n f o r m a t i o na b o u ti t st o p i c , c o m p o s e r , a n dp e r f o r m e r o t h e r w i s e ,i tc a nb ee x p l o r e dt e d i o u s l ya l o n gt h ec a t e g o r y s u c ha t e x tb a s e dr e t r i e v a lt e c h n o l o g yi sf a rf r o ms a t i s f a c t o r yf o rm u s i cs e a r c h i n g f o re x a m p l e ,i t w o u l db ee x t r e m e l yd i f f i c u l t ,i fo n ew a n tt of i n das o n gb yg r o a n i n gi t sm e l o d y t h u s ,t h e m u s i cr e t r i e v a ls h o u l db ec a p a b l eo fr e c o g n i z i n ga n de x t r a c t i n gt h ea u d i of e a t u r e so fm u s i c n a m e l y , t h er e t r i e v a lt e c h n o l o g yi st ob ei m p r o v e df r o mt e x t b a s e dt oc o n t e n t - b a s e d i nt h er e c e n ty e a r s ,c o n t e n t - b a s e dm u s i cr e t r i e v a la t t r a c t e de x t e n s i v es t u d y f r u i t f u l r e s u l t si na l g o r i t h mf o rs i n g l e c h a n n e lm e l o d yf e a t u r e se x t r a c t i n gw e r ea p p e a r e di nf o r e i g n l i t e r a t u r ea n dr e l e v a n tr e t r i e v a ls o f t w a r ew a sa v a i l a b l e r e s e a r c h e r si nh o n ek o n ga n d t a i w a nd i s t r i c t sc o n t r i b u t e di nt h i sa r e ab yi m p r o v i n gt h e s et h e o r ya n dm e t h o d q u i t ea n u m b e ro fd o m e s t i cr e s e a r c hw o r k sw e r ea l s or e p o r t e d b u t ,t h e r ei ss o m ed i s p a r i t yi n c o m p a r i s o n 、 ,i mt h el e v e la l r e a d ya c h i e v e d w o r ko ft h et h e s e si sm u l t i c h a n n e lm u s i cm e l o d yf e a t u r e s r e c o g n i t i o na n de x t r a c t i o n s i n g l e - c h a n n e la u d i oi n f o r m a t i o nc a nb e e x t r a c t e ds e q u e n t i a l l y b u t , i ti sm u c hm o r e c o m p l i c a t e df o rm u l t i c h a n n e lo n e s b a s e do nm u s i ct h e o r y , r e p r e s e n t a t i o no ft h em e l o d yi s a n a l y z e da n de x t r a c t i o nf o rm u l t i - c h a n n e lt h ea l g o r i t h mi s m o d i f i e d am i d if o r m a t m u l t i c h a n n e lm e l o d yd a t a b a s ei sd e s i g n e dt oe s t a b l i s hc o n t e n t b a s e da u d i or e t r i e v a ls y s t e m t h em u s i cq u e r yc a nb er e s p o n d e db yh u m m i n g ( q b h ) aw a vf o r m a td a t a b a s es y s t e mi s a l s op r o p o s e d v a l i d i t yo ft h ed e s i g n e ds y s t e mi sv e r i f i e db yl a b o r a t o r yt e s t - r u no ft h ep r o t o t y p e k e y w o r d :m e i o d y 。o u e r yb yh u m m i n g ,g u i t i c h a n n e i c o n t e n t b a s e da u d i 0r e t r i e v a i i l 关于硕士学位论文使用授权的说明 论文题目:堡盥室险童壹鱼握盘盏生堑立定 本学位论文作者完全了解大连工业大学有关保留、使用学位论文的规 定,大连工业大学有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅,可以将学位论文的全部或部分内容编入有 关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学 位论文,并且本人电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 是否保密( 磊) ,保密期至年 月日为止。 学生签名:重盎幽垦:导师签名:量煌 罗年月罗e l 第一章绪论 1 1 研究背景和意义 第一章绪论 音乐作品是人类的宝贵财富。世上不接触音乐的人大概是没有的,无论是伟人、名 家、还是普通人。周恩来总理在弥留之际还在低吟国际歌。爱因斯坦曾幽默地把音 乐列为自己成功的“三大秘诀 之一。司机们通过收音机里的音乐消除驾驶的疲劳;农 民们在田间、地头会不由自主地哼唱山歌、小调;孩子们在轻柔的摇篮曲中进入梦想。 千百年来积累下来的音乐作品是一个巨大的资源宝库,如何开发利用好这个宝库,是人 类的共同梦想。数字采样技术的出现,为传统的音乐作品存储媒介的保存问题提供了一 个解决办法,使大量以磁带和老式唱片保存的音乐作品的数字化保存成为可能,这些音 乐作品的数字化保存将加快数字音乐信息数量的增长速度。 此外,数字采样技术的出现,给音乐这种艺术形式注入了前所未有的活力。使用数 字采样技术得到的数字音乐保真度极高,因此它一出现就受到了音乐家和音乐爱好者的 青睐,软件开发商也不失时机地推出各种各样的数字音乐格式。在这种形式下,一方面, 数字音乐完美的声音质量大大的激发了音乐家的创作激情,新的以数字音乐形式出现的 音乐作品不断涌现;另一方面,随着音乐爱好者需求的不断增长,出版商也在大量的出 版数字形式的音乐作品。这就使得数字音乐的绝对数量在短时间内飞速增长。随着因特 网出现和普及,网络上的各种各样的数字音乐数据库也大量涌现。传统公共图书馆馆藏 中的数字音乐作品的数量在逐渐增加,音乐专业图书馆馆藏中的数字音乐作品的数量就 更多了。 数字音乐信息数量的迅速增长对数字音乐信息的检索方法提出了新的要求。计算机 领域和信息管理领域的学者们也意识到了这一点,寻求数字音乐信息有效检索方法的研 究工作已经在很多国家开展起来了。 国内外的学者们从音乐内容的角度出发,希望能够用音乐信息的内容特征来对数字 音乐信息进行检索。国内专业音乐教学研究机构和音乐图书馆馆藏有大量用磁带和老式 唱片保存的各种各样的音乐信息,对这些信息进行数字化保存的需要非常迫切,同时也 需要有效的数字音乐信息组织工具来对这些宝贵的资料进行管理。 传统的音乐信息检索主要是基于文本的,需要首先通过人工来输入音乐的属性和描 第一章绪论 述,但这些检索都是针对音乐外部特征的,其缺点是:当数据量越来越大时需要增加人 工注释的强度;而对于音乐本身的一些内部特征如旋律、音调、音质等,人们可以很好 地感知,但难以用文字来表达清楚。所以,传统的通过文本描述来匹配检索的方式已经 远远不能满足音乐资源的检索需要。而通过对音乐本身特征的检索也就是基于内容的检 索,就成为目前音乐检索研究的重点。 1 2 基于内容的音频检索技术的研究现状 基于内容的音频检索是一个新兴的研究领域,在国内外仍处于研究、探索阶段。音 频信号包括语音和非语音( n o n s p e e c h ) 两类信号。一直以来,音频信号的处理主要集中 于语音识别、说话者识别等语音处理方面的研究。基于内容的音频信息识别技术的研究 还不多。如何提取音频中的结构化信息和内容语义,使得无序的音频数据变得有序,是 基于内容的音频检索技术能否得以实用的关键所在。只有在基于音频物理特征的识别技 术方面有所突破,才可能在更高层次的基于知识辅助的音频检索方面做出更深入地研 究。 国外研究机构对音频检索进行了多方面的研究。m u s c l ef i s h 1 j 是一个商业化的基于 音频感知特征的音频检索引擎。c a r n e g i em e l l o n 大学的i n f o r m e d i a l 2 】项目结合语音识别、 视频分析和文本检索技术支持视频广播的检索。c a m b r i d g e 大学的v m r ( 视频邮件检索) 小组【3 】利用基于网格的词组发现技术检索视频邮件中的消息。m a r y l a n d 大学的 v o i c e 研a p h 【4 】结合基于内容和基于说话人的查询,检索已知的说话人和词语,并设计了 一种音频图示查询接口。s p e e c h s k i m m e r 5 】是一种音频交互接i i i ,它以层次结构构造出 音频文档的“鱼饵 试图。m c n a br j 等1 6 1 研究了音乐曲调和旋律的检索。另外,m i t t 7 】、 c o m e l l 大学、南加州大学【8 】、澳大利、- i e w o l l o n g o n g 大学、欧洲e u r o m e d i a 和e u r o c o m 的语音和音频处理小组等研究机构分别开展了用子词方法进行语音检索、通过哼唱查 询、音频分类、结构化音频表示和基于说话人的分割和索引等方面的研究。 我国在这方面也进行了相应的研究。上海交大图书馆开发了一个基于内容的音乐检 索系统,其目的是建立一个数字音乐图书馆的原型体系结构,创建一个音乐数据库的旋 律检索系统,使非音乐专业人员可以方便的采用常规方法和基于音乐内容即旋律的检索 方法在网上进行乐曲的检索,使得专业人员可以用乐句进行全曲检索。数据库中收录的 乐曲以m p 3 格式存储,为已有的音乐文件录入相应的乐谱,建立乐谱数据库。该系统 通过w e b 浏览器提供检索服务,用户在检索的时候输入要检索的乐曲的简谱片段作为 2 第一章绪论 检索提问式,对命中的检索结果可以下载试听,同时可以看到它的五线谱。 近年来,国内对数字图书馆的研究项目如雨后春笋不断涌现,但是以音乐或数字音 乐为馆藏的数字图书馆却是少之又少。和国外的大型数字音乐图书馆项目比起来,上海 交通大学图书馆的基于内容的数字音乐检索系统就显得有些单薄了。 台湾的辅仁大学、新竹清华大学以及香港大学的研究者都在基于旋律的音乐检索方 面作了一些研究,使用的基本上是国外同行们常用的一些理论和方法,在有些方面提出 了自己的独到的见解,并进行了一些尝试,取得了一定的效果。大陆地区的相关研究只 有前文提到的上海交通大学图书馆的基于内容的音乐检索项目和国家教委博士点人文 社会科学研究项目多媒体数字化图书馆的标引与检索技术研究。由于开始此方面研 究较晚,其研究方法和使用的技术还处于起步阶段。 1 3 本论文的主要研究内容 本文旨在研究面向多声道的基于内容的音频检索技术。我们可能都有过这样的经 历,嘴边哼起了一首歌曲却想不起歌名、歌词,有时碰巧在电台听到一首好听的歌曲, 但是却错过了播报歌名。碰到这种情况,大家就很难通过歌名、歌词这些传统的方法来 找到歌曲。但是如果能够通过声音来查询乐曲,那样就可以解决问题了。近年来,基于 内容的音频检索技术的研究成为音频检索技术的热点课题,对单声道音频的旋律特征提 取算法作了较深入的研究。本文在分析音乐旋律表达的基础上,研究多声道文件的旋律 特征,提出了多声道文件的旋律提取方法,设计完成了面向多声道m i d i 格式文件的基 于哼唱的音频检索系统,通过用户哼唱对多声道音频文件进行音乐的检索。 本文工作内容包括以下几个方面: ( 1 ) 以乐理知识为基础,识别提取片段旋律的特征; ( 2 ) 多声道音频文件的旋律识别和特征提取; ( 3 ) w a v 格式音频文件的旋律识别和特征提取; ( 4 ) 构建基于内容的音频检索实验原型。 3 第二章基于内容的音频检索 第二章基于内容的音频检索 2 1 基于内容的音频检索模型总体设计 基于内容的音频检索模型由三部分组成:哼唱旋律特征的提取和表达、给定音频文 件旋律特征的提取和表达、旋律特征的匹配检索。检索模型如图2 1 所示: 哼唱输入 一 主 预处理 广一 童 特征提取 工 特征表示 相似性匹配 结果输出 多声道m i d i 、w a v 原始数据库 多声道音频 旋律特征提取 多声道m i d i 、w a v 特征存储库 图2 - i 基于内容的音频检索模型总体设计 f i g 2 - ld e s i g no fc o n t e n t - b a s e da u d i or e t r i e v a lm o d e l 录音的输入为任意形式的单声道音频,录制音频信号采样率为8 0 0 0 h z ,1 6 b i t 。本 系统要求用户以“d a d a 声哼唱。 2 1 1 哼唱旋律特征的提取和表达 哼唱部分的旋律特征提取和表达由哼唱输入、哼唱预处理、音符的切分、旋律特征 4 第二章基于内容的音频检索 提取、旋律特征表达这五部分组成。具体流程如图2 2 所示。哼唱输入这一处理模块是 通过麦克风等音频输入设备,把用户的哼唱信号输入计算机,它是以p c m 形式的w a v e 数据流存储的。预处理这一处理模块将用户输入的p c m 信号经过各种信号处理的方法 对信号进行分析处理,去除其中可能的噪音、杂音等。音符切分就是从一段连续的音频 信号中切割出离散的音符。特征提取这一处理模块是将预处理后的音频数据通过一定的 特征提取算法,从中得到所需要的特征信息,例如音高等。这些特征信息一般是数据库 中存储特征类型的子集。旋律特征表达就是表现出旋律的特征。 图2 - 2 哼唱旋律特征提取和表达流程图 f i g 2 - 2f l o wc h a r to ff e a t u r ee x t r a c ta n dp r e s e n t a t i o no fh u m m i n gm e l o d y 2 1 2 基于内容的音频检索系统层次设计 基于内容的音频检索系统分为三个功能模块:检索模块、乐曲库模块和工具模块。 系统层次图如图2 3 所示。 5 第二章基于内容的音频检索 图2 - 3 系统层次图 f i g 2 3h i b e r a r c h yc h a r to fs y s t e m 2 2 基本乐理知识及音频数据分析 音频数据分析和基本乐理知识是基于内容的音频检索技术研究的基础。在这里首先 对基本乐理知识和音频信息特征进行详细说明,然后讨论常用的音频文件格式及m i d i 音频文件格式文件提取音乐旋律的优点。 6 第二章基于内容的音频检索 2 2 1 音乐乐理基础 2 2 1 1 音乐的音高表示一音名 按照音乐理论,在音乐中使用的,有固定音高的音的总和,叫做乐音体系。音乐中 所使用的音,大致在每秒钟振动2 7 4 1 0 0 次这个范围内。乐音体系中的音按照音高次序 ( 上行或下行) 排列起来称之为音列。音列中的每一个音即是一个音级。乐音体系中的 各音级都有着各自的名称,这就是音名。不同国家、不同时期的人们使用的音名各不相 同,比较常用的有三种音名表示方法。 第一种表示法是音乐用音名表示法。人们通常把钢琴上钥匙孔左侧两个黑键下方的 白键称为中央c ,在这种表示法中把这个键的音名叫做小字组c 1 ,即小写的英文字母右 上角加一个数字1 。顺序向音高升高的方向为小字一组的其他音。钢琴有8 8 个键( 5 2 个白键、3 6 个黑键) ,基本上包括了乐音体系中所有的音及其音列。为了区分音名相同 而音高不同的各个音,将音列分成七个完全的组和两个不完全的组:大字二组、大字一 组、大字组、小字组、小字一组、小字二组、小字三组、小字四组、小字五组。 第二种表示方法为声学用音名表示法,是在英文大写字母后面写一个阿拉伯数字来 表示音名。 第三种表示法是键号表示法,就是从钢琴最低音键开始以数字顺序编号,以最低音 键为1 号键,连同白键、黑键,向右顺序排列。用钢琴的琴键来表示音高是因为,一般 来说,各种乐器的基频音高都不会超过这个范围。 2 2 1 2 国际标准音高 各个国家在各个时期使用的标准音及其音高都不相同。1 8 3 4 年,德国斯图加特地方 物理学家聚会,把a 1 定为4 4 0 h z ,称为第一国际音高,也叫斯图加特音高。1 8 5 9 年, 法国巴黎的“音乐家与物理学家委员会 把a 1 定为4 3 5 h z ,叫做法国音高,也叫第二国 际音高或者巴黎音高。1 9 3 9 年5 月,英国伦敦召开了国际会议,又恢复了第一国际音高。 现在全世界的音乐作品和乐器都以此作为共同的基准音高。英国的不列颠广播公司 ( b b c ) 和美国的国家计量局( a b s ) 每天向全世界广播a l = 4 4 0 h z 的标准音高。 2 2 1 3 音高的距离一音程及其表示方法 音程就是两个音的音高之间的距离。在音乐上,音程用“度 或者全音、半音来表 示。在音乐声学中,音程用频率比和音分来表示。 ( 1 ) 度与全音半音 7 第二章基于内容的音频检索 按音乐的音名表示法,a 1 和a 2 之间的音程是八度,c 1 与9 1 、d 1 与a 1 之间是五度, 等等。这里说的度,要算上开始的音名。钢琴键盘上相邻的两个键之间相差半音,两个 半音等于一个全音。各种音程与全音半音之间的关系如表2 1 所示: 表2 - 1 度与全音、半音的关系表 t a b l e2 - lr e l a t i o nt a b l eo fd e g r e ea n dt o n e ( 2 ) 频率与音分 科学实验表明:音程每高八度,发生体的振动频率增高为原来振动频率两倍,即 a l = 4 4 0 h z ,a 2 = 8 8 0 h z ,a = 2 2 0 h z 。这样,就把音程和频率联系起来了。把一个八度音程 等比分成1 2 0 0 份,每一份叫做一音分。两个频率f l 和f 2 之间的音程以音分数表示为: 音分数= 1 2 0 0 l 0 9 2 ( 石a )( 2 - 1 ) 因此,音程为八度的两个音之间的音分差为1 2 0 0 音分,音程为一个半音的两个音 之间的的音分差为2 0 0 音分。这样,在表2 1 中加入音分数和频率比两列,就可以得到 表2 2 。 8 第二章基于内容的音频检索 表2 - 2 音程与频率对照表 t a b l e2 - 2c o m p a r et a b l eo ft o n ea n d 仔e q u e n c y 2 2 1 4 律制及其选择 规定音阶中各个音的由来及其精确音高的数学方法叫做“律制 ,律制中的每个单 位叫做“律 。现今世界各国通行三种律制:即纯律、五度相生律和十二平均律,三种 律制在音乐中各有其重要的意义,其中十二平均律因便于移调、转调等原因适应于现代 音乐发展需要,被国际间广泛的采用,并视为一种基础律制。一个八度的音程按等比数 列均分十二份,得十二律,称为十二平均律,其公比为吲2 。因此,十二平均律每相邻 两音之间的频率比为: 石厶= 贬= 1 0 5 9 4 6 3 0 9 4 由公式( 2 1 ) 可以得十二平均律每相邻两音之间音分数为: 1 2 0 0 l 0 9 2 ( 垣) = 1 2 0 0 ( 1 1 2 ) = 1 0 0 9 ( 2 - 2 ) ( 2 - 3 ) 第二章基于内容的音频检索 从f a l = 4 4 0 h z 出发,使用十二平均律可以得到音名与频率之间的对照关系。 2 - 2 2 音频信息特征 声音实际上是人或动物的耳朵对声波的感知的结果。人们主要从三个方面对某个声 源头发出的声音的声学特征进行描述: ( 1 ) 描述声音高低的音高 ( 2 ) 描述声音强弱的响度 ( 3 ) 描述声音质地的音色 这是人们用来对其感知的声音进行描述的主观量。这三个主观量各对应一个客观 量,其中音高对应频率,响度对应声强,而音色对应频谱。这些主观量和客观量之间又 不是一一对应的关系。比如,音高主要和频率有关,频率越高,人们感知的音高就越高, 但是有时声强也会对音高产生影响。再比如,音色除了和频谱有关,还和声音的动态特 性有关。对描述声音的主观量的描述测量主要是通过对描述声音的客观量的测量来实现 的。 在描述声音的这三组量中,音高及频率与音符的高低有密切的关系,而音符是音乐 旋律的基本组成元素,因此数字音乐进行分析的时候,主要关注的是数字音乐信息的音 高信息,也就是频率信息。尽管声强对音高也有影响,但是这种影响可以在录音的时候 由录音师在录音过程中加以消除,所以在进行数字音乐信息的自动分析的时候可以忽略 声强对音高的影响,可以简单地认为,音高是随着频率的变化而变化的。 这里说的频率是一个声源所发出的声音的基频。音乐声不是一个简单的简谐波,而 是一系列简谐波的迭加。在这些简谐波的频率成分中,最低的频率就是基频,又叫基音。 基频与音高基本上是一一对应。如果得到了数字音乐文件的基频随时间变化的信息,那 么就得到了音高随时间变化的信息,也就等于得到了音符随时间变化的信息,即音乐的 旋律。因此,对数字音乐信息进行基于旋律的自动分析的过程,实际上就是提取数字音 乐信息中的基频信息的过程。 2 2 3 常用音频文件格式的比较 ( 1 ) m p 3 格式 m p 3 格式m p e gl a y e r 3 的简写,是指m p e g 标准中的音频部分。m p 3 音频文件采 用有损编码压缩技术,典型的压缩比为1 0 :1 1 2 :1 ,m p 3 的低频部分损失很小,但却以 1 0 第二章基于内容的音频检索 牺牲1 2 k h z 1 6 k h z 的高频部分的质量来换取文件体积的小巧。相同长度的音乐文件, 用m p 3 格式来存储,体积一般只有w a v 格式的1 1 0 左右,当然在音质上也明显比c d 和w a v 格式要差一些。由于m p 3 格式较好地平衡了音质和文件体积之间的关系,所以 在它问世之初就一鸣惊人,迄今为止仍居于音频文件的主流地位,是网络上最为流行的 一种音频文件格式。 ( 2 ) w m a ( w i n d o w sm e d i a a u d i o ) 格式 w m a 是一种非常具有实力的音频格式,它是微软a s f 流媒体音频部分,后台强硬, 音质要强于m p 3 ,要远胜于r a 格式。w m a 的压缩率一般都可以达到1 :1 8 左右,同时 音质的损失很小。 ( 3 ) w a v 格式 w a v 音频文件的扩展名为w a y ,是波形音频文件,是微软公司开发的w i n d o w s 平 台上应用最为广泛的一种音频文件格式,它是无损的。标准格式的w a v 和c d 格式一 样,也是4 4 1 k h z 的采样频率,速率8 8 k h z 秒,1 6 位量化。w a v 格式具有c d 级的音 质,当然也有c d 格式相近的庞大身躯。适用性强、音质好、文件体积大是w a v 格式 音频文件的几个突出特点。由于w a v 格式的音频文件是波形音频文件,不利于基于内 容的音频检索方式。所以,面向w a v 格式的基于内容的音频检索还很少见。 ( 4 ) m i d i 格式 m i d i 格式记录的不是声音波形,而是对乐音的一种数据描述。这种数据描述包括 每一个乐音及和弦音的音高、时值、音色( 何种乐器) 等,好比是指定了具体演奏乐器 及音符的一种特殊乐谱。m i d i 音乐格式的最大有点之一是文件的体积很小,每一分钟 的m i d i 音乐大约只有5 k b 1 0 k b 的数据。m i d i 文件的扩展名是m i d 阳1 。 2 2 4m i d i 格式音频文件提取音乐旋律的优点 通过以上音频文件格式的分析,从提取旋律特征的角度来看,m i d i 格式具有以下 优点。 ( 1 ) 精确度 提取一首音乐的旋律特征,当然希望越精确越好。构成音乐旋律的音符包含音高、 音强和音长三个特征。m i d i 文件对于每个音符的这三个特征都有完全量化的准确描述。 所以从m i d i 文件中提取音乐旋律是十分精确的,可以很好的反映音乐的旋律特征。 ( 2 ) 方便性 第二章基于内容的音频检索 m i d i 文件记录了一系列演奏音乐的指令,只要了解了文件的格式,就可以方便地 将所需要的旋律特征提取出来。 ( 3 ) 通用性 m i d i 通用性很好,适用于各种平台,而且相互之间的转换不难,现在有很多的音 频格式转换工具可以使用。 从上面的分析可以看出,m i d i 文件显然更适合作为提取音乐旋律的数据源。因此, 本论文的基于哼唱的音频检索主要是面向m i d i 格式的,并且是面向多声道m i d i 格式 的。同时本研究对w a v 格式也做了初步尝试。 1 2 第三章哼唱的旋律识别和特征提取 第三章哼唱的旋律识别和特征提取 用哼唱检索音乐是一种友好的基于内容的音乐检索方法,它已经引起了广泛的研究 兴趣,其原理是用户通过麦克风哼或唱出歌曲的某个片段,同时数据库中保存着许多歌 曲的音频特征,通过对用户哼唱的片段提取旋律特征等操作后,与数据库中歌曲的音频 特征进行匹配,最后给出比较类似用户哼唱的片段的若干个歌曲。这种方法相对于人们 所熟悉的用歌曲的名称、演奏者、出版时间等检索音乐的方法更加方便、自然。可以想 象,用哼唱检索音乐具有极其广泛的应用前景,普通用户可以方便地从网上找到自己喜 欢的音乐,在k t v 人们只要哼唱就可以点歌而不需要用歌本,音乐专业人士可以方便 地判断他的创作是否具有新意,版权管理部门可以方便地查出一首音乐作品是否是新 的,用手机点歌也许是它的另外一个应用。 要从用户哼唱的音乐的旋律片段分析得到对应的旋律特征,首先有必要简单了解人 的发声原理【1 1 1 。人发音时由肺部收缩送出一股直流空气,经气管流至喉头声门处( 声门 即声带开口处) ,在发声之初,声门处的声带肌肉收缩,声带并拢间隙小于l m m ,这股 直流空气冲过这很小的缝隙,使声带得到横向和纵向的速度,此时声带间两边运动缝隙 增大( 成年男性开到最大时,截面积约为2 0 m m 2 ) ,声门处压力下降,弹性恢复力将声 带拉回平衡位置并继续趋向闭合,即声带产生振动,而且具有一定的振动周期。由声带 振动激发声道中空气发生振动,并从口和鼻的两处向外辐射产生声音。 3 1 哼唱输入预处理 音频信号往往伴随着各种不同的噪声,这些噪声可能是外界环境因素造成的,也可 能是录音系统本身的某些因素造成的。我们对音频信号进行去噪,目的就是减小噪声影 响,提高信号信噪比。我们在录制哼唱旋律片段时,不可避免的会夹杂一些噪音,而这 些噪音会大大影响我们的后期的处理工作,所以在提取旋律之前,我们需要对哼唱的旋 律片段进行一下预处理。本章采用一段录音为音频例子,此段录音是一名男生用“嗒嗒 嗒 哼唱的“d or em if as o ll as id o ”1 个八度。 ( 1 ) 过零率检测 1 3 第三章哼唱的旋律识别和特征提取 人所发出的声音频率一般合理的范围在8 7 3 1 h z 和7 8 4 h z 之间,大概就是从音高f 2 n g 5 之间。超出此范围的声音波形可以当作噪声过滤掉。所以我们采用过零率检测的方 法滤除噪声。 对于时域离散信号,如果相邻采样具有不同的符号,就称为过零。单位时间内过零 的次数就是该波形的过零率。比如一个正弦信号的频率为f ,取样频率为f s ,则该正弦 波的每个周期内就有f f s 次取样,而每个周期内有两次过零,因此正弦信号的过零率为 z = 2 f f s ( 3 1 ) 所以对于一个声音波形来说如果频率越高,那么其过零率也越高,频率越低则过零 率也越低。利用这个原理我们可以判断出声音波形不同部分的频率高低。 ( 2 ) 中值滤波 中值滤波是一种能有效抑制噪声的非线性信号处理技术。传统的平滑方法是采用低 通滤波器,可以去掉信号中类似噪声的分量。线性平滑是按照信号的频率进行信号的分 离,而非线性平滑是按照信号是平滑的分量还是粗糙的( 类噪声) 分量来分离他们。但 在许多语音处理场合,由于被平滑的数据的类型不同,线性平滑不完全适用。一般的线 性低通滤波器不仅不能有效地平滑,而且会把浊音和清音之间的过度轮廓严重地搞坏。 而中值滤波可以保护信号尖锐的边缘,去除噪声( 如图3 1 所示) ,有效地进行平滑( 如 图3 2 所示) 。 任何一个信号x ( n ) ,可以表示成如下形式:x ( n ) = s 【x ( n ) 】+ r 【x ( n ) 】。式中s i x ( n ) 】是信 号x ( n ) 的平滑部分,而r 【x ( n ) 】是x ( n ) 的粗糙部分。能够把s i x ( n ) 】和r 【x ( n ) 】分离的非线 性特性是x ( n ) 的滑动中值。所谓中值有下述定义: 当l 为奇数时,l 个数x l ,x 2 ,魁的中值就是指按数值大小顺序排列,处于中间位 置的数,它则称为中值。而当l 为偶数时,我们定义两个中间数的平均值为中值。当l 为偶数时,还会有另外一些定义,但由于它们的差别不大,且在大多数适用场合l 都为 奇数的情况,因而我们不再进一步讨论这个问题。我们使用符号m l ( x l ,x 2 ,x l ) 来表示l 个数的中值。例如m s ( 0 ,3 ,4 ,0 ,9 ) = 3 ,m 5 ( o ,6 ,8 ,0 ,1 8 ) = 6 ,m 5 ( o ,4 ,0 , 0 ,3 ) :o ,m 5 ( 0 ,7 ,4 ,0 ,1 2 ) = 4 等等。 长度为l 的滑动中值,具有平滑器所希望的下述特性: m l a x ( n ) 】= a m l 【x ( n ) 】。 1 4 第三章哼唱的旋律识别和特征提取 磊z 如果信号在l 2 个取样内没有其他的不连续性,则中值不会抹掉信号中的不 连续性。 滑动中值象其他非线性处理算法一样,不满足叠加特性,即 m l 0 t x l ( n ) + p x 2 ( n ) 】缸m l 【x l ( n ) 】+ p m l x 2 ( n ) 】。 a 原始语音信号波形 a o r i g i n a ls p e e c hs i g n a lw a v e b 加噪后的原始语音信号波形 b o r i g i n a ls p e e c hs i g n a lw a v ea d d e dn o i s e 毒 c 经中值滤波去噪处理后的加噪语音信号波形 c a d d e dn o i s eo r i g i n a ls p e e c hs i g n a lw a v ed i s p o s e db ym e d i a nf i l t e r 图3 1 中值滤波去噪前后效果比较 f i g 3 1e f f e c to fw i p eo f f n o i s eb ym e d i a nf i l t e r 1 5 第三章哼唱的旋律识别和特征提取 原始信号 线性平滑中值平滑 图3 2 中值平滑与线性平滑效果比较 f i g 3 - 2c o m p a r eo fm e d i a ns m o o t h n e s sa n dl i n e a rs m o o t h n e s s 声音波形经过预处理后抑制和滤除掉了其中的噪声、无声和非典型点,为本文后续 的音符切分、特征提取作好了铺垫。 3 2 音符切分 音符切分就是将去除了噪声无声和非典型点的声音波形切分为一个个片段,每个片 段都包含一个独立完整的音符信息。 声音波形的振幅的大小说明了声音的强度。在数字声音信号处理中用能量来表示, 无声时的波形振幅理论上应该是零,但实际上受各种内部和外部因素,比如用户的环境 背景噪声等的影响会有比较小的振幅出现,有声时的波形振幅就要大得多。这样可以通 过声音波形振幅的大小来判断有声和无声的情况。 用户在通过哼唱输入音乐旋律时,在开始和结束处以及哼唱音符的间隙都可能有停 顿,也就是会夹杂着一些无声的片段。可以先设定一个振幅的阈值,声音波形的振幅大 于这个阈值的为有声,小于阈值的就为无声。这样声音波形的切分信息通过能量检测就 可以得到。如图3 3 所示。 1 6 第三章哼唱的旋律识别和特征提取 a 原始声音波形 a o r i g i n a la u d i ow a v e b 原始声音波形的短时能量分析图 b a n a l y s i sc h a r to fo r i g i n a la u d i ow a v es h o r t - t i m ee n e r g y 图3 3 特定哼唱方式使音符之间产生明显间隔 f i g 3 - 3i n t e r v a lb e t w e e nn o t e sb yh u m m i n gi ns p e c i a lw a y 我们可以看到,用这种方式哼唱,在每个音符的边界之间就可以有明显的间隔,其 振幅下降过程要超过6 0 毫秒以上便于音符的切分【1 2 1 ,这也是为什么采取“d a d a d a 一 的方式哼唱的原因。 3 3 旋律特征提取 在讨论如何进行旋律特征提取之前,首先我们先介绍几个概念: ( 1 ) 什么是基音:指人声带周期振动而产生的基本频率【1 3 】。 ( 2 ) 什么是基音周期:是指声带振动频率的倒数。基音周期是语音信号最重要的 参数之一,它描述了语音激励源的一个重要特征【1 4 】。 ( 3 ) 什么是基音检测:基音周期的估计称为基音检测。基音检测是语音处理中的 一个非常重要的问题,它在有调语音的辨意、说话人识别等方面起非常关键的 作用【15 1 。 ( 4 ) 什么是“短时 处理:语音信号是一种随时间而变化的信号,是浊音激励还 1 7 一谰一一蔓一一一一一 一捌 一一一 一烹一罔瞄, 第三章哼唱的旋律识别和特征提取 是清音激励,浊音的基音周期以及信号幅度等都随时间而变化,此变化又是 缓慢的,而使我们可以认为在一小段时间里,例如l o - - 一2 0 m s 内语音信号近 似不变。于是,可以把语音信号分成一些短段( 或称为分析帧) 来进行处理。 这些短段( 或帧) 具有固定的特性,短段的之间经常有一定的重叠,组合成 一段语音。这种方法称为“短时”处理方法【1 6 1 。 通过以上概念的陈述我们发现,对于哼唱输入的旋律提取也就是对哼唱旋律片段基 音的提取,就是把音符切分出来的每一个音符片段的基音提取出来。最常用的短时基音 周期估计方法有:自相关法和平均幅度差函数( a v e r a g em a g n i t u d ed i f f e r e n c ef u n c t i o n , a m d f ) 基音检测算法。短时自相关函数是语音信号时域分析的重要参量,但其运算量 很大,原因是乘法运算所需要的时间较长。而利用f f t 等算法都无法避免乘法运算。为 了避免乘法,一个简单的方法就是利用差值。与自相关法相比,a d m f 方法具有运算量 小、精度高等有点。 平均幅度差函数是r o s s 等人于1 9 7 4 年提出的【1 7 1 ,其定义为: 为: d l ( 栌专砂矿出叫i ( 3 2 ) 其中s ( n ) 为离散化的语音采样序列。当采用短时处理技术进行加方窗时,式3 - 2 则变 j 一r 一1 d 2 ( 七) = k ( 力+ 七) 一j w ( 刀) l ( 3 3 ) 月= 0 其中s w ( n ) = s ( n ) w ( n ) ,w ( n ) = 厂l ,n - m n - 1 式3 2 均值系数1 n 不影响函数特 to ,其他 性,因此在式3 3 中被省略了。 实际上音高与声音的频率并不成正比关系,而是近似成对数关系。为了描写音高, 一般采用美尔( m e l ) 标度。一个高于听闻4 0 d b 、频率为l k h z 的纯音所产生的音高定为 1 0 0 0 m e l 。虽然音高和频率并不成正比关系,但音高与频率仍然有一一对应的关系,音 乐信号的音高识别,其实质就是音乐信号的基本频率的检测。 1 8 第三章哼唱的旋律识别和特征提取 除了沿用已有的成熟技术之外我们针对哼唱检索对基音提取作了一些改良。通过下 面这个公式,被转换成半音( s e m i t o n e ) 单位,这种音高表示与m i d i 中所采用的完全 一致。式中f r e q 代表基音频率。 3 4 旋律轮廓表示 s e m i t o n e = 1 2 幸l 0 9 2 ( f r e q 4 0 0 ) + 6 9 ( 3 4 ) 在得到了每个音符的基音后,我们就可以来表示每个音符。 绝对音高序列旋律轮廓表示法包含了旋律的准确音高【1 8 1 ,其优点是可以对音乐旋律 进行完全精确的检索。为了理解上的方便和简化计算机的处理,可以采用1 2 8 个梯度来 表达从最低到最高的音高范围,使用的音高符号从低到高依次为:c 、d b 、d 、e b 、e 、 f 、g b 、g 、a b 、a 、b b 、b ,八度音阶从o 到1 0 ,这样整个音高范围就可以用从c 0 到g 1 0 的符号表示。比如民族音乐1 - - 泉映月,其旋律开头部分的绝对音高序列可以 表示为e 5 g b 5 d 5 d 5 e 5 g m 5 a 5 8 5 a 5 。它的不足之处:首先,它要求检索者非常准确地把 握此旋律的音调和音高,这种方式对于音乐知识不丰富的一般检索者来说是比较困难 的。其次,不同的演奏者、不同的乐器在演奏时其调号可能会发生改变,尽管此时音乐 的旋律还是一样的,但由于其音调不同,所以基于绝对音高的音高序列就是完全不同的, 这将导致检索的失误。 所以,我们采用相对音高序列的旋律轮廓表示方法,这就是采用p a r s o n s 表达法对 音乐的旋律音高进行处理转换【1 9 1 。p a r s o n s 表达法用“毒”表示音高序列的开始,然后依 次将序列的后一个音高同前一个音高进行比较,分别用“u “d ”“r 三个参数来表 示音高的升高、降低和相同三种情况。该方法的优点在于非音乐专业人员,即使其给定 的拟声查询不是很准确,相对序列旋律轮廓也可以有效地解决绝对音高序列旋律轮廓的 不足。 经过以上旋律轮廓转换工作后就完成了从用户哼唱输入的旋律片段中提取出旋律

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论