(通信与信息系统专业论文)关于音乐的检索研究基于旋律的哼唱音乐检索.pdf_第1页
(通信与信息系统专业论文)关于音乐的检索研究基于旋律的哼唱音乐检索.pdf_第2页
(通信与信息系统专业论文)关于音乐的检索研究基于旋律的哼唱音乐检索.pdf_第3页
(通信与信息系统专业论文)关于音乐的检索研究基于旋律的哼唱音乐检索.pdf_第4页
(通信与信息系统专业论文)关于音乐的检索研究基于旋律的哼唱音乐检索.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(通信与信息系统专业论文)关于音乐的检索研究基于旋律的哼唱音乐检索.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 近年来,随着多媒体及网络技术的飞速发展,多媒体信息的数据量急剧的增多, 人们已经不能满足于通过歌名、歌词、演唱者等信息进行的文本检索。特别是当人 们只记得歌曲的某一旋律片段时,如何快速的通过音乐旋律来检索相关音乐就成为 了现在急需要解决的问题。 基于旋律的哼唱检索技术现已成为当今的研究热点之一,但直到现在它还没有 被广泛的推广起来。这主要是因为,现在大多数的哼唱检索系统都是基于对m l d i 音频文件的检索,并且对哼唱者及哼唱环境有着严格的要求。在现实生活中,人们 接触到的都是m p 3 格式、w m a 格式及w a v 格式的音乐文件,m i d i 格式的音乐文 件少之又少,因此如何对m p 3 等格式的音频文件进行哼唱检索,并且哼唱条件适用 于普通大众,这就是本文解决的问题。针对上述要解决的问题,本文主要做了如下 几方面的工作: 1 ) 通过对声音特征参数的分析,从中选出决定乐曲主旋律特征的参数。这一特 征参数要满足:不管什么人、用什么样的方式演唱,只要音调相同,特征参数就要 相同。 2 ) 由于本文要检索的是带有背景音乐的音频文件,因此本文通过对常见音符音 高值算法的分析研究,提出了一种新的音符音高值算法。这种算法不但计算量小, 同时也降低了背景音乐对检索工作造成的困扰。 3 ) 通过对音阶与音高间存在的特定关系的分析,在常见的旋律匹配算法的基础 上,针对它们各自的优缺点提出了一种改进的字符串匹配算法,进而提高了匹配检 索的准确度。 4 ) 最后在上述分析的基础上,实现了在普通环境下对m p 3 、w a v 等不同格式 的音频文件的哼唱检索,并对多种不同的情况进行了仿真实验比对及结果分析。 关键词主旋律特征;基音提取;音符切分;旋律匹配 河北科技大学硕士学位论文 a b s t r a c t i n 陀c e n ty e a r s ,谢t ht l l em p i dd e v e l o p m 明to fm u l t i m e d i a 锄dn e t w o r kt e c l l i l o i o 烈 m u l t i m e d i ai n 内册a t i o nd r 锄a t i c a l l yi n c r e 嬲e dt 1 1 e 锄o u n to fd a i ti sn o te n o u g l lt o p a s si n f o m a t i o ns u c h 觞s 0 n gn 锄舱,t l l el y r i c s ,m es i n g e rf o rt e x t 粥t r i e v a l e s p c c i a l l y 、讪p e 叩j e0 n l yr e m e m b e ram e l o d i cf r a g m e n to fs 0 n g ,h o wq u i c l ( 1 yr e l 五e v e 托l a t e d m u s i ct 量l r o u 曲t l l em u s i co ft 1 1 e r ew 觚锄u 娼e n tn e e dt or e s o l v et l l ep r o b l e m h u r r 肺i n gr e t e 训m e l o d y - b 勰e dt e c h n 0 1 0 9 yh 懿n o w b e c o m e0 n eo ft 1 1 eh o tt o p i c s o ft o d a y ,b u tu n t i ln o wi th a sn o tb e e n 、i d e l yp r o m o t e d t i l i si sm a i l l l yb e c 砒i ,m o s to f t l l eq b hs y s t e m sa r ec l | r r e n t l yb 笛e do nt h em i d i 踟d i of i l er e 试e v a l ,a n dh 鹤矧c t 托q u i r e m e n t so nt l i eh 咖i n g 锄dh u m m i n ge n v i r o 啪e n t i n 舱a i1 i 危p e o p l ea r e e x p 0 dt 0a r em p 3f b m l a t 锄dw a vf 0 册a t ,w m af 0 咖a tm u s i cf i l 鹤,v e d ,l i 砌em u s i c 证m i d if o m a tf i l e s ,s 0h o wt 0h u m m i n gt 0r e t r i e v et h e 卸d i of i l ef o 锄a t s 眦c h 丛m p 3 , 锄dh 眦u n i n gc o n d i t i o n ss h 出ja p p l yt 0t h eg e n e r a lp u b l i c ,廿l i si s t l l ep r o b l 锄o ft l l i s a n i c l e p r o b l e m st 0b es 0 l v e di nv i e wo ft 1 1 ea b o v e ,t l l ea n i c l ed ot h ef o l l o w i n gw o r k : 1 ) t h r o u g i lt 0m e o u s t cf e a t u r ep 嬲珊e t e r 锄a j y s i s ,c h 0 0 s em ed i s i o nk e y m e l o d yc h a r 孔t e r i s t i cp a r a m e t e r s t h i sp a 豫m e t e rt 0s a t i s 母:n on 斑t t e rw h o w i 也w h a t 罩( i n do fm e a j l st 0s i n l o n g 鹳t l l es 锄et o n e ,c h a m c t e r i s t i cp 猢e t e rw i l lb et l l e s 锄e 2 ) b e c 锄o f t h j sa n i c l ei st ob er e t r i e v e d 澌n lt l l e 叫d i o6 l ef o rt l l eb a c k 伊。啪d m l l s i c ,t i l i sa r t i c l et h r o u g hm es t i l d yo fc 0 m m o nn o t e sp i t c ha j 9 0 r i t l l m ,p r o p o s e da d i f 诧r e n tn o t ep i t c h 山g o r i t i l m t h i sa j g o 打t h mn o to n l ys m a l l 锄。明to fc o m p u 伽o n ,b u t a l r e d u c e st l l ep r o b l e mo f b k g r o 岫dm u s i ct or e 砸e v ew o r k 3 ) t h r o u g l lt l l e 觚a j y s i so f t l l ep 砌c i s er e l a t i o n s h i pb e t v v 优ns c a l 鹪锄dp i t c km e l o d y m a t c ha 1 9 0 r i 蛔i nc o m m o no n 也eb 弱i s f o rt h e i r 代s p e c t i v ea d v a 眦a g e s觚d d i s a d 啪t a g 髓p 陀n t e d 锄i m p m v e d 甜g o r i t i l mf o rs t r i n gm a t c h i i 培,m e r e b yi m p r 0 v i n g m em a t c l l i n g 觚:c u r a c yo f 州e v 对 4 ) f 铀出l y ,仰t 1 1 eb 淞i so f t l l ed b o v e 锄甜y s i s ,i i n p l e m e n t e di nt l l eg e n e r 出c o n t e x to f m p 3 ,w a v 觚do t l l e r 踟【d i of i l e si nd i 脆陀n tf 0 咖a t sh u m m i n g 形t r i e v a l 锄ds i m u l 撕 o fm 锄yd i 疏咖te x p e r i m 锄t s 卸dr e 跚l t s 锄a j y s i s k 吖w o r d s c 1 1 a m c t e s t i c so ft l l e m a j n 1 e m e ;p i t c he x 妇c 6 0 n ;n o t e 肿曲t 撕o n ; m e l o d ym a t c h i n g n 第l 章绪论 第1 章绪论 1 1课题研究意义及应用前景 随着现代信息技术,特别是多媒体技术和网络技术的快速发展,文字、图像、 视频、音频等多媒体数据量急剧增多,人们能够更加方便快捷的接触到多媒体,此 时人们面临的不是缺少多媒体数据,而是如何方便、自然、迅速、准确地找到自己 想要的信息成为迫切需要解决的问题。 通常的信息检索( i n f 0 肌a t i o nr e t r i e v a l ,i r ) 研究主要是基于文本对象的,现在 已经发展的非常成熟,比如我们非常熟悉的谷歌( g o o g l e ) 、雅虎( m o o ) 和百度 ( b a i d u ) 等搜索引擎,它们只需用户提供一些所需的关键词,就可以检索到与之相 关的信息文档。但是基于文本对象的信息检索对于多媒体信息的查询有着很大的局 限性:传统的基于文本的检索方法,是通过人工对所需的信息进行描述以及分类。 这样不但很难完整的用文本信息描述出多媒体数据丰富多变的内容,而且人工生成 文本索引既费时又费力,同时也缺乏统一的描述标准。 音乐检索技术【l 】最开始也是始于文本检索的,通过输入指定的歌曲名称、演唱者 姓名及相关歌词等歌曲的文本信息进行检索。但是,人们有时嘴里哼唱着一首曲子, 能记得歌曲的某些片段却不记得歌词以及演唱者等歌曲的文本信息( 这是因为音乐 的内容是人们记忆中的第一位信息,而附加的文字则为第二位信息;其次因为音乐 旋律给人们留下的印象更加的深刻、更加的稳定,使人们不容易忘记) 。这种情况下 如果采用文本搜索技术,就无法找到目标歌曲,而采用哼唱音乐检索技术就可以有 效的解决上述问题。它利用音乐的音符、节奏、旋律、歌曲风格等语义级的特征或 者声学层特征从数据库中检索歌曲,用户只需要使用麦克风将音乐片段“哼 给电 脑“听 ,电脑就可以根据哼唱的内容来查找目标音乐。 自2 0 0 6 年以来,哼唱检索已经成为美国伊利诺斯大学负责主办的国际音乐信息 检索评测比赛( m i r e x ) 的测评项目之一【2 j ,由此可见,“哼唱音乐检索 具有极其 广泛的应用前景: 1 ) 在日常生活中,人们通过哼唱检索系统只需哼唱歌曲的一小段就可以快速的 从网上找到自己想要的音乐,这样即使不记得歌名、歌词等文本信息也一样可以实 现音乐的检索。 2 ) 去k t v 唱歌是人们日常生活中非常常见的娱乐方式,在成千上万首歌曲中 点歌或在不记得歌名的情况下点歌是既费时又费力的,如果使用哼唱检索系统,人 们只需哼唱歌曲中的某一小片段,电脑就能快速的返回一个候选歌曲的列表,这样 的点歌方式就简单方便多了。 河北科技大学硕士学位论文 3 ) 手机已经在不知不觉中成为人们日常生活中不可缺少的通讯工具了,利用手 机进行哼唱点歌也将成为一种新的潮流。 4 ) 利用哼唱检索系统,音乐创造者可以通过哼唱比对知道自己的创作是否与众 不同。 5 ) 利用哼唱检索系统,版权管理部门可以查出一首音乐是否存在盗版侵权。 因此,基于旋律的哼唱音乐检索的研究,具有非常重要的实用价值,同时也是 一个富有挑战性的研究领域。 1 2 国内外研究概况 基于哼唱的音乐检索技术的研究工作是从上世纪九十年代中后期开始的1 3 ,4 】。近 年来,它已经成为国内外研究的热点问题之一,引起了众多研究机构以及学者们的 重视。 对哼唱检索技术的研究最早始于g h i 硒,g h i 觞在1 9 9 5 年对单声部的m i d i 音乐 的哼唱检索技术进行了开创性的研究【卯,他使用字符来表示前音符与后音符之间的音 调高低变化,用( u ,d ,s ) 来表示音符音调的高低起伏,其中用字符u 表示后一 音符的音调比前一音符的音调高,用字符d 表示后一音符的音调比前一音符的音调 低,用字符s 表示前后音符的音调一样,从而可以用字符串形式来表示旋律的轮廓。 采用时域自相关的算法从哼唱输入中提取音高信息,然后使用字符串近似匹配的方 法实现对单声部m i d i 音乐的哼唱检索。随后,哼唱检索技术引起了广大学者的关注, 新的研究成果不断涌现。 m c n a b 等人第一次将哼唱检索技术引用到了互联网检索中,他们这一研究对网 络中的哼唱检索做了开创性研究【6 7 】,他们通过设置客户端采集查询信号,然后将采 集到的数据传送到服务器端进行相关处理,以音符作为匹配的对象,采用d ) ,1 1 锄i c p r o g r a m m i n g 近似匹配符号串来进行哼唱检索的操作。 音符分割是一个很容易出错的步骤,台湾清华大学的张智星【8 9 】为了避开这一过 程,采用通过时间上限来定音符,以l 1 6 秒为一音符来进行取旋律信息的提取,然 后采用分级过滤的算法对提取出的音高进行处理,这样首先就能排除掉一部分候选 音乐,然后采用d n v ( d ) r i l 锄i c1 - 蚰ew a 巾i n g ,动态时间归整) 算法进行精确的旋 律特征匹配。这种方法防止了音符分割中出现的错误,降低了旋律匹配的错误率, 但同时也加大了匹配的时间。要求用户必须从歌曲的开头开始哼唱的条件下,在存 有3 0 0 0 首歌曲的音乐数据库中采用这种方法进行哼唱检索,检索结果的前三位命中 率达到了6 8 。 随后,多个学者通过用音高与音长的变化来描述乐曲的旋律,来进行哼唱检索 研究,并取得了一定的研究成果。微软亚洲研究院的卢烈i 唧,采用两次筛选的方法 进行哼唱检索,首先通过提取乐曲信息的三元组( 音高轮廓、音高变化、音长) 作 2 第1 章绪论 为旋律的特征向量,然后采用动态规划的方法对音高轮廓进行粗略比对,这样就能 首先排除掉一部分非常不匹配的音乐;之后再通过音高的变化和音长的精细比对, 确定出最终的输出结果,在对存有l o o o 首歌曲的音乐数据库进行的哼唱检索中,检 索结果的前三位命中率达到了7 4 。t 0 mb r o n d s t e d 等】采用音长变化( 变长、变短、 不变) 与音高变化( 升高、降低、不变) 来同时描述旋律特征,要求用户以“b a b a b a 的哼唱方式进行哼唱输入,并且要求整小段的哼唱,在存有3 9 9 2 5 首歌曲的乐曲数 据库中检索,检索结果的前5 位命中率达到了7 5 6 。k o s u g i 等1 1 2 】也提出了一种同 时考虑音高与音长的哼唱检索方法,该系统命名为s o u i l dc o m p 鲳s ,要求用户必须在 节拍器的伴奏下进行哼唱录入,在对存有1 0 0 0 0 首歌曲的乐曲数据库进行的检索中, 检索结果的前5 位命中率达到了7 5 。 中国科学院声学研究所的李明1 1 3 1 ,采用旋律因子位置关系投票机制,找到旋律 可能出现的位置,在这些旋律定位的点上,采用音高轮廓的旋律匹配方法筛选出最 有可能的旋律片段,然后采用d t w ( d y n 锄i cn m ew a r p i n g ,动态时间归整) 的旋 律匹配方法进行精细的匹配,最后整合相似度找出相应的音乐。 上海交通大学的李扬、吴亚栋、刘宝龙提出了一种近似旋律匹配的线性对齐匹 配法【1 4 l ( l i n e 缸a l i 印m e n tm a t c h i n g ) ,简称为l a m 算法,该算法强调了音乐的节奏 性,首先把两段旋律在时间轴上线性延展到相同长度,并在一定的误差范围内对齐 接近的音符,考虑旋律的节奏的相似性,然后比较这两段等长音乐的每对音高的距 离。最后,综合考虑节奏和音高两方面的相似程度,找出匹配的最大值。上海交通 大学的刘宝龙【 】还提出了一种以音高和音长为特征向量,基于隐马尔可夫模型的匹 配方法。根据他们提供的实验数据,这两种算法的检索结果的前三位命中率分别达 到了9 0 3 与9 0 。 浙江大学的冯雅中、庄越挺、潘云鹤将神经网络的概念引入到了哼唱检索中, 提出了一种启发式的哼唱检索音乐的层次化方法i i6 j 。首先他们在对音乐库做了统计 分析的基础上,总结了一些启发式的规则,帮助对哼唱输入进行基音检测、音符切 分,哼唱输入信息表达为音高轮廓图和节奏,音乐库中的音乐按音乐的节奏类型分 为不同的节奏区域,并从每首音乐中抽取旋律轮廓图和节奏信息,用递归神经网络 记忆旋律轮廓,音乐库的索引是神经网络的权值矩阵,将哼唱输入与音乐库中的音 乐匹配的过程就是计算神经网络的输出过程。据研究者提供的实验数据,检索结果 的前十位的命中率达到了8 9 。 通过对哼唱检索国内外研究概况的了解发现,上述几种情况的前三位命中率有 的都达到了9 0 ,但哼唱检索并没有被广泛的推广起来。这主要是因为绝大多数的 哼唱检索系统给出的命中率大多都是在实验条件比较苛刻的条件下得出,这就说明 命中率大小与实验环境和条件关系较大,故所得到的命中率数据难以说明问题。比 3 河北科技大学硕士学位论文 _ _ _ l 自l ;_ - | 口目i _ _ 2 目# i - l _ 目# = l ;= = = = 目目目= ,目= 目_ - _ _ _ i 目= l _ l l e :| _ 自_ - _ _ 自l 如:有的要求用户必须在一个节拍器伴奏下哼唱、有的要求在安静的室内( 录音棚) 进行哼唱、有的要求用户必须从乐曲的开头哼唱等等,这样的条件显然太苛刻,不 适合普通大众使用。百度原本预计在2 0 1 0 年下半年推出哼唱检索系统,但直至现在 其入口位置还不明确,还一直在进行内部的调试,并没有被广泛的推广出来。 1 3 存在及要解决的问题 虽然哼唱检索研究取得了一定的成果,但还存在着很多的问题: 1 ) 以往的哼唱检索大多数都是基于对m l d i 格式的检索,它只需对哼唱输入进 行旋律特征提取,就可以与m i d i 格式中自带的旋律特征进行匹配运算。但随着现代 技术的发展,在网络上以及我们现实生活中所听到的音乐绝大多数都是m p 3 、w a v 格式,m i d i 格式的音乐相对来说少之又少,这就要考虑怎样对其他格式的音乐进行 处理。 2 ) 音符分割是一个很容易出错的步骤,有的检索为了避免这一步没有进行音符 分割,但准确的音符分割对旋律匹配有着非常重要的的影响。怎样才能把音符有效 准确的分割出来。 3 ) 旋律特征提取的准确度。旋律特征提取是检索系统关键步骤之一,提高特征 提取的准确度是有效提高系统检索性能的关键所在。 4 ) 起调高低及节奏快慢问题,这是哼唱检索中最常见也是最主要的问题。一首 歌可以用不同的音调演唱,起调有时高有时低;同样一首歌可以用快节奏演唱也可 以用慢节奏演唱。 5 ) 目前大多数的检索还仅限于本地检索,如何进行网络检索是日后研究发展的 主要方向。 6 ) 性能评价标准。评价匹配算法的优劣最直接的方法就是依据实验数据( 响应 时间和前n 位的命中率) 。目前算法的设计者都是用自己构造的音乐数据库来测试算 法,这样很难客观的反应算法的优劣,也无法客观的和其他的算法比较。希望建立 一套全面音乐数据库以及配套的算法检测标准来全面的检验算法的性能。 本文要解决上述的前三个问题,解决方案如下: 1 ) 首先要检测出m p 3 、r m 、7 v :a v 、w m a 等格式的音频文件,通过格式转换 转换成相同的格式; 2 ) 根据发音时间长短及基音频率值进行音符切分; 3 ) 通过对音频信号预处理中分帧参数数值的不断改变,综合考虑处理时间长短 及相似度高低两方面选取最为合适的参数数值,并通过对基音提取算法的研究比对, 选取出准确度最高的提取算法: 4 ) 通过对旋律特征匹配算法的研究分析,提出改进后的匹配算法,来解决起调 高低及节奏快慢的问题,并通过实验结果的比对选取出最为理想的特征提取及特征 4 笫1 章绪论 匹配算法组合,来提高系统检测的准确度。 1 4 课题研究方案 基于旋律的哼唱音乐检索现已成为音乐检索研究中的一个主要内容,其中特征提 取与特征匹配是影响系统检索性能的两大因素。本文通过对参数的改变及算法的改 进来提高系统检测的准确度。 i 本地磁盘 上 提取音频文件 j 哼唱输入 l 格式转换 1 l1 l 预处理l返回列表预处理2 上 1 上 基频提取i 2 - 基频提取 3 土 ;土 音符划分i j 结 音符划分 k 上 输 土 , 出 音高jf 列 音趋f 序列 旋律编码 旋律匹配 旋律编码 图l l系统的基本框图 图1 1 是本文设计的系统框图。系统分为三大模块,分别是哼唱输入模块、音乐 数据模块及旋律匹配模块。哼唱输入模块的主要功能是处理哼唱录入的音频文件, 提取出能代表其主旋律特征的音高序列;音乐数据模块的主要功能是检索并处理音 频文件,提取出能代表它们各自主旋律特征的音高序列;旋律匹配模块的主要功能 是把哼唱输入模块提取出的音高序列与音乐数据模块中提取出的音高序列进行匹配 运算,得出一相似度值。其中预处理l 模块中要对信号进行滤波去噪、加窗分帧处 理,预处理2 模块中只对信号进行加窗分帧处理。哼唱输入模块与音乐数据模块中 加窗分帧、基音提取、音符划分、旋律编码都采用相同的处理方法及参数设置。 5 ii 音乐致据模块 一 哼嚼输入模块 - 河北科技大学硕士学位论文 相应的整个系统的工作过程应主要分为六大步来完成( 其中阈值l 为设定的一 个相似度值,阈值2 为最终结果的输出个数,k 值为相似度大于阈值l 的个数,系 统开始运行时k 值为零) : 第一步:进行哼唱录入; 第二步:对哼唱输入进行相应的处理,得出哼唱输入的一音高序列: 第三步:音乐数据模块开始音频文件检索( 与第二步同时进行) ,并把检索到的 音频文件进行相应的处理,得出一音高序列; 第四步:两音高序列进行匹配运算,得出一相似度值; 第五步:判断此相似度值是否大于系统设置的阈值l 。如果大于,k 值加l ,并 把这首歌曲记录到返回列表中;否则,k 值不变; 第六步:判断k 值是否等于设定的阈值2 。如果是,直接输出返回列表,系统 检索结束;否则,返回第三步继续进行检索,直至k 值等于设定的阈值2 或第三步 检索结束。 为了实现上述的六大步骤,本文具体的研究分析过程主要为以下几个方面: 1 ) 对声音特征参数进行分析比对,从中选出决定主旋律特征的参数,进而为后 续的主旋律特征的提取及匹配做好准备。 2 ) 在本地磁盘进行了基于w a v 、w m a 、m p 3 格式的音频文件检索,按一定的 要求对检索到的音频文件进行筛选,并通过格式转换器把筛选后的音频文件转换成 本文所需的w a v 格式。 3 ) 对图1 1 中的预处理l 及预处理2 进行具体的方法确定。 4 ) 对常见音符音高值算法即归一化处理进行分析研究,并综合它们各个算法的 优缺点,提出一种新的音符音高值算法。 5 ) 在常见的旋律匹配算法的基础上,针对他们各自的优缺点对字符串匹配算法 进行改进,进而提高匹配检索的准确度。 6 ) 通过实验来选取合适的阈值1 ,但实验结果显示,无法设定一个具体的匹配 相似度阈值。因此不能通过比较阈值l 的大小来进行判定,只能与检索到的音频文 件进行逐一的匹配,全部匹配完才能输出一个最终的匹配结果。 7 ) 为了实验的方便性,在前几步的基础上,对第二步格式转后的音频文件进行 处理,组建临时乐曲库,并对整个哼唱检索系统进行了实验。 1 5 论文的组织结构 根据上述研究方案的确定,本论文的章节安排如下: 第l 章:绪论。首先介绍了课题的研究意义、应用前景及国内外的研究概况: 其次分析了现阶段哼唱检索存在的问题及本课题要解决的几个问题,并提出了解决 方案;最后简要说明了课题的研究方案及论文的组织结构。 6 第l 章绪论 第2 章:特征参数确定。通过对几种常用声音信号的特征参数进行实验比对, 选取出适合本课题的特征参数。 第3 章:主旋律特征提取前的工作。首先详细分析了音乐数据处理模块在预处 理之前的音频文件检索及格式转换工作,其次详细介绍了具体的声音信号预处理方 法。 第4 章:主旋律特征提取及匹配算法研究。这章是本论文的核心章节,其中包 含了本课题的两大核心算法,即音符音高值算法及旋律匹配算法。通过对几种常用 算法的分析研究,本文提出了新的音符音高值算法及旋律匹配算法。在对声音信号 进行基音周期估计及音符切分处理的基础上,把几种音符音高值算法与旋律匹配算 法分别进行交替组合,通过对几种组合的实验结果的比对选取出最为合适的算法组 合。 第5 章:哼唱检索系统及实验。介绍了具体的临时乐曲库的组建方法及所实现 的哼唱检索系统,并在几种不同的情况下进行了哼唱检索实验。 7 河北科技大学硕士学位论文 第2 章匹配参数的确定 声音信号的感知过程与人耳的听觉系统是密不可分的。正常人可以依据听到声 音的不同来区分出是什么人在说话、说的什么内容以及在用什么语调说等信息,但 计算机本身并不具备这种特性,这就需要人们把声音信号分析转换成其本质特征的 参数来进行区分,这个特征参数要满足不管什么人唱,只要音调相同,特征参数要 相同的要求。具体的要求如下: 1 ) 不同的人、相同的谱、相同的词,特征参数要相同。 2 ) 相同的人、不同的谱、相同的词,特征参数要不同; 3 ) 相同的人、相同的谱、不同的词,特征参数要相同; 4 ) 相同的人、不同节奏、相同谱、相同的词,特征参数要相同; 5 ) 相同的人、相同的谱、相同的词、不同的音量,特征参数要相同。 2 1 声音的性质 从物理角度及发声原理来分析,声音的性质可由决定声音效果的四个要素来描 述,即音高、音量、音长及音色i l s 】。 音高( p i t c h ) 主要由物体振动的频率决定;音量主要由物体振动的振幅大小来 决定;音长主要由物体振动持续的时间长短来决定:音色( 而m b r e ) 是指声音的感 觉特性,主要由泛音的多少及泛音间的相对强度决定。上述四种性质中,前三种性 质里提到的“振动 主要是指基音的振动。 2 2 声音特征参数分析 在乐音体系中,并不是所有的音都能作为乐音来使用,通常把有着固定音高的 音叫做乐音,把音高不固定或音高不明显的音叫做噪音。根据对声音性质的分析及 对乐音的理解,本文通过分析几种常见的声音特征参数曲线:能量曲线、共振峰曲 线、m f c c 曲线、基音曲线,来选取符合要求的特征参数。每个参数分别做下面的 五个实验: 实验一:两个人分别用“f 4 调,在相同的时间内来哼唱“爱 这个词; 实验二:哼唱 中的一句“海阔天空 ,把这段音频记为a ;在音 调不变的前提下,在a 的基础上把节奏整体加快2 0 ,这段音频记为b ;同样在音 8 第2 章匹配参数的确定 调不变的前提下,在a 的基础上把节奏整体减慢2 0 ,这段音频记为c 实验五:哼唱海阔天空中的一句“海阔天空 ,把这段音频记为a ;在其 他条件都不变的前提下,在a 的基础上把音量调高2 0 ,这段音频记为b ;在其他 条件都不变的前提下,在a 的基础上把音量降低2 0 ,这段音频记为c 。 2 2 1能量 能量主要反映的是声音音量这一性质。理论上,它只与声音的大小即声源振动 的幅度有关( 振动幅度越大音量越大) ,与声音的音调高低无关。 图2 - 1 是由实验一得出的能量曲线,其中横坐标表示时间( s ) ,纵坐标表示能 量值( d b ) 。通过对图2 - l 中a ) 、b ) 两个分图的比对可以看出:不同的两个人,用相 同的音调、演唱相同的歌词时,能量曲线不相同且变化轨迹不相似。这说明,不同 的人在相同的条件下,能量是不同的。这不符合本文对特征参数的要求。 a ) b ) 图2 1 能量曲线 2 2 2共振峰 共振峰是指声音的频谱中能量相对集中的一些区域,它是反映声道谐振特性的 重要特征 9 河北科技大学硕士学位论文 理论上,在同一件乐器所发出的所有音调中,不论基音频率如何,都会表现出 相同的共振峰,只不过有着强弱的区别,也就是说同一乐器所发出的不同音调具有 相同的音质。在语音声学中,共振峰决定着元音的音质。人们发音时会受到自己本 身生理特征的影响,有着属于自己的共振峰区( f o 肿锄tr e g i o i l s ) ,例如会受到咽 腔、口腔大小及鼻孔的影响,并且可以通过改变它们的形状及大小,就可以改变声 音的共振峰。而在计算机音乐中,共振峰是决定音色和音质的重要参数。 尽管共振峰区与基频的音高没有直接关系,但它们之间多少有着间接的影响。 例如人们的发音,如果基音频率值高于共振峰区,声音就会变形,使人很难发出正 确的元音,因为人们自身的生理特征在发出过高的声音时会变形,共振峰区也会变 化;如果基音频率值低于共振峰区,在共振峰区以下,人们的发音就会很丰富饱满。 图2 2 、图2 3 、图2 _ 4 、图2 - 5 、图2 6 分别是实验一、实验二、实验三、实验 四、实验五得出的共振峰曲线图。其中横坐标表示时间( s ) ,纵坐标表示共振峰频 率( h z ) ;图中曲线f l 、f 2 、f 3 、f 4 、f 5 分别表示第一共振峰轨迹、第二共振峰 轨迹、第三共振峰轨迹、第四共振峰轨迹、第五共振峰轨迹。理论上共振峰特性主 要反映在f l 、f 2 两个共振峰,f 1 与舌位高低密切相关,舌位越高f l 越低,舌位 越低f l 越高;f 2 与舌位前后密切相关,舌位越靠前f 2 越高,舌位越靠后f 2 越低。 a ) b ) 图2 2 共振峰曲线1 l o 第2 章匹配参数的确定 通过对图2 2 中a ) 、b ) 两个分图的比对可以看出:在相同的参数设置下,不同 的两个人,在用相同的音调、演唱相同的歌词时,产生的共振峰个数是相同的,但 只有第二共振峰的轨迹变化相似,其余三条轨迹变化都不相同且不相似。这只能说 明他们发音时舌位的前后位置的变化是相似的,并不能说明此时的音调是否相同。 a ) b ) c ) 图2 3 共振峰曲线2 通过对图2 - 3 中a ) 、”、c ) 三个分图的比对可以看出:在相同的参数设置下, 同一个人,用不同的音调、演唱相同的歌词时,产生的共振峰个数是不相同的,并 l l 河北科技大学硕士学位论文 。二二= ;二一;一。一一 且相应的共振峰的变化轨迹是不相似的。这只能说明,此条件下得到的共振峰的变 化轨迹是无规律的,不能反映出音调高低变化的不同。 a ) ” 图2 - 4 共振峰曲线- 3 通过对图2 - 4 中a ) 、b ) 两个分图的比对可以看出:在相同的参数设置下,同一 个人,用相同的音调、演唱不同的歌词时,产生的共振峰个数是相同的,但只有f l 、 和f 5 的轨迹变化相似,并且f 1 所处的位置是不同的。这只能说明,两种情况下舌 位高低的变化轨迹是相似的,但不能反映出音调是否相同。 a ) 1 2 第2 章匹配参数的确定 ” c ) 图2 5 共振峰曲线_ 4 通过对图2 5 中a ) 、b ) 、c ) 三个分图的比对可以看出:在相同的参数设置下, 同一个人,用相同的音调、不同的节奏、演唱相同的歌词时,产生的共振峰个数相 同,同时它们各自的共振峰的变化轨迹是相似的,并且当把所有共振峰的变化轨迹 在时间轴上线性延展到相同的长度时,它们各自所对应的共振峰的变化轨迹是完全 相同的。这说明,在音调相同的情况下,演唱节奏的快慢对共振峰的变化轨迹无影 响。 a ) 1 3 河北科技大学硕士学位论文 ” c ) 图2 6 共振峰曲线5 通过对图2 6 中a ) 、b ) 、c ) 三个分图的比对可以看出:在相同的参数设置下, 同一个人,用相同的音调、不同的音量、演唱相同的歌词时,产生的共振峰个数相 同,并且它们的共振峰的变化轨迹是完全相同的。这说明,在音调相同的条件下, 音量的高低对共振峰频率值无影响。 理论上,共振峰是决定音色和音质的主要参数,它与音调的高低并无直接联系。 上述五个实验结果与理论相符,共振峰在音量及音调相同的条件下,能区分出不同 的人;在同人同音调的条件下,能区分出不同的哼唱内容。这与本文的要求正好相 反,不符合本文的要求。 2 2 3m f c c m e l 倒谱系数 m e l 频率与h z 频率成非线性的对应关系,它是基于人耳听觉特性提出来的,。 基于m e l 频率的倒谱系数( m e l 丘蜘u 蜘c yc e s 呐朋c o e 历c i e n t m f c c ) 是利用它们之 间的这种关系计算得到的。基于m e l 频率的倒谱系数是将人耳的听觉感知特性和语 音的产生机制相结合的,这种特性目前被广泛应用于大多数的语音识别系统中,但 它同样适用于音频信息处理中。理论上,m f c c 是模拟人耳听觉特性的,它主要用 来区分不同的人及同一人说的不同内容。 1 4 第2 章匹配参数的确定 图2 7 是实验一得出的m f c c 曲线图,其中横坐标表示时间( s ) ,纵坐标表示 幅度( h z ) 。通过对图2 7 中a ) 、b ) 两个分图的比对可以看出:不同的两个人,用相 同的音调、演唱相同的歌词时,他们的m f c c 曲线是完全不相似的。这说明,m f c c 在条件相同的情况下,能区分出不同的人,这与理论相符,但不符合本文的对特征 参数的要求。 a ) b ) 图2 7m f c c 曲线1 2 2 4 基音 音高在声学上称为音调,即发声体整体振动产生的音,由频谱中的基音频率决 定,它主要决定着声音调子的高低。音调与基音频率值并不是成线性关系,而是成 对数关系。当两个声音的基音频率值相差l 倍时,两个音调相差1 个倍频程,音乐 上叫做纯8 度。 在自然界中,人们能感受的声音很多,每秒振动1 6 2 0 0 0 0 次左右的声音人们一 般都能感受到,但并不是所有的音都可作为乐音来使用。一般的乐音( 不包含泛音) 只限于每秒振动2 7 - 4 1 0 0 次的范围。在现有的乐音体系中,按现在通用的十二平均 律,从最低音( 每秒振动1 6 次左右) 到最高音( 每秒振动4 1 8 6 次) ,整个体系中 约有9 7 个音,其中6 秒振动4 4 0 次( 4 4 0 赫兹) 成为标准音。表2 1 为不同八度区 l s 内音阶与频率的对应关系表: 表2 1 音阶与频率关系 1 7 3 23 4 6 5 6 9 3 01 3 8 5 92 7 7 1 8 5 5 4 3 7l l 7 2 2 1 7 5 4 4 3 4 9 1 8 3 5 3 6 7 l7 3 4 2 1 4 6 8 32 9 3 6 6 5 8 7 3 31 1 7 4 7 2 3 4 9 3 4 6 9 8 6 1 9 4 53 8 8 9 7 7 7 81 5 5 5 6 3 l1 1 36 2 2 2 5 1 2 4 4 52 4 8 9 o 4 9 7 8 0 2 0 6 04 1 2 0 8 2 4 l1 6 4 8 i 3 2 9 6 36 5 9 2 6 1 3 1 8 52 6 3 7 o 5 2 7 4 o 2l 8 34 3 6 5 8 7 3ll7 4 6 l3 49 2 3 6 9 8 4 6l3 9 6 9 2 7 9 3 8 ”8 7 7 2 3 1 34 6 2 59 2 5 01 8 5 o o 3 6 9 9 9 7 3 9 9 91 4 印o 2 9 6 0 0 5 9 1 9 9 2 4 5 0 4 9 9 8 o o1 9 6 3 9 2 7 8 3 盼 1 5 鹋o 3 1 3 6 o6 2 7 1 9 2 5 5 i 9 l 1 0 3 8 32 0 7 6 5 4 1 5 3 08 3 0 6 i 1 6 6 1 23 3 2 2 4 6 6 4 4 9 2 7 5 05 5 l l o 2 2 0 4 4 0 8 8 0 0 0l7 o 3 5 2 0 0 7 0 4 0 o 2 9 1 4 5 8 2 7i l6 5 42 3 3 0 8 4 6 6 16 9 3 2 3 3l8 “7 3 7 2 9 37 4 5 8 6 从表2 - 1 中可以看出,君一个八度区就相当于把频率翻倍,一个八度区内有1 2 个半音,也就是把这两倍的频率间隔等比分为1 2 ,所以相邻两个半音的频率比是2 开1 2 次方,即1 0 5 9 4 6 。 图2 - 8 、图2 - 9 、图2 l o 、图2 - l l 、图2 1 2 分别是实验一、实验二、实验三、 实验四、实验五的得出的基音( p i t c h ) 曲线图。横坐标表示哼唱时间( s ) ,纵坐标 表示基音频率值( h z ) 。 图2 p i t c h 曲线1 通过对图2 8 中a 、b 两条曲线的对比可以看出:不同的两个人,用相同的音 调、演唱相同的歌词时,p i t c h 曲线是基本重合的。这说明,基音这一参数能在不同 咖 。 啪 e f 啪 g 叭 a 黼 第2 章匹配参数的确定 的人中,判别出音调是否相同。 图2 - 9p i t c h 曲线- 2 通过对图2 9 中a 、b 、c 三条曲线的对比可以看出:同一个人,用不同的音 调、演唱相同的歌词时,p i t c h 曲线是不同的,但p i t c h 的变化轨迹是相似的。这说 明,基音这一参数能反映出音调高低变化的不同,并能反映出音调的变化规律。 图2 - 1 0 p j t c h 曲线- 3 通过对图2 1 0 中a 、b 两条曲线的对比可以看出:同一个人,用相同的音调、 演唱不同的歌词时,p i t c h 曲线基本重合。这说明,基音这一参数与音调的高低有关, 与哼唱内容无关。 a ) 1 7 河北科技大学硕士学位论文 ” c ) 图2 l l p i t c h 曲线4 通过对图2 1l 中a ) 、b ) 、c ) 三个分图的比对可以看出:同一个人,用相同的音 调、不同的节奏、演唱相同的歌词时,p i t c h 的变化轨迹是相似的,当把它们在时间 轴上线性延展到相同的长度时,三条p i t c h 曲线基本能够重合。这说明,在音调相 同的条件下,演唱节奏的快慢变化对音调高低变化无影响。 图2 一1 2p i t c h 曲线5 通过对图2 - 1 2 中a 、b 、c 三条曲线的对比可以看出:同一个人,用相同的音 调、不同的音量、演唱相同的歌词时,p i t c h 曲线是完全重合的。这说明,音量的高 1 8 第2 章匹配参数的确定 低变化对音调的高低变化无影响。 理论上,声音调子的高低主要由基音频率决定。上述五个实验结果与理论相符, 基音频率只与音调的高低有关,与什么人在喝、唱的什么内容及演唱节奏的快慢无 关,这一参数符合本文对特征参数的要求。 2 3 本章小结 本章对声音的四种性质及四种常用的声音特征参数进行了分析。通过上述实验 验证,能量主要反映的是声音音量的特性,共振峰及m f c c 主要反映的是声音的音 色及音质特性,这三个参数都不能直观有效的反映音高特性,实验结果与理论相符, 这三个参数不符合本文的要求;基音反映的是声音的音调即音高特性,实验结果与 理论相符,这一参数符合本文的要求。因此,本文将音高这一特性做为本文所要提 取的主旋律特征。 1 9 河北科技大学硕士学位论文 第3 章主旋律特征提取前的工作 在实际的生活环境中,声音信号在录制的过程中总会受到外界环境的影响,比 如传输信道的影响、外界噪声的影响、语音设备本身的影响等等,这些都有可能对 语音造成一定程度的干扰,进而就会影响到声音的质量,增加从语音信号中准确提 取特征参数的难度,严重时,可能提取不到正确的特征参数,因此在特征参数提取 之前需要对语音信号实施一些经常使用的短时分析处理,得到比较纯净的信号,如 对声音信号进行滤波去噪、加窗及分帧等处理。 3 1 音频文件检索及格式转换 现今的音频文件有很多种格式类型:m l d i 格式、m p 3 格式、w m a 格式、w a v 格式等。m i d i 音乐文件是不包含真实声音数据的音乐文件,可以直接将它当做字 符串来处理,但m p 3 、w m a 及w a v 等格式的音乐文件中存储的则是真实的声音 数据,那么在特征提取之前必须对其他格式的音频文件进行分析处理【1 9 l 。 3 1 1 音频文件检索 因为本文要对音乐文件进行检索,音频文件不是以数据库的形式存在,在检索 时不是指定在一个固定地方查找,所以在进行匹配计算之间要先将所有音频文件查 找出来,以便进行下一步的研究。 本文直接采用电脑自带的搜索功能进行音频文件检索。首先在搜索要求里输入 本文指定的音频格式“m p 3 ,w m a w a v ;其次选择要搜索的范围“我的电脑、 本地磁盘c 、本地磁盘d 、本地磁盘e 、本地磁盘f 一,从中选择一项进行搜索;最 后将以列表的形式输出检索结果。由于检索到的音频文件并不全是本文需要的音乐 文件,有的可能就是某个安装文件中的一个提示音等等,因此在进行下一步的格式 转换前,需要对所检索到的音频文件进行筛选。为了方便筛选,本文将检索完返回 的列表设计为图3 1 的形式。 图3 1 返回列表 2 0 第3 章主旋

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论