




已阅读5页,还剩56页未读, 继续免费阅读
(信号与信息处理专业论文)基于内容的音乐哼唱检索系统关键技术研究及实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着数字音乐技术的迅猛发展和手机等移动设备存储容量的增加,如何快速、有效地检索音乐 信息成为迫切需要解决的问题。传统基于文本的检索方法,只能对有标注的数据信息进行检索,这 需要人工先对这些信息进行描述和分类,随着数据库容量的不断增大,人工输入标注属性的方法不 能满足人们对海量信息的需求,且人工对音乐的描述属性高度主观,难以表达蕴藏在音乐数据中丰 富的内容以及内容感知描述的直观性。此外,随着数据容量的增加,用户很难记住所有数据的描述 信息。因此,希望找到一种更加方便、快速的检索方法。 基于内容的检索方式不依靠标注信息,它从新的角度来管理音乐信息。根据音乐中的旋律、音 高、节奏等信息进行检索。哼唱式音乐检索是基于内容的音乐检索方法之一,它允许用户通过哼唱 的方式来查找所需的歌曲。本文以此展开研究工作,要实现基于内容的哼唱式音乐检索系统必须对 三个方面的内容进行研究。首要问题是如何从哼唱信号中有效的提取旋律特征信息。由于哼唱音符 的准确切分,即音高提取和音长切分的准确与否直接影响查找效果,因此这是哼唱音乐检索系统的 关键问题之一,本文中采用了基于凸出度的音符切分方法;其次,如何从复合音、多音轨乐曲中提 取主旋律特征信息,我们采用了当前大部分哼唱检索系统广泛使用的单音轨的m i d i 数据库;最后, 就是如何提高检索的速度。本文中通过对线性伸缩、动态时间规整及字符串相似匹配算法的性能比 较,在试验部分观察了它们在检索上的识别效果,讨论他们的优点和缺点。我们对线性伸缩算法进 行一定的改进,提出了分段线性伸缩算法,很好的解决了哼唱不一致的情况;我们还讨论了基于歌 唱片段的不定长分割方法用于哼唱片段的模糊匹配。 关键词:旋律特征提取,哼唱检索,音高提取,线性伸缩,动态时间校正,字符串模糊匹配 a b s t m c t a bs t r a c t w i t 量in 璩d c v e l o p m 咖o f d i g i t a ln 鹏i ct e c l l l l i q u e 锄dt l l ei n 饿硒i i l go fm cs t o m g ec a p a c 姆o f 删) b i l e d e 、,i c e ,h o wt o a 代ht l l ei n l e r l d e dm u s i ci l l f o n n a t i o nb e c o m e s 黼锄di r 如咒i m p i ) r 纽n t n o w 越i a ) ,s , p e o p l eo f t m l dm ei i l t e n d e ds o n g sb y 群d 研m i l l gat e x t - b 懿e dq u e 巧c o i i l gt 0t h em e t a 讹o f 龇 多o n 筘,s 硼c h 勰t l l et i t l e ,删m e ,a r t i s t ,e t c t t l i sm e t l l o di sb 舔e do n 也e 勰s 唧t i o nt l l a ts h o r tt a 铲讲k e y 、o r d sa 托a v a i l a b l ct oi d e 而黟f i l e si i it l l ed a t d b 舔e s u c h 嬲舔s 硼叩t i o n q 眦g t st 量l a tw cs h 伽l dm a k c 缸 p 1 o p e r 秒d e s c p t i o n 姐dc l 舔s i 矽也ei l l f 0 姗a t i o ni n t oc a t e g o r i e si n 鲥i 、,a n c e h o w e v e r t l l i sm 锄m a lw o 出 c 龇m o tm e c tt l l ed e m a n do ft l l cr a p i d 霉- 0 w i i l go ft h em u s i cd a t a m o i 烈,v e r t l l em 孤m a ld e s c r i l m o ni s 即郴- l 椭d u et ot l l el l i 曲l ys l l _ b j e c t i wn 瓶鹏o fp e 墙o n a l 啪d 粥劬d i l l g 觚dd i m c u l t i e so ft l l ep e 瞅椰v e d e s c p t i o no f 瑚a 坞i cc o n t t ,锄du s e 墙m a yf 0 瑁e tt h et c x td e s c r i p t i o ni i l f 0 加豫廿o n t h e 砖f - 0 惩,ac 说l v 豇l i e n t 姐d 衔e n d 哆l 咖s i c t r i e v a ls y s t e mi se a g e d yd e s 拍df o rt l l em o b i l ed e “c 骼 c o m e n t b a s e d 心t r i e v a lt i l i l i q u e sa 1 1 0 wu s e 巧t of i n dt l l ei n 劬d e ds gw i m o t l tt h et e x td e 咖t i o n n s e 黜h e sm em 瑚i ci 幽咖t i b ym e 腓1 0 d 弘1 归c s ,p i t c h 锄d 伽q u 吖b yh u 衄i i l 蜩i n g i f l g ( q b h s ) i so m o f t l l e t e c l l i l i q u e st l l a ta 1 1 0 w 啪镰t o 血das o n ge v 锄m e ym 啪l yh o w ap a no f t l l cm e l o d y o 盯 代s e a r c hw o r ki sm a i l l l yf o c u s e do nq b h s ,恤c hc 姐b ed i v i d e di n t 0t 1 1 r 七em o d u l e s 1 kf i 鸺tp f o b l 锄i s t l o wt oe x t r a c tm e l o d y 纳mh l m 疵n gs i g n a l b e c a u s es e g m e n 恤gn o t e sa c c l m 蛐e l y 矗o mh l m 加豳gs i g n a l s h 弱ag r e a ti i | n u e n c c t l l ef i n a lp c e s s ,i r im e p a p e r w eh a v ei n 打0 d l l c e da na l g o r i t l l mb a do nb u l g ef o r n o t cs e 乎球m 谢o n t h e c dp b l 锄i sh o wt 0e x t r a c tm e l o d y 丘o mc o m p l e xm u s i cf i l e s w eh a v e a d o p t i 耐t h es i i l g l ec h 柚m im d i f i l e sw h i c ha 代p o p u l d ya p p l i e di nm t 咖s i c 他硪v a ls y s t i 瞰i s1 娜 倒l a s tp r o b l 锄t l l a tt i l i st h e s i sh 弱s 砌i e di sh o wt oi m p f o v e 陀t r i e v a le 伍c i e n c y w bh a v ep e m 脚e d e x p e 幽m e n t st oc o n p 啪t l l c t r i e v a lp e r f l o n 】旧n c eb yc 龇r y i i l go u tl i i l e 缸s c a l i n g ,d ,i 觚ds t d n g m a t c h i l l g ,孤dd i u s s e dt l l e i r 粼l v 锄臆g e 锄ds h o r t c o i l l i n g a n d l w ep u r p o s e dan e wa p p m hm 删 s e 毋n e n t e di j n e 盯s c a l i i l gb yi l i 巾v i n gl i n e 钉s c a l i n g ,t 1 1 ee x p 谢m e n t s 小舡l 傩s 仃a t e dt l l a ti tc 锄i i i 币v e m a t c h i i l gp e 讯m m n c e f u r 吐1 w ed i s c 璐s e d aq b ha l g o r i t h m 砌c hi sb a do nt 量埒u n l i i l l i t e d s e 肿e l l t 2 l t i f i o r0 _ b s c u 他m a t c h i n go fh u m m i i l g k e yw o r d s :m e l o d yf e a n 鹏e ) 她l c t i o n ,q 仳巧b yh u i l l i i l i n g ,p i t c he x 缸粥t i o l l l i m 盯s c a l i i l g , d ) m a i i l i ct i l mw 却i n g ,s t r i n ga i b s c u 托m a t c l l i n g 珏 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:象二盟日期:上竺烨 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印 件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质 论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括 以电子信息形式刊登) 论文的全部内容或中、英文摘要等部分内容。论文的公布( 包括以电 子信息形式刊登) 授权东南大学研究生院办理。 研究生签名: 导师签名:琶星皇生日期:二竺蝴 第一章绪论 第一章绪论 1 1 音频检索技术的意义及发展 1 1 1 开展基于内容的音频检索技术的意义 对于人的感官来说,有视觉、听觉、触觉和味觉等方面的感知。在视觉方面,可以感知位置、 运动、颜色、纹理、形状、符号等;在听觉方面,可以感知位置、运动、音调、音量、旋律等;另 外还有触觉( 机械的、热的、电的、肌肉运动方面的) 和嗅觉( 气味、味道等) 。除了视觉、触觉和嗅 觉外,人们可以从听觉中获得许多信息,如我们日常收听的电台节目、欣赏的音乐、聆听的自然声 响等。有许多与音频相关的应用,如音频数据库、广播、音频编辑、监控、在线音乐等。 音频是多媒体中的一种重要媒体。我们能够听见的音频频率范围是2 0 h z 2 0 l 【h z 其中语音大 约分布在3 0 0 h z 4 l 【i i z 之内,而音乐和其他自然声响是全范围分布的。声音经过模拟设备记录或再 生,成为模拟音频,再经数字化成为数字音频。数字化时的采样率必须高于信号带宽的2 倍,才能 正确恢复信号。样本可用8 位或1 6 位比特表示。 以前的许多研究工作涉及到语音信号的处理,如语音识别。机器容易自动识别孤立的字词,如 用在专用的听写和电话应用方面,而对连续的语音识别则较困难,错误较多,但目前在这方面已经 取得了突破性的进展,同时还研究了辨别说话人的技术。这些研究成果将为音频信息的检索提供很 大帮助。 常规的信息检索( i r ) 研究主要是基于文本,例如我们已经非常熟悉的诸如g 0 0 9 1 e 和百度这样的 搜索引擎。经典的i r 问题是利用一组关键字组成的查询来定位需要的文本文档,即定位文档中的查 询关键字来发现匹配的文档。如果一个文档中包含较多的查询项,那么,它就被认为比其他包含较 少查询项的文档更“相关一。于是,文档可以按照“相关 度来排序,并显示给用户,以便进一步 搜索。虽然这种一般的i r 过程是为文本设计的,但显然也适用于音频或其他多媒体信息的检索。但 是,如果我们把数字音频当成一种不透明的位流来管理,虽然可以赋予名字、文件格式、采样率等 属性,但其中没有可以确认的词或可比较的实体,因此,不能像文本那样搜索或检索其内部的内容。 对于音乐和非语音声响也是这样。 基于人工输入的属性和描述来进行音频检索是我们首先想到的方法。该方法的主要缺点反映在 以下几个方面:当数据量越来越多时,人工的注释强度加大;人对音频的感知,如音乐的旋律、音 调、音质等,难以用文字注释表达清楚。这些正是基于内容的音频检索需要研究和解决的问题。但 我们同时注意到音频检索可以利用的一个优势,那就是语音是一种特殊类型的音频,它与文本可以 互相转换,因此,可以利用文本检索技术进行概念检索。但是,随着多媒体和网络技术的发展以及 各种存储设备容量的增加,人们通过g 0 0 9 1 e 、百度等搜索引擎可以获得越来越丰富音乐资源,数字 音乐媒体信息已成为一种普遍的信息资源。从音乐的网上销售、卡拉0 k 服务,到专业音乐库的共享, 1 东南大学硕士学位论文 以及日益实用的视频点播服务中的音频内容检索,都对音乐信息的检索提出了越来越高的要求。如 何快速、有效地查找到用户所需要的音乐信息成为迫切需要解决的问题 音乐检索技术最开始是基于文本,通过输入歌名、歌词或演唱者等歌曲的文本信息来检索。人 工对音乐属性进行基于文本的描述和分类,虽然适用于音乐检索,但是随着音乐资源的不断增长, 海量的无标注信息的音乐就无法进行有效的检索,所以人工建立关键字的检索方式已不能满足需求, 况且人们对音乐的感知是高度主观的,有时无法描述其包含的丰富内容无法充分揭示和表达音乐 信息的实质内容和语义关系,所以需要一种可以根据音乐本身的内容即音乐的旋律、节奏或音色等 相关信息来进行检索的方法。 哼唱检索( q 阴:q u e r yb yh u 咖i n g ) 是属“基于内容的音乐检索”的一种方式,即允许用户通过 哼唱的形式来检索所需要的歌曲。为找到一首歌曲,用户只要能回忆起其中的旋律片断,并用麦克 风哼唱出来,检索系统就能找到所要的歌曲。因此,q b h 作为一种传统文本检索所无法替代的检索 手段,引起了包括图书馆管理、计算机科学、信息科学、认知科学等领域学者的广泛兴趣,也越来 越多受到多媒体信息服务商、开发商以及广大用户们的关注。 1 1 2 已有的研究成果及发展方向 哼唱式音乐检索技术从二十世纪9 0 年代开始受到关注。1 9 9 5 年英国南安普顿大学的g h i a s 1 】 等人提出第一个哼唱式音乐检索系统q 阴( q u e r yb yh u m m i n g ) ,g h i a s 只用了三个符号表示旋律的 音高变化,即u ( 当前音高比前音高高) 、d ( 当前音高比前音高低) 、r ( 当前音高和前音高相等) , 进而形成音高的变化序列。在这种特征表示方法下。他们采用查找最大公共字符串的方法来进行旋 律的匹配,查找两段旋律的相似度该系统的缺陷是他们没有开发出一套完整的音符切割程序,这 工作需要用户手动来完成,使用起来不方便,但是他们在哼唱式音乐检索研究方面迈出了重要的一 步。 近期的一些研究把重心放在大型乐曲库的检索上,主要的突破是节奏信息在检索中的使用,以 及分层、分级的高效检索方法。 在文 2 】中,l i el u 等用( p i t c hc o n t o u r ,p i t c hi n t e r v a l ,d u r a t i 鲫) ,即( 音高轮廓、音高 差、音符长度) 三元组为单位表示旋律,并提出了一种两极匹配方法。对输入音频做特征提取,分 析能量曲线做音符切分,计算过零函数和自相关函数提取音高,最终转换为三元组序列。匹配过程 中,先用d p ( d y n 锄i cp r o g r 咖i n g ) 算法粗略比较p i t c hc o n t o u r ,对于误差小于一定阈值的旋律, 再用更精确的算法比较对应的p i t c hi n t e r v a l 和d u r a t i o n 。他们对用户的哼唱没有限制,在1 0 0 0 首乐曲中检索,获得了7 4 的前三位命中率。虽然他们的实验结果不十分令人满意,但这种分级匹 配提高系统的性能的想法是有创意的。 文 3 】中,j y h - s h i n gr o g e rj a n g 等采用每l 1 6 秒一个音高值方法表示旋律。匹配前使用 m e a n a d j u s t m e n tm e t h o d 使输入和模板的音高在平均值上对齐。匹配时,用一种称为 h f m ( h i e r a r c h i c a lf i l t e r i n gm e t h o d ,分级过滤算法) 的分层匹配算法 4 】,先采用过滤算法筛去8 0 左右的候选乐曲,然后对剩下的用d 硼( d y n 鲫i ct i m ew a r p i n g ) 精确匹配每1 1 6 秒一个音高值的 2 第一章绪论 方法使得他们的系统对哼唱发音没有限制,但也同时导致了音高矢量的长度大增,带来匹配速度的 不足,要求用户必须从乐曲的开头哼唱。在规模为3 0 0 0 首的乐曲库中检索,获得了6 8 的前三位命 中率。 n a o k ok o s u g i 等也在文 5 中提出了一种同时考虑音高和节奏,以适应大型乐曲库检索的方法 他们的系统称为s o u n d c 伽p a s s ,可以在一秒钟内检索1 0 0 0 0 首乐曲,并取得了7 5 的前五位命中率 但是,用户必须在一个节拍器伴奏下哼唱,这常常是很不方便的。 除了上述的基于符号匹配的检索方案,文 6 】中m a i d i n 等还提出了一种基于音高轮廓几何相似性 的匹配方法,大致思路是根据输入音频提取音高,并按时间的变化画出音高曲线,然后在= 维空间 中比较两条音高曲线的几何相似性。通过在音高轴上的平移对齐输入哼唱和旋律模板的平均音高, 再通过计算夹在两条曲线间的面积,判断两段旋律的匹配相似程度,面积越小相似度越高。 文【7 】中,c f r a n c u 等又对这种几何相似性匹配方法加以改善,在比较前允许对音高曲线在时间 轴上作线性延伸,从而使得匹配不同节奏的相同旋律成为可能。他们在研究中还提出一种为乐曲作 索引的设想,大致上是一种层进式的分类思想。 现在的大多数系统都使用近似字符串的匹配算法比较旋律,但也有另一些不同的方法。w i l l i 锄 r a n d 等在文 8 9 】提出使用m a r k o v 统计模型比较旋律的相似性,由于是对频率符号建模,他们的方 法对音高不准比较敏感,但能较好地容忍遗漏音符和节奏上的哼唱误差。文 1 0 中,冯雅中等在音乐 库做了统计分析的基础上,总结了一些启发式规则,帮助对哼唱输入进行基音检测、音符分割。哼 唱输入表达为音高轮廓和节奏,音乐库中的音乐按音乐的节奏类型分为不同的节奏区域,并从每首 音乐中抽取旋律轮廓图和节奏信息,用递归神经网络记忆旋律轮廓,音乐库的索引是神经网络的权 值矩阵,将哼唱输入与音乐库中的音乐匹配的过程就是计算神经网络的输出过程。他们在含有1 2 0 0 首乐曲的搜索空间取得了6 5 的前三位命中率。虽然结果不能令人满意,但利用神经网络进行音乐 匹配也是一项创举 但在哼唱检索方面,由于用户凭借自己的记忆哼唱,再加之是非特定人哼唱,如何从哼唱输入 音频信号中有效地提取出旋律特征并对其进行归整化,如何提高旋律匹配时的稳定性,以及如何实 现面向大规模乐曲库的检索高速化等,这些问题还没有得到很好的解决,许多关键技术还有待于进 一步深入研究。 1 2 哼唱式音乐检索系统的框架 哼唱音乐检索技术是人机交互中比较自然方便的一种,是基于内容的音乐检索的一个分支,它 的查询输入不是音乐本身,而是人们哼唱出的曲调。在日常生活中人们有时只记住了某首歌曲的某 段旋律,而忘记了歌曲的名字、演唱者等相关信息。这时用户只要将旋律哼唱出来就能检索出含有 这段旋律的所有歌曲。由于用户大多没有受过专业的音乐训练,在其哼唱的过程中带有很多不确定 因素,如音高不准、走调、节奏误差、音符遗漏等等。因此在进行特征匹配是采用模糊匹配算法, 分别从哼唱输入数据和音乐数据库的特征数据中找到他们最为相似的特征,在进行特征提取时也应 该考虑用户的哼唱习惯,所以哼唱检索系统必须具备一定的容错机制。图卜1 给出了哼唱式音乐检 3 东南大学硕士学位论文 索系统的框架。 哼唱 在线处理 :i 图l - l 哼唱式音乐检索系统的框架 从图卜l 我们可以看到哼唱检索系统主要包含三个模块:哼唱数据的特征提取、音乐数据库的 特征提取和特征的相似性匹配。 对于用户输入的一段哼唱数据,首先要用哼唱信号特征提取模块,提取哼唱数据的基频,从而 得到哼唱的旋律特征,然后在后端的特征数据库进行相似性匹配,查找包含用户哼唱旋律的歌曲, 最后给出歌曲的候选列表,这些操作都是在线处理的。在后端的音乐数据库的特征提取是离线处理 的,数据库存储的是音乐特征数据,而不是音乐本身。前端提取的哼唱信号的特征类型决定了后端 进行旋律匹配时所应该采用的算法。 1 3 音乐检索的核心问题和关键技术 从已有的研究中可以看出,哼唱作为输入的基于内容的音乐检索的核心问题和关键技术主要有 以下三个方面: 1 旋律的表示形式:提取得到的特征值以怎样的数据结构存储。 2 旋律的特征提取:特征提取是指输入音频经过基本的信号处理后,如何从中量化和提取描 述旋律特征的参数值( 如音高、节奏等) 。 3 旋律的匹配算法:如何评价和计算旋律之间的相似性。 其中旋律的匹配算法的研究尤为重要。 围绕着如何解决这三个核心问题,已有的研究提出了多种不同的方案,每一种方案都涉及了一 系列关键技术。其中有些技术相对更通用一些,如语音信号处理,在所有的方案中都有出现,而另 一些技术则针对性很强,往往是个案中所特有的。 本文在旋律的表示形式和旋律的匹配算法这两个核心问题上均进行了一定的改进。 1 4 音乐检索相关的背景知识 音乐是把乐音按一定的规律组织起来,使之听起来产生美感的艺术。物体振动起来有规律的、 单纯的、并有准确高度的音称为乐音;没有一定的高度,振动无规律又杂乱无章的音称为噪音。音 4 第一章绪论 乐是以乐音为主,但噪声也是音乐的表现手法之一。通常可以解释为一系列对于有声、无声具有时 问性的组织,并且含有不同音阶的节奏、旋律及和声。音乐的要素包括:节奏、旋律、和声和音色。 每首不同的音乐都是主要由不同的节奏和旋律来区分的,这两种要素决定了音乐的个性。由两个以 上的乐器或两个以上的人共同演奏的音乐,可以由和声协调组成复调音乐。每种乐器和每个人都有 自己独特的音色。以上的四种要素的不同组合组成了每首音乐独特的性格。音乐里面有许多术语, 这里主要介绍几个跟音乐检索相关的名称。 音高q i t i o h ) :音高是由发音物体振动频率的高低决定,频率振动的次数越多音高就越高,反之亦 然。按照目前国际通用的标准,每秒振动4 4 0 次的声音为“a ”。 旋律l o d y ) :是由一系列不同音高( 也可以相同) 的音以特定的高低关系联系起来的一种音的 序列,是塑造音乐形象的主要手段。 音长( d 砒a l i ) :指一个音符所持续的时间的长度。 音符( 把) :在乐谱上表示正在进行的音的长短。 和声:是一种由多声部或者多种乐器同时发声时产生的声音融合。 节奏( n l y 吐l m ) :各音在进行时的长短关系和强弱关系,是一种以一定速度的快慢的节拍,主要是 运用速度上的快慢和音调上的高低把他们组合到一起。 音色m i 曲他) :不同人声、不同乐器及不同组合音响上的特色。根据不同的音色,即使在同学音 高和同一声音强度的情况下,也能区分出是不同的乐器或入声发出的。音色的不同取决于不同的泛 音,每一种乐器、不同的人以及所有能发声的物体发出的声音,除了一个基音外,还有许多不同频 率的泛音伴随,正是这些泛音决定了不同的音色。 音程( i 咖洲a 1 ) :指两个音在音高上的距离,其单位名称叫做度。 复调:两个或几个旋律的同时结合。不同旋律的同时结合叫做对比复调同一旋律隔开一定的 时间的先后模仿称为模仿复调。 1 5 本论文主要研究的问题和结构 本文通过在音频检索方面的探索研究,实现了基于内容的音频检索的原型系统,系统主要由哼 唱旋律提取、旋律特征匹配和乐曲主旋律提取功能模块所组成。系统的输入为任意形式的单声道音 频,可以是用户对着麦克风即时的哼唱,也可以是已经录制好的音频文件。论文结构安排如下: 第一章:绪论。概括论述了开展基于内容音频检索研究的重要意义及国内外研究现状和发展动 态,然后,简要叙述了哼唱检索系统的框架及核心问题。 第二章:音乐基础及音频文件格式介绍简单介绍了音乐的乐理知识、与音乐相关的概念、音 乐特征的表示方法及相关的音乐信号分析知识,最后,介绍了三种音频文件格式。 第三章:哼唱检索系统及音频信号特征提取与表示。围绕哼唱检索系统框架,介绍哼唱检索系 统的工作流程以及流程中各个步骤的详细过程,并就音频的常用特征的提取与表达方法进行了详细 的论述。 第四章:哼唱检索引擎及关键技术。研究了通过哼唱将熟悉的歌曲旋律哼唱出来,通过麦克风 s 东南大学硕士学位论文 数字化输入给计算机,然后在乐曲库中搜索最相近歌曲的匹配方法。重点是检索引擎中所用算法的 详细介绍。本章中通过对线性伸缩算法的改进,提出了分段线性伸缩,解决了哼唱节奏不一致的 特殊情形。 第五章:实验结果及分析。本章描述了基于内容的哼唱检索原型系统的功能、系统实现和设计 的特点,讲解了系统实现的平台,并给出了检索结果及各种算法的优点与不足。 第六章:总结与展望。总结了本文的工作并就基于内容的音频检索技术未来发展趋势作了进一 步的阐述。 6 第二章音乐基础及音频文件格式介绍 第二章音乐基础及音频文件格式介绍 2 1 音乐乐理基础知识介绍 按照音乐理论,在音乐中使用的、有固定音高的音的总和,叫做乐音体系。乐音体系中的各音 叫做音级,两个音级在音高上的相互关系叫做音程。乐音体系中的音,按照上升或下降的次序排列 起来,叫做音列。总的音域是指音列的总范围,即从它的最低音到最高音( a ,1c5 ) 间的距离。 音乐是由一系列音符序列组成,音符是构成音乐的基本组成单元。每个音符又包含三部分特征。 音高、音长和音强。 音高代表了音符的高低,可以用下面图2 1 钢琴键盘来说明。 一 i l -li l|l 一| li l ll lii o 薯f a 器 coefga 参tcde 芒岱a 誊cd 鬈fgabcd 一群飞瓣蝴棒嘲_ 秘啦辨- # 螂搬聊 蝴糟甜鞠辨枷鼬槲错删一 图2 - 1 钢琴键盘不意图 钢琴键盘上的每一个白键和黑键都是一个音,从音的高低关系来说,不管白键还是黑键,凡是 相邻的两个键都是半音( i l l i t 0 鹏) 的距离。如果单看键盘上的白键,可以看成是由每七个键分为一 组的若干个组所构成,每个组代表了从一个音到它的高八度音之间的一段距离。各组之间的关系就 是由低到高或由高到低逐渐上升或下降的关系。如果两个白键之间插一个黑键,则表明这两个白键 包含两个半音,即一个全音;如果两个白键之间没有插入黑键,则这两个白键包含的就是半音。钢 琴键盘上每组的七个白键,在五线谱中用基本的音高符号c 、d 、e 、f 、g 、a 、b 七个字母来命名, 叫做“音名”。黑键依白键而命名,如c 、d 之间的黑键,可称为升c 或( 托) 或降d ( b d ) ,其中 掸、b 是升高半音或降低半音符号。每个全音阶包含1 2 个半音( 七个白键和五个黑键) 。在简谱中, 对应的音高符号是l 、2 、3 、4 、5 、6 、7 。从物理学角度来看,音高和声波的频率有着密切的关系, 频率越高,则音高越高。 需要注意的是,入耳对声音高低的感觉,是与基本频率的对数成正比。以钢琴的键盘为例,中 央的h 音的频率是4 4 0 h z ,高八度的l a 则是8 8 0 h z ,低八度的l a 则是2 2 0 h z ,钢琴中的每一个全 音阶包含7 个白键和5 个黑键共1 2 个键,代表1 2 个半音,以m d i 的标准而言,中央的【丑的半音 值是国,对应的频率是4 4 0 h z ,因此半音和频率之间的转换公式可写成下列形式: ( 五) = 6 9 + 1 2 l 0 9 2 ( 五4 4 0 ) ( 2 1 ) 音长说明了音符的长短,这是以全音符为基础进行划分的,其它各音符按它与全音符的比值命 名,如二分音符、四分音符就相当于全音符的二分之一、四分之一。通常音乐都是以四分音符为一 7 东南大学硕士学位论文 拍,八分音符为半拍来演奏音乐的。 音强就是人们在听音乐时所感到的强度,也就是人们通常说的声音的强弱、大小或轻重,它代 表音符的强弱,比如在弹奏钢琴时音强说明了一个琴键按下的力度。 2 2 音乐特征的表示 旋律是音乐的灵魂,是音乐的基础音乐的主要特征就是旋律旋律的一个简单的定义是单音 调的连续的音阶序列。旋律可分为声乐旋律和器乐旋律。声乐旋律是人唱的,器乐旋律是乐器演奏 的。我们考虑的旋律是简单的、可以很容易哼唱的。一般意义上的,旋律是音调和节奏的组合。 文献 1 l r 【1 3 】对音乐的记忆特性进行了研究,d o w l i i l g 在文献 1 l 】中指出了旋律的轮廓比精确的旋 律更容易记忆。旋律的轮廓是指音调的起伏的整体形状,即相邻音符的起伏如果音乐的轮廓和音 阶是分开存储在人们的大脑中,而旋律的轮廓是主要的、印象深刻的部分。相同的旋律轮廓可以映 射到不同的音阶上。e d w o 曲y 在文献c 1 2 】中,给出了识别轮廓或音程的改变和旋律长度有密切关系的 观点。d 0 w l i i l g 在文献【1 3 】中也提出了相似的观点。 在以前的研究中,普遍用到的是两种音乐内容的表示方法:基于音乐节奏的表示方法和基于音 乐旋律轮廓( 音调高低) 的表示方法。 1 8 基于音乐节奏的表示方法: 利用音乐的节奏表示音乐内容的方法【1 4 】忽略了音乐的音调特性如果分别用 口、6 、c 、文民f 等表示八分之一音符、八分之二音符等,则某一歌曲片段乐谱 is 5 5 5 3 4i5 7 l6 6 6 6 46l5 ( 歌曲“同桌的你”节选) 可表示为aaa a a a c c a a a a a ac 。因 为其建立在更多的字母表上,所以比基于音乐轮廓的内容表示比较要复杂,虽然如此,仍丢失了很 多的音乐信息,因为它忽略了音乐的音调特性。 2 基于音乐旋律轮廓( 音调高低) 的表示方法: 文献 1 5 】利用三个字符狮a t ) 、u ( u p ) 、d ( d o 叫来表示音乐的旋律轮廓。音乐音调轮廓描述了 相对音调的变化,忽略了音乐的节奏信息,也忽略了音调的精确变化。一段旋律中的字符表示当前 音符与其前面的音符的比较,r 表示音调的重复,u 表示当前音符的音调比其前面音符的音调高,d 表示当前音符的音调比其前面的音符的音调低。如i 墨墨墨呈兰4 i5 7 i 互鱼鱼垒剑5 可表示为 瑚姓源d i 兀兀i d 剐妯m u d 。旋律的音调轮廓同样会丢失音乐信息。这样虽然可以减少搜索空间, 但同时也使搜索变得不精确,对于一个大型音乐库来说,查找的结果过多,不利于找到要搜索的目 标。为了找到目标歌曲,需要较长的输入串,这会与用户对歌曲的记忆的长度相矛盾。 2 3 常见音频文件格式介绍 自从网络技术和p c 支持多媒体技术以来,陆续出现了多种音频格式下面结合基于内容的音 8 第二章音乐基础及音频文件格式介绍 频检索技术介绍几种常见的音频文件格式。 2 3 1w a v 格式文件简介 w a v 是m i c r o s o f tw i n d 佣s 本身提供的音频格式,由于w i n d 佣s 本身的影响力,这个格式已经 成为了事实上的通用音频格式。通常我们使用w a v 格式都是用来保存一些没有压缩的音频,因此它 的文件很庞大,一般都在几船以上也正因为没有采用压缩技术,w a v 文件中声音的采样数据很 容易被读出来,便于做其它处理。如:画出声音的信号波形、求出频谱图等。现在的应用程序几乎 都支持w 趣 ,文件格式,也有专门软件可以完成从w a v 文件格式向其它文件格式的转换,因此w w 文件在目前仍然有着广泛的应用价值。 w w 文件是资源互换文件r i f f 的一种( 如图2 2 ) 。一个w 文件至少包括三个块:r i f f 块,f m t 块和d a t a 块。每个块包含下面几个部分: 4 字节块标记码域;i d ; 4 字节块大小域:s i z e ; 数据域:d a t a 。 f 耵块包含w a v e f o 跚a t 结构所需的信息,即波形数据的采样频率、声道数目、每个样本存储数据 长度:d a t a 块是文件最大的部分,它包含所有w a v e 波形数据,它的末尾就是r i f f 块的末尾【1 6 】。 2 3 2m p e g 简介 图2 - 2w 文件格式 m p e g 即为活动图像专家组( m 0 v 证gp i c t u 坞e x p e r tg r o u p ) ,成立于1 9 8 8 年,这个组织的任务是 建立活动图像及相应音频的编码标准。实际上m p e g 是一个标准系列,包括m p e i 争l ,m p e ( 卜2 , m p e ( 卜4 ,m p e g 一7 和m p e g 一2 l 等 1 7 】 m p e g 的数据流主要包含3 种成分:图像流,伴音流和系统流。图像流仅包含画面信息,伴音流 9 东南大学硕士学位论文 包含声音信息,系统流实现图像和伴音的同步。所有播放m p e g 图像和伴音数据所需的时钟同步信 息都包含在系统流中 m p e g 是一种有损的、非平衡编码。有损意味着为达到低比特率,采用了基于听觉和视觉心理 的压缩模式,一些人眼和人耳最不敏感的图像和伴音信息将丢失;非平衡编码意味着其压缩编码过 程比解码过程慢得多。 在m p e g 对任何类型音频编码时,原始音频流首先通过3 2 个滤波器组转换成对应频谱分量,同 时运用心理声学模型来控制每一子带的位分配,通过对各个子带编码来实现原始信号编码,编码过 程如图2 3 所示。由于m p e g 编码是非平衡编码,因此相对于复杂而又耗时的编码过程,其解码过程 是十分简单的:各子带的序列按照位分配段的信息被重建,然后各子带的信号通过一个合成滤波器 组生成3 2 个连续的1 6 位p 例格式的声音信号。本文中所要提取的基于压缩域的音频特征就是在3 2 个 子带的信号合成之前计算的。 在m p e g 编码过程中,音频信号的频谱通过一组等距带通滤波器被映射到3 2 个子带上。在频谱 映射过程中,使用多相滤波器结构。滤波器组包含5 1 2 个系数,在频域上是等距的,对于采样频率为 2 2 0 5 0 h z 的原始信号来说,按照奈奎斯特通采样定律,信号实际最大频率为1 1 0 2 5 h z ,因此每一个子 带的带宽为1 1 0 2 5 3 2 = 3 4 5 h z 。第七个子带的冲激响应q ) 是通过低通滤波器 o ) 乘上一个将低通 响应转换到对应的频率子带中去的调幅相移函数( f ) 来 图2 3m p e g 音频编码 实现的: 红= 坳) c o s ( 等坝f ) ) m = 3 2 ;,2 ,3 2 ;刀- 1 ,2 ,5 1 2 ( 2 - 2 ) 这样,3 2 维的子带矢量值就可以表示为卷积形式: 5 l l s 弘雄一刀卜鬼m ( 2 3 ) l o 关于m p e g 编码和解码的详细算法,可参见i s o m p e g 的相关标准 1 8 】 1 9 】 1 0 第二章音乐基础及音频文件格式介绍 2 3 3m i d 和r m i 简介 这两种文件扩展名表示该文件是m i d i 文件,它是用数字编码来描述音乐乐谱。其内容是由一系 列的事件所组成,每个事件都带有时间戳,记录了音符的音高、音长、击键速度、音色变化控制器 等等。所以m d i 文件本身不是声音文件,而是一串串的指令,也就是乐谱。因此,m d i 格式的优点 在于文件小,一个六分多钟、有1 6 个乐器的文件也只是8 0 k b 左右,便于网络传输,缺点是只能保存 乐曲而无法包含音频数据的声学信息。m m i 是乐器数字接口的国际标准,它定义了电子音乐设备与 计算机的通讯接口,规定了使用数字编码来描述音乐乐谱的规范。电脑就是根据m d i 文件中存放的 对m d i 设备的命令,即每个音符的音高、音长、击键速度、音色变化控制器音量、通道号等指示信 息进行音乐合成的。 迄今为止,绝大部分的音乐检索系统 1 】【3 】,【2 0 r 唿 都是面向m l d i 数据库。根据m m i 文件的格 式,我们可以直接从中获得哼唱检索中所需的旋律特征,大大减小了音乐数据库特征提取的复杂度 m d i 文件是由多个c h u n k 组成,而乐谱的全部就记录在c h u l l k 里面。表2 1 表示了姒的结构。 表2 1m i d i 文件的结构 c h u n k 类型长度数据 m i d im t h d6 格式 文件m t l 瞅 表示m i d i 文件中t r a c k c h u n k 的数目。 定义了文件中单位d e l t a ,! c i m e 的大小。 表2 2h e a d e rc h 岫k 的结构 h e a d e rc i 啪k 似类型长度数据 4 字节4 字节( 3 2 位长度( 6 字节) 东南大学硕士学位论文 i( a s c ) 二进制数) 1 6 位1 6 位 1 6 位 i i m 1 1 l d 长度格式 t m c k sd i 、,i s i o n l t f kc h u i l l 【的数据部分由一对或多对 和 是可变长度数据,表示下一个时间之前的时间。e v c n t 包括下列事件之一: 1 m d i 删n 伊记录了每一个m d i 通道的v o i c cm e s s a g e 和m o d ei m s s a g e 。v 耐i m s 鼢g e 是提 取音乐特征的关键。它记录了每个音符出现的次序、音高及音长。 2 s y s e x c v 锄伊记录的是系统信息,用于实时控制设备。 3 湖e t a 剞锄伊记录了音轨的名称、歌词等信息,用于辅助取舍音乐特征所需的信息,它并 不作为消息发送。 在格式l 中第一个胁c k 是专用的,它包含了所有的m e t a 吨啪t 、拍子记号、拍子、音序、音序号 等等。以上只是简要的介绍了文件的结构,详细内容可参考 2 3 】。 t h c kc h l 瑚【l 【 类型长度数据 4 字节4 字节 嗽 2 ,印册= 印口以2 ,执行步骤3 ,否则迭代停止 从第3 到
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 养老金制度2025年改革趋势解析:金融市场影响与投资策略报告
- 新能源微电网2025年稳定性控制与能源互联网商业模式研究报告
- 2025年乡村文化旅游资金申请项目乡村旅游与文化遗产保护报告
- 2025年医疗美容行业美容整形医院市场细分与监管策略报告
- 巧手翻花绳劳动课课件
- 巧克力养护知识培训内容课件
- 火器伤急救处理课件
- 2025年电商绿色物流行业物流运输车辆绿色化升级现状与挑战分析报告
- 巍德面料知识培训中心课件
- 奥德燃气监理知识培训课件
- 2025至2030年中国电热毛巾架行业市场发展现状及投资战略咨询报告
- 2025至2030年中国泥炭行业市场深度分析及投资战略咨询报告
- 2025年新高考全国一卷地理试题及答案解析
- 2025年吉林银行招聘考试(综合知识)历年参考题库含答案详解(5套)
- 2025-2026秋学期学校主题升旗仪式安排表+主题班会安排表
- 入职合同里的保密协议竞业协议
- 出租充电桩车位合同范本
- 人工晶体创新创业项目商业计划书
- 2025年长沙市中考数学真题(含答案)
- 开放性骨折感染预防的护理
- 浙江宁波江北区重点达标名校2026届中考三模语文试题含解析
评论
0/150
提交评论