(计算机软件与理论专业论文)音乐哼唱检索关键技术研究.pdf_第1页
(计算机软件与理论专业论文)音乐哼唱检索关键技术研究.pdf_第2页
(计算机软件与理论专业论文)音乐哼唱检索关键技术研究.pdf_第3页
(计算机软件与理论专业论文)音乐哼唱检索关键技术研究.pdf_第4页
(计算机软件与理论专业论文)音乐哼唱检索关键技术研究.pdf_第5页
已阅读5页,还剩79页未读 继续免费阅读

(计算机软件与理论专业论文)音乐哼唱检索关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

音乐哼唱检索关键技术研究 摘要 音频检索与图像检索 视频检索并列为当今基于内容检索研究的热点 而 目前基于内容的多媒体信息检索技术研究成果主要集中在图像和视频方面 在音 乐检索上的成果还不多见 随着数字音乐作品的剧增 音乐检索可以用于搜索引 擎 卡拉o k k t v 厅的点歌系统 还可以用于数字音乐图书馆的检索等领域 哼唱检索给音乐检索提供了易于操作的接1 3 其中哼唱声音的特征提取 选择 音乐旋律匹配以及对环境噪声的处理是音乐检索中的难点 本文紧紧围绕音乐哼唱检索关键技术 开展了以下研究工作 1 给出了基于内容音乐检索的系统框架 通过分析基于内容方式检索音乐 的可行性与难点 给出了哼唱检索的研究方案和处理框架 2 提出了一种基于音乐旋律轮廓的特征提取算法 该算法从哼唱片断中提 取出歌曲基音序列 经规整 合并 分段后转化为旋律轮廓序列 然后使用标准 音调生成的标准音调差值表将此序列转化为旋律轮廓特征 3 提出了一个音乐检索匹配算法 该算法根据歌曲字符串对相似度进行了 重新定义 它将从歌谱轮廓特征序列转化而来的字符串序列与音乐数据库中的歌 曲特征序列进行相似度计算 返回相似度最高的歌曲 4 音乐数据库研究 首先介绍了音乐数据库的建立方法 然后将时间序列 方法引入音乐数据库 使用其中的p a a 算法对音乐数据库进行优化处理 5 设计实现了一个基于内容的音乐哼唱检索系统 经过实验验证该系统对 于单一器乐音乐片段和哼唱的检索具有较高的准确性 成功率达到9 0 以上 同 时也表明 该系统无需事先训练 对环境噪声有较好的鲁棒性 具有较高的检索 精度 本研究工作得到国家自然科学基金 基于w e b 的音频识别与检索关键技术 研究 基金编号 6 0 6 7 3 1 0 0 的资助 关键诃哼唱检索音调差值表歌谱轮廓相似度时间序列 音乐哼唱检索关键技术研究 a b s t r a c t a u d i or e t r i e v a l i m a g er e t r i e v a la n dv i d e or e t r i e v a la l et h eh o tt o p i c si nt h e c o n t e n t b a s e dr e t r i e v a lf i e l d s b u tt h er e s e a r c hr e s u l t so ft h em u l t i m e d i ai n f o r m a t i o n r e t r i e v a lf i e l d si sm a i n l yf e e u s i n go ni m a g ea n dv i d e oa s p e c t s t h e r ea r el i t t l ef r u i t si n t h em u s i cr e t r i e v a lf i e l d s n o wt h e r ea r em o r ea n dm o r en u m e r i cm u s i c s ot h es t u d y o nt h em u s i cr e t r i e v a ls y s t e mi su r g e n ta n di tc a l lb eu s e di nm a n yf i e l d s s u c ha st h e s e a r c he n g i n e p i c k i n gs o n gs y s t e mo fk t vr o o m m u s i cl i b r a r yr e t r i e v a ls y s t e ma n d e ta 1 t h et e c h n o l o g yo f q u e r yb yh u m m i n g c a l lm a k er e t r i e v a le a s yt ou b u tt h e r e a r es o m ed i f f i c u l t i e si nt h eq u e r yb yh u m m i n gf i e l d s s u c ha sf e a t u r ee x t r a c t i o n s o l e c f i o n m u s i cm e l o d ym a t c h i n g e n v k o n m e n tn o i s ea n de ta 1 s u r r o u n d i n gt h ek e yt e c h n o l o g yo ft h eq u e r yb yh u m m i n g t h em a i nw o r k si n t h i sp a p e ra l ea sf e l l o w s 1 t h es y s t e mf l a m eo ft h ec o n t e n t b a s e dm t m i cr e t r i e v a li sg i v e n a f t e r d i s c u s s i n gt h ef e a s i b i l i t ya n dt h ed i f f i c u l t yo ft h em u s i cr e t r i e v a lb a s e do nc o n t e n t s s o l u t i o na n dp r o c e s s i n gf l a m ea r eo b t a i n e d 2 1af e a t u r ee x t r a c t i o na l g o r i t h mb a s e do nt h em u s i cm e l o d yo u t l i n ei sp r o p o s e d t h ea l g o r i t h mp i c k sl l pt h em u s i cp i t c hs e q u 锄 t h e nc o n v e r t e di tt om e l o d yo u t l i n e s e q u e n c e f i n a l l yt h es e q u e n c ei sc o n v e r t e dt om e l o d yo u t l i n ec h a r a c t e r i s t i c sb a s e do n t h et a b l eo f s t a n d a r dt o n ed i f f e r e n c e sv a l u e 3 a m a c c ha l g o r i t h mo f m u s i cr e t r i e v a li sp r o p o s e d t h ea l g o r i t h mr e d e f i n e st h e s t r i n g ss i m i l a r i t ya c c o r d i n gt ot h es o n gc h a r a c t e r i s t i c a n dc o m p a r e st h es t r i n g s e q u e n c et om u s i cc h a r a c t e rs e q u e n c e si nt h ed a t a b a s et og e tt h eo b j e c tw h i c hh a s h i 班s i m i l a r i t y 舢s t u d y i n go f t h em u s i cd a t a b a s e n 地m u s i cd a t a b a s ee s t a b l i s h m e n tm e t h o dh a s b e e ni n t r o d u c e df i r s t l y s e c o n d l yt h et i m es e r i e sm e t h o dh a sb e e nu s e di nt h em u s i c d a t a b a s e a n dt h ep a aa l g o r i t h mw h i c hi sat i m es e r i e st e c h n o l o g yi su s e dt oo p t i m i z e t h em u s i cd a m b a s e 一 童墨 曼垒耋茎壁垫查翌壅 5 ac o n t e n t b a s e dq u e r yb yh u m m i n gs y s t e mi sd e s i g n e da n dc o m p l e t e d t h e e x p e r i m e n t a lr e s u l t ss h o wt h a tt h es y s t e mi sm o r ee x a c t l yi nt h eq u e r yb ym u s i c s e g m e n ta n dt h eq u e r yb yh u m m i n g t h es u c c e s s f u lr a t ei so v e r9 0 s i m u l t a n e o u s l y i th a sb e e no b t a i n e dt h a tt h i ss y s t e md o e sn o tn e e dt r a i n i n gp r o c e s sa n dh a sg o o d r o b u s t n e s st oe n v i r o n m e n t sn o i s e a n dh a sh i d e rr e t r i e v a lp r e c i s i o n t h i sr e s e a r c hw o r ki sap a r to ft h e r e s e a r c ho nt h ek e yt e c h n o l o g yo fa u d i o r e c o g n i t i o na n dr e t r i e v a lb a s e do nt h ew e b n o 6 0 6 7 31 0 0 s u p p o r t e db yt h e n a t i o n a ln a t u r a ls c i e n c ef o u n d a t i o no f c h i n a k e yw o r d s q u e r yb yh u m m i n g p i t c hd i f f e r e n c et a b l e 湖r ec o n t o u r s i m i l a r i t y t i m es e r i e s 西北大学学位论文知识产权声明书 本入完全了解学校有关保护知识产权的规定 即 研究生在校攻 读学位期间论文工作的知识产权单位属于西北大学 学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版 本人允许论文被 查阅和借阅 学校可以将本学位论文的全部或部分内容编入有关数据 库进行检索 可以采用影印 缩印或扫描等复制手段保存和汇编本学 位论文 同时 本人保证 毕业后结合学位论文研究课题再撰写的文 章一律注明作者单位为西北大学 保密论文待解密后适用本声明 学位论文作者签名 聋红遮指导教师签名 雌 渺7 年 月协日 期年 月f 汨 西北大学学位论文独创性声明 本人声明 所呈交的学位论文是本人在导师指导下进行的研 究工作及取得的研究成果 据我所知 除了文中特别加以标注和 致谢的地方外 本论文不包含其他人已经发表或撰写过的研究成 果 也不包含为获得西北大学或其它教育机构的学位或证书而使 用过的材料 与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示谢意 学位论文作者签名 荔幺l 波 二零零七年四月 音乐哼唱检索关键技术研究 第一章绪论 哼唱检索是从音乐本身进行的一种检索方式 它不关注歌曲或音乐的外在 信息 比如歌曲名称 演唱者 作者等 而是对音乐的节奏 旋律等内在信息 进行分析挖掘 从而得到检索结果 满足了人们通过旋律 节奏等方式检索音乐 的能力 本章主要介绍哼唱检索有关的基本概念 基于内容的音乐检索的基本方法 及其国内外研究现状 同时包含研究背景 主要研究内容及全文组织结构等内容 1 1 引言 二十一世纪是一个信息时代 它的显著标志就是个人计算机的高度普及和 互联网的迅猛发展 信息 知识和资讯等以前所未有的速度和方式涌向我们 这 促生了检索技术及应用的蓬勃发展 从g o o g l e 到百度 无一不是互联网上的明 星 可以说 通过他们 人们对检索的重要性有了新的认识 基于内容的检索技术也正是在这种背景下蓬勃发展起来的 与传统的基于 文本的检索方式或搜索引擎相比 基于内容的检索技术强调从对象本质着手 挖 掘相关属性 并进行搜索 当然 对现有搜索引擎而言 基于内容的搜索方式只 是对现有搜索技术的一个良好补充和加强 它并不能完全代替传统的文本检索方 式 它增强了人们在搜索领域的能力 能给用户以更好的搜索体验 基于内容的音乐检索 是对音乐进行内容检索的一种方式 它强调从音乐 本身所拥有的音乐旋律等信息进行歌曲检索 伴随着数字音乐的爆炸性增长 使 用内容检索方式的哼唱检索己越来越多地受到关注 从大学 研究机构到企业 公司 对它已有不少研究 并期待这一技术在不远将来能够商业化 音乐与人的听觉感知紧密相关 它更多的传达了一种感情 一种很难量化 的情绪 音乐的这种特性决定了在音频的分类检索技术中所用到的歌名 演唱者 等外在信息对音乐分析并不适用 当前绝大多数的音乐搜索引擎例如 y a h o o c o i n g o o g l e c 伽等 都是使用歌曲的歌名 演唱者 作者或者歌词等来 建立索引架构 然后供用户使用 但用户经常会遇到这种情况 他能记得歌曲的 某些片断 却无法想起歌名或演唱者等信息 从而利用上面搜索引擎无法找到目 音乐哼唱检索关键技术研究 标歌曲 使用哼唱检索技术 q u e r yb yh u m m i n g q b h 将有效的解决上述问题 哼唱检索是一种基于内容的音乐检索 c o n t e n t b a s e dm u s i cr e t r i e v a l c b m r 方式 它通过用户哼唱来进行检索 相对于传统的使用歌名 演唱者等外在信息 的检索方式 它是根据音乐的旋律 节奏等内在特征来进行检索 因此相对于传 统的关键字形式的用户接口 哼唱检索使用户能得到更佳的搜索体验 从本质上说 哼唱检索是基于内容音乐检索的一种直接应用 即基于内容 的音乐检索是其研究核心 哼唱检索是在输入手段上的一种创新 从人机交互角 度来看具有广泛的应用前景 例如 使用哼唱检索方式的音乐搜索引擎 使用手 机等便携设备进行点歌 哼唱式的作曲系统等等 1 1 1 课题研究意义 对于基于内容的音乐检索研究 有着更严广泛的价值和意义 1 目前的搜索引擎还大致停留在文字输入方式的数据获取 不能满足通过 旋律进行检索的需求 因此如果将哼唱检索应用进来 我们将可以直接使用歌声 哼唱的方式来搜寻所有在网络世界中的数字音乐数据 例如m p 3 m i d i 等 并立刻可以进行下载及播放 2 可以用于卡拉o k 或k t v 的点歌系统 这是哼唱检索技术最直接的一 个应用领域 3 可以应用于数字典藏系统 如数字音乐图书馆m d l m u s i cd i g i t a l l i b r a r y 1 2 i 可以使检索操作过程更为简便且人性化 让使用者能自行选择最 方便 最容易的方式来检索数字典藏系统 4 可以应用于作曲分析上 不仅使作曲家可检测歌曲是否被仿冒 也方便 作曲家对创作作品与已有作品进行交叉比对和参考 5 可以用于歌曲学习及演唱评分 除了提供点歌搜寻以及伴唱的娱乐功能 外 还可以准确的辨识节拍与音准的掌握度 达到较为专业的评分功能进而产生 歌曲学习的教学功能 6 对于音乐创作者来说 哼唱检索具有很大的吸引力 因为它将可以让业 2 音乐哼唱检索关键技术研究 余作曲家将哼唱声音转为m i d i 当作曲家灵感一来 只要就着麦克风哼唱一段 系统就可以将接收到的旋律 直接翻转成相应的乐谱 7 哼唱检索进一步研究进行以旋律 及声纹v o i c ep r i n t 进行身份辨识 即透过系统来辨识演唱者的身份 综上所述 哼口昌检索是一项有意义的研究工作 在研究过程中应该充分利 用音乐知识 将音乐的乐理和语音信号处理进行有机结合 善于利用新技术和新 方法 不断提高系统性能 同时 不断挖掘新的交互应用途径和应用点 从而使 哼唱检索走向实用 1 1 2 课题背景 现在每年只是在中国就会有上千张的新音乐专辑出现 面对大量涌现的新 音乐和海量的经典音乐 对于喜爱音乐的人们来说 通过他们所熟悉的音乐旋律 特征来查找音乐是一种更受欢迎的方法 随着计算机越来越多地用于多媒体领 域 对多媒体数据进行内容检索已越来越为人们所重视 近年来 围绕基于内容检索的多媒体检索技术 国际上如美国 日本 英 国 新西兰等都已开展研究 并取得了一定的进展 为了使众多的音频 视频数 据在网络上能够被使用者以最自然的语法来获取他们想要的多媒体资料 m p e g 7 国际标准被制定出来 它简称多媒体内容描述接口 它定义了用于描述 多媒体内容的多媒体描述定义语言 2 0 0 6 年 c 0 1 心棚n i c a n o n so ft h ea c m 杂志在第8 期对音乐检索 m u s i cr e t r i e v a l 等进行了专题探讨 3 一涠 足见对此课题的重视程度 1 1 3 国内外研究现状 哼唱检索以其独特的以用户体验为核心的检索方式 及自身所拥有的商业 发展潜力 已经被越来越多的人所关注 1 9 9 5 年 g l l i 越 6 等展示了首个q b h 系 统 此系统将歌曲转换为音调轮廓信息进行匹配 利用三个字符s s a m e u u p d d o w n 来表示音乐的旋律轮廓 一段旋律中的字符表示当前音符与其前面的音 符的比较 s 表示音调的重复 u 表示比其前面音符的音调高 d 表示比其前面 音乐哼唱检索关键技术研究 音符的音调低 m c n a b l 7 8 等增加了对音乐节奏信息的提取提高检索成功率 上 述两人的检索系统都使用了字符串匹配的相似度方法进行结果排序 b l a c k b u r n l 9 1 等 r o l a n d 删等和s h i h t 1 发展了m c n a b 的方法 使用基于树的数据库搜索技术 以提高搜索精度和速度 c h e r t 1 2 等使用半音 s e m i t o n e 作为距离测量方法 并 且去处掉旋律轮廓中重复的音符 k o s u g in 五 等在其系统中使用欧氏距离进行 搜索 并且该系统中用户输入及数据库内容都被分割为固定窗长 h u t l 5 1 等在旋 律提取中也使用了固定窗长技术 s h i h 1 6 1 等在其q b h 系统中使用了隐马尔科夫 模型 m m 这项技术已经被成功应用到语音识别等领域 c l a r i s s e l l r j 等为哼 唱检索系统创建了一个听觉模型 p a r d o 1 8 培尝试了两种不同的相似度计算方法 用于哼唱搜索 一是使用距离估计目标和数据库中数据的差异 二则将数据库中 的旋律序列看成h m m 形式 而输入数据看作观察序列 只有当某个h m m 结构 看起来能够产生查询序列而这才相匹配 l u 1 9 噜提出一种新的旋律字符串 使用音调轮廓 音调间隔和音调长度的组合 其系统使用了字符串匹配和动态规 划相结合的方法 及使用层次化的搜索方法来提高检索结果 x h u 2 0 l 等动态时间 规整 d 呵w 索引技术将演唱歌曲直接与数据库中的歌曲进行比较 国内如浙江大学印 上海交通大学 2 2 1 西北大学 2 3 1 等也在基于内容音乐检 索方面开展了研究工作 各系统的解决方案如表1 i 所示 表1 1 哼唱检索技术发展总结 作者特征提取技术搜索技术时问 g h i a s 基音轮廓 u d s 字符串匹配 1 9 9 5 m c n a b 基音轮廓 u d s 音长 字符串匹配1 9 9 6 2 0 0 0 b l a c k b u r n 基音轮廓 u d s 基于树的搜索 1 9 9 8 1 9 9 9 r o l a n d c h e n 半音 音长动态规划 1 9 9 8 k o s u g i 固定窗口长度基音信息动态规划 1 9 9 9 h u a n d z h u2 0 0 3 c l a r i s s e 基音 音长 d t w2 0 0 2 s h i l i 基于基音特征的隐马尔基于树的搜索 2 0 0 2 科夫模型 音长 p a u w sm i d id t w2 0 0 2 p a r d o m i d i h m m相似度 2 0 0 4 传统的哼唱检索系统使用哼 鼻子 或者唱 口 固定的符号如 b a l a 4 音乐哼唱捡索关键技术研究 d a 等 更早的检索系统还需要在用户哼唱过程中加入辅助手段如节拍器以便分 割音符 1 1 4 选题来源 本课题得到国家自然科学基金资助课题 基于w e b 的音频识别与检索关键 技术研究 基金编号 6 0 6 7 3 l o o 的资助 西北大学可视化研究所近年来围绕内容检索领域开展了大量的研究工作 承担并完成了 基于内容检索技术研究 数据挖掘技术的研究与实现 计算 机辅助文物复原技术研究 等多项国家级 省部级项目 在内容检索技术方面积 累了重要研究数据与经验 为基于内容的音乐哼口昌检索提供良好的技术支撑 本项目的研究将乐理 信号处理和搜索技术与多媒体数据处理方法有机结 合 研究音乐及哼唱声音的特征提取方法 构造基音到歌谱的转换表 实现从声 音到歌谱轮廓的转换 从而使音乐的内容检索成为可能 然后定义字符串相似度 函数 实现音乐相似度比较 并完成搜索 该课题的研究具有重要的理论意义与 广阔的应用前景 1 2 研究内容 哼唱检索给音乐检索提供了易于操作的接口 其中哼唱声音的特征提取 选择 音乐旋律匹配以及对环境噪声的处理是音乐检索中的难点 本文针对这些 问题提出了特征提取及匹配算法 设计并开发了 m u s i ca n g e l 音乐哼唱检索 系统 主要从事了以下方面的研究工作 1 音乐哼唱检索技术原理研究 哼唱检索是一种新颖的搜索技术 具有良好的使用前景 但如何从哼唱 者声音中寻找合适特征 然后从音乐数据库中搜索到最为匹配的歌曲 是 一个富有挑战性的研究工作 本文从分析音乐乐理 音乐的信号特征入手 研究了哼唱检索的原理 并给出了用于系统实现的技术路线 2 哼唱检索特征提取算法研究 哼唱本质上也是声音的一种表现形式 而语音技术多年的研究经验可以 音乐哼唱检索关键技术研究 有效地帮助哼唱检索的研究 同时 音乐又与正常的发音不同 在它背后 包含了富有艺术性的音乐旋律内涵 哼唱检索系统不可能从演唱者哼唱数 据本身直接进行比较 必须把隐藏在这些原始哼唱数据中的语音特征 音 乐特征提取出来 才能够抓住问题的本质 获得成功 本文将从多角度研究哼唱片段的特征提取技术 并给出相应算法 3 音乐匹配及相似度算法研究 哼唱检索的最后一个重要步骤就是音乐匹配 在特征提取完成之后 大 数据量的二进制数据将被转化为长度很短的字符串序列 将这些序列与音 乐数据库中的数据进行相似度计算 再返回若干相似度最高的音乐 即完 成了搜索过程 4 环境噪声鲁棒性实验 哼唱检索的最终目的是要走向实用 所以对环境噪声的影响要尤为注 意 本文研究测试了在正态随机噪声 环境冲激噪声和呼吸噪声的影响下 上述哼唱检索算法的稳定性和适应性 1 3 内容组织 2 0 0 0 年以后 哼唱检索理论及其应用在国际上得到了较快的发展 许多新 技术和方法得到应用 涌现出一批新的系统原型 但从整体看 由于人们对语音 技术自身研究仍旧处于一个较低的水平 对音乐内容的存储和表示 音乐特征的 选取和提取 音乐相似度比较和系统的环境鲁棒性等等一系列问题没有好的解决 方案 因而一直无法推出商业应用 本课题将充分学习和研究国内外哼唱检索技术的最新进展 吸取前人经验 研究开发出一套鲁棒性较好 时间复杂度低 检索精度较高的音乐检索系统 并 对系统关键算法进行改进 综上所述 结合国内外音乐哼唱检索理论的研究动态 我们确定了以下几 个研究方向 音乐的信号处理 歌谱轮廓特征提取 音乐检索匹配算法 系统设 计和实现 围绕以上主题 本文主要分为七个章节 6 音乐哼喝检索关键技术研究 第一章 绪论 简要介绍哼唱检索和基于内容检索的一些基本概念 研究意 义 研究背景及其国内外研究现状和选题来源 同时简介本课题的研究内容和组 织方式 第二章 基于内容音乐检索基础原理研究 首先通过对音乐乐理 音乐的数 字化表示及音乐信号处理理论的研究学习 讨论了音乐通过基于内容方式进行检 索的可行性 然后分析了基于内容音乐家检索中的难点 最后给出了基于内容音 乐检索的研究方案和处理框架 第三章 音乐旋律轮廓提取算法 针对基于内容音乐检索原理分析 提出了 音乐旋律轮廓特征的提取算法 m c e a 该算法首先从哼唱片断中提取歌曲基 音序列 经规整 合并 分段后转化为歌谱轮廓序列 最后 根据使用标准音调 生成的标准音调差值图 将歌谱轮廓序列映射为可供搜索的特征字符串 第四章 音乐检索匹配算法 首先研究字符串匹配检索算法和音乐旋律匹配 算法 分析了基于内容音乐检索中音乐匹配的难点 提出用于基于内容音乐检索 的字符串相似度计算方法 该算法将由歌谱轮廓特征序列转化而来的字符串序 列 与音乐数据库中的歌曲特征序列进行相似度计算 返回相似度最高的歌曲 第五章 音乐数据库技术研究 首先介绍了用于音乐哼唱检索的音乐数据库 的建立方法 并给出了数据库优化的一些方法和思路 接着尝试将时问序列技术 中的p a a 算法用于音乐数据库的数据处理工作 第六章 音乐哼唱检索系统及实现 结合上述研究内容 实现了一个基于内 容的哼唱检索系统一 m u s i c a n g e l 并进行哼唱检索试验 试验效果表明 该系统无需事先训练 对环境噪声有较好的鲁棒性 具有较高的检索精度 第七章 结论及展望 对本文做出总结分析 并对今后的基于内容音乐检索 研究进行了展望 刚 4 本章小结 本章是全文的纲领性部分 阐述了论文的研究意义 课题背景 国内外研究 现状及选题来源 并重点介绍了本课题的主要研究内容 最后包括全文组织结构 及各章概要 7 音乐哼唱检索关键技术研究 第二章基于内容音乐检索基础 互联网正以前所未有的速度改变着人们的生活 快速丰富的信息 包罗万象 的资源 更重要的是这些资源可以为任何人所拥有 搜索引擎正是打开这些资源 的一把钥匙 传统音乐检索方式是通过对音乐的元数据 m e t a d a t a 例如歌曲名称 歌词 演唱者 歌曲作者等外在信息进行文本方式的检索 基于内容的音乐检索则是利 用音符和旋律等音乐特征来进行检索 本章通过对音乐乐理的介绍 音乐数字化的分析以及对音乐从信号处理角度 研究 讨论了音乐通过基于内容方式进行检索的可行性 然后分析了基于内容音 乐家检索中的难点 最后给出了基于内容音乐检索的研究方案和处理框架 2 1 预备知识 2 1 1 音乐乐理基础 乐理 就是关于音乐的理论 不同的国家和民族有不同的社会环境和不同的 文化背景 因而也就应该有不同的音乐实践和不同的音乐理论 中国音乐理论遵循的是 音无定高 拍无定值 谱无定法 演奏 或演唱 者应根据自己对音乐的理解去塑造音乐形象 简而言之 是一个开放的音乐体系 而西方的音乐理论 尤其是乐理 则讲究的是 音高和音值是构成旋律的基 本要素 必须按谱演奏 任何改变音高或音值的做法必将改变音乐形象 是一 个封闭的音乐体系 我们目前所使用的乐理体系源于欧i f f 是欧洲文艺复兴时期音乐基础理论的 结晶 下面 我们对基于内容音乐检索中所涉及到的一些基本音乐乐理概念做简 要介绍 1 音 由听觉器官感觉到的信息就叫做音 在物理学中 物体振动在弹性 体里的传播 叫做波动 简称为波 在空气中传播的波叫声波 能为人的听觉器 官所感觉到的声波叫声音 而包含信息的声音就是音 音的性质有四种 即音高 音值 音量和音色 音乐哼唱捡索关键技术研究 音高 就是音的高低 是由振动频率的多少来决定的 音值 就是音的长短 是由振动延续的时间长短来决定的 音量 就是音的强弱 是由振动幅度的大小来决定的 音色 就是音的色彩 是由泛音的多少和各个泛音的强弱来决定的 在以上四种性质中 前三种性质里的 振动 主要指的是基音的振动 音的这四种性质对于塑造各种不同的音乐形象均起着相当重要的作用 但是 音高和音值对于音的组织起着决定的作用 2 乐音 在音乐中使用的 有固定音高的音叫做乐音 而把音高不明显 或者音高不固定的音叫做噪音 乐音具有上述全部四种性质 而噪音则由于其音高不明显或音高不固定而主 要只考虑其中的后三种 3 基音和泛音 绝大多数物体在振动时 振动的不仅是整个物体 它的各 个部分也分别在同时振动 这种振动叫复合振动 复合振动所产生的音叫复合音 其中整体振动所产生的音叫基音 各个部分振动所产生的音叫泛音 4 乐音体系 基本乐音的总和 叫做乐音体系 乐音体系中的音按照音高关系排列起来 叫做音歹l j 其中从低到高的排列叫 做上行音列 由高到低的排列叫做下行音列 5 音级 乐音体系中的各音叫音级 具有独立名称的音级叫做基本音级 6 唱名和音名 所有的音级都有两种名称 在唱乐谱时所使用的名称叫做 唱名 在书面或口头语言中所使用的名称叫做音名 基本音级的音名使用英语字母表中的前七个字母 只不过不是从a 而是从c 开始 唱名是意大利体系 音名和唱名如下示例图所示 9 音乐哼唱检索关键技术研究 音名 唱名d o聆 n u f as o ll as i 拼音d o u m a im if a s u ol a x i 图2 1 音名和唱名 7 八度 在音列中两个相邻的具有同样名称的音级叫做八度 2 1 2 音乐记谱表示 用书面形式将音乐记录下来的方法叫做记谱法 用记谱法记录下来的内容口q 做乐谱 记谱方法自古就有 现在普遍使用的是简谱和五线谱 五线谱用五条平行横线和一些符号来记谱 能准确的表达音高 有利于记载 多声音乐 是专业音乐工作者必须掌握的一种记谱方法 例如 中华人民共和国 国歌的前奏乐谱用五线谱记录为 图2 2 国歌 的五线谮表示 简谱则用阿拉伯数字和一些附加成分来记录乐曲的音高和音值 流行音乐多 采用此方法 同上 国歌的前奏乐谱用简谱记录为 j aa 坠一堇 互 65 塾三皿31避逝1 一 一 图2 3 国歌 的简谱表示 2 1 3 听觉特性 人类的听觉活动是一个复杂的生理和心理过程 人类的耳朵所能听觉到的声 l o 音乐哼唱检索关键技术研究 音频率范围大概介于2 0 赫兹到2 0 千赫兹 而人类一般由声带所发出的声音则是 成年男性介于5 0 到2 5 0 赫兹 成年女性介于1 2 0 到4 0 0 赫兹 小孩介于1 5 0 到 4 5 0 赫兹 我们平时在唱歌时候频率则大概会落在3 0 0 到3 4 0 0 赫兹左右 因此 每个人的所能发出的音也大致介于l 到4 个八度音之间 因此取样频率就可以因 此设定范围在5 0 到3 5 0 0 赫兹之间 使得音高侦测的准确度得到提高 2 2 音乐的数字化表示 能够听见的声音都是连续的模拟信号 为了能够保存在计算机中 要对连续 的模拟信号进行采样 然后再保存为以二进制形式存储的数字化音乐文件 对于 不同平台 目前常用的计算机音乐文件格式也不尽相同 每种格式能支持的音频 参数和使用环境各不相同 以下对目前常见的音乐格式进行简要介绍 2 2 1 声音文件 声音文件指的是对真实声音的模拟波形进行二进制采样后得到的数据 是对 声音的真实反映 这样存储声音信息所产生的声音文件是相当庞大的 因此绝大 多数声音文件采用了不同的音频压缩算法 在基本保持声音质量不变的情况下尽 可能获得更小的文件 w m d o w s 平台上常见的声音文件格式有 w a v e 格式 w a y 由m i c r o s o f t 公司开发的声音文件格式 也叫波形声音 文件 它支持m s a d p c m c c i t t a l a w 等多种压缩算法 支持多种采样频率 和声道 它的音质较好 是w i n d o w s 平台上最重要的声音文件格式 文件大小 只和采样精度及时问长度相关 即在一定的采样精度下 所有时阊一样的声音文 件不管其内容如何 文件大小相同 m p e g 格式 m p l m p 2 m p 3 m p 3 是指的是m p e g m o v i n g p i c t u r e e x p e r t s g r o u p 标准中的音频部分 也就是m p e g 音频层 它诞生于八十年代的德国 根据压缩质量和编码处理的不同分为3 层 m p 3 分别对应m p l m p 2 r a p 3 这3 种声音文件 m p e g 音频文件的压缩是一种有损压缩 m p e g 3 音频编码具有 1 0 1 1 2 1 的高压缩率 它利用人耳的掩蔽效应 牺牲声音文件中1 2 k h z 到1 6 k h z 高音频这部分的质量来换取文件的尺寸 同时基本保持低音频部分不失真 相同 音乐哼唱检索关键技术研究 长度的音乐文件 用r a p 3 格式来储存 一般只有w a v 文件的i 1 0 而音质要低 于c d 格式或w a v 格式的声音文件 r e a l a u d i o 格式 r m r a r a m r e a l a u d i o 是r e a l n e t w o r k s 公司推出的一 种音频文件格式 它主要用来在低速率网络上进行在线音乐欣赏 因而通常它的 回放效果较差 它可以根据网络数据传输速率的不同而采用不同的压缩比率 在 数据传输过程中边下载边播放音乐 从而实现声音数据的实时传送和播放 w m a 格式 w m a t 即w i n d o w sm e d i a a u d i o 是m i c r o s o r 公司推出的又 一种压缩音频文件格式 它比r a p 3 的压缩率更高 可达l 1 8 w m a 的另一个 优点是内容提供商可以通过d r m d i g i t a lp d g h t sm a n a g e m e n t 方案如w i n d o w s m e d i ae i g h t sm a n a g e r7 加入防拷贝保护 这种版权保护技术可以限制播放时间 和播放次数甚至于播放的机器等等 2 2 2 m i d i 文件 为解决电子乐器之间的通信问题 1 9 8 2 年 国际乐器制造者协会会议通过 了 通用合成器接口 方案 并命名为 音乐设备数字接口m i d i m u s i c a l i n s t r u m e n td i g i t a li n t e r f a c e m d i 文件记录的是音乐演奏指令序列 说明了在什么时间 用什么乐器演 奏什么音符及如何演奏 实际上m i d i 文件是利用声音输出设备或与计算机相连 的电子乐器进行演奏 其中并不包含真实声音的数据 所以文件尺寸要比声音文 件小的多 m i d i 的主要特性包括 1 m i d i 文件是一种数据文件 包含音乐数据和命令 2 m i d i 文件是一种二进制文件 3 m i d i 文件并不能跨越所有平台或软硬件 2 2 3 模块文件 模块m o d u l e 格式是一种已经存在了很长时间的声音记录方式 它同时具有 m i d i 与数字音频的共同特性 也就是说模块文件中既包括如何演奏乐器的指 令 又保存了声音信号的采样数据 因此其声音回放质量对音频硬件的依赖性较 1 2 音乐哼唱检索关键技术研究 小 在不同的机器上可以获得基本相似的声音回放质量 它的后缀名常 为 m o d s 3 m x m m t m f a r k a r i t 等 2 3 音乐信号特征及处理 语音是人类相互之间进行交流时使用最多 最自然也是最基本的信息载体 语音信号的研究有着较长的历史 从2 0 世纪4 0 年代初美国人h d u d l e y 展出了 一个简单的发声过程模拟系统到现在 已经走过了快7 0 年的历史 在这7 0 年的 时间里 语音信号处理取得了许多瞩目的成就 哼唱也是一种发声活动 因而 我们可借助语音技术的成功经验和成熟技术 为哼唱检索的研究提供便利 2 3 1 音乐信号特征 音乐数据的特征提取和特征向量的构建 对于索引算法的设计 音频检索的 效率 精度起着至关重要的作用 哼唱虽不同于说话 但从发声角度看二者并无本质差异 所以 在语音识别 中所使用的那些语音特征可以作为我们进行音乐检索研究的 候选 特征 根据 信号的物理特性 音频特征包括时域特征 频域特征和基于滤波器的倒谱特征 这些特征包括 以下若参数不作特别说明 其含义分别为 础 表示语音信号 胆 表示加窗 1 短时能量 s h o r t t i m ee n e r g y 和短时平均幅度 s h o r t t i m ea v e r a g e m a g e n i t u d e e 砌 w n m 2 2 1 e j 砌 w n m 2 1 式是短时能量函数 2 2 式是短时平均幅度函数 短时能量和短时平均幅度函数的主要作用有 音乐哼唱检索关键技术研究 b 可用来区分声母 韵母的分界 连字的分界 信噪比较高的情况下可区 短时平均过零率 s h o r t t i m e a v e r a g e z e r o c r o s s i n g r a t e 当离散时间信号相邻两个采样点的正负号异号时 称之为 过零 即此时 信号的时间波形穿过了零点平的横轴 统计单位时间内样点值改变符号的次数就 乙 ls 口 m 卜s 鲷 工 卅一1 i 以行一哟 2 3 鼽s 鲫为符号溅眺卧 l 蕊孙州为窗溅常 采用矩形窗 窗长为 即 b s n n 1 l 这样 在采用矩形窗的 釉翮氤涨舢朋m 叫磊j 邀橇积脆脯的 乙2 素 至撕鲷h 伽 一s 朗 坍 1 l 2 4 i 短时平均过零率可以用来粗略估计语音的频谱特性 它的主要用途有 b 配合其他参数进行清浊音的区分 3 熵特征 e n t r o p y e r r y 即 l g p 2 5 跗 眇 叫儋阻 f h 2 2 6 其中m a 是指将音乐帧的频率带划分为 个频率子带后 第f 个频率子带 上的能量 1 4 音乐哼唱检索关键技术研究 4 线性预测系数 l i n e a r p r e d i c t i o nc o d i n gc o e f f i c i e n t 1 9 4 7 年维纳首次提出了 l i n e a r p r e d i c t i o n 这 概念 而板仓等人在1 9 6 7 年首先将线形预测技术应用到语音分析和合成中 它的基本思想是 由于语音样点之间存在相关性 所以可以用过去的样点值 来预测现在或未来的样点值 即一个语音的抽样能够用过去若干个语音抽样或它 们的线性组合来逼近 通过实际语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来 决定唯一的一组预测系数 这就是线性预测系数 即已知过去p 个信号值 下一 个样点值工0 可表示为 刀 兰口 石 胛一f 2 7 f l 预测误差为占 厅 工 1 一 竹 一妻a i x o 一0 这样 通过在某个准则 i 1 下使预测误差s n 达到最小值的方法来唯一的确定一组预测系数 吨o 1 2 p p 称为预测阶数 5 m e l 倒谱系数 m e lf r e q u e n c yc e p s t r a lc o e f f i c i e n t 一个信号的倒谱定义为信号频谱模的自然对数的逆傅里叶变换 即 工 i d f t 扯i 删叮 工 m 2 8 式中d 刀为离散傅里叶变换 i d f t 为逆离散傅里叶变换 而m e l 倒谱系数m f c c m e lf r e q u e n c yc e p s t r a lc o e f f i c i e n t 的分析着眼于 人耳的听觉特性 因为人耳听见的声音的高低与声音的频率并不成线性正比关 系 使用m e l 频率尺度更符合入耳的听觉特性 m e l 频率与实际频率之间的关系 为 m e t f 2 9 5 9 i g 1 f 7 0 0 2 9 这里 的单位是舷 撇开人的因素 音乐在本质上表现为音符的序列 而人在演唱过程中 也总 是向这些音符靠近 以求演唱准确 这就提示我们 可以从音乐本身所具有的特 1 5 音乐哼唱检索关键技术研究 质这个角度去研究音乐检索 上面所述的这5 种音乐特征是从信号处理的角度去寻找的 从音乐角度来 看 它还有音高 音调 音值 节奏 节拍 速度和旋律等众多音乐特征 如何从众多的特征中选择合适的特征去描述音乐 提供检索依据是问题解决 关键 现有系统基本上都选用某一种或几种特征 无论是哪种特征都具有片面性 因而特征的选取也是非常关键的 2 3 2 音乐信号预处理 2 3 2 1 预滤波 预滤波的目的主要有两个 1 抑制输入信号各频域分量中频率超出 2 的所有分量 z 为采样频率 以防止混叠干扰 2 抑制5 0 h z 的电源工频干扰 预滤波器必须是一个带通滤波器 设其上 下截止频率分别是厶和兀 对 于大多数语音解码器 厶 3 4 0 0 h z 兀 6 0 一l o o h z 2 3 2 2 预加重 由于语音信号的平均功率谱受声门激励和口鼻辐射影响 高频端大约在 8 0 0 h z 以上按6 d b 倍频程跌落 所以求语音信号频谱时 频率越高相应的成分 就越小 高频部分的频谱比低频部分难的难求 因此要对语音信号先进行预加重 p r e e m p h a s i s 处理 其目的是提升高频部分 使信号的频谱交得平坦 保持 在低频到高频的整个频带中 能用同样的信噪比求频谱 通常使用一阶的数字滤波器来进行处理 即 日 z 1 一 z 2 1 0 a 值接近于l 典型值为o 9 4 1 6 音乐哼唱检索关键技术研究 2 3 2 3 加窗分帧 语音信号从整体来看其特征及表征其本质特性的参数均是随时间变化的 所以它是一个 非平稳态过程 虽然语音信号具有时变特性 但是在一个短时 间范围内 1 0 3 0 m s 其特性基本保持不变 因而可将其看作是一个准稳态过 程 即语音信号具有短时平稳性 所以任何涉及语音信号的分析都必须建立在 短 时 的基础上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论