




已阅读5页,还剩69页未读, 继续免费阅读
一种基于语谱特征提取的音乐检索系统的设计与实现优秀毕业论文 可复制黏贴.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文硕士学位论文 (工程硕士)(工程硕士) 一种基于语谱特征提取的音乐检索系统的 设计与实现 the design and implementation of music retrieval system based on spectrogram feature extraction 金喆 哈尔滨工业大学哈尔滨工业大学 2011 年 06 月 国内图书分类号:tp311 学校代码:10213 国际图书分类号:621.3 密级:公开 工程硕士学位论文工程硕士学位论文 一种基于语谱特征提取的音乐检索系统的 设计与实现 硕 士 研 究 生 :金喆 导师 :张 宇 副教授 副导师 :吕二涛 工程师 申请学位 :工程硕士 学 科 、 专 业 :软件工程 所在单位 :软件学院 答辩日期 :2011 年 06 月 授予学位单位 :哈尔滨工业大学 classified index: tp311 u.d.c.: 621.3 dissertation for the masters degree in engineering the design and implementation of music retrieval system based on spectrogram feature extraction candidate: supervisor: associate supervisor: academic degree applied for: speciality: affiliation: date of defence: degree-conferring-institution: jin zhe a.prof. zhang yu engineer lv ertao master of engineering software engineering school of software june, 2011 harbin institute of technology 哈尔滨工业大学工程硕士学位论文 - - i 摘 要 随着互联网应用的不断丰富,人们对于多媒体音乐的需求逐渐增大,用户对 于音乐检索的需求也不断增加。 传统的音乐检索,采用基于文本的检索方式,只能根据音乐的外部文本信息, 如:歌曲名,歌手名,歌曲简介等,通过简单的文本匹配查找到相应的音乐。这 种查找方式结果的准确率除了取决于文本匹配的算法以外,还取决于音乐描述文 本的准确性。这些描述文本大部分由人工编辑的,当音乐数量巨大时,容易出现 描述错误,描述文本不能正确表示音乐本身内容,这也会对查询结果产生影响。 为了解决基于文本匹配的方式带来的问题,论文提出了一种新的思路。采用 了一种基于内容的音乐检索的方式,通过提取音乐文件的语谱图,选取其中的若 干个特征位置作为音乐文件的特征点信息,并对特征点进行组合,形成音乐文件 的指纹信息,用来标识音乐的特征,将全量的音乐指纹生成音乐指纹库,提供查 询。根据这一模型和算法,论文提出了一种提取音乐指纹的算法,保证音乐指纹 的唯一性。论文还提出了一种通过音乐指纹构建音乐库的算法和基于音乐指纹的 快速查询方法,并测试分析了该查询方法的速度和准确率。 同时,建立一种可扩展的基于音乐指纹的音乐检索系统,能够快速的对音乐 库中的音乐指纹数量进行扩展。该音乐检索系统采取网络通信方式,多台查询服 务器并行进行查询服务,将结果汇总到专门的服务器进行整理。测试分析了该系 统的应用速度以及可能存在的瓶颈,提出了针对的解决方法。 关键词:音乐检索;音乐指纹;特征提取;语谱图 哈尔滨工业大学工程硕士学位论文 - - ii abstract with internet applications becoming increasingly more, the requirements of multimedia and the requirements of music search are more important. the traditional method of music search is based on text,and it is only according to the external text message about the music,such as the singer,the title and the songs introduction.finding the results of this approach depends on the accuracy of the text matching algorithm,and it also depends on the accuracy of the texts description. most of these descriptive text edited by hand, when the amount of music is huge,it is easy to make a mistake.the description text can not correctly represent the content of the music itself, which also affect the results of the query. in order to solve the problems about text-based way of matching, the paper proposes a new way of thinking. uses a content-based music retrieval way, by extracting music files spectrogram,and then select the location as the music file information, and the combination of feature points to form a music file fingerprint information.according to this model and algorithm, the paper presents a musical fingerprint extraction algorithm, to ensure the uniqueness of music fingerprint.the paper also proposes a fingerprint through a music, and music library built music-based fingerprint algorithm and fast query methods, and it also analysis the query speed and accuracy through a test. meanwhile, the paper alseestablishes a scalable fingerprint-based music retrieval system, and it is easy to extend the amount of music fingerprint. the music search system using the network communication, more than one query in parallel query server service, the results aggregated to sort out a dedicated server. the paper analysis of the bottlenecks in the system and proposes an effective solution. keywords: music retrieval, music fingerprint, feature extraction, spectrogram 哈尔滨工业大学工程硕士学位论文 - - iii 目 录 摘 要. i abstract. ii 第 1 章 绪 论 . 1 1.1 课题来源及背景 . 1 1.2 项目开发的目的与意义 . 1 1.3 与课题相关的国内外研究状况 . 2 1.3.1 基于内容检索的概念及技术特点 . 2 1.3.2 音频检索分类及发展现状 . 3 1.4 本论文的主要内容 . 7 第 2 章 系统需求分析与概要设计 . 9 2.1 需求分析 . 9 2.1.1 功能性需求 . 9 2.1.2 性能需求 . 10 2.1.3 扩展功能需求 . 10 2.2 系统框架概要设计 .11 2.3 系统功能模块划分 . 12 2.3.1 master 服务器功能模块划分 . 12 2.3.2 slave 服务器功能模块划分 . 14 2.4 系统功能模块调用关系 . 15 2.4.1 音乐查询过程功能模块调用过程 . 15 2.4.2 音乐库排重功能模块调用过程 . 16 2.4.3 音乐库指纹更新模块调用过程 . 17 2.5 系统配置设计. 17 2.5.1 音乐检索配置 . 17 2.5.2 slave 服务器列表配置. 18 2.5.3 网络接口文件格式定义 . 19 2.5.4 检索结果数据格式定义 . 20 2.6 本章小结 . 21 第 3 章 系统实现 . 22 3.1 系统结构实现. 22 哈尔滨工业大学工程硕士学位论文 - - iv 3.2 master 服务器实现 . 22 3.2.1 查询结果合并模块实现 . 23 3.2.2 并发控制模块实现 . 25 3.2.3 消息发送模块实现 . 26 3.2.4 音乐库排重模块实现 . 27 3.2.5 网络接口实现 . 29 3.3 slave 服务器实现 . 31 3.3.1 并发控制模块实现 . 31 3.3.2 指纹更新模块实现 . 32 3.3.3 指纹入库模块实现 . 34 3.3.4 音乐查询模块实现 . 35 3.4 本章小结 . 35 第 4 章 音乐检索过程设计与实现 . 36 4.1 音乐检索模块功能设计 . 36 4.2 语谱特征提取设计与实现 . 37 4.2.1 音乐数据预处理 . 37 4.2.2 语谱图数据处理 . 38 4.2.3 提取特征点 . 43 4.2.4 生成音乐指纹 . 44 4.3 音乐检索过程设计与实现 . 46 4.3.1 构建音乐指纹库 . 46 4.3.2 音乐检索及歌曲选择 . 48 4.4 本章小结 . 50 第 5 章 系统运行与测试 . 51 5.1 系统运行说明. 51 5.1.1 主检索客户端运行说明 . 51 5.1.2 master 服务器运行说明 . 52 5.1.3 slave 服务器运行说明. 52 5.1.4 网络查询接口运行说明 . 53 5.2 系统测试 . 54 5.2.1 系统测试环境 . 54 5.2.2 音乐检索时间测试与分析 . 54 哈尔滨工业大学工程硕士学位论文 - - v 5.2.3 音乐库排重时间测试与分析 . 56 5.2.4 特征点提取测试与分析 . 57 5.2.5 音乐检索结果排序测试与分析 . 57 5.2.6 网络查询接口负载测试与分析 . 58 5.3 本章小结 . 59 结 论. 60 参考文献 . 61 哈尔滨工业大学学位论文原创性声明及授权使用说明 . 64 致 谢. 65 个人简历 . 66 哈尔滨工业大学工程硕士学位论文 - - 1 第 1 章 绪 论 1.1 课题来源及背景 随着互联网应用和多媒体技术的迅速发展,多媒体信息的管理和存储方式发 生了很大的变化,人们开始普遍使用计算机来进行相关的工作。但是,人们对于 海量多媒体数据的需求导致现有的信息检索技术无法完全满足。过去多媒体信息 大多数存储在关系数据库中,属于一种离散的存储方式,使用 sql(结构化查询 语言)来进行检索查询。但目前的多媒体数据并不单单是一种离散的数据,而是 形式多变的,连续复杂的,海量的信息,通常采用的管理方式是基于描述多媒体 信息的文本内容的,由人工进行检索和分类。这种方法虽然适用于部分多媒体数 据,但是由人工进行处理不但费时费力,而且对于描述多媒体数据,特别是音乐 数据来说是高度主观、不准确的,且极易存在误导。 该项目来源于腾讯科技 (北京) 有限公司针对 qqmusic 提出的音乐音质提升以 及本地歌曲漫游等需求而开发的音乐检索系统,同时对音乐库中的重复歌曲进行 排重操作,提高音乐库中的存储效率。 1.2 项目开发的目的与意义 有报告显示,2008 年中国音乐搜索市场用户规模达到 1.0 亿人,特别是无线 用户占据了绝大部分, 同比增长超过 50%1。 国内无线音乐搜索市场在未来几年内 将以稳步增长的态势持续下去,预计到 2011 年中国无线音乐搜索用户规模将达到 2.6 亿人。其中无线音乐检索的用户也将破亿2。此外,在现阶段手机用户最常搜 索的娱乐内容中, 音乐以 43.9%的比例位居首位, 小说、 游戏分别以 23.5%和 21.2% 位于用户需求的第二、第三位,由此可见,音乐搜索具有广阔的市场空间3。 目前人们对于音乐的检索,绝大部分是通过基于文本匹配的检索技术,即用 户提供一个文本数据(如:歌曲名,歌手名等信息) ,搜索引擎在数据库中检索到 描述信息与该文本数据相似性最高的音乐文件。在这个过程中,音乐文件本身的 媒体数据并没有参与到检索的过程中4。同时,该类型的音乐检索方式还存在以下 问题: (1)搜索条件比较苛刻。基于文本的音乐检索技术,需要预先了解歌曲的相关 信息,如歌曲名,歌手,专辑名的5。当无法获取这些信息时,就无法进行具体的 检索工作。 哈尔滨工业大学工程硕士学位论文 - - 2 (2)搜索结果准确率。基于文本的音乐检索技术,检索结果的准确性完全取决 于歌曲描述信息的准确性,由于这些描述信息大部分来自于人工编辑,不可避免 的会存在错误或不精确的情况。当歌曲描述信息发生错误时,也会影响到检索结 果6。 (3)检索方式单一。基于文本的音乐检索技术,只接受歌曲的文本描述信息。 当用户遇到一首很好听的歌曲,而不知道该歌曲的具体的信息时,此时基于文本 的音乐检索技术就无能为力了。 众所周知的 google、yahoo 等传统的搜索引擎采用的都是 text-based(基于文 件)的检索技术,但对于多媒体数据而言,特别是音乐文件,单纯使用基于文本 描述的方式已经无法满足当前的需求。当前研究的热点在于提出一种新的多媒体 检索技术,这种新技术基于多媒体内容信息的特征的提取,而不只是关注多媒体 信息的文本描述信息。随着当前互联网上不断增长的多媒体文件(如:数字音视 频文件等) ,对于那些无文本标注信息的海量多媒体信息如何进行有效的检索,已 经逐渐成为新的搜索引擎技术关注的热点8。 为了能够有效、迅速、准确的查询多媒体数据,特别是数字音乐信息,除了 能够以传统方式,如:基于数字音乐描述文本的方式,检索到音乐的歌曲名,歌 手名等信息,进而获取所需的音乐外,还要针对多媒体音乐数据本身内容的特点 提取的特征信息而进行的检索,也就是基于多媒体音乐数据内容的检索方式,在 用户不知道作者名,歌曲名,歌手名等信息的情况下,也能够快速的检索到需要 的歌曲。 1.3 与课题相关的国内外研究状况 1.3.1 基于内容检索的概念及技术特点 对于多媒体数据来说,每一种媒体数据的内容线索中,都有难以用数字和字 符描述的内容线索。例如多媒体图像中某一物体的外形,纹理和色彩,多媒体视 频中物体的移动,声音的声调、音色等9。当用户利用这些特征对多媒体数据进行 检索时,需要首先将其通过人工编辑的方式转化为关键字或者文本的形式。但这 种转换并不能完全客观的反应多媒体特征信息,同时非常浪费时间。当前互联网 上的多媒体数据量十分庞大,在涉及到具体的应用时,用户不仅要求相应的数据 库存储系统能够对多媒体数据,如:视频、音频和图像等,进行存储以及基于多 媒体文本描述信息的关键字检索,而且还要求能够对视频、音频和图像等数据的 内容自动的进行语义分析、检索和表达。content based retrieval(cbr,基于内容 哈尔滨工业大学工程硕士学位论文 - - 3 的检索)就是指根据多媒体数据的内容之间上下文联系以及内容的特征信息进行 检索10。 基于内容的检索是目前互联网上多媒体数据的研究中的一个新的方向,这种 检索具有如下特点: (1)从多媒体数据本身的内容中提取信息的特征线索。基于内容的检索方式 与传统的基于表达式的检索方式不同,它直接对多媒体数据(音乐、图像、视频 等)的内容进行分析、语义和内容特征提取,然后检索特征索引,并进行检索。 这种方式能够比较有效的突破传统检索方式的局限11。 (2)基于内容的检索方式是一种模糊匹配。对于多媒体数据内容的表示是一 种模糊有损的描述,所以基于内容的检索方式采用逐步求精的过程进行相似行匹 配来获取最终的查询结果,即每次查询将原有的查询结果范围缩小,不断迭代, 直到查询结果满足既定的要求。这种检索方式与传统数据库检索中通过精确匹配 字符串信息的方法不同12。 (3)基于大型数据库(集)的快速检索。目前,互联网上存在海量的多媒体 数据,而且种类繁复,多种多样,为了便于管理和维护,使用大型数据库对海量 的多媒体数据进行存储。所以,这也要求 cbr 技术能够同时对大型数据库进行快 速的检索,这一点上与传统的多媒体检索技术是一致的13。 一般来讲,人类对于物体本身可感知的信息特征比较敏感,如:能够快速的 识别物体的形状、色彩,音乐的旋律、音调、音色等14。但是,对于多媒体数据 来说,以人工编辑的方式从其中识别出对象的特征是十分费时费力的,另外,人 的判断往往不是客观的,其中会加入个人的喜好,容易受到主观影响。而处理上 述这些问题正是计算机的长处。因此,在实现 cbr 系统时,最好融合人工处理和 计算机处理各自的长处,在查询过程中引入人际交互。 1.3.2 音频检索分类及发展现状 1基于语音技术的检索 语音检索采用经典的音乐识别处理技术,是一种以语音数据为中心的检索。 基于语音技术的检索是对音频信息进行信号技术处理,然后再进行检索15。不少 学者的研究都是基于语音信号处理方面的,其中大量的成果可以用到语音检索之 中。 (1)使用长文本的语音识别技术进行检索。这种检索方式使用自然语音识别 技术,将多媒体数据中的语音信息转换为文本描述信息,然后采用基于文本的方 式进行检索。较成熟的连续语音识别系统可达到 90%以上的词语识别正确度16, 哈尔滨工业大学工程硕士学位论文 - - 4 但在电话和新闻广播等实际应用时,有效的识别效果并不好。例如,将视频中语 言对话的内容转换为文本信息,以全文检索的方式进行组织整理,进而支持后续 的检索方式17。 (2)基于单词进行检索。当语音识别系统处理一些特殊资料时,如各方面没 有主题限制的范围广阔的语音资料,系统的识别性能会降低,尤其当一些专业词 汇(如专业术语,地名,人名等)不在系统的数据库中时18。一种有效的解决方 式是利用子单词进行索引,每次执行查询时,用户提交的查询字符串首先被分解 为一个个独立的单词,然后将这些单词的特征信息与数据库中预先获得的单词信 息进行匹配19。 (3)基于文本关键字进行检索。从传统的语音信息中,特别是无限制的语音 信息中检索出有独立意义的词或短语的过程通常称为关键字的发现。通过该技术, 标记出多媒体语音信息中用户感兴趣的词或短语,而这些词或短语就可以用户进 一步的检索20。如通过捕捉多媒体语音中的“全垒打”的词语,可以标记为棒球 比赛和得分的内容。 (4)基于说话人的特征识别进行分割。该方式并不识别出说话人说出的具体 内容,而是简单的根据说话人声音的特征进行分辨,找出不同的说话人。如果环 境条件非常合适的话,说话人的识别率是非常精确的。因此,对于一段有不同说 话人参与的多媒体语音信息,使用该技术将其中不同说话人的内容分割开来,建 立索引21。使用该分割方式检测多媒体数据中声音轨迹的变化,建立索引,确定 对话的结构。例如,分析电话会议的录音内容,每个分割的录音内容区分不同的 说话人,能够方便浏览会议的资料。 2音频检索 音频检索是以声音的波形信息为内容的检索。这里的音频可以是人的说话声、 虫鸣鸟叫声、风声雨声,也可以是歌手演唱的歌曲和音乐会现场录音等,它们都 可以使用声学特征来进行一致的检索。虽然基于内容的检索方式给出的线索对于 语音内容来说是非常有价值的,但是包括汽车发动机声到自然界的声音以及人工 合成的声音等在内的大量声音信息需要处理22。音频检索主要的工作是使用户能 从存储海量音乐数据的数据库中找到其感兴趣的内容,而要完成这项工作,光靠 现有的语音技术是无法满足要求的23。通过对多媒体音频数据的训练和分类,能 够使在多媒体音乐数据库中的查找和浏览操作变得方便。而对于个人用户来讲, 基于音乐听觉特征的检索可以有效的提高用户体验,使检索结果更符合用户需求。 这里提到的音频检索是一种针对海量多媒体音乐数据的检索,采用更加抽象和概 括的声学特征分析方法,其中待检索的音频数据包括录音、语音和纯音乐等24。 哈尔滨工业大学工程硕士学位论文 - - 5 音频检索包括如下 3 个过程: (1)声音的训练和分类。这个过程的目的是获得一个声音类,其中的信息通 过分析一些具有代表性的声音,以训练的方式完成。对于不同类型的声音,用户 选取其中一些有典型特征的声音代表,先计算其 n 维矢量特征,进而计算样本的 协方差矩阵 t 和平均矢量 m,这个 t 值和 m 值就是用户的训练结果,可以作为表 示该类型声音的模型25。声音的分类就是按照用户训练好的声音类模型,将每个 多媒体声音数据进行分类组合。可以根据欧几里得距离或者曼哈顿距离来计算每 个待分类的声音与上述获得的声音模型之间的距离,若该距离值小于规定的阈值, 则将该声音归纳到进行比较的声音模型中,否则与下一个声音模型进行对比,直 到找到符合条件的声音模型26。当然,也可能存在某个声音不能归纳到任何一个 声音模型中,这时,可以考虑建立一个新的声音模型,或者将其加入到距离最近 的声音模型中,而不必考虑距离阈值的限制。 (2)听觉检索。人类的听觉感知是一种模糊的信息获取的方式,如音乐中的 音调音高等信息,即使发生了一些变形或者走样,人类还是能够分辨出来然后用 户听觉检索。因此,该种检索方式可以通过提取音乐文件不同的声学特征,对每 个特性形成矢量信息来进行检索27。例如:将一个音乐文件按照时间划分成若干 独立的片段,分别计算其音调、音色、响度等信息。一般来讲,音频的波形信息 是随时间不断变化的,采用大量音频数据的统计信息来表示这些特征矢量能有效 的提高特征的准确性。基于听觉的检索比较适合于对多媒体音效数据进行分类, 如人声、器乐声、机器声和动物声等28。 (3)音频分割。对于单体声音的情况,如火车汽笛声、电话录音片段等,上 面提到的两种检索方式的处理效果比较好。但是,人们在日常生活中遇到的声音 大多数由多个不同的部分组成,其中声音类型各异。而且这些不同类型的声音还 有可能混合在一起,因此,在进行单个声音处理之前,需要对原始声音进行预处 理,进行音频分割操作29。数字信号的声学分析方法中,查找到声音特征的转变 点,按照不同的转变点就能实现对声音数据的分割。所谓的转变点,就是声音矢 量特征发生突然变化的地方30。相关的技术包括:声音暂停部分检索、男声女生 辨别、说话人变化检测等31。 3音乐检索 音乐检索是以人们日常生活中听到的多媒体音乐数据为核心的检索,利用音 乐的音色、音调和旋律等音乐独有的特征信息来进行的检索。包括 wav,mp3 和 不同种类的压缩音乐制品。音乐检索能够使用音乐文件的描述信息,但音乐的旋 律、音色和收听人的感受这些抽象的东西并不是都能够用文本信息描述清楚的。 哈尔滨工业大学工程硕士学位论文 - - 6 而在一定的范围内,基于音乐内容的检索技术可以有效地处理这种情况32。 时间和频率,是人们对于音乐认知的两个方面。基于振幅统计的时间分析可 以得到音乐节拍,而频谱分析生成的音乐频率信息也可以用于音乐检索33。此外, 有些研究表明可直接获得音乐的节拍特征来进行检索,甚至用户哼唱一段想要检 索的音乐曲调来进行检索。但是,提取音乐的乐谱属性是非常困难的。当前的一 些研究人员使用 midi 格式的音乐解决这个问题。通过给定的旋律,搜索 midi 格 式的文件,然后利用该 midi 格式文件就能找到相似的旋律34。 4音乐检索领域国内外发展现状 目前音乐检索领域常见的搜索方式分为三种: (1)query by example(qbe) , 即根据一个歌曲的原始片段来进行搜索。 (2)query by singing(qbs) ,即根据某 个人演唱的一段歌曲片段进行搜索(有旋律,有歌词) 。 (3)query by humming (qbh) ,即根据某个人哼唱的一段歌曲片段进行搜索(有旋律,无歌词) 。目前 的技术实现来讲,qbe 的性能好,但检索不够灵活;qbh 的性能比较一般,但检 索灵活;而 qbs 所处的地位比较尴尬,且对 asr 系统要求较高35。 而对于中文音乐搜索来说,还存在的很多独特的技术难题:歌词中常见中英 文混合;常见粤语英文混合;其它语言需求如日语,混合也较常见;中国各地口 音的严重差异。 同时, 对于所有音乐检索来说, 噪声干扰是一个十分常见的问题36。 2010 年 9 月,百度推出国内第一个哼唱搜索引擎,用户通过音频输入设备哼 唱歌曲,就可以找到最符合这个旋律的歌曲信息。国内知名网络公司盛大网络创 新院语音团队在世界知名的 nist sre 比赛中获得综合指标第一的成绩。 有望在不 久的将来公布哼唱搜索的源代码37。 国外知名的 shazam 公司,成立于 2000 年,向互联网用户提供识别音乐片段 的服务,这些片段包括原始音乐片段,或者从环境中使用手机或其他移动设备录 音而得到的音乐片段。shazam 公司采用一种工业强度的音频搜索算法,通过提取 音乐文件特征来进行检索,能有效的降低环境噪音,距离计算失真等因素的影响, 同时具备大规模扩展的能力,能够快速识别音乐片段。shazam 公司开发的免费应 用程序 shazam 软件是 iphone 上最受欢迎的软件之一。它通过手机的麦克风采样, 大概只要采取十几秒的音源(歌曲样本) ,然后通过网络将音源的波段数据发送到 shazam 公司的服务器内,经过快速分析识别,将得到这个音乐的相关信息,如曲 名,主唱,专辑名,发行商等数据,传回到 shazam 软件内显示出来38。 谷歌公司曾采用一种局部敏感散列(local sensitive hashing,lsh)方法来提 取音频文件特征,根据要查询的特征点,用最快速度(小于 o(dn),n 为音频文件 的维度)找到音乐库中与其最接近的点。在进行全量测试时,当录音时间在 60 秒 哈尔滨工业大学工程硕士学位论文 - - 7 时,准确度可以达到 96%以上39。 国外著名的音乐搜索引擎 midomi, 是一个具备成熟哼唱搜索技术的音乐社区。 该搜索引擎使用的是 flashplayer,目前在 web 技术中最大的优势:在线录制(后 端需要 media server 或 red5 等服务器支持) , 而且具有极强的容错性。 且 2007 年就 已经正式运营了40。 1.4 本论文的主要内容 本课题的主要研究内容是基于内容的音乐检索系统的构建方法以及检索算法 的设计,同时,构建一个能够方便扩展的系统结构。通过获得音乐文件的语谱信 息,提取出其中的若干个点信息作为该音乐文件的特征点,将这些特征点的信息 进行组合后形成音乐文件的指纹信息,根据这些指纹信息进行对查询片段进行检 索。课题的主要目的是为了构建一个提供稳定,准确服务的音乐检索系统。主要 的研究内容如下: 1选择合适的系统结构。由于音乐媒体每天都有新的出现,系统结构要具有 可扩展的能力,随着歌曲数量的不断增加,能够方便的扩展系统。 2音频格式转化。通过音频格式转换,能够有效的减少音乐文件占用的磁盘 空间,同时又保留了足够的音频信息来进行,保证了检索效果和检索速度。 3语谱分析与指纹提取。对于每一个音乐文件,都能生成一个语谱图用来表 示这个音乐文件,对该语谱图进行分析处理后就能得到一个唯一标识该音乐文件 的信息,称之为音乐指纹信息。本文设计出一种指纹提取算法,希望实现以下目 标: (1)尽可能保证由不同音乐文件得到的指纹信息之间差异明显。 (2)考虑差 异相近的指纹之间的内在联系。 4指纹库构建。建立一种“指纹”到“歌曲”的对应
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年阳泉事业单位真题
- 2025年量热仪合作协议书
- 2025江苏盐城幼儿师范高等专科学校招聘专业技术人员3人(二)考前自测高频考点模拟试题及答案详解(名师系列)
- 2025广西柳州市柳南区委社会工作部招聘专职化城市社区工作者16人模拟试卷及一套答案详解
- 2025江苏苏州国家历史文化名城保护区、苏州市姑苏区区属国资集团副总裁招聘2人考前自测高频考点模拟试题及答案详解(必刷)
- 2025春季中国南水北调集团水网智慧科技有限公司实习生招募6人考前自测高频考点模拟试题附答案详解(完整版)
- 哈佛家训读后感(15篇)
- 2025内蒙古考试录用特殊职位公务员及调剂考前自测高频考点模拟试题有完整答案详解
- 2025贵州金沙酱酒酒业投资集团有限公司招聘经理层高级管理人员(财务总监)1人考前自测高频考点模拟试题带答案详解
- 2025年临沂科技职业学院公开招聘教师和教辅人员(46名)模拟试卷及答案详解(全优)
- 新课标下的小学语文跨学科教学模式探讨
- 2025年物联网安装调试员(高级)技能鉴定考试题库
- 高一上册第三单元《永遇乐 京口北固亭怀古》
- 店铺共享合伙人模式
- 2025-2030年中国山葵制品行业运行现状及发展前景分析报告
- 银行支行行长2025年度工作计划
- 二零二五年度污水运输与污水处理厂合作运营合同
- 2025年上教版八年级地理上册月考试卷
- 贸易安全课件
- 中职对口高考-机械类专业综合模拟卷( 湖北适用) 第5卷(答案版)
- 部编六年级上册快乐读书吧《童年》测试题(3份)(有答案)
评论
0/150
提交评论