毕业设计(论文)-基于内容的音频检索算法研究.doc_第1页
毕业设计(论文)-基于内容的音频检索算法研究.doc_第2页
毕业设计(论文)-基于内容的音频检索算法研究.doc_第3页
毕业设计(论文)-基于内容的音频检索算法研究.doc_第4页
毕业设计(论文)-基于内容的音频检索算法研究.doc_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

毕 业 设 计中文题目基于内容的音频检索算法研究英文题目Research on Content-based AudioRetrieval Algorithm 系 别:电子与电气工程系年级专业:2008级通信工程姓 名: 洪巧巧学 号:200806052225指导教师:唐骏职 称:讲师2012 年 6 月 1 日毕业设计诚信声明书本人郑重声明:在毕业设计工作中严格遵守学校有关规定,恪守学术规范;我所提交的毕业设计是本人在 指导教师的指导下独立研究、撰写的成果,设计中所引用他人的文字、研究成果,均已在设计中加以说明;在本人的毕业设计中未剽窃、抄袭他人的学术观点、思想和成果,未篡改实验数据。本设计和资料若有不实之处,本人愿承担一切相关责任。学生签名: 年 月 日基于内容的音频检索算法研究摘要随着互联网的快速发展以及网络技术的普及,人们的日常生活越来越离不开网络上大量的多媒体数据,希望通过网络寻找到他们感兴趣的资源。基于内容的检索CBR(Content Based Retrieval)应运而生,其中的音频检索、图像检索与视频检索并列为当今基于内容检索研究的热点,而基于内容的检索中的一支哼唱检索(QBH: Query By Humming),更是发展最为迅速,在搜索引擎、KTV点歌系统、数字音乐图书馆的检索等领域都具有广泛的应用前景。哼唱检索主要由三大模块组成,即旋律数据库构建模块、特征提取模块和特征匹配模块。此次毕业设计,主要通过对哼唱检索中的语音增强预处理、特征提取和匹配算法等的研究,尝试优化哼唱检索的方案。为每个模块选择合适的算法并进行了部分的优化和改进,测试算法改进后的效果,对测试结果进行分析讨论,达到了提高匹配精度的效果。关键词:哼唱检索,预处理,语音增强,特征提取,旋律匹配算法 Research on Content-based Audio Retrieval AlgorithmAbstractWith the rapid development and widely popularity of Internet and network technology, peoples daily lives become increasingly dependent on the large number of multimedia data from the network, and hope to search the things interesting them. Content-based retrieval CBR (Content Based Retrieval) emerged, audio retrieval, image retrieval and video retrieval are the hot topics in the content-based retrieval fields, and one of the areas in the content-based retrieval is Query by Humming, Query by Hummings development is accelerated, it has broad application prospect in the field of search engine, picking song system of KTV room, digital music library retrieval and so on.Therearethreemodulesinquery-by-hummingsystem,constructionofthemusicdatabasemodule,featureextractionmoduleandthematchingmodule.Theprojectofgraduationdesignismainlytotrytooptimizethehummingprogramthroughtheresearchofthespeechenhancement,featureextractionandfeaturematchingalgorithm.Itisnecessarytoselectthemostappropriatealgorithmforeachmoduleandtrytooptimizepartofthealgorithm,alsothealgorithmimprovedeffectandtestresultareanalyzedanddiscussedtoreachtherequirementofmatchingaccuracyimprovement. Keywords: Query by Humming, pre-processing, speech enhancement, feature extraction, melody matching algorithm目录第一章 绪论11.1 课题研究背景与意义11.2 哼唱检索系统整体研究现状21.3 哼唱检索系统整体框架31.4 论文的研究内容积总体框架4第二章 哼唱检索预处理模块的研究52.1 语音增强的背景52.2 语音增强算法62.2.1 统计方法62.2.2 参数方法62.2.3 基于小波分解的方法72.2.4 基于短时谱估计的方法72.2.5 适合哼唱信号的语音增强算法132.3 本章小结13第三章 哼唱检索特征提取模块的研究143.1 语音信号的特征143.1.1 时域特征143.1.2 频域系数153.1.3 声学感知特性163.1.4 哼唱系统的信号特征提取163.2 哼唱信号的基音提取算法163.2.1 时域算法163.2.2 频域算法173.2.3 基音提取算法的选择183.3 哼唱信号提取的归一化183.3.1 音高的归一化193.2.2 音长的归一化203.4哼唱信号特征提取归一化测试与分析213.4.1哼唱信号特征提取归一化的测试结果213.4.2 哼唱信号特征提取归一化测试结果分析223.5本章小结23第四章 哼唱检索旋律匹配模块的研究244.1 哼唱旋律表示244.2 哼唱旋律匹配相似度计算244.2.1 Levenshtein距离(编辑距离)254.2.2 N-grams算法254.2.3 EMD算法254.2.4 DTW算法254.2.5 哼唱系统旋律匹配算法的选择264.3 哼唱旋律匹配算法的研究和改进264.3.1 EMD算法的研究和改进264.3.2 DTW算法的研究和改进284.4 本章小结31第五章 总结与展望325.1 工作总结325.2 不足与展望33参考文献35致谢3436基于内容的音频检索算法研究第一章 绪论1.1 课题研究背景与意义随着互联网和多媒体技术的迅速发展,人们可以自由地从网上搜索和下载大量的多媒体信息。如何从大量的信息中搜寻到自己想要的成为了一个极为关键的问题,而音乐更成为各搜索引擎中最常被使用者输入的搜索关键字之一 汪鹏,刘加,刘润生. 基于离散HMM的非特定人关键词提取语音识别系统N. 吉林大学学报(理学版),2003.。传统的音乐信息检索方式基本都是基于文本的,用户输入一段和自己需要的多媒体文件相关的文本,搜索引擎给出这样的多媒体文件的下载链接 李进. 基于曲段旋律特征的哼唱检索.工学硕士学位论文D. 哈尔滨工业大学,2010,1.。在以往的使用过程中我们发现基于文本的音乐信息检索方式无法满足人们越来越高的要求。首先,用户需要通过输入歌名或歌词等信息来进行检索,这就要求用户必须记住这些信息,带来很多不便。我们可以假想这么一些情况:偶然听到一段十分熟悉的旋律,却怎么也想不起歌名;或者坐公交车听到你喜欢却不知道歌名的音乐,但是已经错过了开头歌名信息的播出,这时候用传统的基于文本的音乐检索来搜寻就有一定的难度。其次,为了实现对歌曲的文本检索,需要通过人工方式生成歌曲的文本标注,如歌名、演唱者和歌词等。使用人工标注不仅成本高,而且数据库的规模十分庞大,以致工作量太大,根本无法完成。最后,音乐的一些重要特征,如音乐的音调、旋律等,几乎无法清楚的用文本来表达,而需要通过其他的方式(比如波形)来体现。因此,我们需要研究出更多有效的、更易于操作的音乐检索方法。基于内容的音乐检索有很多种方式,主要有:哼唱检索(Query By Humming, QBH)、节拍拍打检索(Query By Tapping, QBT)、乐谱录入检索、演奏输入检索等。节拍拍打检索(QBT)需要用户借助特定的节拍器来进行输入,记下歌曲的节奏,但是这种方法只提取了节奏信息,而不提取音高信息(音高信息对检索的成功率贡献十分大),所以检索成功率并不高 P. Hanna, M. Robine. Query by tapping system based on alignment algorithm, Acoustics, Speech and Signal Processing, 2009,1881-1884.。乐谱录入检索和演奏输入检索这两种检索方式对用户的音乐技能要求非常高,使用范围也不广。哼唱检索(QBH)方式主要是通过哼唱歌曲的某段旋律来搜寻歌曲,同时提取音高和节奏信息来进行匹配,因此成功率会比较高。另一方面,这种方式对用户的音乐技能的要求比较低、使用方法简便,正逐渐成为主流音乐检索方式。哼唱检索方式的使用如此简便,今后我们的工作和生活也离不开这项技术:(1)应用在网络音乐搜索中。例如modomi网站,它是一款搜索引擎,特别之处在于具有智能搜索功能。使用方法是:直接输入歌曲名;也可以对着麦克风哼唱歌曲来搜索歌曲(演唱时间不得少于10秒钟),网站通过声音识别系统从数据库中搜索出相匹配的曲目,输出结果。(2)应用在卡拉OK的点歌系统中。人们在KTV点歌时有很多种方式:直接输入歌名,先找到歌曲的演唱者再找歌曲等,但是不管哪一种方式都需要多次操作选择才能找到想要点唱的歌曲。如果使用哼唱检索就能节省很多时间,只要哼唱一小段旋律就可以很方便的搜索到歌曲。(3)应用在手机下载歌曲中。随着各类通信技术的不断更新发展以及手机功能的不断壮大,用户能够直接通过手机上网下载或者直接在线欣赏大量的音乐。但是这一切的操作都是使用汉字输入方式,这种人机交互并不方便,解决的办法就是使用哼唱检索,用户只需哼唱一小段音乐就能下载到自己想要的歌曲。1.2 哼唱检索系统整体研究现状近几年来,国内外研究机构和研究学者对哼唱检索进行了多方面的研究,取得了不小的成就,一些主要研究成果展示如下:1999年,Naoko Kosugi和Yuichi Nishihara提出了对音乐提取多维信息的哼唱检索算法 N. Kosugi, Y. Nishihara, S. Konya, M. Yamamuro, K. Kushima, Music retrieval by humming-using similarity retrieval over high dimensional feature vector space, Communications, Computers and Signal Processing, 1999 IEEE Pacific Rim Conference on, 404-407.。他们提取音乐的音符时长和音符音高信息,使用Dynamic programming matching(DP)匹配方法来计算编辑距离(Edit Distance)。距离小的相似度高,对应歌曲在检索前三位的概率为49%。2000年,C. Francu和C. G. Nevill-Manning提出建立一个音乐数字图书馆,使用哼唱检索技术来查找音乐 C. Francu, C. G. Nevill-Manning, Distance metrics and indexing strategies for a digital library of popular music, Multimedia and Expo, 2000. ICME 2000. 2000 IEEE International Conference on, 889-892.。由于音乐库的歌曲量较大,有10000首之多,他们采用计算量较小的检索算法。他们将用户的哼唱输入分成20ms一帧的序列,提取每帧的音高,用计算哼唱输入和音乐库中文件的音高平均差的方式来进行检索匹配,匹配的成功率大约为25%。2001年,微软亚洲研究院的Lie Lu,Hong You和Hong-Jiang Zhang提出一种新的较为有效的哼唱匹配算法 Lie Lu, Hong You, Hong-Jiang Zhang, A new approach to query by humming in music retrieval, Multimedia and Expo, 2001. ICME 2001. IEEE International Conference on, 595-598.。由于人在唱歌的时候选用的绝对音高不同的可能性极大,他们选用音高差值来取代绝对音高,同时也考虑音乐的节奏信息。对于提取到的音高差值和节奏信息采用分级匹配的方法来检索,对应歌曲在检索前十名出现的概率为88%。2003年,Hsuan-Huei Shih和 S.S.Narayanan提出对哼唱信号中的音高和音长信息使用高斯混合模型(GMM)建模,并通过隐马尔科夫模型(HMM)来进行匹配检索,匹配率达到80% Hsuan-Huei Shih , Narayanan, S.S., Kuo, C.-C.J., Multidimensional humming transcription using a statistical approach for query by humming systems, Multimedia and Expo, 2003. ICME 03. Proceedings. 2003 International Conference on, 385-388.。2005年,清华大学的Zhi Wang 和 Bo Zhang提出一种基于分级匹配思想的改进DP匹配算法 Zhi Wang, Bo Zhang, Quotient space model of hierarchical query-by-humming system, Granular Computing, 2005 IEEE International Conference on, 671-674.。将匹配分成两层,第一层在商空间(Quotient Space)中进行,得到一个初步的检索范围。在这个范围中进行第二场检索,在检索速度和准确率上都有较好的提升。2008年,Matti Ryynanen 和 Anssi Klapuri一种新的匹配算法,Locality Sensitive Hashing (LSH) Matti Ryynanen and Anssi Klapuri, Query by humming of midi and audio using locality sensitive hashing, Acoustics, Speech and Signal Processing, 2008. ICASSP 2008. IEEE International Conference on, 2249-2252.。将提取到的音高和音长信息放到Hash bucket中进行匹配,匹配的成功率为86%。1.3 哼唱检索系统整体框架图11 哼唱检索系统框架图(1) 哼唱信号输入用户使用麦克风之类的音频输入设备哼唱歌曲,经采样输入到检索系统中。(2) 预处理哼唱信号的采集过程中,由于受到采集方式、周围环境等各类因素的影响,不可避免的会引入噪声。在特征提取前,需要对哼唱信号进行预处理,这样可以增强信号的语音特征,提高之后特征匹配的准确率。(3) 特征提取主要是提取音乐信号中的特征参数,为后面特征匹配做准备。(4) 特征匹配根据提取的特征参数,与音乐特征库中存储的数据按一定的匹配算法进行特征匹配,列出最可能匹配的一些歌曲名称。(5) 哼唱匹配检索结果根据得到的特征匹配结果输出歌曲名以及相对应的匹配率。1.4 论文的研究内容及总体框架本文所有研究均基于盛大2011年5月开源的盛大哼唱检索系统,利用现有的开源盛大哼唱检索系统平台进行测试和研究。本文主要研究哼唱检索中的语音增强、特征提取和特征匹配算法。通过研究相关资料,分析多种算法,比较其优劣,选择合适的算法并适当的提出改进。本文共分为六章,每章的内容如下:第1章是绪论,主要阐述哼唱检索的研究背景、课题意义和研究现状,以及哼唱检索系统整体框架。第2章详细分析语音增强模块的两种算法,减谱法和最小均方误差法,重点介绍减谱法的计算过程和语音增强功能,并提出一定的改进。第3章对特征提取模块进行改进,在提取出特征信息后加上归一化算法,进一步提高检索的正确率。第4章详细分析特征匹配算法:EDM、DTW,并提出一定的改进。第5章总结全文的工作,指出不足,做出展望。第二章 哼唱检索预处理模块的研究由于外界环境的影响,在哼唱系统获取哼唱输入信号的过程中通常会引入噪声,这对特征提取模块的结果造成了一些干扰,也影响了特征匹配检索结果的准确性。因此,在对哼唱信号进行特征提取之前,需要加上预处理模块,提高匹配的准确率。2.1 语音增强的背景生活中的噪音可以说是无处不在的,日常语音通信过程往往会受到来自地球磁场、通信设备自身的电噪声、传输媒介引入的噪声、旁人发出的声音或者其他周围环境因素的干扰。因为有了这些干扰,接收者接收到的都是受到周围噪声污染的带噪语音信号,信号的失真严重影响了通信质量。由于环境噪声的存在导致许多语音信号处理系统被污染,性能急剧恶化。目前的语音识别系统正常工作前提都是无噪声的环境,在噪声环境中语音识别系统的识别率将受到严重影响 黄双基于听觉特性的语音增强算法研究D. 南开大学,2007.。事实上早在上个世纪60年代,许多专家就注意到了语音增强这个研究课题,并且一直关注在这个领域的研究。带噪语音的模型如图2-1所示,公式如下: (2.1)其中,、和分别代表带噪语音、纯净语音和噪声。图21 带噪语音模型本文对研究的语音增强模型做如下假设:(1)语音信号与噪声统计独立。(2)噪声是局部平稳的。通常在输入哼唱信号时,语音开始前总会有一小段噪声,我们对这段噪声加以利用。局部平稳就是说输入的这段带噪语音中的噪声在整个语音段中保持不变,并且和语音段开始前的噪声具有相同的统计特性,也就是说语音中所叠加的噪声统计特性可以借助语音开始前的那段噪音来近似估计 邓玉娟. 基于小波变换的语音阈值去噪算法研究D. 重庆大学,2009.。(3)只考虑带噪语音信号对模型的影响,没有考虑其他信号。2.2 语音增强算法2.2.1 统计方法1、隐马尔科夫模型图22 语音信号增强的隐马尔科夫模型隐马尔科夫模型(HMM)是一种统计分析模型。K. Y. Lee等用隐马尔科夫模型来估计隐滤波器(HFM)的参数 Ki Yong Lee, Byung-Gook Lee, Iickho Song , Jisang Yoo , Recursive speech enhancement using the EM algorithm with initial conditions trained by HMMs, Acoustics, Speech, and Signal Processing, 1996. ICASSP-96. Conference Proceedings., 1996 IEEE International Conference on, 621-624. ,得到较好的增强效果。2、掩蔽效应法人耳有掩蔽效应,即能量高的信号对能量低的信号有掩盖的作用,使其不易察觉。设定一个门限值,使增强后的语音中残余噪声能量在语音掩蔽门限以下,使得在抑制噪声的同时,又能减少对语音本身的损伤 姜琳峰,语音增强技术的研究及应用D. 硕士学位论文,武汉大学,2004.。2.2.2 参数方法比较典型的参数方法主要有:时域梳状滤波、卡尔曼滤波、维纳滤波等。这里主要介绍时域梳状滤波。利用语音信号的浊音段具有明显的周期性的特点,采用梳状滤波器来提取语音分量,抑制一些类似于白噪声的残留噪声 蔡宇,原建平,侯朝焕. 基于两级梳状滤波的语音谐波增强N. 仪器仪表学报,2010年。1月,26-31.。时域梳状滤波器的表达式为: (2.2)式子中:为输出信号; M为经验常数;为滤波器系数;为语音信号;为基音周期。从上式可以看出梳状滤波器中,输入信号经过延时加权平均就得到输出信号。当延时为基音周期的整数倍时,语音信号得到加强 马大猷,沈豪. 声学手册M. 北京:科学出版社,1983.,非周期性信号受到抑制或消除。可见梳状滤波对于语音中的浊音部分增强效果较好,对于清音部分的增强效果不好。2.2.3 基于小波分解的方法小波分解法是随着小波分解这一新的数学分析工具的发展而发展起来的。这是一种处理时变非稳态信号的理想工具 K.Daqrouq, I.N.Abu-Isbeih, M. Alfauri, Speech signal enhancement using neural network and wavelet transform, Systems, Signals and Devices, 2009, 6th International Multi-Conference on, 1-6.。图23 小波变换实现语音增强原理图2.2.4 基于短时谱估计的方法1、减谱法减谱法假设噪声是统计平稳的,即有语音期间的噪声振幅谱的期望值与语音还没开始前的那段纯噪声信号的是相等的。前面已经假设语音与加性噪声独立统计,利用这个特点可以将有语音期间噪声振幅谱用纯噪声振幅谱的估计值来替代。然后将带噪声语音振幅谱减去纯噪声振幅谱,即可得到语音振幅谱的估计值(若为负数就置零)。将带噪语音得相位和减谱得到的振幅谱的相位一起进行反FFT变换,就可得到增强的结果。图24 减谱法原理图由图21的带噪语音模型,可知: (2.1)对上式两边做傅里叶变换,可得: (2.3)前面已经假设和统计独立,因此和统计独立。假设为零均值高斯分布,所以有: (2.4)由于语音信号的短时平稳性,对于一帧信号有: (2.5)假设为没有语音时的短时噪声功率谱的统计平均。 (2.6)由此,可以得到纯净的语音信号估计值为: (2.7)在实际的增强过程中,使用的多是功率谱相减法的改进公式 姜琳峰. 语音增强技术的研究及应用D. 硕士学位论文,武汉大学,2004.: (2.8)式中m=2,n=1时即为传统的减谱法。由于使用哼唱系统的地方噪声通常比较大,即较大。而减谱法的计算过程需要采用硬判决以避免相减后得到门限值以下或负的幅度谱估计值,如果噪声过大容易把有用语音完全消去。这里我们设置n=0.9,避免相减后得到负的幅度谱估计的情况经常出现。同时我们考察m=2,2.5,0.4,三种不同情况下用减谱法语音增强后的结果,测试的信噪比为-3dB,结果如下图所示:图25 纯语音的哼唱信号图26 信噪比为-3dB的加噪哼唱信号图27 m=2时减谱法去噪结果图28 m=2.5时减谱法去噪结果图29 m=0.4时减谱法去噪结果从测试结果可以看出,当m=2和2.5时残余的噪声仍然比较大,当m=0.4时,残余的噪声已经基本被消去。由于哼唱检索系统中预处理模块是为了提高后面特征提取模块中基音周期估计的准确性而设计的,所以有必要考察频谱所体现出的周期性。频谱图测试结果如下所示:图210 纯语音的哼唱信号频谱图图211 信噪比为-3dB的加噪哼唱信号频谱图图212 m=2时减谱法去噪结果频谱图图213 m=2.5时减谱法去噪结果频谱图图214 m=0.4时减谱法去噪结果频谱图从测试结果的频谱图中可以看出,当m=2和m=2.5时,噪声残余较大,干扰多,周期性并不明显。当m=0.4时,能量较强的周期谐波已经比较明显了。因此,我们选择参数m=0.4,n=0.9的减谱法作为哼唱信号系统的预处理模块。2、频域最小均方误差法(MMSE)图215 频域最小均分误差法原理图最小均方误差法假定纯净语音信号幅度谱服从瑞利分布、相位谱服从均匀分布,带噪语音信号服从复高斯分布,这是一种估计方法,对特定的失真准则和后验概率不敏感。这种算法的最大优势在于适用信噪比的范围较广,且可以在语音信号降噪比和可懂度中取得平衡。但是这种算法运算量较大,实时性不好。对于带噪信号,假设、分别代表、进行FFT变换后的第k个频谱分量。那么,的最小均方误差估计为: (2.9)经过一系列化简可得到: (2.10)其中,是伽马函数,、分别表示零阶和一阶修正贝塞尔函数。定义如下: (2.11)用最大似然估计求得和: (2.12) (2.13)其中,为上一帧的后验信噪比,为非负常数。、为可调参数,它们的值由主观听觉来决定,一般,。2.2.5 适合哼唱信号的语音增强算法我们在上面几个小节介绍了几类语音增强算法的原理和计算过程,下面我们需要分析这些算法的优缺点,得出适合于哼唱系统的语言增强算法。统计方法充分利用了语音和噪声的统计特性,但是需要进行训练建立模型库,计算量大,不予采用。参数方法需要准确提取模型参数,如果提取的模型参数不准确或者实际背景噪声和语音条件与模型有较大的差别,会对语音增强的效果产生较大影响,因此也不考虑。哼唱信号的自相似性并不显著,恰恰基于小波分解的方法主要就是利用信号在不同尺度上的自相似性,所以也不予采用。基于短时谱估计的方法能适应哼唱系统所可能处的各种环境,具有方法简单、易于实时处理、适应信噪比范围大等优点,是应用范围最广泛的语音增强方法。其中又数减谱法较为简单,计算量小,但是在语音增强过程中经常会带入音乐噪声,鉴于此,我们对减谱法做了改进,经过测试对比选择了合适的参数设置。最终选择减谱法作为哼唱系统的语音增强算法。2.3 本章小结本章重点介绍了多种语音增强算法,有统计方法、参数方法、基于小波分解的方法和基于短时谱估计的方法。详细对减谱法的原理进行说明,对改进后的减谱法进行分析,经过测试对比选择了合适的参数设置。对各类算法的优缺点进行分析比较并结合哼唱信号自身的特点及哼唱系统在实际运用过程中噪声的变化会比较大的问题,最终选择短时谱估计方法中的减谱法作为哼唱系统的预处理模块算法。第三章 哼唱检索特征提取模块的研究在哼唱系统中,语音信号特征的选取以及提取的准确度,都会对整个哼唱检索的结果产生很大的影响。因此,需要选择较为有效的语音特征,合适的特征提取算法,并对提取到的特征进行一些预处理,使其更加适合于哼唱检索系统。3.1 语音信号的特征3.1.1 时域特征语音的时域特征是指对分析语音信号的时域波形所提取的时域参数。由于不需要进行傅里叶变换,运算量较小,处理时间短且物理意义明确。1、短时平均能量短时平均能量 鲍长春. 数字语音编码原理M,西安电子科技大学出版社,2007.(Short-time Average Energy,SE)是指一个短时音频窗口内所有信号采样点所聚集的平均能量。短时平均能量定义为: (3.1)式中,为窗函数,常用的窗函数有矩形窗和汉明窗。矩形窗函数(Rectangular Window)表示为 (3.2)汉明窗函数(Hamming Window)表示为 (3.3)2、短时平均过零率过零率描述的是信号过零的速度,短时平均过零率(Short-time Average Zero-crossing Rate)18是指在一个语音帧内,信号采样值由正到负和由负到正变化的次数。短时平均过零率是区分纯语音信号中清音与浊音的一种度量方法,清音由于频率较高,因此过零率较大,浊音反之。过零率计算公式如下: (3.4)其中为符号函数,即 (3.5)3.1.2 频域系数语音信号的频域特征是指将时域语音信号进行傅里叶变换,得到频域信号后,对频域的数据进行分析得到的频域参数,包含LPC倒谱系数、MFCC等。1、LPC倒谱系数LPC系数是线性预测分析的基本参数,可由这些系数进一步推导出LPC倒谱系数(LPCC) 江星华,李应. 基于LPCMCC的音频数据检索方法,计算机工程,2009.。计算公式如下: (3.6)2、Mel频率倒谱参数Mel尺度倒谱参数(Mel-Scaled Cepstrum Coefficients),或称为Mel频率倒谱参数,简称MFCC 牛滨,孔令志,罗森林,潘丽敏,郭亮. 基于MFCC和GMM的个性音乐推荐模型N.北京理工大学学报,2009.。Mel频率倒谱参数之所以能在语音识别得到广泛的应用是因为Mel频率的划分是以人耳的一些听觉特性而建立的(如人耳的掩蔽特性)。MFCC计算过程如图所示:图31 MFCC提取过程3.1.3 声学感知特性声学感知特征是一些基于人的听觉感知特点而定义出来的声学上的概念,可以通过时域或者频域上的特征计算得到 张璠. 哼唱检索处理技术的研究D,河北农业大学,2009. 。音乐的声学感知特征通常有音高、音长、音强、音色四种。音高是由物体在一定时间内的振动次数即频率决定的,频率高的音就高,反之音就低。音长是由振动的延续时间决定的,振动的延续时间长音就长,反之音就短。音强即响度是由物体振动范围的幅度大小来决定的,就是我们平时所说的音量大小。音色(Timber)是由发声物体的形状、材质等决定的,不同物体产生的谐波是不同的,谐波不同音色也就不同。3.1.4 哼唱系统的信号特征提取上面介绍了三大类语音信号特征,我们需要从中选出适合哼唱系统的语音信号特征。通过分析比较每一种特征的优缺点以及考虑到哼唱系统的语音库是使用Midi文件来生成的,Midi中包含的是纯乐谱信息,乐谱中最直观的两个要素即为音高和音长,这两个特征不仅可以很简单的从Midi文件中提取出来,也能够充分表达语音的信息。因此,选择音高和音长作为哼唱系统提取的特征信息。 我们可以先对哼唱信号进行分帧处理,并计算每一帧的基音周期,统计基音周期相同或相近的帧数就可以得到音长。所以,我们只需要考虑基音周期的提取问题。3.2 哼唱信号的基音提取算法 人的声道特征是因人而异的,因此基音周期的精确检测是比较困难的,可以说这是语音信号处理中一个长久的研究课题,近年来,语音信号的研究者们提出了多种方法。语音信号的基音提取算法主要可以分成时域算法与频域算法两大类。3.2.1 时域算法时域算法主要在时间轴上进行,计算较为简单,但是时域算法得到的基音检测值经常是基音的倍数,产生倍基音误差。1、自相关函数法(ACF)自相关函数法(ACF)18是对信号进行短时相关分析时最常用到的特征函数。主要原理是把移位后的信号与原始信号进行对比,根据他们之间的相似性来确定基音周期。当移位距离与基音周期相等时,两信号具有最大的相似性 马道郡,等.基音检测中帧长选择的分析J. 北京电子科技学院学报,2006(4).。检测两个波形之间相似性的公式为: (3.7)式中,N为分析帧长,为移位距离,为用于控制信号电平改变的基音增益。2、平均幅度差函数(AMDF)假设语音信号是经过一个窗长为N的窗口函数截取的信号,如果是周期信号,那么相距周期整数倍的样点上幅度值相等,差值为零。 (3.8)实际的语音信号中并不为零,将短时平均幅度差函数(AMDF) 马英,于向飞. 一种改进的短时平均幅度查算法. 应用声学,2010.定义为: (3.9)可以得知,在等于基因周期的整数倍时,为极小值。3.2.2 频域算法频域算法需要使用傅里叶变换先将语音信号变换到频域上,计算较为复杂,但由于频域的周期谐波幅度较为明显,在信噪比高的情况下提取的精度也较高。1、倒谱法(CEP)将长度为L的一帧语音信号加上L点的汉明窗,并计算倒谱 张天骐,张战,权进国,林孝康. 语音信号基音检索的二次谱方法. 计算机应用,2005.。倒谱定义为时间序列的z变换的模的对数的逆z变换。序列的倒谱的傅里叶变换为: (3.10)语音的倒谱是将语音的短时谱取对数后在进行IDFT变换得到的。浊音信号的周期性激励反映在倒谱上是同样周期的冲激,记录下倒谱谱峰的纵坐标和横坐标,并通过输入信号计算得到一个门限值。当谱峰的纵坐标超过了门限值,输入信号即为浊音信号,这个谱峰对应的横坐标就是基因周期。具体如下图所示:图32 倒谱基因检测法2、小波变换法小波变换具有恒Q性质,在信号的低频域部分,可以取得较好的频率分辨率,在高频部分,可以取得较好的时间分辨率 陈海华,曲天书,王树勋. 基于小波变换的语音信号基音频率检测法N. 吉林大学学报,2002.。小波变换法可以根据信号的不同频率成分,在时域和频域自动调节取样的疏密,经过若干层的小波变换后,其逼近部分变成一段类似正弦波的信号,正弦波的周期即为基因周期 冯康,时慧琨. 语音信号基音检测的现状及展望. 微机发展,2004.。3.2.3 基音提取算法的选择这里主要根据哼唱系统的特点选取合适的基音提取算法。首先考虑到频域算法的计算复杂度均较高,而且在信噪比较高的情况下基音提取的误差都比较大,因此频域算法不予采用。时域算法中,平均幅度差函数算法(AMDF)计算复杂度较小,但是对信号幅度的快速变化比较敏感,会影响估计精度。自相关函数法(ACF)计算复杂度也较小,同时受信噪比以及幅度的影响都比较小,因此比较适合于哼唱系统。3.3 哼唱信号提取的归一化从本质上来剖析哼唱系统,可以发现哼唱系统实际上是在模拟人对于歌曲的识别分析过程。对于哼唱系统来说,用户要很准确的唱出和歌曲库中的音乐完全相同的节奏和音高是非常困难的。为了要达到比较好的哼唱检索效果,需要对提取到的哼唱信号特征信息进行归一化处理。所谓归一化处理就是使用某一种特定的规则将提取到的哼唱信号特征信息和歌曲库中的特征信息统一到一个相同的标准上,提高哼唱检索匹配的准确率。3.3.1 音高的归一化图33 哼唱信号在音高上的平移性根据个人喜好,一首歌曲可以用高8度的音高来唱,也可以用低8度的的音高来唱,也就是说音高具有可以平移的特性。图3-3是以不同的音调来演唱同一哼唱信号得到的序列的频谱图。标出的区间是同一个音符,可以看出,后者谐波的间隔要比前者大,表明了用高音调哼唱的后者的音高要比前者大。在实际匹配过程中,由于提取的哼唱信息是绝对音高,音高的平移使得提取的特征信息不同,导致匹配的结果也不相同,甚至出现错误。因此,本文给出这个问题的一种解决方案,即不使用原始的绝对音高值来进行匹配,而是在一个哼唱序列中搜索一个最小的音高值,将所有的音高值减去这个最小值,使用新的音高序列进行匹配。对于一个长度为n的音高特征序列,其中最小值,定义归一化后新的音高序列为,其中。这样子,新的特征序列是哼唱信号在音高上的本质特征,通过对新的特征序列的搜索,就可以解决哼唱系统中音高的平移性问题。3.2.2 音长的归一化图34 哼唱信号在音长上的伸缩性对于用户来说,哼唱一首歌可以用快节奏来唱,也可以用慢节奏来唱,也就是说代表节奏快慢的音长信息具有伸缩性。图3-4是两个不同语速的哼唱信号序列的频谱图,标出的区间是同一个音符,可以清楚的看出节奏比较快的前者音符的音长大约为0.7s,节奏较慢的后者音符的音长大约为1.7s。这说明了节奏的快慢对音长的影响比较大。在实际的匹配过程中,由于使用的是绝对音长,因此不同节奏的哼唱信号匹配的结果并不相同。为了解决这个问题,我们需要对音长进行归一化处理。首先搜索出音长序列中的最小值,由于音长的伸缩性,因此使用比值来进行归一化,将所有的音长除以这个最小值。对于一个长度为n的音长特征序列,其中最小值,定义归一化后的新的音长序列为,其中。通过对音长的归一化处理,新得到的序列表示了在音长上的本质特征,可以解决音长的伸缩性问题。3.4哼唱信号特征提取归一化测试与分析3.4.1哼唱信号特征提取归一化的测试结果使用盛大的哼唱检索源码来进行语音信号特征提取归一化的测试。将提取到的音高和音长信息分别作归一化,用归一化后的特征值作为哼唱检索匹配模块的输入,得到归一化后的检索结果。检索结果由两个部分组成,检索排名和距离,排名越前的、距离越小的匹配度越高。具体测试结果如下表所示:表31哼唱信号特征提取归一化测试结果检索结果归一化后检索结果男声从头再来测试者11/8.451/7.81测试者21/7.031/6.12测试者31/7.411/7.06测试者42020九百九十九朵玫瑰测试者11/8.071/7.71测试者21/7.811/7.79测试者31/6.881/6.88测试者41/7.461/7.40冬天里的一把火测试者13/14.402/13.77测试者21/8.421/8.07测试者35/12.575/11.96测试者41/7.863/11.84女声同桌的你测试者15/11.484/10.99测试者27/10.786/10.51测试者31/7.521/7.11测试者413/12.651/6.71风中有朵雨做的云测试者114/12.2513/12.61测试者24/9.683/9.85测试者35/11.0320测试者41/10.0020甜蜜蜜测试者11/8.331/7.98测试者21/9.291/8.77测试者32020测试者420203.4.2 哼唱信号特征提取归一化测试结果分析测试的歌曲一共有6首,3首男声歌曲,3首女声歌曲,每首歌有4名测试者,一共24组测试序列。对上面的测试结果进行统计分析,如果语音信号的特征提取归一化后检索结果的排名有提高或者排名相同但是距离值减小,则认为归一化有效;如果语音信号的特征提取归一化后检索结果排名下降或者排名相同但是距离值增大,则认为归一化无效;如果归一化前后的的检索排名均大于20,则认为失去考察意义。语音信号特征提取归一化的统计分析结果具体如下表所示:表32 语音信号的特征提取归一化测试结果统计分析表归一化有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论