




已阅读5页,还剩57页未读, 继续免费阅读
(计算机软件与理论专业论文)hmm模型在哼唱检索中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 计算机检索音频片段,可使用基于标题或文件名的文本标注方式,但由于文 件名和文本描述的不完整性和主观性,很难找到满足具体要求的音频片段。哼唱 音乐检索作为种最自然的音乐检索方式,目前已被国内外专家普遍关注。h m m 作为一种统计模型,由于有坚实的理论基础,已经被引入哼唱音乐检索领域。但 大部分的研究成果都是以音符为基础建立模型,以音符为处理单位来进行训练和 识别,通过音符切分来获取旋律中每个音符的音长等,这样会导致哼唱方式不自 然。 针对以上问题,本文对哼唱检索理论和h m m 模型进行了深入研究,在已有研 究成果基础上,分析了t t m m 模型在哼唱检索中的可行性和理论优势,并对其在音 乐检索中的模型和相关算法进行了改进,设计出音乐检索原型系统。通过对旋律 信号作短时分帧,提取旋律特征向量,考察这些特征向量序列在统计上的规律, 在检索前对每首旋律分别训练建模,然后计算待测旋律在这些模型上的概率,挑 选概率最大的作为检索结果,实现了有效的音乐检索。 具体工作如下: 1 对基于内容的音乐检索结构分析,给出音频信息特征的表示方法和m i d i 音乐旋律的常用表示方法。 2 分析了h m m 模型的基本原理,简述了该模型的三个核心问题和解决三个问 题的基本算法,提出h m m 模型在哼唱检索特征提取及识别中的可行性及理论优 势。 3 分析了h t k 工具包进行训练和识别某类物体的过程,以h m m 作为分类器, 对哼唱的音乐内容进行分类,实现了基于l f p c 的h m m 分类算法研究。 4 讨论了m i d 音乐特征的提取与选择,以连续隐马尔可夫模型( c h m m ) 为基 础建立旋律模型,以帧为单位进行训练和识别,并通过实验验证了h m m 模型进行 哼唱检索的有效性。 关键词音乐特征提取与表达隐马尔可夫模型哼唱检索 a b s t r ac t c o m p u t e rs e a r c ha u d i oc l i p sc a nb eb a s e do nt h et i t l eo rf i l en a m e , b u tt h ed e s c r i p t i o no ff i l en a m eo rt h et i t l ei sn o ti n t e g r i t ya n ds u b je c t i v i t y , i ti sd i f f i c u l tt of i n da u d i oc l i pt om e e tt h es p e c i f i cr e q u i r e m e n t s q u e r y b yh u m m i n g ,a sas e a r c ho ft h em o s tn a t u r a lw a yt or e t r i e v et h em u s i c h a sb e e nc o n c e m e da b o u t h m ma sas t a t i s t i c a lm o d e l ,w h i c hh a ss o l i d t h e o r y , h a sb e e ni n t r o d u c e di nt h ef i e l do fm u s i cs e a r c h h o w e v e r , m o s t o ft h es t u d i e sb u i l tm o d e lb a s e do nn o t e ,n o t ea sau n i tt od e a lw i t h t r a i n i n ga n dr e c o g n i t i o n ,t h r o u g ht h es e g m e n t a t i o nt oo b t a i nt h en o t e so f e a c hm e l o d yt o n eo ft h es o u n d ,w h i c hl e a dt h eh u m m i n gw a yi s u n n a t u r a l t od e a lw i t ht h ep r o b l e m ,t h et o p i cs t u d i e di n d e p t ho nt h ee x i s t i n g r e s e a r c hr e s u l t sa b o u tt h eh u m m i n gt h e o r ya n dt h eh m mm o d e l , a n a l y z e dt h ef e a s i b i l i t ya n ds u p e r i o r i t yt h e o r yo fh m m m o d e li nq u e r y b yh u m m i n g ,i m p r o v e dt h em o d e la n dr e l a t e da l g o r i t h m s ,d e s i g n e dt h e p r o t o t y p es y s t e mt or e t r i e v et h em u s i ca n ds oo n b ym e l o d ys i g n a lf o ra s h o r tt i m ef l a m e ,e x t r a c t e dt h ef e a t u r ev e c t o ro fm e l o d y , s t u d i e dt h e c h a r a c t e r i s t i c so ft h e s ev e c t o rs e q u e n c ei nt h e s t a t i s t i c s b e f o r e r e t r i e v e ,e a c hm e l o d ym u s tb et r a i n e da n dm o d e l e d a n dt h e nc a l c u l a t et h e p r o b a b i l i t y o ft e s tm e l o d yb a s e do nt h em o d e l s s e l e c tt h em a x i m a l p r o b a b i l i t ya sar e s u l to f r e t r i e v e r e a l i z e da ne f f e c t i v em u s i cr e t r i e v e s p e c i f i ca c t i v i t i e si n c l u d et h ef o l l o w i n g : 2 3 a n a l y z e dt h e s t r u c t u r eo ft h em u s i cr e t r i e v e ,c a m eo u tt h e e x p r e s sm e t h o d so ft h ec h a r a c t e r i s t i c so ft h ea u d i oi n f o r m a t i o n a n dm i d im u s i ct u n e a n a l y z e dt h eb a s i cp r i n c i p l e so fh m m m o d e l ,o u t l i n e dt h et h r e e c o r eq u e s t i o n si nt h em o d e l ,c a m eo u tt h et h r e eb a s i ca l g o r i t h m s a b o u tt h e s eq u e s t i o n s ,p u tf o r w a r dt h et h e o r e t i c a lf e a s i b i l i t ya n d a d v a n t a g e si nh u m m i n gf e a t u r ee x t r a c t i o na n dr e c o g n i t i o n a n a l y z e dt h ep r o c e s so ft r a i n i n ga n di d e n t i f y i n gc e r t a i nt y p e so f o b j e c t su s i n gt h eh t kt o o l k i t ,u s e dh m m a sac l a s s i f y w a r e , h u m m i n gc a nb ec l a s s i f i e d ,s e t t l e dt h ec l a s s i f i c a t i o na l g o r i t h m b a s e do nl f p c d i s c u s s e dt h es e l e c t i o na n de x t r a c t i o no fc h a r a c t e r i s t i c so fm i d i , w i t hs e q u e n c eh i d d e nm a r k o vm o d e l ( c h m m ) f o u n d a t i o n e a t a b l i s hm o d e lo fm e l o d y , f r a m eu n i t sf o rt r a i n i n ga n di d e n t i f y , t h r o u g he x p e r i m e n tv e r i f i e dt h ee f f e c t i v eo ft h eh m m m o d e l f o rh u m m i n gs e a r c h k e yw o r d s : m u s i cf e a t u r ee x t r a c t i o na n de x p r e s s i o n h i d d e nm a r k o vm o d e l q u e r yb yh u m m i n g 西北大学学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻 读学位期间论文工作的知识产权单位属于西北大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被 查阅和借阅。学校可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学 位论文。同时,本人保证,毕业后结合学位论文研究课题再撰写的文 章一律注明作者单位为西北大学。 保密论文待解密后适用本声明。 学位论文作者签名:三妄墟指导教师签名_ 羁圣逦垒争 j j 刃卿辉移月汐日汐砀年髟月,口,日 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢 的地方外,本论文不包含其他人已经发表或撰写过的研究成果,也 不包含为获得西北大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示谢意。 学位论文作者签名:沙晓艳op l u ,、l -h l = oh。二,uiu 二零零八年呵归 h m m 模型存哼唱榆索中的心用 第1 章绪论 1 1 研究目的及意义 随着现代信息技术,特别是多媒体技术和网络技术的迅速发展,大量的多媒 体信息都可以从网上获得。而音乐更成为各搜索引擎( 诸如百度、g o o g l e 等) 中 最常被使用者输入的搜索关键字之一。传统的音乐信息检索技术主要是基于文本 的,然而基于文本的音乐信息检索方式有其固有的无法克服的缺陷。首先,使用 者需要通过输入歌曲的名称、演唱者信息或歌词等来进行检索,这就要求使用者 必须记得歌曲的名称、演唱者或者是歌词的内容才有办法进行搜寻,这显然是不 够自然的;其次,为了对歌曲采用文本检索技术,需要通过人工方式生成歌盐的 文本标注,如文件名、歌曲的演唱者等,人工标注的方法不仅成本高,而且根本 无法完成对如此大规模数据的标注;最后,音乐的一些重要特征,如音乐的旋律、 音调、音色等,很难、或者根本就无法用文本表达清楚。因此,研究有效的、更 具人性化的音乐检索方法是一项重要而又有意义的工作。 哼唱检索( q u e r yb yh u m m i n g ,q b h ) 通过哼唱歌曲的某个片段来找到想要搜 寻的歌曲,是一种基于内容的音乐信息检索方式,其他的检索方式还有节拍拍打 检索( q u e r yb yt a p p i n g ,q b t ) 、演奏输入检索( 如使用m i d i 键盘等) 、乐谱录 入( 如直接输入音符序列) 检索等。虽然演奏输入检索和乐谱录入检索可以采用 文本检索技术很容易地实现,但对用户的音乐技能要求较高。而哼唱检索方式则 由于对用户要求低、使用简单、能比较准确地表达检索要求而成为最主要的音乐 检索方式。 哼唱检索技术在现实生活中有着广泛的应用前景:( 1 ) 应用在网站上,再通 过一个定期在网络中搜寻数字音乐的系统,就构成了一个音乐搜索引擎,使用者 便可以用哼唱等方式在网络上搜寻想听的歌曲;( 2 ) 应用到现有的视听系统中, 譬如k t v 的点歌系统,可以使检索过程更为简便且人性化;( 3 ) 将哼唱检索技术 与音乐数据库整合,势必能提供更加自动化及直观的搜寻;( 4 ) 作曲家作曲时利 h m m 模型在哼唱榆索中的应用 用该技术检索相关乐曲,从而可方便作曲家对所创作歌曲和现存歌曲进行交叉比 对和参考。此外,借由哼唱检索方式独特的分析能力,业余作曲家只需对着电脑 哼唱心中的创作歌曲,系统便能自动识别和记录哼唱的旋律,生成乐谱。科技的 发展越来越追求贴近人类的生活,在此趋势下,哼唱检索技术以其更加自然和直 观的特性,将更进一步的拉近人与科技的距离馏3 。 1 2国内外研究现状 音乐是人们经常接触的媒体,它有着多种存储形式,例如m i d i 、m p 3 和各种 压缩音乐制品、实时的音乐广播等。研究哼唱音乐检索,首先应该了解音乐的数 据形式和音乐的结构分类。 1 音乐数据的表示形式 音乐数据的表示形式可分如下三类: ( 1 ) 结构化的符号表示形式 符号音乐的格式有m i d i ( m u s i c a li n s t r u m e n td i g i t a li n t e r f a c e ) 、g u i d o ( 一 位音乐理论家的名字) 、 s m d l ( s t a n d a r dm u s i cd e s c r i p t i o n l a n g u a g e ) 、n i f f ( n o t a t i o ni n t e r c h a n g ef il ef o r m a t ) 等,其中最常用的是m i d i 格式,m i d i 以时i 刮标记事件的方式详细记录音乐的演奏方式,保存了音符、时值、 演奏乐器等详细的语义内容,具有数据量小、便于传输和保存、能很容易地转换 成音频形式等独特的优点,用途比较广泛。 ( 2 ) 音频形式 音频数据可以描述音乐、语音、音效等所有声音,从存储的格式上可分为压 缩格式,如m p 3 、m p e g 、r m 等和非压缩格式,如p c m 、w a v 。音频是应用最普遍 的计算机音乐表示形式。 ( 3 ) 乐谱形式 乐谱是传统的音乐表示形式,包含了音符、歌词等音乐信息。这种表示形式 常用于印刷品的音乐书刊和杂志中。 2 音乐的分类 根据音乐中同时发音的音符数量、发音时矧的不同,可将音乐分为如下三类: 2 h m m 模型4 :哼唱榆索中的膨用 ( 1 ) 单声部音乐( m o n o p h o n i cm u s i c ) :前一个音符结束发声后,下一个音符才开始 发声,同一时间只能有一个音符发声。 ( 2 ) 齐奏音乐( h o m o p h o n i cm u s i c ) :多个音符可以同时发声,但同时发声的音符必 须同时开始、同时结束。 ( 3 ) 多声部音乐( p o l y p h o n i cm u s i c ) :同一时间可以有多个音符发声,并且不同音 符发声的开始与结束时间没有任何限制。 以m i d i 为主的结构化符号音乐中不仅包含了丰富的信息,如音乐的旋律、 节奏、节拍、演奏乐器等,而且容易提取,因此非常适于检索处理。相反,音频 音乐的检索则比较困难。从音乐的内容上看,单声部音乐结构简单容易检索,齐 奏音乐次之,而多声部音乐则由于同时发声的音符数量、发声时间及音符时值的 任意性使检索问题变得很困难。目前的哼唱音乐检索研究主要集中在单声部的 m i d i 音乐检索方面,对多声部的音乐检索,由于检索输入( 要求查询也是多声部, 无法哼唱) 和检索匹配都比较困难,因此研究的较少。现将国内外目前的些研 究工作( 数据库中的歌曲以m i d i 格式存储) 介绍如下: 图卜1哼唱检索的系统流程 哼唱检索系统的工作流程如图卜1 所示,主要由三部分模块组成:旋律提取模 块、旋律匹配模块以及建立旋律库。首先通过麦克风,以音频信号的形式将用户 哼唱的一段歌曲采集到计算机内部,并切分成帧,然后采用时域或频域的方法提 取每帧的基音频率,将基音频率转换成音高后,取得哼唱输入的旋律表示。乐曲 库中的乐曲都已经用相同的形式进行编码表示,且建立了旋律库。因此,可进行 二者之间的旋律匹配计算,最后将相似度最高的若干首乐曲作为检索结果返回给 用户。目的较具规模的哼唱检索系统有英国s o u t h a m p t o n 大学的q b h 系统、新西兰 h m m 模型在哼唱检索中的应用 w a i k a t o 大学的m t 、m e l d e x 系统、s o n o d a 系统、s o u n d c o m p a s s 系统、中国台湾清华 大学的c b m r 系统等。 各系统的解决方案如表1 1 所示。 表1 1 哼唱检索技术发展总结 作者特征提取技术搜索技术时间 g h i a s 基音轮廓( u ,d ,s )字符串匹配 1 9 9 5 m c n a b 基音轮廓( u ,d s ) 、音长字符串匹配 1 9 9 6 、2 0 0 0 b l a c k b u r n ,基音轮廓( u ,d ,s )基丁树的搜索 1 9 9 8 、1 9 9 9 r o l a n d c h e n半音、音k动态规划 1 9 9 8 k o s u g i , 【司定窗口k 度基音信息动态规划1 9 9 9 h ua n d z h u2 0 0 3 c l a r i s s e 基音、音跃 d t w2 0 0 2 s h i h 基丁基音特征的隐马尔基丁树的搜索 2 0 0 2 科大模型、音长 p a u w sm i d id t w2 0 0 2 p a r d om i d i 、h m m 相似度 2 0 0 4 现有研究中采用的哼唱输入方式主要有两种:一种是特定哼唱输入方式,用 户在哼唱时必须自行留下小小的间断或以“d a d a ”声哼唱,利用闭口声母在音 符之间留出低能量间隔,使得系统可以跟踪能量随时间的变化情况,确定每个音 符的边界,但对于发声连贯的情况,这种方法容易造成误判,影响检索性能;另 一种是连续哼唱输入方式,与特定哼唱输入方式相比,这种方式更自然、方便, 避免了音符切分错误,但是对匹配算法的计算能力要求很高。此外,哼唱输入中 有各种各样的动态变化,例如基频转变( p i t c ht r a n s i t i o n ) ,因此并不是每一 帧的基频都是有价值的。 非专业用户哼唱的旋律无法做到与乐曲的旋律完全相同,主要有以下四种常 见误差: ( 1 ) 音调误差,研究表明平均1 00 0 0 人中只有1 人能够准确掌握乐曲的 音调。不同年龄、性别、情绪的人在演唱同一首乐曲时音调可能不同;( 2 ) 节奏 误差,一首歌曲可以用快节奏唱,也可以用慢节奏唱,而听者仍能听出其实是同 样的旋律; ( 3 ) 局部音高误差,虽然用户能较好的掌握音高的变化,但仍然有不 少相邻音符之间的音高差会稍高或稍低一些;( 4 ) 局部节奏误差,希望用户精确 的把握每个音符的音长是非常不现实的。在哼唱音乐检索的旋律表示和旋律匹配 算法的研究中,以上的误差都是需要考虑的。 4 h m m 模型谯哼昌榆索中的应用 音乐的旋律主要包括音高旋律、节奏旋律等。根据人们对音乐旋律的记忆特 点,d o w l i n g 发现旋律的轮廓( m e l o d yc o n t o u r ) 比完整的旋律更加容易记忆。旋 律的轮廓是指旋律的形状( s h a p eo fm e l o d y ) ,包括音符音高的升高、降低或者 保持不变。因此较早期的研究工作的共同特点是采用时域或频域的方法提取音高, 再根据音高变化把旋律表示成符号串( u 、d 、r ) ,其中,“u ”表示上升, “d , 表示下降,“s 表示相同,基本不考虑节奏特征。然而,随着乐曲库规模的扩大, 仅使用音高来唯一确定一首乐曲变得越来越困难。近期的一些研究把重心放在大 型乐曲库的检索上,主要是节奏信息在检索中的使用。例如,l i el u 等用音高轮 廓( p i t c hc o n t o u r ) 、音程( p i t c hi n t e r v a l ) 、音长( d u r a t i o n ) 表示旋律。 t o mb r o n d s t e d 等同时使用音高变化( u p ,d o w n ,r e p e a t ) 和音长变化( l o n g e r , s h o r t e r ,r e p e a t ) 对旋律进行编码。上海交大的李杨等用二元组( 音差,时间) 来描述一个音符。音差指当前音符与上一个音符的音高差值,以半音为单位。时 间指该音符开始的时刻,表达了旋律的节奏特征。 在旋律匹配部分,现有的大多数系统都使用近似字符串匹配算法,如d p 法, n - g r a m 法。但这种方法在容错方面有明显缺陷,因为用户哼唱一般是随意起调的, 所以采用近似字符串匹配算法的所有系统大都是用音高变化的幅度描述音符。如 果用户在哼唱时有一个音的频率出现偏差,则编码成音符序列后,误差就会传播 到两个音符上。假设共有1 2 个音,那么错误率就是1 6 7 。在稍大规模的乐曲库中 使用字符串匹配,就很容易导致检索失败,而用户仅仅是唱错了一个音。 上述识别算法大多是以音符为基础( n o t e l e v e l ) 的,为了利用能量等信息 进行较为精确的音符分割( n o t es e g m e n t ) ,以保证系统识别率,这些系统大多 要求哼唱者哼唱“d i ”或“d a ”组成的旋律来进行检索,这就限制了使用者哼唱 的方式。并且大部分用户都不是专业歌唱家,哼唱的旋律、音调或多或少都存在一 定的偏差。能不能在用户哼唱时,对哼唱者不规定严格的哼唱方式,可以唱歌词, 也可以随意哼唱,只要哼唱的旋律基本准确就可以找到用户所需要的音乐,就成 为本课题研究的内容。 h m m 模型在哼唱榆索中的心用 1 3 本论文主要研究的问题和论文结构 本文的研究目标是研究解决用户在哼唱时采用随意哼唱方式,随意哼唱歌词 或随意哼唱旋律就能检索到所需要音乐的方法。这种方法所涉及的一些关键技术, 包括音频信号的特征提取与表达、h m m 理论与基本算法、基于h m m 的哼唱检索系统 的研究与实现等。 本论文结构安排如下: 第一章:引言。概括论述了丌展哼唱检索研究的重要意义及国内外对于哼唱检 索的研究现状和发展动态。 第二章:音频信号特征提取与表达。介绍了音频信息常用特征的提取与表达方 法,为应用h m m 进行音频分类识别打下基础。 第三章:隐马尔可夫的理论与算法。研究了隐马尔可夫模型的工作原理以及 基本算法,给出隐马尔可夫模型在哼唱检索中的可行性。 第四章:基于l f p c 的h m m 分类算法研究。介绍了h t k 工具包,以h m m 作为分 类器,对哼唱的内容进行分类实验。 第五章:h m m 模型在哼唱检索中的应用。从哼唱检索的理论出发,建立音乐m i d i 数据库,对数据库中的音乐特征提取,依据提取的旋律特征,以连续隐马尔可夫 模型( c h m m ) 为基础建立旋律模型,以帧为单位( f r a m e - l e v e l ) 进行训练和识别, 并通过实验验证了h m m 模型进行哼唱检索的有效性。 第六章音乐哼唱检索设计及实现。结合上述研究内容,设计了一个基于旋 律的哼唱检索系统一“m u s i cr e t r i e v e ”,并进行哼唱检索试验。 第七章:总结与展望。对本文工作做出总结,并对今后的基于内容音乐检索研 究进行了展望。 6 h m m 模型4 :哼唱榆索中的麻用 第2 章音频信号的特征提取与表达 2 1音频信号的特征提取与表达 在音频检索中,需要经过特征提取、音频分割、音频识别分类和音频检索这 几个关键步骤,如图2 1 所示。 音频 i 频流h 取k 砂 识别 - 一音频检索 分类 图2 1基于听觉内容的音频检索 利用信号处理技术对音频流进行处理,首先提取出音频特征。所谓音频特征 就是用来表征原始音频信息的数据。根据特征空问的不同,音频特征可以分为时 域、频域和时频三类分析方法。时域分析方法具有简单、计算量小、物理意义明 确等优点。但音频信号最重要的感知特性在功率谱中,相位变化只起着很小的作 用。所以,相对于时域分析,频域分析更为重要。 另外,按照特征提取单位长短的不同,也可以从音频信号x 中提取音频帧特征 ( a u d i of r a m e ) 和音频例子( a u d i oc 1i p ) 特征两种不同形式的特征。 x 的音频帧特征就是从帧中每个采样点中分别提取特征,所有采样点中提取特 征就构成了x 的特征向量。使用音频帧长度来提取特征的思想来源于语音信号处理 理论,其前提是假设语音信号在短时间范围内( 1 0 3 0 m s ) 是相对稳定的,因此在 稳定短时刻提取的特征被发现十分适宜。 基于音频例子长度提取特征考虑的是任何音频语义总是要持续一定长的时 间,如爆炸、掌声等均要持续几秒。如果在音频语义持续时间内提取特征,会更 好反映音频所蕴含语义,所以在这种处理方法中,直接对x 提取特征,也就是把x 的所有采样点只看成一个“短时帧”,但是这样处理的结果过于粗糙。实际上, 对于x 的所有采样点,既要考虑音频短时平稳性,又要考虑音频信号本质非平稳特 性,一般先提取含部分采样点的音频帧特征,然后计算音频帧的统计特性,作为x h m m 模型4 :哼唱榆索中的心用 的音频例子特征n 1 。 应该指出,音频信号的时域特征、频域特征和时频特征均是从短时帧中得到 的。 2 1 1音频信号的数字化 音频是多媒体中一种重要媒体。人耳能够听见的音频频率范围是6 0 h z 2 0 k h z ,其中语音大约分布在3 0 0 h z 一- - 4 k h z ,而音乐和其他自然声响可以分布在 6 0 h z 2 0 k h z 的任何区域。人耳听到的音频是连续模拟信号,而计算机只能处理数 字化的信息,所以模拟连续音频信号要经过离散化及取样后变成计算机处理的采 样离散点。 取样产生了一个问题:是否会丢掉有用的信息,也就是能否从序列x ( n )来 恢复出x o ( t ) ? 取样定理对这个问题做出了明确的回答。 根据取样定理,如果信号吒( ,) 的频谱是带宽有限的,即 ( q ) = 0 ,q 2 r e c 而x o ( t ) 能够唯一地从它的样本序列x o ( n t ) 重构的条件是: 只= 2 f 这就是说,当取样频率大于信号的两倍带宽时,取样过程不会丢失信息,从 x ( n ) 可以精确地重构原始的波形。它们之间的关系是: 当只= 2 e 时,又称为尼奎斯特频率。 2 1 2 音频信号的时域分析 音频信号的时域分析就是分析和提取音频信号的时域参数。时域特征包括短 时平均能量、过零率和线性预测系数等。 8 h m m 模型4 :哼唱检索中的心用 1 短时平均能量及短时平均幅度分析妇2 1 短时平均能量( s h o r t ti m ea v e r a g ee n e r g y ,s e ) :指在一个短时音频窗口内 采样点信号所聚集的平均能量。假定每个短时帧大小为n ,xf n ) 为用n y q u i s t 频 率采样后的离散音频信号。 信号流的分帧处理可采用有限长度窗口进行加权的方法来实现。常用的窗函 数是矩形窗或汉明窗。 矩形窗函数表示为: ,、1 1 ,0 ,z ( n 一1 ) w l 玎1 2 一 0 ,疗= e l s e 汉明窗函数表示为: ,、i o 5 4 0 4 6 c o s 2 n - n ( j v 1 ) 】,0 玎sn l w i 聆l = 一 1 0 ,n = e l s e ( 1 ) 时域离散信号的短时平均能量的定义为: e = x ( 肌) w ( 珂一俄) 2 = x ( 聊) w ( 一跏) 】2 若令 h ( n ) = w 2 ( ,2 ) 则 + ”+ 一l e = x 2 ( m ) h ( n - m ) = x 2 ( m ) h ( n - m ) = x 2 ( 以) 木厅( 胛) 可以解释成:先计算原始音频信号序列x ( n ) 的每个样本的平方,再通过冲激 晌应为h ( n ) 的滤波器,其输出的是短时能量构成的时间序列e 。 短时能量序列e 反映了音频振幅或能量随时间缓慢变化的规律。 应用短时平均能量特征的主要原因可概括为如下三点: 1 ) 对于纯语音信号,短时平均能量能够较好地区分语音中的清音成分与浊音 成分,因为清音成分的短时平均能量通常明显地小于浊音成分的短时平均能量: 2 ) 当音频信号的信噪比较高时,短时平均能量可以有效地区分其中的静音部 分: 9 h m m 模型扫j 哼唱枪索中的心用 3 ) 短时平均能量随时1 8 j 的变化,可以反映音频的节奏、周期等属性。短时平均 能量可以直接应用到静音检测( s i l e n c ed e t e c t i o n ) 短时平均幅度坂的定义: 若令 则 + h + n - i m 。= lx ( m ) w ( n 一所) l = jx ( m ) w ( n 一川) h ( n ) 爿w ( n ) l 且通常w ( n ) 0 ,所以有h ( n ) = w ( n ) n + 一l m 。= ix ( 聊) i h ( n - m ) = lx ( m ) h ( n - m ) l = ix ( n ) l 幸向( 挖) 音频的平均幅度具有与短时能量相似的性质,且二者均可以区分有声与无声。 2 短时平均过零率。 短时平均过零率:指在一个短时帧内,离散采样信号值由正到负和由负到正 变化的次数。如果离散时间信号是窄带信号,过零率可以比较准确地度量该窄带 信号的频率。在宽带信号的情况下,过零率只能粗略地反映信号的频谱特性。 短时平均过零率历的定义: 劢2 2 - - g z is g n 2 【x ( 垅) w ( 订一m ) 】- s g n 2 【x ( 聊一1 ) w ( n - m - 1 ) l 其中 口 hr 0 且s g n z x2 l - i ;o 则 z n = 去| s g n 2 砌) - s g n 2 砌一1 ) l ( 刀) 短时平均过零率n 即是另一种区分纯语音信号中清音成分与浊音成分的有效度 量方法,因为清音成分通常比浊音成分具有更高的过零率,这也导致过零率幅度 变化比较明显:相比较而言,音乐的过零率幅度变化小,显示音乐的过零率通常在 某些时间段内比较平稳。需要指出的是,为了削弱噪声对过零率特征的影响,对 1 0 一 p 一氐 聆 p 一 = o l 0 ,j、i = 、, 砼 ,l 、 彬 h m m 模型在哼唱榆索中的心用 信号进行中心削波处理。过零率能够有效地表征不同类型的音频信号,普遍应用 于语音音乐分类算法中过零率可用来区分语音和音乐两种不同音频信号。 3 短时能频值 短时能频值e f v ( e n e r g y f r e q u e n c yv a l u e ) :是一种新的语音信号参数,其 定义为 e f v = 勘水z ne n 短时能量历一短时过零率 因为汉语音节具有简单的声韵母结构,声母具有较高的过零率、能量较低; 韵母则具有比较高的能量,过零率较低。这样,e f v 既顾及了声母的高过零率,又 考虑了韵母的高能量,从而提高了语音信号和背景躁声的分辨能力。 音频信号中也含有大量的语音,因此采用短时能频值来提高音频信号和背景 躁声的分辨能力。 实验表明,能频值具有较好的稳定性和较高的语一躁分辨能力。在传统的采 样系统中,一般将能量和过零率单独使用来辨别语音头尾或进行切字,采样的阈 值与躁声的均值之比约为十几倍,而使用能频值时,其比值可以达到5 0 0 - 6 0 0 倍。 这样,就可以很好地从躁声中取出语音段了。 4 线性预测系数心嵋 线性预测系数( l i n e a rp r e d i c t i o nc o e f f i c i e n t s ,l p c ) :在一个短时帧内, 如果用有限个参数的数学模型来线性近似表示音频序列x ( n ) ( 1 ,7 k ) ,这些参 数就成为x ( 以) 的重要特征,叫做线性预测系数。其重要性在于:使用l p c 的方法 能够极为精确地估计语音参数,可以用少量的参数准确有效地表示语音波形及其 频谱的性质,可以用比较简单的计算和比较快的速度求得l p c 参数。无论在音频 压缩编码还是在音频信息检索方面均有极广的应用。 记模拟音频信号x ( n ) ( 1 r l 七) 的数学模型为x ( n ) ,则 ;( ,z ) = pq x ( 以一f ) 其中谚为线性预测系数,p 为模型阶数,x ( n - i ) 为语音采样信号。 从上面可以看出,可以用信号前面的一些采样值加权后叠加作为产生音频序 h m m 模型红哼唱榆索中的应用 列x ( 胛) ( 1 t 1 k ) 的数学模型,也就是用前面的采样信号点表示后面的采样信号。 信号值x ( ,z ) 与线性预测值x ( n ) 之差称为l p c 误差,用s ( 疗) 表示,即 占( 刀) = x ( ,2 ) 一;( 门) = x ( ,2 ) 一pq x ( 门一f ) = l 在计算模型系数时,采用如下最小均方误差解法,即定义平均预测误差为: e s 2 c ,z , = e c x c 行,一喜日,z c 甩一,2 ) 为了使e s 2 ( 玎) ) 最小,对a j 求偏导,并令其为零,有 掣:2 e s ( 胛) a e ( n ) 1 :o j :1 ,2 ,p o a o a 由式( 2 - 2 ) 可知 o :e 一( n ) :一x ( 聆一) :1 ,2 ,p w j 将式( 2 - 5 ) 代入( 2 - 4 ) 得 e e ( n ) x ( n 一,= 0 ,= 1 ,2 ,p 式( 2 - 6 ) 将( 2 - 2 ) 代入式( 2 - 6 ) 得标准方程式 e b ,一喜a i x ( n - i ) x ( n - j ) ) = o 似一,p 扪州 线性预测系数反映了音乐信号的变化形状,是一种音乐信号分析中较常用的 音乐信号特征。 2 1 3 音频信号的频域分析 音频理论指出:每一个音频信号是由不同时刻、不同频率和不同能量幅度的 声波组成,人们之所以能够感受到音频信号,是因为人耳这个滤波器在不同时候 感受到了不同频率带上不同能量信号的结果。每个时刻的采样信号x ( n ) ( 1 以k ) ,只代表部分信息,音频信号的其它信息,需要经过频域分析才能得 到。 1 2 h m m 模型4 :哼唱枪索中的心用 音频信号的频域特征是指先把音频信号进行傅立叶变换,将原始信号转换到 频域后,对频域内的数据进行分析所提取出的频域参数。其中包括能谱特征、平 均功率、功率谱特征、倒谱系数、嫡特征等。 1 能谱特征 对于音频信号石( ,) ,其总的能量为j x 2 ( ,) 西,称l x ( 厂) 1 2 为x ( ,) 的能谱,其中 x ( f ) 为x ( ,) 的频谱。 对于音频信瓢m 称矗弘懒i 为其在区帅h 扯的平均功率。 3 功率谱,称。:一1 - - - l 圳l r 吒i x ( t ) e 2 # j d t l 2 为x c ,在区间n ,t 。,上的功率谱。 4 l p c 倒谱系数陋3 l p c 系数可以用来估计语音信号的短时谱。假设通过线性预测分析推导的声 道模型的系统函数为 h ( z ) = 一 式( 2 8 ) 卜a i z 一 其冲激响应为办( 胛) 。办( 聆) 的倒谱为五( 门) ,则左( 甩) 和q 之间的递推关系为: 向( 行) = 初值h ( o = a l 式( 2 - 9 ) 对于某个短时帧,其l p c 倒谱系数提取过程如下:首先用数字滤波器对音频 p 一 聍 聆 m o d 力 一 必 ,一纷 向 一 q 0与疗 川川 一 十 0 川 h m m 模型确:哼唱检索中的应用 帧所包含的每个采样点进行预加重处理,对预加重处理后的音频帧内信号加窗口 函数,然后对它进行自相关分析,把这个结果加以p 阶线性预测运算,得到长 度为p 的信号序列x n ,就是音频帧的l p c 派生倒谱系数:如果对得到的l p c 派生倒谱系数继续进行d e l t a 加权处理,就得到d e l t a 倒谱系数。 5 m e l 系数1 1 拢1 m e l 倒谱系数( m f c c ) :是建立在傅立叶和倒谱分析的基础上的:对短时音频 t 帧中的每个采样点进行傅立叶变换,得到这个音频帧在每个频率上的能量大小。 如果音频信号的采样率为2 5 k h z ,那么由采样定理知,音频帧的最大频率为 1 2 5k h z 。也就是说,短时音频帧在0 到1 2 5k h z 的频率带上具有能量,只是 每个时刻在不同频率带上所带能量大小不同而已。利用人耳的感知特性,把0 k h z 1 2 5k h z 的频率带划分为若干个子带。在整个频率带划分为子带时,每个 厂 子带的宽度可以取为他7 ( 厂) = 2 5 9 5 1 0 9 z ( 1 + 南) 。 如果将整个频率带被划分为n 个子带,分别计算这n 个子带上的总能量, 就构成了这个短时音频帧的n 个m f c c 系数( 也叫m e l 系数) 。如果对提取出来 的m e l 系数再计算其对应的倒谱系数,就是m e l 倒谱系数。 m f c c 在语音领域中得到广泛的应用,一般对每段数据取1 2 个系数可以较 好地表现每段的特征。 6 熵( e n t r o d y ) 特征和子带组合特征 熵是用来衡量信息复杂度的一个重要指标,其定义如下: 3 23 2 e t r = p ( i ) l gp ( i ) 且p ( f ) = 1m ( 01 2 im ( i ) 1 2 j = li = 1 其中,m ( i ) 是指将音频帧的频率带划分为3 2 个频率子带后,第i 个频率 子带上的能量。 在语音分析中发现,人讲话的音频信号总是集中在某些频率带上,而音乐和 自然声音可以分布在所有子带上,所以可以将某些子带上的能量组合起来,判断 1 4 h m m 模型4 :哼唱榆索中的心用 音频信号是否是语音后音乐,这就构成了子带组合特征。 2 2 音乐的旋律及表达 2 2 1 音符及其特征 音乐是由一系列的音符序列组成,音符是构成音乐的基本单元。每一个音符包 含三部分特征:音高、音长和音强。音高代表音符的高低。基本的音高符号在五线 谱中用c 、d 、e 、f 、g 、a 、b 七个字母命名,在简谱中对应的是l 、2 、3 、4 、5 、6 、 7 。从物理学角度来看,音高和声波的频率有着密切的关系,频率越高,则音高越高。 音长表明音符的长短。这是以全音符为基础划分的,其他各音符按与全音符的比值 命名,如二分音符、四分音符就相当于全音符的二分之一、四分之一。通常音乐都 是以四分音符为一拍、八分音符为半拍来奏、唱的。 音强是在听闻时感到的响度,也就是人们通常说的强弱或大、小、重、轻。它 代表音符的强弱。比如在弹奏钢琴时,音强表明一个琴键按下的力度。 音乐的旋律是由一系列能反映音乐主题的音符组成,能够充分显示音乐的内 容特征。要想快速、准确地通过音乐的旋律进行检索,必须首先定义可以有效地反 映音乐旋律的表达方式,即定义一个合适的旋律轮廓。 2 2 2 旋律轮廓的表达 旋律轮廓的表达方式,根据实际情况和实现要求,可以有多种不同的形式。下 面是几种比较基本的旋律轮廓的表达方式。 1 旋律的绝对音高序列:是可以想到的最简单的旋律轮廓。绝对音高序列包含 了旋律的准确音高,其优点是可以对音乐旋律进行十分精确的检索。比如民乐梁 祝,开头部分的绝对音高序列为:b 5 d 6 e 6 g 6 a 6 e 6 g 6 d 6 d 7 g 7 e 7 d 7 8 6 d 7 a 6 。绝对音高 序列尽管可以非常精确地检索到相关的乐曲,但也有其不足之处。首先,它要求检 索者非常准确地把握此旋律的音调和音高,否则将会导致检索失败。这种方式对于 乐感稍差或音乐知识并不丰富的一般检索者来说是比较困难的。虽然通过模糊匹 配的办法可以进行容错检索,但检索结果可能会包含大量的无关信息,这在个容 h m m 模型0 :哼唱榆索中的心用 量比较大的数据库中检索时是经常发生的。其次,有些音乐,特别是中国民族音乐, 其音调是不固定的,不同的演奏者、不同的乐器在演奏时其调号可能会发生改变。 尽管此时音乐的旋律
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年国家保安员资格考试试题及答案解析
- 2025年青少年心理健康知识竞赛考试题库100题(含答案)
- 临沭安全员培训证课件
- 临沂鹏峰安全培训课件
- 城市地下综合管廊PPP项目在2025年智慧城市安全防护技术创新可行性探讨
- 2025年第二季度妇科二病区抗菌药物培训试题(附答案)
- 临沂物流安全培训平台课件
- 后勤工作合同(标准版)
- 基础考试题及答案
- 基础建试题及答案
- 【2025年】蚌埠市12345政务服务便民热线岗位招聘20名考试笔试试题(含答案)
- 美发编发基础知识培训课件
- 同期线损培训课件
- 反诈知识竞赛试题及答案
- 钢筋加工棚租赁合同范本
- 2025年电梯检验员资格考试历年真题及答案试题试卷(含解析)
- 眼整形课件教学课件
- 公司法务知识培训会课件
- 2025-2026学年秋季第一学期学校德育工作安排表
- 2025年药企QA人员岗位职责培训考核试题及答案
- 2025年全面质量管理知识竞赛题库及参考答案
评论
0/150
提交评论