(计算机应用技术专业论文)基于内容的音频检索系统应用研究.pdf_第1页
(计算机应用技术专业论文)基于内容的音频检索系统应用研究.pdf_第2页
(计算机应用技术专业论文)基于内容的音频检索系统应用研究.pdf_第3页
(计算机应用技术专业论文)基于内容的音频检索系统应用研究.pdf_第4页
(计算机应用技术专业论文)基于内容的音频检索系统应用研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机应用技术专业论文)基于内容的音频检索系统应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着现代信息技术,特别是网络技术和多媒体技术的迅速发展,大量的数 字音频被创造,传输和储存。当今人们面临的问题不再是缺乏多媒体内容,而 是如何在海量的数字媒体世界中快速地找到自己需要的信息。音乐家,音效工 程师这些专业从业者面临着巨大的挑战,他们必须从海量的,并且快速增大的 音频文件集中找到合适的声音。 虽然传统的基于文本的音频检索系统能帮助用户寻找音频,但是效果并不 理想。用户需要提供关于该音频的文字描述,然后系统给出文本匹配结果,然 而,音频文件的手工标注的工作量极大,现有大量的音频都只是用无意义的字 母或者数字作为音频的文件名;而且无论多复杂的音频,也只能用一句简单的 语句来描述,无法体现多媒体数据相对于文本数据的优势;再者,不精确的命 名和标签迫使用户为了获得合适的音频而不得不试听大量的音频文件,这样的 基于文本描述的检索方式耗费大量的时间,已经远远不能满足用户的需要。 因此我们需要一个有效的基于内容的音频检索系统,这样的音频检索系统 根据音频的特征进行检索,能够帮助用户找到合适的候选音频文件。同时还需 要加强用户的试听功能,使用户在更短的时间内试听更多的音频,从而达到真 正的快速检索音频。所以在本论文中提出一种结合快速试听音频功能的基于内 容的音频检索系统。这个基于内容的音频检索系统首先提取音频数据库中的音 频的m f c c 特征并且存储于数据库中,然后系统给用户提供两种音频查询方式, 用户可以通过拟声或者声音绘画的查询方式,对数据库中所有的音频进行检索, 接着系统计算音频之间的距离,把音频白组织映射到快速试听界面,供用户快 速试听。 论文首先分析了基于内容的音频检索系统的国内外现状,详细探讨了相关 音频检索的技术,然后针对现有音频检索系统的不足,设计了新型的基于内容 的音频检索系统,接着本文结合相关的关键技术和编程技巧,实现了系统的核 心模块并进行用户测试。最后总结了本文的研究工作,根据用户测试结果,指 出了下一步的工作和研究方向。 关键词:音频,检索,基于内容,m f c c ,自组织映射,声音绘画 a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fm o d e mi n f o r m a t i o nt e c h n o l o g y , e s p e c i a l l y n e t w o r kt e c h n o l o g ya n dm u l t i m e d i at e c h n o l o g y , l a r g en u m b e r so fa u d i oh a v eb e i n g c r e a t e d ,t r a n s m i t t e da n ds t o r e d t h ep r o b l e m sp e o p l ea r ef a c i n ga r en ol o n g e ral a c k o fm u l t i - m e d i ac o n t e n t ,b u th o wt of m dt h ei n f o r m a t i o nt h e yn e e di nt h em a s s i v e w o r l do fd i g i t a lm e d i a m u s i c i a n s ,s o u n de n g i n e e r s ,a n df o l e ya r t i s t sa r ec o n f r o n t e d w i t ht h ec h a l l e n g eo fs e a r c h i n ga p p r o p r i a t es o u n d si nv a s tc o l l e c t i o n sc o n t a i n i n g t h o u s a n d so fa u d i of i l e s t h et r a d i t i o n a lt e x t b a s e da u d i or e t r i e v a ls y s t e mi sc a p a b l eo fh e l p i n gu s e rw i t h s e a r c h i n ga u d i o ,b u tt h e r e s u l ti s u n s a t i s f a c t o r y u s e r sh a v et op r o v i d et h e d e s c r i p t i o no fac e r t a i na u d i o ,a n dt h e nt h es y s t e mc o m p a r e st h i st e x td e s c r i p t i o n w i t hi t sd a t a b a s ea n do f f e r st h er e s u l t h o w e v e r , t h ew o r k l o a do fl a b e l i n ga u d i oi s t r e m e n d o u s ,al a r g en u m b e ro fa u d i oa r ee x i s tw i t ham e a n i n g l e s sn a m e ,w h i c h c o n s i s to fr a n d o mc h a r a c t e ro rn u m b e r f u r t h e r m o r e ,n om a t t e rh o w c o m p l i c a t e dt h e a u d i oi s ,i ti sd e s c r i b e db yas i m p l ys e n t e n c e i na d d i t i o n , i m p r e c i s en a m i n ga n d t a g g i n gf o r c e su s e r st or e v i e wd o z e n so ff i l e s i no r d e rt op i c kt h er i g h ts o u n d t r a d i t i o n a lt e x t - b a s e da u d i or e t r i e v a ls y s t e m , w h i c hi sp r o v e dt ob et i m e - c o n s u m i n g , i sf a r 丘o ms a t i s f a c t i o m t h e r e f o r e ,w en e e da ne f f e c t i v ec o n t e n t b a s e da u d i or e t r i e v a ls y s t e m , w h i c h s e a r c ha u d i of i l e sa c c o r d i n gt ot h e i ra u d i of e a t u r e s m e a n w h i l e ,q u i c ka u d i t i o n i n g t o o li sr e q u i r e dt ov i s u a l l yb r o w s et h r o u g hv a s tc o l l e c t i o n so f a u d i of i l e s ,s ot h a tu s e r c a nl i s t e nt om o r ea u d i oi nas h o r tp e r i o da n da c h i e v ear e a lq u i c ka u d i or e t r i e v a l h e n c e ,w ep r o p o s et oc o m b i n ea c o u s t i cc o n t e n ta n a l y s i sw i t ha c c e l e r a t e da u d i t i o n i n g i nd e v e l o p i n gt h i sc o n t e n t - b a s e da u d i or e t r i e v a ls y s t e m i nt h i ss y s t e m , t h em f c c f e a t u r e sa r ee x t r a c t e df r o ma u d i oa n ds t o r e di nt h ed a t a b a s eb yc o n t e n t - b a s e da u d i o r e t r i e v a ls y s t e m , t h e nt h es y s t e mp r o v i d et w op o s s i b l ew a y sf o ra u d i oq u e r y , u s e r s c a nq u e r yt h ea u d i od a t a b a s eb ye i t h e rh u m m i n go ra u d i os k e t c h i na d d i t i o nt h e s y s t e mc a l c u l a t e st h ed i s t a n c ea m o n ga u d i o sa n dm a p p i n gt h ec a n d i d a t ea u d i ob y u i 广东丁业大学硕士学位论文 s e l f - o r g a n i z i n gm a pa l g o r i t h mt ot h eq u i c ka u d i t i o ni n t e r f a c e f i n a l l y , u s e r sa r e c a p a b l eo fl i s t e n i n gt oa l lt h ea u d i oa n dm a k et h e i rd e c i s i o na taf a s tp a c e f i r s to f a l l ,t h i sp a p e ra n a l y s e st h ec u r r e n tc o n t e n t - b a s e da u d i or e t r i e v a ls y s t e m , a n dt h e nd i s c u s sa u d i o sr e t r i e v a la p p r o a c hw i t hd e t a i l e dd e s c r i p t i o no ft e c h n i q u e s ,a s t o w a r dt h es h o r t a g eo ft h ec u r r e n tc o n t e n t b a s e da u d i or e t r i e v a ls y s t e m b a s e so n t h e m , t h i sp a p e rp r o p o s e st h en o v e lc o n t e n t - b a s e da u d i o sr e t r i e v a ls y s t e m w h a t s m o r e ,c o m b i n i n gt h er e l a t i v ec o r et e c h n o l o g yw i t hp r o g r a m m i n gs k i l l ,w ei m p l e m e n t t h i ss y s t e ma n du s e rt e s t f i n a l l y , w ec o n c l u d eo u rr e s e a r c hw o r k ,a n dp o i n to u tt h e f u t u r ew o r ka n dr e s e a r c hd i r e c t i o n k e y w o r d s :a u di0 r e t rie v ai c o n t e n t b a s e d ,m f c c , s eif - o r g a nizin g m a p p in g ,s o u n ds k e t c h i v 攻读学位期间参加的研究项目和发表的学术论文 独创性声明 秉承学校严谨的学风与优良的科学道德,本人声明所呈交的论文是我个人 在导师的指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别 加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 不包含本人或其他用途使用过的成果。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明,并表示了谢意。 本学位论文成果是本人在广东工业大学读书期间在导师的指导下取得的, 论文成果归广东工业大学所有。 申请学位论文与资料若有不实之处,本人承担一切相关责任,特此声明。 降拓 论文作者签字:、栩满卡 第一章绪论 1 1 论文的研究背景 第一章绪论 随着现代信息技术,尤其是网络技术和多媒体技术的飞速发展,大量的数 字多媒体文件被创造,传输和储存,其中音频文件更是呈爆炸式的增长。普通 用户每天在网络上接触的音频文件也是数以百计,他们的电脑中甚至拥有成千 上万的音频文件。而音频工作者,声效工程师这些专业从业者每天都忍受着搜 索音频的痛苦,因为他们拥有大型音频数据库或者是超大型的音频数据库,哪 怕只需要寻找一个音频,他都必须逐一试听音频数据库里的文件,直到找到他 想要的文件为止,这样的搜索行为耗费大量的时间。由此可见,当今人们面临 的问题不再是缺乏多媒体内容,而是如何在海量的数字媒体世界中快速地找到 自己需要的信息。 如今这个目标在文本信息检索领域已经实现了,用户可以通过成熟的文本 搜索引擎,如g o o g l e 、y a h o o 、b a i d u ,能够进行高效的检索,但是当把这些成 熟的文本搜索引擎应用于音频检索的时候,即通过基于文本的音频检索方法来 寻找音频文件的文本描述,用户提供关于该音频的文字描述,然后系统给出文 本匹配结果,其效果也并不理想。首先,海量音频数据的手工标注的工作量极 其庞大,难以实现,其次,人对音频的注释存在主观性,不准确的命名和音频 标签严重地妨碍了基于文本的音频检索系统的性能;再次,传统的基于文本的 方法无法对音频数据的具体内容进行分析,无论什么样的音频也只能用一行简 单的语句进行描述,体现不出多媒体数据相对于文本数据的优势。所以我们需 要建立一个有效的音频检索系统,给专业的音效工程师或者是需要寻找音频的 普通用户提供便利。 近年来,国内外在多媒体技术领域出现了一个新的热点:基于内容的检索 技术,这门新兴的技术是直接使用多媒体的属性来查询检索,对于图像和视频, 采取主色调,纹理等视觉特征进行检索,而对于音频,则使用听觉的特征进行 检索。所谓基于内容的音频检索,是指通过对音频特征分析,从音频文件中直 接提取出相关的特征( 如声音的音色、音调、响度等) ,然后根据这些特征从存 广东t 业大学硕十学位论文 储在大型数据库中的声音媒体进行查找和相似性匹配,以用户可以接受的响应 时间,检索出具有相似特性的音频数据来。 基于内容的智能数据检索是这门新兴的技术,将内容作为检索的依据,是 因为普通的用户并不会将要查询的音频信息看作一般的数字信号,去了解诸如 采样率、量化级数、声强、频率等有关信号的特征,而是习惯性地以旋律,甚 至艺术派别这些主观特征来进行查询。基于内容的检索还区别于人工地为音频 片断添加的说明信息来进行检索的方法。这种添加说明信息的方法要求人的参 与,效率非常低,限制了能达到的数据库的容量,而且每个人对同一事物有不 同理解,文件命名很难统一,也很难满足用户千变万化的检索要求【l 】。 音频的听觉特性决定其查询方式异于常规的信息检索系统。基于内容的查 询是一种相似查询,实际上是检索出与用户制定的要求相似的所有声音。所以, 在查询借口上,用户可以采用以下形式提交查询【2 l : 示例一用户选择一个声音例子表达其查询的要求,查找出与该声音在某些 特征方面相似的所有声音。例如查询与飞机的轰鸣声相似的所有声音。 直喻一通过选择一些声学感知物理特征来描述查询要求,例如亮度、音调 和音量等。这种方式类似于可视查询中的描述查询。 拟声一发出与要查找的声音性质相似的声音来表达查询的要求。例如,用 户可以发出嗡嗡声来查找蜜蜂或电气嘈杂声。 主观特征一用个人的描述语言来描述声音。这需要训练系统理解这些描述 术语的含义。例如一个用户可能要寻找“欢快”的声音。 浏览一浏览视信息发现的重要手段之一,尤其是对于音频这种时基媒体。 除了在分类的基础之上浏览目录之外,重要的是基于音频的结构进行浏览。 现阶段,基于内容的音频检索技术在国内外仍处于研究、探索阶段。音频 信号包括语音和非语音两类信号。一直以来,音频信号的处理主要集中于语音 识别、说话者识别等语音处理方面的研究。基于内容的音频信息识别技术的研 究还不多。如何提取音频中的特征,以及如何根据音频特征寻找相似的音频, 是基于内容的音频检索技术能否得以实用的关键所在。 本文的研究工作主要是围绕音频特征的抽取,音频特征的映射,如何用图 形界面加速用户试听音频,以及智能的音频查询方式这四个核心问题展开。本 2 第一章绪论 文的音频检索对象主要为环境背景音。 1 2 国内外研究现状 基于内容的音频信息检索技术的研究工作是从上世纪九十年代中后期开始 的。近年来,它已成为国内外研究的热点问题之一,引起了众多研究机构和企 业的广泛重视 1 国外音频信息检索技术研究现状 国外一些著名大学在音频信息检索方面的研究已经取得了一些显著成果。 剑桥大学的v m k ( 视频邮件检索) 小组【3 巧1 利用基于网格的词组发现技术检索视频 邮件中的消息,卡内基梅隆大学的i n f o r m e d i a 项目【6 】结合语音识别、视频分 析和文本检索技术支持视频音频的检索,m a r y l a n d 大学的v o i c eg r a p h 7 1 结合 基于内容和基于说话人的查询,检索已知的说话人和词语,并设计了一种音频 图示查询接口,s p e e c hs k i m m e r 8 】是一种音频交互的接口,它以层次结构构造 出音频文档的“鱼饵 视图。这些都是很出色的音频处理系统,但对于基于内 容的音频分类和检索技术的研究还不很多。 另外,m i t t 9 1 、c o r n e l l t l 0 1 大学、南加州大学、澳大利亚w o l l o n g o n g 大 学、欧洲e l i r o m a e d i a 和e u r o c o m 的语音和音频处理小组等研究机构分别开 展了用子词方法进行语音检索【1 2 】,通过哼唱查询、音频分类、结构音频表示和 基于说话人的分割和索引等方面的研究。 除了大学,许多著名的大公司如i b m 、苹果、a t & t 和n t t 都对音频检索 系统的实用化研究投以巨资。对音频检索技术最好的评估机制就是识别的准确 率,而这项指标在2 0 世纪9 0 年代中后期实验室研究中得到了不断的提高。 比较有代表性的系统有:i b m 公司推出的v i av o i c e 和d r a g o ns y s t e m 公司 的n a t u r a l l ys p e a k i n g ,n u a n c e 公司的n u a n c ev o i c ep l a t f o r m 语音平台, m i c r o s o f t 的w h i s p e r ,s u n 的v o i c et o n e 等。 其中比较著名的是i b m 于1 9 9 7 年推出的汉语v i av o i c e 语音识别系统, 该系统次年又升级为可以识别上海话、广东话和四川话等地方口音的语音识别 系统v i av o i c e 9 8 。它带有一个3 20 0 0 词的基本词汇表,可以扩展到6 50 0 0 词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到9 5 。该 广东t 业大学硕士学位论文 系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别 系统。 美国加利福尼亚有限责任公司的m u s c l ef i s h 是一种正在开发中的音频 分析引擎,用于数据库中声音的自动分类和检索。目前,在网络上作为演示例子 的数据库中大约有4 0 0 个声音,用户可选择一个或多个声音文件作为示例,系 统根据与示例的相似程度对声音进行排序。重排序的时候,可以忽略或考虑声音 持续期、平均音调或平均响度。浏览窗口中的声音名称按照字母顺序排列。现 有的声音数据库一般只允许用户把有限数目的文本关键字和描述赋予每个声音, 而采用关键字进行检索。在m u s c l ef i s h 中,采用一个或多个客观的声学参数, 通过指出主观概念来分析、分类和检索音频数据库,或者通过选择或输入一个参 考的声音,要求数据库检索相似的声音1 3 】。 目前,m u s c l ef i s h 采用的查询方法主要为: ( 1 ) 赋值查询( q u e r yb yv a l u e ) :用户指定某些声学特性的值或范围来说明 查询。 ( 2 ) 示例查询:用户提交或选择一个示例声音,针对某个或某些特性,查出 所有与示例相似的声音。 ( 3 ) 组织浏览:用某种或某些特性对声音分类和分组。然后,可以浏览分类 和分组的声音。 2 国内音频信息检索技术研究现状 我国音频检索技术的研究水平已经基本上与国外同步,在汉语语音识别技 术上还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、 清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京 邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究, 其中具有代表性的是清华大学电子工程系与中科院自动化研究所模式识别国家 重点实验室。 清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉 语数码串连续语音识别系统的识别精度,达到9 4 8 ( 不定长数字串) 和9 6 8 ( 定长数字串) 。在有5 的拒识率情况下,系统识别率可以达到9 6 9 ( 不 4 第一章绪论 定长数字串) 和9 8 7 ( 定长数字串) ,这是目前国际最好的识别结果之一,其 性能已经接近实用水平。研发的5 0 0 0 词邮包校核非特定人连续语音识别系统 的识别率达到9 8 7 3 ;并且可以识别普通话与四川话两种语言,达到实用要 求【1 4 1 6 1 。 中科院自动化所及其所属模式科技公司2 0 0 2 年发布了他们共同推出的面 向不同计算平台和应用的“天语 中文语音系列产品一p a t t e ka s r ( a u d i o r e t r i e v a ls y s t e m ) ,结束了中文语音识别产品自1 9 9 8 年以来一直由国外公司 垄断的历史。这些产品的特点在于识别率高,对环境噪声和口音有很强的适应 能力。其中,面向嵌入式系统的p a t t e ka s r c 2 0 对系统要求很低,它对内存 资源的占用小于1 m b ,能运行于所有基于w i n d o w sc e 操作系统的嵌入式产品中。 p a t t e ka s r t 2 0 可以支持多服务器和分布式语音识别应用,单个服务器c p u 可以同时处理1 6 路语音输入,它将主要应用于各种行业的呼叫中心,代替一些 人工服务。面向p c 环境的p a t t e ka s r p 2 0 可以应用于基于p c 的各种应用, 如语音玩具、语音教学、语音多媒体信息查询等。p a t t e kd s p a 1 3 可以独立 地嵌入到不同设备和系统中,提供完整的嵌入式语音识别解决方案【1 7 1 。 另外,李国辉、李恒峰【1 】1 1 8 开发的一套基于内容的音频信息检索与分类系 统也有不错效果该系统建立了一个原始音频库,并收录了包括语音、音乐、动 物声、笑声、电话铃声等十几个类的近3 0 0 个音频文件,文件格式为“w f l v 格 式,每个文件长度率等5 个特征,并采用基于欧氏距离的聚类算法将所有文件 聚为5 0 类,形成一个聚类参数库。聚类后,该系统对原始音频库进行特征处理, 建立了音频特征库,进而形成一个音频数据库。实际检索就是对该音频数据库 的检索,检索方式有三种,分别为基本属性检索、特征值检索、示例检索。 然而国内外的音频检索技术还有许多不足之处,比如:当系统为用户找出 一系列相似的候选音频,用户还得逐一地试听候选音频,仍然要耗费大量的时 间;并且,有时用户通过哼唱的方式很难模仿某些声音,如汽车发动机的声音 等等,所以需要更加智能的检索方式进行检索。在本系统中,将对这些不足进 行改进。 广东工业大学硕士学位论文 1 3 本文的研究意义 在这个多媒体内容丰富的时代,人们不再因为缺乏音频内容而担心,而是 为如何从海量音频数据库找到自己想要的音频内容而烦恼。 对于音频文件来说,现在通常是把它作为一种不透明的数据集合来处理, 仅涉及到它的文件名,文件格式,相关文字描述等。如在网络中检索一首歌曲, 主要还是以歌曲的名字、歌曲的存取格式等来检索,这种传统的音频检索方式 已经远远不能满足人们的需要,因为不精确的命名和标签迫使用户为了获得合 适的音频而不得不试听大量的音频文件,而且这样低效率的检索行为还有可能 无法帮助用户找到合适的音频文件。人们已经不再满足于这种依靠输入相关的 文本描述,然后逐一试听的音频检索方式。 因此,在这个音频文件数量飞速增长的时代,建立一个有效的基于内容的 音频检索系统具有重大的意义。它可以减轻声效工程师以及所有需要寻找音频 文件的普通用户的工作量,允许用户使用智能的查询方式,快速地检索相关的 音频文件,使音频工作者对海量音频集有一个真正的掌控,然后给用户提供了 一个快速试听音频的工具,让用户对检索出来的候选的音频文件进行快速的试 听和选择,加快了用户的音频检索,使用户可以更加容易地找到他们想要的音 频文件。 除了给用户检索音频提供便利以外,基于内容的音频检索技术在相当多的 领域中具有极大的应用价值,例如,远程教学、卫生医疗、数字图书馆、环境 检测、新闻节目检索和娱乐节目的编辑和制作等。 1 4 本文的主要工作 本文的主要研究工作包括: 1 深入研究和分析当前的音频检索系统,结合相关的思想和技术,提 出了一个基于内容的音频检索系统的解决方案; 2 研究音频分割技术,对音频文件进行分割和分类。 3 对m f c c 音频特征技术,即对音频的m e l 对数倒频系数的提取进 行研究,并用其提取相关的音频的特征向量。 6 第一章绪论 4 对音频拟声查询技术进行研究,并运用于该基于内容的音频检索系 统中。 5 针对现有的通过拟声方式查询的音频检索系统有时无法提供相关 的音频内容,提出新型的声音绘画查询接口,允许用户用声音绘画的查询 方式。 6 研究自组织映射功能,并把此技术应用在基于内容的音频检索系统 中,把候选的音频文件按其相似程度映射在二维的用户试听界面,以加快 用户试听候选音频。 7 设计基于内容的音频检索系统的各个部件j 并将其实现。 8 对基于内容的音频检索系统进行用户测试。 1 5 论文的组织结构 第一章为绪论,介绍论文的研究背景、国内外研究现状及研究的意义、并 对论文的主要研究工作和组织结构做了说明。 第二章介绍了音频检索的基本概念和相关技术,说明了基于内容的音频检 索的功能和必要性,对现有的基于内容的音频检索系统进行分类,并对其进行 分析,指出现有基于内容的音频检索系统的不足之处。 第三章是基于内容的音频检索系统的设计阶段。首先描述了系统的架构; 然后介绍系统的整个流程和其中各个模块的功能和设计方案。 第四章是基于内容的音频检索系统应用与功能实现,详细描述了系统各个 关键模块的设计和实现过程。 第五章是用户测试,设置用户测试的步骤,让不同层次的用户完成该用户 测试,得出测试数据并对其进行分析。 最后是结论,对本文所做的工作进行总结,并指出下一步研究的方向。 7 广东t 业大学硕士学位论文 2 1 音频检索概述 第二章音频检索系统 声音媒体是除视觉媒体外最重要的媒体,人类能够听见的音频频率范围是 6 0 h z 到2 0 k h z ,其中语音大约分布在3 0 0 h z 到4 0 0 0 h z 之内,而音乐和其它自然 声响是全范围分布的。声音经过模拟设备记录或再生,成为模拟音频,他们经 数字化成为数字音频。数字化时的采样率必须高于信号带宽的二倍,才能正确 回复信号。样本可用8 位或1 6 位比特表示。声音主要由3 方面的特性来描述: 1 音量( 响度,或称强度) :音量大小主要由声波压力大小决定。 2 音调( 也称音高) :音调的高低取决于声音的基频。 3 音色( 或称谐波) :音色与声波的基音、泛音等声音元素的结构有关, 它是区分不同能量声源声音的重要标志。 现阶段的声音检索系统根据对音频媒体的划分,可以识别语音、音乐和其 它声响具有显著不同的特性,因而目前的处理方法可以分为相应的三种:处理 包含语音的音频和不包含语音的音频,后者又把音乐单独划分出来。换句话说, 第一种是利用自动语音识别技术,后两种是利用更一般性的音频分析,以适合 更广泛的音频媒体,如音乐和声音效果,当然也包含数字化语音信号。音频信息 检索于是也可以分为以下三种: 1 语音检索:以语音为中心的检索,采用语音识别等处理技术。例如电台 节目、电话交谈、会议录音等。 2 音乐检索:以音乐为中心的检索,利用音乐的音符和旋律等音乐特性来 检索。例如检索乐器、声乐作品等。 3 音频检索:以波形声音为对象的检索,这里的音频可以是汽车发动机声、 雨声、鸟鸣声,也可以是语音和音乐等,这些音频都统一用声学特征来检索【2 0 1 。 在本系统中,音频检索的对象是环境声音。比如汽车发动机声、雨声、鸟 鸣声等等。 8 第二章音频检索系统 2 2 音频检索相关技术 2 2 1 自组织映射法 自组织映射是一种数据可视化技术,于1 9 9 9 年由t e u v ok o h o n e n 教授提出, 使用自组织神经网络为高维数据进行降维处理。该网络由输入层和映射层组成, 输入层由n 个输入神经元组成,输出层或映射层由m 个神经元组成,且形成一个 二维平面阵列。输入层各神经元与映射层各神经元之间实现全互连接。有时,映 射层各神经元之间也实现侧抑制连接。这种网络将输入样本映射到输出层上,形 成特征图。它们之间的连接权值是通过无导师竞争学习来实现的,所以称为自组 织特征映射2 。 以下介绍自组织映射法计算方法: 假设有一实数向量集x = 卜t ,s z ,f 丫尺,其中p 为输入变量,另设一, 实数量集m ;= 阢。,z ,r r n ,其元素为输入阵各元素和映射阵各元素间 的连接权值,即为权向量集。定义x 和m ,之间的广义测距为a ( x ,肌。,记为: 归a r g m ,! n 聊,) 则输入向量集x 在自组织映射阵中的映象可定义为具有阵标记为c 的映象。j 现任务是:确定耽,使得映射是有序的并能描述x 的分布。 7 1 入平均期望量化误差函数,如公式2 2 : e 。肛厂渺m ( 2 2 ) 其中p b ) 为x 的概率密度函数,厂为广义测距d 的某个单调递增函数。为 平滑核,它是阵中节点c 和f 之间测距的特殊函数。确定聊,有序的值,使得函数e 为局部最小。该式的求解是十分困难的,因此必须进行统计近似,同时进行离散化, 则误差函数成为公式2 3 : e 2 厍蚝厂p g 例 亿3 ) 其优化的近似算法为公式2 4 - 9 广东工业大学硕士学位论文 肌川川峥1o ) 南 ( 2 4 ) 其中五o ) 入( t ) 为小的、正的、尺度因子,它决定了r 时刻的梯度步长,其选择 应使垅j o ) 集中于k 。 值。如果令广义测距为欧几里德距离,即d g ,优,) = 忙一聊, 并令厂0 ) = d 2 则有: 鸭o + 1 ) = 聊,o ) + 吃,o ) + ( f 壮o ) 一m ,o ) 】 ( 2 5 ) 名e l l t h e t o ) 己把五o ) 结合在内。可简单而有效地定义吃,( f ) = 仃( f ) ,且令其当节 点f i 在指定的某个小邻域c o ) 内为小的正值,否则为零。c o ) 为阵中以节点c 为中心的某半径小邻域。 因此,自组织映射法计算方程为公式2 6 : m ,o + 1 ) = 聊,o ) + 仃o 批) 一所,o ) 】 如果f c o ) m ,( f + 1 ) = 聊。o ) 如果f c o ) ( 2 6 ) 其学习时的计算步骤如下: ( 1 ) 设置所有权向量集聊,o ) 的初始值,它可以是小的随机数。 ( 2 ) 选择盯o ) 和。o ) 随时间变化的形式,设置仃o ) 和。g ) 的初始值。 f 3 1 计算输入x 与所有权向量集m j 之间的距离,如公式2 :7 嘭2 莩g ,一聊- ) 2 j:。,2 ,刀 。2 7 , ( 4 ) 选择最小距离的节点f 作为获胜节点,表达如公式2 8 : d 2 呼乜 ( 2 8 ) ( 5 ) 根据上述计算方程,计算节点f 及其邻域co ) 内的所有聊,( ,) 的值,调整 权向量集。 ( 6 ) 重复从( 3 ) 的步骤,直至输入数据结束。 1 0 第二章音频检索系统 ( 7 ) 更新盯o ) 和札( ,) 的值,重复从( 3 ) 步骤,直至规定的次数,或邻域i o ) 已 收缩至一点并获胜节点不再变更。 2 2 2m ei 倒频系数 m e l 倒频系数( m e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t ,m f c c ) 反映了人耳的耳 高听觉特性,而且计算量不大,广泛应用于语音处理领域,取得了较好的效果。 文献的研究结果表明,m f c c 系数亦可以用作对音乐进行建模。 m f c c 的计算流程可以简单的概括为以下五个步骤: 1 预处理 2 傅立叶变换 3 计算短时功率谱 4 转换到m e l 频标下 5 滤波 6 对谱系数的幅值取对数 7 做离散余弦变换 通过以上五大步骤,音频的m f c c 特征值计算完毕。 2 2 3 鸡尾酒会效应 基于内容的音频检索系统运用鸡尾酒会效应来设计用户试听界面,鸡尾酒 会效应是指人的听觉注意现象。当人的听觉注意集中于某一事物时,意识将一 些无关声音刺激排除在外,而无意识却监察外界的刺激,一旦一些特殊的刺激 与己有关,就能立即引起注意的现象。因常见于酒会上而得名。如在各种声音 嘈杂的鸡尾酒会上,有音乐声、谈话声、脚步声、酒杯餐具的碰撞声等,当某 人的注意集中于欣赏音乐或别人的谈话,对周围的嘈杂声音充耳不闻时,若在 另一处有人提到他的名字,他会立即有所反应,或者朝说话人望去,或者注意 说话人下面说的话等。该效应实际上是听觉系统的一种选择能力。该效应揭示 了人类听觉系统中令人惊奇的能力,使我们可以在噪声中谈话。 因此我们的听觉功能在嘈杂的环境下,能够清楚的分辨出来自不同方向的 不同的声音,当其中的个方向出现了用户想要的声音时,用户将会立即察觉, 广东t 业大学硕士学位论文 我们将人耳的这一特征用于我们的声音文件的检索中。当系统找到一批相似的 候选音频时,用户将同时试听多个声音。当用户觉察到某一个方向的声音与他 心目中的声音较吻合的话,用户即可以将鼠标移至那个方向,缩小范围继续试 听,直到找到该声音为止。鸡尾酒会效应的应用使用户加快了音频试听过程, 从而提高了音频检索的速度。 2 3 基于内容的音频检索系统 2 3 1 音频内容 音频的内容由其特征所表示,从整体上看可以划分为三个等级:最底层的 物理样本级、中间层的声学特征级和最高层的语义级。从低级到高级,内容的 抽象层次逐步提高,内容变大的语义概念也逐级概括。如图2 1 所示。 在物理样本极,音频内容是以媒体流的形式存在,其中包括原始音频数据 和注册数据( 如采样频率、量化精度和压缩编码方法等) 。用户通过音频录放软 件如g o l dw a v e 、c o o le d i t 等只能用时间刻度来检索和浏览音频内容。 中间层是声学特征极。声学特征是从音频数据中自动抽取的,它可以分为 物理特征和感性特征,前者包括音频的基频、幅度和共振峰等,后者表达了用 户对音频的感知,例如音调、响度和音色等,感觉特征一般都与某些物理特征 之间存在一定的联系。 最高层是语义极,它是音频的概念描述。具体地说,在此级别上,音频的 内容可以是语音识别的结果( 文本) 、音乐旋律和叙事说明等。基于内容的音频 检索技术最关心的是声学特征级和语义极的音频检索。在这两个层次上,用户 可以提交某一概念或按照特定的声学特征进行查询。 基于内容的音频检索技术最关心的是声学特征级和语义极的音频检索。在 这两个层次上,用户可以提交某一概念或按照特定的声学特征进行查询。 1 2 第二章音频检索系统 音乐叙事、音频对象描述、语音识别文 本、事件 感知特征:音调、音高、旋律、节奏 声学特征:能量、过零率、m f c c 系数 采样率、时间刻度、样本、格式、编码 图2 1 音频内容分层描述模型 f i 醇- 1t h em o d e lo f a u d i oc o n t e n t 2 3 2 基于内容的音频检索系统通用流程 语音级 声学特征级 物理样本级 基于内容的音频数据库检索系统是一种重要的和关键的多媒体信息处理技 术。一般可把基于内容的音频数据库检索系统看作是介于信息用户和数据库之 间的一种信息服务系统。这一新的研究方向涉及信号处理、人感知心理研究和 模式识别技术,把这三个领域的研究成果进行有效的结合是该技术取得成功的 基础。在音频检索中,需要经过特征提取、音频分割、音频识别分类和索引检索 这几个关键步骤,见图2 2 。 广东工业大学硕十学位论文 图2 2 一股音频检索流程图 f i 9 2 - 2t h ef l o wc h a r to f a u d i or e t r i e v a l 1 音频分割 音频分割基本是根据所提取的音频低层物理特征完成的,所分割出来音频 数据只是些物理单元,需要对这些物理单元进行识别分类,将它们归属成事先 定义好的不同语义类,这由音频识别分类这一步完成。在这一步中,可以对分 割出来的音频物理单元进行粗分,如将切分出来的音频分类为静音、音乐和语 音、环境音等,也可以进行某一事件或某一人物的精细分类。 2 音频特征提取 音频特征提取是指寻找原始信号表达形式,提取出能代表原始信号的数据 形式。与文本分析中的特征是关键字不同,音频数据中的特征是从音频中提取 的听觉特征,如音调、音高等。所有这些提取出来的特征被用来表征音频数据 流,在后续处理时被用到2 2 1 。 3 音频检索 音频检索是值对识别出来的语义类建立索引,进行检索。建立索引主要有三 种方法:用文字描述作为索引、用音频特征作为索引和基于音频例子的索引。 ( 1 ) 用文字形成的抽象概念描述这些类别,这样用户必须通过文字查询音频 数据。 ( 2 ) 用音频特征建立索引,查询时用户提交的是对特征的描述,如对音频能量 描述的“音调”。 ( 3 ) 提交一个音频例子,提取这个音频例子的特征,按照前面介绍的音频例子 1 4 第二章音频检索系统 识别方法判断这个音频例子属于哪一类,然后把识别出的这类所包含的若干个 样本按序返回给用户,这是基于例子的音频检索。 2 3 3 基于内容的音频检索技术的主要特点 基于内容的音频检索技术突破了基于关键词匹配的传统检索技术的限制, 它根据音频本身所固有的特征而不是人工标注的外部属性或者关键词对音频进 行检索。他的核心思想是通过一定的计算机处理,分析音频的结构和语义,建 立它们的结构化的组织和索引,使得“无序 的音频变的“有序 ,从而有利于 用户的检索和浏览。 基于内容的音频检索技术的主要特点如下口3 】: 1 从媒体内容中提取信息线索 基于内容的检索突破了传统的基于表达式检索的局限,利用音频内容特征 建立索引进行检索。 2 结果存在误检和遗漏 基于内容的音频检索,由于内容表达的不精确性,必然是一种近似的检索。 结果中往往出现误检和遗漏。 3 数据库的快速检索 在实际的多媒体数据库中,不仅数据量巨大,而且种类和数量繁多,因此 要求基于内容的检索技术实现对多媒体信息的快速检索。 4 强交互性 基于内容的音频检索具有很强的交互性,允许用户参与检索过程。 2 4 现有音频检索系统的不足 由于基于内容的音频检索技术尚不够成熟,该研究领域还有许多急待解决 的问题,分析目前系统中主要存在有如下几个方面的不足: ( 1 ) 现有的基于内容的音频检索系统虽然能帮助用户找到一些相似的音频 文件,加快了用户的检索,但用户还是得逐一地试听这些音频,仍然是耗费时 间。基于内容的音频检索问题,需要设计出新型的快速音频试听界面。 ( 2 ) 现有的基于内容的音频检索系统的精确度不足,导致有时找不到合适 广东r t 业大学硕十学位论文 的音频文件。 ( 3 ) 现有的基于哼唱方式检索音频的系统虽然能有效得帮助用户找到一些 合适的音频,但是,当用户想找一些人无法模仿的声音时,如刹车声,碎玻璃 声,用户就无法进行查询检索。 ( 4 ) 音频检索的速度不仅与音频特征抽取和匹配的算法效率有关,还与海 量的音频数据库的结构有关,因为音频数据库要求结构化地存储音频文件,及 其音频特征,避免过多的计算,以获得高速的存取速度。 1 6 第三章基于内容的音频检索系统的设计 第三章基于内容的音频检索系统的设计 3 1 系统的框架模型 基于内容的音频检索系统的目标是帮助用户在海量的音频数据库中快速地 找到台适的音频。本系统通过提供高效的用户查询方式,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论