(计算机系统结构专业论文)websonar:基于关键信息的语音搜索引擎.pdf_第1页
(计算机系统结构专业论文)websonar:基于关键信息的语音搜索引擎.pdf_第2页
(计算机系统结构专业论文)websonar:基于关键信息的语音搜索引擎.pdf_第3页
(计算机系统结构专业论文)websonar:基于关键信息的语音搜索引擎.pdf_第4页
(计算机系统结构专业论文)websonar:基于关键信息的语音搜索引擎.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机系统结构专业论文)websonar:基于关键信息的语音搜索引擎.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着互联网的发展,世界已走向信息经济时代;信息资源并不稀缺,稀缺的 是发现信息资源的手段。而搜索引擎正是因此应运而生,但是现在流行的搜索引 擎一般只基于文本信息的搜索,即便针对于语音信息,比如新闻记录,谈话记录 等等,它仅仅只能检索一些元信息:作者,标题,描述,文件大小等等,而不能 提供基于语音内容的检索。随着互联网上的语音资源越来越多,人们会越来越希 望能够搜索语音的内容。针对于这个需求,本论文提出基于关键信息的语音搜索 引擎,所谓关键信息就是指语音资源中的说话人或特殊关键词。比如:我们想在 互联网上搜索包含“比尔盖茨”这个词的内容的语音资源;或者“比尔盖茨”说 的话的录音。本论文利用说话人识别技术搜索关键人物的谈话、演讲等录音;利 用关键词识别技术搜索包含关键词的语音资源。 本论文的主要内容: 第一、提出了一个语音搜索引擎的框架。 第二、关键词识别技术、说话人识别技术与搜索引擎技术的融合。 第三、搜索引擎在搜索关键人物语音资源的应用。 第四、设计了搜索引擎的局部优化技术 本文得到以下资助:国家发展改革委员会“c n g i 示范工程2 0 0 5 年研究开发、 产业化及应用试验项目”( c n g i 一0 4 1 2 2 a ) 、国家自然科学基金( 6 0 2 7 3 0 5 9 ) 、 国家杰出青年科学基金( 6 0 5 2 5 2 0 2 ) 、教育部“跨世纪优秀人才培养计划”专项 基金( n c e t _ 0 4 0 5 4 5 ) 、国家自然科学基金重点项目( 6 0 5 3 3 0 4 0 ) 。 关键词:搜索引擎,分布式系统,关键词识别,说话人识别。 a b s t r a c t t h ew o r l dh a sb e e nb e c o m i n gt h ea g eo f i n f o r m a t i o n - e c o n o m y t h e r ea r ee n o r m o u s i n f o r m a t i o ni nt h ei n t e r n e t ,b u ti ti sv e r yd i f f i c u l tt of i n dt h ed e s i r e di n f o r m a t i o n s os e a r c he n g i n e i sg o i n gi n t op e o p l e se y e s c u r r e n t l y , t h ep o p u l a rs e a r c he n g i n e sa r eb a s e do nt e x ti n f o r m a t i o n r e t r i e v a l ,l i k eg o o g l e ,y a h o o ,b a i d ua n ds oo n f o ra u d i or e s o u r c e ,t h e y j u s tr e t r i e v et h em e t a i n f o r m a t i o n ,l i k ea u t h o r , t i t l e ,d e s c r i p t i o n ,f i l es i z ea n ds oo n t h e yc a n tr e t r i e v et h ec o n t e n to f t h ea u d i or e s o u r c e ,l i k et h ec o n t e n ti nas p e e c h ,t h es p e a k e ri nas p e e c h p e o p l ew i l le a g e r l yw a n t t of i n dt h ed e s i r e di n f o r m a t i o na c c o r d i n gt ot h ec o n t e n to f t h ea u d i or e s o u r c eb e c a u s em o r ea n d m o r ea u d i or e s o u r c ew i l lb ep l a c e di nt h ei n t e m e t 。f o rt h i sr e q u i r e m e n t ,t h i sp a p e rp r o p o s e da n a u d i os e a r c he n g i n eb a s e do nc r i t i c a li n f o r m a t i o n c r i t i c a li n f o r m a t i o nc o n t a i n ss p e a k e r sa n d w o r d si nt h ea u d i or e s o u r c e f o re x a m p l e ,w ew a n tt of i n ds o m ea u d i or e s o u r c eo f b i l lg a t e s ”, i n c l u d i n gh i st a l kr e c o r d sa n do t h e rr e c o r d sr e f e r r i n gh i m t h ep a p e rp r o v i d e dap r o t o t y p et o s e a r c ht h ec r i t i c a li n f o r m a t i o ni nt h ei n t e m e t i ti n t e g r a t e dk e y w o r ds p o t t i n ga n ds p e a k e r r e c o g n i t i o ni n t os e a r c he n g i n e w ec a nf i n dt h et a l kr e c o r d sf o r t h es p e c i f i e dp e m o no rt h et a l k r e c o r d sw h i c ht h es p e c i f i e dp e r s o ni sr e f e r r e d t h em a i nc o n t r i b u t i o n so f t h ew o r ka r et h ef o l l o w i n g s : 1 ,d e s i g naf r a m e w o r kf o rs p e e c hs e a r c he n g i n e 2 i n t e g r a t ek e y w o r ds p o t t i n ga n ds p e a k e rr e c o g n i t i o ni n t os e a r c he n g i n e 3 d e s i g na na p p l i c a t i o nb a s e do nc r i t i c a lp e r s o n s 4 d e s i g nap a r t i a lo p t i m i z e dt e c h n o l o g yf o rs p e e c hs e a r c he n g i n e t h i sw o r ki ss u p p o r t e db yn a t i o n a ld e v e l o p m e n t i n n o v a t i o nc o m m i t t e e ( c n g i 一0 4 - 1 2 2 a ) , n a t i o n a ln a t u r a l s c i e n c ef o u n d a t i o no fr r c h i n a ( 6 0 2 7 3 0 5 9 ) ,n a t i o n a ls c i e n c ef u n df o r d i s t i n g u i s h e dy o u n gs c h o l a r s ( 6 0 5 2 5 2 0 2 ) ,p r o g r a m f o rn e wc e n t u r ye x c e l l e n tt a l e n t si n u n i v e r s i t y ( n c e t - 0 4 0 5 4 5 ) a n dk e yp r o g r a mo fn a t u r a l s c i e n c ef o u n d a t i o no fc h i n a ( 6 0 5 3 3 0 4 0 ) k e y w o r d s :s e a r c he n g i n e ,d i s t r i b u t e ds y s t e m ,k e y w o r ds p o t t i n g ,s p e a k e rr e c o g n i t i o n i i 第一章引言 1 1 课题研究的背景和意义 近年来,随着电子技术的突飞猛进,数码产品( 摄影机,录音笔等) 早已进 入千家万户。语言是人类通用的最方便的交流方式,那些伸手可及的语音记录信 息在互联网上呈现出爆炸式增长,而且这种增长越来越迅速。世界各地的人们把 各种各样的语言信息录制成音频文件贴在网上,这些信息包括了他们的趣闻轶 事、个人生活、商业需求等等。面对如此浩瀚而又无序的语音信息海洋,我们难 免会发出这样的感叹:到底哪一叶语音的扁舟为我所需? 当然,人们肯定会马上想到现在入日中天的搜索引擎,它可以搜索互联 】9 上 一切东西。但是,现在流行的搜索引擎一般只基于文本信息的搜索,即便针对于 语音信息,比如新闻记录,谈话记录等等,它仅仅只能检索一些元信息:作者, 标题,描述,文件大小等等,还没有出现基于语音资源内容的搜索引擎。由于大 多数的网页制作时没有考虑语音文件的检索问题,因而相关的说明文字比较匮 乏、不精确甚至错误,经常会造成对语音索引的误导;另外语音自身包含了相当 多的信息,而页面制作者的思考角度仅仅是语音信息的一个方面,会有很多有用 语音无法检索到。随着互联网上的语音资源越来越多,人们会越来越希望能够搜 索语音的内容。 针对于这个需求,本论文提出基于关键信息的语音搜索引擎( w e b s o n a r ) , 所谓关键信息就是指语音资源中的说话人或特殊关键词。w e b s o n a r 就像声纳 ( s o n a r ) 一样,在互联网( w e b ) 上搜索语音资源。比如:我们想在互联网上搜 索包含“比尔盖茨”这个词的内容的语音资源;或者“比尔盖茨”说的话的录音。 1 2w 曲s o n a r 概述 w e b s o n a r 是指自动从互联网搜集语音信息,经过语音处理技术的分析和 整理以后,提供给用户进行查询的系统。互联网上的信息浩瀚万千,而且毫无秩 序,所有的信息像汪洋上的一一个个小岛,网页链接是这些小岛之间纵横交错的桥 梁,而w e b s o n a r ,则为你绘制一幅一目了然的语音信息地图,供你随时查阅。 w e b s o n a r 在目前成熟的文本搜索引擎技术的基础上,结合语音处理领域 中的最前沿的说话人识别技术和关键词识别技术,以满足人们在互联网上搜索所 需的语音资源。下面几节是w e b s o n a r 所采用的主要技术的概述。 1 2 搜索引擎的概述 搜索引擎按照一定方式搜索互联网上的信息,然后将这些信息进行分类并建 立索引,再把索引的内容放到数据库中,当用户向搜索引擎提交搜索请求的时候, 搜索引擎会从数据库中找出匹配的资料反馈给用户,用户再根据这些信息访问相 应的网站,从而找到自己需要的资料。像g o o g l e 、百度等专业搜索引擎网站的 搜索功能都是在这个原理的基础上日趋成熟和完善的。搜索引擎技术的持续创新 和发展使人们坚信一个真理:不怕找不到,就怕想不到。事实上,强大的搜索引 擎功能也已经基本上做到了这一点。我们使用互联网搜索引擎时都有这样的经 历:只要我们在搜索栏里输入某一关键词,我们都会或多或少得到相应的网页。 1 2 1 搜索引擎的原理 搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数 据库。 真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页 并对网页中的每一个词( 即关键词) 进行索引,建立索引数据库的全文搜索引擎。 当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作 为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关 键词的相关度高低,依次排列。 现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容, 还分析索引所有指向该网页的链接的u r l 、a n c h o r t e x t 、甚至链接周围的文字。 所以,有时候,即使某个网页a 中并没有某个词比如“恶魔撒旦”,但如果有别 的网页b 用链接“恶魔撒旦”指向这个网页a ,那么用户搜索“恶魔撒旦”时 也能找到网页a 。而且,如果有越多网页( c 、d 、e 、f ) 用名为“恶魔撒 旦”的链接指向这个网页a ,或者给出这个链接的源网页( b 、c 、d 、e 、f ) 越优秀,那么网页a 在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会 越靠前。 搜索引擎的原理【5 ,可以看做三步:从互联网上抓取网页一建立索引数据 库一在索引数据库中搜索排序。 从互联网上抓取网页 利用能够从互联网上自动收集网页的s p i d e r 系统程序【6 】,自动访问互联网,并 沿着任何网页中的所有u r l 爬到其它网页,重复这过程,并把爬过的所有网页 收集回来。 建立索引【7 8 】数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息( 包括网页 所在u r l 、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、 与其它网页的链接关系等) ,根据一定的相关度算法进行大量复杂计算,得到每 一个网页针对页面内容中及超链中每一个关键词的相关度( 或重要性) ,然后用 这些相关信息建立网页索引数据库。 在索引数据库中搜索排序 9 1 1 0 1 1 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键 词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只 需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系 统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。 搜索引擎的s p i d e r 一般要定期重新访问所有网页( 各搜索引擎的周期不同, 可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率) ,更 新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死 链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变 化情况就会反映到用户查询的结果中。 互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各 不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几 十亿的网页索引,数据量达到几千g 甚至几万g 。但即使最大的搜索引擎建立 超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到3 0 ,不 同搜索引擎之间的网页数据重叠率一般在7 0 以下。我们使用不同搜索引擎的 重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容, 是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。 1 2 2 搜索引擎的发展历程和现状 搜索引擎技术伴随着互联网的发展引人注目。搜索引擎大约经历了三代的发 展。 第一代搜索引擎出现于1 9 9 4 年。这类搜索引擎一般都索引少于1 ,00 0 ,00 0 个 网页,极少重新搜集网页和更新索弓i 。而且其检索速度非常慢,一般都要等待1 0 秒甚至更长的时间。在实现技术上也基本沿用较为成熟的i r ( i n f o r m a t i o n 搜索引 攀的研究与实现r e t r i e v a l ) 、网络、数据库等技术,相当于利用一些己有技术实现 的一个互联网上的应用。 第二代搜索引擎系统大多采用分布式方案来提高数据规模、响应速度和用户 数量,它们一般都保持一个大约5 0 ,0 0 0 ,0 0 0 网页的索引数据库,每天能够响应1 0 , 0 0 0 ,0 0 0 次用户检索请求。1 9 9 7 年1 1 月,当时最先进的几个搜索引擎号称能建立 从2 ,0 0 0 ,o o o 到l o o ,o o o ,o o o 的网页索引。a l t a v i s t a 搜索引擎声称他们每天大概要 承受2 0 ,0 0 0 ,0 0 0 次查询。 白1 9 9 8 年到现在,出现了个搜索引擎空前繁荣的时期,这一时期的搜索引 擎的发展有如下几个特点: 索引数据库的规模继续增大,一般的商业搜索引擎都保持在l o 亿个网页以 上。由于索引数据库的巨大规模,使得对应于搜索关键字的返回结果数量非常大, 检索结果相关度评价成为研究的焦点。相关的研究又可以分为两类:一类是对超 链接的分析:另一类是对用户反馈信息的研究。 开始使用自动分类技术。 搜索引擎己成为一个新的研究、开发领域。因为它要用到信息检索、人工智 能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理 等多领域的理论和技术,所以具有综合性和挑战性。又由于搜索引擎有大量的用 户,有很好的经济价值,所以引起了世界各国计算机科学界和信息产、界的高度 关注,目前的研究、开发十分活跃,并出现了很多值得注意的动向 目前在搜索引擎领域作的比较突出的是下面几家公司:y a h o o 1 , g o o g l e 2 4 ,面向中文的b a i d u 3 。 1 2 3 搜索引擎的未来动向 搜索引擎已成为个新的研究、开发领域。因为它要用到信息榆索,人工智 能、计算机网络、分布式处理、数据库、数据挖掘、多媒体内容处理、n 然语言 处理等多领域的理论和技术,所以具有综合件和挑战性。又由于搜索引擎有大量 的剧,1 ,有很好的经济价值,所以引起了世界各国计算机科学界和信息产业界的 高度关注,目前的研究、开发f 分活跃,并出现了很多值得注意的动向。 1 i 份注意提高信息查询结果的精度,提高检索的有效性 用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少,而是看 结果是否和自己的需求吻合。对于一个查询,传统的搜索引擎动辄返凹几十万、 几百万篇文档,用户不得不在结果中筛选。解决查询结果过多的现象目前出现了 几种方法:一是通过各种方法获得j h j 户没有在查询语句中表达出来的真正用途, 包括使用智能代理跟踪用户检索行为,分析用户模型;使用相关度反馈机制,使 用广告诉搜索引擎哪些文档和自己的需求相关( 及其相关的程度) ,哪些不相关, 通过多次交互逐步求精。_ 是用正文分类( t e x tc a t e g o r i z a t i o n ) 技术将结果分类, 使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。三是进行站 点类聚或内容类聚,减少信息的总量。 2 基于智能代理的信息过滤和个性化服务 信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模 型( 如w e b 知识、信息处理、与用户兴趣相关的信息资源、领域组织结构) 、用 户模型( 如用户背景、兴趣、行为、风格) 知识进行信息搜集、索引、过滤( 包 括兴趣过滤和不良信息过滤) ,并自动地将用户感兴趣的、对用户有用的信息提 交给用户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从而 提供个性化的服务。智能代理可以在用户端进行,也可以在服务器端运行。 3 采用分布式体系结构提高系统规模和性能 搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有 r 秋。但当系统规模到达一定程度( 如网负数达到亿级) 时,必然要采用某种分 布式方法,以提高系统性能。搜索引擎的各个组成部分,除了用户接口之外,都 可以进行分布:搜索器可以在多台机器上相互合作、相互分工进行信息友现,以 提高信息发现和更新速度;索引器可以将索引分布在不同的机器上,以减小索引 提高信息发现和更新速度;索引器可以将索引分布在不同的机器上,以减小索引 对机器的要求;检索器可以在不同的机器上进行文档的并行检索,以提高检索的 速度和性能。 1 3 关键词识别技术的概述 关键词识别 1 4 】就是在连续的无限制的自然语音流中识别出给定的关键词。 它包括两个方面的基本内容,一个是关键词检出( k e y w o r ds p o t t i n g ,k w s ) ,一 个是关键词确认。关键词检出是鉴别语音包含哪几个预先输入的关键词,是个 多元判决问题。而关键词确认则回答“是”还是“不是”包含这个关键词,是一 个两元判决问题,本文所有的关键词识别即是指关键词检出。关键词识别不要求 把整个的语音全部识别出来,而连续语音识别则要求把整个语音全部识别出来。 因此可以说关键词识别是连续语音识别( c o n t i n u o u ss p e e c hr e c o g n i t i o n ,c s r ) 的一个分支,因此二者在技术上很多是相通的。 基于h m m 1 5 1 6 的关键词识别进行技术是语音检索的一个非常重要的方 面,它在语音的特定内容检索中占有重要位置,由于目前语音识别技术其鲁棒性 和实用性方面的限制,利用连续语音识别建立大词汇量,任意关键词的识别器并 不能达到理想的结果,无法很好的满足语音检索方面的应用要求。而关键词识别 相对可靠的技术,在语音检索的应用中有望取得重大突破。国内汉语关键词识别 起步较晚,这主要是国内在8 0 年代才开始语音识别技术的研究,关键词识别技 术的发展离不开语音识别技术。9 0 年代国内在大词汇量汉语关键词识别上的研 究才大大兴起,中科院、清华大学 1 7 】、浙江大学【18 、南京大学等在这个领域 都进行了深入研究,表现突出。由于在这个时期本国经济的发展,世界各国对汉 语也越来越重视,很多国外公司在汉语的语音识别和关键词识别上都进行了大量 的投入,并取得了较大的进展。 衡量一个关键词识别系统优劣的指标是召回率或者叫做识别率( d e t e c t i o n r a t e ) 、虚报指数( f a l s ea l a r m ) 和正确率,召回率为难确识别出的关键词与实际 关键词总数之比:虚报指数是指每个小时关键词被虚报的次数,即误报;正确率 是正确识别的关键词总数与实际识别出的关键词总数之比。这里的正确识5 5 l j 的定 义如下:设x 是识别结果,y 是j 下确的关键词,如果x 的中间帧在y 的两个边界 之间,则称时间上是可接受的,即识别正确。其它情况,称x 是虚报,y 称漏报。 6 识别正确的关键词数占总关键词数的百分比,记为p d ;每小时每个关键词的虚 报指数,记为f a k w 1 1 r 。大多数系统采用r o c ( r e c e i v e ro p e r a t i n g c h a r a c t e r i s t i c ) l # t 线来描述正确率和虚报指数之间的关系。一般来说召回率越高, 虚报指数也越大,而正确率降低。 随着计算机硬件和多媒体技术飞速发展,信息的存储将采取越来越自然的方 式,比如以声音和图象的形式存储,但所需要的代价是存储量大和检索缓慢。在 硬件成本曰益降低的前提下,存储量问题很容易得到解决;但人工检索却是一个 令人头痛的问题。关键词识别技术可以解决音频资源的这一问题,本论文可以列 出自己所关心领域的一组关键词,k w s 就可以把所有相关的存储语音都调出 来。这个应用在数字图书馆和数字媒体检索中将有重大意义 1 4 说话人识别技术的概述 说话人识别属于生物识别技术的一种,是一项根据语音波形中反映说话人生 理和行为特征的语音参数,自动识别说话人身份的技术 1 9 。说话人识别技术应 用前景诱人,核心技术研究的成功也带动了众多厂商参与应用开发。说话人识别 技术有着广阔的市场应用前景。通过说话人识别技术,可以利用人本身的生物特 性进行身份鉴别。 说话人识别的具体应用可以分为两类:一类是说话人鉴别( s p e a k e r i d e n t i f i c a t i o n ) 2 0 。这类问题系统要完成的任务就是把说话人的信号特征与 数据库中的众多人员的模板相比较,从而确定说话人的身份;另一类是说话人确 认( s p e a k e rv e r i f i c a t i o n ) 2 1 。这类问题要求说话人进行身份声明( 如p i n 或智能卡等) ,系统的任务就是把输入信号与库中的相应身份的声音模板进行匹 配以确定说话人身份的真伪。可见,鉴别要做的匹配是一对多的,而确认要做的 匹配则是一对一的,所以说话人鉴别对系统的要求较高,尤其是数据库存储的模 板数比较大的时候,这个问题尤为突出。在鉴别过程中又可以分为:文本有关和 文本无关。文本有关是指用户所说的话是由系统提示的,所以在识别过程中系统 可以利用已知短语的信息作为特征的一部分,增加识别的可靠性。文本无关是指 说话人可以说任何的话,用户在使用过程中更加的舒适,不受发音内容限制。 在自动说话人识别技术中,无论是文本有关的说话人识别,还是文本无关的 说话人识别,其原理都是为每一个说话人建立一一个能够描述这一说话人的模型, 以其作为这一说话人特征的标准模板。说话人鉴别时,取其与测试语音匹配距离 最小的说话人模型所对应的说话人为说话人鉴别的结果;在说话人确认时,用测 试音的模型与所声称的说话人的模型进行比较,若匹配距离小于一个规定的阀 值,则该说话人得到确认,否则,该说话人不是他所声称的那个身份。 近年来,无论是在语音特征提取还是在识别模型方面,说话人识别的研究都 取得了很大的进展。原先的说话人识别,往往是用视觉来判断声音频谱图,或者 用听觉判断是谁的声音。随着计算机的发展,自动说话人识别( a s r ) 的研究得 到了迅速的发展,自动说话人识别是指利用计算机技术,不需要人们的干预,自 动的进行身份认证。本文所说的说话人识别,均指说话人的自动识别。 随着互联网的普及,人们可以很容易的获得各种音频文件,例如新闻、采访 录音和聊天节目等等。由于这些音频文件的数量相当庞大,从互联网上找到需要 的音频文件成为了件非常困难的任务。有必要使用自动说话人识别技术对音频 进行分类和索引,所以w e b s o n a r 用说话人识别技术来满足这一需求。 1 5 目前三种技术融合应用的现状 目前,研究人员正在寻求搜索引擎技术跟语音技术的融合,来实现给人类生 活方式带来飞跃的进步。虽然上述技术都是目前计算机领域的前沿技术,但是语 音处理技术和搜索引擎技术的整合的案例目前都是实验阶段,还没有出现在商业 应用中。 其中比较出名的是s p e e c h b o t 2 6 。s p e e c h b o t 曾是该领域研究下的一个产 物,它是一个基于内容检索的音频视频搜索引擎,语音识别器是建立在c m u 的 s p h i n x 一3 2 5 语音识别系统的基础上的,它采用连续语音识别技术,将音频去全 部转为标注( t r a n s c r i p t i o n ) ,在这个基础上进行关键词的检索,能够将包含 特定主题和内容的音频视频文件搜索出来,主要是广播新闻。但是现在 s p e e c h b o t 研究小组已经宣布解散,该项目宣布失败。 此外,g o o g l e 也正在开发语音搜索技术项目。这些眼下还处于前期测试阶段 的技术今后有可能彻底改变搜索引擎的概念。g o o g l e 负责技术的主要官员指出, 不出数年,g o o g l e 一定会推出一种语音搜索界面,用户通过它可以搜索从行车 路线到居家附近超市中某一商品所在货架的任何想要搜索的内容。他说:有些事 你从来不会想到要用搜索引擎去做,比如现在你肯定不会带着笔记本电脑去逛超 市,但是将来逛超市,通过手机或是掌上电脑,就可以对自己想要购买的商品进 行搜索。今后搜索引擎的应用会发生根本性改变。人们在走路的时候以及在酒吧 里想要的信息和在家里是完全不同的。 其中跟w e b s o n a r 比较相似的是s p e e c h b o t ,它们都包含搜索引擎技术跟语音 识别技术的融合,但是它失败了,所以w e b s o n a r 要采用另外的技术路线。关于 搜索引擎技术跟说话人识别技术的融合的实验室产品,到目前为止,我们还没有 发现过。可见我们还需要更多的努力去实现搜索引擎技术跟语音处理技术的融 合。 1 6w e b s o n a r 与本文搜索引擎的区别 文本搜索引擎 w e b s o n a r 图2 2 跟文本搜索引擎区别图 w e b s o n a r 也是个搜索引擎,所以它的基本原理还是跟通用的文本搜索弓 擎原理( 见1 2 1 节) 相类似的,w e b s o n a r 与通用的文本搜索引擎的区别在于: 9 w e b s o n a r 关注的是网页包含的语音文件,而文本搜索引擎关注的是网页里的文 本内容:w e b s o n a r 利用语音处理技术对语音文件进行分析,对结果建立索引, 而文本搜索引擎利用文字分词技术对网页内容进行分词,之后建立索引。 图2 2 是它们的区别图。 第四步,用户输入关键词进行检索,在文本搜索引擎里用户可以输入任意的 关键词,但是在本论文的语音搜索引擎里,用户需要输入关键人物名字,因为本 论文的语音搜索引擎是基于关键人物的语音资源。 第五步,用户检索的时候文本搜索引擎返回相应的网页信息,比如网页的标 题,u r l 等;语音搜索引擎返回的是相应的语音文件信息,比如语音文件名、元 信息、u r l 等等。 此外,w e b s o n a r 采用了局部优化技术,以减少语音搜索引擎的运营成本。 1 7 本文的研究内容和主要工作 由于现在的连续语音识别技术在速度上和精确度上都比较差,无法满足搜索 引擎的需求,s p e e c h b o t 就是一个很好的例子,它采用的就是连续语音识别技术, 事先将语音转化为文本,再建立索引,但是这个项目失败了。所以w e b s o n a r 采 用了主流的基于h m m 的关键词识别技术;在说话人方面,w e b s o n a r 则采用文 本无关的说话人鉴别技术,因为搜索引擎在后台自动处理过程中不可能跟每个语 音文件的文本内容。 本论文设计并实现了一个基于关键词识别技术和说话人识别技术的语音搜 索引擎,并提出在此引擎基础上实现面向搜索关键人物的语音资源的应用。工作 重点主要有以下几个方面: 第一、全文检索的设计,建立倒排索引,实现非结构化的存储和检索。 第二、分布式存储、检索的设计,实现海量数据的存储,快速的检索。 第三、与关键词识别技术、说话人识别技术的融合。 第四、搜索引擎在搜索关键人物语音资源的应用。 本文组织结构安排如下: 第一章阐述了搜索引擎技术的发展和现状,及简要提及关键词识别技术、说 1 0 活人识别技术,提出了本文的研究内容、工作重点及特色。 第二章介绍语音搜索引擎系统的整体设计框架、系统流程、与文本搜索引擎 的区别。 第三章介绍语音搜索引擎系统中的互联网搜索子系统,包括网络蜘蛛的设 计。 第四章介绍语音搜索引擎系统中的数据存储子系统,包括基于语音特性的倒 排索引的设计,关键词识别模块的设计,说话人识别模块的设计,音频元信息提 取模块的设计,支持海量数据的分布式系统的设计。 第五章介绍语音搜索引擎在面向关键人物的应用的用户检索子系统 第六章为总结和展望。 1 8 本章小节 本章概要介绍提出w e b s o n a r 的背景和意义,并分别概述了w e b s o n a r 所采用 的搜索引擎技术、关键词识别技术和说话人识别技术的原理和现状。之后介绍了 目前关键词识别技术,说话人识别技术和搜索引擎技术三种技术的融合研究现 状。再者,介绍w e b s o n a r 与通用本文搜索引擎的区别。最后,介绍了本论文的 研究内容和主要工作。 第二章w e b s o n a r 概要设计 2 1w e b s o n a r 系统概述 s o n a r 是浙江大学c c n t 实验室提出并实现的一种新型的基于组件的说话人识 别软件平台( s p e a k e rr e c o g n i t i o ns o f t w a r ep l a t f o r m :s o n a r ) 2 8 。s o n a r 提 供了说话人语音数据库采集、性能测试以及说话人识别算法评测等功能,应用前 景广阔。w e b s o n a r 在说话人识别模块采用了这个平台。w e b s o n a r 喻意互联网上的 声纳。 w e b s o n a r 系统是基于关键信息的语音搜索引擎,它利用了搜索引擎技术, 语音处理等领域的最新的研究成果,将其融合在一起,以满足人们在互联网上搜 索语音资源的需求。该系统主要包括以下几部分: 夺互联网搜索子系统 夺数据存储子系统 夺用户检索子系统 图2 1 是上面3 个子系统的关系图。互联网搜索子系统:利用网络蜘蛛, 根据网页链接进行抓取分析,保存语音文件的u r l 。o 数据存储予系统:下载 互联网上的语音数据,采用关键词识别技术,对下载的语音文件进行关键词识 别,识别语音文件中的文本内容;采用说话人识别技术,对下载的文件进行说 话人识别,识别语音文件中的说话人。对识别的结果,建立了基于内容的高性 能的语音索引,同时自动维护索引的更新。o 用户检索子系统,用户的查询在 索引中迅速检出文档然后以网页形式展示给用户。 圄同 图2 1w e b s o n a r 各子系统关系图 1 2 首先,利用网络蜘蛛对互联网进行搜索,根据下载的网页的源代码,提取 里面的语音文件u r l 的信息,存储起来;之后,系统根据这些u r l ,一个一 个的下载语音文件,利用关键词识别技术和说话人识别技术,结合定制的字典 ( 字典的所有词当作关键词,目前定制的字典倾向于这个领域:关键人物) ,对 语音文件进行语音处理。 有了这些标注信息以后,我们就可以对这些信息建立全文索引,存储在后 台的服务器中。当然,后台存储管理非常复杂,不过用户不必去理会这些。当 用户想在互联网搜索含有某些关键人物的语音文件时,进入本系统后,实际上 是在系统的内部索引上进行查找( 现在流行的文本搜索引擎也是这个原理) ,然 后将排名靠前的n 个语音文件的信息返回给用户。用户根据返回的这些信息去 选择自己想下载的语音文件。点击链接,就可以下载。 2 2w e b s o n a r 系统整体部署及流程描述 图2 2 是本语音搜索引擎的系统部署图: 2 2 系统部署图 在图2 2 系统部署图中,我们可以看出本系统是一个分布式系统,因为互联网的 数据是海量数据,需要的存储空间是一台电脑无法满足的。因此采用集中化控制 的分布式技术,因为考虑到性能的瓶颈问题,w e b s o n a r 用堀复手以将用户的检 索请求和后台的数据添加放在不同的服务器上处理。下面分别介绍各个服务器的 功能: w e b 服务器 本系统的检索客户端采用浏览器,所以用户能直接访问的就是w e b 朋务;嚣 用户的所有检索请求都是通过w e b 服务器发送给系统的内部服务器,然后,w e b 殷务器解析这些内部服务器返回的检索结果,展示给用户。 网络蜘蛛服务器 该服务器是一个应用服务器,它运行多线程的网络蜘蛛程序,使用超链分析 技术,自动访问互联网,并沿着任何网页中的所有u r l 爬到其它网页,重复这 过程,并把爬过的所有网页收集回来,同时记录它所找到的语音文件的u r l , 最后把这些信息都存储在存缮织务器中。 语音分析服务器 该服务器也是一个应用服务器,它先从;瞍手止取得一个语音文件u r l , 然后下载该音频文件,提取该文件的元数据( 头信息) ,通过音频格式转化器转 化这个文件的语音格式,调用关键检索引擎进行关键词检索,最后把元数据和检 索结果的标记信息添加到索引艘务器中去。这个采用了浙江大学c c n t 实验室 最新研制的关键词检索引擎,把语音信息标记化,再将标记索引化,使用户能否 快速的检索。 p a g e u r l 服务器 该服务器主要存储网络蜘蛛记录下来的网页信息,包括指向网页的u r l , 所属于的网站的u r l 的h a s h 值( 以便在一个网站内做检索) ,网页的更薪信息 等。总之,本系统存储的的绝大多数信息存储在这些服务器中,采用数据库表的 方式进行存储。因为数据是超大规模,所以采用分布式存储。 a u d i o u r l 服务器 该服务器主要存储网络蜘蛛记录下来的语音文件u r l 信息,包括,指向语 音文件的u r l ,所属于的网站的u r l 的h a s h 值( 以便在一个网站内做检索) , 该语音文件的更新信息,该语音文件被处理的信息等,采用数据痒表的方式进行 存储。因为数据是超大规模,所以采用分布式存储。 索引服务器 为什么要用索引呢? 因为现在的关键词识别技术速度很慢,对大量音频文件 进行检索所耗的时间不是用户能承受。所以需要事先对所有的音频文件做一次完 全性检索,利用倒排索引技术建立索引,然后用户在这些索引上进行检索。这些 索引信息就存储在荣岁脚g 务器上。除了索引信息以外,这种服务器上还存储 a u d i o u r l ,语音文件的原信息,语音文件所属于的网站的u r l 的h a s h 值( 以 便在一个网站内做检索) 等。 检索服务器 磴荣服务器并不真正检索索引,它是一个检索请求的分发者和检索结果的合 并者,协调棠引嬲务器和w e b 殿务器韵关系。不过它由i 睃尹以管理,控制它 的负载均衡。当w e b 朋务器向检察援务舞跋送一个检索请求,签煮我务嚣睁这 个请求分发给每个索引旋务器,各索罗肋f 夯器对本地索引信息进行检索、打分; 之后,找到结果的萦影织务器将结果返回给检索膨务嘉舅检索殿努嬲十这些结果 进行合并、排序,取出前n 条索引信息,最后返回给w e b 殷务器。 调度中心 ;腰手以并不真正分析或存储用户的数据,它只是一个协调者,协调厨:络物 蛛暇务器语音分柝鼹务器。p a g e u r l 鼹务器,a u d i o u r l 服务器,检索骚务器 和荐宿般务器之间的关系,从而达到各服务器负载均衡,同时,通过;媵手以- , 可以动态的添加各种服务器,而不需要重启整个系统,它是整个系统的大脑。个 1 6 服务器定时给调度中心发送状态信息,比如i o ,c p u ,内存,硬盘等状态,报 告它们的运行情况,以供掘劈手以谜行适当的调度。 网络蜘蛛信息存储 ( 1 1 ) 纫绉蜘嫌腰务器通过堀窟乒以,( 1 2 ) ,从p a g e u r l 废务器取得一个 未分析的p a g e u r l ( 1 3 ,1 4 ) ,然后根据这个p a g e u r l 下载网页的内容( 2 ) , 通过超链接分析,取出其中的语音文件的a u d i o u r l 和指向其他网页的p a g e u r l 等信息;同时通过;瞍手以的负载均衡的策略分别选择一个合适的p a g e u r l 殿 务器和一个合适的a u d i o u r l 崩 务器( 3 1 ,3 2 ) ,此时该厢鲐蝴蟛缎务意# 直接连 到p a g e u r l 厥务器,不通过i 嗖手以啭接数据,将指向其他网页的p a g e u r l 信 息加入到p a g e u r l 威务器中去( 4 ) ;直接连到a u d i o u r l 殿务器,不通过堀劈 手以痒专接数据,将指其中的a u d i o u r l 信息加入到a u d i o u r l 履务器中去( 5 ) , 整个过程如上图2 - 3 所示。 p a g e l j r i a j l 郴p a g e l j r i 服务器 a u a o l j r l 服务器 (slaver)(slaver)(slaver) 图2 3 网络蜘蛛信息存储过程 1 7 语音下载分析 语昔分笏锾务器通过堀岩尹以,从a u d i o u r l 崩务器取得一个未分析的语音 文件的u r l ( 1 1 ,1 2 ,1 3 ,1 4 ) ,下载该语音文件,对其进行元数据( 头信息) 提取和语音识别分析( 2 ) ,然后通过;瞍尹以- 的负载均衡策略,找到一个比较合 适的雾引腰务器( 3 1 ,3 2 ) ;此时该再号分痧翩z 务器直接连到该索影铭务器,不 通过;瞍尹以啭接数据,将提取的元数据和语音识别的标注信息加入到该亲岁肋f 务器上去( 4 ) 。整个过程如图2 4 所示。 a q d i o u r i 鹰务器索引服务器 (slaver)(sliver) 图2 4 语音下载分析过程 检索过程 当w e b 崩务器接收到一个检索请求,它会先通过掘劈尹以的负载均衡策略 得到一个合适的检索膨务器( 1 ,2 ) 。此后w e b 厥务器向猃煮膨务器发送这个检 索请求( 3 ) ,检囊殷务器将这个请求分发给每个索彰够务器,各素岁废务毒黟对本 地索引信息进行检索、打分;之后,找到结果的索引锾务器将结果返回给径蒺铝 务器,检察铝务器对这些结果进行合并、排序,取出前r l 条索引信息,最后返回 给w e b 履务器( 4 ) ,整个过程如图2 5 所示。通过这种方式,能够有效的解决系 统的瓶颈问题,因为查询过程也是比较费资源的,尤其是搜索引擎,用户的检索 请求量是巨大的,必须配置可变数量的签煮锾务器来分流用户的请求并即时响 应,同时不会给燃? 驴以带来瓶颈问题。 索引服务器 索引服务器索引服务器 ( s i - v e r ) 节点 ( s l a v e r ) 节点( s l a v e r ) 节点 图2 5 用户请求检索过程 1 9 2 3w e b s o n a r 系统关键技术 2 3 1 关键词识别技术 图2 6 关键词识别沉程 关键词识别,即k e y w o r ds p o t t i n g ( k w s ) ,建立一个k w s 系统,主要分两 个部分,一个是离线学习,即模型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论