(计算机应用技术专业论文)基于网络视频业务的搜索引擎的设计与实现.pdf_第1页
(计算机应用技术专业论文)基于网络视频业务的搜索引擎的设计与实现.pdf_第2页
(计算机应用技术专业论文)基于网络视频业务的搜索引擎的设计与实现.pdf_第3页
(计算机应用技术专业论文)基于网络视频业务的搜索引擎的设计与实现.pdf_第4页
(计算机应用技术专业论文)基于网络视频业务的搜索引擎的设计与实现.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机应用技术专业论文)基于网络视频业务的搜索引擎的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京交通大学硕士学位论文中文摘要 中文摘要 摘要:随着i n t e r n e t 和w e b 技术的飞速发展,w w w 已经成为人们进行信息交流 不可缺少的巨大信息空间。面对如此大量的信息,人们在寻找自己所需要的信息 时常常迷失方向。如何快速、准确的从浩瀚的信息资源中找到自己所需要的信息 已经成为困扰用户的一大难题。 随着搜索引擎的广泛应用,人们对于搜索引擎的要求也越来越高,查准率和查 全率成为衡量搜索引擎的重要标志,无用信息过滤也成为人们开始关注的问题。 另外,通用搜索引擎已经不能满足人们对于特定领域的检索要求,多元化的搜索 引擎开始应运而生,专业性和专题性的搜索引擎层出不穷。 另外,随着现在网络的普及,网络已经慢慢融入人们的生活和娱乐。网络视频 具有可以在线观看、不需要下载、短小精悍、内容丰富等特点,因此受到越来越 多网络用户的欢迎。 目前,用户要想在传统的通用搜索引擎上搜索某一个特定的网络视频,其返回 结果往往是很多无用的网页信息,因此,针对通用搜索引擎的不足,本课题结合 搜索引擎的原理和网络视频的特点,开发了基于网络视频业务的搜索引擎,用来 解决用户在搜索网络视频方面的问题。 本文研究并实现了基于网络视频业务的搜索引擎系统。实现该系统时,引入了 搜索引擎的架构模型,即网络蜘蛛、索引器和检索器,并且加入了分词和搜索自 动提示功能。该搜索引擎系统主要基于全文检索引擎a p a c h el u c e n e 构建,本文详 细论述了该搜索引擎所需要的相关理论,并给出了系统的整体框架结构图以及各 个部分的详细设计方案,最后给出了该系统的运行效果。 关键词:搜索引擎:视频;索引;检索;网络蜘蛛 分类号:t p 3 1 1 5 2 北京交通大学硕士学位论文a b s t r a c t a b s t r a c t a b s t r a c t :w i t ht h eq u i c k l yd e v e l o p m e n to fi n t e m e ta n dw e bt e c h n o l o g y , w w h a sb e c o m eb i gi n f o r m a t i o ns p a c e f a c e dw i ms om u c hi n f o r m a t i o n , p e o p l eo f t e nl o s e t h e i rd i r e c t i o nw h e nl h e yl o o kf o rt l l e i rr e q u i s i t ei n f o r m a t i o n h o wt of i n dt h er e q u i s i t e i n f o r m a t i o nq u i c k l ya n da c c u r a t e l yh a sb e c o m eab i gp r o b l e mf o r t h eu s e 侣 w i t ht h ea p p l i c a t i o no f s e a r c he n g i n es y s t e mb r o a d l y , t h er e q u i r e m e n to f p e o p l ef o r s e a r c he n g i n ei sh i g h e ra n dh i g h e r , v e r a c i t ya n di n t e g r a l i t yh a v eb e o ) m en e wc r i t e r i o n f o rs e a r c he n g i n es y s t e m f i l t r a t i n gu s e l e s si n f o r m a t i o na l s oh a sb c c x ) m cn e w p r o b l e m w h i c hp e o p l eb e g i np a y i n ga t t e n t i o nt o f u r t h e rm o r c , g e n e r a ls e a r c he n g i n eh a sn o t s a t i s f i e ds e a r c hr e q u i r e m e n tp e o p l en e e df o r s p e c i f i c a l l yk n o w l e d g e t h e r e f o r e , m u l t i - t y p es e a r c ha n 百n es y s t e mb e g i n st oa p p e a r , p r o f e s s i o n a la n ds p e c i a ls e a r c h e n g i n es y s t e me m e r g e si ne n d l e s s l y w i t ht h ep o p u l a r i z a t i o no f w e b ,w e bh a sb e e nm o i eu s e df o rl i f ea n de n t e r t a i n m e n t 1 1 坞v i d e oi n 出ei n t e r a c tc a nb ew a t c h e do nl i n e , n o tn e e d e dt ob ed o w n l o a d e d s h o r t e r , a b u n d a n tc o n t e n t s ,s oi ti sl i k e db yt h en s e r 8o f w e b i f p e o p l et r yt os e a r c hav i d e oo nt h eg e n e r a ls e a r c he n g i n e , m o s to f t h er e s u l t sa r e w e bp a g e s s o ,w ed e s i g n e dt h ev i d e os e a r c he n g i n ea c c o r d i n gt ot h et h e o r yo fs e a r c h e n g i n ea n dt h ec h a r a c t e r i s t i c so fv i d e o si nt h ei n t e r a c t ,t os o l v et h ep r o b l e mo fp e o p l e o ns e a r c h i n gt h ev i d e o s n e p a p e rr e s e a r c h e sa n di m p l e m e n t st h es y s t e mo fs e a r c he n g i n eb a s e do nv i d e o s i nt h ei n t e r a c t i no r d e rt oi m p l e m e n tt h es y s t e m , w ei n t r o d u c et h ea r c h i t e c t u r eo f s e a r c h e n g i n e :w e bs p i d e r , i n d e x e ra n ds e a r c h e r w ea l s oa d dt h ef u n c t i o n so f s e g m e n t a t i o na n d t h ek e y w o r dt i p s 皿ev i d e os e a r c he n g i n ei sb a s e do nt h ea r c h i t e c t u r eo fa p a c h e l u c e n e n ep a p e ri n t r o d u c e st h et h e o r i e so fv i d e os e a r c he n g i n c , a n dt e l l sh o wt o i m p l e m e n te a c hm o d u l e , a tl a s t , s h o w st h er e s u l to f t h ev i d e os e a r c he n g i n e k e y w o r d s :s e a r c he n g i n e ;v i d e o ;i n d e x ;s e a r c h ;w e bs p i d e r c i a s s n o :t p 3 11 5 2 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: k 签字日期:z o o ? 年,己月2 口日 一名凌杰通 签字日期:2 司年,2 月l 口 北京交通大学硕士学位论文 独创性声明 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除 了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也 不包含为获得北京交通大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的 同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 学位做储躲够签字隰z 。7 年,湖2 。日 致谢 本论文的工作是在我的导师韩臻教授的悉心指导下完成的,韩臻教授严谨的 治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢三年来 韩臻老师对我的关心和指导。 韩臻教授悉心指导我们完成了实验室的科研工作,在学习上和生活上都给予了 我很大的关心和帮助,在此向韩臻老师表示衷心的感谢。 韩臻教授对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷心的 感谢。 在实验室工作及撰写论文期间,刘丽、郑伟、李建平等同学对我论文中的 研究工作给予了热情帮助,在此向他们表达我的感激之情。 另外也感谢我的父母,他们的理解和支持使我能够在学校专心完成我的学业。 北京交通大学硕士学位论文绪论 1 绪论 1 1 课题的研究背景 随着计算机技术与网络技术的发展,i n t e m e t 上的可得资源日益丰富,信息发布 及更新速度远远大于整理、使用信息的速度。据统计,在2 0 0 3 年,i n t e r a c t 上能够 公开访问到的不同网站超过5 0 0 0 万个,网页总容量约为1 6 7 t b 1 】;另一方面,信息 增长态势更为惊人,据调查显示,2 0 0 4 年网页总数同期相比增长1 0 8 6 ,呈现出 逐年翻番的几何增长的势头【2 】。截止到2 0 0 6 年l o 月末,全球网站总数已经突破l 亿 个,呈现出了越来越快的增长势头唧。 如此丰富的网络资源给我们的学习、生活、娱乐带来了方便,但同时也增加了 查找信息的难度,如果只靠手工查找,几乎无法在网络海洋中找到自己需要的信 息。在这种背景下,搜索引擎应用而生,并且获得了极大的成功。现今最为有名 的搜索引擎如g o o g l c 、a l t a v i s t a ,i n f o s e e k 以及百度等,这些搜索引擎的存在为用 户在互联网上查找信息提供了便利,成为人们获取信息的得力工具。搜索引擎是 在互联网上检索信息最为重要的工具,它以一定的策略在互联网中搜集、发现信 息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信 息导航的作用。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务, 搜索引擎站点也被美誉为“网络门户”。但是由于这些搜索引擎大多数都是通用搜 索引擎,按照用户提供的关键词进行检索,返回的结果大多数都是与关键词相关 的网页的链接,而且返回结果数量太多,内容不精确,无法满足某些特定的需求。 目前通用搜索引擎在使用中面临着如下诸多问题: ( 1 ) 大规模的分布式数据源 基于w e b 的自身特点,大量的数据分布在数以亿计的计算机互联网上,检索起 来困难重重,单个搜索引擎的索引数据库的覆盖率一般都低于3 0 ,很难索引所有 的w e b 页面资源。 ( 2 ) 网络信息的质量问题 互联网上的信息数量呈现指数增长,但是大量信息的存活期却在缩短,这导致 搜索引擎的及时性很难保证,大量返回结果为无效的( 链接已经不存在) 或过时 的( 同一个链接已经被替换成另一个文件) 。同时,网上大量的镜像站点和简单重 复拷贝都使搜索引擎返回大量无用信息。搜索返回的结果成千上万,良莠不齐, 造成“信息爆炸,资源匮乏”。 北京交通大学硕士学位论文绪论 ( 3 ) 大量的动态页面无法检索 目前越来越多的w e b 网站使用了数据库和动态页面生成技术,而搜索引擎无法 检索这些页面。 ( 4 ) 异构数据源问题 网上检索要处理大量的多媒体信息,即便是文本信息也存在大量不同的文本格 式。同时网上信息还存在着多种语种问题,亚洲语言字符的检索一直是检索界的 一大难点。 ( 5 ) 忠实表达的问题 经典的信息检索界认为用户很难简单地用关键字来忠实表达他所真正需要检 索的内容,表达的困难将导致检索结果的不理想,而且如何将结果表达成用户容 易理解和使用的方式也是一个难题。 ( 6 ) 搜索引擎的硬件要求越来越高 随着网络规模的扩大和检索及时性的要求,搜索引擎的硬件要求也大大提高。 另一方面,网络视频现在已经非常流行,由于网络视频具有图文并茂、在线观看、 简单方便等特点,具有网页文字无法比拟的优势,网络视频网站也如雨后春笋般 的涌现,目前国内较大的网络视频网站已经达到几十家,而且还有迅速增长的趋 势。如果用户想找到自己感兴趣的视频,逐一访问这些网站,效率将十分低下, 如果在单个的视频网站中进行搜索,检索结果往往只包含本网站中的视频,结果 较少,如果采用通用搜索引擎,返回的结果往往不是用户需要的视频,而是与关 键词相关的大量网页。 1 2 课题的研究意义 针对通用搜索引擎的不足,结合网络视频的特点,我们开发了此套网络视频搜 索引擎。通过网络视频搜索引擎,用户只需要输入关键词,系统便会返回相关的 视频链接地址,并且还可以给用户提供一些高级搜索功能,使用户的检索效率大 大提高。开发此套网络视频搜索引擎的目的,并不是为了取代传统的通用搜索引 擎,而是对通用搜索引擎的一个有益补充,为的是给用户搜索网络视频提供方便。 网络视频搜索引擎可以说是对视频网站的一个整合,通过视频搜索引擎,用户不 需要遍历各个视频网站,便可以在各个视频网站中检索到自己需要的视频,大大 提高了用户的搜索范围。 网络视频搜索引擎还具有以下特点: ( 1 ) 运行在常规的软硬件设备之上。 2 北京交通大学硕士学位论文 ( 2 ) 搜索结果只包含网络视频信息,准确率较高。 ( 3 ) 信息的更新比较及时,由于只包含视频网站上的内容,因此数据量较小, 更新较快。 ( 4 ) 较快的响应速度。 1 3 论文的组织结构 本论文章节组织如下: 第一章,主要介绍论文的研究背景及意义。 第二章,介绍了搜索引擎的相关理论知识,包括搜索引擎的简介、发展历史、 分类、性能指标、原理以及发展趋势等。 第三章,主要介绍了网络视频搜索引擎的设计,包括系统的总体架构以及在系 统中所用到的主要技术及原理,包括网络蜘蛛、正则表达式、l u c e n e 、a j a x 等。 第四章,主要介绍了网络视频搜索引擎的实现,包括各个功能模块的实现以及 系统的运行效果,并和其他搜索引擎的搜索结果进行对比分析。 第五章,对全文进行总结和展望。 北京交通大学硕士学位论文 搜索引擎技术研究 2 搜索引擎技术研究 2 1 搜索引擎概述 随着i n t e m e t 的迅速发展和信息量的急剧增长,各种各样的网络信息工具应运而 生,电子邮件和搜索引擎就是两个典型的工具。搜索引擎是一种引导人们在因特 网上通过超文本链接来查询自己所需信息的工具,它以一定的策略在互联网中搜 集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务, 从而起到信息导航的目的。搜索引擎是随着因特网的发展而逐渐发展成熟起来的 技术。 搜索引擎提供的网络导航服务已经成为网络用户查询、获取信息资源不可或缺 的工具。因此,搜索引擎技术逐渐成为世界关注和极具开发潜力的对象。 搜索引擎一般由网络蜘蛛( s p i d e r ) 、分析器、索引器、索引数据库、检索器和 用户接口组成。网络蜘蛛以广度优先或深度优先的方法从w e b 上下载页面;分析器 对下载页面的内容进行分析以用于索引,具体包括分词、过滤、转换等工作;索 引器将文档表示为一种便于检索的方式并存储在索引数据库中,一般采用的方法 有矢量空间模型( v e c t o rs p a c em o d e l ) 、倒排文档、概率模型等;检索器实现用户 查询关键词和目标文档匹配度的计算,根据计算结果,所有符合查询要求的页面 u i 也按照相关度递减的顺序排列,并返回给用户;用户接口为用户提供一个输入 查询请求,定制查询结果的w e b 页面并将查询结果格式化后返回给浏览器。 2 1 1 搜索引擎历史 在互联网发展的最初阶段,网站的数量相对较少,信息查找比较容易。随着互 联网的迅猛发展,网页数量越来越多,用户很难找到所需的资料。这时,对搜索 引擎的需求就出现了,一些为满足大众信息检索需求的专业搜索网站也应运而生。 事实上,搜索引擎的诞生可以追溯到1 9 9 0 年,在加拿大蒙特利尔( m o n t r e a l ) 的吉尔大学,一位名n a l a ne m t a g e 的学生制作了一个自动索引互联网上的匿名 f t p n 站文件的程序 4 1 。这个能够自动搜索互联网上匿名f r p 网站文件的程序被人 们称为a r c h i e 。a r c h i e 是i n t e r n e t 上用来查找文档的自动搜索服务工具,这些文档的 标题必须满足特定条件。从概念上讲,a r c h i e 的工作十分简单,每隔一段时间,一 4 北京交通大学硕士学位论文 搜索引擎技术研究 个特殊的程序就连到每一个已知的匿名f t p 主机上,然后下载所有公共文件的完整 目录表。这些表存储于i n t o n a e t a r c h i v e s d a t a b a s e ( i n t e r n e t 档案数据库) 中。当用户要 求a r c h i e 检索一个文件时,所要进行的工作就是对该数据库进行检索。a r c h i e 还不 是一个真正的搜索引擎,因为当时互联网还没有出现,只能说是搜索引擎的祖先。 受到a r c h i e 的启发,美国明尼苏达大学的一个学生m a r k m c c a h i l l ,于1 9 9 1 年发 明了一种叫“o o p h e r ”的搜索协议。“g o p h e r ”的命名来自于这所学校的吉祥物。 这种协议与a r c h i e 最大的不同是,a r c h i e 仅仅能够索引网络上的文件,而g o p h e r 却 可以对网页也进行索引。同时,另外两个程序“v e r o n i c a ”和“j u g h e a d ”可以用来 对以g o p h e r 格式进行索引的文件进行检索。“v e r o n i c a ”的名字来自于“v e r ye a s y r o d e n t - o r e n t e dn e t - w i d ei n d e xt oc o m p u t e r i z e da r c h i v e s ”( 非常方便的、专门用于 收取网络范围内的、可计算机化的文档) 直到今天,网上仍有一些g o p h e r 的服务 器在运作着,只不过大多数测览器已经不支持g o p h e r 协议。 1 9 9 3 年2 月,6 个斯坦福大学的学生研究分析了字词关系,以对互联网上的大量 信息做更为有效的检索,于是他们开发出了e x c i t e ,后来它曾以概念搜索闻名。仅 用了一年时问,e x c i t e 就组成了公司,并在1 9 9 5 年1 2 月上线。不过在2 0 0 2 年5 月, 被i n f o s p a e e 收购的e x e i t e 停止了自己的搜索引擎,改用元搜索引擎d o g p i l e 。 1 9 9 3 年l o 月m a r t i j nk o s t e r 创建了a l i w e b ( m a r f i j nk o s t e ra t l n o u c c st h e a v a i l a b i l 时o f a l i w e b ) ,它相当于a r c h i e 的肌甲版本。a l i w e b 不使用网络爬虫, 如果网站主管们希望自己的网页被a l l w e b 收录,需要自己提交每一个网页的简介 检索信息。1 9 9 3 年底,一些基于此原理的搜索引擎开始纷纷涌现。 1 9 9 4 年4 月,s t a n d f o r d 两名博士生,美籍华人j e r r y y a n g ( 杨志远) 和d a v i df i l o 共同创办了y a h o o ,随着访问量和收录链接数目的增长,y a h o o 目录开始支持简单 的数据库搜索。因为y a h o o 的数据是手工输入的,所以不能真正被归为搜索引擎, 事实上只是一个可搜索的目录,搜索效率明显提高。 1 9 9 4 年4 月2 0 日,w a s h i n g t o n u n i v e r s i t y 的b r i a n p i n k e r t o n 等人开发的w e b c r a w l e r 是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能 通过u r l 和摘要搜索,摘要一般来自人工评论或程序自动取正文的前1 0 0 个字。 1 9 9 5 年1 2 月,a l t a v i s t a 登场亮相,大量的创新功能使它迅速达到当时搜索引擎 的顶峰1 5 j 。a l t a v i s t a 最突出的优势是它的速度。同时a l t a v i s t a 的一些新功能永远改 变了搜索引擎的定义。a l t a v i s t a 是第一个支持自然语言搜索的搜索引擎,a l t o v i s t a 是第一个实现高级搜索语法的搜索引擎( 如a n d ,o r ,n o t 等) 。用户可以用 a l t a v i s t a 搜索n e w s g r o u p s ( 新闻组) 的内容并从互联网上获得文章,还可以搜索图 片名称中的文字,搜索t i t l e s ,搜索j a v aa p p l e t s ,搜索a c t i v e xo b j e c t s 。a l t a v i s t a 也 声称是第一个支持用户自己向网页索引库提交或删除u r l 的搜索引擎,并能在2 4 5 北京交通大学硕士学位论文搜索引擎技术研究 小时内上线。 f a s t ( a l l t l l e w 曲) 公司创立于1 9 9 7 年,是挪威科技大学( n m u ) 学术研究的副产 品。1 9 9 9 年5 月,发布了自己的搜索引擎a l l t h e w e b 。f a s t 仓j 立的目标是做世界上最大 和最快的搜索引擎。f a s t ( a l l t h 舒w e b ) 的网页搜索可以利用o d p 自动分类,支持f l a s h 和p d f 搜索,支持多语言搜索,还提供新闻搜索和f i p 搜索等,拥有极其强大的高级 搜索功能。( 2 0 0 3 年2 月2 5 日,f a s t 的互联网搜索部门被o v 积w e 收购) 。 g i g a b l a s t 由前i n f o s e e k i 程师m a t tw i l l s 创立,2 0 0 2 年3 月展示p r e - b e t a 版,2 0 0 2 年7 月2 1 日发布b c t a 版。# g a b l a s t 的数据库目前仍偏小,但也提供网页快照。 1 9 9 9 年出现的g o o g l c 【6 】。g o o g l e 在p a g e r a n k 、动态摘要、网页快照、多文档格 式支持、多语言支持、用户界面等功能上的革新,像a l t a “s t a 一样,再一次永远改 变了搜索引肇的定义。 之后,搜索引擎渐渐成为了互联网经济的亮点,各大公司都投入了大量的研发, 竞争激烈,据不完全统计,目前因特网上已有上百个商用搜索引擎。除t g o o g l e 之外,全球主要的搜索弓l 擎还有微软的n l s n 、百度等。 在国内,1 9 9 6 年张朝阳创立的s o h u 公司提供了和y a h o o 类似的分类目录检索服 务,是中国出现的最早的提供互联网信息检索的公司。 1 9 9 7 年l o 月2 9 h ,“天网”搜索引擎正式在c e r n e t 上提供查询服务,受到了 学术界的广泛好评。 2 0 0 0 年1 月,前i n f o s e e k 资深工程师李彦宏与好友徐勇归国创业,创立了百度 ( b a i d u ) 公司,从开始时只为其它门户网站如搜狐、新浪、t o m 等提供搜索引擎 技术服务,到2 0 0 1 年1 0 月2 2 日正式发布百度搜索引擎,它是目前国内最大的中文 搜索引擎。2 0 0 5 年8 月,百度在纳斯达克上市,成为2 0 0 5 年全球资本市场上最为引 人注目的上市公司,中国的搜索引擎市场也由此进入了一个崭新的阶段。 目前,国内的搜索引擎主要以g o o g l e 和百度为主,这两家搜索引擎现在除了提 供常规的搜索网页之外,还提供了一些特殊功能,如博客搜索、地图搜索、学术 搜索、天气预报、火车车次搜索等,越来越方便人们的网络生活。 搜索引擎技术成为了学术界研究的一个热点,n e c 美国研究生的s t e v e l a w r e n c e 和c l e eg i l e s l 9 9 8 年和1 9 9 9 年连续两年在自然和科学杂志上撰文 对搜索引擎技术的研究进行评述。著名的信息检索会议t r e c 也从1 9 9 8 年开始增加 了w e bt r a c e 课题,以考察w e b 文档与其它类型文档在检索性质上的不同之处,并 将测试在大规模的w e b 库上进行信息检索的算法性能。另外如i e e e 主办的国际万 维网会议、人机交互会议也有越来越多关于搜索引擎技术研究的文章发表。此外 关于w e b 挖掘、机器学习、自然语言处理、图像处理模式识别等领域的研究给搜索 引擎的设计提供了源源不断的理论基础。 6 北京交通大学硕士学位论文 搜索引擎技术研究 2 1 2 搜索引擎分类 搜索引擎并没有一个精确的定义,一般来讲,按照信息搜集方法和服务提供方 式的不同,搜索引擎系统可以分为三大类1 7 1 ; ( 1 ) 目录式搜索引擎 以人工或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要, 并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和 直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高, 缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的 代表是y a h o o 、l o o k s m a r t 等。 ( 2 ) 机器人搜索引擎 由一个称为蜘蛛( s p i d e r ) 的机器人程序以某种策略自动地在互联网中搜集和 发现信息,由索引器为搜索到的信息建立索引,由检索器根据用户的查询输入检 索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该 类搜索引擎的优点是信息量大、更新及时、无需人工干预,缺点是返回信息过多, 有很多无关的信息,用户必须从结果中进行筛选。这类搜索引擎的代表是a l t a v i s t a 、 e x c i t e 、i n f o s e e k 、g o o g l e ,百度等。 ( 3 ) 元搜索引擎 这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递 交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用 户。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使 用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是w e b c r a w l e r 、 i n f o m a r k e t 等。 除了以上三大类搜索引擎外,还有以下几种非主流形式: ( 1 ) 集合式搜索引擎 h o t b o t 在2 0 0 2 年底推出的引擎就是一个典型代表,该引擎类似m e t a 搜索引 擎,但区别在于它不是同时调用多个引擎进行搜索,而是由用户从提供的4 个引擎 当中选择,因此叫它“集合式”搜索引擎更确切些。 ( 2 ) 门户搜索引擎 其典型代表是a o ls e a r c h 、m s ns e a r c h 等,它们虽然提供搜索服务,但自身既 没有分类目录也没有网页数据库,其搜索结果完全来自于其他引擎。 ( 3 ) 免费链接列表( f r e ef o r a l ll i n k s ,简称f f a ) 这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规 模比起y a h o o 等目录索引来要小得多。 7 北京交通大学硕士学位论文 搜索引擎技术研究 2 1 3 搜索引擎性能指标 衡量搜索引擎的性能指标,主要由以下几个方面组成: ( 1 ) 收录范围 虽然数量多并不能确保查询质量也一定高,但是查询结果可能会比较完整。就 收录项目而言,许多搜索引擎不仅收集一种资源,有时还收录多种不同资源供使 用者选取查询。一般来说,收录项目越多对于查询就越方便,因为使用同一套指 令就可以查询多种数据库。就索引深度而言,有些系统是将全文建立索引,有些 则是选择其中部分信息建立索引,索引深度越深,查询就能越详尽。就新颖性及 更新频率而言,所收录的资源是否新颖以及是否经常更新,都会影响到查询结果 的正确性。就索引建立的方式而言,现有的搜索系统多半采用自动化的索引建立 方式,因此在维护资料上可以节省人力,但是以目前的技术而言,想要以自动化 的方式做到去其糟粕、取其精华还有一定的距离,而以人工建立索引的方式在数 据质量上较易掌握。如分类目录这类搜索系统就无法完全依赖自动化索引系统。 自动化的索引程序只能协助前半部分的资料收集工作,之后还是得由人工逐一筛 选。 ( 2 ) 检索功能 i n t e r a c t 资源搜索系统所提供的检索功能,其实和传统网上数据库大同小异,前 者虽然缺乏某些复杂的功能,但也具备一些先进的功能。每种搜索引擎所提供的 检索功能虽然略有不同,但都大致包含布尔逻辑、词组查询、相近检索等功能, 或进一步提供相似性反馈信息、关键词检索、自然语句输入等较先进功能,同时 对于大小写及特殊符号等的处理,每个系统也略有差异【8 】。 ( 3 ) 检索结果的显示 查询结果的输出方式也是评价的重点之一,因为输出方式不好会阻碍浏览的效 果,例如相关性排序,i n t e m e t 上资源庞大,若查询结果只能按字母顺序显示,势 必耗费大量时间和精力去浏览。目前一些搜索引擎系统所采用的方式,即是根据 资源与查询的相关性来排序,最相关的资料就会排在最前面。又如有些系统允许 使用者自定义资料显示的数量,可节省浏览时间。而显示资料的详细程度也会影 响资料的参考价值网。 此外,目前的搜索系统在查询结果时都会以超链接的方式展现,因此使用者可 以在查到结果后,立即链接获取原始文件或档案。 ( 4 ) 检索效率 虽然目前搜索引擎系统的检索速度都相当快,但检索效率并不一定能有相同的 表现。在评价检索效率时,可由召回率( r e c a l lr a t i o ) 、精度( p r e c i s i o nr a t i o ) 、 北京交通大学硕士学位论文 搜索引擎技术研究 反应时间( r e s p o n s et i m e ) 以及联机容易程度( a c c e s s i b i l i t y ) 等方面加以考虑。 召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检 索系统( 搜索引擎) 的查全率;精度是检索出的相关文档数与检索出的文档总数 的比率,衡量的是检索系统( 搜索引擎) 的查准率。对于一个检索系统来讲,一 般召回率和精度不可能两全奇美:召回率高时,精度低,精度高时,召回率低。 对于搜索引擎系统来说,因为没有一个搜索引擎系统能够搜集到所有的w 曲网页, 所以召回率很难计算,目前的搜索引擎系统都非常关心精度。 ( 5 ) 使用者接口 使用者接口的设计也是评价一个搜索引擎的重要因素,因为设计不良,即使查 询功能再多、再好,也可能无法吸引大众使用。一般而言,搜索系统的使用者接 口是否良好,可以从直观上判断其是否易于使用。此外,搜索引擎是否提供辅助 说明( 如指令的使用) ,是否提供f a q 之类的文件( 如介绍系统特色) ,是否考虑到 文字模式的使用者环境等都是参考因烈1 0 l 。 事实上,在使用搜索引擎时,我们会发现,即使我们查询相同的关键词,在不 同的搜索引擎上,返回的结果往往会大不相同。这主要是因为每种搜索引擎的软 件设计方法都不大相同。此外,每种查询需求所适用的范围也不相同。 影响一个搜索引擎系统性能的因素有很多,最主要的是信息检索模型,包括文 档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序 方法和用户进行相关度反馈的机制。 2 2 搜索引擎相关原理 2 2 1 搜索引擎的工作原理 当用户利用搜索引擎搜索信息对,搜索引擎并不是立即去搜索互联网,它搜索 的实际上是预先整理好的网页索引数据库。几乎所有的搜索引擎都采用三种方式 来获取数据,即基于网络蜘蛛( s p i d e r ) 的搜索技术,基于目录导航方式和建立在 独立搜索弓i 擎之上的元搜索引擎。 9 北京交通大学硕士学位论文 搜索引擎技术研究 由于网络蜘蛛搜索引擎具有信息量大、更新及时、毋需人工干预等优点而发展 迅速。当前绝大多数的搜索引擎都属于网络蜘蛛搜索引擎,图2 1 说明了网络蜘蛛 搜索引擎的工作原理。 图2 1 搜索引擎的工作原理 f i g2 - 1t h et h e o r yo f s e a r c he n g i 首先数据采集模块负责从w w w 上收集信息,它通过网络蜘蛛按照一定的规律 和方式对网络上的各种信息资源进行搜索,并将搜索到的页面信息存入到一个临 时数据库中;文档组织和索引模块将由网络蜘蛛采集到的网页以及相关描述信息 进行索引,经过整理形成各种倒排文档,相应地建立起索引数据库。查询服务模 块提供检索界面,接受用户提出的检索任务,并根据要求访问相应的索引数据库, 并将结果集按相关度返回给用户。 实际上搜索引擎可以被看成是一个双层c l i e n t s e r v e r 结构体系,当用户访问搜 索引擎时,用户端客户机向搜索引擎提出检索请求,搜索引擎为服务器,检索自 己的索引数据库,并将检索结果以应答的形式提交给用户。当搜索引擎采集数据 时,搜索引擎为客户机,向i n t e m e t 上的各种资源提出搜索请求;i n t e m e t 上的各种 资源系统是服务器,将有关数据作为应答提交给搜索引擎。对于元搜索引擎,则 是向其他搜索引擎的数据资源提出请求,这时其他被访问的搜索引擎可以认为是 元搜索引擎的服务器 2 2 2 信息的索引和存储 对网络蜘蛛抓取下来的信息要进行提取和存储,然后才能为搜索引擎所使用。 网络蜘蛛抓取下来的只是h t m l 页面,这些页面必须经过索引器进行处理。 索引器的功能就是理解网络蜘蛛所搜集的信息,从中抽取出索引项,用于生成 索引文件。根据网络视频搜索引擎的特点,需要提取的信息包括视频标题、视频 1 0 北京交通大学硕士学位论文搜索引擎技术研究 简介、视频标签、视频长度、视频点击次数、视频u r l 等,这些信息能够反映视 频的基本属性。索引器首先利用正则表达式匹配算法,来提取网页中的上述信息, 然后存储到数据库中,最后索引器再根据数据库中的信息,通过l u c e n e 来进行索 引,生成l u c e n e 索引文件,保存到硬盘上。 在索引器中,对于中文网页来说,自动分词处理程序是必不可少的,中文信息 处理具有以下特殊性和难点: ( 1 ) 汉字字符数量多、编码方式复杂; ( 2 ) 中文词的处理比较复杂。 汉语的基本独立单位是字,具有一定语义的最小单位是词。词由单个或多个字 构成。汉语中常用的词有几万条,现代汉语词典中收录的词就达到六万个之多, 中文词的使用灵活、变化多样,例如同样的两个连续汉字,在有的句子中构成一 个词,而在另外的句子环境中却可能不构成词。处理中文信息的难点在于汉字的 书写习惯,汉语系统中,书写以句子为单位,句问有标点隔开。要对中文文档进 行基于词的处理,必须先要进行词的切分处理,以正确的识别出每一个词,因此, 搜索引擎中必须要有中文分词模块来对中文进行处理。 所谓分词,就是将一个完整的句子划分为一个个词条( t o k e n ) 的过程。这种 词条应当满足某种语言规则,以便于为其建立索引,只有通过这样的方式,才能 完成对一种语言的分析和检索。 对于英文来说,分词是一件很容易的事,因为空格就是它们天然的分隔符,在 分词的时候很容易根据英文文本中的分隔符为之切分出一个个的单词来。然而对 于中文来说,情况就复杂多了。中文是世界上最复杂的语言之一,语义的变换无 穷和句型结构的不规整使得中文分词一直以来都是一件相当困难的事情。 中文分词通常有以下几种方式: ( 1 ) 单字切分 单字切分,就是按照中文一个一个字地进行分词,以这样方式切分出来的词再 进入索引,称为字索引。显然,这不是一种很好的分词方式,因为随着索引的增 加,相应索引条目的内容会不断增加,严重影响效率。 ( 2 ) 二分法 这一种方式就是无论什么词,都使用二分法来进行切分,也就是每两个词进行 一次切分。这种切分方式完全不考虑词义、语境,机械地对语句进行处理,根据 这样的分词效果建立起来的索引会存有大量的垃圾词汇,有些可能是用户根本不 可能检索的词,因此,它也不是一种最好的方式。 ( 3 ) 词库分词 一直以来,词库分词被认为是最理想的一种中文分词方式。所谓词库分词其实 北京交通大学硕士学位论文 搜索引擎技术研究 就是用一个已经建立好的词的集合( 按某种算法) 去匹配目标,当遇上集合中已 经存在的词时,就将之切分出来。 2 2 3 信息的检索和输出 此模块负责接收用户的请求输入,并将结果排序,以固定的格式输出。 检索器的功能是根据用户的查询关键词在索引数据库中快速检索出与之相符 的网页的u r l ,并对将要输出的结果进行排序。 用户接口的作用是输入用户的查询要求,然后显示查询结果。用户输入接口可 以分为简单接口和高级接口,简单接口只提供用户输入查询关键词的文本框;高 级接口可以让用户对查询进行扩展,如选择关键词出现的位置等信息,还可以利 用a j a x 技术在用户输入关键词的同时给予提示。 系统在建立好索引以后可以对用户的查询做出响应,该响应过程通过检索来实 现。检索的目的就是要为用户提供高效、高质量的检索结果。检索步骤如下: ( 1 ) 用户输入关键词; ( 2 ) 系统根据关键词检索索引; ( 3 ) 找到跟关键词匹配的信息; ( 4 ) 将搜索到的结果信息按照得分排序; ( 5 ) 返回前n 个作为结果。 2 3 搜索引擎发展趋势 搜索引擎已经成为一个新的研究、开发领域。因为它要用到信息检索、人工智 能、计算机网络、分布式处理、数据库、自然语言处理等多个领域的理论和技术, 所以具有综合性和挑战性。又由于搜索引擎有大量的用户,有很好的经济价值, 所以引起各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活 跃,并出现了很多值得注意的动向。 ( 1 ) 提高信息查询结果的精度,提高检索的有效性 用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少,而是看结 果是否和自己的需求吻合。对于一个查询,传统的搜索引擎动辄返回几十万、几 百万篇文档,用户不得不在结果中筛选,解决查询结果过多的现象目前出现了几 种方法:一是通过各种方法获得用户没有在查询语句中表达出来的真正用途,包 括使用智能代理跟踪用户检索行为,分析用户模型;使用相关度反馈机制,使用 北京交通大学硕士学位论文搜索引擎技术研究 户告诉哪些搜索引擎文档和自己的需求相关( 及其相关的程度) ,哪些不相关,通 过多次交互逐步求精;二是用正文分类( t e x tc a t e g o r i z a t i o n ) 技术将结果分类,使 用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别;三是进行站点 类聚或内容类聚,减少信息的总量。 ( 2 ) 基于智能代理的信息过滤和个性化服务 信息智能代理是另外一种利用互联网信息的机制,它使用自动获得的领域模型 ( 如w 曲知识、信息处理、与用户兴趣相关的信息资源、领域组织结构) 、用户模 型( 如用户背景、兴趣、行为、风格) 知识进行信息搜集、索引、过滤( 包括兴 趣过滤和不良信息过滤) ,并自动将用户感兴趣的、对用户有用的信息提交给用户。 智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从而提供个性化 的服务,它可以在用户端进行,也可以在服务器端进行。 ( 3 ) 采用分布式体系结构提高系统规模和性能 搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有千 秋。但当系统规模达到一定程度( 如网页数量达到亿级) 时,必须要采用某种分 布式方法,以提高系统性能。搜索引擎的各个组成部分,除了用户接口之外,都 可以进行分布,搜索器可以在多台机器上相互合作、相互分工进行信息发现,以 提高信息发现和更新速度;索引器可以将索引分布在不同的机器上,以减小索引 对机器的要求;检索器可以在不同的机器上进行文档的并行检索,以提高检索的 速度和性能。 ( 4 ) 专业化搜索引擎 由于搜索引擎具有不同的用户群体,而这些群体的搜索目的又大不相同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论