已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)基于本体的专业搜索引擎的研究与设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着互联网信息的飞速增长,越来越多的人选择搜索引擎作为网络信息获取的主要 手段。然而互联网上的信息浩如烟海,内容庞大,如何准确、全面的获取特定领域的网 络信息成为搜索引擎研究的重点。为用户提供特定信息服务的专业搜索引擎正好符合这 一发展需求,因此近些年来得到了迅猛的发展。 本文首先介绍了搜索引擎及本体相关技术,重点研究了专业搜索引擎与元搜索引 擎,分析了元搜索技术与本体技术相结合构建专业搜索引擎的意义。本文采用元搜索技 术在一定程度上弥补传统搜索引擎的不足,扩大了搜索范围和提高了查全率。本文在元 搜索引擎基础上,引入本体概念,在对目前主要的本体构建方法进行分析比较后,提出 了一种适合培训领域本体构建的方法,并使用p r o t 6 9 3 3 1 构建培训领域本体。由于本 体是对领域知识概念的抽象和描述,可以使信息检索从基于关键字上升到基于语义检 索,进而提高了检索的查准率。 最后将构建的本体引入到培训领域的信息检索中,设计了一个面向培训领域的基于 本体的专业搜索引擎,通过对返回结果的分析和评价,得出本专业搜索引擎比传统搜索 引擎具有更高的查全率和查准率。 关键词:本体,专业搜索引擎,元搜索引擎,语义相似度 a b s t r a c t w i t ht h er a p i dg r o w t ho fi n t e r n e ti n f o r m a t i o n ,m o r ea n dm o r ep e o p l ec h o o s es e a r c h e n g i n ea st h ec h i e f m e a n so fa c c e s st on e t w o r ki n f o r m a t i o n s i n c et h ei n t e m e ti ss t u f f e dw i t h v a s ti n f o r m a t i o n ,h o wa c c e s st ot h en e t w o r ki n f o r m a t i o ni ns o m es p e c i f i ca r e a sa c c u r a t e l ya n d c o m p r e h e n s i v e l yh a sb e c o m et h ef o c u so fs e a r c he n g i n e ss t u d y t h ep r o f e s s i o n a ls e a r c h e n g i n e sw h i c hp r o v i d es p e c i f i ci n f o r m a t i o ns e r v i c ef o ru s e r si si nl i n ew i t l lt h ed e v e l o p m e n t n e e d s s oi th a sb e e nr a p i d l yd e v e l o p e di nr e c e n ty e a r s t h i sp a p e rf i r s t l yi n t r o d u c e dt h es e a r c he n g i n ea n do n t o l o g y - r e l a t e dt e c h n o l o g i e s , f o c u s e do n p r o f e s s i o n a l s e a r c h e n g i n e s a n dm e t a - s e a r c he n g i n e s ,a n d a n a l y z e dt h e s i g n i f i c a n c eo fb u i l d i n gp r o f e s s i o n a ls e a r c he n g i n ew i t hm e t a - s e a r c ht e c h n o l o g ya n do n t o l o g y t e c h n o l o g y t h ea d o p t i o no fm e t a s e a r c ht e c h n o l o g yo f f s e tt h es h o r t a g eo ft r a d i t i o n a ls e a r c h e n g i n et os o m ee x t e n t ,a n de n l a r g e ds e a r c hr a n g ea n dr e c a l lr a t i o o nt h eb a s i so fm e t a s e a r c h e n g i n e s t h ec o m p o s i t i o ni n t r o d u c e dt h ec o n c e p t i o no fo n t o l o g y c o m p a r e dw i t ht h er e c e n t c h i e fm e a n st oc o n s t r u c to n t o l o g y , a no n t o l o g yc o n s t r u c t i o nm e t h o ds u i t a b l ef o rt r a i n i n gf i e l d w a sp r o p o s e d m e a n t i m e ,p r o t 6 9 63 3 1w a su t i l i z e dt oc o n s t r u c to n t o l o g yf o rt r a i n i n gf i e l d b e c a u s eo n t o l o g yi st h ea b s t r a c t i o na n dd e s c r i p t i o no ff i e l dk n o w l e d g ec o n c e p t i o n , s o i n f o r m a t i o ns e a r c hc o u l db eu p g r a d e df r o mk e y w o r d - - b a s e ds e a r c hu pt os e m a n t i c - b a s e d s e a r c h a sar e s u l t ,t h ep r e c i s i o nr a t i oh a sb e e ne n h a n c e d f i n a l l y , t h ec o n s t r u c t e do n t o l o g yw a si n t r o d u c e di n t oi n f o r m a t i o ns e a r c ho ft r a i n i n gf i e l d a p r o f e s s i o n a ls e a r c he n g i n e e rf a c i n g 仃m n i n gf i e l dw a sd e s i g n e db a s e do no n t o l o g y b y a n a l y z i n ga n de v a l u a t i n gt h er e s u l t sf r o mt h es y s t e mr e t u r n e d ,w ec o u l df i n dt h a tt h i s p r o f e s s i o n a ls e a r c he n g i n e e rp r o v i d e dm o r er e c a l lr a t i oa n dp r e c i s i o nr a t i ot h a nt r a d i t i o n a l s e a r c he n g i n e s k e y w o r d s :o n t o l o g y , p r o f e s s i o n a ls e a r c he n g i n e ,m e t as e a r c he n g i n e , s e m a n t i cs i m i l a r i t y i i 西北大学学位论文知识产权声明书 本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校 有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许 论文被查阅和借阅。本人授权西北大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存 和汇编本学位论文。同时授权中国科学技术信息研究所等机构将本学位论 文收录到中国学位论文全文数据库或其它相关数据库。 保密论文待解密后适用本声明。 学位论文作者签名:丝垒茎旦支指导教师签名: 妙u 产6 月沙日硼年6 其f 归 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外, 本论文不包含其他人已经发表或撰写过的研究成果,也不包含为获得西 北大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的 同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 音 思。 学位论文作者签名:盆水。寸 ) 7 年6 月f 汐侣 西北大学硕士学位论文 1 1 论文的研究背景 第一章绪论 二十一世纪,随着网络信息的飞速发展,互联网已经成为人们获取所需资源和信息 交流的主要渠道,然而随着网页信息呈几何级数爆炸性增长,用户要在如此浩瀚的信息 海洋里寻找需要的信息,犹如大海捞针,搜索引擎技术恰好解决了这一难题。搜索引擎 以一定的策略在互联网中搜索、发现信息,对信息进行理解、提取、组织和处理,并为 用户提供检索服务,从而起到信息导航的作用。 目前g o o g l e 、百度等通用搜索引擎【l l 取得了巨大的成功,在一定程度上解决了庞大 的网络信息资源和用户的查询需求之间的矛盾。然而随着互联网上信息数量的不断增 加,人们发现传统的搜索引擎存在许多不足之处【2 】:1 、信息覆盖率低,查全率低;2 、 冗余和噪声信息含量大;3 、每个搜索引擎的信息资源差异大;4 、索引数据库大,更新 慢,响应时问长等。产生这些问题的原因主要是由于传统的搜索引擎本身发展的局限性 带来的:第一,传统搜索引擎由于受自身搜索机制、搜索算法等因素限制,搜索网页的 覆盖率有限。据权威统计,目前搜集网页最多的搜索引擎a l t a v i s t a 也只能达到信息量的 4 0 左右【3 】:第二,不考虑特定用户,尤其是对于特定领域、特殊专业的用户的需求; 第三,传统搜索引擎信息检索都建立在关键词的基础之上,然而对计算机而言,这些关 键词几乎没有任何语义,这也是目前信息检索技术存在的最大缺陷。目前,尽管在关键 词的基础上对检索技术做了许多改进,但也仅仅是算法和语法上的改进,并没有添加任 何处理语义方面的机制,检索的性能不能得到本质的提高,所提供的信息检索查准率难 以令人信服。 针对以上这些问题,未来的搜索引擎总体来讲发展趋势大致为以下几个方向【4 】: 1 智能化 智能搜索引擎【5 1 是以自然语言理解技术为基础,结合了人工智能技术的新一代搜索 引擎。如果计算机实现了机器翻译、人机对话功能,或自动文摘等语义信息处理功能, 则认为计算机具备了自然语言理解的能力。由于它将信息检索技术从目前基于关键词层 面提高到基于知识和概念层面,对知识具有一定的理解与处理能力,并能够实现自动分 词技术、同义词识别技术、概念搜索、短语识别以及机器翻译等技术。因而这种搜索引 第1 章绪论 擎具有信息服务的智能化、人性化等特征,允许采用自然语言进行信息的检索。目前智 能搜索引擎的研发方向主要有两个:一是基于机器翻译技术,利用计算机实现自然语言 之间的转换,用户可以使用母语搜索非母语的网页,并以母语的方式浏览搜索结果;二 是基于语义的理解技术,通过搜索引擎技术与语义学的结合,开发检索词专用词典或是 通过全文扫描和词语间关系的分析,实现搜索引擎对搜索关键词在语义层次上的理解。 要建立真正的基于自然语言理解的智能搜索引擎系统,还存在很多的技术难点,例如: 如何正确理解自然语言及其所代表的实际含义;如何根据具体问题找出用户实际想要的 答案;如何实现合理的推理计算方法:如何建立大规模的知识库等等。 2 个性化 目前各大门户网站的个性化技术已经比较成熟了,但是搜索引擎的个性化【6 】还远远 没有得到很好的发展。不同的人使用相同的检索关键词得到的结果都是相同的,也就是 说搜索引擎没有考虑到人的地域、性别、年龄、兴趣等个性方面的差异。搜索引擎个性 化的核心是通过跟踪和分析用户的搜索行为,充分利用这些信息来提高用户的搜索效 率。通过对用户的查询计划、意图、兴趣方向进行推理来预测用户的目的,并为他们提 供有效合理的答案。个性化搜索引擎使用自动获得的知识进行信息搜集过滤,并自动地 将用户感兴趣的信息提交给用户,这种搜索行为分析技术是一种正在发展中的、很有前 途的搜索引擎人机交互技术。 3 本地化, 本地化搜索是从2 0 0 4 年开始,到今年在美国的高速发展已经让人惊讶和赞叹。 g o o g l e 和雅虎都推出了能根据地区搜索的本地化搜索,丰富的信息配上强大的地图功 能,一下子把跟自己息息相关的信息展现在面前,这种感觉要比看新闻更让客户感觉到 亲切。本地化在给人们带来更多实用信息的同时,通过地域化分割无疑把搜索引擎市场 又迅速扩大了无数倍,这也是g o o g l e 等投以重金的理由,搜索的本地化已经势不可挡。 4 专业化 针对结果信息多而不精的现状,搜索引擎正在向专业化的专业型方向发展。它的定 位是检索要求输入和素材及查找都面向某些特定用户、面向专业领域、面向细致的主题。 综合性搜索引擎收录各方面、各学科、各行业的信息,而专业化搜索引擎【7 】贝0 是为了专 门收录某一行业、某一主题和某一地区的信息而建立,非常实用。 2 西北大学硕十学位论文 上述四种发展趋势中,专业化搜索引擎以其特有的优势正在被普遍应用于互联网 上,如一些特定的搜索服务提供商提供的面向行业企业的搜索一慧聪网络搜索、面向 i t 资源的搜索一天极网搜索引擎等等。本文就是出于对教育培训领域用户的信息检索 需求考虑,在深入研究了本体论【8 1 和搜索引擎的基础上,构建了一个面向培训领域的基 于本体的专业搜索引擎。 1 2 论文研究意义 专业搜索引擎是面向某一专业领域或学科领域的信息资源进行检索。专业领域的人 们希望能有一种搜索引擎可以智能的在互联网上搜索本领域相关的信息资源,能够为某 学科信息门户、特定行业领域、专业的信息机构等在内的信息用户提供整套的网络信息 资源,方便该领域的用户使用和研究。就专业搜索引擎的服务目的而言,它主要面向专 业用户,向他们提供所在领域的专业信息检索。但是传统的通用搜索引擎根本不能满足 此类用户的信息需求。就搜索方式而言,一方面专业搜索引擎可以采用某一策略判断相 关网页的位置优化爬虫算法1 9 1 ,使得搜索爬虫能够获得某一领域更多的网络信息资源。 另一方面可以采用元搜索引擎【1o 】的搜索结果来提高搜索范围,然后对结果集进行专业相 关度处理。因此专业搜索引擎对特定领域信息具有更宽的搜索覆盖率和更高的敏感度, 使得返回的专题信息更加精准,更能满足专业用户的信息需求。 本文在搜索方式上使用后者,即使用元搜索技术来提高搜索范围。通过元搜索引擎 的方式,在一定程度上弥补了传统搜索引擎的不足。元搜索引擎将现有的多个独立搜索 引擎看成是一个整体,为用户提供一个统一的查询界面,用户的查询请求由元搜索引擎 根据其引擎信息库中的信息转换成多个成员搜索引擎能识别的格式,然后按照一定的成 员搜索引擎的调度策略,把转换后的查询请求分送到各成员搜索引擎,由成员搜索引擎 完成实际的查询,最后元搜索引擎在收集到各个成员搜索引擎返回的查询结果后,进行 比较分析处理,再以统一的格式返回给用户。利用元搜索引擎完成信息资源的搜索,既不 需要使用复杂的检索爬虫机制,也不需要建立和维护庞大的索引数据库,这相对于通用 搜索引擎可以减少很多成本。然而要把精力集中在对成员搜索引擎的搜集和选择上,还 有对查询结果进行优化合成处理。对用户来讲,元搜索引擎提供了一种能够同时查询多 个搜索引擎的集成机制,将各个搜索引擎的网址、接口和查询语法格式等细节屏蔽起来, 3 第1 章绪论 从而简化和减轻了用户的操作负担,提高了查询的查全率。同时在元搜索引擎提高查全 率的基础上,我们引入本体概念,使信息检索从基于关键字上升到基于语义的检索。本 体作为一种人与机器、机器与机器之间语义交流的渠道,具有良好的概念层次结构和对 逻辑推理的支持,因而在信息检索中,特别是在基于知识的检索中得到了广泛的应用。 对于w e b 搜索来说,通过本体的定义,搜索程序可以进行基于语义的精确搜索而不是 模糊的关键词搜索,势必会提高查准率【1 1 】。 本文将元搜索技术和本体技术很好的结合起来,通过元搜索技术提高搜索的查全 率,本体技术又提高了信息搜索的查准率。 1 3 论文的主要工作 本文介绍了搜索引擎及本体的相关概念,重点研究了专业搜索引擎与元搜索引擎, 分析了元搜索技术与本体技术相结合构建专业搜索引擎的意义。本文采用元搜索技术在 一定程度上弥补传统搜索引擎的不足,扩大了搜索范围和提高了查全率。然而元搜索引 擎只能从独立搜索引擎那里获取查询结果,而独立搜索引擎提供给元搜索引擎的可用信 息非常少,所以目前的元搜索引擎在结果排序时大都采用基于关键字及位置排序算法 【1 2 】。显然,这些算法存在着许多的弊端。因此本文在元搜索引擎基础上,引入本体概念, 在对目前主要的本体构建方法进行分析比较后,提出了一种适合培训领域本体构建的方 法,并使用p r o t 6 9 63 3 1 构建培训领域本体。最后将构建的本体引入到培训领域的信息 搜索中,建立了基于本体的专业搜索引擎,并对检索结果进行了初步验证和分析。本文 的主要工作具体如下: 1 首先对传统搜索引擎进行深入研究,发现导致其检索效率低下的根本原因是其 在检索过程中采用的基于关键字匹配的检索方式。通过进一步分析得出只有将语义信息 加入到信息检索中才能从根本上解决传统搜索引擎查全率和查准率低下的问题,并且针 对目前海量信息的现状引入了元搜索的概念。 2 深入研究了本体的概念理论以及相关技术,包括本体的构建规则、构建方法、 描述方法等。 3 将本体技术与元搜索技术相结合构建专业搜索引擎,研究了基于本体的专业搜 索引擎的实施过程、体系结构及其关键技术。 4 西北大学硕士学位论文 4 在分析现有的本体构建方法的基础上,提出了一种适合培训领域本体构建方法, 并使用p r o t e g e 3 3 1 构建了培训领域本体。 5 在构建的领域本体基础上,设计了一个面向培训领域基于本体的专业搜索引擎, 并对系统中主要环节作了功能定义和详细描述。 1 4 论文的组织结构 第一章,绪论。介绍本文的研究背景和意义,以及论文的主要工作和论文内容的组 织。 第二章,搜索引擎技术研究。概述了传统搜索引擎、元搜索引擎及专业搜索引擎的 结构原理和研究现状,以及他们在各自发展过程盛遇到的问题,着重讨论了元搜索引擎 。 及专业搜索引擎的优缺点及存在的必要性。 第三章,本体技术研究。介绍了本体的基本概念和理论,具体包括本体的定义、本 体建模元语、本体的描述语言、本体的分类及本体在信息检索领域的应用。 第四章,领域本体构建。介绍培训领域的本体构建技术,结合实际,提出培训领域 本体建模流程,进行领域本体实例建模,并采用o w l 对实例本体形式化编码。 第五章,系统结构设计。设计与实现了一个面向培训领域的专业搜索引擎系统,给 出了系统总体框架以及各个模块的主要功能,并对其中主要的几个模块的实现进行了详 细的描述,最后对系统运行结果进行分析。 第六章,总结与展望。对本文所做的研究工作进行总结,并对今后工作进行展望。 5 第2 章搜索引擎技术研究 2 1 搜索引擎 第二章搜索引擎技术研究 搜索引擎技术是目前人们公认的最有效的信息获取手段之一,它利用信息采集程序 夜以继日的在互联网上进行网页抓取,将收集到的网页进行分析归类后保存到服务器 中,建立索引,并利用高效算法对用户的检索结果进行排序后提供给用户。 2 1 1 搜索引擎的发展历史 搜索引擎作为网络信息查询工具,它以一定的策略在互联网上搜集、发现信息,对 信息进行理解、提取、组织和处理,并为用户提供信息检索服务【1 3 】。搜索引擎的祖先是 19 9 0 年由m o n t r e a l 的m e g i l lu n i v e r s i t y 学生a l a ne m t a g e 、p e t e rd e u t s c h 、b i l lw h e e l a n 发明的a r c h i e 14 1 。当时w o r l dw i d ew e b 还未出现,a r c h i e 是第一个能自动索引互联网 上匿名f t p 网站文件的程序,但它还不能算是真正意义上的搜索引擎。a r c h i e 实际上只 是一个可搜索的f t p 文件名列表,用户必须输入精确的文件名搜索,然后a r c h i e 会告 诉用户哪一个f t p 地址可以下载该文件。 由于专门用于信息检索的r o b o t 程序像蜘蛛( s p i d e r ) - - 样在网络间爬来爬去,因此, 搜索引擎的r o b o t 程序被称为s p i d e r 程序。世界上第一个s p i d e r 程序,是m i tm a t t h e w g r a y 的w o r l dw i d ew e bw a n d e r e r ,主要用于追踪互联网的发展规模。刚开始它只是用 来统计互联网上的服务器数量,后来则发展为也能够捕获网址( u r l ) 。 1 9 9 3 年2 月,6 名斯坦福大学生提出了新的分析字词关系,以对互联网上的大量信 息作更有效的检索,这就是e x c i t e 。后来曾以概念搜索闻名,2 0 0 2 年5 月,被i n f o s p a c e 收购的e x c i t e 停止自己的搜索引擎,改用元搜索引擎d o g p i l e 。 1 9 9 4 年4 月,斯坦福两名博士生,美籍华人杨致远和d a v i df i l o 共同创办了雅虎。 随着访问量和收录链接数的增长,y a h o o 目录开始支持简单的数据库搜索。因为它的数 据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。 i n f o s e e k 是一个重要的搜索引擎,虽然公司声称1 9 9 4 年1 月已创立,但直到年底 它的搜索引擎才与公众见面。起初,i n f o s e e k 只是一个很不起眼的搜索引擎,它沿袭 y a h o o 和l y c o s 的概念,并没有什么独特的创新。但是后来受到的众口称赞证明,i n f o s e e k 6 西北大学硕十学位论文 友善的用户界面和大量附加的服务是其它搜索引擎所不具有的。而1 9 9 5 年1 2 月与 n e t s c a p e 的战略性协议,使它成为一个强势搜索引擎,当用户点击n e t s c a p e 浏览器上的 搜索按钮时,弹出i n f o s e e k 的搜索服务,而此前该服务是由y a h o o 提供。 1 9 9 5 年1 2 月,d e c 的a l t a v i s t a 的出现,使它迅速到达当时搜索引擎的顶峰。 a l t a v i s t a 最突出的优势在于它的速度,而a l t a v i s t a 的另一些新功能,则永远改变了搜 索引擎的定义。a l t a v i s t a 是第一个支持自然语言搜索的搜索引擎,a l t a v i s t a 是第一个实 现高级语法搜索的搜索引擎,如a n d ,o r ,n o t 等。用户可以用a l t a v i s t a 搜索新闻 组的内容并从互联网上获取文章,还可以搜索图片名称中的文字、搜索t i t l e s 、搜索 j a v a a p p l e t s 、搜索a c t i v e xo b j e c t s 。a l t a v i s t a 也声称是第一个支持用户自己向网页索引 库提交或删除u r l 的搜索引擎,并且能在2 4 小时内上线。 在1 9 9 8 年1 0 月之前,g o o g l e 只是斯坦福大学的一个小项目b a c k r u b 。1 9 9 5 年博 士生l a r r yp a g e 开始学习搜索引擎技术,于1 9 9 7 年9 月1 5 日注册了g o o g l e t o m 的域 名。1 9 9 7 年底,在s e r g e yb r i n 和s c o t th a s s a n 、a l a ns t e r e m b e g 的共同参与下,b a c h _ r u b 开始提供d e m o 。1 9 9 9 年2 月,g o o g l e 完成了从a l p h a 版到b e t a 版的升级,g o o g l e 公 司则把1 9 9 8 年9 月2 7 日认作自己的生日。g o o g l e 在p a g e r a n k 、动态摘要、网页快照、 d a i l y r e f r e s h 、多文档格式化支持、地图、股票、词典、寻人等集成搜索、多语言支持、 用户界面等功能上的革新,像a l t a v i s t a 一样,再一次永远改变了搜索引擎的定义。 近几年,搜索引擎在互联网中的应用占据越来越重要的位置。从全球搜索引擎的竞 争格局上看,目前全球搜索引擎市场经过激烈的竞争和淘汰,呈现出g o o g l e 、y a h o o 、 m s n 三足鼎立的局面【1 5 】。而国内,百度一军突起,占领大部分市场份额,下来就是 g o o g l e 、y a h o o 、搜狐、网易、新浪和中搜等。 2 1 2 搜索引擎的结构和原理 传统搜索引擎一般由网络爬行机器人、网页分析器、索引系统、检索系统、用户接 口五部分【1 6 】组成,结构如图2 1 所示。 7 第2 章搜索引擎技术研究 图2 - 1 搜索引擎框架结构 网络爬虫:一种网页自动搜索软件,又称为网络蜘蛛。其功能主要是在互联网中漫游, 用来发现和下载信息。它要尽可能多、尽可能快地搜集新信息,并且定期更新旧信息, 避免死链接和无效链接,因此网络爬虫的实现常采用分布式、并行计算技术,以提高信 息发现和更新的速度。在网络爬虫中还有一个辅助系统一u r l 系统,它的任务主要是 向网络爬虫提供u r l 地址。u r l 系统中还包含一个叫做链接描述的文件,它记录一些 链接信息,用于计算网页的重要性,为排序提供依据。 分析器:主要是对网络爬行机器人下载的网页进行分析,用以建立索引库,分析技术一 般包括分词、过期网页过滤和重复网页去重等技术。 索引器:知识库往往很大,不便查询,为此需要对知识库建立索引。其功能是理解知识 库中的信息,从中抽取出索引项,生成索引表。索引器可以使用集中式索引算法和分布 式索引算法。大型搜索引擎的索引器往往还包含若干模块:桶、字典、文件索引等【1 7 1 。 检索器:主要是把搜索到的网页进行排序。网页是按一定的顺序提供给用户的,一般每 个网页都有一个值,表示这个网页的重要性,称为r a n k 值。网页就是按照r a n k 值从大 到小排序的。如何计算r a n k 值,有不同的算法,而且要考虑各个方面对网页重要性的 影响。典型的r a n k 算法有g o o g l e 的p a g e r a n k 。 用户接口:搜索引擎一般为用户提供可视化接口,查询输入和结果输出界面。在查询输 入界面中,用户按照搜索引擎的语法格式输入检索关键词及各种检索条件;在查询结果 输出界面中,搜索引擎将检索到的结果按线性的文档列表输出显示,每个文档一般都包 括一个文档标题,摘要和链接地址信息。 8 西北大学硕士学位论文 搜索引擎的工作原理最初起源于传统的信息全文检索理论,即计算机通过扫描每一 篇文章中的每一个词,然后建立以词为单位的排序文件,检索程序根据检索词在每一篇 文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章 进行排序,最后输出排序结果。 2 1 3 搜索引擎分类 搜索引擎可以有多种分类方法,按照检索方式,大致分为三类【1 8 】:全文搜索引擎、 目录式搜索引擎和元搜索引擎,分别介绍如下: 1 全文搜索引擎:首先通过网络爬虫自动分析网络上的各种链接并获取网页信息内 容,然后按规则加以分析整理,由索引器为搜索到的信息建立索引,再由检索器根据用 户的查询输入检索索引库,最后将查询结果返回给用户。此类搜索引擎搜索的优点是信 息量大,更新及时,几乎不需要人工的干预。缺点是信息量虽然很大,但是这些返回的 信息中含有较多的无关信息,必须用分析器对机器人返回结果进行二次处理和排序,由 于分析器能力有限,因此给查询用户返回很多无关信息,需要用户在结果中进行处理。 g o o g l e 、百度就是比较典型的全文搜索引擎系统。 2 目录式搜索引擎:是通过人工的方式收集整理网站信息形成数据库,然后利用传 统的图书资料分类方法,将w e b 资源进行分类组织,依靠编目人员的知识进行分类,并 建立一套完整的目录体系。y a h o o 是典型的目录式搜索引擎,它将相关主题的站点组成 一个层次化结构的目录树。y a h o o 的目录结构是由人工来建立,分类标准按照内容、地 名、名称以及字母顺序等符合人们使用习惯的概念来构造。国内的搜狐也采用了树形结 构来对站点进行层次式结构分类。这种树形的分类方式符合人们逐层缩小范围的查询过 程。目录式搜索引擎的优点是结构清晰:符合人们的使用习惯,而且加入了人的智能, 因此提高了信息的准确度。不足之处在于:( 1 ) 需要大量的人力来搜集整理信息,这样 不可避免的加大了人工维护代价,而且信息资源不能及时更新;( 2 ) 主题的分类具有很 大的模糊性和主观性。对于使用者来说,可能会出现并不知道所要查找的信息属于何种 分类;( 3 ) 有些领域的信息可能不易分类,或者难以将这些偏僻的领域信息归入到某个 分类中,这样就不能全面反映互联网上的信息;( 4 ) 站点的主题内容的概括依赖于编目 人员的个人水平,具有一定的主观性。 9 第2 章搜索引擎技术研究 3 元搜索引擎:被称为搜索引擎之上的搜索引擎。通过统一的接口向多个成员引擎 发送请求,调用成员搜索引擎返回的搜索结果,而无需自己建立和维护庞大的索引数据 库。当一个查询请求到来时,元搜索引擎自身并不做任何处理,而是按照各个成员引擎 的查询格式作相应的转换之后再分发到各个成员搜索引擎,各成员引擎的参数信息可以 帮助元搜索引擎进行引擎的选择和协调,当各个成员引擎返回结果之后,元搜索引擎对 这些结果进行处理形成全局按权重排序的序列,最后再输出给用户。 2 2 元搜索引擎 元搜索引擎与独立搜索引擎的主要区别在于:首先,元搜索引擎没有自己独立的信 息采集机制,即爬虫程序,所有的网络信息资源都来自于独立搜索引擎检索的结果;其 次,一般的元搜索引擎也没有自己的数据库及索引库,因此不需要保存每次检索的结果。 他们提供统一的界面以及统一的检索方式,用户输入查询关键字,他们分别向独立的成 员搜索引擎发送查询请求,独立搜索引擎将检索结果返回给元搜索引擎,此时元搜索引 擎按照一定的方式对这些结果进行整理排序后显示给查询用户。 2 2 1 元搜索引擎结构及原理 元搜索引擎是建立在搜索引擎基础之上的搜索引擎,它通过接口向多个成员引擎发 送请求,调用成员搜索引擎返回的搜索结果,而无需自己建立和维护庞大的索引数据库。 一般的元搜索引擎主要由三部分组成【1 9 】:显示模块、检索模块以及搜索请求模块。元搜 索引擎系统框架如图2 2 所示。 成 查询分员 g o o g l e 用 发机制引 擎 m o o 户 接 界 ii口 面i 结果合l l l j 代 1 i 成机制r li 理 百度 图2 - 2 元搜索引擎系统框架 1 0 西北大学硕士学位论文 查询分发机制 查询分发机制也称为成员调度机制,它的主要任务是将用户的查询请求分发给选定 的成员搜索引擎。通常元搜索引擎在分发前需要对成员引擎进行调度,选择适合该查询 请求的成员引擎来为用户执行查询服务。如果能够通过分析用户的兴趣和网络的实际情 况来实时选择成员引擎,更有利于提高查询的准确度和响应速度。查询分发机制是元搜 索引擎的关键技术之一。 成员引擎接口代理 接口代理对查询请求进行格式转换后提交给网络中的成员搜索引擎,成员引擎返回 结果时,接口代理接收并解析返回的结果。 结果合成机制 该模块主要负责对独立搜索引擎返回的结果页面进行结构化分析,抽取结果集,并 对结果集进行二次处理,如删除重复的结果、结果整合、重新排序等,并将处理后的搜 索结果按一定的顺序显示给用户。 这三个模块是元搜索引擎必不可少的部分。具体在设计的时候,我们还可以在这些 模块基础之上添加一些新的模块来实现特殊的功能。 2 2 2 元搜索引擎分类 元搜索引擎可以有多种分类方式,按照检索原理和结果合成方式,可以将元搜索引 擎大致分为以下几类【2 0 】: 1 砧1 i n o n e 元搜索引擎,也称为集成式搜索引擎。这类元搜索引擎只是在其界面 上以任意顺序或分类罗列的方式提供多个搜索引擎的介绍信息和物理链接,可以供用户 选择要搜索的成员引擎。对成员搜索引擎的搜索结果也不做任何处理,只是简单将各个 结果集罗列在一个页面上。这类元搜索引擎没有统一的用户外部接口,而是以各搜索引 擎的检索模式和数据显示格式直接提交给用户。 2 桌面元搜索引擎,这类元搜索引擎是以软件的方式运行在客户端。它直接运行在 用户的个人计算机上,帮助用户向多个成员引擎的服务器提交查询关键字,用户查询时, 它向所调用的成员搜索引擎发送查询请求,然后将查询结果按照一定的集成方式显示给 用户。 第2 章搜索引警技术研究 3 多线索式元搜索引擎,是一种具有典型意义的元搜索引擎。它的使用更加普遍, 其特点是使用方便,操作简单,通过浏览器就可以直接访问。这种元搜索引擎一般都具 有统一的检索界面,能自动进行检索指令的转换,而且具有统一结果合成机制和结果显 示机制。多线索式元搜索引擎代表主要有,如国外的d o g p i l e 、s a v v y s e a r c h 、p r o f u s i o n 、 m a m m a 等,国内则有万纬搜索( w w w w i d e w a y c o m ) 。 2 2 3 元搜索引擎评价指标 元搜索引擎作为一种搜索引擎,具有搜索引擎的一些基本评价指标,如查全率、查 准率、召回率、响应速度、响应时间,用户负担等2 1 1 。但是元搜索引擎之间个体差异很 大,仅用基本指标很难进行精确的评价,因此元搜索引擎的评价主要还依靠下面几个指 标: 1 独立搜索引擎的调度策略:一些元搜索引擎固定调用几个独立的搜索引擎,用户 不能修改。这种方法虽然实现起来比较简便,但是跟不上搜索引擎的发展潮流;另一些 元搜索引擎在高级特性中让用户有选择的调用搜索引擎,这种方法对于不熟悉搜索引擎 的用户来说可能选择不到适合自己需要的搜索引擎。因此实现独立搜索引擎的自动调度 策略是元搜索引擎关键技术之一,必会大大提高系统的查准率。 2 是否提供足够的检索选项:具体包括是否提供高级检索服务,是否可以限定最长 检索时间,是否可以设置每个独立搜索引擎返回的结果数量,是否可以设置每页显示的 结果数目等。这些都是比较灵活的选项,检索选项越多,用户使用起来就会越方便。这 也是衡量元搜索引擎性能的一个评价标准。但是由于元搜索引擎的检索特性向它所调用 的独立搜索引擎检索特性的转换具有一定的复杂性,许多元搜索引擎目前还不提供复杂 的检索特性。 3 对搜索结果的处理能力:对独立搜索引擎返回结果的处理能力是评价元搜索引擎 性能的又一重要指标【2 2 1 ,包括结果的处理和显示。 4 相关度评价:每个搜索引擎为了将最满意的结果放到最前面,不遗余力地创建出 各种相关度指标体系,虽然没有一种方法是完美的,但都有创新和独到之处。 1 2 西北大学硕士学位论文 2 3 专业搜索引擎 专业搜索引擎也叫垂直搜索引擎f 2 3 1 ,是相对通用搜索引擎的信息量大、查询不准确、 深度不够等问题提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定专 业人群或某一特定需求提供的有一定价值的信息和相关服务。 2 3 1 专业搜索引擎的特点 专业搜索引擎是专为查询某一特定领域的信息而产生的信息搜索工具。由于专业搜 索引擎只提供领域内的信息查询,如何判断信息是领域相关的是专业搜索引擎研究的关 键,这就要求搜索爬虫在网络上进行信息采集时,必须采用专业性更高的搜索策略。搜 索爬虫按照预先规定的专题去采集网上相关信息,可以减少采集的信息数量,提高索引 数据库中的信息质量f 2 4 1 f 2 5 】。专业性搜索引擎具有以下特点: 1 领域范围小,信息量相对较小,可以保证用专家分类标引的方法对采集到的信 息进行组织整理,从而进一步提高信息的质量,这样可以建立起一个高质量、专业信息 收录全、能够实时更新的索引数据库。 2 词汇量小,专业搜索引擎只涉及某一个或几个特定领域,这样可以降低词汇和 用语的一词多义的概率,而且可以利用专题词表进行规范和控制,从而大大提高信息搜 索的查全率。 3 准确率高,可以聘请专业人员对用户的专题检索提供网上咨询和网上讲解,从 而提高查询语句的明确性和精度,使查询结果的准确率大大提高。 4 数据库及索引数据库的规模小,有利于缩短相应的查询时间,还可以采用复杂 的查询语法,提高用户的查询精度 2 3 2 专业搜索引擎的工作原理 首先利用特定的爬虫程序按照一定搜索算法自动从i n t e m e t 上获取信息资源。为体 现专业搜索引擎的专业性,再按照专题要求进行人工分类,建立索引,将索引好的内容 存放到本地数据库。这种计算机自动搜索与人工分类相结合建立的搜索引擎后台数据 库,既能及时更新网上随时变动的信息,又能使用户按照科学的分类体系准确的查询到 满意的信息。针对专业搜索引擎,对传统搜索引擎基本结构做如下改进【2 6 】: 第2 章搜索引擎技术研究 1 搜索器:改进爬虫程序,使它按照预先已经定义好的专题有选择性的收集相关 的网页,不需要搜索所有的w e b 网页,并且分析它的搜索范围,找到最相关的链接, 避免不相关的w e b 网页。由于专业搜索引擎涉及的信息范围要小的多,所以可以节省 大量的硬件成本,提高信息提供的质量,并有能力跟踪每一个相关网页,迅速发现和收 集网上新加入的信息和被删除的信息,使得信息保持实时更新。 2 索引器:对搜集到的信息进行准确的分类和标引是搜索引擎中最为重要的一步。 在传统搜索引擎中,对信息的分类标引主要有自动和人工两种。自动分类标引速度快, 但精确度不高;人工分类标引精确度高,但更新速度太慢。而专业搜索引擎索引器因为 所涉及的领域比较小,信息量相对较小,所以完全可以把这两种方法很好的结合起来, 在自动分类标引的过程中加入人工智能,利用专家的智能对信息进行分类标引,提高信 息的质量【2 7 1 。 2 3 3 专业搜索引擎研究现状 目前专业搜索引擎的研究是信息检索领域的一个热点,下面介绍一些具有代表性的 专业搜索引擎系统: 1 e l s e v i e r 的s c i m s 系统:s c i r u s 是一种专为搜索高度相关的科学信息而设计的搜 索引擎,曾获得2 0 0 1 年搜索引擎观察授予的“最佳专业搜索引擎奖”。s c r i u s 是目 前互联网上最全面的、综合性最强的科技文献门户网站之一。它主要面向包含有科学内 容的网站,如大学和作者个人主页以及e l s e v i e r 自己的数据库。 2 b e r k e l e y 的f o c u s e dp r o j e c t - 该系统是通过分类器和净化器来指导爬行器。分类 器用来计算下载文档与预定主题的相关度;净化器用来确定那些指向很多相关资源的页 面。 3 n e c 研究院的c i t e s e e r :c i t e s e e r 是一个非常有名的针对计算机科学领域论文的 检索系统。c i t e s e e r 的核心是a c i ( a u t o m a t i c a l l yc i t a t i o ni n d e x ) ,它可以自动地对网上 的电子文件( p o s t s c r i p t 和p d f 等格式) 进行索引并分类。 4 美国国家科学数字图书馆的c 0 1 1 e c t i o nb u i l d i n gp r o g r a m ( c b p ) :这个系统主要为 科学、数学、工程和技术创建大规模的在线数字图书馆,试图研究在某一主题上资源自 动建设的可能性。 1 4 西北大学硕士学位论文 从2 0 0 7 年4 月开始,中国互联网中专业搜索领域也开始有了较大的发展,相继出 现了以下几种较为有名的专业搜索引擎:( 1 ) 以奇虎w w w q i h o o c o m 为代表的论坛搜索; ( 2 ) 以酷讯w w w k t m x u n g n 为代表的生活搜索;( 3 ) 以音速w w w a n y s o t o m 为代表的商 业搜索;( 4 ) 以去哪儿w w w q u n a r c o m 为代表的旅游搜索;( 5 ) 以百度m p 3 b a i d u c o r n 为 代表的音乐搜索;( 6 ) 以搜职+ w w w g l o b e h r c o m 为代表的招聘搜索;( 7 ) 以视频搜索 w w w o p e n v t v 为代表的娱乐搜索等。 2 4 本章小结 本章详细介绍了搜索引擎、元搜索引擎及专业搜索引擎的一些相关技术,包括搜索 引擎的发展和工作原理和评价指标,并根据现在i n t e r n e t 的发展,指出现有的搜索引擎所 存在的一些问题,为本文的下一步研究奠定了很好的基础。 1 5 第3 章本体技术研究 第三章
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 文学短评写作教学设计案例
- 医院护理人员岗位职责及流程
- 新形势下劳动关系法律应对策略
- 护理药理学重点知识归纳
- 医用简易呼吸器使用安全规范
- 企业校企合作绩效考核标准与执行方案
- 企业标准工时管理实施细则
- 第二次月考综合测评卷(5-6单元测试)2025-2026学年六年级语文上册(统编版)
- 面制品添加剂使用规范与检测标准
- 2025年煤矿带班领导安全培训试卷及答案:安全生产培训教材编写与审核
- 采购部新员工培训手册
- 2025年龙门式加工中心或龙门式卧式铣床项目可行性研究报告
- 雨雪冰冻灾害现场处置标准操作
- DB31T 1596-2025电子材料共享应用技术规范
- 2025年湖南海利高新技术产业集团有限公司三季度公开招聘(宁夏有岗)笔试历年参考题库附带答案详解
- 2025年化工工程承包行业研究报告及未来发展趋势预测
- 室外消防管网施工方案
- 集贸市场监控施工方案
- 警犬喂养知识培训课件
- 2025年中国酒店行业白皮书-
- 2025年体彩中心人力资源部门招聘考试试题集
评论
0/150
提交评论