(计算机应用技术专业论文)基于深度网络的信息检索模型研究.pdf_第1页
(计算机应用技术专业论文)基于深度网络的信息检索模型研究.pdf_第2页
(计算机应用技术专业论文)基于深度网络的信息检索模型研究.pdf_第3页
(计算机应用技术专业论文)基于深度网络的信息检索模型研究.pdf_第4页
(计算机应用技术专业论文)基于深度网络的信息检索模型研究.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(计算机应用技术专业论文)基于深度网络的信息检索模型研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理工大学硕士学位论文 摘要 在i n t e r a c t 快速发展和普及的时代,人们对信息存取的理解和要求不同于以 前,希望方便快速地获取大量而准确的信息。越来越多的传统资源正在向 i n t e r n e t 上转移,网上资源数量急剧膨胀,传统的资源检索方式已经无法满足人 们对信息检索的需求。网络搜索引擎( w e bs e a r c he n g i n e ) 因其强大而易于使 用的功能,成为了人们在组织和检索i n t e r n e t 信息资源时最常用的工具。然而由 于深度网络( d e e pw e b ) 的存在,常规的网络搜索引擎并不能发现所有存在于 i n t e r a c t 上的信息。因此,从深度网络的特点和常规网络搜索引擎的缺陷出发, 研究深度网络信息资源的组织和检索方法,对i n t e r a c t 信息资源的组织与检索具 有很大的意义。 本文从i n t e r a c t 信息资源的现状入手,系统地、深入地分析了现阶段深度网 络信息资源的分布特点以及其组织模式,针对常规网络搜索引擎存在的信息覆 盖率问题,设计并实现了一个可以收集更多网页的网络爬虫深度爬虫,并 在此基础上提出了一个针对深度网络的信息组织与检索的模型。主要工作包括: 分析当前常规搜索引擎的不足,认为由于网络爬虫的缺陷导致其信息覆盖率不 高;分析当前深度网络中信息资源的特点;针对深度网络提出信息组织和检索 模型,对模型的功能和目标进行定义;分析深度网页的获取方式,设计并实现 基于i d 3 分类算法的深度爬虫;提出几种可以改进网页获取效率的改进措施; 改进了中文分词算法;结合全文检索技术实现了一个原型系统。实验结果表明, 该原型系统是有效的。 , 关键词:信息检索;深度网络;检索模型;搜索引擎 武汉理工大学硕士学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n ta n dd i f f u s i o no fi n t e r n e t ,p e o p l eh a v ed i f f e r e n t u n d e r s t a n d i n ga n dr e q u i r e m e n t sa b o u ti n f o r m a t i o na c c e s sc o m p a r e dw i t ht h ep a s t t h e yn e e dm o r ea c c u r a t ea n dr a p i da c c e s st os u b s t a n t i a li n f o r m a t i o no nt h ew e b m o r ea n dm o r et r a d i t i o n a lr e s o u r c e sa r eb e i n gt r a n s f e r r e dt ot h ei n t e r n e t ,w h i c hl e a d t ot h er a p i de x p a n s i o no ft h en u m b e ro fo n l i n er e s o u r c e s h o w e v e r ,t h et r a d i t i o n a l r e s o u r c e sr e t r i e v a lm e t h o d sc a n n o tm e e tp e o p l e sr e q u i r e m e n t s a si t sp o w e r f u la n d e a s y - t o u s e rf e a t u r e s ,w e bs e a r c he n g i n ei s t h em o s tf r e q u e n t l yu s e dt o o lf o r i n f o r m a t i o no r g a n i z a t i o na n dr e t r i e v a l h o w e v e r , c o n v e n t i o n a lw e bs e a r c he n g i n e s c a nn o tf m da l lt h ei n f o r m a t i o no nt h ei n t e r n e tf o rt h ee x i s t e n c eo fc e r t a i nr e s o u r c e s k n o w na sd e e pw e b t h e r e f o r e ,t a k i n gt h eh i d d e nr e s o u r c e sb e h i n dt h ed e e pw e ba s as t a r t i n gp o i n t ,i ti ss i g n i f i c a n tt os t u d yh o wt of u l l yu t i l i z et h ei n f o r m a t i o no nt h e w 曲 f r o mt h es c e n eo fi n f o r m a t i o nr e s o u r c e so nt h ei n t e r a c t ,t h ep a p e rp e r f o r m e da s y s t e m a t i ca n dd e e pa n a l y s i so nt h ed i s t r i b u t i o na n ds t r u c t u r eo fd e e pw e b t os o l v e t h ep r o b l e mo fl o wi n f o r m a t i o nc o v e r a g eo fc o n v e n t i o n a ls e a r c he n g i n e ,t h ep a p e r d e s i g n e da n di m p l e m e n t e dad e e pw e bc r a w l e rw h i c hc a nd i s c o v e ra n dd o w n l o a d m o r e p a g e sf r o mi n t e r n e t a l s o ,t h ep a p e rp r o p o s e d a ni n f o r m a t i o nr e t r i e v a l f r a m e w o r kb a s e do nt h i sc r a w l e r s t u d i e sc a nb ec o n c l u d e d 弱f o l l o w s : ( 1 ) d e f e c t so faw e bc r a w l e rc a nl e a dt ol o wi n f o r m a t i o nc o v e r a g eo f c o n v e n t i o n a ls e a r c he n g i n e s t h r o u g ha n a l y z i n gs h o r t c o m i n g so ft h e m ( 2 ) s t u d yc h a r a c t e r i s t i c sa n df e a t u r e so fr e s o u r c e sh i d d e ni nt h ed e e pw e b 0 ) p r o p o s ea ni n f o r m a t i o nr e t r i e v a lf r a m e w o r kb a s e do nd e e pw e ba n dd e f i n e i t sp u r p o s e sa n df e a t u r e s ( d e s i g na n db u i l daw e bc r a w l e rf o rd e e pw e ba c c o r d i n gt ot h ep a g e c o l l e c t i n gm e c h a n i s mo fd e e pw e b ( 5 ) i m p r o v e m e n t sa r em a d et ot h ec r a w l e ri no r d e rt oc o l l e c tm o r ep a g e sw i t h f e w e rr e s o u r c e s ( 6 ) p r o p o s eab e t t e ra l g o r i t h mf o rc h i n e s ew o r d ss e g m e n t i n ga n db u i l da n 武汉理工大学硕士学位论文 p r o t o t y p es y s t e mp r o v i d i n ga l le x i s t i n gf u l l - t e x ti n d e x i n gl i b r a r y e x p e r i m e n t a l r e s u l t sp r o v et h a tt h es y s t e mi se f f e c t i v e k e y w o r d s :i n f o r m a t i o nr e t r i e v a l ,d e e pw e b ,r e t r i e v a lm o d e l ,s e a r c he n g i n e n l 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 一晔嗍昔日 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权 保留、送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名: 聊签名照眺掣 武汉理工大学硕士学位论文 1 1 研究背景及意义 第1 章绪论 信息技术使人类走入了信息社会,对网络信息资源的组织和利用是这场信 息革命中不可缺少的重要条件。信息技术不只是基础硬件设施的建设,更重要 的是需要融合人类高级智慧的应用软件,只有重视网络信息资源组织方法的研 究与开发,才能为人们更好地利用信息资源提供切实可行的方案、方法与工具。 2 0 0 8 年1 月发布的第2 1 次中国互联网络发展状况统计报告显示,目 前2 1 亿网民中使用搜索引擎的比例是7 2 4 ,即已有1 5 2 亿人从搜索引擎获 益,半年净增加3 0 8 6 万人。位列网络应用中网络音乐、即时通信、网络影视和 网络新闻之后的第五位,高于电子邮件i l j 。 然而,尽管搜索引擎给人们的i n t e r n e t 生活带来了很多方便,但是与之相 应的网络资源建设现状却不尽人意,冗余、过量的信息使人们难以准确地定位 所需求的信息资源。i n t e r n e t 上存在相当大部分的网页是无法直接通过超级链 接来访问的,特别是存在很多隐藏在各种搜索界面之后的深度网络( d e e pw e b ) , 这些页面必须通过用户使用一些关键词进行查询才能看到。由于常规的搜索引 擎无法模拟人使用各种各样的查询表单,所以也无法收集和索引这些页面,最 终无法显示在用户的搜索结果中。 由于大量的公司和企业把它们需要的信息都放在i n t e r n e t 上,并且这些信 息只能通过查询的方式才能查阅,所以i n t e r n e t 上的深度网络的信息量增长非 常快。有人估计,在i n t e r n e t 上大约存在1 0 0 ,0 0 0 多个深度网络,而且这个数 字一直在不断增大。而且,大多数深度网络提供的信息通常具有很高的质量, 对很多用户很有用【2 。 针对这个问题,本文通过对通用网络搜索引擎网络爬虫( w e bc r a w l e r ) 的研 究,提出了一种可以检索部分深度网络资源的信息检索模型。并通过改进通用 网络搜索引擎的网络爬虫,实现了一个可以自动发现并获取深度网络资源的网 页获取系统深度爬虫( d e e pc r a w l e r ) ,并针对实际应用对网页获取系统进 行了优化,提高了网页获取效率,减少了网络资源开销。实验结果表明,和其 武汉理工大学硕士学位论文 他通用网络搜索引擎相比,模型的检索结果具有更高的网页覆盖率。 本文以可自动发现并下载深度网络资源的网络爬虫深度爬虫的模型设 计和实现为基础,构建了基于深度网络的信息检索模型。与常规网络爬虫依赖 于网络上的超级链接来发现和下载网页,从而无法对深度网络中的信息进行索 引和搜索相比,本文提出的深度爬虫具有如下特点和优势: 1 、用户可获得更多信息。深度爬虫允许用户访问到更大量的、无法被搜索 引擎收集和索引的、被隐藏在深度网络中的信息,提高了所获取的信息的质量 和数量。 2 、增强用户体验。用户为需要寻找特定信息,只需按常规搜索引擎的使用 即可。输入合适的关键词,相关的结果就会显示出来。这为用户免去了需要访 问所有的网站,并且使用每个网站的搜索功能而带来的麻烦。 本研究的意义在于试图通过改进常规网络爬虫的搜索模式,来提高搜索引 擎信息覆盖率高,从而改善搜索引擎的用户体验。同时,本文将i d 3 决策算法 用于网页分类以确定深度网络的存在,对深度网络信息挖掘研究有一定的借鉴 意义。 1 2 研究现状 目前,从国内的情况来看,很少有基于深度网络的信息资源组织与检索的 实际应用研究。近几年来,虽然在信息资源组织的研究方面发表了很多相关的 论文,但大多数都集中于一些理论知识方面,在实际应用中做探讨的文章比较 少,而能够根据理论研究产生实际模型的更少。近几年关于信息资源组织与检 索方面的研究主要集中在以下几个方面: 1 、信息资源组织的基础理论和方法研究。主要包括信息资源组织理论、分 布规律、组织方式等方面的研究。 2 、信息资源组织与管理的研究。主要包括信息组织方法、管理模式等方面 的研究。 3 、信息资源组织的标准化的研究。主要包括信息资源的标准制定、元数据 的应用、元数据的发展趋势等方面的研究。 4 、基于搜索引擎相关的信息检索理论方面的研究。主要包括搜索引擎的原 理、搜索引擎算法的研究。 2 武汉理工大学硕士学位论文 通过这些研究可以看到,国内对于信息资源组织一直保持关注的态度。但 通过对研究内容的分析可以发现,我国对于信息资源组织的研究的创新是相对 较少的。很多研究的对象仍然停留在以前的热点和标准上。对于现阶段信息组 织与检索中的一些新的问题,关注的还是不够。比如,深度网络中的信息资源 问题,现阶段发表的文章只有几篇,没有形成规模。同样,对于像r s s 这样正 在i n t e r n e t 上得到广泛支持与应用的元数据标准,到作者完成初稿时,情报学界 发表的论文也只有几篇。同时,对于信息检索方面,国内的研究比较集中于在 技术和算法上的理论研究。几乎没有人从信息源的角度来考虑信息检索的问题。 从国外的情况来看,对信息资源的研究比较多,对于看不见的网站的也有 较深入的研究,在理论上和实际系统上都有不少的成果。但研究的对象基本上 是基于英文的信息资源,对中文信息资源的考虑比较少,也少见在中文信息资 源深度搜索的应用成果。 1 3 本文主要研究工作 本文通过研究深度网络中信息资源的组织与检索方式,提出一种基于深度 网络的、旨在提高搜索引擎覆盖率的信息检索模型。 信息组织方式是指深度网络中信息的发现、获取和表示,检索方式包括搜 索方法和结果表示。本文的主要研究工作包括:分析常规搜索引擎存在的缺陷 及其原因;分析当前深度网络存在的形式、特点以及研究利用深度网络中信息 资源的必要性;设计并实现将非结构化、非规范化的h t m l 文件转换为标准 x m l 数据格式文件;结合i d 3 决策算法设计实现一个针对深度网络的网络爬虫 深度爬虫;利用此爬虫和l u c e n e 工具包构造一个基于深度网络的信息组织 和检索模型。 为实现以上研究目标,本文采用调查研究方法、比较法、文献调查法、定 量与定性研究相结合等方法,通过学术交流,不断跟踪学术研究前沿。 1 、实际调查。调查深度网络中信息资源组织的现状,跟踪网络动态信息, 开展大量相关的搜索引擎的实际调查分析,掌握第一手原始资料。 2 、文献研究。阅读信息组织与搜索引擎方面的论著,汇集并分析关于搜索 引擎性能的论述与数据。了解新的信息、新的技术,在把握和比较同类研究成 果的基础上,寻找本文研究的创新点与突破点。 3 武汉理工大学硕士学位论文 3 、理论探讨与实践验证相结合。针对本文提出的理论模型,通过实践进行 验证。在实现应用的过程中,遇到问题并解决问题,以此对理论模型进行调整 和改进。 4 、应用大量已有的成果和资源。在研究过程中引用了许多宝贵的资源,包 括不可或缺的基础模块中文自动分词技术。另外,本文还用到了许多设计 规范、运行高效、源码开放的优秀组件和框架,如n e k oh t m l p a r s e r 、j t i d y 、 l u c e r i e 、j d o m 、j s p 等。 1 4 本文结构 全文共分6 个部分,各部分内容安排如下: 第一章、简要阐述研究基于深度网络的信息组织及检索方式的背景和意义。从 目前网络信息检索现状入手,说明当前深度网络的特点和国内外近年相关研究 内容和进展。 第二章、介绍网络信息组织和检索理论以及网络搜索引擎的相关背景知识。分 析了两种最基本的信息组织的结构:网站目录的等级主题结构和搜索引擎的倒 排索引结构,并指出后者正成为i n t e r n e t 上的基础应用。 第三章、讨论常规搜索引擎的缺陷和深度网络的产生和定义。主要分析现有搜 索引擎的不足之处以及原因,提出网络爬虫的改进方案深度爬虫。 第四章、深度网络检索模型的提出和建立。提出了一个解决常规搜索引擎信息 覆盖率问题的模型,对其功能和目标、原理以及系统框架做了详细的介绍。 第五章、模型中关键技术的讨论。对深度网络检索模型所涉及的关键技术的解 决方案做了进一步探讨,并给出核心部分模型的实现细节。 第六章、总结研究工作并得出可行性结论,分析下一步研究工作的方向。 4 武汉理工大学硕士学位论文 第2 章网络信息组织相关研究 2 1 网络信息组织和检索概述 2 1 1 信息组织的功能 信息组织是指用科学的方法,将处于无序的状态的信息,按照一定的原则 和方法,使其成为有序状态的过程,也称为信息序化或信息整序。它通过揭示 信息内在的逻辑联系,对信息进行加工,整理,提炼,使之系统化,浓缩化, 从而便于人们有效利用和传递。信息组织,又称信息资源组织,是根据信息资 源检索的需要,以文本及各种其他类型的信息源为对象,通过对其内容特征等 的分析、选择、标引、处理,使其成为有序化集合的活动【4 1 。 信息组织在信息管理流程中处于“承上启下 的地位。“承上”是指将收集 到的原始数据进行加工和处理:“启下 意即为信息检索提供最大的便利。 信息组织的功能是建立起信息资源收集系统和检索工具,方便信息资源的 开发和利用。 2 1 2 网络信息资源的特点 。 i n t e r a c t 作为数字化、网络化信息的核心和集成,与传统的信息媒体和信息 交流渠道相比有很大的不同。 总的来说,网络信息资源有如下特点【5 】: 1 、无限性和广泛性 信息资源极其丰富,覆盖面广,涵盖了各个学科领域,而且种类繁多,几 乎无所不包。i n t e m e t 连接了数以亿计的承载了各种信息的主机,信息容量几乎 是无限大。 2 、多样性 超文本、多媒体、集成式地提供信息,除了文本信息之外还有图表、图形、 图像、声音等形式。 3 、廉价性 5 武汉理工大学硕士学位论文 i n t e r n e t 信息资源大多是免费提供的,用户只需要支付定的通信费用。 4 、共享性 由于信息存储形式及技术结构具有通用性、开放性和标准化的特点,信息 在时间和空间范围内得到了最大程度的延伸和扩展。 5 、实时性 与传统的印刷型信息资源不同,i n t e r n e t 信息资源具有出版周期短,时效性 强等特点。一般情况下,网页的更新频率要高于普通媒体。 6 、无序性 信息来源分散、无序,没有统一的管理机构,也没有统一的发布标准。 7 、交互性 网络信息资源往往以多媒体的交互形式表现出来,不仅集中了语言、非语 言信息符号,又超越了传统的信息组织方式。 2 1 3 网络信息组织与检索的现状 网络信息资源的组织,就是指人们根据网络信息资源本身的特点或属性, 运用各种工具和方法,对网络信息进行加工、整理、排列、组合,使之有序化、 系统化、规律化,从而有利于网络信息的存储、传播、检索、利用,以满足人 们对网络信息需求的过程。 按照检索工具的类型分,i n t e r n e t 信息组织类型包括网页目录、数据库、元 数据和网络搜索引擎。 1 、网页目录 又称为站点分类目录,它是由网络开发者将网络资源收集后,以某种分类 体系进行组织加工和整理而形成的结构式目录。 网页目录一般是通过引导网络用户的查询概念来帮助用户找到所需的信 息,随着目录类范畴的不断缩小,用户越来越接近查询的目标。 网页目录有多种形式,从分类学的角度来看,其形式有主题分类法、学科 分类法和体系分类法【6 】。 网页目录一般由人工编制,在信息的采集和处理上需要投入大量的人力和 时间,这可以在一定程度上保证资源的质量和权威性。然而,受到人工处理的 限制,网页目录中包含的信息量并不大,而且更新速度慢。 2 、数据库组织方式 6 武汉理工大学硕士学位论文 数据库组织方式,是将某学科或某领域所有获得的信息资源按照固定的记 录格式存储组织,用户通过关键词查询找到所需要的信息线索和相关站点链接, 再通过信息线索连接到相应的网络信息资源。 数据库技术是对大量的规范化数据进行管理的技术。因为数据库的最小存 取单位是字段,可根据用户需求灵活地改变查询结果集的大小,从而降低了网 络传输的负载。数据库方式极大提高了大量结构化数据的处理效率以及信息处 理更加规范化,因而成为广泛的网络信息资源组织方式。但数据库技术的应用 要求用户掌握一定的检索技巧,包括关键词的选择。此外,这种方式处理的对 象通常是结构型的,以数值形式为主的数值类型,对于非结构化的信息,例如 网络的页面信息,不能提供数据之间的知识联系,无法有效地处理结构日益复 杂的信息单元,并且缺乏直观性和人机交互性。 3 、元数据组织方式 元数据是用来揭示和描述某种类型资源的属性,并对其资源进行定位和管 理。同时有助于数据检索的数据。元数据具有数字资源描述功能,整合功能, 控制功能,代理功能和保存功能。在网络信息资源组织方面,具有描述,定位, 搜索,评估,选择的作用。元数据有利于网上信息资源的存取与检索,有利于 形成高质量,高智能的情报检索系统。满足用户准确,快速获取资料的需求, 并能够主动地参与网络信息资源的组织与控制。 4 、搜索引擎的信息组织方式 搜索引擎是从传统的信息检索系统发展而来的i n t e r n e t 信息检索工具。它从 i n t e r n e t 上接收用户的查询请求( 通常是查询关键词) ,在建立起的索引中进行 检索,然后向用户提供相关信息所在的网址。搜索引擎一般包括信息收集、索 引建立、索引检索和用户交互共四个部分。 按照信息的组织方式分类,目前i n t e m e t 上的搜索引擎大致可分为三类1 7 j : 分类目录式搜索引擎。这类搜索引擎主要采用人工方式建立和维护其分类 目录。通过人工读取网页,按照某些分类形式组织信息资源,并提供相应目录。 用户在利用目录式搜索引擎时,不需输入关键词,只需选择相关的主题类别, 逐层展开分类目录浏览查询,直到找到所需的信息为止。 关键词式搜索引擎。关键词搜索引擎主要采用自动搜索和标引方式来建立 和维护其索引数据库,用户查询时,可以用逻辑组合方式输入各种关键词,搜 索引擎通过特定的检索软件,查找其索引数据库,给出与检索相匹配的检索结 7 武汉理工大学硕士学位论文 果,供用户浏览。 元数据引擎。元数据引擎又称集合式搜索引擎,它将多个搜索引擎集成在 一起,并提供统一的检索界面,省去了用户在各搜索引擎分别查找的不便。当 用户将检索要求提交给元搜索引擎后,它就将这个检索要求同时交给多个独立 的搜索引擎进行查找,对结果进行加权等处理后返回用户。元数据引擎克服了 用户面对众多搜索工具的无所适从,省去了记忆多个搜索引擎地址的不便。 搜索引擎的局限性在于其检索结果的准确性不够,检索噪声太大,用户需 要花费较多的时间和精力在大量的检索结果中挑选。 2 2 网络环境下信息检索模式的研究 在迅速发展的网络环境中,信息具有前所未有的多样性,这使信息的有效 管理与共享面临着很大困难。信息需求向纵横两方面日益的加深和扩展,要求 信息服务必须改变以往的服务模式,使传统的信息组织模式( 如图书馆、档案 馆等) 受到了严峻的挑战。因此,信息组织模式必须进行根本的改进和发展, 才能适应和满足新环境下信息资源组织的发展和需求。 本章将解析网络信息检索模式的含义并分析其构成要素及其特征,指出先 进的网络信息组织模式应具有的功能,对目前较成功的网络信息组织模式进行 系统的分析,并从网络信息资源查找方式的角度出发,把网络信息资源的组织 归纳为两种不同的模式:基于浏览的网站目录模式和基于检索的搜索引擎模式。 2 2 1 网络信息资源的检索模式 一般来说,用户主要采取两种方式检索i n t e m e t 上的信息,它们分别是基于 浏览的方式和基于关键词的方式【6 】。 基于浏览的检索方式又可以分为不依靠任何检索工具的浏览和借助检索工 具的浏览。 不依靠任何检索工具是指用户在浏览网页的时候,利用网页中的超级链接 从一个网页转向另一个相关网页,在新的网页中重复相同动作,直到找到需要 的结果网页。这种方式可能在很短的时间内获得大量的相关信息,但是也可能 逐渐偏离检索目标,最终迷失在网络中。它主要适合用于延伸已有的信息范围、 跟踪新的信息和信息调研等检索目的。 8 武汉理工大学硕士学位论文 借助检索工具可以更快地接近检索目标。常见的基于浏览的检索工具有 y a h o o ( h t t p :s e a r c h y a h o o c o r n ) 和g o o g l e 目录( h t t p :d i r e c t o r y g o o g l e c o r n ) , 它们都是以分类目录的形式进行组织和浏览的。用户事先必须知道要检索的信 息是属于哪个类别,然后沿着该类别从大类到小类逐层地浏览和查找。此类检 索工具的优点是检索质量较高,因为目录通常是由各个学科的专业人员编制, 分类合理,信息资源的质量较高。不足之处在于可检索的信息数量有限和实时 性不高。 基于浏览的检索方式的本质是超文本链接的访问和导航。用户一方面可以 采取传统方式对各个文件中的信息依次进行阅读和查找,另一方面,也可以根 据网页之间的超级链接关系进行浏览。 对于关键词检索模式,首先对大量文档建立由字词到文档的索引库,然后 根据用户指定的关键词对索引库进行检索,最终将相关的文档信息返回给用户。 和基于浏览的检索方式相比,使用关键词进行检索的优点包括较高的检索效率 和很好的时效性。 基于关键词的检索工具中最具有代表性的是搜索引擎,它是一种基于全文 索引的关键词检索工具,非常适合对大规模的文本数据进行组织和检索。 从网络信息资源查找方式的角度出发,可以把网络信息资源的组织归纳为 两种不同的模式:基于浏览的网站目录模式和基于关键词检索的搜索引擎模式。 2 2 2 搜索引擎技术及原理 随着i n t e r n e t 的迅猛发展,网络信息资源的数量急剧增长,传统的目录分类 检索方式已经不能满足人们的需求。人们对大范围和海量的网络信息进行检索 的需求非常迫切,于是搜索引擎诞生了。它以一定的策略在i n t e r n e t 中搜集和发 现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而 起到信息导航的目的。 能够获得网站网页资料,建立数据库并提供查询的系统,我们都可以把它 叫做搜索引擎。按照工作原理的不同,可以把它们分为两个基本类别:全文搜 索引擎( f u l lt e x ts e a r c he n g i n e ) 和分类目录( d i r e c t o r y ) 。 全文搜索引擎的数据库是依靠一个称为网络爬虫( w e bc r a w l e r ,s p i d e r ) 的软件,通过网络上的各种链接自动获取大量网页信息内容,并按一定的规则 分析整理形成的。例如,a s k c o m ( h t t p :w w w a s k t o m ) 、g o o g l e 9 武汉理工大学硕士学位论文 ( h t t p :w w w g o o g l e c o r n ) 和百度( h t t p :w w w b a i d u c o m ) 都是比较典型的全文 搜索引擎系统。 分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎 中国以及国内的搜狐、新浪和网易的分类目录。另外,在网上的一些导航站点, 也可以归属为原始的分类目录,比如“h a 0 1 2 3 网址之家一 ( h t t p :w w w h a 0 1 2 3 c o r n ) 。 全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎因为依靠软件 进行,所以数据库的容量非常庞大,但是查询结果往往不够准确;分类目录依 靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常 有限。为了取长补短,现在的很多搜索引擎都同时提供这两类查询,一般对全 文搜索引擎的查询称为搜索“所有网站”或“全部网站 ,比如g o o g l e 的全文 搜索;把对分类目录的查询称为搜索“分类目录 或搜索“分类网站 ,比如新 浪搜索( h t t p :s c a r c h s i n a c o m c n ) 和雅虎中国搜索( h t t p :c n y a h o o c o r n ) 。 在i n t e r a c t 上,对这两类搜索引擎进行整合,还产生了其它的搜索服务,主 要有两类: 1 、元搜索引擎( m e t as e a r c he n g i n e ) 这类搜索引擎一般都没有自己的网络爬虫及数据库,其搜索结果是通过调 用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面 集中显示。元搜索引擎虽没有网络爬虫,也无独立的索引数据库,但在检索请 求提交、检索接口代理和检索结果显示等方面,均有其研发的特色元搜索技术。 比如“m e t a f i s h e r 元搜索引擎( h t t p :c o o h s f z n e t f i s h ) 就调用和整合了g o o g l e 、 y a h o o 、a l l t h e w e b 、百度和o p e n f i n d 等多家搜索引擎的数据。 2 、集成搜索引擎( a 1 1 i n o n es e a r c hp a g e ) 集成搜索引擎是通过网络技术,在一个网页上链接很多个独立搜索引擎, 查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询,搜索结果 由各搜索引擎分别以不同页面显示,比如“百狗( h t t p :w w w b a i g l e c o r n ) 。 搜索引擎的实现原理,可以看作四步:从i n t e r a c t 上收集网页一建立索引数 据库一在索引数据库中搜索一对搜索结果进行处理和排序。 1 、从i n t e m e t 上收集网页 利用能够从i n t e r a c t 上自动收集网页的网络爬虫程序,自动访问i n t c r n e t , 并沿着任何网页中的所有u r l 爬到其它网页,重复这过程,并把爬过的所有网 1 0 武汉理工大学硕士学位论文 页收集到服务器中。 2 、建立索引数据库 由索引系统程序对收集回来的网页进行分析,提取相关网页信息( 包括网 页所在u r l 、编码类型、页面内容包含的关键词、关键词位置、生成时间、大 小、与其它网页的链接关系等) ,根据一定的相关度算法进行大量复杂计算,得 到每一个网页针对页面内容中及超链中每一个关键词的相关度( 或重要性) ,然 后用这些相关信息建立网页索引数据库。 3 、在索引数据库中搜索 当用户输入关键词搜索后,分解搜索请求,由搜索系统程序从网页索引数 据库中找到符合该关键词的所有相关网页。 4 、对搜索结果进行处理排序 所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相 关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排名越靠前。 最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返 回给用户。 一个典型的网络搜索引擎系统的工作原理如图2 1 所示: 图2 - 1 典型的网络搜索引擎系统 武汉理工大学硕士学位论文 网页获取及内容解析。网络爬虫从i n t e m e t 上收集网页,把网页中的文本内 容保存到网页文本中,并提取其中的u r l 地址到u r l 数据库,同时从u r l 数 据库中取出未曾访问的u r l ,反复循环直到访问到所有的u r l 地址。同时进 行u r l 信息提取,把链接信息( 包括锚文本、链接本身等信息) 存入u r l 数 据库,为检索过程提供排序依据。 索引建立。分析网页文本中的数据,过滤其中的噪音词语,经过分词、排 序,抽取出索引项,将文档表示成一种便于检索的形式,最终形成索引文件。 索引项有一般索引项和内容索引项两种,前者与文档的语义内容无关,表示客 观的外部属性;而后者用来反映文档的内容。 检索系统。查询解析器将用户提交的查询进行分析和处理,得到索引检索 器能够处理的对象,索引检索器根据关键词和查询要求从索引文件中快速检索 出相关文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并 提取网页的相关内容信息,组织最后的页面返回给用户。 2 3 本章小结 本章介绍了信息组织的功能和方式以及网络环境下的信息资源组织和检索 的特点,分析了网络搜索引擎技术及其基本原理,阐述了网络搜索引擎的特点 和优势,为基于d e e pw e b 的检索模型设计和实现提供了理论依据。 1 2 武汉理工大学硕士学位论文 第3 章搜索引擎的缺陷和深度网络 由于i n t e m e t 的快速发展,搜索引擎已经成为i n t e r n e t 上信息查询与获取的 主要的途径【引。然而,搜索引擎本身也有其缺陷,有越来越多的信息资源无法 使用常规的搜索引擎访问,而这些搜索引擎访问不到的信息资源,有很多都是 很有价值、高度组织过的信息资源,只是由于种种技术和非技术的原因,使得 搜索引擎难以访问得到。对于这些信息资源,常规搜索引擎做得是不够的。 3 1 搜索引擎存在的问题 3 1 1 信息覆盖率问题 实际上,搜索引擎并不能提供对网络最为全面的覆盖。没有任何一个搜索 引擎能够到达每一网站的每一网页,绝大多数引擎只收录网站所有网页的一部 分,原因在于: 第一,网络爬虫不能跟上网络爆炸性的发展速度。每天都有成百上万的新 网页出现在网络上,要找到网上新增的每个网页花费太多的成本和时间。正是 考虑到搜索引擎更新周期的因素,大多数搜索引擎往往不会覆盖所有的网页。 第二,网络爬虫不能找到网上所有的网页。原因主要是没有对这些网页的 链接,而网络爬虫只能靠链接发现网页。一般而言,搜索引擎喜欢搜集静态的 网页,而对于动态的页面( a s p ,j s p ,p h p 等) 则不太愿意搜集。而统计表明, 2 0 0 4 年中国的静态网页与动态网页的比例为1 1 6 :1 ,而截至2 0 0 8 年1 月,该比 例减小为0 9 2 :1 1 , 3 1 。这表明动态网页的数量越来越多。 第三,每个搜索引擎都是独特的、有自己特性的,都遵从不同的搜集信息 原则。这些不同的原则导致了不同搜索引擎的覆盖率有很大的不同,一般来说, 覆盖率的大小是一个搜索引擎性能指标之一。 搜索引擎的信息搜索原则包括: 1 、每个搜索引擎都有其访问网络中网页的周期。何时再次访问同一个网页, 每个不同的搜索引擎都有自己的算法。 武汉理工大学硕士学位论文 2 、技术手段的多样化带给网络爬虫的困难和挑战。网页中使用的框架、 j a v a s c r i p t 实现的链接等技术手段在一定程度上屏蔽了网络爬虫的搜索行为。 3 、网站管理员可能通过机器人排除协议( r o b o t se x c l u s i o ns t a n d a r d ) 来排 斥网页,防止网络爬虫访问或引用某网页川。 3 1 2 更新率问题 由于网站内容的经常性变化,网络爬虫也需不断更新其收集网页的内容。 这就需要网络爬虫按一定周期扫描网站,查看哪些页面是需要更新的页面,哪 些页面是新增页面,哪些页面是已经过期的死链接。 搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期 太长,则总会有一部分新生成的网页搜索不到;周期过短,技术实现会有一定 难度,而且对带宽、服务器的资源都有浪费。 搜索引擎的网络爬虫并不是对所有网站都采用同一周期进行更新。对于一 些重要的更新量大的网站,其更新周期短( 如新闻网站,通常几个小时就更新 一次) ;对一些不重要的网站,更新周期就长,可能一两个月才更新一次。 大部分主要的搜索引擎都力争更频繁地再次检索网页。许多搜索引擎正在 使用已学会更加频繁地再次访问不断变化地网页的网络爬虫。但是,对那些信 息随时会发生变化的网站或那些最新发生的信息来说,利用搜索引擎来查找显 然是不适合的。 搜索引擎从收集网页、解析、索引到提供搜索需要一个时间周期,周期长 短从一周到一个月不等,所以使用搜索引擎只能找到一个星期或一个月以前的 内容,而找不到实时发布的内容。 3 1 3 排序和垃圾网页问题 以前许多的搜索引擎使用基于关键词的方法来排列搜索结果。这种方法是 以搜索关键词出现的次数或相关性来排列最后的搜索结果。随着技术的发展, 现在大部分专业的搜索引擎都使用一种类似于g o o g l e 的p a g e r a n k 的网页级别 技术来对结果进行排序。这种算法根据其他链接到特定网页的加权系数来进行 整理。因此,网页级别技术其实主要是根据由人所建立的链接来编排网页。除 了链接的因素之外,各搜索引擎都还有一些自己的秘密标准或商业准则来决定 1 4 武汉理工大学硕士学位论文 网页排名的先后。 用于计算网页级别的公式包含5 亿个变量和2 0 多亿个项,从网页级别可对 网页的重要性进行客观的分析。网页级别利用巨大的网络链接结构对网页进行 组织整理,当从网页a 链接到网页b 时,搜索引擎就认为“网页a 投了网页b 一票”,同时还对投票的网页进行分析。这种复杂的自动搜索方法和结构设计被 认为可以提供公正的搜索结果,避免任何人为感情因素。但是,随着搜索引擎 优化( s e o ,s e a r c he n g i n eo p t i m i z a t i o n ) 和各种针对p a g c r a n k 的交换链接的 行为的流行,搜索引擎的结果排序的合理性和公正性也越来越受到质疑。 微软的研究人员在2 0 0 2 年9 月曾发现一个奇怪现象:来自德国的网页的更 新率每周要比其他地区的网页快上九倍。原来,有一个德国的色情业主当时正 疯狂的制造数以千计指向他的色情站点的网页,间接使得他的网站排名在各大 搜索引擎的排行榜上节节上升【8 】。 这种垃圾网页会以大量毫无用处的链接壅塞搜索引擎的列表,然后把用户 诱骗到制造者的网站上,并给搜索引擎带来日益严重的影响。 3 2 网络爬虫存在的问题 3 2 1 网络爬虫的缺陷 搜索引擎的关键技术之一是网络爬虫的设计,也被称为w e bc r a w l e r 、w e b s p i d e r 或者w e bw a n d e r e r 。网络爬虫通常是一个计算机程序,并且日夜不停地 运行,目的是在i n t e r n e t 上漫游以发现和搜集网页信息。这些信息构成了搜索引 擎的检索范围,因此,网络爬虫访问i n t e r a c t 的覆盖率在很大程度上决定了搜索 引擎的检索结果。 网络爬虫必须依赖在网页上所找到的链接来查找其他网页,如果某一网页 在网络上未与其他任何网页建立链接,搜索引擎就不能找到它。由于相当一部 分网页未与任何其他网页建立链接关系,搜索引擎根本无法对其进行索引。这 些无法被索引的网页资源就成为网络的空白地带,产生了搜索引擎的网页覆盖 率问题。 导致网络爬虫覆盖率不高的原因主要有: 首先,网络爬虫不能跟上网络资源规模膨胀的速度。在i n t e r a c t 上每天都有 武汉理工大学硕士学位论文 成千上万的新网页产生,要想找到每个新增的网页需要花费过高的时间代价。 因此,考虑到网络爬虫遍历周期的因素,搜索引擎往往不可能覆盖所有的网页。 其次,网络爬虫并不能找到所有的网页。网络爬虫只能靠h t m l 链接来发 现新的网页,如果某个网页没有指向它的链接,那么这样的页面就不会被收集。 此外,由于搜索引擎对许多类型的非文本文件的索引能力很弱,也会造成 这类文件不能检索。许多基本不带文本的图像、音频和视频文件根本无法被搜 索引擎索引。因此,很大一部分资源对检索者来说是不可见的。 另外,出于商业原因,对于一些比超文本文件的需求少得多的其他类型文 件,由于检索需要更多的计算资源,使得搜索引擎不是不能索引,而是不想索 引。 , 事实上,搜索引擎所面临的最大的技术难题,在于检索存储在网络数据库 中的信息。虽然数据库能提供灵活的、易维护的开发环境和方便快捷的在线检 索,但由于数据库之间在结构设计和检索功能上的差异,给搜索引擎带来了很 多麻烦。 一般来说,网络爬虫可以轻易找到数据库的接口和网关的页面,但网络爬 虫无

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论