(计算机应用技术专业论文)搜索引擎网页快照的安全性研究.pdf_第1页
(计算机应用技术专业论文)搜索引擎网页快照的安全性研究.pdf_第2页
(计算机应用技术专业论文)搜索引擎网页快照的安全性研究.pdf_第3页
(计算机应用技术专业论文)搜索引擎网页快照的安全性研究.pdf_第4页
(计算机应用技术专业论文)搜索引擎网页快照的安全性研究.pdf_第5页
已阅读5页,还剩78页未读 继续免费阅读

(计算机应用技术专业论文)搜索引擎网页快照的安全性研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学位论文数据集 中图分类号 t p 3 1 1 学科分类号 5 2 0 6 0 9 9 论文编号 l0 0 10 2 0 0 7 0 5 3 5 密级 学位授予单位代码 1 0 0 l o 学位授予单位名称北京化工大学 作者姓名 孙静学号 2 0 0 4 0 0 0 5 3 5 获学位专业名称计算机应用技术获学位专业代码 0 8 1 2 0 3 课题来源学校级项目研究方向网络数据库 论文题目搜索引擎网页快照的安全性研究 关键词搜索引擎,网页快照,机器学习,脚本语言安全,知识库 论文答辩日期 2 0 0 7 - 0 6 - 1 0论文类型 应用研究 学位论文评阅及答辩委员会情况 姓名职称工作单位学科专长 指导教师赵恒永教授北京化工大学网络数据库 评阅人1 0 7 m 0 2 1 评阅入2 山岚 副教授北京化工大学网络信息获取技术的研究 评阅人3 评阅人4 评阅人5 答辩委员会主席 叶海建 教授中国农业大学计算机应用研究 答辩委员1赵恒永教授北京化工大学网络数据库 答辩委员2山岚副教授北京化工大学网络信息获取技术的研究 答辩委员3许南山副教授北京化工大学过程工业实时监控 答辩委员4彭四伟 副教授北京化工大学编译技术应用,并行计算 答辩委员5 注:一 四 论文类型:1 基础研究2 应用研究3 开发研究4 其它 中图分类号在中国图书资料分类法查询 学科分类号在中华人民共和国国家标准( ( ;b t13 7 4 5 - 9 ) 学科分类与代码中 查询。 论文编号由单位代码和年份及学号的后四位组成。 j i - 摘要 搜索引擎网页快照的安全性研究 摘要 本文首先介绍了搜索引擎的发展现状,探讨了未来的发展趋势。 在对搜索引擎相关技术进行了阐述之后,对搜索引擎中网页快照技 术进行了研究。目前保存于搜索引擎服务器海量缓存中的网页快照 在提供给用户更快捷和更方便的访问方式的同时,也将网页中可能 的不安全代码一并保存并在用户搜索时一起返回给用户,使计算机 在不知不觉中感染病毒。因此,本文对网页快照在实现的同时,进 行了安全方面的研究。 要实现网页快照的安全性判断,本文尝试采用了人工智能的先 进方法机器学习。利用机器学习中应用较为广泛的示例学习和 机械学习相结合,通过建立学习解释器,对网页中的j a v a s c r i p t 等脚 本语言进行判断,去除不安全代码或者可疑代码。 现在网页上的恶意代码越来越多,随之而来的,网页快照上存 在不安全代码的可能性也大大增加。为了识别恶意代码,将几种含 有常见的恶意代码的程序段的特征关键字作为机器学习的知识库中 的示例知识,把网页中j a v a s c r i p t 部分的代码分离出来,并将其与知 识库中的关键字进行比较判断。 本系统的机器学习通过执行单元将网页的j a v a s c r i p t 程序段与知 识库进行比较,如果相同或相似则认为是恶意代码,于是就将相似 代码通过学习单元将其提取特征码作为新知识存入知识库来提高学 北泵化工大掌坝士字位论又 习系统的自学习能力,并将其从原来的网页代码中去掉。而对于没 有检测到与知识库匹配的代码,认为是安全代码予以保留。这样, 将可以进行安全判断的网页快照系统集成至现有的化工专业搜索引 擎系统,改进了系统功能,为广大用户提供了更为安全的网页快照。 关键词:搜索引擎,网页快照,机器学习,脚本语言安全,知识库 n , 摘要 t h e s e c u r i t yr e s e a r c ho fs e a r c he n g i n e w e b s i t es n a p s h o ts y s t e m a b s t r a c t f i r s tt h ea r t i c l ei n t r o d u c e sd e v e l o p m e n ts t a t u so fs e a r c he n g i n e , d i s c u s st h ef u t u r ed e v e l o p m e n tt r e n d a f t e re x p a t i a t i n go nt h er e l a t e d t e c h n o l o g yo f s e a r c he n g i n e s ,i tp u tf o r w a r dt h er e s e a r c ho f s e a r c h e n g i n ew e b s i t es n a p s h o t n o ws e a r c he n g i n e sp r o v i d ef a s t e ra n dm o r e c o n v e n i e n tv i s i t st ou s e r sb ys a v i n gs n a p s h o t so nm a s s i v ec a c h e ,a tt h e s a m et i m e ,s n a p s h o t sm a yc o n s e r v eu n s a f ec o d ea n dr e t u mt ot h eu s e r s w h e nt h eu s e r ss e a r c h ,t h e nt h ec o m p u t e r su n k n o w i n g l yi n f e c tw i t ht h e v i r e s t h e r e f o r e ,t h i sa r t i c l en o to n l yr e a l i z e ss n a p s h o t s ,b u ta l s oc a r r i e s o nas e c u r i t yr e s e a r c h t or e a l i z et h es e c u r i t yj u d g m e n to fs n a p s h o t s ,t h ea r t i c l et r i e dt o u s et h ea r t i f i c i a li n t e l l i g e n c ea d v a n c e dm e t h o d - - m a c h i n el e a r n i n g b y c o m b i n i n gt h ew i d e l yu s e dc a s e d b a s e dl e a r n i n ga n dr o t el e a r n i n g ,i t e s t a b l i s h e st h el e a r n i n gi n t e r p r e t e rt oj u d g ej a v a s c r i p ts c r i p t i n gl a n g u a g e a n dr e m o v eu n s a f ec o e do rs u s p i c i o u sc o d e n o wt h e r ea r em o r ea n dm o r em a l i c i o u sc o d e ,w i t ht h ea t t e n d a n t , i i i 北京化t 人学硕i :学位论文 t h ep o s s i b i l i t yo fs n a p s h o tu n s a f ec o d ep r e s e n c eg r e a t l yi n c r e a s e s t o i d e n t i f ym a l i c i o u sc o d e ,t h es y s t e mc o n s i d e r ss o m ef e a t u r ek e y w o r d so f f a m i l i a rp r o g r a ms e g m e n tq u ae x a m p l ek n o w l e d g eo fm a c h i n el e a r n i n g r e p o s i t o r y , s e p a r a t e sj a v a s c r i p t c o d ef r o mh t m lc o d e ,c o m p a r e sa n d j u d g e s i tw i t ht h ek e y w o r d so fr e p o s i t o r y m a c h i n el e a r n i n go ft h es y s t e mt h r o u g ht h ei m p l e m e n t a t i o nu n i t c o m p a r ej a v a s c r i p tp r o g r a ms e g m e n tw i t hr e p o s i t o r y i ft h ec o d ei st h e s a m ew i t ho rs i m i l a rt ot h ef e a t u r ek e y w o r d s ,r e m o v et h es e g m e n tf r o m t h eo r i g i n a lc o d ea f t e re x t r a c t i n gf e a t u r ek e y w o r d sf r o ms i m i l a rc o d e t h r o u g hs t u d yu n i ta n ds t o r i n gt h e s en e we x a m p l e si n t h er e p o s i t o r yt o e n h a n c et h ea b i l i t yo fl e a r n i n gs y s t e ms e l f - s t u d y w h i l et h ec o d ew h i c h d o e sn o tm a t c ht h er e p o s i t o r y , i ti sc o n s i d e r e da ss a f ec o d ea n di s r e s e r v e d t h e nt h es a f e t yj u d g m e n ts n a p s h o ts y s t e mi n t e g r a t e sw i t ht h e c h e m i c a ls p e c i a ls e a r c he n g i n e ,i m p r o v e so nt h es y s t e m ,a n dp r o v i d e m o r es e c u r es n a p s h o tt ou s e r s k e yw o r d s :s e a r c h e n g i n e ,w e b s i t es n a p s h o t ,m a c h i n el e a r n i n g , s c r i p t i n gl a n g u a g e ss e c u r i t 5r e p o s i t o r y i v 目录 目录 第一章绪论1 1 1 课题来源1 1 2 课题的目的和意义1 1 3 课题的主要研究内容2 第二章搜索引擎的概述。3 2 1 搜索引擎的概念3 2 2 搜索引擎的发展史3 2 3 我国搜索引擎发展现状4 2 4 搜索引擎的分类4 2 4 1 目录式搜索引擎5 2 4 2 机器人搜索引擎:6 2 4 3 元搜索引擎7 2 5 未来发展趋势7 2 5 1 搜索引擎的多元化7 2 5 2 搜索引擎的专业化! 8 2 5 3 搜索引擎的智能化。8 2 5 4 搜索引擎的多媒体化9 2 6 搜索引擎的工作原理9 2 7 搜索引擎相关技术1 0 2 7 1 搜索器1 0 2 7 2 索引器1 1 2 7 3 检索器1 2 2 7 4 用户接口1 2 2 8 网页快照技术1 2 第三章网页快照安全性的相关技术1 5 v ! ! 壅些三奎兰堡主堂垡笙壅 3 1 人工智能1 5 3 1 1 人工智能研究领域1 5 3 1 2 机器学习1 6 3 1 3 机器学习的分类1 8 3 1 4 知识的表示一1 9 3 1 5 常用的知识表示方法2 0 3 2 网页脚本语言的安全2 1 3 2 1 j a v a a p p l e t 2 2 3 2 2j a v a s c r i p t 2 3 3 2 3a c t i v e x 2 3 3 3 恶意代码关键技术剖析2 4 3 3 1h t m l 解释器漏洞恶意代码2 5 3 3 2 脚本解释器漏洞恶意代码2 5 3 3 3 应用程序漏洞恶意代码2 5 3 3 4 利用恶意控件实施攻击2 6 3 4 网页病毒的种类2 7 第四章网页快照及其安全性的设计与实现o 2 9 4 1 系统设计2 9 4 1 1 搜索引擎系统总体设计2 9 4 1 2 目前网页快照的不足f 3 0 4 1 3 网页快照的改进思路3 2 4 2 网页快照及其安全性的实现3 5 4 2 1h t m l 网页代码转换器的实现3 5 4 2 2 知识库的实现3 6 4 2 3 脚本语言学习解释器的实现3 9 4 2 4h t m l 代码网页转换器的实现4 3 4 2 5 网页快照与索引数据库的关联映射4 5 4 2 6 网页快照关键字的渲染4 6 4 2 7 实验结果4 7 第五章总结 ! ;】【 v i 目录 5 1 已经完成的工作5 1 5 2 未来研究方向5 2 参考文献5 3 致谢。5 7 研究成果及发表的学术论文5 9 作者和导师简介。6 1 v c o n t e n t s c h a p t e r1 i n t r o d u c t i o n 。”1 1 1s u b j e c ts o u r c e 。1 1 2i n t e n t i o na n ds i g n i f i c a n c eo ft h es u b j e c t 1 1 3m a i ns t u d yc o n t e n to ft h es u b j e c t 2 c h a p t e r2as u m m a r y o fs e a r c he n g i n e s 3 2 1t h ec o n c e p to fs e a r c he n g i n e s 3 2 2t h ed e v e l o p m e n th i s t o r yo fs e a r c he n g i n e s 3 2 3s e a r c he n g i n e s d e v e l o p m e n ta c t u a l i t yo fc h i n a 4 2 4c l a s s f i c a t i o n go fs e a r c he n g i n e s 4 2 4 1d i r e c t o r ys e a r c he n g i n e 5 2 4 2r o b o ts e a r c he n g i n e 6 2 4 3m e t as e a r c he n g i n e 7 2 5t h ed e v e l o p m e n tt r e n do fs e a r c he n g i n e s 7 2 5 1d i v e r s i f i c a t i o no fs e a r c he n g i n e s 7 2 5 2s p e c i a l i z a t i o no fs e a r c he n g i n e s 8 2 5 3i n t e l l i g e n c eo fs e a r c he n g i n e s 8 2 5 4m u l t i m e d i ao fs e a r c he n g i n e s 9 2 6w o r k p r i n c i p l eo f s e a r c he n g i n e s 9 2 7r e l a t e dt e c h n o l o g yo fs e a r c he n g i n e s 1 0 2 7 1s p i d e r 1 1 2 7 2i n d e x e r 1 1 2 7 3s e a r c h e r 1 2 2 7 4u s e ri n t e r f a c e 1 2 2 8t e c h n o l o g i e so fs n a p s h o t 1 3 c h a p t e r 3r e l a t e dt e c h n o l o g i e so fs e c u r i t yo fs n a p s h o t 1 5 3 1a r t i f i c i a li n t e l l i g e n c e 1 5 3 1 1r e s e a r c hd o m a i no fa r t i f i c i a li n t e l l i g e n c e 1 5 i x 北京化工大学硕士学位论文 3 1 2m a c h i n el e a r n i n g 1 7 3 1 3c l a s s f i c a t i o n go fm a c h i n el e a r n i n g 1 8 3 1 4r e p r e s e n t a t i o no fk n o w l e d g e 1 9 3 1 5c o m m o nm e t h o d so fr e p r e s e n t a t i o no f k n o w l e d g e 2 0 3 2s e c u r i t yo fw e b s i t es c r i p t i n gl a n g u a g e s 2 1 3 2 1j a v a a p p l e t 2 3 3 2 2j a v a s c r i p t 2 3 3 2 3a c t i v e x :2 3 3 3a n a l y s i so fk e yt e c h n o l o g i e so fm a l i c i o u sc o d e 2 4 3 3 1m a l i c i o u sc o d eo fh t m li n t e r p r t e rl e a k 2 5 3 3 2m a l i c i o u sc o d eo fs c r i p t i n gi n t e r p r t e rl e a k 2 5 3 3 3m a l i c i o u sc o d eo fa p p l i c a t i o nl e a k 2 5 3 3 4a t t a c ku s i n gm a l i c i o u sc o n t r o l s 2 6 3 4c l a s s f i c a t i o n go fw e b s i t ev i r u s 2 7 c h a p t e r 4d e s i g na n dr e a l i z a t i o no fs n a p s h o ta n di t ss e c u r i t y 2 9 4 1s y s t e md e s i g n :1 9 4 1 1t o t a ld e s i g no fs e a r c he n g i n es y s t e m 2 9 4 1 2s h o r t a g eo fc u r r e n ts n a p s h o t 3 0 4 1 3i m p r o m e n t so fs n a p s h o t 3 2 4 2r e a l i z a t i o no fs n a p s h o ta n di t ss e c u r i t y 3 5 4 2 1r e a l i z a t i o nf r o mh t m lw e b s i t et oc o d es w i t c h 3 5 4 2 2r e a l i z a t i o no fk n o w l e d g eb a s e 3 6 4 2 3r e a l i z a t i o no fs c r i p t i n gl a n g u a g ei n t e r p r e t e r 3 9 4 2 4r e a l i z a t i o nf r o mh t m lc o d et ow e b s i t es w i t c h 4 3 4 2 5a s s o c i a t e dm a p p i n go fs n a p s h o ta n di n d e xd a t a b a s e 4 5 4 2 6o r n a m e n to fs n a p s h o tk e y w o r d s 4 6 4 2 7e x p e r i m e n t a lr e s u l t s 4 7 c h a p t e r 5s u m m a r y 5 3 5 1t h ef i n i s h e dw o r k 5 3 5 2f u t u r es e a r c hd i r e c t i o n 5 4 x - 目录 r e f e r e n c e 5 5 t h a n k s 5 9 r e s e a r c ha r c h i e v e m e n ta n dp a p e rp u b l i s h e d 6 1 a u t h o ra n dp r o f e s s o rb r i e f 6 1 x l 一 1 1 课题来源 第一章绪论 随着因特网的迅猛发展、w e b 信息的快速增加,用户要在信息的海洋里查 找资源,就象大海捞针一样。面对拥有海量信息的h t e r n e t 环境,为了能快速、 高效地找到有用信息,搜索引擎( s e a r c he n g i n e ) 应运而生。搜索引擎是通往浩瀚 信息海洋的捷径,因而也有人称之为“网络之门 ,它可以为用户提供信息检索 服务。目前国内外的搜索引擎技术已经达到较高水准,但是在搜索网页的时候, 由于网络或者网站的关系,暂时无法打开某个搜索结果,或者打开速度特别慢, 这时网页快照能帮您解决这个问题。在提供网页快照服务的搜索引擎网站中, 每个被收录的网页,都有一个存储在搜索引擎服务器上的备份。由于网页快照 是存储于搜索引擎服务器的海量缓存中,通常下载速度较原网页要快,而且能 够保证您可以通过“快照”浏览页面内容。但是,这些网页快照在事先保存于服 务器上的时候,有的是只保留了文本内容,有的为了保持页面内容的完整性, 将网页本身尽可能地保存下来,特别是为了保持原来网页的生动性,将网页的 j a v a s c r i p t 代码部分也保留下来,因此网页本身可能存在的一些不安全代码,也 一并保存。这样,在用户点开网页快照的时候,如果原来网页包含恶意代码, 网页快照中也将存在这些代码,用户如果激活这些恶意代码的控件,可能导致 用户计算机中毒,甚至导致系统的崩溃n 捌。 化工专业搜索引擎的研究是我校2 1 1 工程建设的子项目,目前我网络数据 库研究室已初步实现了化工专业的搜索引擎。本系统要实现的是,在前人研究 的基础上,实现搜索引擎网页快照的功能,并且通过建立脚本语言的学习解释 器判断网页代码的安全性,从而使保存在搜索引擎服务器的网页快照能够既尽 可能地保留原来网页的内容,又要提供给搜索引擎用户安全的网页快照。 1 2 课题的目的和意义 目前我实验室已基本实现了化工专业搜索引擎,现在的主要工作是对其进 行改进和完善。网页快照在很多情况下比直接打开网页更有效、更好用。如果 北京化工大学硕士学位论文 不需要访问网页的最新信息,或者网页本身更新不快,那么对网页快照的访问 将是不错的选择。如果原地址打开很慢,或者原链接已经死掉或者因为网络的 原因暂时链接不通,那么可以直接查看网页快照,网页快照是搜索引擎系统保 存于本地服务器的网页“照片,其打开速度较快,并且能够使用户可能浏览 到网页以前的内容。另外,网页快照通常根据用户输入的关键字,将匹配的字 符用不同颜色显示,使用户更容易查找自己所需的部分,也更容易了解页面内 容和结构。但是,如果网页快照将网页中的一些不安全代码也一并保存并提供 给用户,如果用户激活这些不安全代码,则可能使计算机感染病毒或执行可疑 操作,给用户带来不必要的损失。因此,本课题研究的主要内容,是在实现网 页快照存储的条件下,尽可能地判断网页中的不安全因素,将可能威胁用户计 算机安全的代码去除,保留其它部分,提供给用户更安全的化工专业的网页快 照。 1 3 课题的主要研究内容 本课题的研究内容总体上可以分为两部分。一部分是将搜索引擎信息搜集 系统的网络爬虫搜索到的网页实现网页快照并保存于搜索引擎服务器中,并且 与搜索引擎的核心部分之一索引部分进行关联映射,并按照用户的查询条件将 网页快照中与关键字匹配的字符设置高亮色显示,这样在用户查询某关键字的 网页时,与之对应的网页快照也一并呈现给用户;另一部分也是本课题的技术 难点即尽可能实现网页快照的安全性,借助已知的网页不安全代码的特征码, 对网页代码进行判断,使提供给用户的网页快照尽可能的是验证为安全的代码。 2 第二章搜索引擎的概述 第二章搜索引擎的概述 2 1 搜索引擎的概念 搜索引擎是一种在w e b 上应用的软件系统,它以一定的策略在w e b 上搜集 和发现信息,在对信息进行处理和组织后,为用户提供w e b 信息查询服务。从 使用者的角度看,这种软件系统提供一个网页界面,让用户通过浏览器提交一 个词语或者短语,然后很快返回一个可能和用户输入内容相关的信息列表( 通 常是很长一个列表,甚至包含一万个条目) 。这个列表的每一条目代表一篇网页 i s o 2 2 搜索引擎的发展史 j 早在w e b 出现之前,互联网上就已经存在许多旨在让人们共享的信息资源, 当时主要存在于各种允许匿名访问的f t p 站点。为了便于人们在分散的f t p 资 源中找到所需的东西,加拿大麦吉尔大学的师生于1 9 9 0 年开发了一个软件 a r c h i e ,它通过定期搜集并分析f r p 系统中存在的文件名信息,提供查找分布 在各个f t p 主机中文件的服务。尽管a r c h i e 所提供服务的信息资源对象和我们 现代意义上的搜索引擎的信息资源对象不一样,但基本工作方式是相同的( 自 动搜集分布在广域网上的信息,建立索引,提供检索服务) ,因此人们公认a r c h i e 为现代搜索引擎的鼻祖。 1 9 9 3 年m a t t h e wg r a y 开发了w o r l dw i d ew e bw a n d e r e r , 它是世界上第一个 利用h t m l 网页之间的链接关系来监测w e b 发展规模的“机器人 ( r o b o t ) 程 序。r o b o t ( 机器人) 一词对编程者有特殊的意义。c o m p u t e rr o b o t 是指某个能 以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索 信息的r o b o t 程序象蜘蛛( s p i d e r ) 一样在网络间沿超链接“爬行 ,因此,搜索 引擎的r o b o t 程序有时也称为s p i d e r 程序。刚开始时它只用来统计互联网上的 服务器数量,后来则发展为能够捕获网址( u r l ) ,通过它可以检索网站域名。 现代搜索引擎幢一 的思路币是源于w a n d e r e r 。随着互联网的迅速发展,使 得检索所有新出现的网页变得越来越困难,因此,在w a n d e r e r 基础上,一些编 3 北京化工大学硕士学位论文 程者将传统的s p i d e r 蜘蛛程序工作原理作了些改进。其设想是,既然所有网页 都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有 链接,就有可能检索整个互联网。1 9 9 4 年m i c h a e lm a u l d i n 将改进的s p i d e r 程 序接入到其索引程序中,创建了大家熟知的l y c o s ,成为第一个现代意义的搜 索引擎。除了相关性排序外,l y c o s 还提供了前缀匹配和字符相近限制,l y c o s 第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜 索引擎的数据量。在那之后,随着w e b 上信息的爆炸性增长,搜索引擎的应用 价值也越来越高,不断有更新、更强的搜索引擎系统推出。 在各种搜索引擎不断推出自己特有功能的时候,g o o g l e 由于在p a g e r a n k 网页等级技术、动态摘要、网页快照、d a i l y r e f r e s h 每日更新、多文档格式支持、 地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,以及 因为搜索准确性备受赞誉,成为当前全球最受欢迎的搜索引擎。 2 3 我国搜索引擎发展现状 在我国,对搜索引擎的研究起源阻m 于“中国教育科研网 ( c e r n e t ) 一 期工程中的子项目,北京大学计算机系的项目组在陈葆珏教授的主持下于1 9 9 7 年l o 月在c e r n e t 上推出了“天网搜索1 0 版本 ,它是国家九五”重点科技 攻关项目。中文编码和分布式中英文信息发现”的研究成果。2 0 0 0 年初成立天网 搜索引擎新课题组,由国家9 7 3 重点基础研究发展规划项目基金资助开发,收 录网页约6 0 0 0 万,利用教育网优势,有强大的f t p 搜索功能。可以说北大天网 系统在这几年里不断发展,目前已成为中国最大的公益性搜索引擎之一。 2 0 0 0 年1 月,两位北大校友,超链分析专利发明人、前i n f o s e e k 资深工程 师李彦宏与徐勇( 加州伯克利分校博士) 在北京中关村创立了百度公司。同年8 月发布w w w b a i d u c o m 搜索引擎b e t a 版( 此前百度只为其它门户网站如搜狐、 新浪、t o m 等提供搜索引擎) ,2 0 0 1 年1 0 月2 2 日正式发布百度搜索引擎,专 注于中文搜索。百度搜索引擎的其它特色包括:网页快照、网页预览预览全部 网页、相关搜索词、错别字纠正提示、新闻搜索、f l a s h 搜索、信息快递搜索、 m p 3 搜索、地图搜索等等。2 0 0 2 年3 月闪电计划( b l i t z e np r o j e c t ) 开始后,技术 升级明显加快。 4 2 4 搜索引擎的分类 目前搜索引擎的发展越来越趋于完善,功能也越来越多,按照信息搜集方 法和服务提供方式的不同,搜索引擎系统可以分为三大类。1 副: 2 4 1 目录式搜索引擎 基于目录的搜索引擎纠副由人工发现、抓取、辨别网上信息,然后编目人员 按照某种分类法,人工形成信息摘要,建立主题树分层目录,将采集、筛选后 的信息分i - j n 类的放入事先确定的各大类或子类下面。目录的数据库是依靠专 职编辑或志愿人员建立起来的,这些编辑人员在访问了某个w e b 站点后撰写一 段对该站点的描述,并根据站点的内容和性质将其归为一个预先分好的类别, 把站点的u r l 和描述放在这个类别中,当用户查询某个关键词时,搜索软件只 在这些描述中进行搜索。很多目录式搜索引擎也接受用户提交的网站和描述, 当目录的编辑人员认可该网站及描述后,就会将之添加到合适的类别中。 目录式搜索引擎提供由网页作者呈送的因特网资源的链接集合,同时对这 些资源做出评价并组织成主题目录。它使用一定的选择标准用于挑选所录用的 链接资源,不同的目录式搜索引擎使用不同的选择标准。它有两种基本类型: 一种是由主题专家日常建立和维护的学术性专业目录以满足科研人员的需要; 另一方面是为普通大众和商业服务的商业目录。因此,一定要使用确切满足自己 真正需求的那种类型的目录式搜索引擎。当检索一个范围较广的题目,并希望 浏览一下与该题目相关的所推荐的网站时,目录式搜索引擎会是非常有用的。 但这类搜索引擎有两大问题:分类是按分类者或分类软件的分析而定,不一定 与用户的意见一致;如果你查找的信息没有对应的分类项,则无法进行搜索。 目录的结构为树形结构,首页提供了最基本的几个大类的入口,用户可以一级 一级地向下访问,直至找到自己感兴趣的类别。另外,用户也可以利用目录提 供的搜索功能直接查找一个关键词,不过,由于目录只在保存的对站点的描述 中进行搜索,因此站点本身的动态变化不会反映到搜索结果中来,这也是目录 与基于r o b o t 的搜索引擎之间的一大区别。 这类搜索引擎所收录的网络资源经过了专业人员的鉴别、选择和组织,所 以信息准确,导航质量高,但是由于采用了人工方式,成本较高,信息量少, 维护比较困难,更新也不够及时。现在很多搜索站点都同时提供有目录和基于 5 北京化工大学硕士学位论文 r o b o t 的搜索服务,以便尽可能地为用户提供全面的查询结果。这类搜索引擎 的代表是:y a h o o 、l o o k s m a r t 、o p e nd i r e c t o r y 、m a g e l l a n 和g og u i d e 等。 2 4 2 机器人搜索引擎 基于机器人的搜索引擎纠副利用一个称为r o b o t ( 也叫做s p i d e r 、w e b c r a w l e r 或w e bw a n d e r e r ) 的程序以某种策略从一组已知的网页出发,自动访问w e b 站 点,搜集和发现网站上的网页信息,并根据网页中的超文本链接进一步提取其 它网页,或转移到其它网站上。r o b o t 搜集的网页被加入到搜索引擎的数据库 中,供用户查询使用。基于r o b o t 的搜索引擎由三个主要部分构成:机器人、 索引和检索软件。机器人从一个事先制定好的u r l s 列表出发,这个列表中的 u r l s 通常是从以往访问记录中提取出来的,从u s e n e t 等地方检索得到的u r l s 也常被用作起始u d s ,此外,很多搜索引擎还接受用户提交的u r l s ,这些u d s 也会被安排在列表中供机器人访问。机器人访问了一个网页后,会对它进行阅 读和分析,提取出新的u r l s ,将之加入到访问列表中,如此递归地访问w e b 。 机器人搜索引擎不是靠人工发现和甄别信息,而是由一个被称作“蜘蛛” 的计算机程序在网中爬行,依据一定的网络协议在因特网中发现、加工、整理 信息,并为用户提供检索服务。机器人设计是否合理将直接影响它访问w e b 的 效率,影响搜索数据库的质量,另外,在设计机器人时还必须考虑它对网络和 被访问站点的影响,因为机器人一般都运行在速度快、带宽高的主机上,如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论