




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 w e b 含有大量丰富有用的资源,搜索引擎已成为人们检索这类资源的重要工 具。但是,随着信息多元化的增长,传统的通用搜索引擎返回结果过多,主题相 关度差。因此,很难满足人们对个性化服务日益增长的需要。这也为通用搜索引 擎提出了空前的挑战。基于此,面向特定领域、适应于特定人群的主题搜索引擎 应运而生。 , 主题爬虫是主题搜索引擎的基础与核心。它是建立在普通爬虫基础之上的, 是普通爬虫在功能上的扩展。本文主要研究主题爬虫的相关技术,建立一个高校 类的主题爬虫。旨在挖掘出更多的高校领域相关资源。 b p 人工神经网络是利用非线性可微分函数进行权值训练的多层网络。它包 含了神经网络理论中最为精华的部分。由于其结构简单、可塑性强,所以,在函 数逼近、模式识别、信息分类及数据压缩等领域都得到了广泛的应用。特别地, 由于它的数学意义明确,学习算法步骤分明,使得应用背景更加广泛。 本文主要描述了高校主题爬虫的设计与实现的全过程。如何对网页进行主题 相关性的判断是主题爬虫设计中的重要内容。这里不同于目前多数采用的向量空 间模型进行网页主题相关度判断的方法,而是将解决非线性问题具有较好效果的 b p 技术用于高校主题爬虫中,进行主题相关度的预测,指导爬虫采集高校相关 信息。它的分类比线性划分更精确、更合理,网络容错性好。 实验结果表明,本文设计的高校主题爬虫取得了良好的效果,具有较高的实 用价值。而且比采用向量空间模型进行主题相关度判断的方法具有更高的准确 率。 关键词:搜索引擎;相关度:个性化;主题爬虫;人工神经网络 ab s t r a c t w e bc o n t a i n sal o to fr i c ha n du s e f u lr e s o u r c e s s e a r c he n g i n e sh a sb e c o m ea n i m p o r t a n tt o o lf o rt 1 1 er e t r i e v a lo fs u c hr e s o u r c e s h o w e v e r , w i t ht h eg r o w t ho fv a r i o u s i n f o r m a t i o n , t h en u m b e ro fw e bp a g e sh a se x c e e d e d2 0 0 0m i l l i o n t r a d i t i o n a ls e a r c h e n g i n ea l w a y sr e t u r n st o om a n yr e s u l t sa n dh a sa1 0 wt o p i cr e l e v a n c e m e a n t i m ei ti s d i f f i c u l tt os a t i s f yt h en e e do fm a n se v e r - i n c r e a s i n gn e e do fp e r s o n a l i z e ds e r v i c e t h i sa l s op u t sf o r w a r da l lu n p r e c e d e n t e dc h a l l e n g ef o rt h eg e n e r a ls e a r c he l l g i n e b a s e do nt h i s ,t h et o p i cs e a r c he n g i n eu s e di n s p e c i f i ca r e a sa n ds p e c i f i cg r o u p s c o m e si n t ob e i n g t h et o p i cc r a w l e ri st h ef o u n d a t i o na n dc o r eo f t o p i cs e a r c he n g i n e i ti sb u i l to nt h e b a s i so fg e n e r a lc r a w l e r i ti st h ee x t e n s i o no f g e n e r a lc r a w l e ri nf u n c t i o n t h i sp a p e r s t u d i e st h er e l e v a n tt e c h n o l o g yo ft h e t o p i cc r a w l e ra n de s t a b l i s h e sak i n do f u n i v e r s i t yt o p i cc r a w l e r i ti n t e n d st ol o o kf o rm o r er e s o u l v , e sr e l e v a n tt oa r e a so f c o l l e g e sa n du n i v e r s i t i e s 。 b pa r t i f i c i a ln e u r a ln e t w o r ki sa nm u l t i - l e v e ln e t w o r kw h i c hm a k e s w e i g h tt r a i n i n g u s i n gn o n - l i n e a ra n dd i f f e r e n t i a lw e i g h tf u n c t i o n i tc o n t a i n st h em o s tp a r to ft h e e s s e n c ei nt h et h e o r yo fn e u r a ln e t w o r k b e c a u s eo fi t ss i m p l es t r u c t u r e ,p l a s t i c i t y , i t h a sb e e nw i d e l yu s e di np a t t e mr e c o g n i t i o n , i n f o r m a t i o nc l a s s i f i c a t i o na n dt h ef i e l d s o fd a t ac o m p r e s s i o n e s p e c i a l l yd u et ot h ec l e a n n e s so fm a t l l e m m i c a lm e a n i n g ,t h e d i s t i n c ts t e p so fl e a r n i n ga l g o r i t h m , i t sb a c k g r o u n do fa p p l i c a t i o nh a sb e e nm o r e e x t e n s i v e t h i sp a p e rm a i n l yd e s c r i b e st h ed e s i g na n di m p l e m e n t a t i o no ft h eu n i v e r s i t yt o p i c c r a w l e r i ti si m p o r t a n th o wt o 。m a k ea j u d g e m e n to ft h et o p i cr e l e v a n c eo fw e bp a g e s t h i sp a p e rw i l la p p l yb pt e c h n o l o g yw h i c hs o l v e sn o n ,l i n e a rp r o b l e mw e l lt ot h e u n i v e r s i t yt o p i cc r a w l e rs oa st op r e d i c tt h et o p i cr e l e v a n c e i tc o n d u c t st h ec r a w l e rt o g a t h e ri n f o r m a t i o nr e l e v a n tt ou n i v e r s i t yr e s o u r c e s i t sc l a s s i f i c a t i o ni sm o r ep r e c i s e a n dr e a s o n a b l et h a ni i n e a rc l a s s i f i c a t i o nw i t ha g o o df a u l tt o l e r a n c e t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h ed e s i g no ft h eu n i v e r s i t yt o p i cc r a w l e rh a s a c h i e v e dg o o dr e s u l t s ,w i t hh i g hp r a c t i c a lv a l u e i th a sah i g h e rp r e c i s i o nt h a nt h e c r a w l e rw h i c hj u d g e st h et o p i cr e l e v a n c ei nv e c t o rs p a c em o d e l k e yw o r d s :s e a r c he n g i n e ;r e l e v a n c e ;p e r s o n a l i t y ;t o p i cc r a w l e r ;a r t i f i c a ln e u r a ln e t w o r k 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果。据我所知,除了文中特i i i i 以标注和致谢的地方外,论文中不包含其他人已经 发表或撰写过的研究成果,也不包含为获得东北师范大学或其他教育机构的学位或证 书而使用过的材料。与我同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示谢意。 学位论文作者签名:叠垫选 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即:东 北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和磁盘,允许论 文被查阅和借阅。本人授权东北师范大学可以将学位论文的全部或部分内容编入有关 数据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 一 学位论文作者签名: 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名:姜竺 e l i i i - 皇氅艺:型 电话: 邮编: 东北师范大学硕士学位论文 1 1 课题研究背景 第一章引言 随着i n t e r n e t 的飞速发展和广泛应用,网络信息量呈几何级数地增长。据统计,到 1 9 9 8 年为止,全球页面的数目约为3 5 亿n 1 ,而到2 0 0 4 年4 月,己经超过4 0 亿。而我 国的网页数估计也超过了3 亿。可以说,i n t e m e t 已经成为目前世界上最大的信息资源 库。目前,网页以每天超过1 0 0 万的速度增长着。网上信息资源纷杂,如何满足人们对 快速、准确而全面获取信息的要求,己经成为摆在人们面前的一大难题。搜索引擎的出 现可以帮助用户在网络上方便地查找到自己需要的信息。它已经成为人们最重要和普遍 使用的一种工具。 目前,人们一般是通过通用搜索引擎来获取信息。但是如此快速地发展,也给当前 的通用搜索引擎和通用爬虫带来了空前的挑战心 3 f 制。通用搜索引擎收录各方面、各学科、 各行业的信息。它就像一个公共的图书馆,旨在满足所有用户的需要嘲。基于w e b 的自 身特点,大量的数据分布在数以亿计的计算机互联网上,所以,检索起来困难重重。单 个搜索引擎的索引数据库的覆盖率一般都低于3 0 出”,很难索引所有资源。我们经常 会遇到返回结果中存在大量相同的网页,也就是说网页重复太多,返回的前十个网页很 有可能会指向同_ 个网站的内容。另外,其返圆的网页数量非常巨大,信息相关度差, 精确度不高。一次搜索的结果可能有成千上万条,而在这过于庞大的信息中,有用信息 只是其中的小部分。此外,我们所要查找的内容可能出现在第二或者更多的页面之中。 用户游览时就会花费大量时间才能找到所需要信息。此外,在目前的硬件条件下,通用 搜索引擎的网页一般是每月更新1 3 次。 随着人们对个性化信息检索服务的日益增长的需要,通用搜索引擎的这些不足日益 明显。解决这一问题的直接途径是升级网络搜索器的硬件,采用处理能力更强的计算机 系统。但是这种方法的扩展性有限,性价比也不高。另一个途径是采用分布式的方法来 提高并行能力。然而,并行不仅使系统的开销和设计的复杂性增加了,而且并行带来的 效益随着并行搜索器数目的增加会明显减少。目前,般大型搜索引擎都采用了并行机 制,但并行带来的改善效果仍不能满足人们的需要,人们需要从其他角度出发,来改善 目前的困境,主题搜索引擎就是在这样的背景下出现的。与通用搜索引擎不同,它主要 是为用户提供某个主题或者某个领域资源的检索服务。因此,建立面向特定专业领域的 主题搜索引擎已经成为搜索引擎新的发展趋势。 所谓主题型搜索引擎,也称专业搜索引擎或垂直搜索引擎。它是以构筑某一专题领 域或学科领域的因特网信息资源库为目标,智能地在互联网上搜集符合设定专题或满足 东北师范大学硕士学位论文 学科需要的信息资源哺1 。主题搜索引擎可以说是搜索引擎领域的行业化分工,也可以说 是搜索引擎的细分和延伸。它是针对某一具体的领域、某一特定人群或某一特定需求提 供的有一定价值的信息和相关服务。它是对网页库中的某类专门的信息进行一次整合, 定向分字段地抽取出需要的数据,进行处理后再以某种形式返回给用户。从而,满足人 们对个性化信息服务日益增长的需要。 与通用搜索引擎不同,主题搜索引擎的主题爬虫在爬行时,无须对整个w e b 进行遍 历,只抓取特定主题或专门领域的信息。也就是说,只选择与主题相关的页面进行访问, 服务于特定的人群。它是按预先己经定义好的专题有选择地收集网页。由于所收集的学 科领域小,信息量相对较少,更新及时,因而有效地弥补了通用搜索引擎信息量大、查 询不准确、深度不够等问题。未来的搜索引擎,必将趋于对个人信息、知识的需求满足。 它应该能够根据用户背景、兴趣爱好、行为、检索目的等信息,检索出适量的、高质量 的查询结果,即搜索引擎的个性化。这是种新的搜索引擎的服务模式。它的特点是“专、 精、深,且具有行业色彩。相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则 显得更加专注、具体和深入。主题搜索引擎的优势在于针对性强,对特定范围的网络信 息的覆盖率相对较高,有明确的检索目标定位。 1 2 国内外研究现状 目前,主题搜索引擎大都处于研究和试验阶段。在国外,对有关主题搜索引擎的研 究已经成为一大热点,而我国主题搜索引擎的研究则刚刚起步。 在国外有关主题型搜索引擎的研究正在成为一个热点,已出现许多优秀的主题搜索 引擎。例如:专门针对数学和统计学的专业搜索引擎m a t hs e a r c h ,由网络爬虫自动搜索、 筛选和标引。可向用户提供文章标题、网址、描述信息、网页语言、网站类型及所在地 区、相关度百分比、并具有网页聚类的功能;针对化学化工信息的主题搜索引擎,涵盖 了4 5 0 0 0 多个站点和大量的网页、可提供文章相关度、检索词词频以及信息提供机构的 相关信息;针对法律的f i n d l a w 的主题搜索引擎,f l 了g o o g l e 提供技术支持,可显示标题、 网址、描述信息、具有近似搜索的能力。下面是一些较具有代表型的系统。 1 e l s e v i e r 的s c i r u s 系统 s c i r u s 科学搜索引擎是面向高相关的科学信息而设计的搜索引擎,获得2 0 0 1 搜索 引擎观察授予的“最佳专业搜索引擎奖。是目前互联网上最全面、综合性最强的科 技文献门户网站之。它只面向包含有科学内容的网站,如:大学和作者个人主页以及 e l s e v i e r 自己的数据库。 2 b e r k e l e y l 拘f o c u s e dp r o j e c t 们 这个系统是由印度裔科学家s c h a r k r a b a r t i 带头从事,他是最早从事这方面研究的 人之一。该系统通过两个程序来指导爬行器:一个是分类器,用来计算下载文档与预定 主题的相关度。另一个程序是净化器,用来确定那些指向很多相关资源的页面。在算法 中,称之为中心网页。 2 东北师范大学硕士学位论文 3 n e c 研究院的c i t e s e e r c i t e s e e r 是一个非常有名的针对计算机科学领域论文的检索系统。c i t e s e e r 的核心是 a c i ( a u t o m a t i c a l l yc i t a t i o ni n d e x ) ,它可以自动地对网上的电子文件进行索引并分类。 4 美国国家科学数字图书馆的c o l l e c t i o nb u i l d i n gp r o g r a m ( c b p ) 这个项目旨在为科学、数学、工程和技术创建大规模的在线数字图书馆,试图研究 在某一主题上资源自动建设的可能性。c b p 具有自己的特点:第一、因为c b p 是面向教 育、面向教学,主题精确度比覆盖度更为重要。第二、c b p 不存储资源原文,而只是提 供u r l 。第三、c b p 只需要用户最少量的输入,如:关键词。系统就可以全自动的将有 关该主题的最相关的有限数量网页返回给用户。 5 i n k t o m i 的a b o u t t o m a b o u t c o i n 目前涵盖7 0 0 多个主题领域,每个主题内容定位于不同的独立空间领域, 并由公认的、具有较高专业素养和敬业精神的、该领域的权威人士担任教导员,负责资 源的收集、整理、评价和用户引导服务。 国内在面向领域的搜索引擎方面的研究,可以说是刚刚开始。主要以北大计算机网 络与分布式系统实验室为代表n 引。他们承担了国家9 7 3 重点基础研究发展规划项目“网 络环境下海量信息组织预处理的理论与方法研究 ,主题搜索引擎也被纳入其项目计划。 国内主要的主题搜索引擎有:赛迪网推出的中文垂直搜索引擎“罗盘”、i 中国搜索、原 慧聪网站推出的行业搜索等。目前,各大型商业搜索引擎如百度、一搜等推出的搜索: 图片搜索,电影搜索,购物搜索,新闻搜索等等都可以看作是特定主题的搜索。 1 3 通用搜索引擎与主题搜索引擎的区别 主题型搜索引擎与通用搜索引擎存在着很大的差别: 1 服务目的不同 通用搜索引擎面向任何用户,提供对所有信息的查询。而主题型搜索引擎则面向专 业用户,向他们提供对特定领域的信息检索。 2 搜索方式不同 通用搜索引擎对网络进行逐页的爬行,试图遍历整个w e b 。而主题型搜索引擎则采 用一定的策略预测相关网页的位置,动态地调整网页爬行方向,使系统尽可能地在与主 题相关的网页集中的地方爬行,这便节约了大量的网络资源。 3 对硬件和网络的要求不同 通用搜索引擎对硬件需求高,而主题型搜索引擎由于没有遍历整个网络,节约了大 量的网络资源,而没有自己的大型索引数据库,所以硬件需求也比较低。 东北师范大学硕士学位论文 1 4 本文的研究内容和组织结构 1 4 1 本文的研究内容 本文主要是以专业网站为主题背景,根据网站和网页结构特点,利用w e b 挖掘相 关技术设计并实现了一个只面向高校领域的主题爬虫,它专注于自己的特长和核心技 术,能够保证抓取该领域大多数信息的主题爬虫,用来满足在这个领域内查找信息的用 户的需要。较好地解决了目前通用搜索引擎及通用爬虫所存在的一些问题。主要开展了 以下几方面的工作: 1 建立一个能涵盖页面主题的主题词词库; 2 本文研究重点在于不同于多数用线性分类的方法判断是否主题相关,而是利用 b p 人工神经网络,用来指导主题爬虫爬行主题相关的资源。文中详细阐述了 b p 分类器的构建过程。并介绍了高校主题爬虫设计与实现过程中相关的关键技 术: 3 与传统的向量空间模型进行主题相关度判断的主题爬虫进行了对比和分析。实 验结果表明本文所设计的高校主题爬虫在准确率上明显优于传统方法设计出来 的主题爬虫。 1 4 2 本文的组织结构 下面是本文的组织结构: 第1 章,绪论。首先,阐述了本课题的研究背景和意义,然后介绍了主题搜索引擎 的国内外发展现状; 第2 章,相关理论与技术。主要介绍了搜索引擎的分类,工作原理等相关知识。另 外,还介绍了网络爬虫的相关理论; 第3 章,b p 人工神经网络概述。介绍了人工神经网络的有关知识,如:b p 网络的 结构、b p 网络的特点、算法描述等; 第4 章,本论文的核心。介绍了高校主题爬虫设计的详细过程,重点阐述了b p 分 类器构建的全过程,利用它如何进行主题相关度判断。还介绍了在设计中使用的关键技 术; 第5 章,实验结果的分析对比。主要分析了该主题爬虫的爬行结果及爬行能力。且 将传统的向量空间模型进行主题相关度判定的主题爬虫与本文设计的b p 网络进行主题 相关度判定的主题爬虫进行了对比; 第6 章,总结与展望。总结本文的主要工作和展望下一步工作。 4 东北师范大学硕士学位论文 2 1 搜索引擎概述 第二章相关理论与技术 搜索引擎是为满足人们对网络信息的搜索需求而新兴的一种网络工具。搜索引擎的 基本概念出现于2 0 年代,但它的真正发展和应用却是在9 0 年代。特别是在9 0 年代中 期得到快速的发展1 。搜索引擎是使用某些软件程序以一定的策略把互联网上的信息归 类或者人为地把某些数据归入某个类别,形成一个可供查询的大型数据库。使用搜索引 擎能够帮助人们从不同形式的数字化信息中进行搜集,并对发现的信息进行理解、提取、 组织和处理,快速找到人们所需要的信息,从而起到信息导航的目的h 别。 2 2 搜索引擎的发展 目前i n t e m e t 上的搜索引擎很多。按不同的分类标准,可分为不同的类型。按搜索 引擎的内容分,可分为:综合搜索引擎和专业搜索引擎。分别对应前文提到过的通用搜 索引擎和主题搜索引擎。按信息的组织方式分,可分为目录式搜索引擎、全文搜索引擎 和元搜索引擎n 副。 1 按内容分 ( 1 ) 通用搜索引擎 目前互联网上使用最多的是这类通用搜索引擎。它涉及的内容十分广泛,涵盖了各 学科各专业的各种各样的信息。所以,这类搜索引擎的规模通常比较大,适合于各个主 题的信息查询,旨在满足所有用户的检索需要,有较高的查全率。但是,在检索某一特 定领域,特定专业的信息时,效率比较低,准确率不太理想。 ( 2 ) 主题搜索引擎 主题搜索引擎只涉及本领域、本学科、本专业的信息,因此规模通常比较小。因为 这类搜索引擎通常由专业人员编制,而且某一学科专业的信息相对集中,所以它具有“小 而精 的特点。在查询特定领域的信息时,使用主题搜索引擎不仅可以提高检索速度, 还可以加大检索深度和力度,最终提高查全率和查准率。 2 按信息的组织方式分 ( 1 ) 目录式搜索引擎 目录索引虽然有搜索功能,但在严格意义上,它算不上是真正的搜索引擎,仅仅是 按目录分类的网站链接列表而已。目录式搜索引擎主要通过人工发现信息,并依靠标引 人员的知识进行分类。由专业人员手工建立关键字索引,建立目录分类体系。用户在利 东北师范大学硕士学位论文 用目录式搜索引擎时,可以进行浏览查询,从最高层目录开始,层层深入,直到找到所 需的信息为止。也可以进行关键词搜索。由于这类搜索引擎主要依靠人工编制,所以通 常数据库的规模比较小。恰恰也是因为这一点,这类搜索引擎的质量往往比较高,检索 效率较好。早期的y a h o o 就是目录索引的代表。 ( 2 ) 全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,也称为机器人搜索引擎。它们都是通过从互 联网上提取各个网站的信息,在以网页文字为主而建立的数据库中,检索与用户查询条 件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。因此它们是真正的搜索 引擎n 町:它是利用网络蜘蛛,从互联网上把原始的网页抓取下来,放到本地数据库上, 然后对这些原始网页进行加工处理,在后台建立网页索引数据库。在查询阶段,系统在 后台索引数据库中查找与用户搜索关键词匹配的网页,返回结果给用户。可以说是一种 面向网页全文的搜索方式。也是目前常规意义上的搜索引擎。 ( 3 ) 元搜索引擎 元搜索引擎又称集合式搜索引擎,它将多个独立搜索引擎集成在一起,用户只需递 交一次检索请求,由元搜索引擎负责转换处理后,提交给多个预先选定的独立搜索引擎, 并提供一个统一的检索界面。这样节省了用户记忆多个搜索引擎的不便,使用户的检索 要求能同时通过多个搜索引擎来实现,从而获得全面的检索效果。元搜索引擎通过综合 利用多个搜索引擎的搜索服务,可以在一定程度上弥补单个搜索引擎的不足,但是元搜 索引擎的出现,并不能使搜索引擎技术得到质的飞跃,它们仅仅是提供了搜索结果的重 新组织。 元搜索引擎又可分为:并行式元搜索引擎和串行式元搜索引擎。并行式元搜索引擎 将多个搜索引擎集成在一起,提供一个统一的检索界面。当用户输入一个检索提问时, 它会自动地对提问迸行处理,并同时发送给多个搜索引擎,同时检索多个数据库,将最 后结果经过聚合,去重新输出给用户。串行式搜索引擎则是将主要的搜索引擎集中起来, 并按类型等编排成目录,帮助导引用户根据检索需要来选择合适的搜索引擎。尽管它能 集中了多种搜索引擎,并将用户引导到相应的工具去检索。但是用户每次检索都只是使 用某一种搜索引擎,这与普通的搜索引擎是一样的。它可以说是一种“搜索引擎的搜索 引擎 n 朝。著名的元搜索引擎有i n f o s p a c e 、d o g p i l e 、v i v i s i m o 等( 元搜索引擎列表) 。 在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如:d o g p i l e ,有的则按自定 的规则将结果重新排列组合,如:v i v i s i m o 。 2 3 搜索引擎工作原理 搜索引擎并不是真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据 库。搜索引擎的原理,可以看作三步:从互联网上抓取网页对提取信息进行索引和组 织,建立索引数据库一在索引数据库中搜索排序。与此对应,搜索引擎由三个部分组成: 搜集器( w e bc r a w l e r ) ,索引器( i i l d e x e r ) 和查询:器( s e a r e h e r ) 。 6 东北师范大学硕士学位论文 1 从互联网上抓取网页 利用能够从互联网上自动收集网页的蜘蛛程序,采用一定的搜索策略,对w e b 网络 每隔一定时间进行自动访问。并沿着任何网页中的所有u r l 爬到其它网页,重复这一 过程,并收集爬过的所有网页。为了提高效率,搜索引擎可能会有多个爬虫程序进行, 同时遍历不同的w e b 子空间。 2 建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,分析页面所在u r l 、编码类型、 页面内容包含的所有关键词,提取相关网页信息( 包括网页所在u r l 、编码类型、页面 内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等) 。 根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每 一个关键词的相关度( 或重要性) ,然后用这些相关信息建立网页索引数据库。 3 。在索引数据库中搜索排序 用户输入关键词搜索后,由搜索系统程序从索引数据库中找到与用户查询请求相关 的所有网页。采用与分析网页文档相似的方法来处理用户查询要求。如第二步所述所有 相关网页针对该关键词的相关度早己算好,所以只需按照现成的相关度数值排序:相关 度越高,排名越靠前。最后,将相关度大于阈值的所有网页按相关度递减的顺序排列, 并返回给用户。 2 4 主题搜索引擎 所谓主题搜索引擎,就是以构筑某一专题或学科领域的网络信息资源库为目标,智 能地在互联网上搜集符合这一专题或学科需要的信息资源。能够为包括学科信息门户、 专业信息机构、特定行业领域、公司信息中心、行业专家等等在内的信息用户,提供整 套的网络信息资源开发方案。 2 5 网络爬虫简介 2 5 1 网络爬虫定义及分类 网络爬虫口6 1 7 1 踟( 又称为蜘蛛( s p i d e r ) 、爬虫( c r a w l e r ) 、漫游者( w a n d e r e r ) 、蠕虫( w o r m ) 或者机器人( r o b o t ) ) ,网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上 下载网页,是搜索引擎的重要组成n 们。对应于2 3 节中搜索引擎工作原理中的第一步所 讲的w e b 搜索器。如果把浩瀚的互联网比作是一个巨大的蜘蛛网,网络爬虫则是这张 网上爬来爬去的蜘蛛。网络爬虫是通过网页的链接地址来寻找网页,从某一个页面开始, 读取网页的内容,并抽取出网页中的其它超链接地址。然后通过这些链接地址寻找下一 个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。网络爬虫w e b 的搜索是一个递归的过程。 7 东北师范大学硕士学位论文 我们可以把w e b 看作一个有向图眵0 1 。网页看作结点,网页之间的超链接等指向关 系可以看作是结点间的有向边。网络爬虫的任务简单的说就是去尽量遍历这个图,为之 建立索引。参照图的遍历算法,抓取网页,也有两种策略:深度优先、广度优先。深度 优先的优点是在设计的时候比较容易。广度优先的优点是可以并行处理,提高其抓取速 度。通用网络爬虫雎u 从一个或若干初始网页的u r l 开始,获得初始网页上的u r l 列表: 在抓取网页的过程中,不断从当前页面上抽取新的u r l 放入待爬行队列,直到满足系 统的停止条件。 主题搜索引擎是在通用搜索引擎的网络模块中加入了对所查询主题与网页内容相 关性的判定,运用各种算法访问主题相关的页面。基于此,网络爬虫可分为通用网络爬 虫和主题网络爬虫。传统搜索引擎的页面采集面向整个w 曲,普通的通用爬虫能够顺利 完成工作。但随着w e b 信息急剧膨胀和人们个性化检索日益增长的需要,定向采集信 息成为搜索引擎一个重要研究方向,主题爬虫也应运而生。它根据事先确立的主题,在 受限领域内进行定向页面采集,有选择地搜索网页。它决定了一个主题搜索引擎能为用 户提供资源索引的数量和索引的“新鲜程度 。因此主题搜索器性能的好坏直接影响了 主题搜索引擎的质量吻1 。主题爬虫属于多个领域交叉的研究范畴,涉及到信息检索乜3 埘3 、 w e b 挖掘汹、机器学习瞄3 和自然语言处理溉矧等领域。 2 5 2 主题爬虫 主题爬虫是专为查询某一领域或主题信息而出现的网页抓取工具,即需要根据一定 的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的切旺 队列中,并根据一定的搜索策略从队列中选择下一步要抓取的网页u r l ,重复上述过程, 直到满足预设条件时停止。主题爬虫是主题搜索引擎的核心和基础。它的设计是以普 通爬虫为基础的,实际上它是对一个普通爬虫功能上的扩充口。 1 9 9 4 年出现最早的使用查询来指导搜索器的搜索系统一f i s h 搜索系统2 1 ( f i s h s e a r c hs y s t e m ) 后,在1 9 9 8 年和1 9 9 9 年分别出现了s h a r k 搜索系统( s h a r ks e a r c hs y s t e m ) 1 和聚焦爬虫( f o c u s e dc r a w l i n g ) m 筠,踟。如今,主题搜索器又有了新的发展,典型的系统 有c o r a 3 ”、c o n t e x tg r a p h sf o c u s e dc r a w l e r 弼3 、i b mf o c u s e dc r a w l e r 3 4 1 、i n f o s p i d e r 3 盘分 寸。 主题爬虫主要有三部分组成:( 1 ) 分类器( c l a s s i f i e r ) ,用于判定所抓取网页与主题 的相关度,进一步可确定是否对该网页所包含的超链接进行扩展;( 2 ) 提取器( d i s t i l l e r ) , 用于找到已抓取网页集的中心网页,并确定待抓取u r l 的优先级;( 3 ) 抓取器( c r a w l e r ) , 在分类器和提取器指导下,基于具有动态可配置的优先控制策略下抓取网页。 2 5 3 通用爬虫与主题爬虫的区别 8 东北师范大学硕士学位论文 通用爬虫与主题爬虫的区别主要有以下三点h : 1 通用爬虫不分主题,只是根据爬虫的控制策略随机分配爬行任务,而主题爬虫 却是面向主题的,爬虫以特定主题为目标访问页面; 2 通用爬虫之间不存在主题方面的通讯与合作,而主题爬虫以主题为中心进行合 作,爬虫之间存在爬行任务的推荐; 3 通用爬虫的目标是尽可能多地搜集质量好的网页,但对于页面内容没有要求, 包含所有方面,主题爬虫的目标是尽可能多地爬行与主题相关的资源,尽可能 少的爬行与主题无关的页面,过滤掉无关网页,使某个主题的资源覆盖率变大, 同时要求相关资源质量好。 9 东北师范大学硕士学位论文 第三章bp 人工神经网络概述 3 1 人工神经网络 人工神经网络( a n i f i c i a ln e u r a ln e t w o r k ,a n n ) 可以概括地定义为蜘:由大量简单的 高度互联的处理元素( 神经元) 所组成的复杂的网络计算机系统。它是在现代神经学科学 研究成果基础上提出的,反映了人脑功能的若干基本特征,是模拟人工智能的一条重要 途径。是近年来再度兴起的一个高科技研究领域,也是信息科学、脑科学、神经心理学 等多种学科近几年研究的一个热点。 3 1 1 人工神经网络的产生 早在2 0 世纪初,人们就已经发现人脑的工作方式不同于现在的计算机。人脑是由 极大量基本单元( 称之为神经元) 经过复杂的相互连接而成的一种高度复杂的、非线性的、 并行处理的信息处理系统。人脑在许多方面的性能上比现代计算机高。因此人们自然会 想到如果能从模仿人脑智能的角度出发,来探寻新的信息表示、存储和处理方式,设计 全新的计算机处理结构模型,构造出一种更接近人类智能的信息处理系统,来解决实际 工程和科学研究领域中传统的冯诺依曼计算机难以解决的问题。那么必将大大促进科 学进步,并在人类生活的各个领域引起巨大变革。 人工神经网络( a n i 丘c i a jn e u r a ln e t w o r k ,简称神经网络) h 3 朋1 ,或称连接机制模型 ( c o n n e c t i o n i s mm o d e l ) ,或称并行分布处理模型( p a r a l l e ld i s t r i b u t e dm o d e l ) 。它是由大量 类似于神经元的简单处理单元广泛相互连接而成的复杂网络系统。它是借鉴人脑的结构 和特点,通过大量简单处理单元( 神经元或节点) 互连组成的大规模并行分布式信息处理 和非线性动力学系统。它是模仿生物神经网络功能的计算机模型,具有模拟人的部分形 象思维的能力。具有巨量并行性、结构可变性、高度非线性、自学习性和自组织性等特 点。因此,它能解决常规信息处理方法难以解决或无法解决的问题,尤其是那些属于思 维( 形象思维) 、推理及意识方面的问题。神经网络表现出类似人脑的学习、归纳和分类 的特征,它是通过连接强度的调整来处理的。因此,研究神经网络的根本目的在于探索 人脑加工、存储和搜索信息的机制,进而探索将此原理应用于各种信号处理的可能性。 由于人工神经网络具有复杂的动力学特性、并行处理机制、学习、联想和记忆等功 能,以及它的高度自组织、自适应能力和灵活性而受到自然科学领域学者广泛重视。近 年来,神经网络技术迅猛发展,已经在众多领域得到了成功的运用,尤其是在模式识别、 图像处理、控制优化、预测( 预报) 、人工智能等方面n 5 ,4 7 】。 i o 东北师范大学硕士学位论文 3 1 2 生物神经元模型 在人类大脑皮层中大约有1 0 0 亿个神经元,6 0 万亿个神经突触以及它们的联接体。 单个神经元处理一个事件需要1 0 q 秒,而在芯片中处理一个事件只需1 0 。9 秒。但人脑是 一个非常高效的结构,大脑中每秒钟每个动作的能量约为1 0 1 6 j ,而当今性能最好的计 算机进行相应的操作需要1 0 喃j 。生物神经元由细胞体、树突和轴突三部分组成,其结构 如图3 1 所示。树突是细胞的输入端,轴突是细胞的输出端。树突通过联结其他细胞体 的“突触”接受周围细胞由轴突的神经末梢传出的神经冲动;轴突的端部有众多神经末 梢作为神经信号的输出端子,用于传出神经冲动。生物神经元具有兴奋与抑制两种状态, 当传入的神经冲动使细胞膜电位升高到阈值( 约为4 0 m v ) 时,细胞进入兴奋状态,产生神 经冲动,由轴突输出、若传入的神经冲动使细胞膜电位低于阈值时,则细胞进入抑制状 态,没有神经冲动输出。 图3 1 生物神经元结构图 神经元是信息处理的基本单元,具有如下重要的功能: 1 可塑性:可塑性反映在新突触的产生和现有神经突触的调整上,可塑性使神经 网络能够适应新的环境: 2 时空整合功能:时间整合功能表现在不同时间、同一突触上;空间整合功能表 现在同一时间、不同突触上; 3 兴奋与抑制状态:时间整合功能表现在不同时间、同一突触上;空间整合功能 表现在同一时间、不同突触上: 4 脉冲与电位转换:沿神经纤维传递的电脉冲为等幅、恒宽、编码( 6 卜1 0 0 m v ) 的离散脉冲信号,而细胞电位变化为连续信号。在突触接口处进行“数模转 换。神经元中的轴突非常长和窄,具有电阻高、电压大的特性,因此轴突可以 建模成阻容传播电路; 5 突触的延时和不应期:突触对神经冲动的传递具有延时和不应期性,在相邻的 二次冲动之间需要一个时间间隔。此时期对激励不响应,不能传递神经冲动; 东北师范大学硕士学位论文 6 学习、遗忘和疲劳:突触的传递作用有学习、遗忘和疲劳过程。 3 1 3 人工神经元的数学模型 人工神经元网络是根据真实人脑神经网络的结构和功能,经过某种理论抽象、简化 和模拟而构成的一种信息处理系统,是由大量神经元通过极其丰富和完善的联接而构成 的自适应非线性动态系统。这一系统一般包括输入层、中间层、输出层、传递函数等, 其最基本的构件是人工神经元m 1 。 人工神经元模拟生物神经细胞,可以把一个神经细胞用一个多输入、单输出的非线 性节点表示。一个典型的人工神经元模型如下图所示。 x i x 2 x j x n 图3 2 人工神经元结构图 在图中,x 。,x :,x 。是神经元的输入,即来自前级n 个神经元轴突的信息,是i 神经元的闽值,w n ,w 。:,w 。分别是i 神经元对x 。,x :,x 。的权系数,也即突触的传 递效率;y i 是i 神经元的输出。“ 是传递函数,它决定i 神经元受到输入x ,x :,x 。 的共同刺激达到阈值时以何种方式输出。传递函数f 有多种形式,其中最常见的有阶 跃型( 或阈值型) 、线性型和s 型三种形式呻1 。 为了表达方便,令: u ,= w 一0 , ( 3 1 ) i l l 则对应三种典型传递函数f ( u i ) 描述如下: 1 阶越型( 阈值型) 函数。它的输出是电位脉冲,故这种传递函数的神经元称离 散输出模型。 , c ,= l : 1 2 ( 3 2 ) 东北师范大学硕士学位论文 2 线性传递函数。它的输出是与输入的综合作用成正比的,故这种神经元称线性 连续型模型。 厂( ) = k u , ( 3 3 ) 3 s 型传递函数。它的输出是非线性的,连续型模型。故这种神经元是非线性的。 3 1 4 人工神经网络的工作过程 神经网络模式识别的过程分为两步。首先是学习过程,也可称为训练过程。通过大 量的训练样本,对网络进行训练,此时,各计算单元学习状态不变,执行某种学习规则。 也就是不间断地调节连接权值,然后使网络具有某种期望的输出,这种输出就可以将训 练样本正确分类到其所属类别中去。此时,可以认为网络是学习到了输入数据或样本间 的内在规律,获取合适的映射关系或其它的系统性能。神经网络的学习规则表现在调整 神经网络的连接权值的规则,网络的学习形式表现在改变权值上。学习规则可以分为两 类劂:有监督学习和无监督学习。有监督学习就是通过外部教师信号进行学习,即要求 同时给出输入和正确的期待输出的模式对,当实际输出结果与期望输出有误差时,网络 将通过自动机制调节相应的连接强度,使之向减少误差的方向改变。经过多次反复训练, 最后与正确的结果相符合。无监督学习就是不需要外部教师信号,因而不能确切知道正 确的反响是什么,学习表现为自适应于输入空间的检测规则。其学习过程表现为:给系 统提供动态输入信号,以使各个单元以某种方式竞争,获胜的神经元本身或相邻域得到 增强,其他神经元进一步抑制,从而将信号空间划分为有用的多个区域。常见的学习规 则为璐1 侧:无监督h e b b 学习规则,有监督的d e l t a 学习规则,有监督的h e b b 学习规则。 接下来是工作过程,其实也是分类的过程。应用前面学习过程所训练好的权值,计算单 元的状态变化,最终达到一个稳定的状态,对任意送入网络的样本进行分类; 3 2b p 人工神经网络 b p 人工神经网络最初是由p a u lw e r b o s s 在1 9 7 4 年提出的插引,但未得到传播,直到 1 9 8 6 年由r u m e l h a r t 和m c c l e l l a n d 明确完整提出了一种最直观、最容易理解的人工神 经网络误差反向传播的训练方法。输出层的直接前导层的误差,再用这个误差估计更前 一层的误差。如此下去,就获得了所有其他各层的误差估计。这样就形成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论