




已阅读5页,还剩29页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
长 春 大 学 毕业设计(论文)纸 1 装 订 线 目目 录录 1 引言 .3 1.1 课题背景与目的.3 2 系统需求分析.4 2.1 搜索引擎的功能 .4 2.2 分析结果 .4 3 相关技术介绍.5 3.1 ASP 简介 .5 3.1.1 ASP 访问数据库原理.5 3.1.2 ASP 运行环境以及 IIS .5 3.2 SQL SERVER 2000.6 4 系统实现的相关技术以及相关原理.7 4.1 搜索引擎实现的原理 .7 4.1.1 从互联网上抓取网页 .7 4.1.2 建立索引数据库.7 4.1.3 在索引数据库中搜索.7 4.1.4 对搜索结果进行处理排序.7 4.2 中文分词 .7 4.3 网络蜘蛛 .10 5 概要设计.13 5.1 系统功能结 .13 5.2 系统流程分析 .15 5.2.1 用户搜索流程图 .15 5.2.2 管理员登录流程图 .16 5.2.3 管理员部分的实现 .16 6 数据库设计.17 6.1 数据库设计概述 .17 6.2.数据结构 .17 6.3 概念结构设计 .18 6.3.1 数据表的设计 .18 6.4 E-R 图设计 .19 6.4.1 注册网站-用户界面全局 E-R 图.20 6.4.2 管理员界面全局 E-R 图 .21 7 详细设计.21 7.1 界面设计 .21 7.2 系统模块设计与实现 .22 7.2.1 搜索引擎管理员可实现以下功能.22 7.2.2 网站注册可实现以下功能 .22 7.2.3 网站搜索模块 .22 7.2.4 管理员登陆模块 .23 长 春 大 学 毕业设计(论文)纸 2 装 订 线 7.2.5 网站管理模块 .24 7.2.6 网站审核模块 .25 7.2.7 分类目录模块 .25 7.2.8 网站登录模块 .25 7.2.9 网站修改模块.26 8 系统功能测试.28 8.1 软件测试的思想与方法 .28 8.1.1 黑盒测试.28 8.1.2 白盒测试.28 8.2 搜索测试 .29 8.3 网站登录测试 .30 8.4 添加分类目录商业 .30 8.5 删除网站测试 .31 8.6 测试总结 .32 9 致谢.32 10 结 论.33 11 参考文献.34 参考文献.34 附录.34 长 春 大 学 毕业设计(论文)纸 3 装 订 线 1 1 引言引言 随着计算机科学的日渐成熟的,互联网的快速发展,其强大的功能已为人们深刻 认识,它已进入人类社会的各个领域并发挥着越来越重要的作用。随着计算机网络 技术发展,Web 数据库技术已经成为应用最为广泛的网站架构基础技术在应用系统 中,Web 提供了与用户进行通信联络的有效手段,利用 Web 技术,实现 Web 服务器 与数据库系统的连接,完成对数据的处理与查询,用户可以通过操作简单易学的浏 览器来查询处理所需要的各种数据。 1.11.1 课题背景与目的课题背景与目的 在互联网发展初期,网站信息相对较少,信息查找容易。随着互联网爆炸性的 发展,用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求, 搜索引擎应运而生了,当用户有目的地寻找目标内容但又无法直接从首页或导航页 中直接找到时,这时用户就会求助于搜索。让用户更方便、快捷、全面、准确的在 互联网上查找信息。 “艾瑞公司的市场调查显示,在中国,93.1%已使用过搜索引擎的企业,仍会 继续使用搜索引擎开展营销工作。另有调查显示,84.6%的中国网民,通过搜索获取 所需信息。这些数据表明,搜索引擎越来越被企业看中,并具有很大的市场潜力。 ” 目前搜索引擎还有些缺点,例如精度不够,搜索时间长,拓展性不够等。能够 可以提供给人们参考学习的网站自然也就更少了,这样就造成了很多网站没有搜素 引擎或者站内搜索不好等局面。如果设计出满足用户功能的搜索引擎网站,对鼓励 我们投身发展搜索引擎事业的发展,是具有现实意义的。 “我们若能更妥善地搜寻资料,实在已经改变世界。 ” 长 春 大 学 毕业设计(论文)纸 4 装 订 线 2 2 系统需求分析系统需求分析 要完成一个好的搜索引擎,首先要对其进行需求分析,这样才能令设计出软件 满足用户的各项功能,需求分析的结果是软件系统开发的基础,关系到工程的成败 和软件产品的质量。 2.12.1 搜索引擎的功能搜索引擎的功能 (1)实现站内搜索; (2)显示搜索时间; (3)智能化关键字匹配。 搜索引擎能比其他询问方式更多满足如下的几种需要: (1)社会沟通需要; (2)求知和讲解的需要; (3)生理需要。对信息的获得、保持的需要; (4)安全需要。信息探索的隐私保护需要; (5)权力需要。信息的支配和自主等需要。 2.22.2 分析结果分析结果 (1)互联网搜索引擎的背后是巨大的信息库,内容量比任何其他资源都丰富, 这更激发个体求知的需要; (2)个体使用搜索引擎进行搜索是个人对物体(网络)的沟通,个人感到隐私 得到保障,有安全感。而个人的其他咨询(如询问他人、电话咨询)是个人和其他 个人的沟通,个人隐私得不到保障; (3)搜索引擎简洁和操作方式的方便使个人可以更好的控制沟通对象,更能满 足人的权力需求。 站内搜索引擎的用户需求分析: (1)精确度检索:需要高精确度检索信息。用户难以忍受在动辄成千上万的检 索结果中,漫漫寻求自己真正需要的结果; (2)高质量摘要:信息检索结果需要高质量摘要。用户难以忍受在自动生成的 低质量摘要引导之下,一次次链接到可能一无所用的详细内容; (3)时效性:需要高时效性信息自动检索结果适时推送服务,以便不至于为了 急于得到所需信息一次次反复检索; (4)用户界面的简洁和进行检索需要最方便快捷的进入方式。 对内容生成的特别要求,搜索引擎得以成功的一个最主要前提条件是对内容要 求的苛刻。 长 春 大 学 毕业设计(论文)纸 5 装 订 线 (1)文字摘要信息的高流通效率。该策略是保证搜索快捷的首要前提条件。因此必须探索文字 摘要内容的结构化特征,直接提供简约、通用的结构化摘要发布检索链接通讯服务。 3 3 相关技术介绍相关技术介绍 3.13.1 ASPASP 简介简介 ASP(Active Server Page)内含于 Internet Information Server(IIS)当 中,提供一个服务器端(server-side)的 scripting 环境,产生和执行动态,交互 式,高效率的站点服务器的应用程序。用户不必担心浏览器是否能执行设计出来的 Active Server Pages,站点服务器会自动将 Active Server Pages 的程序码,解释 为标准 HTML 格式的主页内容,在送到用户端的浏览器上显示出来。用户端只要使用 常规可执行 HTML 码的浏览器,即可浏览 Active Server Pages 所设计的主页内容 .1 ASPASP 访问数据库原理访问数据库原理 ASP 是服务器端的脚本执行环境,可用来产生和执行动态的高性能的 WEB 服务 器程序。 当用户使用浏览器请求 ASP 主页时,WEB 服务器响应,调用 ASP 引擎来执行 ASP 文件,并解释其中的脚本语言(JScript 或 VBScript) ,通过 ODBC 连接数据库,由 数据库访问组件 ADO(ActiveX Data Objects)完成数据库操作,最后 ASP 生成包 含有数据查询结果的 HTML 主页返回用户端显示。 由于 ASP 在服务器端运行,运行结果以 HTML 主页形式返回用户浏览器,因而 ASP 源 程序不会泄密,增加了系统的安全保密性。此外,ASP 是面向对象的脚本环境,用 户可自行增加 ActiveX 组件来扩充其功能,拓展应用范围。 ASP 访问数据库步骤: (1)定义数据源;(2)指定要执行的 SQL 命令;(3)使用 RecordSet 属性和方法, 并显示结果;(4)关闭数据库。 .2 ASPASP 运行环境以及运行环境以及 IISIIS ASP 的程序代码简单、通用,文件名由.asp 结尾,ASP 文件通常由四部分构成: (1) 标准的 HTML 标记:所有的 HTML 标记均可使用;(2) ASP 语法命令:位于 标签内的 ASP 代码;(3) 服务器端的 include 语句:可用#include 语句调 入其它 ASP 代码,增强了编程的灵活性;(4) 脚本语言:ASP 自带 JScript 和 VBScript 两种脚本语言,增加了 ASP 的编程功能,用户也可安装其它脚本语言,如 Perl、Rexx 等。 ASP 的运行环境 目前 ASP 可运行在三种环境下。 长 春 大 学 毕业设计(论文)纸 6 装 订 线 (1) WINDOWS NT server 4.0 运行 IIS 3.0(Internet Information Server) 以上; (2) WINDOWS NT workstation 4.0 运行 Peer Web Server 3.0 以上; (3) WINDOWS 95/98 运行 PWS(Personal Web Server) 。 其中以 NT server 上的 IIS(Internet Information Server)功能最强,提供 了对 ASP 的全面支持,是创建高速、稳定的 ASP 主页的最佳选择。 系统设计 IIS 是 Internet 信息服务(Internet Information Server)的缩写, 它是一种 Web 服务,主要包括 WWW 服务器、FTP 服务器等,使得在 Intranet(局域 网)或 Internet(因特网)上发布信息成了一件很容易的事。WWW 服务提供维护网 站和网页,并回复基于浏览器的请求。有了 WWW 服务和它内置的功能,通过 Internet 信息服务器可以创建各种各样的 Internet 应用程序,加上其内置的对数 据库连接的支持,IIS 的功能就更强大。SQL 数据库信息或其他任何符合 ODBC 的数 据库信息都能在 Internet/Intranet 上灵活应用。 3.23.2 SQLSQL SERVERSERVER 20002000 Microsoft SQL Server2000 是一种关联式资料库(RDBMS)。此种资料库采资 料分类表格化的架构,将相关的资料组成表格,表格和表格之间可以有关联性,因 此称为关联式资料库。系统管理员可透过应用程序进入服务器,更改资料型态,管 理及处理服务器资源。SQL Server 也是一种具备延展性的资料库(scalable database),亦即 SQL Server 可以支援多位使用者同时进入资料库中处理大量的资 料。 SQL Server 系统可以安装在主式架构的作业系统平台上,或是独立的服务器主机。至于 要安装在哪一种系统上,则先要评估有多少使用者会同时在资料库中作业,以及利用资料库进 行哪种工作。 4 4 系统实现的相关技术以及相关原理系统实现的相关技术以及相关原理 4.14.1 搜索引擎实现的原理搜索引擎实现的原理 搜索引擎的实现原理,可以看作四步:从互联网上抓取网页建立索引数据 库在索引数据库中搜索对搜索结果进行处理和排序。 .1 从互联网上抓取网页从互联网上抓取网页 利用能够从互联网上自动收集网页的 网络蜘蛛 程序,自动访问互联网,并沿着 任何网页中的所有 URL 爬到其它网页,重复这过程,并把爬过的所有网页收集到服 务器中。 长 春 大 学 毕业设计(论文)纸 7 装 订 线 .2 建立索引数据库建立索引数据库 由索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页 所在 URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与 其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个 网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相 关信息建立网页索引数据库。 .3 在索引数据库中搜索在索引数据库中搜索 当用户输入关键词搜索后,分解搜索请求,由搜索系统程序从网页索引数据 库中找到符合该关键词的所有相关网页。 .4 对搜索结果进行处理排序对搜索结果进行处理排序 所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关 信息和网页级别形成相关度数值,然后进行排序,相关度越高,排名越靠前。最后 由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。 4.24.2 中文分词中文分词 众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单 位,句子中所有的字连起来才能描述一个意思。例如,英文句子 I am a student, 用中文则为:“我是一个学生” 。计算机可以很简单通过空格知道 student 是一个单 词,但是不能很容易明白“学” 、 “生”两个字合起来才表示一个词。把中文的汉字 序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词 的结果是:我 是 一个 学生。 对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所 有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面, 这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度 排序。中文分词技术 中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来 明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法 和基于统计的分词方法。 (1)基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字符串与一个 “充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功 (识别出一个词) 。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向 匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短) 长 春 大 学 毕业设计(论文)纸 8 装 订 线 匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相 结合的一体化方法。常用的几种机械分词方法如下: A 正向最大匹配法(由左到右的方向) ; B 逆向最大匹配法(由右到左的方向) ; C 最少切分(使每一句中切出的词数最小) 。 还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配 方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最 小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧 义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为 1/169,单纯使 用逆向最大匹配的错误率为 1/245。但这种精度还远远不能满足实际的需要。实际 使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语 言信息来进一步提高切分的准确率。 一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别 和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串 再来进行机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合 起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分 词结果进行检验、调整,从而极大地提高切分的准确率。 对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里 不做详细论述。 (2)基于理解的分词方法 这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思 想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现 象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分 的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进 行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识 和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直 接读取的形式,因此目前基于理解的分词系统还处在试验阶段。 (3) 基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越 多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成 词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的 互现信息。定义两个字的互现信息,计算两个汉字 X、Y 的相邻共现概率。互现信息 体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此 字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分 词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性, 会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一” 、 “之一” 、 “有 的” 、 “我的” 、 “许多的”等,并且对常用词的识别精度差,时空开销大。实际应用 的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同 时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分 词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消 除歧义的优点。 到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来 说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量 科技的分词算法就采用“复方分词法” ,所谓复方,相当于用中药中的复方概念,即 长 春 大 学 毕业设计(论文)纸 9 装 订 线 用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处 理不同的问题。 分词中的难题 有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中 文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中, 有两大难题一直没有完全突破。 (1) 歧义识别 歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为 “表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的” 。 这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就 是因为交叉歧义引起的错误。 “化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装” 。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。 交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来 判断了。例如,在句子“这个门把手坏了”中, “把手”是个词,但在句子“请把手 拿开”中, “把手”就不是一个词;在句子“将军任命了一名中将”中, “中将”是 个词,但在句子“产量三年中将增长两倍”中, “中将”就不再是词。这些词计算机 又如何去识别? 如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。 真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。 (2)新词识别 新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称 为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中, “王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果 把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都 有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成, 还是会存在问题,例如:在句子“王军虎头虎脑的”中, “王军虎”还能不能算词? 新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是 很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说, 分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统 好坏的重要标志之一。 (4) 中文分词的应用 目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距 离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。 中文分词是其它中文信息处理的基础,搜索引擎只是中文分词的一个应用。其它的 比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用 到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会, 因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在 中文研究方面,相比外国人来说,中国人有十分明显的优势。 分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高, 对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分 词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说, 长 春 大 学 毕业设计(论文)纸 10 装 订 线 分词的准确性和速度,二者都需要达到很高的要求 4.34.3 网络蜘蛛网络蜘蛛 网络蜘蛛即 Web Spider,是一个形象的名字。把互联网比喻成一个蜘蛛网,那 么 Spider 就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页, 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链 接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个 网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就 可以用这个原理把互联网上所有的网页都抓取下来。 对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布 的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。 这其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从 其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每个 页面的平均大小为 20K 计算(包含图片) ,100 亿网页的容量是 1002000G 字节, 即使能够存储,下载也存在问题(按照一台机器每秒下载 20K 计算,需要 340 台机 器不停的下载一年时间,才能把所有网页下载完毕) 。同时,由于数据量太大,在提 供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重 要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。 在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(如下图 所示) 。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其 中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因 为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会 从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起 始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。 由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访 问的层数。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更 多的网页。 网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有 些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不 去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但 又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。 网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索 者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。 .1 网站与网络蜘蛛网站与网络蜘蛛 网络蜘蛛需要抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务 器负担过重。 长 春 大 学 毕业设计(论文)纸 11 装 订 线 每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身 份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为 Useragent,用于标识此网络蜘蛛的身份。 网络蜘蛛进入一个网站,一般会访问一个特殊的文本文件 Robots.txt,这个文 件一般放在网站服务器的根目录下。网站管理员可以通过 robots.txt 来定义哪些目 录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些 网站的可执行文件目录和临时文件目录不希望被搜索引擎搜索到,那么网站管理员 就可以把这些目录定义为拒绝访问目录。 而 Robots.txt 只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,网站管 理员也无法阻止网络蜘蛛对于某些页面的访问,但一般的网络蜘蛛都会遵循这些协 议,而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。 网络蜘蛛在下载网页的时候,会去识别网页的 HTML 代码,在其代码的部分,会 有 META 标识。通过这些标识,可以告诉网络蜘蛛本网页是否需要被抓取,还可以告 诉网络蜘蛛本网页中的链接是否需要被继续跟踪。例如: 表示本网页不需要被抓取, 但是网页内的链接需要被跟踪。 现在一般的网站都希望搜索引擎能更全面的抓取自己网站的网页,因为这样可 以让更多的访问者能通过搜索引擎找到此网站。为了让本网站的网页更全面被抓取 到,网站管理员可以建立一个网站地图,即 Site Map。许多网络蜘蛛会把 sitemap.htm 文件作为一个网站网页爬取的入口,网站管理员可以把网站内部所有 网页的链接放在这个文件里面,那么网络蜘蛛可以很方便的把整个网站抓取下来, 避免遗漏某些网页,也会减小对网站服务器的负担。 4.3.2 内容提取内容提取 搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来 网页包括各种格式,包括 html、图片、doc、pdf、多媒体、动态网页及其它格式等。 这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档 的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网络蜘蛛正确 跟踪其它链接有一定影响。 对于 doc、pdf 等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供 相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口,就可以轻松的提取文 档中的文本信息和文件其它相关的信息。 HTML 等文档不一样,HTML 有一套自己的语法,通过不同的命令标识符来表示不 同的字体、颜色、位置等版式,如:、 、 等,提取文本信息时需要把这些标识符都 过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的 标识符取得相应的信息即可。但在识别这些信息的时候,需要同步记录许多版式信 息,例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等, 这些信息有助于计算单词在网页中的重要程度。同时,对于 HTML 网页来说,除了标 长 春 大 学 毕业设计(论文)纸 12 装 订 线 题和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点 关系也没有,在提取网页内容的时候,也需要过滤这些无用的链接。例如某个网站 有“产品介绍”频道,因为导航条在网站内每个网页都有,若不过滤导航条链接, 在搜索“产品介绍”的时候,则网站内每个网页都会搜索到,无疑会带来大量垃圾 信息。过滤这些无效链接需要统计大量的网页结构规律,抽取一些共性,统一过滤; 对于一些重要而结果特殊的网站,还需要个别处理。这就需要网络蜘蛛的设计有一 定的扩展性。 对于多媒体、图片等文件,一般是通过链接的锚文本(即,链接文本)和相关 的文件注释来判断这些文件的内容。另外,许多多媒体文件中有文件属性,考虑这 些属性也可以更好的了解文件的内容。 动态网页一直是网络蜘蛛面临的难题。所谓动态网页,是相对于静态网页而言, 是由程序自动生成的页面,这样的好处是可以快速统一更改网页风格,也可以减少 网页所占服务器的空间,但同样给网络蜘蛛的抓取带来一些麻烦。由于开发语言不 断的增多,动态网页的类型也越来越多,如:asp、jsp、php 等。这些类型的网页 对于网络蜘蛛来说,可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语 言(如 VBScript 和 JavaScript)生成的网页,如果要完善的处理好这些网页,网 络蜘蛛需要有自己的脚本解释程序。对于许多数据是放在数据库的网站,需要通过 本网站的数据库搜索才能获得信息,这些给网络蜘蛛的抓取带来很大的困难。对于 这类网站,如果网站设计者希望这些数据能被搜索引擎搜索,则需要提供一种可以 遍历整个数据库内容的方法。 对于网页内容的提取,一直是网络蜘蛛中重要的技术。整个系统一般采用插件 的形式,通过一个插件管理服务程序,遇到不同格式的网页采用不同的插件处理。 这种方式的好处在于扩充性好,以后每发现一种新的类型,就可以把其处理方式做 成一个插件补充到插件管理服务程序之中。 .3 更新周期更新周期 由于网站的内容经常在变化,因此网络蜘蛛也需不断的更新其抓取网页的内容, 这就需要网络蜘蛛按照一定的周期去扫描网站,哪些页面是新增页面,哪些页面是 已经过期的死链接。 搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长, 则总会有一部分新生成的网页搜索不到;周期过短,技术实现会有一定难度,而且 会对带宽、服务器的资源都有浪费。搜索引擎的网络蜘蛛并不是所有的网站都采用 同一个周期进行更新,对于一些重要的更新量大的网站,更新的周期短,如有些新 闻网站,几个小时就更新一次;相反对于一些不重要的网站,更新的周期就长,可 能一两个月才更新一次。一般来说,网络蜘蛛在更新网站内容的时候,不用把网站 网页重新抓取一遍,对于大部分的网页,只需要判断网页的属性(主要是日期) ,把 得到的属性和上次抓取的属性相比较,如果一样则不用更新。 长 春 大 学 毕业设计(论文)纸 13 装 订 线 5 5 概要设计概要设计 实现访问者的关键字的相关搜索,用户的网站的添加,用户相关信息注册、保 存和用户对自身网站的内容的修改删除操作,管理员实现对站内网站相关信息的修 改、删除和对站类网站分类的管理。包括对分类的删除,添加和编辑新的分类。 5.15.1 系统功能结系统功能结 图 5-1 搜索引擎系统结构示意 索引数据库 互联网 链接信息提取 查询服务器 网络蜘蛛 蜘蛛控制 文本索引 网页评级 URL 提取 URL 数据库 链接数据库 网页数据库 用户 长 春 大 学 毕业设计(论文)纸 14 装 订 线 用户界面 网站搜索分类搜索网站登录网站管理 输入关键字 查询数据库 输入基本信息 更新数据库 库 登录成功 登录 修改信息 更新数据库显示查询结果 主界面 图 5-2 本系统结构示意图 在系统初始化时,有一个默认的“系统管理员”用户 Admin,由程序设计人员 手动地添加到数据库中。网站注册资料可以通过注册产生;所有注册网站都可以修 改自己的用户信息和密码,功能模块的关系如图所示。 图三 用户管理功能模块 图 5-3 功能模块关系图 系 统 用 户 信 息 管 理 修改 Admin 用户的密码 创建、修改和删除企业用户信息 修改自己的密码 创建、修改自己的信息 修改自己的关键字 修改自己的信息 注册网站 个人用户 Admin 用户 长 春 大 学 毕业设计(论文)纸 15 装 订 线 5.25.2 系统流程分析系统流程分析 图 5-4 信息检索流程 .1 用户搜索流程图用户搜索流程图 开始 是否存在 输入关键字 输出搜索结果 结果数目 2 条? 计算并分页显示单页显示 进入链接 否 否 是 是 图 5-5 用户搜索流程图 数据采集 建立索引 网页快 照 用户检索 索引库网站 长 春 大 学 毕业设计(论文)纸 16 装 订 线 .2 管理员登录流程图管理员登录流程图 开始 是否正确 进入管理界面 否 是 否 输入
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 委托项目融资服务合同5篇
- 2025贵州铜仁市石阡县参加第十三届贵州人才博览会引进事业单位高层次及急需紧缺人才26人考前自测高频考点模拟试题及答案详解(必刷)
- 生物膜抗性评价-洞察与解读
- 2025年咸阳亨通电力(集团)有限公司招聘(4人)考前自测高频考点模拟试题及答案详解(夺冠系列)
- 2025年山东师范大学第二附属中学第二批公开招聘人员(11名)模拟试卷及1套参考答案详解
- 2025湖南凤凰县直机关事业单位选调40人考前自测高频考点模拟试题及1套完整答案详解
- 2025广东深圳大学文化产业研究院宗祖盼副教授博士后招聘1人模拟试卷及答案详解(易错题)
- 2025贵州习水县官店镇卫生院招聘见习人员考前自测高频考点模拟试题附答案详解(完整版)
- 班组安全风险意识培训课件
- 2025年4月广东深圳市光明区群团工作部招聘社会化工会工作者3人考前自测高频考点模拟试题附答案详解(典型题)
- 室内装饰工程施工课件
- JG/T 9-1999钢椼架检验及验收标准
- JG/T 234-2008建筑装饰用搪瓷钢板
- 网络虚拟财产刑法保护的困境与突破:基于法理与实践的双重视角
- 股权代持协议(模板)8篇
- 《AI创意课件之设计》课件
- 会计中级职称《财务管理》电子书
- 河南豫信电科所属公司招聘笔试题库2025
- 小学生科普恐龙知识课件
- 2025年广东省房屋安全鉴定员理论考试题库-上(单选题)
- 高考文言文120个常见实词积累练习(学生版)
评论
0/150
提交评论