基于JAVA的搜索引擎设计与实现本科毕业论文(设计)毕业设计（论文）word格式.doc

上传人：灰*** IP属地：宁夏上传时间：2019-12-27 格式：DOC 页数：25 大小：524.51KB 积分：15 举报 版权申诉

基于JAVA的搜索引擎设计与实现本科毕业论文(设计)毕业设计（论文）word格式.doc_第2页

基于JAVA的搜索引擎设计与实现本科毕业论文(设计)毕业设计（论文）word格式.doc_第3页

基于JAVA的搜索引擎设计与实现本科毕业论文(设计)毕业设计（论文）word格式.doc_第4页

基于JAVA的搜索引擎设计与实现本科毕业论文(设计)毕业设计（论文）word格式.doc_第5页

已阅读5页，还剩20页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

山东财经大学本科毕业论文本科毕业论文设计设计题目题目基于基于 javajava 的搜索引擎设计与实现的搜索引擎设计与实现学学院院计算机科学与技术专专业业计算机科学与技术专业班班级级计算机科学与技术 2 班学学号号 20080854239 姓姓名名秦露指导教师指导教师林培光山东财经大学教务处制二一二年五月山东财经大学学士学位论文山东财经大学学士学位论文原创性声明山东财经大学学士学位论文原创性声明本人郑重声明所呈交的学位论文是本人在导师的指导下进行研究工作所取得的成果除文中已经注明引用的内容外本论文不含任何其他个人或集体已经发表或撰写过的研究成果对本文的研究做出重要贡献的个人和集体均已在论文中作了明确的说明并表示了谢意本声明的法律结果由本人承担学位论文作者签名年月日山东财经大学关于论文使用授权的说明山东财经大学关于论文使用授权的说明本人完全了解山东经济学院有关保留使用学士学位论文的规定即学校有权保留送交论文的复印件允许论文被查阅学校可以公布论文的全部或部分内容可以采用影印或其他复制手段保存论文指导教师签名论文作者签名年月日年月日山东财经大学学士学位论文基于 java 的搜索引擎设计与实现摘要网络中资源丰富但是互联网上海量的信息任何一个人都不能全部浏览为了获取我们需要的信息由此就产生了搜索引擎而如今搜索引擎无法满足增长着的网页数量搜索引擎技术已经成为计算机界积极研究和开发的对象网络爬虫是搜索引擎的基础是最底层的技术所以研究网络爬虫的实现技术并研究其应用十分重要论文详细说明了如何用 java 语言实现一个简易搜索引擎同时描述了搜索引擎的原理系统功能简要介绍了系统开发的背景开发环境系统的需求分析以及功能的设计与实现关键词关键词搜索引擎网络爬虫搜索策略 design and implementation of search engine based on java abstract the resources on the internet are abundant but any one of us can t browse the great quantity information on the internet so the search engine appeared to obtain the information which we need however search engines can not meet the growth in the number of pages nowadays search engine technology has become the object of active research and development of computer industry web crawler is the foundation of all and this is the underlying technology so it is very important to develop the web crawler technology also it is very important to study the application of the web crawler technology this paper details how to implement a simple search engine with java language describes the principle of the search engine system functions and briefly introduces the background of the system development development environment requirements analysis and functional designation and implementation keywords search engine web spider search strategy 山东财经大学学士学位论文目录一引言一引言 1 二搜索引擎二搜索引擎 1 一搜索引擎的工作原理 1 二搜索引擎的分类 1 三搜索引擎技术发展 2 三网络爬虫知识储备三网络爬虫知识储备 2 一深入学习 url 3 二指定 url 获取网页 3 三爬虫策略 4 1 宽度优先搜索 4 2 深度优先搜索 5 四爬取链接 5 四相关技术四相关技术 6 一 web 访问过程 6 二 java 技术 7 三网络编程 8 四 html 知识 8 五需求分析五需求分析 8 一同步环境 8 二功能需求 9 三性能需求 9 四输入输出要求 9 五运行需求 9 六概要设计六概要设计 9 一可行性论述 9 二系统设计方案 9 三各功能划分 10 四主要存储结构 10 七详细设计七详细设计 10 二获取网页实现 13 三解析 html 实现 13 四 robots 文件 18 五信息输出 19 八结束语八结束语 20 参考文献参考文献 20 致谢致谢 20 山东财经大学学士学位论文 0 一引言自从 www 于 1991 年诞生以来已经发展成为拥有超过亿位用户和约 400 万站点几十亿页面的巨大信息空间而且其信息容量仍在以指数形式飞速增长 www 是以超文本的形式呈现给用户的包含了从技术资料商业信息到新闻报道娱乐信息等多种类别和形式的信息超文本标识语言以其简单精练的语法极易掌握的通用性与易学性使 web 网页可以亲近于每一个普通人互联网也才得以普及发展以至今日的辉煌然而电子商务电子图书远程教育等全新领域如异军突起迅猛发展并逐渐成为互联网世界必不可少且愈发重要的组成部分随之而来的是 web 文件的复杂化多样化智能化于是高容量高信息量高效率便成为网络信息传输技术发展的追求与此同时还有另一种需求变得愈发广泛而迫切那便是如何得到用户感兴趣的信息由于 internet 是一个具有开放性动态性和异构性的全球分布式网络资源分布很分散且没有统一的管理和结构这就导致了信息获取的困难如何快速准确地从浩瀚的信息资源中寻找到所需信息己经成为困扰网络用户的一大难题这也就是所谓的 rich data poor information 问题于是搜索引擎便随之产生像 mp3 搜索视频搜索图片搜索正是搜索的初步雏形根据用户的搜索意图直接返回相关信息对搜索引擎技术的研究国外比中国要早近十年从最早的 archie 到后来的 excite ahvista overture google 等搜索引擎问世虽然在国外搜索引擎技术早就开始研究但在国内还是陆续涌现出优秀的搜索引擎像百度中搜等随着搜索引擎技术的成熟它将成为获取信息掌握知识的利器但是现有的搜索引擎对于用户所提出的查询要求仅限于关键词的简单逻辑组合搜索结果重视的是返回的数量而不是质量在结果文档的组织和分类上也有所欠缺因此如何提高搜索引擎的智能化程度如何按照知识应用的需要来组织信息使互联网不仅提供信息服务而且能为用户提供知识服务将成为计算机工业界和学术界有待研究的方向而网络爬虫是这一切的基础是最底层的技术所以解决这一问题就需要我们研究网络爬虫的实现技术并研究其应用二搜索引擎一搜索引擎的工作原理搜索引擎的原理可以看作三步从互联网上抓取网页建立索引数据库在索引数据库中搜索搜索引擎利用能够从互联网上自动收集网页的爬虫程序自动访问互联网并沿着网页中的所有 url 爬到其它网页重复这过程并把爬过的所有网页收集回来然后建立索引数据库由分析索引程序对收集回来的网页进行分析提取相关网页信息包括网页所在 url 编码类型页面内容包含的关键词关键词位置生成时间大小与其它网页的链接关系等然后用这些相关信息建立网页索引数据库接下来在索引数据库中搜索排序当用户输入关键词搜索后由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户二搜索引擎的分类获得网站网页资料能够建立数据库并提供查询的系统都可以把它叫做搜索引擎真正意义上的搜索引擎通常指的是收集了因特网上几千万到几十亿个网页并对网页中的山东财经大学学士学位论文 1 每一个词即关键词进行索引建立索引数据库的全文搜索引擎当用户查找某个关键词的时候所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来在经过复杂的算法进行排序后这些结果将按照与搜索关键词的相关度排列按照工作原理的不同可以把它们分为两个基本类别全文搜索和分类目录全文搜索引擎通过从互联网上提取的各个网站的信息以网页文字为主而建立的数据库中检索与用户查询条件匹配的相关记录然后按一定的排列顺序将结果返回给用户从搜索来源的角度全文搜索引擎又可细分为两种一种是拥有自己的检索程序即爬虫程序并自建网页数据库搜索结果直接从自身的数据库中调用另一种则是租用其他引擎的数据库并按自定的格式排列搜索结果分类目录则是通过人工的方式收集整理网站资料形成数据库的比如雅虎中国以及国内的搜狐新浪网易分类目录另外在网上的一些导航站点也可以归属为原始的分类目录三搜索引擎技术发展长期以来人们只是通过传统的媒体如电视报纸杂志和广播等获得信息但随着计算机网络的发展人们想要获取信息已不再满足于传统媒体那种单方面传输和获取的方式而希望有一种主观的选择性现在网络上提供各种类别的数据库系统如文献期刊产业信息气象信息论文检索等等由于计算机网络的发展信息的获取变得非常及时迅速和便捷到了 1993 年 www 的技术有了突破性的进展它解决了远程信息服务中的文字显示数据连接以及图像传递的问题使得 www 成为 internet 上最为流行的信息传播方式现在 web 服务器成为 internet 上最大的计算机群 web 文档之多链接的网络之广令人难以想象可以说 web 为 internet 的普及迈出了开创性的一步是近年来 internet 上取得的最激动人心的成就面对浩瀚的网络资源搜索引擎为所有网上冲浪的用户提供了一个入口毫不夸张的说所有的用户都可以从搜索出发到达自己想去的网上任何一个地方搜索引擎技术伴随着 www 的发展是引人注目的搜索引擎大约经历了三代的更新发展第一代搜索引擎出现于 1994 年前后以 altavista yahoo infoseek 为代表注重反馈结果的数量主要特征是求全它主要依靠人工分拣的分类目录搜索通常由网页制作人自行建立网站名称网站内容的文字摘要并将其加入到搜索引擎的资料库中搜索引擎根据用户键入的信息根据预先设定的规则进行简单的匹配排序和显示这种方法只能进行简单的字符串匹配无法进行全文搜索研究表明搜索引擎性能并没有想象中的那么优秀在全球 11 个主要的搜索引擎中搜索引擎仅能搜索到国际互联网上全部页面的 16 甚至更低造成这种情况的原因主要是这些搜索引擎没有及时更新资料第二代搜索引擎利用超链接分析为基础的机器抓取技术由搜索引擎使用一个程序在网络上撷取资料并自动将得到的结果存入索引库中搜索引擎根据用户键入的信息进行匹配排序和显示这些引擎的主要特点是提高了查准率可以用求精来描述它的优点即不需要网站制作人单独键入供搜索的信息并且从理论上讲可将任意网站的所有网页加入到它的资料库中第二代搜索引擎的大多数查询都会返回成千上万条信息查询结果中无关信息太多而且查询结果显示比较混乱使用者仍然难以找到真正想要的资料第三代搜索引擎是对第二代搜索引擎的改进相对于前两代其更注重智能化和用户使用的个性化主要增加了互动性和个性化等高级的技术采用了中文自动分类自动聚山东财经大学学士学位论文 2 类等人工智能技术而且使用了中文内容分析技术以及区域智能识别技术增强了搜索引擎的查询能力同时搜索技术将更加智能化可搜索资源将更加广泛搜索方式也将更加便捷有效为用户使用搜索引擎获取信息获得更好的体验三网络爬虫知识储备一深入学习url uri 通常由三部分组成 1 访问资源的命名机制 2 存放资源的主机名 3 资源自身的名称由路径表示如 http 协议访问的资源位于主机上通过路径 html html40 访问 url 是 uri 的一个子集它是 uniform resource locator 的缩写译为统一资源定位符也可以说 url 是 internet 上描述信息资源的字符串主要用在各种 www 客户程序和服务器程序上特别是著名的 mosaic 采用 url 可以用一种统一的格式来描述各种信息资源包括文件服务器的地址和目录等 url 的格式由三部分组成第一部分是协议或称为服务方式第二部分是存有该资源的主机 ip 地址有时也包括端口号第三部分是主机资源的具体地址如目录和文件名等第一部分和第二部分用符号隔开第二部分和第三部分用符号隔开第一部分和第二部分是不可缺少的第三部分有时可以省略 http 协议的 url 使用超级文本传输协议 http 提供超级文本信息服务的资源其计算机域名为超级文本文件文件类型为 html 是在目录 channel 下的 welcome htm 其计算机域名为超级文本文件文件类型为 html 是在目录 talk 下的 talk1 htm 文件的 url 用 url 表示文件时服务器方式用 file 表示后面要有主机 ip 地址文件的存取路径即目录和文件名等信息有时可以省略目录和文件名但符号不能省略 file 代表存放在主机上的 pub files 目录下的一个文件文件名是 foobar txt file 代表主机上的目录 pub file 代表主机的根目录爬虫最主要的处理对象就是 url 它根据 url 地址取得所需要的文件内容然后对它进行进一步的处理二指定url获取网页根据给定的 url 来抓取网页所谓网页抓取就是把 url 地址中指定的网络资源从网络流中读取出来保存到本地类似于使用程序模拟 ie 浏览器的功能把 url 作为 http 请求的内容发送到服务器端然后读取服务器端的响应资源 java 语言是为网络而生的编程语言它把网络资源看成是一种文件它对网络资源的访问和对本地文件的访问一样方山东财经大学学士学位论文 3 便它把请求和响应封装为流因此我们可以根据相应内容获得响应流之后从流中按字节读取数据例如 url 类可以对相应的 web 服务器发出请求并且获得响应文档 url 类有一个默认的构造函数使用 url 地址作为参数构造 url 对象 url pageurl new url path 接着可以通过获得的 url 对象来取得网络流进而像操作本地文件一样来操作网络资源接着可以通过获得的 url 对象来取得网络流进而像操作本地文件一样来操作网络资源 inputstream stream pageurl openstream 在实际的项目中网络环境比较复杂因此只用包中的 api 来模拟 ie 客户端的工作代码量非常大需要处理 http 返回的状态码设置 http 代理处理 https 协议等工作为了便于应用程序的开发实际开发时常常使用 apache 的 http 客户端开源项目 httpclient 它完全能够处理 http 连接中的各种问题使用起来非常方便只需在项目中引入 httpclient jar 包就可以模拟 ie 来获取网页内容本设计中还是采用前者三爬虫策略 1 宽度优先搜索在实际项目中则使用爬虫程序遍历互联网把网络中相关的网页全部抓取过来这也体现了爬虫程序爬的概念爬虫程序是如何遍历互联网把网页全部抓取下来的互联网可以看成一个超级大的图而每个页面可以看作是一个节点页面中的链接可以看成是图的有向边因此能够通过图的遍历的方式对互联网这个超级大图进行访问图的遍历通常可分为宽度优先遍历和深度优先遍历两种方式但是深度优先遍历可能会在深度上过深地遍历或者陷入黑洞大多数爬虫都不采用这种方式图的宽度优先遍历图的宽度优先遍历 bfs 算法是一个分层搜索的过程和树的层序遍历算法相同在图中选中一个节点作为起始节点然后按照层次遍历的方式一层一层地进行访问图的宽度优先遍历需要一个队列作为保存当前节点的子节点的数据结构具体的算法如下所示 1 顶点 v 入队列 2 当队列非空时继续执行否则算法为空 3 出队列获得队头节点 v 访问顶点 v 并标记 v 已经被访问 4 查找顶点 v 的第一个邻接顶点 col 5 若 v 的邻接顶点 col 未被访问过则 col 进队列 6 继续查找 v 的其他邻接顶点 col 转到步骤 5 若 v 的所有邻接顶点都已经被访问过则转到步骤 2 把互联网看成一个超图则对这张图也可以采用宽度优先遍历的方式进行访问宽度优先遍历互联网宽度优先遍历是从一个种子节点开始的而实际的爬虫项目是从一系列的种子链接开始的所谓种子链接就好比宽度优先遍历中的种子节点一样实际的爬虫项目中种子链接可以有多个而宽度优先遍历中的种子节点只有一个比如指定种子链接如何定义一个链接的子节点每个链接对应一个 html 页面或者其他文件 word excel pdf jpg 等在这些文件中只有 html 页面有相应的子节点这些子节点就是 html 页面上对应的超链接如页面中招聘网址更多以及页面下方的搜索产品技术文档成功案例新闻联系我们关于我们 english 等都是种子的子节点这些子节点本身又是一个链接对于非 html 文档比如 excel 文件等不能从中提取超链接因此可以看作是图的终端节点整个的宽度优先爬虫过程就是从一系列的种子节点开始把这些网页中的子节点山东财经大学学士学位论文 4 也就是超链接提取出来放入队列中依次进行抓取被处理过的链接需要放入一张表通常称为 visited 表中每次新处理一个链接之前需要查看这个链接是否已经存在于 visited 表中如果存在证明链接已经处理过跳过不做处理否则进行下一步处理 todo 表todo 表解析 url初始 url 图 3 1 宽度优先爬虫过程初始的 url 地址是爬虫系统中提供的种子 url 一般在系统的配置文件中指定当解析这些种子 url 所表示的网页时会产生新的 url 比如从页面中的 0 if maxurls 1 if crawledlist size maxurls break 从队列取出 url string url null if tocrawllist iterator hasnext try url string tocrawllist iterator next 山东财经大学学士学位论文 11 catch classcastexception e 从待爬队列中删除该 url tocrawllist remove url url verifiedurl verifyurl url string verifiedurlactiontime gettimestamp addresult verifiedurlactiontime 校验 url if isrobotallowed verifiedurl continue updatestats url crawledlist size tocrawllist size maxurls nothostlink s ize gt30kblist size add page to the crawled list crawledlist add url download the page at the given url string pagecontents downloadpage verifiedurl string processurlactiontime gettimestamp addresult processurlactiontime 处理 url writepage pagecontents verifiedurl integer tostring i i 若成功下载调用获取连接函数 if pagecontents null arraylist links retrievelinks verifiedurl pagecontents crawledlist nothostlink gt20kblist 添加链接 tocrawllist addall links 该方法里定义了一个循环这个线程会重复地执行爬虫动作在这个循环里首先会向 url 等待队列里请求一个 url 因为 url 队列会出现为空的情况 while crawling if tocrawllist iterator hasnext try url string tocrawllist iterator next catch classcastexception e 下载页面返回 html 内容爬取页面链接返回 links 添加到 links 如果没有得到 url 就继续向 url 等待队列申请当得到任务 url 以后会通过这个 url 得到对应的 html 代码具体方法是调用 downloadpage url pageurl 这个方法二获取网页实现 private string downloadpage url pageurl try bufferedreader reader new bufferedreader new inputstreamreader pageurl openstream string line stringbuffer pagebuffer new stringbuffer while line reader readline null pagebuffer append line return pagebuffer tostring catch exception e return null 这个方法是通过调用 java 里面的 url 这个类可以用给定的 url 构造这个类的一个实例然后通过 openstream 这个方法得到 html 代码的数据流然后再一行一行地把数据流转换成 string 字符串再用 stringbuffer 将这些字符串拼接成一个完整的 html 代码三解析 html 实现从 html 代码中提取 urls 一种方法是通过检索字符串中的 href 字符串来实现的对于一个 html 代码寻找其中的 href 字符串然后记录它的下标 i 判断下标 i 1 位置上的字符是双引号单引号或者两者皆不是然后选择对应的字符作为截取 url 的终止标记山东财经大学学士学位论文 13 截取过后的 href 标记就剔除它与它前面的部分以便而后的操作可以继续检索 href 标记直到正个 html 代码中所有的 href 标记都被解析过后操作终止首页内陆片港台片日韩片例如上面那段 html 代码先检索 href 标记然后判断出第 i 1 位为一个双引号所以可以截取 i 1 位到第 2 个双引号的位置之间的这段字符串即为 url 当完成这一步操作后原字符串被截取从 class 开始继续检索 href 标签判断它的第 i 1 位为一个单引号所以又截取 i 1 位到第 2 个单引号的位置这步以后原字符串又被截取为 target 开始可以继续检索 href 标签这个地方 href 没有接续任何符号所以当没有发现单引号或双引号的时候可以判断为这种情况就去检索空格和标签以下标较小的字符作为截取 url 的结束标记下面是 href 后面接续双引号情况的 java 代码其他情况的代码方式相同 public void gethref urlslist string html text string fromurl urlqueuemanager urlqueuemanager int index 站内url队列 list linklist new arraylist string url html中是否还含有href标签 boolean havehref html text contains href while havehref html text html text substring html text indexof href 5 当 href 后以开头的情况 if html text charat 0 html text html text substring 1 url html text substring 0 html text indexof url addurlhost fromurl url if issiteinsideurl url urlqueuemanager if urlqueuemanager iscontainurl url linklist add url havehref html text contains href urlqueuemanager waitqueueadd linklist 在每个 url 被截取出来之后需要判断这些 url 是相对地址还是绝对地址如果截取出来的 url 为 mlist 1 1 html 这种形式即为相对地址需要将其转化为绝对地址山东财经大学学士学位论文 14 根据相对地址的概念为返回上一层所以可以得到这个相对地址的绝对地址如果它包含完整的协议信息域名地址可以判断它为绝对地址相对地址与绝对地址的处理 if link indexof 1 处理绝对地址 if link startswith link http pageurl gethost pageurl getfile link substring 2 link length else if link startswith link http pageurl gethost link substring 3 link length else string file pageurl getfile if file indexof 1 link http pageurl gethost link else string path file substring 0 file lastindexof 1 link http pageurl gethost path link 当得到这些完整的 url 地址以后需要对其进行过滤很多 url 它们指向的文件不是 html 文件而是一些 css 文件或者 rar 包文件或者只是接续符号代表只是调用一段 javascript 代码像这种情况就直接抛弃这些 urls 下面一段代码通过检索 url 字符串中是否包含 css rar zip 这些后缀来进行判断如果url中包含以下字符串则不加入队列 if url tolowercase contains css url tolowercase contains rar url contains url contains zip url contains javascript return false 过滤完后的 urls 再判断它为站内 url 或者为站外 url 一般情况下同一网站内的 url 的 host 名因该是一致的所以可以通过判断 urls 中是否包含站点 host 就可以了如果为站内 url 则加入到缓存队列山东财经大学学士学位论文 15 string starthost verifiedlink gethost tolowercase int indexofpoint if indexofpoint starthost indexof 1 starthost starthost substring indexofpoint 1 string pagehost pageurl gethost tolowercase if indexofpoint pagehost indexof 1 pagehost pagehost substring indexofpoint 1 if pagehost equalsignorecase starthost if nothostlink contains verifiedlink nothostlink add verifiedlink string nothostlinkaction gettimestamp addresult nothostlinkaction 链接不属于主机 verifiedlink continue 另一种方法可利用正则表达式通过 pattern 类 matcher 类实现正则表达式功能强大能得到任何想得到的网页数据如获得链接标题等内容 string strref 具体如下设置查找的匹配模式 pattern p ppile pattern case insensitive matcher m p matcher pagecontents 创建数组 linklist 存放匹配到的字符串 arraylist linklist new arraylist while m find 处理匹配的链接筛选合格的 linklist add link string urlactiontime gettimestamp addresult urlactiontime 添加到队列 link return linklist 具体筛选过程跳过各种不符合的链接 string link m group 1 trim 跳过空链接 if link length 1024 20 if gt20kblist contains verifiedlink gt20kblist add verifiedlink string gt20kblinkaction gettimestamp 山东财经大学学士学位论文 17 addresult gt20kblinkaction 页面大小 20 kb verifiedlink continue 四 robots 文件 robots txt 是搜索引擎中访问网站的时候要查看的第一个文件 robots txt 文件告诉蜘蛛程序在服务器上什么文件是可以被查看的当一个搜索蜘蛛访问一个站点时它会首先检查该站点根目录下是否存在robots txt 如果存在搜索机器人就会按照该文件中的内容来确定访问的范围如果该文件不存在所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面 robots txt 必须放置在一个站点的根目录下而且文件名必须全部小写最简单的 robots txt 文件使用两条规则 1 user agent 适用下列规则的漫游 2 disallow 要拦截的网页 allow 允许语法是和 disallow 结合起来使用的一般网站中不需要蜘蛛抓取的文件有后台管理文件程序脚本附件数据库文件编码文件样式表文件模板文件导航图片和背景图片等等如 user agent disallow admin 后台管理文件 disallow require 程序文件 disallow attachment 附件 disallow images 图片 disallow data 数据库文件 disallow template 模板文件 disallow css 样式表文件 disallow lang 编码文件 disallow script 脚本文件允许所有搜索引擎访问网站的所有部分或者建立一个空白的文本文档命名为 robots txt 或者写为 user agent disallow 检测 robot 是否允许访问给出的 url private boolean isrobotallowed url urltocheck string host null try host string urltocheck gethost tolowercase 获取给出 rul 的主机 catch nullpointerexception e 获取主机不允许搜索的 url 缓存山东财经大学学士学位论文 18 arraylist disallowlist arraylist disallowlistcache get host 如果还没有缓存下载并缓存 if disallowlist null disallowlist new arraylist try url robotsfileurl new url http host robots txt bufferedreader reader new bufferedreader new inputstreamreader robotsfileurl openstream 读 robot 文件创建不允许访问的路径列表 string line while line reader readline null if line indexof disallow 0 是否包含 disallow string disallowpath line substring disallow length 获取不允许访问路径检查是否有注释 int commentindex disallowpath indexof if

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于JAVA的搜索引擎设计与实现本科毕业论文(设计)毕业设计（论文）word格式.doc

文档简介

温馨提示

最新文档

评论

基于JAVA的搜索引擎设计与实现本科毕业论文(设计)毕业设计（论文）word格式.doc

文档简介

温馨提示

最新文档

评论

相关文档