中英文文献翻译-使用ASP.NET方法减少网络爬虫故障_第1页
中英文文献翻译-使用ASP.NET方法减少网络爬虫故障_第2页
中英文文献翻译-使用ASP.NET方法减少网络爬虫故障_第3页
中英文文献翻译-使用ASP.NET方法减少网络爬虫故障_第4页
中英文文献翻译-使用ASP.NET方法减少网络爬虫故障_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

英文原文 ow to on A is a it to It is is to ET I. ll to in as in . is a or as a as so be as a of By of we a of to to a it or of To up a on we is in in of we on of on to of to or , of a WW is a of of of 9 on to is to be 0 of on A. e to of an in of to by up RL RL is RL as a it to an as by a RL or it of up in to is to to of RL it RL to of a is RL or f dd it to RL dd RL he of a is to to a o in In et is of to an in to is to at in to a n of we a RL of in to RL he to of We a on it on It RL in a , is on or a of we a At of to a we or in is in of in of of is as a , of In we it of we of to on In we # is # is is of #, is we on we we on . To we to RL : RL of at of in in . : RL of At of in in . : RL of At of in in . In is a to in In it a 385 to In 00 50 in by to In to of is in is If in V. on It is is to So 0% of of 20% of be we by as of be by In VC VC be at or be or be in a as as to of as a on to to of In a in as as as be to in as is of to a t he is to or by t Is or of to of to no of do in in by an to if an to on of VC is is to as of in is in is in is in a of be to no it 中文译文 使用 法减少网络爬虫 故障 当前的搜索引擎将网页数据从一个网页传输到另一个网页。它们在以中央服务器管理员全部信息为核心的客户服务器框架。一个网络爬虫就是一个截取网络上的信息并且将信息传送给处理器在更远出的搜索引擎的程序。人们发现最大的故障大约百分之四十点一是由于网络爬虫。已近提交的方案表明使用域名网页和 取要求机制和使用 ,网络爬虫是如何减少网络故障。 1. 介绍 所有的搜索引擎有强大的搜索器可以在英特网上实时的获取有用的信息。被检测到的网页时被索引和被存储在数据库,作为特色一。实际上,英特网是一个有向图或者代码的网页和超链接边缘,于是搜索操作可以被抽象为一个遍历有向结构图的过程。当我们在网页的连接结构中操作时,可以从刚打开创建的页面上浏览一些新的页面。网页搜索器是设计用来检测网页和将他们的典型添加到本地数据库。 搜索器每一周将它们的信息更新,有时它们也每一年或一个月进行更新。它们不能提供新版本的频繁更新的网页,为了在不给信息提供者增加负担而可以及时获取更 新了的信息,我们相信检测和处理周围数据源的数据时不可避免的。当前越来越多的搜索引擎可以在市场上购买到。网页阻碍复杂度的上升要求我们要在网页请求符号上建立模型而不是在页面。 2. 相关工作 网页搜索器是利用文本和网页上的连接创建网页的所搜索引的软件系统,利用 连接取追寻或搜索页面间的连接。 万维网是一个基于不同网页地址拥有亿万超链接仓库的连接文档。万维网的传输不断的增加并且被估测超过英特网总数的百分之七十的网络。 我们需要知道一些在网页搜索中扮演重要作用的基本网页搜索专业术语。 种子页面,搜索链接以为 着通过从统一资源定位器的设置选择初始的统一资源定位器去循环的贯穿网络。初始的统一资源定位器就是一个所有的搜索器开启它们搜索处理器的完全点。这个设置就是我们熟知的种子页面。 前沿,搜索进程在一个被提供的统一资源定位器启动,从它开始跟着连接并将它们添加到一个未被访问过的统一资源定位器表中。这个未被访问过的表就是前沿。这个前沿有一个队列实现。 分析器,分析一些应用的简单超链接或者统一资源定位器跟踪器或者它可能涉及了更加复杂的用来整理 容的进程以便分析 记树。任何分析器的工作是根据它去分析被读取的页 面去追踪信的统一资源定位器表并且将新的未被访问的统一资源定位器传给前沿。 下面是网页搜索器的基本运行流程,开始时从种子统一资源定位器读取资源定位,检查是否文档已经被下载或者没有被下载,如果文档已经被下载好那边跳转出,否则将他添加到前沿,现状从前沿中选择资源定位器的值并且根据它追踪新的连接,将所有新访问的资源定位器添加到前沿,跳出此循环重复着同样操作,结束。一个搜索器主要的功能就是讲新的连接添加到前沿。 一些研究者们为了减少网页搜索传输故障已经在下面的领域完成了他们的研究:在这方面制作者使用带有 取要 求的最新被访问的域名网页。一个使用动态网络去减少不必要的搜索故障的方法。作者使用一种可利用带宽控制系统的方法,目的是减少在英特网上的网页搜索拥挤故障。有一个放置在网页服务器的移动搜索器。搜索器检查在网址上的更新并将它们以索引的形式传送给搜索引擎。还有一个领域就是由 术设计一个新的网页搜索器。 3. 操作基体 在实现网页爬虫时我们至今考虑了一些假设简化演绎的算法和实现与结果。从一个统一资源定位器表中取出一个资源定位器的值。决定一个依靠主机的协议比如 。下载相对应的文档。追踪任何被包 含在里面的连接。将这些连接添加到统一资源定位器列表中。 4. 模拟器 这模拟器被设计用来研究从同一个资源定位器表中的不同搜索方法的行为类型。 体应用项目类型设计一个搜索器,我们的搜索器可以在本地运行也可在全局运行,这意味着它能够在内网和往外给出结果。它以一个像雅虎这样的统一资源定位器并且设置一个位置或者名字以便将搜索到的结构保存到 据库中。网页搜索器的用户接口快照既不是在内网中运行也不是在外网上运行的。我们用一个网页地址为获得一个搜索结果,调度器从网址队列中选择 最新的网址并将着网址信息传给能够测量从网站上下载来的额页数模型。对于这个模拟器我们有搜索警察和保存被收集和下载到带有数据域的 这个搜索出来的结果以表的形式显示,该表以列和行的结果描述输出的结果作为快照。 特色三是搜索结果的数据库快照,在这个建议的工作中我分析了当我们搜索网址时它已经将所有的网页地址下载了的情形。第二次当我搜索同一个网址时我发现搜索器在网址更新它的域名网页和少有的静态网页时就重复搜索所有的网页。为了减少艘搜索的拥挤故障我们将域名网页运用去通知网页关于新的页面并在网址上进行更新。在实验中我们使用七个网页的网址。网址使用 c#语言建立在 。域名网页是用 c#语言被编码成的。网页搜索器是用 行编码的。被传输的最新访问量是系统的百万次,用 c#返回,更新的数据结构是以毫秒次数维护的 。首先我们用老的方法在网址上演示搜索。然后我们用已经提出的方法演示同样的搜索。当我们在网址上进行演示搜索时,这些结果被包含在表一中。为了测试已经提出的方法我们直接将网页搜索器连接域名网页的 且将最后访问得时间在统一资源定位器上设置演示搜索。 测试一,更新时间和网页索引、分支的资源定位器值在网页搜索更新数据结构的处理器在更新中将最后访问的时间在网页的时间前进行设置。演示的结果都被包含在表二中。 测试二,测试三与测试以操作相同,搜索的结果在被包含在表三、四中。 按常规来说,搜索是一个时间消耗的过程,因 为搜索器每访问页面时都要在网址上知道所有的已经被更新的信息。在正常的搜索中它访问整的七个页面,搜索器花了 1385 毫秒去访问遍历网址,用已经提出的方法搜索器只访问域名系统更新的网页和已经被更新的网页。搜索器在有三个更新时花费 500 毫秒就行搜索,在有两个更新时花费 450 毫秒。当有三个更新在实验中,被提出的网址首页比老的方法块 。在有两个更新是比老的方法快 图形一显示了被网页搜索器下载更新时花费的时间。在正常的搜索中,搜索器一般去找到更新需要访问七个页面。但是用被提出的方法时访问网页的数目是很 少的。当有一个更新时只需要访问两个页面,当有两个更新时需要访问三个页面。如果有三个更新在网址时需要搜索四个网页。 5. 结论 用此种方法搜索器用域名网页在网页上寻找新的更新。用这种搜索器你可以用被请求的统一资源定位器发送,可以减少在内网张最大的搜索拥挤障碍。人们发现大约百分之 四十点一的拥挤障碍是由于网页搜索器。因此使用这种方法你可以减少网页百分之五十的拥挤障碍。这网页的未来工作我们就可以用网页登记方法和通过一些像最后定义的参数方法进行删减。这参数将定义的参数和索引的网页进行区分。最后定义的参数可被用来在网 址上索引刷新的页面。 从高级术语上说, 式意为一个 用程序将被分离成至少三个部分:模型,包含或表示了用户与之工作的数据。这些可以是简单的视图模型,它只是表现在视图与控制器之间传递的数据;也可以是域模型,它含有业务领域的数据以及处理这些数据的操作、转换和规则。视图,用于把模型的某个部分渲染成 户界面)。控制器,处理传入的请求,执行模型上的操作,选择渲染给用户的视图。 模型是应用程序工作世界的定义。例如,在一个银行应 用程序中,模型表示了应用程序所支持的银行中的任何东西,如账号、总账、客户的信 用额度等,以及能够用来维护模型中数据的操作,如存款基金以及账号撤消。 模型也负责保持整体状态和数据一致性,例如,确保所有业务加入分类账,以及一个客户端不能提取高于其限额的钱或银行现有的钱。 模型是应用程序工作世界的定义。例如,在一个银行应 用程序中,模型表示了应用程序所支持的银行中的任何东西,如账号、总账、客户的信用额度等,以及能够用来维护模型中数据的操作,如存款基金以及账号撤消。 模型也负责保持整体状态和数据一致性,例如,确保所有业务加入分类账,以及一个客户端不能提取高于其限额的钱或银行现有的钱。 模型也 由不是它们职 责的内容来定义。模型不涉及渲染 处理请求 那些是视图和控制器的责任。视图含有把模型元素显示给用户的逻辑,其它什么也没有。它们不直接感知模型,也不以任何方式与模型直接通信。控制器是视图与模 型之间的粘合剂。请求来自客户端并由控制器进行服务,控制器选择一个相应的视图向用户进行显示,而且如果需要,执行模型上的一个相关的操作。 系结构的每一部分都是定义良好和自包含的,这称为关系分离。模型中操作数据的逻辑只包含在模型中,显示数据的逻辑只在视 图中,而处理用户请求和输入的代码只包含在控制器 中。利用每个部分之间清晰的分离,你的应用程序在其生命周期中将更易于维护和扩充,无论它会变得多大。 用程序最重要的部分是域模型。对存在于应用程序必须支持的业务或活动中的真实世界的实体、操作、和规则,我们用对它们进行标识的方法来生成模型,我们称之为域。 然后我们生成这个域的软件表示:域模型。为此目的,域模型是一组 C#类型(类、结构等等),统称为域类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论