网络爬虫技术浅析.doc

上传人：s*** IP属地：河南上传时间：2020-01-25 格式：DOC 页数：21 大小：144.50KB 积分：20 举报 版权申诉

已阅读5页，还剩16页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

网络爬虫技术浅析分类：java网络爬虫2012-08-18 15:091641人阅读评论(0)收藏举报网络爬虫搜索引擎url算法服务器数据库在万维网飞速发展的网络背景下，搜索引擎在人们的生活工作中无疑扮演着重要的角色，而网络爬虫则是搜索引擎技术的最基础部分。一、网络爬虫概述在搜索引擎成为主流检索工具的今天，互联网上的网络爬虫各式各样，但爬虫爬取网页的基本步骤大致相同：1）人工给定一个URL作为入口，从这里开始爬取。万维网的可视图呈蝴蝶型，网络爬虫一般从蝴蝶型左边结构出发。这里有一些门户网站的主页，而门户网站中包含大量有价值的链接。2）用运行队列和完成队列来保存不同状态的链接。对于大型数据量而言，内存中的队列是不够的，通常采用数据库模拟队列。用这种方法既可以进行海量的数据抓取，还可以拥有断点续抓功能。3）线程从运行队列读取队首URL，如果存在，则继续执行，反之则停止爬取。4）每处理完一个URL，将其放入完成队列，防止重复访问。5）每次抓取网页之后分析其中的URL（URL是字符串形式，功能类似指针），将经过过滤的合法链接写入运行队列，等待提取。6）重复步骤3）、4）、5）。1.1网页搜索策略万维网高阔无边，为了最大限度利用有限的资源，我们需要进行资源配置，并运用某些策略使爬虫优先爬取重要性较高的网页。目前主流的网页搜索策略主要有三，即：深度优先、广度优先、最佳优先。深度优先，即从起始网页开始，选择一个URL，进入，分析这个网页中的URL，选择一个再进入。如此一个链接一个链接地深入追踪下去，处理完一条路线之后再处理下一条路线。有一个例子是：在封建制度中，封建帝王的继承制度是长子优先级最高，长孙次之，次子随后。即如果长子去世，那么长孙的优先级比次子高。该类爬虫设计时较为简单。然而深度优先型网络爬虫存在一个问题：门户网站提供的链接往往最具价值，PageRank也很高，而每深入一层，网页价值和PageRank都会相应地有所下降。这暗示了重要网页通常距离种子较近，而过度深入抓取到的网页却价值很低。由于这个缺陷，广度优先策略产生了。广度优先（又称宽度优先），即从起始网页开始，抓取其中所有链接的网页，然后从中选择一个，继续抓取该网页中的所有链接页面。网络爬虫在抓取网页时普遍采用这种策略，这其中有两个原因：第一，万维网的实际深度最大能达到17层，网页之间四通八达，因此存在从一个网页到另一个网页的最短路径问题。如果采用深度优先，则有可能从一个PageRank很低的网页爬取到一个PageRank实际很高的网页，不方便计算PageRank（个人理解）。第二，采用宽度优先策略有利于多个爬虫并行爬取。这种多爬虫合作抓取通常是先抓取站内链接，遇到站外连接就爬出去，抓取的封闭性很强。广度优先策略的优点在于其设计和实现相对简单，且这种策略的基本思想是：与种子在一定距离内的网页重要度较高，符合实际。在聚焦爬虫的应用中，广度优先策略可以与网页过滤技术结合，即先用广度优先抓取一些网页，再将其中与主题无关的过滤掉。但这种方法的缺点是随着抓取网页的增多，算法的效率会变低。另外，还有一种常用于聚焦爬虫的网页搜索策略最佳优先策略。最佳优先，即按照某种网页分析算法预测候选URL与目标网页的相似度，或主题的相关性，并选取其中评价最好的一个或几个URL进行进一步的爬取。这种策略的缺陷是可能会有很多相关网页被忽略，但相对的，这种策略可以将无关网页数量降低30%90%。1.2对URL的获取和处理网络爬虫访问的是后台html代码，它分析出URL之后，对其进行过滤并将结果放入运行队列。在取得URL时要提防一种“爬虫陷阱”。因为即使一个URL能访问到相应内容，也不能保证服务器端有一个相应页面存在，例如动态网页的应用可能会使网站中存在一些无法穷尽的地址，让爬虫在一个位置上无限循环而无法终结。针对“爬虫陷阱”，其中一种应对方法是：检查URL长度（或“/”的数量），一旦超出某个阈值就不再获取。链接过滤处理涉及两个数组，第一个是“必须存在的关键字”组。分析链接时，链接中必须存在这个数组中所有关键字（例如关键字为http和index，则/index符合要求,而/html不符合要求）。另一个是“不可存在的关键字”组。分析链接时，链接中必须不存在这个数组中任何一个关键字（例如关键字为index，则/index不符合要求）。对关键字的过滤方法包括以下两种：1）只取得包含给定关键字的链接，这样取得的链接为内部链接。2）只取得不包含给定关键字的链接，这样取得的链接为外部链接。1.3页面选取问题为提高资源利用率，我们需要尽可能提取最为重要的网页。网页的重要程度判断有许多依据，如：链接的欢迎程度（通过反向链接判断）、链接的重要度（通过某种URL函数判断，如认为包含.com和home的URL重要度高于包含.cc和map的网页）、链接平均深度（通过距离种子的深度判断）、历史权重、网页质量等。当需要判断网页与某些给定关键字的相关性时，我们需要利用网页分析算法。网页分析算主要有以下三种：基于网页拓补、基于网页内容、基于用户访问。基于网页拓补，即通过已知的网页或数据，对其有间接关系的网页或网站做出评价的算法，这种算法广泛应用于实时搜索，其中又包括：网页粒度分析算法、网站粒度分析算法、网页块粒度分析算法三种。1、网页粒度分析算法常见的有链接分析算法PageRank和hits，两者都得到网页的重要度评价。其中PageRank考虑了用户访问行为的随机性和sink网页，但忽略了大多数用户访问时具有目的性的事实。针对这个问题，hits提出了权威性网页和中心型网页两个概念。2、网站粒度分析算法比网页粒度分析算法更加简单有效，其关键在于站点的划分和评级，SiteRank的计算方法与PageRank类似。利用分布式SiteRank计算，不仅降低了单机站点的算法代价，而且克服了单独站点对整个网络覆盖率有限的缺点。另外，SiteRank不会被常见的针对PageRank的造假所蒙骗。3、网页块粒度分析算法基本思想是通过某种网页分割算法，将网页分为不同网页块，排除其中与主题无关的链接后在进行进一步处理。这种分析算法可以避免广告等噪声链接的干扰。基于网页内容，即利用网页内容（文本、锚文本、其他数据等）特征进行的网页评价。其针对网页数据形式不同可分为三类：1、针对以文本和超链接为主的无结构或结构很简单的网页。随着如今网页内容的多样化，该方法已不再单独使用。2、针对从结构化的数据源（RDBMS）动态生成的页面，其数据不能直接批量访问。3、介于1和2之间的，具有较好结构，遵循一定模式或风格，可直接访问的网页。在提取html文档的文本信息时要过滤标识符，但同时还要注意依照标识符来取得版式信息（如标题、粗体、关键字等），另外还要过滤无用链接（如广告链接）。锚文本可以作为所在页面内容的评估和所指向的页面内容的评估，还可以收集一些搜索引擎不能索引的文件（例如图片）。多媒体，图片等文件一般通过锚文本和相关文件注释来判断文件内容。对于doc、pdf等有专业厂商提供的软件生成的文档，厂商会会为爬虫提供相应的文本提取接口的插件。Google对网页优先性的考虑因素有以下几点：1）查询驱动的爬取此方法适于实时搜索。对于一些最新出现的热门话题，或随时变动的数据（如股市信息），数据库里没有这些网页的信息，如果此时接受了用户的查询，则会通过已爬取的其他网页来判断未爬取的网页的相关性。2）反向链接数3）PageRank值4）前向链接数5）路径深度路径深度浅的页面被认为更重要。1.4网页去重方法网页之间的链接关系错综复杂，为了避免重复抓取同一页面，要把需要入库的链接与数据库中的运行队列和完成队列都进行比较。另外，大型搜索引擎多采取多爬虫并行合作抓取的方法，这也产生了一些问题。例如Google为了避免多爬虫合作时重复抓取同一页面，而采用了Crawl Caching Proxy（缓存代理）。网络爬虫在工作时，首先通过DNS解析一个URL的主机IP地址，然后连接相应服务器的端口并发送请求，通过服务器响应来获取相关页面内容。URL与IP之间的对应关系可能是一对一、一对多或多对一的。一个URL对应多个IP通常出现在访问量较大的域名，将一个URL与多个IP绑定以分流访问量，减小单个服务器的访问压力（如Baidu、Google）；一个IP对应多个URL则是出于节约服务器的目的，或是由于公网IP地址匮乏而产生的策略，当客户端对该IP进行访问时，先通过请求的协议头部来获取需要访问的URL，再将该请求通过反向代理或虚拟主机的方式转发到相应服务。由于这种情况，若用IP作为判断重复网页的标准，则可能因为URL与IP的一对多而出现重复获取，或因为URL与IP的多对一而出现遗漏。因此，爬虫在判断重复页面时主要以URL所谓判断标准，以保证服务的唯一性。1.5网络爬虫的效率单线程的爬虫由于页面的分析和下载不能同时而效率较低，因此出现了多线程爬虫。有一个例子可以帮助理解多线程的意义：现在很多下载软件都支持多线程同步下载，即将下载内容分成几部分同步下载，速度比单线程要快上很多。爬虫采用线程进行循环，但这存在一定弊端：一旦发生网络阻塞，整个线程就一直处于等待状态而导致死亡。一般采取线程监控的方法来解决，即存在一个主线程和一个监控线程，监控线程每隔一段时间去访问一次主线程并与其分享的变量，一旦发现超时，就认为网络阻塞，这时终止主线程并重新启动，由此避免了网络阻塞导致线程一直等待的问题。1.6网页更新对于搜索引擎而言，评价网络爬虫效率的一个重要标准是爬虫的开销。爬虫开销=重复抓取的老页面数/发掘的新页面数即是说，爬虫应当尽量发掘新页面而减少重复页面的爬取，而决定对某个网页的更新频率涉及到时间更新控制。一般做法是将这次抓取到的页面上的数据与上一次相比较，如果进行连续五次这样的比较都没有变化，则将以后爬取该网页的时间扩大为原来的2倍；如果进行连续五次这样的比较都有变化，则将以后爬取该网页的时间缩短为原来的1/2。另外，爬虫在更新网页内容时，不需要将网页重新抓取一遍，只需对网页的一些属性加以判断（如日期），并与上次结果相比即可，如果相同则无需更新。1.7实时搜索设想当用户查询一个热门话题，而爬虫还未抓取相关网页，这时就不能在用PageRank来评价网页重要性了。PageRank的计算对象是已经抓取下来的网页，即，在计算PageRank过程中不会有新页面加入，这种方法被称为“离线”（off-line）的计算方法。这种方法适合于对结果的排序，但不适用于爬虫的调度（即动态决定URL的抓取顺序），因而诞生了一种OPIC (On-line Page Importance Computation)的新型算法策略。OPIC的基本思想是：每个页面有一个初始cash，在抓取过程中，通过前向链接将cash平均分给该网页指向的所有页面（分配过程一次完成），而爬虫在爬取过程中只需优先抓取cash较多的页面。1.8其他1、对于一些出售资料的网站，他们希望搜索引擎能所引导他们的资料，但又不能无偿将资料的全部内容提供给搜索用户。因此，他们为网络爬虫提供了专门的用户名和密码，设置一定的权限，是爬虫能够对网页进行爬取而又不会让用户看到全部内容（用户点开网页时，需要提供权限验证）。2、每个网络爬虫都有自己的名字。在抓取网页时会向服务器端发送请求，该请求中包含一个用于表示爬虫身份的字段，这个请求会留在访问日志记录中，便于网站管理员查看。3、爬虫进入网站时会先访问网站服务器根目录下的robots.txt，这个协议告诉爬虫网站中那些内容希望被抓取，那些内容不希望被抓取。该协议不具备强制力。二、网络爬虫实例2.1 HeritrixHeritrix是一个爬虫框架，可以加入一些可互换的组件。Heritrix是用来获取完整精确的网站内容的爬虫，除文本内容之外，它还获取其他非文本内容（如图片等）并对其进行处理，且不对网页内容进行修改。当重复爬行相同URL时，不会对先前网页进行替换。Heritrix主要有以下几步：1）在预定的URL中选择一个并获取。2）分析，并将结果归档。3）选择已经发现的感兴趣的URL，加入运行队列。4）标记已经处理过的URLHeritrix利用广度优先策略来进行网页获取，其主要部件都具有高效性和可扩展性。然而Heritrix也有其一定的局限性，如：只支持单线程爬虫，多爬虫之间不能合作；操作复杂，对有限的资源来说是一个问题；在硬件是系统失败时，其恢复能力较差等等。2.2 NutchNutch深度遍历网站资源，将这些资源抓取到本地，使用的方法都是分析网站每一个有效的URL并向服务器端提交请求来获得相应结果，生成本地文件及相应的日志信息等。Nutch与Heritrix有几点差异，即：1）Nutch只获取并保存可索引的内容。2）Nutch可以修剪内容，或者对内容格式进行转换。3）Nutch保存内容为数据库优化格式，便于以后索引；且对重复URL，刷新替换旧的内容。4）Nutch从命令行运行、控制。5）Nutch的定制能力不够强（不过现在已经有了一定改进）。2.3 LarbinLarbin不同于以上两种网络爬虫，它只抓取网页，而不提供包括分析网页、将结果存储到数据库以及建立索引等服务。Larbin的目的是对页面上的URL进行扩展性的抓取，为搜索引擎提供广泛的数据来源。虽然工作能力较为单一，但Larbin胜在其高度可配置性和良好的工作效率（一个简单的larbin的爬虫可以每天获取万的网页），这也是Larbin最初的设计理念。2.4 LuceneLucene是一个基于Java的全文信息检索工具包，它本身不是一个完整的全文索引应用程序，而是为各种应用程序提供索引和搜索功能。只要能把要索引的数据转化的文本格式，Lucene就能对该文档进行索引和搜索。Lucene采用的是一种称为反向索引（inverted index）的方法。因此，在用户输入查询条件的时候，Lucebne能非常快地得到搜索结果。对文档建立好索引后，搜索引擎首先会对关键词进行解析，然后在建立好的索引上面进行查找并返回和用户输入的关键词相关联的文档。三、个人体会在如今信息爆炸的社会中，网络成为人们生活中不可或缺的工具，而搜索引擎又在这其中扮演者至关重要的角色。搜索引擎是一个实用性很强的研究领域，无论是网络爬虫、数据库管理、中文分词还是索引的建立方法，都值得我们去深入了解。搜索引擎技术已成为如今的热门学科之一，针对搜索引擎而产生的SEO（搜索引擎优化）也逐渐成为主流。对于网站来说，被搜索引擎索引是必要的，但近年来，随着良莠不齐的各类爬虫频繁出没，一些网站也承受着由爬虫带来的困扰。另外，各种针对搜索引擎的作弊也逐渐浮出水面，这些都是今后有待解决的问题。四、参考文献*基本资料全部来源于网络/2006/08/20/anchor-text//wiki/topic/4028808426231dbb0126232cd9470052/a/1616586//dudiaodaoke/blog/item/9529de0bea32fe2f6b60fbf1.html/searchengine//zh-cn/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E/zh-cn/Robots.txt网络爬虫技术的发展趋势北京交通大学通信与信息系统北京市重点实验室蔡笑伦摘要搜索引擎不断的发展，人们的需求也在不断的提高，网络信息搜索已经成为人们每天都要进行的内容。如何使搜索引擎能时刻满足人们的需求，我们需要找到一种方法。本文介绍了搜索引擎的分类及工作原理，阐述了网络爬虫技术的搜索策略，展望新一代搜索引擎的发展趋势。关键词网络爬虫策略搜索引擎网络快速发展的今天，互联网承载着海量的信息，能够准确快速的提取我们所需要的信息是现在的挑战。传统的搜索引擎有Yahoo，Google，百度等，这些检索信息的工具是人们每天访问互联网的必经之路。但是，这些传统性搜索引擎存在着局限性，它不能全面的准确的找到所需要的信息，也会使一些和需求无关的内容一起搜索到。严重的降低了使用这些信息的效率，所以说提高检索信息的速度和质量是一个专业搜索引擎主要的研究内容。1.搜索引擎的研究1.1搜索引擎的分类搜索引擎按其工作方式可分为三种，分别是全文搜索引擎，目录索引类搜索引擎和元搜索引擎。（1）全文搜索引擎全文搜索引擎是最常用搜索引擎，大家最熟悉的就是国外的代表Google，和国内的代表百度。它们通常都是提取各个网站的网页文字存放在建立的数据库中，检索与用户查询条件匹配的相关记录，然后按其自己设定的排列顺序将结果返回给用户。从搜索结果来源的角度，全文搜索引擎又可细分为两种，一种是拥有自己的检索程序，它们拥有自己的网页数据库，搜索到得内容直接从自身的数据库中调用，如Google和百度；另一种则是租用其他引擎的数据库，但是，是按自定的格式排列搜索结果，如Lycos引擎。（2）目录索引型搜索引擎目录索引，就是将网站分类，然后存放在相应的目录里，用户在查询所需要的内容时有两种选择一种是关键词搜索，另一种是按分类目录一层一层的查找。据信息关联程度排列，只不过其中人为因素要多一些。如果按分层目录查找，某一目录中网站的排名则是由标题字母的先后以关键词搜索，返回的结果跟搜索引擎一样，也是按自定顺序决定。目录索引只能说有搜索功能，但仅仅是按目录分类的网站链接列表。用户完全可以不用进行关键词查询，仅靠分类目录也可找到需要的信息。目录索引型搜索引擎中最具代表性的是Yahoo（雅虎）。其他著名的还有LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。（3）元搜索引擎当用户在进行查询时，元搜索引擎可以同时在其他多个引擎上进行搜索，将检索结果进行统一处理，并将结果以统一的格式返回给用户。正因为如此，这类搜索引擎的优点是返回结果的信息量更全面，但是缺点就是无用的信息太多不能准确的找到用户需要的结果。具有代表性的元搜索引擎有Dogpile、InfoSpace、Vivisimo等，中文元搜索引擎中著名的有搜星搜索引擎。在搜索结果排列方面，不同的元搜索引擎有不同的结果排列的方式。如Dogpile，就直接按来源引擎排列搜索结果，如Vivisimo，是按自定的规则将结果重新进行排列。1.2搜索引擎的工作原理搜索引擎主要是对用户要求的信息进行自动信息搜集，这个功能共分为两种：一种是定期搜索，即每隔一段时间搜索引擎主动派出“Spider”程序，目的是对一定IP地址范围内的互联网站进行检索，如果一旦发现新的网站，它会自动提取网站的信息和网址加入自己的数据库；另一种是提交网站搜索，即网站拥有者主动向搜索引擎提交网址，搜索引擎在一定时间内定向向你的网站派出蜘蛛程序，扫描你的网站并将有关信息存入数据库，以备用户查询。如果用户以关键词查询所需要的信息时，搜索引擎会在数据库中进行搜寻，如果找到与用户要求内容相匹配的网站时，搜索引擎通常根据网页中关键词的匹配程度，出现的位置/频次，链接质量等特殊的算法计算出各网页的相关度及排名等级，然后根据关联度高低，按顺序将用户所需要的内容反馈给用户。2.网络爬虫2.1通用网络爬虫和聚焦网络爬虫的工作原理网络爬虫是搜索引擎的重要组成部分，它是一个自动提取网页的程序，为搜索引擎从网上下载网页。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。与传统爬虫相比，聚焦爬虫的工作流程则较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存起来，进行一定的分析、过滤，并建立索引，为了方便之后的查询和检索。2.2网络爬虫的搜索策略(1)IP地址搜索策略IP地址搜索策略是先给爬虫一个起始的IP地址,然后根据IP地址以递增的方式搜索本IP地址段后的每一个地址中的文档，它完全不考虑各文档中指向其它Web站点的超级链接地址。这种搜索策略的优点是搜索比较全面，因此能够发现那些没被其它文档引用的新文档的信息源；但是缺点是不适合大规模搜索。(2)深度优先搜索策略深度优先搜索是一种在开发爬虫早期使用较多的方法。它的目的是要达到被搜索结构的叶结点(即那些不包含任何超链的HTML文件)。例如，在一个HTML文件中，当一个超链被选择后，被链接的HTML文件将执行深度优先搜索，也就是说在搜索其余的超链结果之前必须先完整地搜索单独的一条链。深度优先搜索沿着HTML文件上的超链走到不能再深入为止，然后返回到某一个HTML文件，再继续选择该HTML文件中的其他超链。当不再有其他超链可选择时，说明搜索已经结束。(3)宽度优先搜索策略宽度优先搜索的过程是先搜索完一个Web页面中所有的超级链接，然后再继续搜索下一层,直到底层为止。例如，一个HTML文件中有三个超链,选择其中之一并处理相应的HTML文件，然后不再选择第二个HTML文件中的任何超链,而是返回并选择第二个超链，处理相应的HTML文件，再返回，选择第三个超链并处理相应的HTML文件。当一层上的所有超链都已被选择过，就可以开始在刚才处理过的HIML文件中搜索其余的超链。宽度优先搜索策略的优点：一个是保证了对浅层的优先处理，当遇到一个无穷尽的深层分支时，不会导致陷进WWW中的深层文档中出现出不来的情况发生；另一个是它能在两个HTML文件之间找到最短路径。宽度优先搜索策略通常是实现爬虫的最佳策略,因为它容易实现，而且具备大多数期望的功能。但是如果要遍历一个指定的站点或者深层嵌套的HTML文件集，用宽度优先搜索策略则需要花费比较长的时间才能到达深层的HTML文件。2.3网络爬虫的发展趋势随着AJAX/Web2.0的流行，如何抓取AJAX等动态页面成了搜索引擎急需解决的问题，如果搜索引擎依旧采用“爬”的机制，是无法抓取到AJAX页面的有效数据的。对于AJAX这样的技术，所需要的爬虫引擎必须是基于驱动的。而如果想要实现事件驱动，基金项目：本文系北京市自然科学基金资助项目(4102047)；北京市教育委员会学科建设与研究生建设资助项目(JXKJD20090001)；科技人员服务企业项目(2009GJA00048)。作者简介：蔡笑伦（1984-）,男，北京交通大学工程硕士研究生，主要研究方向为网络舆情技术。网络爬虫技术的发展趋势北京交通大学通信与信息系统北京市重点实验室蔡笑伦摘要搜索引擎不断的发展，人们的需求也在不断的提高，网络信息搜索已经成为人们每天都要进行的内容。如何使搜索引擎能时刻满足人们的需求，我们需要找到一种方法。本文介绍了搜索引擎的分类及工作原理，阐述了网络爬虫技术的搜索策略，展望新一代搜索引擎的发展趋势。关键词网络爬虫策略搜索引擎（下转第424页）博士专家论坛422论搜索引擎的技术策略及发展趋势马宏伟摘要：分析了搜索引擎的种类及其特点，肯定了搜索引擎在网络检索中的作用，同时指出了它在检索中存在的困难，阐明了其今后的技术策略及发展方向。关键词：搜索引擎；信息检索；网络；技术策略中图分类号：PHC文献标识码：1QQQ是世界上最大的文献资源数据库，并且以指数级的增长方式迅速发展。面对海量般的信息，人们很难检索到自己需要的信息。这包括两种情况：一是主动送上门或已经下载的信息难以消化，即所谓的“信息过载”；二是用户不知道如何确切表达自己的真正信息需求，也不知道如何更准确、更有效地寻找资源，即所谓的“资源迷向”。大量的可用信息与用户对信息的驾御能力形成强烈反差，最终用户希望寻找到一种软件助手把信息过载和信息迷向消除在其服务体系之中，减轻用户的信息困惑。!搜索引擎的种类及其特点网络检索需要高效率相匹配的检索策略来完成用户需求。在因特网中，人们常用搜索引擎来进行信息导航和检索。搜索引擎（E&4+%G.5*.&）以一定的策略在因特网中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务。目前，世界上大约有LLL多种搜索引擎，像我们熟悉的3*.，3-%8，=*:8，5-5)&，7%-等。它们主要是对网页信息进行组织，建立庞大的索引数据库，通过数据采集、数据标引、数据组织、数据检索来完成用户的提问。按照信息搜集方法和服务提供方式的不同，搜索引擎系统可以分为三大类：!A!目录式搜索引擎目录式搜索引擎（2*4&+,-47E&4+%G.5*.&）是以人工方式或半自动方式搜集信息，由编辑员查看信息之后，人工形成信息摘要，并将信息置于事先确定的分类框架中，信息大多面向网站，提供目录浏览服务和直接检索服务。因为该类搜索引擎加入了人的智能，所以信息准确、导航质量高。缺点是需要人工介入（维护工作量大）、信息量少、信息更新不及时。!AN关键词搜索引擎关键词搜索引擎是由被一个称为蜘蛛RE(*:&4S的机器人程序以某种策略自动地在F.,&4.&,中搜集和发现信息，由索引器为搜集到的信息建立索引，由检索器根据用户的查询输入检索索引库，并将查询结果返回给用户，服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大，更新及时，不需要人工干预；缺点是返回信息过多，有很多无关信息，用户必须从结果中筛选，用户负担重。!A元搜索引擎元搜索引擎（T&,E&4+%G.5*.&），也称为集合型搜索引擎。这类搜索引擎没有自己的数据库，而是将用户的查询请求同时向多个搜索引擎递交，将返回的结果进行重复排除、重新排序等处理后，作为自己的结果科技情报开发与经济E0FU$G0VFWXIYT1$FIW2GZGITGW$G0IWITNLLC年第!C卷第期!#马宏伟论搜索引擎的技术策略及发展趋势本刊$%&()*+,+-&()./0(123.145信息产业返回给用户。服务方式为面向网页的全文检索，通过统一的界面，在多个独立检索根据中选择和利用合适的检索根据来进行网络信息查询。这类搜索引擎的优点是返回结果信息量大；缺点是不能够充分使用原搜索引擎的功能，用户需要做更多的筛选。6网络检索过程中遇到的问题搜索引擎在信息检索中的作用是巨大的，它搜索的信息面广，采集到的信息新颖，适应网络信息的动态变化，以超文本和非线性排列的方式把信息返回到索引库中，按照一定的权值来确定检索到信息的重要性，把认为重要的信息排列在前，满足人们对相关信息的多方面的需求。但在实际检索过程中，我们常遇到下面的难题：搜索到的信息量太多或太少；信息的相关度小，与用户实际需求相差太大；死链接和重复链接突出；数据库刷新率不高；对动态网站的回避等。造成该情况的主要有以下因素：7!8信息分类不规范。虽然对网页信息按照主题建立了主题目录，但由于缺乏统一的控制词表，也没有按照知识组织的相关原则进行信息组织，分类目录大都粗糙，划分标准随意性大，索引词缺乏统一控制，用户对自己所需信息不能找到恰当的关键词来表达。768标引不完善，查准率低。输入一个检索词往往有许多条记录，没有从概念层次上进行文献组织，因为它们大都采用自由词机器自动标引原理，没有对采集的信息进行内容过滤，网页的相关度小。78缺少复杂检索功能。虽然多数搜索引擎也有高级检索，但它的截词检索、限制检索、位置检索、范围检索、概念检索等，远没有联机检索完善，主要是因为缺少对词汇的后控制措施。798查全率无法得到保障。由于网络资源没有专门机构和人员进行组织和管理，网络信息也是在不断动态更新的，没有一个搜索引擎能超过整个页面的!:，低质量的页面和重复页面大量返回。7;8检索结果重现性差。同一检索策略在不同搜索引擎中的检索结果相差很大。由于信息是离散分布的，用户往往无法判断搜索到的信息的重要性，使用户负担大大增加。74+页面分类，从而适应越来越多的动态网页的搜索需求，并具有一定的自适应功能和自我学习的特性。（;）智能代理技术。以用户需求为先导进行信息搜索加工，根据用户的特定需求和在一定时间内的兴趣来筛选信息。当用户需求信息表达不明确时，智能代理会利用知识推理功能来推断用户的潜在需求，选择与用户习惯最相近的需求进行匹配，并利用相关反馈机制对检索结果进行评估，根据用户兴趣转移，不断完善信息相关度匹配规则，以便为下一次检索提供可靠保障，具有自主性、反映性、适应性和社会性特点。（）知识挖掘策略。它主要解决搜索引擎在?:结构体系中的不匹配问题，在大量分布式数据信息中挖掘出符合需求的信息，发现并识别出存在于知识库中有效的、有价值的知识信息，是面向主题领域的知识提取。随着数据库规模和数量的不断增加，这种多维的知识方法会有更多的应用。9发展趋势在搜索引擎的搜索策略中，应该从主题内容入手，吸收知识组织的分类标引方法，通过对数据的总结、分类、聚类、关联、代理、推送等方法来挖掘信息，提高搜索引擎对内容的相关性要求，降低用户检索负担；利用知识地图将知识和人连接起来，降低信息噪声。其发展趋势可以从以下几方面来理解：9.!提高搜索引擎对用户提问的理解搜索引擎在对提问进行结构和内容的分析之后，或直接给出提问的答案；或引导用户从几个可选的问题中进行再选择。自然语言的优势在于，其一，可使网络交流更加人性化；其二，可使查询变得更加方便、直接、有效。9.6对检索结果进行评价（!）基于链接评价的搜索引擎。其独创的“链接评价体系”是基于这样一种认识：一个网页的重要性取决于它被其他网页链接的数量，特别是一些已被认定是“重要”的网页的链接数量。（6）基于访问大众性的搜索引擎。其基本理念是：多数人选择访问的网站就是最重要的网站。根据以前成千上万的网络用户在检索结果中实际所挑选并访问的网站和他们在这些网站上花费的时间来统计、确定有关网站的重要性排名，并以此来确定哪些网站最符合用户的检索要求。（）去掉检索结果中附加的多余信息。过多的附加信息加重了用户的信息负担。为了去掉这些过多的附加信息，可以采用用户定制、内容过滤等检索技术，确定搜索引擎的信息搜集范围，提高搜索引擎的针对性。9.搜索功能应向多样化方向发展针对信息分布无序、难以规范化和结构化、内容特征抽取复杂等特点，其搜索功能应进一步向多样化方向发展：一是检索入口多样化，可从文件名、主题、作者、网址等入手；二是检索手段多样化，进一步完善高级检索策略，包括范围检索、截词检索、概念检索、位置检索等，特别是对基于内容的声音、图象等多媒体检索；三是结果输出形式多样化，它可以按照详简程度、相关程度、重要程度、词语顺序等形式排列，也可以在返回结果中进行二次检索，还可以合并返回结果，删除重复链接等。参考文献A!B李志义.搜索引擎发展中的问题与对策ACB.情报科学，6DD6（;）：;%;#.A6B朱晓云.搜索引擎效率研究ACB.情报杂志，6DD6（!D）：69%6;.AB庄毅，黎浩宏.搜索引擎技术现状及发展动向ACB.计算机时代，6DD6（#）：!%6.A9B刘艳.网络搜索引擎与智能代理技术ACB.图书馆，6DD6（）：9;%9.7责任编辑：胡建平8#第一作者简介：马宏伟，男，!E=!年生，四川省人，!EE;年毕业于东北师范大学图书情报系，馆员，温州大学图书馆，浙江省温州市茶山高教园区，6;D;.!#$!#$%#&()*+*$)$,-+,$($#,.!*/*-&01+2*.#&34*,2$)51*678&19:*7;4+7=+：$%&()%*+,*%-.&/0&*,1-23&*32.%,*3)%*%3425%3,%6&.，3),0-&-%&*&./7%03)%3/-%0&*89%&3:%0293)%0%&()%*+,*%;-2,*302:33)%8,99,(:.3,%0,*3)%,*921&3,2*%3,%6&.5?A!4：0%&()%*+,*%；?*921&3,2*%3,%6&.；*%34253%()*,(&.3&(3,(0文章编号：!AABCDA（EAAF）ACA!#CAE收稿日期：EAAC!EC!A管理信息系统中数据交换中心的设计与实现卫丽摘要：介绍了管理信息系统中数据交换中心的概念和作用，设计了数据交换中心的模型，并根据该模型使用GHI和J%$%6,(%的技术开发了数据交换中心，并将其应用于企业的管理信息系统当中。关键词：数据交换；GHI；J%L文献标识码：M在企业信息化建设过程中，企业作为一个有机的整体，在各管理信息系统中的数据往往是需要共享，互相操作的，但由于企业的不同部门往往有多种不同类型的需求，而且企业考虑对管理信息系统的投资等各方面因素，往往存在多个采用了不同技术标准、不同软硬件平台，或者分期实施的管理信息系统，并且这些系统还很可能是不同软件提供商开发的，因此往往无法直接实现互联。如果要完全替换并由同一软件提供商新建所有业务系统也是不现实的。如果每个系统都根据其他系统的特定要求，分别提供接口供其他系统调用，那么将会大大地增加系统的复杂程度（如果一个企业有D个业务系统需要相互连接，那么就需要A个接口）。而且由于接口涉及了两个系统之间的关系，一旦一个系统发生了更改，那么就很可能要引起众多接口的修改，显然采用这种方式处理系统互连问题其开发和维护成本是相当高昂的。这就迫切需要一个数据交换中间平台，采用统一的方式，实现各个系统间不同结构和格式的数据的相互转换，并且根据数据流程的定义统一协调各个业务系统间的数据传输和消息通信。!数据交换中心模型!数据交换中心的概念数据交换中心是一种采用了特定技术进行组件和应用系统的封装，将系统的数据显示和需求都看作一种服务，通过服务的请求和调用实现系统间的数据交换和共享。它主要有以下几个特点：（!）应用系统所能提供的数据并不需要先复制到数据交换中心的中心数据库，只有当其他系统发出服务请求的时候，数据才从应用系统经过数据交换中心直接传递到请求系统。因此，其他系统中所得到的信息是最新的。（E）应用系统中的数据格式变更或增加了新的数据，只需要重新发布数据接口，数据交换中心和其他系统的接口都不需要做任何改动。（）数据交换中心本身有一套完整的安全与性能保证机制。!E总体结构在企业的管理信息系统中，数据交换中心与其他应用系统的关系是一个星型结构，处于中心位置的是数据交换中心。每个数据交换节点只需要与数据交换中心通过J%$%6,(%进行交互，并通过GHI进行数据转换，而不需要相互直接连接访问就可以获取到所需要的数据。数据交换中心完成数据的存储、格式转换和数据交换，其核心组件包括数据交换引擎、安全与性能管理、J%服务管理以及J%$%N6,(%接口。数据交换中心结构如图!所示。（!）数据交换引擎。实现数据交换和协同的核心功能，提供模式管理、数据变换和协同等服务。（E）J%$%6,(%发布管理中心。实现对J%$%6,(%服务的注册管理和发布功能。通过J%服务管理，各数据交换节点代理向数据中心注册自己的数据交换J%服务，数据中心根据注册的信息进行J%服务的路由，主动调用数据交换节点的数据访问服务来向数据交换节点传送数据或从数据交换节点获取数据。（）安全与性能管理层。安全管理层实现了用户管理、身份认证和授权管理等服务，安全管理服务中的安全中间层还提供安全的J%$%6,(%服务，管理J%服务会话，实现安全的数据交换。性能管理层实现了对系统状态监控，配置数据中心的运行参数，服务的启停控制，监控整个系统的运行状态和效率。（F）J%$%6,(%接口。向外部应用程序和数据交换节点展示数据交换的相关J%服务，J%$%6,(%服务的实现使用目前最成熟的基于OPPQ通讯的$RMQ协议。（B）中心数据库。中心数据库提供数据转储和数据仓库功能。采集和交换过程中的数据可以转储到数据库中，并在转储过程中提供数据的正确性和一致性校验功能，保证了数据权威性；数据库还为传统应用程序提供了一个全局的关系数据共享视图，利用本地数据库连接工具可进行复杂关系数据的批量检索、统计查询和数据管理。网络搜索引擎原理及未来发展趋势摘要本文比较详细地介绍了互联网搜索引擎的概念、发展历史、工作原理和未来趋势。先从工作流程的角度解释了搜索引擎实现机制，通俗地概括为预处理和提供查询服务，描绘了整个技术构成易于理解的概览图。接着对各个分支模块，包括爬虫、分布式文件系统、索引和排序规则展开详细论述，然后以实践经验为指导，分析了各个模块的改进设计。本文内容是以搜索引擎理论研究为主，并对未来搜索引擎的智能化、个性化发展趋势做了详细的介绍。本文对于从事网络技术开发、信息检索技术和数据挖掘研究都有一定的参考意义。关键词搜索引擎；体系结构；发展趋势AbstractInthispaper,amoredetailedintroductionoftheInternetsearchenginesdevelopmenthistory,theoryandtechnologywaspresented.Startwiththeperspectiveofworkflowexplainedthemechanismforimplementingawebsearchengine,whichissummarizedaspretreatmentandwebservices.Itcanbedividedasspider,distributedfilesystem,indexingandrankingrules.Furthermore,Iputforwardmyownopinionofrankingalgorithmimprovement.Meanwhile,Iexplainedthesearchenginearchitecturedesignprinciplesandacomparativeanalysisofotherpossibledesignoptions.Becauseofstrictlogicalratiocinationandabundantexperimentaldata,itsfitforvarietyofreaders.Andintelligent,personalizedtrendofsearchenginedevelopmentaredescribedindetail.ItisagoodreferenceforInformationRetrievalandDataMiningresearchandwebsearchenginedevelopment.KeywordsSearchengine；architecture;developmenttrend前言随着网络在人们生活中的普及，丰富多彩的网络资源给人们的生活、工作以及学习带来了极大的便捷.网络间接地将地理上的距离缩短，使我们可以随时随地了解来自世界各地的信息.信息的产生、传播、搜集与查询现代人最基本的活动之一，而网络是我们获取信息的最

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

网络爬虫技术浅析.doc

文档简介

温馨提示

最新文档

评论

相关文档