p2p收索引擎文献综述剖析_第1页
p2p收索引擎文献综述剖析_第2页
p2p收索引擎文献综述剖析_第3页
p2p收索引擎文献综述剖析_第4页
已阅读5页,还剩8页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、重庆理工大学毕业论文文献综述中文搜索引擎技术与P2P技术简介李瑞敏(一)中文搜索引擎技术概述互联网在近年飞速发展,互联网已经深入人们的生活,并慢慢改变人们的生活,从“网络广告”到“拇指经济“,从“网络游戏”到“搜索力经济”。目前搜索引擎已经成为互联网行业中最受人们关注的焦点。搜索引擎的基础技术是全文检索, 20 世纪 60年代,国外就已经开始对全文检索技术进行研究。 其核心是对文本信息的索引和检索,一般用于企事业单位。 随着互联网的发展, 搜索引擎在全文检索技术上发展起来,并得到了广泛的应用。搜索引擎结合互联网发展的特点形成了三种典型的类型:( 1)全文检索搜索引擎:国外具代表性的有Googl

2、e、yahoo、AllTheWeb 等,国内著名的有百度。它们都是通过从互联网上提取的各个网站的信息 (以网页文字为主) 而建立的数据库, 检索与用户查询条件匹配的相关记录, 然后按一定的排列顺序将结果返回给用户, 也是目前常规意义上的搜索引擎。( 2)目录搜索引擎:目录索引虽然有搜索功能, 但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而己。用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。国外比较著名的目录索引搜索引擎有Yahoo、Open Directory Project、LookSmart 等。国内的搜狐、新浪、网易搜索也都具有这一类功能。( 3)

3、元搜索引擎:元搜索引擎在接受用户查询请求时,同时在其它多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有Dogpile 、Vivisimo等。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile ,有的则按自定的规则将结果重新排列组合如 Dogpile 。其他的像新浪、网易、等搜索引擎都是调用其它全文检索搜索引擎或者在其搜索结果的基础上做了二次开发。中文搜索引擎基本技术分析搜索引擎的门槛主要是技术门槛包括网页数据的快速采集、海量数据的索引和存储、 搜索结果的相关性排序搜索效率的毫秒级要求、分布式处理和负载均衡、自然语言的理解技术等等这些都是搜索引擎的门槛。1重庆理工大学

4、毕业论文文献综述搜索引擎可以主要划分为如下几大基础技术模块:( 1)抓取互联网数据通过自动抓取网页的蜘蛛程序广度遍历整个互联网 , 并且保存访问过的网站页面以供程序分析。( 2)建立索引数据库由索引系统对收集到的网页进行分析, 提取相关网页信息, 根据一定的相关度算法进行大量复杂计算, 得到每一个网页针对页面内容中及超链中每一个关键词的相关度,然后用这些相关信息建立网页索引数据库。( 3)搜索索引数据库当用户输入关键词搜索后, 分解搜索请求, 由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。( 4)搜索结果的排序所有相关网页针对该关键词的相关信息在索引库中都有记录, 只需综合相

5、关信息和网页级别形成相关度数值, 然后进行排序, 相关度越高排名越靠前。 最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。主要的一些技术:网络蜘蛛:通过网页的链接地址来寻找网页。 从网站某一个页面通常是首页开始读取网页的内容, 找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页,这样一直循环下去直到把这个网站所有的网页都抓取完为止。 如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。在抓取网页的时候网络蜘蛛一般有两种策略: 广度优先和深度优先。 广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页, 然后再选择

6、其中的一个链接网页继续抓取在此网页中链接的所有网页。 这是最常用的方式。 因为这个方法可以让网络蜘蛛并行处理提高其抓取速度。 深度优先是指网络蜘蛛会从起始页开始一个链接一个链接跟踪下去处理完这条线路之后,再转入下一个起始页继续跟踪链接。排序技术:在搜索引擎的数据库中普通一个搜索往往有上百万条结果, 如何按照某种方式对结果排序, 最终展示给访问者, 是搜索引擎中一个基本而关键的技术。 排序技术的好坏直接影响到搜索引擎的性能优劣。 经过多年的发展目前已经有多种排序技术 PageRank技术、超链分析技术、 HillTop 技术、锚文本、页面版式。2重庆理工大学毕业论文文献综述中文分词技术是关键技术

7、: 直接影响相关排序技术的准确的程度, 现有的分词算法可分为三大类: 基于字符串匹配的分词方法、 基于理解的分词方法和基于统计的分词方法。( 1)基于字符串匹配的分词方法这种方法又叫做机械分词方法。它是按照一定的策略将待分析的汉字串与一个“充分大” 的机器词典中的词条进行匹配。 若在词典中找到某个字符串, 则匹配成功识别出一个词。按照扫描方向的不同串匹配, 分词方法可以分为正向匹配和逆向匹配。按照不同长度优先匹配的情况, 可以分为最大最长匹配和最小最短匹配。 按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。对于机械分词, 可以建立起一般的格式化模型。 其中典

8、型的代表是分词模型和基于图论的分词模型。 分词模型提出较早目前已经被普遍的的认同和使用, 后者提出时间较晚,它的核心是将图论思想引入分词中。(2) 基于理解的分词方法:这种分词方法是通过让计算机模拟人对句子的理解达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析利用句法信息和语义信息来处理歧义现象。它通常包括三个部分分词子系统、 句法语义子系统、 总控部分。这种分词方法需要使用大量的语言知识和信息。 由于汉语语言知识的笼统、 复杂性难以将各种语言信息组织成机器可直接读取的形式。因此目前基于理解的分词系统还处在试验阶段。(3) 基于统计的分词方法由于汉语词的定义的模糊性, 有些学者利

9、用统计方法, 通过对大规模真实文本的统计,让计算机自己判断什么是词, 这样就产生了基于统计的分词方法, 又称为无词典分词。这类方法分词的依据和主要思想是: 词是稳定的字的组合, 因此在上下文中,相邻的字同时出现的次数越多, 就越有可能构成一个词。 因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。 可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字 X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。 当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。(二) P2P网络拓扑结构( 1) P2P模式与 C/S 模

10、型的比较与区别目前许多搜索引擎从体系结构上看是集中式的,即从Internet 上取回页面,经3重庆理工大学毕业论文文献综述过分析、处理后将所有的索引信息形成索引数据库集中存储在某个站点, 用户通过访问该站点实现查询。 这种架构的搜索引擎服务器负载过大, 一旦大量用户同时向服务器请求检索服务, 搜索引擎不可能及时响应, 也会造成网络堵塞。 由于 Internet 网络庞大,分布广泛,所提供的信息浩如烟海, 集中式的搜索引擎所能搜索到的信息十分有限,达不到深度与广度的搜索。 正因如此,人们纷纷提出建立分布式搜索引擎的策略。P2P,即英文 Peer-to Peer的缩写,中译为对等互联或点对点技术,

11、其实可以看成是一种对等的网络模型。P2P技术主要指由硬件形成连接后的信息控制技术,其代表形式是软件。 P2P不是一个新概念,它其实是互联网整体架构的基础。以前,所有的互联网上的系统都同时具有服务器和客户机的功能,后来发展的那些架构在TCPIP 之上采用了客户机服务器的结构。但是,相对于整个互联网而言, 服务器之间仍然是对等联网的。以 Email 的处理为例,互联网上并没有一个大型而唯一的邮件服务器来处理所有的 Email ,而是通过对等联网的邮件服务器相互协作,把Email 传送到相应的服务器上去。 P2P技术可以让用户可以直接连接到其他用户的计算机,进行文件共享与交换;同时, P2P在深度搜

12、索、分布计算、协同工作等方面也大有用途。传统的 C/S模型网络中客户机与服务机是分开的,是各自独立的计算机。客户端与服务器的角色在模型中是固定不变的。而P2P网络模型是非中心化的,每个节点既是服务器,又是客户端,与集中控制的C/S模型有明显的区别。P2P使得网络上的沟通变得容易、更直接共享和交互。 P2P就是人可以直接连接到其他用户的计算机、交换文件,而不是像过去那样连接到服务器去浏览与下载。P2P另一个重要特点是改变互联网现在的以大网站为中心的状态,并把权力交还给用户。P2P看起来似乎是新技术,但是正如B2C、B2B是将现实世界中很平常的东西移植到互联网上一样, P2P并不是新技术。基于 P

13、2P的分布式中文搜索引擎是将搜索引擎架设在 P2P分布式网络结构之上,利用 P2P的良好的分布式特性, 使搜索引擎从集中式走向分布式, 使搜索引擎能更深度、更广度地搜索互联网上的用户可用的信息。( 2) P2P 技术的发展第一代 P2P技术的对等网络 (Peer to Peer) 也称为集中式对等网络 ( 中心化网络模型),它的本质思想是, 整个网络结构中不存在中心节点 ( 或中心服务器 ) ,在P2P结构中,每一个节点 (Peer) 大都同时具有信息消费者、 信息提供者和信息通讯等三方面的4重庆理工大学毕业论文文献综述功能,在 P2P网络中每一个节点所拥有的权利和义务都是对等的。 第一代 P

14、2P网络采用中央控制网络体系结构。早期的 Napster 就采用这种结构。它采用快速搜索算法,排队响应时间短,使用简单的协议能够提供高性能和弹性,缺点是容易中断服务。此类对等网络还存在诸多问题, 主要表现为:中央服务器的瘫痪容易导致整个网络的崩溃,可靠性和安全性较低; 随着网络规模的扩大, 对集中服务器维护与更新的费用过高;缺乏有效的强制共享机制,资源可用性差。第二代 P2P采用全分布式网络体系结构,它也成为分布式对等网络。不再使用中央服务器,消除了中央服务器带来的问题。没有中央控制点, 不会因为一点故障导致全部瘫痪,是真正的分布式网络。 由于每次搜索都要在全网进行, 造成大量网络流量,使得其

15、搜索速度慢, 排队响应时间长。 用户 PC性能及其与网络连接方式决定网络弹性和性能。这种模式具有自组织 (ad hoc) 行为,降低了拥有者的成本, 提供可扩展性。分布式对等网络也存在弊端,主要表现在以下几个方面:搜索请求要经过整个网络或者至少是一个很大的范围才能得到结果, 占用太多带宽;网络的可扩展性不好;安全性也不高,易遭受恶意攻击,如攻击者发送垃圾查询信息,造成网络拥塞。第三代 P2P软件在节约带宽新技术中应运而生 (半分布网络结构) 。这类软件进一步改进了搜索算法,如借鉴了“Google”等搜索引擎所常用的 “快照”技术 (Snap Shot) ,然后把这些文件“快照”分布式地存放在网

16、络上。当用户发出搜索指令的时候,搜索的要求是先到达网络上的任何一台电脑上, 然后这台电脑就会再将它转到另一台有更多文件信息的电脑,第三台电脑可能就拥有文件本身一或者也可能再继续将搜索要求转到其他有正确信息的电脑。这样很大程度上提高了搜索效率,节约了带宽。 在第三代P2P网络里,分布式存放的索引文件都会随着电脑及文件的加入而持续更新。第三代 P2P采用混合网络体系结构 ( 如图 2 4所示 ) ,通常称为混合式对等网络。这种模式综合第一代和第二代的优点, 用分布的超级结点取代中央检索服务器。 采用分层次的快速搜索改进了搜索性能, 缩短了排队响应时间, 每次排队产生的流量低于第二代分布网络。 超级

17、智能结点的布设提供高性能和弹性。 没有中央控制点, 不会因为一点故障导致全部瘫痪。第四代 P2P目前正在发展中。主要发展技术有动态口选择和双向下载。动态口选择:目前 P2P使用固定的口,但是一些公司已经开始引入协议可以动态选择传输口,一般来说,口的数目在1024-4000 之间。甚至 P2P流可以用原来用于 HTTP(SMTP)的口5重庆理工大学毕业论文文献综述80(25) 来传输以便隐藏。这将使得识别跨运营商网络的P2P流,掌握其流量变得更困难。双向下载: eD和 BT等公司进一步发展引入双向流下载。可以多路并行下载和上载一个文件或多路并行下载一个文件的一部分。而传统的体系结构要求目标在完全

18、下载后才能开始上载。这将大大加快文件分发速度。以上演化的四代 P2P系统都属于 “非结构化的 P2P网络 " ,在互联网得到快速发展,目前宽带用户流量中一半以上是这种P2P流。而另一类正在研究的方向是“结构化的P2P网络”。包括 Tapestry 、 Chord、Pastry 和CAN等。正在研究的新一代的P2P应用包括多播、网络存储等都运行在这种有组织P2P重叠网上 ?。P2P技术的特点体现在以下几个方面。·非中心化 (Decentralization) :网络中的资源和服务分散在所有结点上,信息的传输和服务的实现都直接在结点之间进行,可以无需中间环节和服务器的介入,避免

19、了可能的瓶颈。 P2P的非中心化基本特点,带来了其在可扩展性、健壮性等方面的优势。·可扩展性:在 P2P网络中,随着用户的加入,不仅服务的需求增加了,系统整体的资源和服务能力也在同步地扩充,始终能较容易地满足用户的需要。整个体系是全分布的,不存在瓶颈。理论上其可扩展性几乎可以认为是无限的。·健壮性: P2P架构天生具有耐攻击、高容错的优点。由于服务是分散在各个结点之间进行的,部分结点或网络遭到破坏对其它部分的影响很小。P2P网络一般在部分结点失效时能够自动调整整体拓扑,保持其它结点的连通性。 P2P网络通常都是以自组织的方式建立起来的,并允许结点自由地加入和离开。 P2P网

20、络还能够根据网络带宽、结点数、负载等变化不断地做自适应式的调整。·高性能价格比:性能优势是P2P被广泛关注的一个重要原因。随着硬件技术的发展,个人计算机的计算和存储能力以及网络带宽等性能依照摩尔定理高速增长。采用 P2P架构可以有效地利用互联网中散布的大量普通结点,将计算任务或存储资料分布到所有结点上。 利用其中闲置的计算能力或存储空间,达到高性能计算和海量存储的目的。通过利用网络中的大量空闲资源,可以用更低的成本提供更高的计算和存储能力。·隐私保护: 在 P2P网络中,由于信息的传输分散在各节点之间进行而无需经过某个集中环节,用户的隐私信息被窃听和泄漏的可能性大大缩小。此

21、外,目前解决 Internet 隐私问题主要采用中继转发的技术方法, 从而将通信的参与者隐藏在众多的6重庆理工大学毕业论文文献综述网络实体之中。 在传统的一些匿名通信系统中,实现一机制依赖于某些中继服务器节点。而在 P2P中,所有参与者都可以提供中继转发的功能,因而大大提高了匿名通讯的灵活性和可靠性,能够为用户提供更好的隐私保护。·负载均衡: P2P网络环境下由于每个节点既是服务器又是客户机,减少了对传统Cs结构服务器计算能力、 存储能力的要求, 同时因为资源分布在多个节点, 更好的实现了整个网络的负载均衡。与传统的分布式系统相比, P2P技术具有无可比拟的优势。同时, P2P技术具有广阔的应用前景。 Internet 上各种 P2P应用软件层出不穷,用户数量急剧增加。1 张俊林 . 这就是搜索引擎 M. 北京 : 电子工业出版社 , 2012.2 张文 , 赵子铭 .P2P 网络技术原理与 C+开发案例 M. 北京 : 人民邮电出版社,2008.3 梁斌 . 走进搜索引擎 M. 北京 : 电子工业出版社 , 2007.4刘华飞 . 基于 P2P的中文搜索引擎的研究与应用D.南京邮电大学硕士学位论文,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论