【毕业学位论文】（Word原稿）面向主题搜集系统中搜集策略的研究与评测-计算机系网络与分布式系统

上传人：O*** IP属地：四川上传时间：2016-07-10 格式：DOC 页数：30 大小：273.50KB 积分：20 举报 版权申诉

【毕业学位论文】（Word原稿）面向主题搜集系统中搜集策略的研究与评测-计算机系网络与分布式系统_第2页

【毕业学位论文】（Word原稿）面向主题搜集系统中搜集策略的研究与评测-计算机系网络与分布式系统_第3页

【毕业学位论文】（Word原稿）面向主题搜集系统中搜集策略的研究与评测-计算机系网络与分布式系统_第4页

【毕业学位论文】（Word原稿）面向主题搜集系统中搜集策略的研究与评测-计算机系网络与分布式系统_第5页

已阅读5页，还剩25页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

北京大学学士论文第 1 页论文评定意见评语 : “面向主题的搜索引擎”，是我们“天网”搜索引擎下一步发展的重要方向之一。龚笔宏同学的毕业论文，是这一新方向的良好开端。论文所涉及的工作包含了对搜索引擎技术的一般认识，通用搜索引擎和面向主题搜索引擎的对比，面向主题搜索引擎的基本工作方式，以及在各个环节中所涉及的有关算法对比与分析；而且，将上述知识和认识有效地应用到了程序设计实践中，高质量地完成了一个面向影视主题的搜索引擎系统，搜集了几十多万影视信息，在影视信息方面提供着比“天网”通用搜索引擎更有效的服务；论文内容丰富，所涉及的工作量大，且有较强的系统性，是一篇优秀的本科毕业论文。在毕业设计工作的过程中，龚笔宏同学态度端正，积极努力，精力集中，独立思考，表现出很强的进取精神和踏实的工作作风，为“天网”的发展做出了贡献。老师签名 :_李晓明 _ 北京大学学士论文第 2 页摘要天网中英文搜索引擎是具有中文特色的搜索引擎 ,但是随着当前网络的不断增长 ,以及用户应用的不停变化 ,通用的搜索引擎已经不能应付各种不同的检索请求 . 面向主题的搜集系统是针对一个主题，一类网页的搜集系统 ,也就是说只搜集整个网络的一个特定子集 . 所谓主题 ,可以用一系列例子页面来确定 ,也可以用一系列的特征词来确定 . 搜集的目标就是与例子页面在内容上类似的页面 . 我们对目前所采用的各种面向主题的搜集算法进行了研究 ,同时进行了初步的评估确定了一套搜集算法 . 这套算法是基于原有的天网搜索引擎 ,而实现的准确的进行同主题搜集 .,根据实现的结果说明面向主题搜集的优势所在 ,以及其发展的可能性 . 本文的大纲如下 : 本文首先说明了什么是通用的搜索引擎 , 什么是面向主题的搜集系统 ,以及此二者的区别 . 接着提出了几种搜集策略 , 总的来说 ,把面向主题的搜集系统分为三个部分 : 搜集例子 , 特征提取 ,根据特征进行搜集 . 对这三部分各分析了几种策略 ,同时进行了分析 ,评估 . 然后介绍了目前我们所实现的策略 . 我们主要采用的是基于向量空间模型 , 结合天网的特点的特征提取 . 搜集方面我们主要加入了对连接关系的考虑 ,对出度入度的考虑 , 接着对我们的工作进行了总结 ,评价了所实现的系统 ,说明面向主题比通用搜索引擎的区别 ,以及其优势 . 最后是对未来工作的展望 , 现有系统的不足以及改进关键词：搜索引擎 ,主题 ,文本分类 ,特征提取 ,连接关系 ,信息挖掘北京大学学士论文第 3 页目录论文载要 . .目录 . .一章面向主题的搜索引擎 4 索引擎的介绍 . . 4 1. 搜索引擎的使用 2. 搜索引擎的分类 3. 搜索引擎的未来向主题的搜索引擎 . 6 者的区别比较 8 第二章天网搜索引擎的介绍 . 网系统简介网总体结构 . 第三章搜集策略的研究和比较 . 12 述 . .定目标样本 . 13 征提取部分的几种策略 . 13 集部分的策略 . 结 .四章我们的实现 21 统结构 21 征提取部分的实现 22 集部分的实现 24 作结果及对结果的评价 27 第五章总结 . 28 参考文献 29 北京大学学士论文第 4 页第一章面向主题的搜索引擎索引擎的介绍 1 1993 年，出现了最早的览器年出了览器的发展促使到迅速推广推动着搜索引擎的发展 . 1994 年初，出现了包括内的第一批索引擎，同年还成立了后者成为了近年来最成功的商业目录。搜索引擎能够帮助网民在浩瀚网海中 ,找到自己所需要的内容一定的策略在互联网中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务，从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务 . 按止 2000 年 6 月 30 日的调查表明，按 1690 万网民计算，目前使用过搜索引擎网民共有 1570 万左右。搜索引擎，在网民上网经常参与的活动中列第三位，有六成左右的网民将其列为经常使用的网络服务，仅次于电子邮件与浏览新闻，超过了网上聊天或网上下载或上传软件等活动 . 2. 搜索引擎的分类按照信息搜集方法和服务提供方式的不同，搜索引擎系统可以分为三大类：基于搜索引擎这种搜索引擎的特点是利用一个称为叫做程序自动访问点，搜集站点上的网页，并根据网页中的链接进一步搜集其它网页，或转移到其它站点上。集的网页经过分析处理后 ,建立索引 ,加入数据库中。用户查询时 ,检索数据库 ,返回结果 . 最早出现的搜索引擎就是利用建立数据库，搜索引擎这个词的原义也只是指这种狭义上的基于搜索引擎。它的缺点：并不能真正反映出网页的质量 , 返回信息过多，有很多无关信息它的优点 : 信息量大、更新及时、毋需人工干预例子 : 如天网基于目录（叫做搜索引擎以人工方式或半自动方式搜集信息，由编辑员查看信息之后，人工形成信息摘要，并将站点置于事先确定的分类框架中。当用户查询某个关键词时，搜索软件只在这些描述中进行搜索。目录一般都是依靠一群专职编辑来建立和维护的 . 出名的商业目录用了大约一两百名编辑来维护目录北京大学学士论文第 5 页它的缺点 : 需要人工介入、维护量大、信息量少、信息更新不及时它的优点 : 信息准确、导航质量高，例子 :如目前提供了目录式服务索引擎 (也叫 “元搜索引擎 ”) 索引擎也叫做的特点是本身并没有存放网页信息的数据库，当用户查询一个关键词时，它把用户的查询请求转换成其它搜索引擎能够接受的命令格式，并行地访问数个搜索引擎来查询这个关键词，并把这些搜索引擎返回的结果经过处理后再返回给用户。它的缺点 : 不能够充分使用所使用搜索引擎的功能 , 擎的高级搜索功能它的优点 : 实现起来比较简单 , 返回结果的信息量更大、更全例子 : 经过了多年的发展之后，现在的搜索引擎功能越来越强大，提供的服务也越来越全面，它们的目标是把自己发展成为用户首选的口站点，而不仅仅是提供单纯的查询功能。搜索引擎未来的发展面临着两大难题： 1)发展速度，近几年来速扩张，其上的站点和网页越来越多 ,再大型的搜索引擎也不可能做到真正的一网打尽 2) 当搜索引擎的数据库越来越大时，用户查询同一个关键词所得到的结果也就越来越多，然而成千上万的结果对用户并没有什么实际意义，用户关心的是能否迅速在开头几十个结果中找到自己需要的信息面对着这两个难题，目前很多搜索引擎都在发生一些变化，这些变化中包含着搜索引擎未来的发展趋势。个性化服务使用自动获得的领域模型 ,用户模型 (如用户背景 ,兴趣 ,行为 ,风格 )等进行信息采集 ,索引 ,过滤 (包括兴趣过滤和不良信息过滤 )对用户有用的信息提交给用户 . 目录占据主导地位北京大学学士论文第 6 页目录与基于搜索引擎相比更具优越性，这一点已为大多数人所接受，在今后的发展中，目录将会占据主导地位，而基于搜索引擎将更多地以辅助工具的面貌出现。采用分布式体系结构提高系统规模和性能当系统规模越来越大的时候 ,必然要采用某种分布式的方法 ,以提高系统性能 ,都可以进行分布式 :如 :以在多台机器上相互合作 ,相互分工的进行信息发现 . 特殊搜索引擎越来越多搜索引擎的另外一个发展趋势是特殊搜索引擎越来越多，这些特殊搜索引擎只收集了某个方面的网站或网页，例如文学、医学、体育、音乐、件等等，其中的内容一般都要比通用搜索引擎更好更精，因此很受用户的欢迎。建立特殊搜索引擎的成本要远小于通用搜索引擎，这也促进了它的发展。也就是本文所要介绍的面向主题的搜索引擎 . 向主题的搜索引擎面向主题 ” 目前 ,通用的搜索引擎确实有了很多的发展 ,从技术以及硬件条件上 ,都有了很大的变化 ,但是事实上 ,即使最大的搜索引擎目前也仅能覆盖 30%网络一般需要几个星期 ,甚至几个月这主要是因为通用的搜索引擎的一个主要指导思想是 ”一网打尽 ”他们试图迎合每一种可能出现的查询请求 ,虽然这种讲究高覆盖率的搜索引擎是有其不可估量的价值 ,但是却往往导致了其搜集的网页 ,在内容上过于分散往往导致查询时 ,有很多并不相关的网页 . 因此随着网络的发展 ,我们需要一种新形式的搜集系统 . 很容易的我们想到 ,用相关度以及网页质量来过滤搜集的网页对于一个个人来说 ,他所关心的始终只是一小部分收藏起来 ,然后他所关心的也就是与这些例子类似的网页 . 因此通用的搜索引擎是不适合这种目的的基于关键字(查询是很难达到这种目的 : 将网页正确的与某个主题联系起来我想查唱歌手李小龙 , 如果用通用的搜索引擎的话 ,他很可能把拍武打片的李小龙 , 甚至是 263 的李小龙全都返回结果会好一点让用户很沮丧 . 北京大学学士论文第 7 页正是因为有许多是通用的搜索引擎所无法实现 ,或实现的不好的 ,因此我们就需要有一种小巧 ,精致的搜索系统面向主题 ” 面向主题就是只针对一类主题 ,一类网页 , 例如文学、医学、体育、音乐、件等等 ,进行搜集 . 也就是说只搜集网络的一个子集主题 : 也就是用户所要搜集的类型定义也可以由一系列描述类型特征的特征词来确定 . 相对与通用的搜集系统而言 ,它更为小巧但是其中的内容一般都要比通用的搜索引擎更好更精，因此很受用户的欢迎。建立面向主题的搜集系统的成本要远小于通用的搜索引擎，这也促进了它的发展 . 它所涉及的主要技术有 :信息挖掘 ,文本分类 ,文本提取 ,网络搜集 ,入度出度等等先有用户确定一系列的样本网页 ,来确定所搜集的主题 , 然后进行特征提取 , 分析样本网页 ,提取特征信息 ,之后再搜集过程中 ,根据这些特征信息 ,对每一个搜集的网页 ,都赋予一定的相关度就说明与主题越相似 . 目前国内的面向主题的搜集系统还出于起步阶段 ,尚没有很成熟的系统也就是分类的搜索 ) 一般都是采用人工分类的形式只要面向主题的搜集算法足够好 ,在很大程度上可以代替这种人工分类的方法 . 好的 ”面向主题搜集系统这也就涉及到面向主题的评价指标的问题速度快所谓速度快 ,不是指一台机器每天能搜集多少网页 ,而是说能够在尽可能快的时间能覆盖大面积的网络如果说通用的搜索引擎需要 10 天来覆盖 30%的网络 ,那么面向主题只需要 3 天就能够覆盖 30%的网络 . 聚集度高也就是搜集到的网页 ,必须是高度相关的 , 不允许将主题外的搜集进来 , 覆盖完全也就是说覆盖尽可能大的网络 ,保证每一个属于主题内的网页被搜集也就是 (完全性 ),而第二点是保证 , 每一个被搜集的都是主题内北京大学学士论文第 8 页者的区别比较对于通用的搜索引擎和面向主题的搜索引擎 ,二者之间是有差别的 ,面向的需求不同 ,各有千秋 ,或是有了通用的就不要面向主题了 . 面向主题的搜索引擎 (下简称为主题 ) 与通用的搜索引擎 (下简称为通用 )有一下几点区别 : 目的不同通用 : 搜集尽可能多的网页 , 一网打尽主题 : 搜集某一领域内的网页 . 兵贵在精面对需求不同通用 : 各种各样的检索请求主题领域内部的检索请求策略不同通用 : 面对各种不同的网页 ,一视同仁 ,同样处理主题 :对于各种不同类的网页 ,区分对待表 1二者的区别通用的搜索引擎面向主题的搜索引擎数据量大 : 这是因为它搜集所有的网页数据量小 : 这是因为它只搜集部分网页 ,其余的都抛弃了更新慢 : 因为其数据量太大 ,更新一次往往要数周 ,甚至上月更新快 : 因为数据量小 ,能够迅速更新 ,周期只要数天即可 . 博而不精 : 数据量大 ,但是太过分散 ,没有重点精而不博 : 数据量小 , 集中 ,但是只限于本领域数据不完全 : 这里指的是相对与它的搜集目标而言 ,最多覆盖网络的 30数据较完全 : 相对与它的搜集目标 ,因为本来该领域范围内的网页就少 ,就可能搜集的较完全硬件需求高 : 通用的往往需要上 G 的内存 ,上百台的机器才能使得搜集成一定规模硬件需求低 : 目前我们的搜索引擎仅用了一台机器进行搜集 . 北京大学学士论文第 9 页问题 : 如我们搜游泳方面的信息游泳 , 和用面向主题的搜集系统搜集游泳领域 , 结果有区别马 ? 答案 : 当然有区别 , 1) 用面向主题 , 我们可能搜集出网页中不出现游泳 ,但是确实与游泳的相关的网页 , 如讲述泳镜之类的网页 2)只要例子网页选择的好 , 面向主题所搜集的大部分都是与游泳相关度高的 ,而通用搜索引擎就做不到这一点 3) 也就是面向主题的搜集系统所搜集的相关网页必然多于通用所检索得到 . 因此 ,我们可以看出 ,在网络蓬勃发展的今天 ,发展面向主题的搜索引擎是很有必要的 . 北京大学学士论文第 10 页第二章天网搜索引擎的介绍网系统简介因为我们所实现的面向主题的搜索引擎 ,是基于天网搜索引擎之上完成天网中英文搜索引擎是主要针对中国丰富的信息资源而开发的具有中文特色的搜索引擎。天网属于基于搜索引擎范畴，主要采取了基于服务器模式具有导向功能的搜索和提供文本摘要的方式。在实现中，天网使用了中文自动识别和中文编码自动转换技术、根据中文的语言特点和表达习惯对中文信息进行词语切分和词类标注技术以及基于词的大型、高效的信息索引数据库和快速准确的检索技术等先进的中文信息处理和索引技术，从而大大提高了中文信息的理解程度和发现、检索效率，同时也提高了汉语的查准率。目前天网由若干主控 (导向控制下，使用具有高度智能性和适应性的信息发现算法搜索网页，提取关键词及摘要，形成原始数据库，然后在此基础上建立索引数据库。来自前端的用户信息，传给检索服务器，经过查询优化，产生结果回送用户。天网搜索引擎的检索是基于词汇的，克服了中文分词的困难，同时具有中英文词汇自动学习的能力。它侧重于中文信息的发现，向全世界的中文用户提供准确、有效的网络中文信息。天网搜索引擎具有以下技术特征：信息收集符合相关协议和标准。实用、高效的信息分析方法高度智能性和适应性的信息发现方法中文信息处理技术可伸缩的分布式结构基于词的大型、高效的信息索引数据库和快速、准确的检索方法智能化、多功能的用户检索接口天网搜索引擎目前访问量以及搜集网页数已经达到了千万天网由于采用了可伸缩的分布式结构、查询引数据库和检索数据库分开等先进、有效的技术，使得系统占用资源少、信息收集速度快、用户查询响应时间快（系统对上的查询可在 1 秒钟之内作出响应）、查准率和查全率较高，基本达到了实用化程度。北京大学学士论文第 11 页网的总体结构本系统主要由息存取和分析子系统 ( 息搜集控制子系统 (资源索引数据库 (信息检索子系统 (管理和监控子系统 (几个部分组成系统的结构图如下 : 档存取分析子系统搜集控制子系统信息检索子系统务器资源索引数据库览器览器 2网的总体结构理和监控子系统存取分析子系统北京大学学士论文第 12 页第三章搜集策略的介绍和比较述主题搜索的实现多种多样 ,但是如果把它们的框架去出来 ,都是大同小异 a) 确立例子网页也就是由用户选择例子网页 ( 来确定系统所要搜集的主题与主题相关性越强 ,最后搜集的效果越好 . 因为我们的整个系统的目标就是搜集尽可能多的与例子网页尽可能相似的网页若各自在内容上相关性不强 ,将会导致所提取的特征信息不具有代表性 ,是的搜集失败 . 因此用户应该慎重选择例子网页 . b) 提取特征信息其实是一个文本提取的过程 ,也就是 (有些系统如 (实现的系统 ,)把这一部分称为它的目的 :根据例子网页 ,用一系列的特征词 ,以及特征词权值来描述该主题根据特征词 ,特征词权值而展开 . 特征词 :就是一个关键词他能够标志主题的特征标志了该特征词于该主题的相关程度 . 权值越高 ,说明该特征促于主题越相关 ,越能够代表该主题的特征 . 因此特征词 ,以及其权值的选择决定了系统搜集的好坏 . c) 信息采集其实是一个文本分类的过程对网络中的网页进行筛选系统运行前的准备工作它的目的是根据前一步所确定的特征信息 ,搜集网页尽可能于例子网页相关度高的网页 . 性能指标 :我们可以用以下两个性能指标来衡量搜集系统的好坏 : 北京大学学士论文第 13 页召回率 (检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统（搜索引擎）的查全率；精度 (检索出的相关文档数与检索出的文档总数的比率，衡量的是检索系统（搜索引擎）的查准率。对于一个检索系统来讲，召回率和精度不可能两全其美：召回率高时，精度低，精度高时，召回率低。下面我们将分别对这三步骤中的策略进行详细介绍 . 定例子网页确定例子网页 ,由用户确定几个主题典型的用来配置系统 1. 几个应该是同一个站点的 , 2. 几个容应该于主题密切相关 3. 几个好文字较多 ,这样文本提取的效果会较好 . 4. 几个该是该主题中典型的网页 . 用户应该认真选择征提取部分的几种策略目的 : 根据例子网页 ,用一系列的特征词 ,以及特征词权值来描述该主题集应该 : 能体现例子网页所包含的内容 (完全性 ) 这是容易做到的有了这一点我们就可以确定那些网页与目标相关能体现例子网页所不包含的内容 (区分性 ) 这是难于实现的但是因为目前并没有一个很好的算法能够实现这一点 ,因此我们只能确定这个网页相关 ,并不能确定这个网页于主题不相关下面将介绍两种用于特征提取的算法 : 1) 基于统计的算法 2) 支持向量机 ( 北京大学学士论文第 14 页于统计的算法每个网页 ,都会有一个 ,甚至不只一个主题网页有的就只有词因此我们的算法就是把想办法把主题和这些词联系起来 . 顾名思义 ,基于统计的算法也就是计其中出现过的关键词，建立关键词词典 ,根据每个词在网页中的出现次数 ,出现位置来计算它的权值 ,最后 ,由这些信息 , 综合多个网页 , 来确定该主题的特征词 ,以及特征词的权值 . 答案 : 当然不是 . 类比与图象压缩处理中所提到的 ,经常出现的 ,所包含的信息量就越少在网页中越常出现的 , 所包含的信息量就越少 ,比如基本上每个网页都会有联系我们这样的字眼 , 但是这种字眼对描述主题是没有任何作用的 . 这也就说明了词频高的未必代表主题 . 也就是说 ,一个特征在文档中出现的次数越多 , 权值越高 , 越多文档都出现了这个特征 ,则这个特征反而信息量小 ,权值越低 . 因此我们可以构造权值评价函数问题 : 将词频高的作为特征词 ? 特征词的权值应该 : 正比于在文档内出现的频率反比于出现了该特征的文档数北京大学学士论文第 15 页 nk 01.0(lo g*)()g (其中特征项 i 中的出项频数 ,N 表示全部文档的总数 ,征项的文档数 . 基于统计的算法 ,实现起来简单 ,思想直接 ,易懂 ,但是它存在很大毛病 ,就是对高频词的处理 ,词频太高 ,有可能是忽略词 ,或是无意义的词 ,词频太低 ,也就不具有代表性这里的一个权衡就是很关键的 . 持向量机 (支持向量机 (一种机器学习的方法通过训练文本 ,以自动寻找出那些对分类有较好区分能力的支持向量 ,由此构造出的分类器可以最大化类与类的间隔假设训练文本为 ),(ii . 其中 , 也就是是一个 m 维的向量 . 1. 其中表示 ,否则就是一个反面例子 . 法先执行了一个映射 , 从 m 维到 n 维空间的映射 ,通常 ,n 大大于 m.,这样训练向量就被映射到一个更高纬度的空间中 )( 这个超平面经过优化之后 ,保证正面例子和反面例子之间的距离最大 .系数 W 可以写成 )(x 的线性组合 . W= 而这些i可以用一下的二次方程解得 : 基于统计算法的评估北京大学学士论文第 16 页 ( )= 1)()(21 而对于这些i还必须满足一下的约定 01Ni 同时 i 0 由此可以确定了超平面 ,确定了分类器一种很复杂的算法 ,具体情况情参见参考文献 11 有较好的推广新能和较高的分类准确率经被用于孤立的手写体识别 ,语音识别 ,人脸识别其算法复杂 ,对于网页分类这种大规模的数据集而言 ,训练例子往往要很多 ,才能够找一个好的分类器要的训练时间也太长 ,计算也太复杂 . 集部分的策略目的 :在运行中利用前一步得到的特征值信息 ,进行网页的搜集 . 搜集到尽可能于例子网页相似的网页 , 尽可能于例子网页相关度高的网页下面我们将介绍两个搜集时的策略 1) 向量空间模型 2) 接关系的考虑量空间模型目标表示是指以一定的特征项 (即关键词 ,特征词 )来表示目标网页信息 ,目标表示的模型有很多种 ,常用的有布尔逻辑型 ,向量空间型 ,概率型等 . 在 ,将例子网页经过特征提取之后 , 看作是由一组特征项 ( ., 构成 ,对于每一个特征项 ,根据其在网页中的重要程度赋以一定的权值所以例子网页可以写成用 (,(, ., 法的评估北京大学学士论文第 17 页 (n), 来表示 . 而所有待分类的网页都可以写成 ( ,其中 . 这样我们就构造一个 n 维坐标系 ,以特征项为其坐标轴 ,(w1, 其对应的坐标值 D(t1,t2, , 假设例子网页的特征向量为 W,那么检验网页 D 和例子的相关程度 ,就装化为向量空间中两个向量的夹角来度量相似程度越高相似度 (D,W)=,W)=其实就是计算两个向量之间夹角的余弦 ,这个值越大 ,角度越小 ,相似程度越高 , 还有些算法 ,也构架向量空间模型 ,但是并不采用上面的公式 ,而是采用一个函数 ,来对这两个向量进行计算 , 通过计算结果来判断相关程度 . 如 :最简单的线性函数 F(X)= D*W = jj 结果高的就认为相关程度高 . 据我所知 , 向量空间模型是比较形象的一种建模方式 ,实现起来也比较容易 . 但是有一个很大的缺陷就是向量空间模型最初的提出主要是针对文本分类于普通的文本相比 ,档中有着很明显的标志符 ,结构信息更加的明显 ,对象的属性更加的丰富将会遗漏了很多有用的信息 . 向量空间模型的评估北京大学学士论文第 18 页接关系的考虑 (s 就是超链接文本 ,网络上的信息就是有许多的连接而组合在一起的 . 因此 ,我们在研究档之间的关系时 ,这些连接就是一个很好的信息源 ,能够提供给我们许多有效的信息 . 所有对这些连接关系的研究都是基于一下两个假设的 : 两个间存在连接这两个含相关的内容许多网页都指向同一个网页这个网页是很重要的用图来表示 ,如下图 .(其中 A B 表示有一个从 A 到 B 的连接 ) 图 3说明假设 1 图 3明假设 2 但是 ,我们可以很容易的看出这个假设其实并不是完全正确两个网页之间存在连接 ,并不一定表示二者之间存在相关性是 ,门户网站与各种各样的网页之间都存在连接 ,但是并不表示他们之间在内容上又相关性下面介绍一种利用链接关系的算法 s 和权威程度 ( 一个具有高权威程度的网页 ,就很有可能具有相关的内容一个具有高中心程度的网页 ,就很有可能拥有指向相关页的连接 . 档 A 档 B A 于 B 相关档档 C C 是一个重要的页面北京大学学士论文第 19 页换句话说 ,也就是 , 一个网页拥有许多指向其他相关页的连接 ,它的高 . 而一个网页被许多相关页所指向 , 它的越高 . 更进一步说 ,一个网页如果拥有许多指向那些的网页的连接 ,那么他的当然就越高一个果被许多指向 ,他的也就越高 . 在具体实现中 ,我们要注意几个问题 , 1. 在同一个主机中的网页 ,往往有一些互相之间的连接 ,比如什么回到主页之类的连接 , 但是这种连接是作者自己加入的 ,并不能又什么导航性值的时候 ,这种连接应该不加以考虑 . 2. 在计算 ,时候 ,往往能以完全计算 ,算 ,只是一个出度 .而涉及到入度 ,网海茫茫 ,入度是无法完全计算的如果入度已经达到了上限 ,就不再计算了 . 因此我们可以知道在具体实现的过程 ,我们只需要统计网页的入度 ,出度 , 根据入度出度统计网页的 ,以及不断被修改的 . 出度高的 , 往往比较高 ,入度高的往往高 . 这种算法充分考虑了超文本的特征 ,能够充分挖掘了链接所包含的信息 ,对发掘相关性有很大的帮助 . 但是 ,这种算法也有很大的弊病 . 1) 因为同一个主机上的一系列网页往往是同一个作者 ,那么他往往可能使得这一系列网页都指向一个他认为重要的页面 ,这样会大幅度提高该页面的相关页相关页相关页相关页 . . . . 关页相关页相关页相关页 . . . . s 评估北京大学学士论文第 20 页 2) 这种算法会导致 , 网页的循环增大 . 比如说 , 网页 A 有一个连接指向网页 B 那么 B 的增大 A 的增大而 A 的增大又会导致 B 的增大这样循环增大 ,将是导致算法一无是处必须采用一定的策略来避免这一点 . 3) 不相关的节点 :这就是前面所提到过的假设其实并不完全成立 . 有些网页上往往会有一些连接是指向不相关的页面 ,这样的计算将会导致偏差结这一章我们主要是介绍了用于面向主题搜索的各种算法 1. 确定例子网页 2. 进行特征提取 3. 信息采集在特征提取部分我介绍了两种算法 : 基于统计的算法 :也就是统计词频 ,经过一定的公式计算其权值 ,取出特定的作为特征项 . 支持向量机的算法 . 通过学习算法 ,自动寻找对分

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【毕业学位论文】（Word原稿）面向主题搜集系统中搜集策略的研究与评测-计算机系网络与分布式系统

文档简介

温馨提示

最新文档

评论