硕士学位论文-搜索引擎排序算法的分析与研究.doc

上传人：机*** IP属地：安徽上传时间：2019-12-19 格式：DOC 页数：66 大小：1.88MB 积分：30 举报 版权申诉

已阅读5页，还剩61页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

学校代码 10254 密级论文编号上海海事大学上海海事大学 SHANGHAI MARITIME UNIVERSITY 硕士学位论文硕士学位论文 MASTER DISSERTATION 论论文文题题目目搜索引擎排序算法的分析与研究搜索引擎排序算法的分析与研究学科学科专业专业计计算机算机应应用技用技术术作者姓名作者姓名傅茂忠傅茂忠指指导导教教师师高茂庭高茂庭副教授副教授完成日期完成日期二二九年九年五五月月论文独创性声明论文独创性声明本论文是我个人在导师指导下进行的研究工作及取得的研究成果论文中除了特别加以标注和致谢的地方外不包含其他人或其他机构已经发表或撰写过的研究成果其他同志对本研究的启发和所做的贡献均已在论文中作了明确的声明并表示了谢意作者签名日期论文使用授权声明论文使用授权声明本人同意上海海事大学有关保留使用学位论文的规定即学校有权保留送交论文复印件允许论文被查阅和借阅学校可以上网公布论文的全部或部分内容也可以采用影印缩印或者其他复印手段保留论文保密的论文在解密后遵守此规定作者签名导师签名日期摘要 I 摘要随着现代科技的进步互联网得到了飞速的发展逐渐成为人们日常学习生活工作中最重要的获取知识和信息的工具进入 21 世纪以来网络信息成几何级数的增长快速精确查找需要的信息变得越来越难这使得发展搜索引擎技术成为一种必要它能帮助人们快速有效地获取信息本文介绍了搜索引擎的概念及其发展历史搜索引擎的分类结构与工作原理搜索引擎的评价标准常用的中英文搜索引擎以及搜索引擎排序算法作了简单的介绍如何使广大网民快速找到所要的知识和信息资源成为搜索引擎技术研究的重点本文针对一些已有算法 PageRank 算法 HillTop 算法 Direct Hit 算法等存在的不足即 PageRank 算法平均分配权威值 Hilltop 中利用专家页面不合理容易产生 Spam Direct Hit 算法处理重复点击与新页面不理想的问题提出改进算法的思路针对 PageRank 算法权威值的计算引入非均衡分配的思想改进 PageRank 算法平均分配权威值的问题引入社区发现技术来改进算法该算法利用社区作为专家页面不仅可以改善 Hilltop 算法找专家页面不合理的现象而且对于 Direct Hit 算法处理新页面不理想用户重复点击等问题也能起到一定的效果关键词搜索引擎排序算法社区发现技术 PageRank HillTop Direct Hit ABSTRACT II ABSTRACT With the progress of the information technology Internet develops fast and becomes an important means of obtained the knowledge and information which may be used in people s study daily life and work Since we enter into 21th century the information of internet increased at a geometric progression Querying information become more and more difficult it becomes a need of developing the search engine technologies It can help people acquire information quickly and effectively This paper introduce the conception and the developing history classify structure and operating principles of the search engine At the same time it describes the common Chinese and English the evaluation standard of the search engine and introduces the common algorithm step by step How to make the searching be quick is the main point of the search engine researching This paper according to some existing algorithm and puts forward improving ways to solve the shortcomings of the existing algorithms Such as the PageRank algorithm s PR values which is equal division HillTop algorithm easily generate the spam because of utilizing the expert pages illegitimacy and non ideal processing methods for repeat spot bowling of the Direct Hit algorithm We induct the unbalance idea for PageRank algorithm s problems of not equal division and the discovery technology of community to settle the standing problems of HillTop algorithm utilize the expert pages illegitimacy and non ideal processing methods for repeat spot bowling of the Direct Hit algorithm This algorithm could be help for reducing the adverse effects caused by these algorithms At last we summarize the work of this paper and predict the future development of the search engine algorithm Maozhong Fu Computer Application Directed by Prof Maoting Gao ABSTRACT III Keyword Search Engine sorting algorithm the technology of the community discovery PageRank HillTop Direct Hit 目录 IV 目录第一章第一章绪论绪论 1 1 1 研究背景和意义 1 1 2 搜索引擎的发展历史 2 1 2 1 搜索引擎的起源 2 1 2 2 搜索引擎的现状 3 1 2 3 搜索引擎的未来 4 1 3 搜索引擎排序算法的演进 6 1 3 1 搜索引擎排序算法的起源和现状 6 1 3 2 搜索引擎排序算法存在的问题 7 1 4 本文的组织框架及所做工作 7 第二章第二章搜索引擎概述搜索引擎概述 9 2 1 搜索引擎的分类 9 2 1 1 按所覆盖内容 9 2 1 2 按是否有人参与 9 2 1 3 按检索层次 10 2 2 搜索引擎的结构及工作原理 12 2 2 1 搜索引擎组成结构 12 2 2 2 搜索引擎工作原理 14 2 3 常用搜索引擎 15 2 3 1 常用中文搜索引擎 15 2 3 2 常用英文搜索引擎 17 2 4 搜索引擎的评价标准 19 2 5 本章小节 20 第三章第三章搜索引擎常用排序算法及相关技术搜索引擎常用排序算法及相关技术 21 3 1 搜索引擎常用的排序算法 21 3 1 1 词频位置加权排序算法 21 3 1 2 PageRank 算法 22 3 1 3 Direct hit 算法 24 3 1 4 Bayesian 算法 25 3 1 5 Web Query 算法 26 3 1 6 Hilltop 算法 26 3 1 7 HITS 算法 27 3 1 8 竞价排名 27 3 2 搜索引擎的相关技术 28 3 2 1 SEO 技术 28 3 2 2 Spam 作弊技术 31 3 3 本章小结 34 第四章第四章利用社区发现技术改进排序算法利用社区发现技术改进排序算法 35 4 1 PAGERANK算法及其改进分析 35 目录 V 4 1 1 PageRank 算法优缺点分析 35 4 1 2 PageRank 算法改进思路 36 4 2 另两种常用算法及其改进思路 38 4 2 1 HillTop 算法 38 4 2 2 Direct Hit 算法 40 4 3 利用社区发现技术改进排序算法 41 4 3 1 什么是社区发现技术 41 4 3 2 利用社区发现技术改进排序算法的过程 42 4 3 3 算法总结 44 4 4 实验过程 45 4 3 1 实验环境 45 4 3 2 过程描述 46 4 3 3 实验结果 46 4 3 4 实验评价 48 4 5 结果分析 50 4 6 本章小结 50 第五章第五章工作总结与展望工作总结与展望 51 5 1 工作总结 51 5 2 展望 51 致致谢谢 53 参考文献参考文献 54 攻读硕士期间发表论文和参加科研情况攻读硕士期间发表论文和参加科研情况 58 一发表的论文 58 二参加的科研项目 58 绪论 1 第一章第一章绪论绪论本章首先介绍了本课题的研究背景和意义其次论述了搜索引擎的发展及其未来以及搜索引擎排序算法发展过程以及存在的问题最后对本文的工作安排和论文结构做了详细的说明 1 1 研究背景和意义随着信息技术的进步互联网作为信息的载体得到了飞速的发展成为人们学习工作生活中获取知识和信息的主要来源根据美国因特网监测公司网器 Netcraft 28 日宣布 1 截止 2 月底全球互联网网站数量超过 1 6 亿较一个月前增加了 450 万达 162662053 据国外权威通讯社报道网站数量在 2005 年增加了 1700 万在 2006 年增加了 2740 万美国德国中国韩国和日本的网站发展速度最快过去两年间博客及网上购物的兴起和创建网站操作的简单化等因素结合在一起使得网站数量猛增现有搜索引擎给人们带来了很多方便的同时也逐渐暴露了自身的一些问题这些弊端主要表现在以下方面 1 网络信息量过于庞大网络错综复杂没有特定的网络模型描述不便 2 检索结果信息过多有用信息不全 3 检索结果缺乏个性化不能满足不同用户的需求 4 不同国家的搜索引擎差别较大对不同语言的适应性较差 5 多媒体信息检索还不完善 6 网页的更新速度远远快于索引数据库的更新 7 垃圾网页过多许多虚假广告不健康信息错误信息充斥互联网 8 广告的比例较大干扰正常的浏览如何快速准确的查找用户所需的信息成为互联网急需解决的问题这就为搜索引擎技术的发展提供了土壤现有的排序算法有很多如 PageRank 算法 2 HillTop 算法 3 Direct Hit 算法 4 等但是没有一个是完美无缺的本文在介绍搜索引擎及其相关技术的基础上结合已有的排序算法提出了自己的解决思路以改善搜索引擎排序算法的质量使用户能够快速准确的找到所需信息同时也为以后排序算法的研究提供一个有价值的参考绪论 2 本文是在上海市教委科研项目基于统计学习的数据挖掘技术研究项目编号 06FZ007 的支持下开展搜索引擎排序算法的分析与研究 1 2 搜索引擎的发展历史搜索引擎是用于帮助互联网用户查询信息的搜索工具它以一定的策略在互联网中搜集发现信息对信息进行理解提取组织和处理并为用户提供检索服务从而起到信息导航的作用下面将介绍搜索引擎的发展历程 1 2 1 搜索引擎的起源简单地说搜索引擎起源于传统的信息全文检索理论 5 即计算机程序通过扫描每一篇文章中的每一个词建立以词为单位的排序文件检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率对包含这些检索词的文章进行排序最后输出排序的结果在早期的时候互联网上面的搜索引擎和今天人们常用的搜索引擎有所不同早期的搜索引擎更像是如今很多中文的 ICP Internet Content Provider 网站把因特网中的资源服务器的地址收集起来由其提供的资源类型的不同而分成不同的目录再一层层地进行分类人们要找自己想要的信息可按他们的分类一层层进入就能最后到达目的地找到自己想要的信息这其实是最原始的方式只适用于因特网信息并不多的时候因为如果信息一旦多起来查找的时候所花费的时间就很长了 1990 年互联网还没有得到全面的推广但是通过网络传输文件已经比较普遍真正意义上的搜索引擎是 1994 年创立的 Lycos 他由 Michael Mauldin 将 John Leavitt 的 Spider 程序 6 接入其索引程序中产生的互联网搜索引擎除了需要有全文检索系统之外还要有所谓的蜘蛛 Spider 系统 7 即能够从互联网上自动收集网页的数据搜集系统蜘蛛系统是 John Leavitt 开发的并且由 Michael Mauldin 将这个系统融合到了 Lycos 搜索引擎里面去它能够将搜集所得的网页内容交给索引和检索系统处理就形成了现在常见的互联网搜索引擎系统当然一个完整的搜索引擎系统还需要有一个检索结果的页面生成系统也就是要把检索结果高效地组装成万维网页面概括起来说搜索引擎是为查询而生的用户需求的不断更新发展是搜索绪论 3 引擎技术不断进步的动力 1 2 2 搜索引擎的现状经过了多年的发展现在的搜索引擎功能越来越强大提供的服务也越来越全面当你登录某一个网站在互联网上搜索各个网站的某一类内容比如输入猪流感希望得到最新最全面的信息你需要等待多长时间几年前人们希望十几秒最多 30 秒钟就能得到结果而现在的期望值是 1 2 秒也就是说伴随点击鼠标的咔哒一声显示屏的页面已经变了排在最前面的十几二十条信息的标题已经出现在你的面前除了速度的不断提升之外搜索引擎目前的特点可概括为以下几个方面 1 目录型和检索型的搜索引擎相互结合 8 由于目录型和检索型的搜索引擎有各自的优点和缺点目前它们谁也无法完全取代谁于是很多搜索站点都同时提供这两种类型的服务例如 Yahoo 是目录型搜索引擎的代表但同时它也提供基于关键词的检索服务而 Infoseek 则主要是一个检索型的搜索引擎但它同时也建立了一个由人工编辑的小型目录 2 多样化和个性化的服务绝大多数搜索引擎现在都提供多样化的服务以吸引更多的用户商业搜索引擎尤其注重这一点以 Sohu 为例用户可以从它的首页上查看新闻理财信息公共交通浏览黄页可以进行网上购物交易交友或者使用免费 E Mail 和网上聊天等服务近期许多搜索引擎已开始提供个性化的服务例如 Yahoo 的 My Yahoo Infoseek 9 的 Personalized start page Lycos 的 My Lycos 等它们允许用户为自己定制起始页面并选择感兴趣的内容和经常使用的服务放在该页面上 3 强大的查询功能与最早的搜索引擎相比现在的搜索引攀在查询功能方面己经有了很大的改进除了简单的 AND OR 和 NOT 逻辑外不少搜索引擎还支持相似查询例如 AltaVista Northern light Lycos 等支持短语查询 AltaVista 的高级搜索功能支持 NEAR 逻辑等域搜索也是一项很实用的功能它允许用户把查询范围限制在网页的某个域中例如标题 URL 图像标记或链接等 AltaVista Northern light Infoseek 和百度等搜索引擎都支持对网页的不同域进行搜索绪论 4 但是在搜索引擎快速发展的同时其自身也存在着一些问题 1 提供的查询方式相当有限与用户的交互性差信息检索质量不高 2 仅支持单个关键词或者一组关键词及其逻辑运算符组成的查询而并不支持自然语言搜索或语义搜索 3 不能利用历史信息进行搜索用户的每次搜索都是从头开始而不是从原有的查询结果中作进一步选择 4 呈现方式单一呆板多数搜索引擎只返回一个长长的搜索结果列表其中可能有数以万计的包含关键词的网页但这些网页是否以及在多大程度上与用户的搜索意图相关则不得而知 1 2 3 搜索引擎的未来互联网信息的快速发展促进了搜索引擎技术的不断进步呈现出一个喜人的应用前景未来的搜索引擎不仅要满足用户简单的查询需求更要能动态的适应信息和用户不断改变所带来的更高的要求搜索引擎以后的发展将致力于以下几个方面 1 十分注意提高信息查询结果的精度提高检索的有效性用户在搜索引擎上进行信息查询时并不十分关注返回结果的多少而是看结果是否和自己的需求吻合对于一个查询传统的搜索引擎动辄返回几十万几百万篇文档用户不得不在结果中筛选解决查询结果过多的现象目前出现了几种方法一是通过各种方法获得用户没有在查询语句中表达出来的真正用途包括使用智能代理跟踪用户检索行为分析用户模型使用相关度反馈机制使用户告诉搜索引擎哪些文档和自己的需求相关及其相关的程度哪些不相关通过多次交互逐步求精二是用正文分类 Text Categorization 技术将结果分类使用可视化技术显示分类结构用户可以只浏览自己感兴趣的类别三是进行站点类聚或内容类聚减少信息的总量 2 重视交叉语言检索的研究和开发交叉语言信息检索是指用户用母语提交查询搜索引擎在多种语言的数据库中进行信息检索返回能够回答用户问题的所有语言的文档如果再加上机器翻译返回结果可以用母语显示该技术目前还处于初步研究阶段主要的困难在于语言之间在表达方式和语义对应上的不确定性但对于经济全球化互联网跨越国界的今天无疑具有很重要的意义 3 自然语言理解技术绪论 5 自然语言理解是计算机科学中的一个引人入胜的富有挑战性的课题从计算机科学特别是从人工智能的观点看自然语言理解的任务是建立一种计算机模型这种计算机模型能够像人那样理解分析并回答自然语言以自然语言理解技术为基础的新一代搜索引擎人们称之为智能搜索引擎由于它将信息检索从目前基于关键词层面提高到基于知识或概念层面对知识有一定的理解与处理能力能够实现分词技术同义词技术概念搜索短语识别以及机器翻译技术等因而这种搜索引擎具有信息服务的智能化人性化特征允许网民采用自然语言进行信息的检索为他们提供更方便更确切的搜索服务 4 个性化的搜索 10 一种搜索引擎是否具有智能是否能够满足用户的需求要看它是否可以分析用户的个人特点并制定相应的对策给出最合适的排序个性化搜索引擎很强大对抓取和用户的搜索行为进行分析通过他们的算法可以实现不同的人在搜索同样关键词的时候根据不同人的各种属性地域年龄性别爱好职业历史搜索等等分别得到最适合他们的结果可以根据用户各自的差异和特点提供最适合该用户的网页呈现划分具有共同爱好特性的用户群体浏览器可以在客户端自动获取分析用户各自感兴趣的信息实现个性化的搜索如现在流行的Google为用户提供个性搜索 Individual Search 服务用户在使用高级搜索的时候可以设置检索词所在的位置如正文标题仅在URL 或者文本等等还可以通过逻辑关系限制检索如可以含有一定含有一定不含有等等以及对于检索的时间范围地域范围做出限制 Baidu也提供了个性搜索功能除Google所提供的功能外用户还可以设置检索结果的性质可以设置只返回媒体类型或者某些特定领域的页面还可以选择进行检索的数据库以及结果的显示排列方式等等然而这种定制服务的方式还是给用户增添了许多麻烦它要求用户须按照指定的操作来进行搜索才能获得更加满意的结果然而即便是这样也无法实现真正的个性化服务同样的操作下仍然会给出相同结果集 5 P2P对等网络 P2P是peer to peer的缩写意为对等网络其在加强网络上人的交流文件交换分布计算等方面大有前途长久以来人们习惯的互联网是以服务器为中心人们向服务器发送请求然后浏览服务器回应的信息而P2P所包含的技术就是使联网电脑能够进行数据交换但数据是存储在每台电脑里而不绪论 6 是存储在既昂贵又容易受到攻击的服务器里网络成员可以在网络数据库里自由搜索更新回答和传送数据所有人都共享了他们认为最有价值的东西这将使互联网上信息的价值得到极大的提升 1 3 搜索引擎排序算法的演进过程 1 3 1 搜索引擎排序算法的起源和现状从搜索引擎的发展历史可以看出其搜索结果是由一个从无序到有序再到按用户需要排序的过程早期的搜索引擎只是简单地从数据库中取得数据然后按照数据被检索出的自然顺序返回给用户之后的搜索引擎应用了关键词的相关性对于用户提交的关键词如果它出现的位置越重要在文档中的出现频率越高则认为此网页与检索词的相关性越高越能满足用户的需求这些基本上是沿用了图书情报界的研究成果而现在的搜索引擎大部分都用到了链接分析技术它是应用了文献引文索引机制的思想即某个人的论文被别人引用的次数越多引用它的论文质量越高那么他的论文就是一篇好的论文当前流行的搜索引擎如Google 百度都用到了链接分析它的结果可以反映网页的重要程度但并不代表用户对网页的需求程度对搜索引擎排序技术的研究有很多 1998年斯坦福大学的博士研究生 Sergey Brin 和 Lawrence Page提出了网络链接分析的一个新算法 PageRank 该算法是建立在随机冲浪者模型上的同年J Kleinberg提出了Hits算法该算法专注于改善泛指主题检索的结果 R Lempel和S Moran提出了SALSA 11 Stochastic Approach for Link Structure Analysis 算法 D Cohn和 H Chang 提出了Phits算法随后Hits的变种算法相继提出如Monika R Henzinger 和 Krishna Bharat 提出了HillTop算法 IBM Almaden 研究中心的Clever工程组提出了ARC Automatic Resource Compilation 算法 Allan Borodin等提出Hub平均 Hub Averaging Kleinberg 算法 12 等这两种算法都是基于概念模型的 2001年1月康柏系统研究中心的Krishna Bharat和多伦多大学的George A Mihaila提出了HillTop算法该算法利用专家网页对网页进行评判 2004年10月斯坦福大学的Z Gyongyi和Hector Garcia Mo lina提出了TrustRank算法 13 该算法通过选择不可能作弊的站点用这些站点对其他网页进行评判 2005年5月A Benczur和K Csalogany在第一届AIR Web 学术会议上提出 SpamRank 算法 14 绪论 7 该算法判断出一些肯定是作弊的站点与TrustRank算法思路正好相反现代搜索引擎的搜索结果不仅仅考虑信息的本身还融合了关键词和检索出文档的相关性使其更为贴近用户需求另外搜索引擎对排名采用了多因素的融合这些因素有域名因素文档和页面信息链接因素搜索结果因素用户数据因素等 1 3 2 搜索引擎排序算法存在的问题上面提到了很多排序算法但是没有一个是十全十美的每个算法往往致力于解决某个方面的问题其他方面可能有所欠缺现在也有很多综合的排序算法方面的研究但仍然难以达到预期的效果虽然单一的网页排序已经有了比较成熟的算法但是目前还没有一个搜索引擎的排序结果能完全符合用户的需求还存在以下方面的问题 1 一些网站在页面的标题锚文本正文或者Html中恶意堆砌关键词而没有用户所需的内容搜索引擎分析网页的时候会给这些关键词较高的权重当用户搜索这些关键词的时候这些页面就可能以高的排名返回给用户目前的搜索引擎虽然对此做出了相应对策但从搜索结果来看依然存在这个问题 2 链接分析出现以后出现了很多作弊行为网站管理员可以通过制造大量虚假链接来提升其站点排名他们还可以通过和其他网站交换链接来增加链入的URL数目人为提高了自己站点的反向链接数 3 尽管目前搜索引擎的排序方法在一定时间内都会更新一次来防止一些网站管理员的作弊但目前Spam页面的大量存在使得搜索引擎往往不能返回相关性比较好的结果 1 4 本文的主要工作及组织结构本文首先介绍了搜索引擎的发展历史排序算法的现状及存在的问题其次综述网络搜索引擎的工作原理结构以及分类评价标准在此基础上对现有的排序算法进行研究发现不足之处如 PageRank 平均分配权威值 Hilltop 中利用专家页面不合理容易产生 Spam Direct Hit 算法不易处理重复点击的作弊行为然后针对这些缺点引入非均衡分配的思想来改进 PageRank 算法利用社区发现技术来减少 HillTop 算法和 Direct Hit 算法中不利因素对排序结果的影响以此来改善排序的质量有效降低 Spam 的绪论 8 在排名中的影响防止网页作弊使排序结果更合理从而更好的满足用户的需求本文的结构按如下的方式进行组织第一章绪论提出选题的意义和背景介绍了搜索引擎的发展历史然后着重研究了互联网的信息特征和目前搜索引擎的不足之处引出了本文将要改善的地方排序技术简述了搜索引擎排序算法的现状最后概括了本文将要研究的内容第二章搜索引擎概述本章主要介绍搜索引擎的分类方法及其结构与工作原理然后综述了现在流行的中外搜索引擎最后阐述了搜索引擎的评价标准如查全率和查准率覆盖率死链接率和响应时间等第三章搜索引擎常用排序算法及相关技术主要分析了现在流行的排序算法如词频位置加权算法 PageRank 算法 Direct hit 算法 HillTop 算法等其次介绍了搜索引擎的相关技术包括 SEO 技术 15 与 Spam 作弊技术 16 第四章利用社区发现技术改进排序算法针对 PageRank 平均分配权威值 Hilltop 中提取专家页面不够合理容易产生 Spam Direct Hit 算法重复点击的问题提出改进排序算法的思路并加以比较分析第五章总结展望总结本文所做的工作展望未来搜索引擎排序技术的发展提出下一步工作的思路第二章搜索引擎概述 9 第二章第二章搜索引擎搜索引擎概述概述本章首先概述了搜索引擎分类方法并作了简单的介绍其次对搜索引擎工作原理及结构搜索引擎的每一个组成部分进行了详细的描述最后阐述了搜索引擎的评价标准 2 1 搜索引擎的分类实际上通常意义上的搜索引擎只是信息检索系统的前端面向用户的一端而整个信息检索还包括后端的收集索引信息等功能模块由于 Web 信息检索系统很多功能上也有差异人们在充分利用这些便利搜索工具的同时也会感到无所适从无从选择据统计各种各样的网络信息搜索工具已经有上千种从不同的角度其分类也各不相同 2 1 1 按所覆盖内容如果按搜索引擎所覆盖内容的范围来分可分为通用型专业型和特殊型搜索引擎 1 通用型搜索引擎所采用的信息资源极为广泛对资源的主题范围和数据类型基本没有限制所以它适用于各种用户人们可以利用它来检索几乎任何方面的内容如 Google 就是这类工具 2 专业型搜索引擎 17 往往是着重某一主题范围内的信息资源比如专门用于收集医药的 Healthy Medical World Search 以及法律的搜索引擎 Law Crawler 等等这类搜索引擎对于该专业信息的收集与查询其查全率和查准率是极高的 3 特殊型搜索引擎往往是指那些用来检索某一类型信息或数据的搜索工具比如搜索电话号码的 Switchboard 查询地图的 Webseek 搜索 FTP 文件的 Archie 和 Files 等等 2 1 2 按是否有人参与如果从是否有人参与来分可分为人工搜索引擎和智能搜索引擎 1 人工搜索引擎主要是由人工来建立主要依靠网络信息发布者的主动登第二章搜索引擎概述 10 记将要发布的信息按搜索引擎的主题树归类填写信息源站点的地址给出主题关键词和摘要等等信息由于个人的分类习惯和方法都难免带有主观性和片面性分类具有差异性另外主题分类树的形状平衡性等都能直接影响信息收集的质量和效果其建立与维护也是一个难题 2 智能搜索引擎不需要人工登记信息不需要人的主动参与它依靠像网络机器人 Robot 18 一样的程序在网络上不停地爬行和搜索能够自动获取网络上的信息并自动进行分类索引摘要等随着人工智能机器学习和其它智能信息处理技术的发展智能搜索引擎对网络信息的分析和处理也越来越准确合理了智能搜索引擎包括自动文摘自动分类自动索引等等技术在中文搜索引擎中还包括自动分词 2 1 3 按检索层次如果按检索层次来分可分为检索型搜索引擎目录型搜索引擎元搜索引擎信息代理 Agent 分布式搜索引擎和基于客户端的搜索引擎 1 检索型搜索引擎 Search Engine 检索型搜索引擎就是为用户提供输入关键词查找信息的搜索引擎检索方便直接可以使用布尔逻辑查询短语查询邻近查询模糊查询自然语言查询等等检索方式 Hotbot Infoseek Google 等就是这类检索工具的典型代表它们有着自己的收益组织资源的机制通过对网页内容和特征的分析建立自己的索引数据库为用户提供查询服务 2 目录型搜索引擎 Directory 除了基于网页分析建立索引的网页搜索引擎外还有一种以人工方式或半自动方式搜集信息的搜索引擎目录型搜索引擎目录型搜索引擎也称为分类式搜索引擎这种搜索引擎是由编辑人员根据信息资源的内容按一定的主题进行分类组织并形成信息摘要将信息置于事先确定的分类框架中组织成一层一层的分类目录目录下面有更具体的子目录信息的类别也由大到小由粗到细整个搜索引擎形成了一个层次型的类别目录用户可以逐层浏览选择不同的主题对网络信息进行过滤所选择的主题类别越小信息的相关度就越高用户就越有可能找到自己所需要的信息这类搜索引擎的性能主要取决于对获取网页的人工归类或自动分类算法的精确度如何其代表有 Yahoo Look Smart Lycos Goto 等比如中文搜索引擎新浪 sina 的分类目录就有 15 大类目录一万多个子目录中文雅虎第二章搜索引擎概述 11 yahoo 也有 14 个一级目录最深有 6 级子目录目录之间还提供交叉访问目录型搜索引擎的分类体系一般是根据所采集的资源范围来设计目录体系的或者采用图书分类方法所以不同的搜索引擎其分类也各不相同目录型搜索引擎和检索型搜索引擎各自更适用于不同的搜索需求两者可以相互补充但不可以相互替代当用户需要查找关于某类内容的资料或某个网站时目录型搜索引擎是最适用的而查询一些比较具体的资料时用检索型搜索更好而现在的大多数搜索引擎都同时提供检索关键词和目录浏览两种检索方式这成为混合型搜索引擎它可以借助于分类目录来缩小检索范围达到更为精确和更高效的检索结果 3 元搜索引擎 Meta Search Engine 19 由于单个搜索引擎的覆盖范围往往不会太广为了找到自己所需要的信息用户常常需要使用多个搜索引擎以期找到更多更全的信息但由于不同的搜索引擎其查询语法接口界面往往不同需要用户重新学习和适应不同的检索方法这给用户使用多个搜索引擎带来了极大的不便为了解决这个问题研究人员开发了元搜索引擎元搜索引擎是独立于索引系统的查询工具它统一了不同的搜索引擎的查询接口用户面对的多个搜索引擎的界面是一样的由统一的元搜索引擎的接口对用户的查询请求进行处理分别将其查询转换为符合底层搜索引擎查询语法的子查询同时向多个搜索引擎递交由底层搜索引擎在各自的索引数据库中进行查询在各个搜索引擎返回检索结果后元搜索引擎将子查询结果进行汇总去重重新排序等处理最后向用户返回搜索引擎的检索结果元搜索引擎一般都没有自己的数据库而是利用其它的搜索引擎的数据库来进行服务在层次上元搜索引擎要比检索型搜索引擎和目录型搜索引擎要高缺点是不能够充分使用下层搜索引擎的排序功能用户需要做更多的筛选这类搜索引擎的代表是 Meta Crawler Sary Search Informaker 等例如 Meta Crawler 可以同时检索九个搜索引攀有 Yahoo OpenText Lycos WebCrawler InfoSeek Excite Inktomi Galaxy Alta vista 等 4 信息检索代理 Agent 信息检索代理 Agent 是一种主动信息检索技术它可以根据用户事先定义的信息检索要求甚至能从用户的日常检索行为浏览行为中学习用户兴趣推理用户隐含的需求并利用已有的检索服务如上述检索服务系统主动从 Web 上检索相应的信息资源实时监测信息源的动态变化等并将有关信息以电子邮件的方式或其它方式及时主动地通知用户如 Washington 大学开发第二章搜索引擎概述 12 的 ShopBot Canegie Mellon 大学开发的 Web Watcher 20 Standford 大学开发的 Fab 21 等代理系统 5 分布式搜索引擎 Distributed 分布式搜索引擎和集中式搜索引擎是相对而言的集中式搜索引擎所有功能都集中在一台服务器上存在着数据库过大维护困难查询效率及可靠性不高等缺点而分布式搜索引擎从体系结构上解决了这个难题它主要是根据地域主题或其它的划分标准建立分布的子检索服务器索引数据库由分布的数据库组成因为扩充性较好所以搜索引擎覆盖的范围可以变得很大而且各子服务器能够进行独立搜索相互之间可以交换信息如果一个检索服务器上没有用户所需要的信息查询请求将被重定向被发送到别的子检索服务器上继续查询分布式搜索引擎的优点在于各个子服务器能协同工作共享他们所搜集的信息从而具有较高的整体吞吐能力划分之后的索引数据库各自索引各自的区域每个索引数据库较小重复信息没有或很少这大大提高了查询的响应速度各个子服务器同时进行收集工作减少了获取信息的时间像 Web Ants NWI 等就是这类搜索引擎 Inktomi 22 就是由 160 台 SUN 工作站构成的分布式搜索引擎每台工作站的索引数据库内容不同这些工作站通过局域网由专门的 Web 服务器向用户提供查询服务 6 基于客户端的搜索引擎 Client Based 基于客户端的搜索引擎将排序算法内嵌在 Web 客户程序如浏览器中直接在客户端执行它的优势在于可以根据用户的不同情况分别进行搜索对单个用户具有很好的适应性但是它必须下载每一篇文档才能判断其相关与否这样在找到文档以前就下载了很多无关的文档占用了不应有的带宽所以速度较慢而且如果每个客户程序都使用自己的内嵌程序来进行搜索的话造成的网络负担也是特别重的难以在较大范围内推广使用如 FishSearch 就是客户端搜索引擎形式虽然这种客户端搜索并不值得推广但是其思想对于实现搜索引擎的个性化机制却有很大的借鉴意义要从一个统一的标准来对搜索引擎进行分类是一件困难的事情不同的划分方法差别较大接下来将要介绍搜索引擎的结构与工作原理第二章搜索引擎概述 13 2 2 搜索引擎的结构及工作原理 2 2 1 搜索引擎组成结构搜索引擎主要由搜集器分析器索引器检索器挖掘器和用以存储数据的多个数据库组成如图2 1所示便是搜索引擎的组成结构图 W WW WW W 搜集器搜集端数据库检索端数据库分析器索引器检索器挖掘器用户信息库搜索引擎用户图2 1 搜索引擎结构图 1 搜集器搜集器主要完成从WWW上获取网页和超链结构信息的工作 WWW结构是一个以网页为结点超链为边的有向图搜集器的工作可以抽象为一个有向图的遍历过程它从用户配置的一些种子网页出发根据一定的算法获取新的网页和超链从而实现从网上不停地获取网页的功能 2 分析器分析器根据网上数据的特点按照特定的算法对己经搜集获得的网页和超链信息进行分析从中提取和用户检索相关的网页描述信息例如网页关键词编码类型大小被其他网页链接次数等并将提取所得的信息交给索第二章搜索引擎概述 14 引器建立索引 3 索引器分析器分析所得的网页描述信息都是页面到页面描述数据的正排表索引器主要用于对这些已分析好的网页的抽象数据建立索引索引器的核心工作就是重新整理这些网页描述信息对必要的数据项建立倒排表包括关键词到网页的倒排表站点到网页的倒排表等为用户的检索做准备 4 检索器检索器的功能是根据用户的查询在索引库中快速检出文档进行文档与查询的相关度评价对将要输出的结果进行排序并实现某种用户相关性反馈机制检索器常用的信息检索模型有集合理论模型代数模型概率模型和混合模型等多种可以查询到文本信息中的任意字词无论其出现在标题还是正文中检索器从索引中找出与用户查询请求相关的文档采用与分析索引文档相识的方法来处理用户查询请求 5 挖掘器挖掘器提取用户相关信息利用这些信息来提高检索服务的质量它的主要工作就是找出检索信息的相互关系分析它们的特性通过对用户行为的记录来提高检索的质量返回最期望的检索结果 2 2 2 搜索引擎工作原理搜索引擎是一种特殊的计算机信息检索系统 Web信息检索系统首先从信息检索流程的角度来介绍计算机信息检索系统的工作原理如图2 2所示即为搜索引擎的工作原理图文本数据库数据库管理模块索引机制查询处理文本处理用户界面查找机制排序机制索引逻辑视图逻辑视图查询倒排文件命中文献文本文本用户需求有序文献图2 2 搜索引擎工作原理图在检索开始之前搜索引擎必须对文本数据库进行定义定义的内容包括 a 需要的文献 b 对文献进行的操作 c 文本模型这个过程通常由数据库管理员 DB Manager 来完成文本操作 Text Operation 将原始文献转换为它们的逻辑视图 Logical View 文献的逻辑视图一般是指文献经过去除停用词 Stop Words 如冠词和连词进行截词 Stemming 如只保留词干确定名词词组消去形容词副词和动词等文本操作之后而得到的文献的主要内容文献逻辑视图定义完毕之后数据库管理员通过数据库管理模块建立文第二章搜索引擎概述 15 本索引 Index 索引是一种非常重要的数据结构检索系统通过它快速搜索大量的数据有很多种建立索引的方法通常使用的是倒排文档 Inverted File 23 文本数据库建立好索引后就可以开始检索过程首先由用户给出用户需求 User Need 或者用户任务 User Task 该需求被相同的文本操作解析再经过查询操作 Query Operation 处理形成系统可以识别的查询表达式查找机制使用查询和索引进行匹配处理得到相关的文献称作命中文献命中文献在提交给用户之前要按照相关度进行排序以形成有序文献 Ranked Documents 当结果提交给用户之后检索过程并没有结束用户需要从结果中查找有用信息同时审查查询结果指出哪些文献是真正感兴趣的并反馈给检索系统然后检索系统使用反馈的结果改进查询表达式以期能获得更好的查询结果这个过程就叫做用户反馈 User Feedback 在整个信息检索过程中用户和检索系统一直都通过用户界面 User Interface 来进行交流用户界面又称作用户接口往往要求用户输入查询请求并显示检索的结果通过对计算机信息检索系统工作流程的介绍可以知道完整的计算机信息检索技术涉及到文本处理技术查询处理技术查找匹配技术排序等级评定技术用户接口技术以及索引技术数据库技术等等 2 3 常用搜索引擎上面介绍了搜索引擎的组成结构与工作原理以及分类方法下面就来看看当代流行的搜索引擎在这里主要介绍常用的中文和英文搜索引擎 2 3 1 常用中文搜索引擎 1 Yahoo 以雅虎 Yahoo 24 为代表说到搜索引擎的历史自然不能不说雅虎 Yahoo 了正如计算机时代的很多新事物一样 Yahoo 起源于一个想法随后变成一种业余爱好最终成了使人全身心投入的一项事业 Yahoo 的两位创始人大卫费罗 David Filo 和杨致远 Jerry Yang 是美国斯坦福大学电机工程系的博士生于1994年4月建立了自己的网络指南信息库将其作为记录他们个人对互联网的兴趣的一种方式但是不久他们将Yahoo 变成了一个可定制的数据库旨在满足成千上万的刚刚开始通过互联网社区使用网络服务的用户的需要他们开发了可定制的软件帮助他们有效地查找识别和编辑互联网上存储的资料最初Yahoo 存放在杨致远的学生工作站 akebono 上而第二章搜索引擎概述 16 搜索引擎存放在Filo的计算机 konishiki 上这些计算机的名称都来自于一些具有传奇色彩的夏威夷摔跤手结果令大家意想不到的是 Yahoo 大受欢迎斯坦福大学的计算机网络由此受到来自外界的大浏览量的冲击 2 sohu 1996年8月 sohu 25 公司成

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

硕士学位论文-搜索引擎排序算法的分析与研究.doc

文档简介

温馨提示

最新文档

评论

硕士学位论文-搜索引擎排序算法的分析与研究.doc

文档简介

温馨提示

最新文档

评论

相关文档