【毕业学位论文】(Word原稿)搜索引擎的日志分析:方法、技术和应用_第1页
【毕业学位论文】(Word原稿)搜索引擎的日志分析:方法、技术和应用_第2页
【毕业学位论文】(Word原稿)搜索引擎的日志分析:方法、技术和应用_第3页
【毕业学位论文】(Word原稿)搜索引擎的日志分析:方法、技术和应用_第4页
【毕业学位论文】(Word原稿)搜索引擎的日志分析:方法、技术和应用_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京大学硕士学位论文 搜索引擎的日志分析:方法、技术和应用 i 摘 要 搜索引擎技术的出现帮助为 户在浩如烟海的 快速发现、定位信息带来了福音,目前搜索引擎已经是 除 外使用最多的服务。目前搜索引擎面临的主要困难是检索质量不高,用户满意度不高。 本文试图通过分析“天网”搜索引擎的日志来得到用户访问“天网”系统的一般性规律,并从分析结果出发改造搜索引擎。为此,我们安排了两组实验,一组实验是试探性的,我们统计了用户访问“天网”系统的查询、翻页、点击行为,希望从中得到一些规律;另一组实验是针对性的,我们针对 统设计了一组实验,希望 能验证 统的必要性和可行性,并对 统的构成、组织进行模拟测试。通过这些工作,我们发现了用户访问“天网”系统的一些规律,发现了用户的查询词序列、点击 列、以及索引端的单词访问序列都具有较强的集中性、长期稳定性以及短期相关性,它们从不同角度说明了访问局部性,这个计算机科学中经常讨论的核心现象之一,在海量网络信息环境下的具体体现。 从实验分析结果出发,论文还报告了对“天网”系统三个方面的改进:新增“位置相关性”模块来提高查询质量;改造 统来提高响应速度;增加自动目录导航服务 来引导用户,从而全面提高了天网系统的能力和质量。 关键词 :搜索引擎,日志分析,位置相关性,目录导航服务 北京大学硕士学位论文 搜索引擎的日志分析:方法、技术和应用 to on it on of of of so to of to We of of of in so on We to is we of to of we We to to of to of 京大学硕士学位论文 搜索引擎的日志分析:方法、技术和应用 录 摘要 . i . 一章 引言 . 1 究背景 . 1 究方法 . 2 文主要贡献 . 3 文组织 . 4 第二章 相关研究 . 5 索引擎 . 5 索引擎发展历史 . 5 索引擎分类 . 6 索引擎发展趋势 . 8 索引擎存在的问题 . 9 于 搜索引擎基本原理 . 10 掘 . 11 容挖掘 . 12 问信息挖掘 . 12 构挖掘 . 13 索引擎日志挖掘 . 14 第三章“天网”搜索引擎日志分析及其结论 . 16 验设置 . 16 天网”搜索引擎 . 16 天网”日志格式 . 17 验数据 . 17 义和假设 . 18 户行为分析 . 18 户信息统计 . 19 询词分析 . 21 页行为分析 . 23 户点击行为分析 . 24 3.3 关实验 . 26 北京大学硕士学位论文 搜索引擎的日志分析:方法、技术和应用 局部性分析 . 27 户查询内容的局部性分析 . 27 户点击的局部性分析 . 32 询中单词的局部性分析 . 33 换算法模拟 . 35 章小结 . 37 第四章 “天网”系统的改进 . 39 置相关性模块 . 39 置相关性模块的设计 . 39 置相关性模块的实现 . 40 天网”搜索引擎 统设计 . 42 块的设计 . 42 统的实现 . 43 天网”搜索引擎自动目录导航服务 . 44 文网页分类器 . 44 练集及分类体系 . 44 文网页分类器的实现 . 45 动导航服务的设计 . 48 章小结 . 49 第五章 总结与展望 . 51 结 . 51 望 . 52 参考资料 . 53 作者参加的科研项目和取得的成果 . 56 致谢 . 57 北京大学硕士学位论文 搜索引擎的日志分析:方法、技术和应用 1 第一章 引言 究背景 万维网( 称 因特网上最成功的应用,它最初由欧洲粒子实验室 物理学家 1989 年 3 月提出,并于 1993 年 2 月,随着第 一个图形界面浏览器 发布而达到了其发展的高峰 1。 1995 年 4 月, 网上的流量超过了 其它服务的流量,成为 的第一大应用服务。到 1997 年 12 月,网上大约有 3 亿 2000 万网页2。在最近几年里, 得到了长足的发展。根据 索引擎在 2000年的数据库数据表明,网页数目已经超过了 10 亿,共有 点 4,951,2473。根据 索引擎在 2002 年 4 月索引网页表明,网页数已经超过 20 亿 4。 1994 年 陆中国,在 短短几年的时间内飞速发展。根据 国互联网络信息中心 )在 2003 年 1 月的统计信息表明 5,我国上网计算机数约 2083万台,其中专线上网计算机数为 403 万台,拨号上网计算机数为 1480 万台;我国上网用户人数约 5910 万人,其中专线上网的用户人数为 2023 万,拨号上网的用户人数为 4080 万, 网的用户人数为 432 万,宽带上网的用户人数为 660万( 通过多种方式上网的用户被重复计入各种上网方式中,故各种方式上网用户数之和大于上网用户总数) 。除计算机外同时使用其它设备(移动终端、信息家电)上网的用 户人数为 153 万。 点数约为 371,600 个(注册数)。 大陆 址总数为 29,002,240 个 。“天网”搜索引擎 6在 2002 年底对中国国内互联网的一次搜集结果显示 7,全国至少存在 个 活跃网页,涉及到 42,678 个 随着 迅速发展,网上的信息也飞速膨胀。用户的主要问题不是信息不够,而是信息过剩( 如何帮助人们有效的利用 海量信息资源就成为当务之急,而首要的任务便是发现信息 人们迫切需要有效的 航工具,协助用户找 到所需的信息。目前提供 航的系统主要分为两大类。第一类是目录导航系统。它主要是通过具有专业知识的网页编辑人员人工地对网页进行精选,建立索引目录,向用户提供目录导航服务。用户可以沿着分类目录的层次结构,进入自己感兴趣的主题,进而找到所需的信息。这类系统的特点是服务质量较高,用户能够比较迅速地定位到他所关心的内容,但系统维护的网页数量有限,从而覆盖的内容范围也有限。其典型代表是 8的目录系统。第二类是 搜索引擎系统。它通过被称为 程序自动地在网上沿着超文本链递归地收集 网页,分析页面的内容,生成索引和摘要,并向用户提供 询页面,根据用户的查询请求在索引库中查找相关信息在北京大学硕士学位论文 搜索引擎的日志分析:方法、技术和应用 2 网上的位置,最后将查询结果按照相关度排序后返回。这类系统的优点是涵盖的网页数量巨大,但服务质量相对比较低,用户通常需要在一个长长的返回结果清单上,根据简单的摘要,来判断哪些条目是他所需要的。 由于目录系统覆盖的信息范围有限,在 息爆炸式增长的形势下,使用搜索引擎的人越来越多,显示了取代目录系统的趋势, 成功就是最好的例子。根据 2003 年 1 月的统计信息表明 5, 用户经常使用搜索引擎服务,仅次于 。搜索引擎已经成为用户得知新网站的最主要途径( 。并且,几个著名的搜索引擎一直都稳定的处于全球访问量最大的 50 个网站之列 9。 搜 索 引 擎 的 典 型 代 表 34 ,它提供对 30 亿 文 档 ( 其 中 包 括2,073,418,204 张网页 )的访问,利用高效的算法和庞大的机器资源,向用户提供高质量的检索服务。每天的查询量超过 1 亿。国内的搜索引擎中,具代表性的是北京大学网络与分布式实验室研究开发的“天网” (索引擎。自 1997年 10 月正式在 提供查询服务以来,受到学术界和用户的广泛好评。现在“天网”系统提供超过 1 亿中文网页的查询服务。每天的查询量接近 20 万 。 究方法 搜索引擎,作为一种信息检索系统,衡量它的查询质量有两个重要的标准,“查全率”和“查准率” 10。查全率在信息检索领域的定义是 系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。对于搜索引擎,查全率是指搜索引擎返回的结果占 所有相关网页的比率。 查准率在信息检索领域的定义是系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。对于搜索引擎 ,查准率是指在返回结果中相关页面占返回结果页面总量的比率。其中查全率主要通过分布抓取、抓取动态网页来改进。对于查准率,因为判断网页是否相关是用户的主观感受,改进查准率并没有普适的方法。 用户访问搜索引擎的基本操作包括:提交查询、浏览结果页面和在结果页面中点击相关的网页。用户的查询意图以及对结果的满意程度都体现在这些行为中。这些行为都记录在搜索引擎 的用户日志中。分析用户日志可以得到用户使用搜索引擎的基本特征,以这些基本特征为依据改进搜索引擎,可以提高搜索引擎的服务质量。 北京大学硕士学位论文 搜索引擎的日志分析:方法、技术和应用 3 本文中,我们对“天网”搜索引擎的日志数据进行分析,一方面,我们对日志数据进行一些基本的统计并分析其结果,希望能从中获得一般用户访问“天网”的模式,用户的查询特性等。另一方面,我们针对搜索引擎的 统设计了一系列实验,希望能验证 合理性和可行性,并对 换算法以日志数据为输入进行模拟实验,选择最佳的替换算法。 根据实验结果,我们对“天网”搜索引擎做了三处改 进: 1)位置相关性系统。在返回查询结果进行排序时不仅仅考虑查询词中单词出现的次数,还要考虑它们的位置相关关系,来提高搜索引擎的查询质量。 2)新的 统。我们根据日志分析结果重新设计了查询端 新增了索引端 高用户查询的响应速度。 3)自动目录导航服务。调查显示,很多用户并不能准确的用查询词来表明自己的查询意图,需要进一步的指导。所以我们为天网系统设计并实现了自动目录导航服务,用户可以沿目录结构到达自己感兴趣的类别,在相关类别中浏览或者查询。 文主要贡献 1 提出了一套分析搜索引擎日志数据的方法 本文以“天网”搜索引擎一个月的日志数据为例,发展了一套分析搜索引擎日志数据的方法,包括数据的采集,统计的测度,分析的角度等几个方面。利用该方法,我们得到了查询日志内容的一些基本性质,尤其是从高频访问比例、日志序列的长期稳定性、日志序列的短期相关性三个角度定量刻画了访问搜索引擎的内容局部性。这种局部性不仅是对网络信息基本性质的一种刻画,也是对利用高搜索引擎访问性能的一种理论基础。 2 开发了一种利用位置相关性提高网络信息查询质量的技术 本文提出了一套基于单词 位置相关关系进行检索和排序的技术,该技术涉及网页的抓取、存储、检索、定序等多个方面,突破了传统的搜索引擎只考虑关键词出现的次数而不考虑它们之间的位置关系的检索方法。该技术不仅适用于搜索引擎系统,还可以应用于其他信息检索系统来提高查询质量,目前这项技术已经申请专利,并且成功的运用在“天网”搜索引擎系统中。 3 实现了天网自动目录导航服务 北京大学硕士学位论文 搜索引擎的日志分析:方法、技术和应用 4 本文提出了自动目录导航服务的实现方法,自动目录导航服务涉及网页的存储、分类、查询等多个方面。利用这套方法,只需增加少量代码,就可以在信息系统中方便快捷的添加自动目录导航服务。 文组织 后面各章的内容如下,第二章是相关研究,主要介绍一些搜索引擎、 掘、搜索引擎日志挖掘的相关内容;第三章讲述对日志数据所做的实验及其结论;第四章讲述根据实验结果对“天网”系统做的一些改进;第五章是对文章内容的总结与对未来工作的展望。 北京大学硕士学位论文 搜索引擎的日志分析:方法、技术和应用 5 第二章 相关研究 索引擎 人们带来了巨大的方便,使人们可以跨越时间和空间的界限共享大量的信息。可以在家中直接链到科研机构的网站上阅读感兴趣的文献;可以足不出户购买需要的东西;可以实时了解国内外的新闻实事。但是,面对如此大量的信息, 人们同时也开始感到无所适从。太多的信息使他们很难迅速定位到真正需要的信息,而跟随超链在 漫游则会浪费大量的时间,而且很可能徒劳无功。因此,人们迫切需要有效的信息发现工具来为他们在 进行导航。这种需求导致了搜索引擎的问世。搜索引擎迅速成为人们网上搜索的有效工具。 索引擎发展历史 如何在 包含海量信息 的互联网上获得有价值的信息 一直是 户 关注的焦点 问题。搜索技术的出现为 用户 快速 定位 所需信息带来了福音。 1993 年, 览器 年 出了 览器的发展促使 到迅速推广,同时也推动着搜索引擎的发展。 1994 年春天 出现了最早的真正意义上的搜索引擎 当时 序接入到其索引程序中 ,实现网页的自动发现和索引。随后 , 相继出现。 这些 搜索引擎主要出于研究目的,解决的主要问题是“查全率”。 它们一般都索引少于 100 万个网页,响应时间都在10 秒以上。 我们称之为第 0 代搜索引擎。 1996 年出现了第 1 代搜索引擎。 这些搜索引擎一般每天能够接受 1000 万次检索,并且能够索引大约 5000 万网页。这一代搜索引擎的代表是 们的实现方法大不相同。 用大型的多处理器计算机来支持它们搜索引擎的运转;而 采用分布式方案来解决搜索引擎对计算能力的要求。 大约到了 1998 年,出现了第 2 代搜索引擎。此时,搜索引擎技术得到了空前的发展。这个时期搜索引擎发展的主要特点有: 1)开始出现了主题搜索和地域搜索。很多小型的垂直门户站点开始使用这些技术。 2) 随着 大型多处理器计算机 以及分布式技术的应用,搜索引擎搜集、索引网页的能力得到空前的提高。这个时期的搜索引擎都试图收集“整个 “查全率”问题已不是主要矛盾。 但是随着索引网页规模的扩大,检索结果的准确性成北京大学硕士学位论文 搜索引擎的日志分析:方法、技术和应用 6 了主要问题。检索结果相关度评价或“查准率”问题成为研究的焦点。其典型代表为 关的研究又可以分为两类:一类是对超文本链的分析,在这方面 学的 统和 统作出了很大的贡献;另一类是用户信息的反馈, 统采用的就是这种方法。 索引擎分类 尽管目前存在数量众多的搜索引擎,但根据它们所基于的技术原理,可以把它们分成三大主要类型:基于机器人 ( 的搜索引擎、目录式 ( 索引擎和元 ( 搜索引擎。 1) 基于机器人的搜索引擎 这种搜索引擎的特点是利用一个称为 或 程序以某种策略在互联网中自动搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面 向网页的全文检索服务。基于 搜索引擎一般要定期访问大多数以前搜集的网页 来 刷新 索引 ,以反映出网页的更新情况 。同时还要 去除一些死链接 和 镜像 网页 。网页 部分内容 的 变化情况将会反映到用户查询的结果中,这是基于 搜索引擎的一个重要特征。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表 国外有 ;国内 有天网、 百度、悠游等。 2) 目录式搜索引擎 这种搜索引擎以人工方式或半自动方式搜集信息。目录 式 搜索引擎的数据库是依靠专职编辑或志愿人员建立起来的 。 这些编辑人员在访问了某个 点后撰写一段对该站点的描述,并根据站点的内容和性质将其归为一个预先分好的类别,把站点的 描述放在这个类别中。信息大多面向网站,提供目录浏览服务和直接检索服务。很多目录也接受用户提交的网站和描述,当目录的编辑人员认可该网站及描述后,就会将之添加到合适的类别中。目录的用户界面基本上都是分级结构,首页提供了最基本的几 个大类的入口,用户可以 按照目录结构层层向下访问,直至找到自己感兴趣的类别 。 另外,用户也可以利用目录提供的搜索功能直接查找一个关键词,该类搜索引擎因为加入了人的智能,因此用户从目录搜索得到的结果往往比从基于 搜索引擎得到的结果更具参考价值 。 缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表有 。 北京大学硕士学位论文 搜索引擎的日志分析:方法、技术和应用 7 3) 元搜索引擎 元搜索引擎 通常 被称为搜索引擎之上的搜索引擎。用户只需递交一次检索 请 求 , 由 元 搜 索 引 擎 负 责 转 换 处 理 后 提 交 给 多 个 预 先 选 定 的 独 立 搜 索 引擎,并将所有查询结 果集中起来以整体统一的格式呈现到用户面前。由于采用了一系列的优化运行机制,能够在尽可能短的时间内提供相对全面、准确的信息,而且即使不能完全满足用户需求,仍可以作为相对可靠的参考源进行扩展搜索,因此成为倍受推崇的检索首选入口。一个真正的元搜索引擎由三部分组成:检索请求提交机制、检索接口代理机制、检索结果显示机制。“请求提交 ”负责实现用户的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。 “接口代理 ”负责将用户的检索请求 “翻译 ”成满足不同搜索引擎 “本地化 ”要求的格式。 “结果显示 ”负责所有源搜索引 擎检索结果的去重、合并、输出处理等。这类搜索引擎的代表 有 : 。 这三类搜索引擎中,元搜索引擎是基于第 1 类和第 2 类搜索引擎的。第一类搜索引擎(基于 搜索引擎)与第二类搜索引擎(目录式搜索引擎)各有如下特点: 1)基于 搜索引擎自动收集、分析和处理网页,因而它索引的网页数多,信息量大,并且能够定期重新收集网页,更新索引库的内容,向用户提供最新的 页信息。但是它只提供基于关键词的检索,用户只有确切的知道自己感 兴趣的网页含有哪些关键词时,查询的效果才比较理想。否则,返回的结果很可能和用户的实际需求“风马牛不相及”。 2) 目录式搜索引擎支持基于分类目录的查询。目录式搜索引擎对收集的网页采用人工分类。由于这种人工方式对网页内容的理解比较准确,因此查询的准确性优于 搜索引擎。当用户对某个领域感兴趣但并 不 熟 悉 这 个 领 域 的 关 键 词 时 , 这 种 查 询 方 式 能 为 用 户 提 供 更 好 的 服务。由于人工分类效率低,网页更新困难,目录式搜索引擎在索引的网页的规模上受到了很大的限制。 搜索引擎索引的网页数量早以突破 十亿级,而 停留在千万级的水平。 由于目录式搜索引擎完全采用人工进行网页的搜集和分类,其网页规模和更新速度与 网页总量和网页更新速度相差太远,其涵盖的范围无法满足用户的需要,已经逐渐被基于 搜索引擎代替。同时,基于搜索引擎在用户的抱怨声中不断成长,不断改进检索质量,目前已经成为 户发现网上信息必不可少的工具。 北京大学硕士学位论文 搜索引擎的日志分析:方法、技术和应用 8 索引擎发展趋势 目前正处于第 3 代搜索引擎的研发阶段。这一代的搜索引擎没有某个单一的目标。它 需要跟上 发展速度,为 用户 提 供 更快、 更准确的查询结果。 智能化、个性化、专业化成为其追求的目标。下面简单介绍一下 第 3 代搜索引擎 技术 的研究热点。 1) 多媒体搜索引擎 。 随着宽带技术的发展,未来的互联网是多媒体数据的时代。 音频、 视频 、 图像将取代文本成为互联网上主要的信息 。 开发 基于内容检索的多媒体搜索引擎 是一个新的 发展 方向。 供了号称“互联网上最好用的”图像搜索工具。瑞典的 一家公司 (制出动态的和有声的多媒体搜索引擎。微软中国研究院目前 也在研究 视频文件搜索 技术。 2) 个性化搜索引擎 。 个性化的核心是 根据 用户注册的信息以及 通过跟踪分析用户的搜索行为,充分利用这些信息来提高搜索引擎 查准率 。通过积累用户的搜索个性化数据,使用户的搜索更加精确。这种搜索行为分析技术是一种正在发展中的搜索引擎人机界面技术。 目前真正意义上的个性化搜索引擎产品还没有出现。有些号称“ 个性化 ” 的 搜索引擎 还停留在用户“定制”这个阶段。 著名搜索引擎都开展了 个性化搜索引擎 的研制工作。 3) 智能化搜索引擎 传统的搜索引擎对要检索的信息仅仅采用机械的关键词匹配来实现,缺乏知识处理能力和理解能力,智能 化 搜索引擎把信息检索从目 前基于关键词 的 层面提高到基于知识(或概念) 的 层面。智能搜索引擎对知识有一定的理解与处理能力,能够实现 智能 分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。 它 允许 用户 采用自然语言进行信息检索,为他们提供更方便、更确切的搜索服务。知识库是实现智能搜索的基础和核心。互联网是信息库。要做到智能搜索还必须做到知识库和信息库结合的问题。 同时, 要做到两个核心库的有机结合要做到以下三点:语义分析、知识管理 和 知识检索 。 由于采取了知识库为基础的语义分析,在进行检索过程中,采用的不是关键词全文检索,而是基于概念的检索 , 因此检索结果更加精确。此外, 传统的搜索引擎 仅能提供 被动搜索 服务。而 智能化搜索引擎利用智能代理技术进行主动信息检索。 这类搜索引擎的 国内的 代表 有 尤里卡( ) 等 ; 国 外 的 代表 有 ) 等。 4) 主题搜索引擎 主题搜索的目标是预先定义若干个主题,然后 尽可能多的搜集与该主题相关的网页。如果该网页与预定义主题相关,就做进一步的处理;如果不相关,则抛弃该网页。这样处理的结果是,系统最终只处理了北京大学硕士学位论文 搜索引擎的日志分析:方法、技术和应用 9 所有网页的一部分,也就是与预定义主题相关的网页。它的目标不是搜集所有的网页,然后回答用户的所有问题。而是仅仅处理与预定义主题相关的网页。这样处理的好处是可以节省大量的存储空间和具有较高的更新频率。在较短的时间内就可以把主题领域内的网页全部更新一遍,这样能够跟上 网页变化。而且对用户而言,如果她对该主题感兴趣,那么系统在该领域的信息是最详尽的。 5) 动态 网页 抓取 所谓动态网页是指在 务器上并不存在实际 的静态 页面。当服务器接收到客户端对一个动态网页的访问请求时, 务器通常 通过调用相应的 序文件,并把包含在 求中的程序参数传递给 序,程序按照调用参数实时产生 出, 务器再将程序产生的 出返回给用户。通过 序与 据库的结合 , 实时生成动态网页 的数据规模比较庞大。因此,搜索引擎如何有效收集、索引动态网页成为研究热点之一。 索引擎存在的问题 同第 1 代搜索引擎技术相比,第 2 代搜索引擎在各 方面都得到了很大的提高,但是现有的搜索引擎技术仍然不能满足用户的需求。 2001 年, 调查指出 35, 36%的互联网用户一个星期花了超过 2 个小时时间在网上搜索; 71%的用户在使用搜索引擎的时候遇到过麻烦;平均搜索 12 分钟以后发现搜索受挫;搜索受挫中 46%都是因为链接错误; 86%的互联网用户感到应当出现更有效的、准确的信息搜索技术。 另一项由 做的调查显示,人们平均每天有四个问题需要从外界获取答案;其中 31%的人使用搜索引擎寻找答案;平均每周花费 上查找答 案的,半数以上都不成功。 从这些调查数据中不难看出,目前的搜索引擎仍然存在不少的局限性。造成上述信息检索困难的原因的实质在于传统的搜索引擎对要检索的信息仅仅采用机械的关键词匹配来实现,缺乏知识处理能力和理解能力,也就是说搜索引擎无法处理在用户看来是非常普通的常识性知识,更不能处理随用户不同而变化的个性化知识等。搜索引擎如何学习这些知识呢?因为搜索引擎从根本上说是为搜索引擎的用户提供服务,其根本目的是为了查询结果得到用户的许可。这样就需要研究用户们的行为,从中获取用户使用搜索引擎的一般性规律,这就等于学到一 些用户认同的“普遍常识”,并用这些规律来对搜索引擎进行有针对性的改进。对于某些用户(譬如经常访问搜速引擎的用户),可以考察其特性,为其提供“量身订做”的服务。搜索引擎的用户日志中记录了用户访问搜索引擎的大量数据,对其进行分析可以得到用户用户访问搜索引擎的一般性规律和某些用户的特性。这对于改进搜索引擎的检索质量是有帮助的。 北京大学硕士学位论文 搜索引擎的日志分析:方法、技术和应用 10 于 搜索引擎基本原理 因为本文中的所有实验和结论都是针对“天网”搜索引擎的,前文中提到,“天网”属于基于 搜索引擎。下面简要介绍一下这类搜索引擎的基本 工作原理。搜索引擎的通用结构如图 所示。 图 2 . 4 搜 索 引 擎 的 通 用 结 构 ( 摘 自 1 4 ) 图 2索引擎通用结构图(摘自 11) 搜索引擎的工作包括如下 3 个过程: 12 1)搜集 息:发现、搜集 的网页信息。需要有高性能的搜集器自动的在 搜索信息。 息搜集器是下载 网页的程序。它顺着网页之间的链接移动,自动下载所经过的网页。给定起始 合 S, 中移除 载相应的网页,解析出网页中的超链接未访问过的 入集 合 S。 集器也称作 器人或 集器把所获得的信息保存下来以备建立索引库和用户检索。 2)索引库的建立:对搜集到的 息提取和组织,建立索引库。这关系到用户能否迅速找到准确、广泛的信息。对搜集器抓来的网页信息快速建立索引,通常采用倒排表技术。如果在建立索引库的过程中对用户在检索端搜北京大学硕士学位论文 搜索引擎的日志分析:方法、技术和应用 11 索的查询串进行跟踪,并对查询频率高的查询串建立 以在检索端请求时,加快索引库的响应速度。 3)检索端的查询:根据用户输入的查询字串,在索引库中快速检索出文档。采用基于网页内容分析和基于超链分 析相结合的方法进行相关度评价,对检索出的网页进行客观的排序,从而尽量保证搜索出的结果与用户的查询串相一致。然后将输出的结果返回给用户。为了加快检索端的响应速

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论