网络检索技术_第1页
网络检索技术_第2页
网络检索技术_第3页
网络检索技术_第4页
网络检索技术_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络搜索技术 提纲 网络搜索概述 搜索引擎的工作原理和体系结构 搜索引擎的关键技术 倒排索引 相关排序 搜索引擎的发展趋势 提纲 网络搜索概述 搜索引擎的工作原理和体系结构 搜索引擎的关键技术 倒排索引 相关排序 搜索引擎的发展趋势 网络搜索概述 ( 1)网络搜索与传统信息检索的区别 检索对象集的规模和更新速度不同 传统的 容相对稳定的馆藏;而网络检索面对的是浩如烟海的 且网页的更新速度相当快,也存在网页被删除的情况。 检索对象的预处理水平不一样 传统 工选择、标引);而网页只能通过机器进行粗略的过滤和自动索引,全文索引不能很好的表达主题概念。 返回结果 传统的 网络检索的返回结果动则上万。 并发操作 传统 网络检索通常要处理大量的并发操作 用户检索知识和技能 网络搜索面对的用户的检索知识和技能参差不齐,而传统信息检索的用户一般都受过相关的培训和教育。 ( 2)网络搜索主要有两种类型:搜索引擎、分类目录式网络搜索 分类目录式门户网络搜索是建立在分类学基础上的,当它遇到一个网站时,先以人工方式将该网站划分到某个分类下,再记录一些摘要信息对该网站进行概述性的简要介绍。这样的门户依赖的是人工整理的网站分类目录。一方面,用户可以直接沿着目录导航,定位到他所关心的信息;另一方面,用户也可以提交查询词,让系统将他直接引导至与该查询词最匹配的网站。 1994年 4月,斯坦福大学的两名博士生, 户网站就是典型的分类目录式网络搜索。 站成功地使网络信息搜索的概念深入人心。 在很多时候,人们也称这类的网站提供的信息搜索功能为搜索引擎,但是从技术上讲,这类门户网站提供的搜索服务与后述搜索引擎是很不同的 。 由于对海量的信息进行高质量的人工分类已经不太现实, 种靠人工整理网站目录取得较高精度查询结果的优势逐渐退化。 搜索引擎 是一种在 以一定的策略在 搜集和发现信息,在对信息进行处理和组织后,为用户提供 询服务。 独立搜索引擎、元搜索引擎 一些著名的搜索引擎: 百度,北大天网 目前,搜索引擎已经成为了主流的网络搜索方式。本次 报告只涉及搜索引擎中的基本原理和主要技术。 ( 3) 搜索引擎发展历史 搜索引擎发展端倪 1990年加拿大麦吉尔大学 (算机学院的师生开 发了一个软件 认为是现代搜索引擎的鼻祖。为了便于人们在 分散的 通过定期搜集并分析 存在的文件名信息,提供查找分布在各个 1993年 是世界 上第一个利用 器 人” (序。刚开始它只用来统计互联网上的服务器数量,后来则 发展为能够通过它检索网站域名。 第一代搜索引擎 1994年 4月 ,第一个搜索引擎 )在美国诞生。同年 5月 , )也在美国出 现。 1997年,最早的中文搜索引擎北大天网开始提供服务。 早期搜索引擎主要使用基于文档内容信息的匹配和排序算法 ,较典型的 包括布尔模型、向量空间模型、概率检索模型、模糊集合模型、扩展布 尔检索模型等。第一代搜索引擎往往以反馈结果的数量来衡量检索结果 的好坏 ,即“求全” 第二代搜索引擎 1998年推出的 其采用了独特的 使之很快后来居然成为当前全球最受欢迎的搜索引擎。随着 现 ,第二代搜索引擎诞生。 2000年,最大的商业中文搜索引擎百度上线。 第二代搜索引擎依靠机器抓取 ,建立在超链分析基础之上 ,提高了查准 率 ,检索思想、方法和目标有了根本性的改变。 第三代搜索引擎 从 2003来开始,致力于解决现有搜索引擎服务的问题。一个是以 术驱动型”理念 ,还有雅虎、搜狐等 ;一个是(精武门呱呱 )为主的“服务驱动型”理念。 技术驱动型对第三代搜索引擎这样描述 :第三代搜索 ,是对整个网页做 一种分析和数据挖掘 ,不仅要找到更多的结果 ,而且要更加智能化、人性 化、更加精确 ,能够理解用户需要什么结果 ,然后进行聚合和整理。 服务驱动型对第三代搜索引擎的描述是 :“第三代全能搜索”概念认为 , 随着搜索引擎服务在互联网市场的重要性日益突出 ,以信息搜索为主体的 服务模式 ,已经显露出单一化的趋势。搜索引擎技术的发展需要在进一步 优化搜索技术的前提下 ,寻找更大的服务市场和更大的经济运行空间。 搜索引擎出现只有十多年的历史,但在 位。据 2009年搜索引擎服务的使用率排名第三,约为 73%。虽然它的基本工作原理己经相当稳定,但在其质量、性能和服务 方式等方面的提高空间依然很大,研究成果层出不穷,是每年 术年会的重要论题之一。 提纲 网络搜索概述 搜索引擎的工作原理和体系结构 搜索引擎的关键技术 倒排索引 相关排序 搜索引擎的发展趋势 搜索引擎的工作原理 现代大规模高质量的搜索引擎一般采用三段式的工作流程, 即:网页搜集、预处理和查询服务。 ( 1)网页搜集 面对大量的用户查询,系统不可能每来一个查询就到网上“搜集”一 次。大规模搜索引擎服务的基础应该是一批预先搜集好的网页(直接 的或间接的)。 网页数据库维护的基本策略: 批量搜集 :也称“定期搜集”。每过一段时间重新全面搜集网页,替换掉上次的内容。 优点:实现简单; 缺点:时新性( ,每次搜集的时间通常会花几周,开销比较大。 增量搜集 :开始时搜集一批网页,往后只是: 1)搜集新出现的网页;2)搜集发生了改变的网页; 3)删除不存在的网页。 优点:时新性较高,系统开销较小; 缺点:搜集过程的系统实现比较复杂,索引的的建立也比较复杂。 具体的搜集过程: “爬取”:将网页集合看做一个有向图,爬取程序从给定的其实开始,沿着网页链接,按照某种策略遍历网页集合。 让网站让网站拥有者主动向搜索引擎提交它们的网址,系统在一定时间内 (2天到数月不等 )定向向那些网站派出“蜘蛛”程序,扫描该网站的所有网页并将有关信息存入数据库中。 在第一次全面网页搜集后,系统维护相应的 ,往后的搜集直接基于这个集合。每搜到一个网页,如果它发生变化并含有新的 将它们对应的网页也抓回来,并将这些新 中 ;如果 将它从 ( 2)网页预处理 网页预处理是指从网页集合形成倒排文件的过程。主要包括四个方面: 关键词提取 式不规范,为了支持后面的查询服务,需要 从网页源文件中提取出能够代表它的内容的一些特征,即关键词。对于中 文来说,就是要根据一个词典,用一个所谓“切词软件”,从网页文字中切 出所含的词语来。在那之后,一篇网页主要就由一组词来近似代表了, p= , 重复或转载网页的消除 与生俱来的数字化和网络化给网页的复制以及转载和修改再发表带来 了便利,这种现象对于广大的网民来说是有正面意义的,因为有了更多的 信息访问机会。但对于搜索引擎来说,则主要是负面的 ;它不仅在搜集网页 时要消耗机器时间和网络带宽资源,而且如果在查询结果中出现,无意义 地消耗了计算机显示屏资源,也会引来用户的抱怨,“这么多重复的,给我 一个就够了”。因此,消除内容重复或主题内容重复的网页是预处理阶段的 一个重要任务。 链接分析 注的对象,认为它们不仅给出了网页之间的关系,而且还对判断网页的内 容有很重要的作用。 网页重要程度计算 为结果排序服务的,但既然是在预处理阶段形成的,就是和用户查 询无关的。“被链次数较多的网站较为重要”。作为 的 ( 3)查询服务 如上述,从一个原始网页集合 处理过程中得到的是对 一个子集的元素的某种内部表示,这种表示构成了查询服务的直接基 础。对每个元素来说,这种表示至少包含如下几个方面: 原始网页文档 编号 所含的重要关键词的集合(已经它们在文档中出现的位置信息) 其他一些指标(如重要程度,分类代码) 查询方式和匹配 查询方式指的是系统允许用户提交查询的形式。用一个词或者短语来直 接表达信息需求,希望网页中含有该词或者该短语中的词,是主流的搜索引 擎查询模式。对查询式进行分词,去停用词后与索引词进行匹配。包含了查 询词的文档被认为是相关的文档。 结果排序 文档摘要 搜索引擎给出的结果是一个有序的条目列表,每个条目有三个基本的元 素:标题,网址和摘要。其中的摘要需要从网页正文中生成。 静态方式:即独立于查询,按照某种规则,事先在预处理阶段从网页内容提取出 一些文字,例如截取网页正文的开头 512个字节 (对应 256个汉字 ),或者将每一个段落 的第一个句子拼起来,等等。这种方式对查询子系统来说是最轻松的,不需要做另外 的处理工作。但这种方式的一个最大的缺点是摘要和查询无关,当用户输入某个查 询,他一般是希望摘要中能够突出显示和查询直接对应的文字,希望摘要中出现和他 关心的文字相关的句子。 动态方式:即在响应查询的时候,根据查询词在文档中的位置,提取出周围的 文字来 ,在显示时将查询词标亮。这是目前大多数搜索引擎采用的方式。 用 户 接 口 检 索 器 索引 引 器 原始 制 器 搜 集 器 户行为 日志 志分析器 提纲 网络搜索概述 搜索引擎的工作原理和体系结构 搜索引擎的关键技术 倒排索引 相关排序 搜索引擎的发展趋势 索引 搜索引擎主要针对全文进行索引以及检索,所谓全文检索, 就是给定一个字符串或字符串逻辑表达式,对文档库进行相 应的检索,查找出与指定表达式相匹配的文档,并将包含这 些文字信息的文档作为检索结果返回给用户。 目前主流的全文索引模型主要有倒排索引 ( 署名文件 (位图 ( 组 (。倒排索引的目前多数搜索引擎的一种全文索引模 型。 对一个中文搜索引擎,索引创建不仅仅只是一个高效的倒排 算法,它还包含许多重要的方面:索引词的选择,中文分 词,编码识别和转换、网页净化、强健的页面分析等。 创建索引的过程包括分析网页和建立倒排索引文件。二者是 顺序进行,先分析网页,后建立倒排文件,如图所示: ( 1)分析网页 分析网页过程包括提取正文信息和把正文信息切分为索引词两个阶段。形成的结果是文档号到索引词的对应关系表 即正向索引。每条记录中包括文档编号,索引词编号,索引词在文档中的位置信息,“索引词载体信息”(索引词的字体和大小写等信息,是 中文分词原理 中文信息和英文信息有一个明显的差别 :英语单词之间用 空格分隔 ;而在中文文本中,词与词之间没有天然的分隔符, 中文词汇大多是由两个或两个以上的汉字组成的,并且语句 是连续书写的。这就要求在对中文文本进行自动分析前,先 将整句切割成小的词汇单元,即中文分词 (或中文切词 ) 自动分词的基本方法有: 基于字符串匹配的分词方法 基于理解的分词方法 基于统计的分词方法 基于字符串匹配的分词方法 这种方法又称为机械分词方法,它是按照一定的策略将待分析的汉字字 串与一个充分大的词典中的词条进行匹配,若在词典中找到某个字符串, 则匹配成功 (识别出一个词 )。按照扫描方长度优先匹配的情况,可以分为最 大或最长匹配,和最小或最短匹配 ;按照是否与词性标注过程相结合,又可 以分为单纯分词方法和分词与标注相结合的一体化方法。 常用的几种机械分词方法如下: 正向最大匹配法 ( 从左到右每次取最长的词,得到切分结果 逆向最大匹配法 ( 从右到左每次取最长的词,得到切分结果 最少切分, 也叫最短路径法,采用最短路径法找到词图中起点到终点的最短路径,即每一句切出的词数最小。 全切分 ,该算法给出一个句子所有可能的切分结果 一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较 少。统计结果表明,单纯使用正向最大匹配的错误率为 1/169,单纯使用逆 向最大匹配的错误率为 1/245。但这种精度还远远不能满足实际的需要。 基于理解的分词方法 其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和 语义信息来处理歧义现象。它通常包括三个部分 :分词子系统、句法语义 子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关 词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对 句子的理解过程。 理解性分词方法需要使用大量的语言知识和信息。由于汉语语言知识 的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式, 因此目前基于理解的分词系统还处在试验阶段。 基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出 现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概 率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合 的频度进行统计,计算它们的互现信息。计算汉字 的互现信息公式为 互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个 阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字 组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词 方法。 但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是 词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对 常用词的识别精度差,时空开销大。 实际应用的统计分词系统都要使用一部基本的分词词典 (常用词词典 ) 进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和 串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用 了无词典分词结合上下文识别生词、自动消除歧义的优点。 汉语分词的难点: 歧义消除 乒乓球拍卖完了 新词识别 伪娘 ( 2)建立倒排索引 倒排索引( 从书目索引中受到启发而派生出来的, 它也是目前应用最广泛的全文索引模型。倒排索引由一系列“单词 列表( 对组成。 在分析网页阶段形成了正向索引,如下图所示: 倒排索引的结构 构建倒排索引的过程 对于每一个词 置入列表( 组织结构为: 当面对小数据量时 ,我们有足够的内存保证该创建过程可以一次完成。但 是 ,搜索引擎面对的是 特别是当规模不断扩大时 ,我们根本不可 能提供这么多的内存 , 我们采用分组索引 ,然后在 归并索引 的策略来解决 这一问题。 倒排索引的压缩 对于全文检索而言,其中的每一个词(停用词除外)都参与倒排索引 的构建。随着信息量的不断增长,需要索引的文档数目将逐渐增加,使 得其索引的大小变得异常庞大。通常,倒排索引采用压缩方式进行存 储,压缩不仅可以减少存储空间,而且可以减少 I/供检索 系统的吞吐率。如何在尽量的提高信息检索性能的前提下,缩减倒排索 引的大小已经成为搜索引擎成功的关键因素之一。 关于索引的压缩,一些学者及其文献进行了相关的研究: 出了一种二元判断图编码的倒排文档压缩算法,其在 对倒排列表压缩的同时,也很好的支持布尔检索; 利用了前缀冗长编码,游程编码和 效的对大规模文本库 索引进行了压缩,其压缩节省的 I/间; 对整数列表的压缩提出了一种固定二元代码字( 编码策略,实验证明其在检索效果和效率上都很出色; 人通过一系列的实验得出结论,通过一种合理的字节对 齐压缩,可以使得压缩后的索引比不压缩的索引检索性能更好。 基于游程编码( 整数差的索引压缩策略 把大的整数变成小的整数 基于字节对齐和基于位对齐的整数编码策略 倒排索引的动态维护 在动态检索环境下,文本集中文本频繁地进行动态的增加 和删除,这无疑给索引的构建和维护提出了新的挑战。 在线( 引构建策略,允许在索引建立的同时立即 提供检索服务,有效的适应了动态检索环境的要求。 在线索引维护首先对新加入的文档在内存建立索引,随后的 检索在内存索引和磁盘索引上同时进行。 由于内存资源的稀缺性(相对于硬盘而言),随着新文档 的加入,内存很快就会耗尽,这时就需要对内存中和硬盘上的 索引进行合并。当前针对索引的合并策略,主要有 者对于长的并且更新不是很频繁的置入列表 很有效,而后者对短的并且更新很频繁的置入列表进行合并很 有效。 引维护 首先在内存中对渐增的文档建立索引,当内存耗尽时,把内存中的索引 追加到硬盘上的索引上,从而形成新的索引。为了加快索引的更新速度, 通常在硬盘上预先分配了更多的空间,一旦内存中的索引需要写入到硬盘 上时,就可以写到预留的空间中了,这样可以避免倒排列表的复制移动 . 引维护 基于合并( 引更新策略一般不像 样通过置 入列表的追加操作完成的,而是对内存中的子索引和磁盘中的索引进行合 并,从而产生新的倒排索引 , 通常,内存耗尽时触发索引合并事件。根据合 并策略的不同通常有以下几种策略, 不合并( 立即合并 ( 对数合并( 。 混合索引动态维护策略 其主要是综合了 引维护策略,其区分了长置 入列表和短置入列表,对于长的置入列表运用 免了大量数据的移动;而短的置入列表运用 略的原理为: 首先在内存中对增加的文本建立索引,当内存耗尽时,将内存中的创建的子索引直接存盘,不和硬盘上的索引进行合并(即: 允许在硬盘上并列存在多个子索引 . 索引更新操作的速度很快 , 延长检索响应时 在硬盘上只维护一个大的索引,一旦内存耗尽即触发索引合并事件,对内存上的子索引和硬盘上的大索引立即进行合并处理,形成新的索引 价比较高 , 加快了检索响应速度 对数合并策略 基本原理为:对索引进行分代( 直接由内存产生的子索引记为第 0 代;如果第 n 代之间的子索引进行合并,则产生的索引记为第 n+1 代;只有相同代之间的子索引才能进行合并,当同代之间的子索引个数大于等于 2 时,即触发索引合并事件,同代之间的每两个子索引进行合并,产生 +1代的索引,直到没有代相同的子索引为止。 然而,在实际的动态检索环境下,还包括文本集中的文本的 删除,这时就需要将删除文本的置入项从置入列表中删除, 此种情况比单调增加要复杂的多。 通常对这种情况的处理方式有两种:一种是直接对相应的记 录在倒排索引中删除,即遍历每个包含该文档中词的置入列 表,对相应的置入项删除;另一种是建立一个删除列表,用 于标识每一个待删除的文档,并在置入列表中对待删除的置 入项进行标识,等到记录数到达一定量时(一般设置一个阈 值)统一进行处理,有人把这种方式叫做垃圾回收策略 相关排序 传统上,人们将信息检索系统返回结果的排序称为“相关 排序” (其中各条目的顺序反映结果和查 询的相关程度。 在搜索引擎的情况下,人们也这么讲,但内涵其实是有 了差别。一方面,搜索引擎维护的内容十分繁杂且不规范, 不像传统的图书、文献等有很好的分类体系管理。另一方 面,搜索引擎面对的用户背景广阔,层次多样,不像传统的 信息检索系统所面对的用户通常有相对比较整齐的用户群。 因此,搜索引擎要给出的不是一个狭义的相关序,而是某种 反映多种因素的综合统计优先序。 ( 1)传统 给定某个文档集合 D,大小为 M;设两篇文档 D, 一个查询 q。用什么样的标准来讲“ 者和 关 ?” 这方面最经典、最有影响的工作是 30多年前提出的“向量空间模型”。 这一理论照搬到网络搜索系统中有很大的问题,其原因在 于 引质量不高;大部分检索用 户都是没有丰富检索知识和技能的。这与向量空间模型成立 成功的内在假设是不相符合的。 ( 2) 链接分析和相关排序 尽管 其中的复杂性 也给我们带来了新的机会,主要体现在两个方面。首先可以利用网页间的 链接关系进行链接分析,量化网页信息 ;其次,在 许多新的信息可资利用,如 网页和普通文本的不同主要反映在两个方面 :链接。 签能给我们提示其中文字的重要程度。常 识告诉我们,在同一篇文字中,比较大的字体往往是作者比较强调的内容 ; 而在一版 (以区别“一篇”,如同报纸 )内容分块、且有一定布局的文字上,放 在前面和中间的应该是作者比较强调的。许多著名搜索引擎在网页的预处 理阶段记录了这些信息,并用于结果排序。例如 超链接反映的是网页之间形成的“参考”、“引用”和“推荐”关系。可以合 理的假设,若一篇网页被较多的其他网页链接,则它相对较被人关注, 其内容应该是较重要、或者较有用。 可以认为一个网页的“入度” (指向它的网页的个数 )是衡量它重要程度 的一种有意义的指标。这和科技论文的情况类似,被引用较多的就是较 好的文章。同时,人们注意到,网页的“出度” (从它连出的超链个数 )对分 析网上信息的状况也很有意义的,因此可以考虑同时用两个指标来衡量 网页。这些想法即是斯坦福大学 开发小组几乎在同一时间分别提出著名的 基础。 研究,把引文分析思想借鉴到网络文档重要性的计算中来,利用网络自身 的超链接结构给所有的网页确定一个重要性的等级数,当从网页 网页 认为网页 一票,增加了网页 后根 据网页的得票数评定其重要性,以此来帮助实现排序算法的优化,而这个 重要性的量化指标就是 简单的链接数量计算并不能客观真实地反映网页的重要性。所以 即链接 )的纯数量之外。还要分析为其投票 的网页的重要性,重要的网页所投之票有助于增强其他网页的重要性。 因为所有的网页的 以我们进行平均的 分配,给每个网页的 。再根据上述公式进行计算。 然后对得到的值再次利用上面的公式计算。这样反复地计算。直到计算 得到的 ( 1)“权威型( 页”:对于一个特定的检索,该网页提供最好的相关信息。 (2)“目录型 (页” :该网页提供很多指向其它高质量权威型网页的超链。 而 为 两 种页面具有不同的功能,对于用户而言,也具有不同的意义如果用户希 望了解一个陌生领域的研究内容, 同的页面,能够提供丰富的信息 ;但如果用户希望查找一个具体的概念或 范畴,则 此, 引入两个权值 :后分别输出一组具有最大 点表示网页,边表 示网页之间的链接,从中寻找 先,将查询提交给传统 的搜索引擎,从搜索引擎返回的页面中选取一定数量的页面作为根集 (也可以称为开始集 (然后,在根集的基础上生成 基本集 (基本集中包括所有引用根集中页面和被根集中页面 引用的页面。基本集中的页面和它们之间的超链构成了所要处理的子 图,算法的其余部分主要是针对这个基本集进行的。 为基本集中的每一个页面 负的权值 始化时,赋给所有的 后按照如下 规则来计算 P。用所有指向页面 q的 新 用所有页面 q的 P。 公式如下 : 经过一定次数的递归运算后,会得到集合中每个网页的权威型权值 和目录型权值。按照这两个不同的权值,分别取出前 两种算法的比较 它们都利用了网页和超链接组成的有向图,根据 相互链接的关系 进行 递归 的运算 区别主要在于 运算的时机 。 线 的使用一定的算法计算每个网页的权值,在检索时只需要从数据库中取 出这些数据即可; 得到一个检索,它 都要从数据库中找到相应的网页,同时提取出这些网页和链接构成的有 向子图,再运算获得各个网页的相应链接权值。 总的来说,结果排序是搜索引擎技术最重要的一个方面, 从概念上讲,主要就是涉及前面讨论的因素,但在实际系统 中会衍生出许多变化,其细节往往是商业机密。 提纲 网络搜索概述 搜索引擎的工作原理和体系结构 搜索引擎的关键技术 倒排索引 相关排序 搜索引擎的发展趋势 ( 1)具有智能词组效应和编辑功能 美国布法罗大学计算机学家罗西尼 斯里哈里说 :“在大多数情况下 ,你要找 的文件不一定包含你要查找的所有关键词。而且如果你希望找到突然成为热 门话题的人或物 ,你甚至都不知道要搜什么样的关键词”。 美国 施乐公司 )和旧金山的一家公司 及总部设于悉尼 的 正在试图超越精确匹配查寻词的功能 ,它们正在试图 先弄明白你要查找什么 ,然后根据它们对相关内容的理解找出最佳页面。 ( 2)垂直搜索引擎 垂直搜索是对特定的专业领域或行业信息进行专业化的、深入的分析挖 掘和精细分类 ,信息定位更精准 ,专于自己的特长与核心技术 ,保证该领域信息 的完整收录、及时更新 ( 3)具有公众参与能力 美国的 些网页是最有用的 ,剔除在谷歌根据链接数量排序的方案中时常无关紧要和充 斥着垃圾信息的搜索结果。如同与人人都能参与编写维基百科一样 ,美国的维 基亚公司正在打造一个基于用户贡献的搜索引擎 ( 4)具有引导查寻能力 当用户输入一个查寻词时 ,搜索引擎尝试理解用户可能的查询意图 ,给予 多个主题的搜索提示 ,引导用户更快速准确地定位自己所关注的内容。这种 与用户的“对话交流” ,大幅度提高了搜索相关度。例如 ,用户输入“猎豹”一词 , 搜索引擎会快速将猎豹

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论