




已阅读5页,还剩31页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本科生毕业论文 题目: (中文 ) 端 平 台 测 试 与 优 化 (英文 ) 名: 学 号: 院 系: 信息科学技术学院 专 业: 计算机科学与技术 指导教师: 二一七年四月十七日 端平台设测试与优化 摘要 一种智能中文搜索引擎平台,分成前段和后台两部分。前端和后台在运行时进行交互,完成整个平台功能。本文从 端的功能需求出发,详细介绍前端的各个功能模块的设计和实现方式,并且说明了端测试和优化方法。 端承担了提取搜索引擎摘要的功能,但目前 对于搜索引擎摘要的选取原则、算法规则却没有明确的框架或算法。因此本文 对搜索引擎摘要的意义、标 准、分类等进行详细的讨论,并 以形成用户查询为中心的动态摘要为出发点,给出算法实现的形式化原则,并具体实现了一种动态摘要算法。与百度搜索引擎的动态摘要相比较,实验显示一致性上比百度高 6%。此处的一致性是指,摘要和用户查询相关性与原文档和用户查询相关性之间的关系,二者越接近一致性越高。该算法已经应用到北京大学校内搜索引擎上 。 关键词: 查询,关键词,摘要,查询日志,点击日志 端平台设测试与优化 i is a of of n of s of to or of is at a of on a is of % to KUs 端平台设测试与优化 录 第一章 引言 . 1 第二章 端设计与实现 . 3 端功能需求与功能实现 . 3 端功能模块划分,及其关系和工作流程 . 7 端功能模块 . 7 端功能模块工作流程 . 11 端性能优化 . 12 端时间性能优化 . 13 端显示优化 站点聚类 . 13 第三章 搜索引擎摘要综述 . 14 背景 . 14 自动文摘 . 14 点击日志 . 14 查询分类 . 15 网页正文 . 15 搜索引擎摘要的意义 . 16 搜索引擎摘要评判标准 . 16 搜索引擎摘要分类 . 18 “动态摘要 ”与 “静态摘要 ” . 18 搜索引擎摘要选择 . 18 静态摘要的提取 . 19 第四章 搜素引擎动态摘要算法 . 20 背景 . 20 态摘要算法的形式化规则 . 20 动态摘要算法框架 . 21 动态摘要算法实现及细节处理 . 22 动态摘要算法伪码 . 22 算法实现细节及实际参数设置 . 24 第五章 动态摘要算法实验及搜索引擎摘要评测 . 25 实验目的 . 25 摘要质量评测 . 25 实验方法 . 25 实验结果说明 . 26 实验结果分析 . 27 搜索引擎摘要评测 . 28 第六 章 搜索引擎摘要总结 . 29 端平台设测试与优化 谢 . 30 参考文献 . 31 端平台设测试与优化 1 第一章 引言 简称,是一种智能中文搜索引擎平台。 计分为前端和后台,两部分可以放在不 同的服务器上,通过 议进行交互。端承担了 查询解析,生成一定格式的查询串,接受后台结果,提取摘要,显示结果 ,日志记录 等任务,其性能 关系到 整个搜索引擎的性能 表现。本文将介绍 端设计框架,各个模块的功能 和关系 。 统已经应用到北京大学校内搜索 ()。 上文中提到 端承担提取摘要的 功能,这里所谓摘要,是指 搜索引擎摘要 (是搜索结果中对链接页面内容的一段描述性文字。 当搜索引擎响应查询返回结果时,对检索结果的展示往往包含三个部分:检索结果的标题、检索结果的搜索引擎摘要、检索结果的 中搜索引擎摘要 往往设置在 标题 标题下 (如图 1)。 图 1 一条检索结果及说明 搜索引擎摘要是关于链接页面描述性的一段文字,用以在一定程度上展示链接页面的内容,搜索引擎用户可以基于摘要要判断链接页面的价值。搜索引擎摘要和自动文摘十分类似,可以 借鉴自动文摘中的理论和方法,当然搜索引擎摘要也有自身的特点。 关于自动文摘的研究已经有半个世纪,但是对于搜索引擎摘要的选取原则、算法规则却没有明确的框架或算法 、同时也缺少统一的比较和评测方法 。 在 1一书中对搜索引擎摘要进行了讨论,将其分为两类 :一类是不随查询变化,与查询无关的摘要,书中称其为静态摘要;一类是与查询相关 ,对同一篇网页随查询变化而变化的摘要,称其为动态摘要。书中还提出了一种“ 动态摘 要提取方法,指出摘要应当包含查询中的关键词,并给出了 三点针对 提取出 的 摘要 的建议: (1)最大限度的包含关键词; (2)摘要内容完整,且可读; (3)足够精炼。 端平台设测试与优化 2 点击日志进行研究,提出了一种利用点击日志来证明一些搜索引擎结果展示的启发式规则的方法,并利用该方法发现了一些隐式的摘要提取原则。 李晓明等在2005 年给出了一种便于理解和实现的简单的动态摘要算法 3。 007年 基于滑动窗口 提取 动态摘要 4。 本文将对前人的方法进行总结, 讨论搜索引擎摘要的意义,分类,提取原 则,评价方法, 其中涉及到查询 分类,点击日志的使用等内容。本文 最终 以形 成用户查询为中心的动态摘要为出发点,给出算法实现的形式化原则且 具体实现了一种动态摘要算法。 并将该算法所得摘要与商业搜索引擎摘要在一致性上进行 比较。此处一致性指搜索 摘要和用户查询相关性与原文档和用户查询相关性之间的关系,二者越接近一致性越高。该算法已经应用到北京大学校内搜索引擎上 。 端平台设测试与优化 3 第二 章 端设计与实现 端 功能需求与 功能实现 本节将简述 前端功能需求,将对这些需求进行分析,给出满足这些需求的程序实现方式,并对这些实现方式进行说明。 表格 1 端功能需求 查询界面,接收用户查询 解析查询,进行切词 为用户分配 于特定查询词,特定网页放在首位 发送查询至后台,接收并解析后台结果 结果显示 日志记录 针对 端功能需求, 端 采用 言 编写 。一种 面向对象的 半 解释性的计算机程序设计语言 ,可方便用于编写公共网关接口 ( 并且模块间的引用十分方便。 端涉及接收用户查询,字符串编码、解码、链接、切分,子串的查询,与后台进行 通信 连接 ,页面显示 等操作, 而 言拥有脚本语言中最丰富 、最强大的类库,可以较为方便的实现这些操作,因此前端选择言实现。 下面 将介绍 端各个功能的目的,并 在 端的基础上 , 对 端各个功能的实现 方式 进行详述。 【 中文切词 】 切 词指将一个查询中的单个词切分出来,用空格隔开,例如“北京大学”经过 切词之后为“北京 大学”,包含在查询中的词称其 为关键词 。搜索引擎就是利用查询中关键词,寻找包含关键词的文档,因此切词功能对搜索引擎的效果十分重要 。 端 中文切词 功能实现 是 采用 使用北京大学计算语言所的切词模块,将该模块 编译 成以 尾的 动态链接库文件 , 通过 言中的式 实现对该模块的引用 。 【 编码解码操作 】 端涉及相当数量的字符串 编码和解码操作 , 这 一 是由于字符串的处理和字符串的显示往往需要使用不同的编码方式 ;二是 端涉端平台设测试与优化 4 及到不同模块,不同模块间对字符串的编码要求往往不同 。编码解码操作 通过言的 数实现 ,在编码解码时可对函数参数进行选择,控制编码解码操作在原字符串上进行或是保持原字符串不变而是将编码解码后的结果复制到其他字符串变量中 。 【 查询串 】 后台设计,后台是检索核心,而前台主要承担查询处理和结果显示等任务,前后台之间通过信息传递串联完成整个 检索功能,前台对后台发送的主要信息就是查询串。 考虑查询串所需包含的信息。显然查询串的主体 是 查询 , 但该查询不能是原始查询,应当经过切词,同时转化成后台可处理 编码 的编码方 式 。其次,索结果多页显示,每次在一个页面中显示一定数量 检索结果 (具体实现时每个页面显示 10 条结果 ),所以每次 后台也 只会相应地传这一定数量的检索 结果 。显然对于一个新查询将显示第一页的结果,而第一页结果必然是从第一条开始,但当用户查看第二、第三页的结果时,页面的结果显示将从其他结果开始。因此,前端必须使 后台 得知从第几条结果开始传输。基于这点考虑, 查询串必须包含“起始结果 号 ” ,告知后台从该条结果开始传输 。最后 ,查询串应当 包含 查询 站点信息 。 求能够实现指定站点的查询, 即只在某个站点 上检索相关结果 。 结合以上三点可得查询串必须包含“处理过的查询”、“起始结果号”、“查询站点”。在实际实现时查询串由这三部分构成,部分与部分间用“ n”隔开,在不指定站点的情况下,“查询站点”部分为字符串“ 【 前后台通信 】 端后台设计模式要求其前端和后台能够通信。实现时,后台通信 采用 议 进行 。 议 采用“客户端 /服务器”的模式解决进程间 的 通信问题 ,客户端和服务器采用不同的 于 统其前端相当于客户端, 后台相当于服务器 。前台向后台发送查询串请求后台处理,后台返回查询结果,查询结果包括命中页面的 一共命中的结果数 。 议进行实现和封装 ,因此 ,在 前台 采用 言实现 的基础上 ,使用 议进行前后台通信十分便捷 。 【 配】 为一个智能搜索引擎平台,其目标之一是实现个性化搜索,即根据用户的历史行为用户提供针对其喜好的服务。为用户分配 要目的则是能够实现对用户身份的鉴别,为实现个性化检索服务。除此以外,用户 录入搜索引擎日志,这可以方 便的分析用户行为,研究用户的检索习惯,从进行一端平台设测试与优化 5 些搜索引擎优化的研究。 配 功能 通过 式实现。 写在客户端的数据,可实现用户识别, 踪 。 端 在 相浏览器中写入键为 字符串“ ,值为数字的 ,其中该数字即为用户的样当用户再次进行检索操作时可以从浏览器中读出用户的 值得注意的是 有生存期限的,当用户长时间不使用检索服务时,其 为丢失。 端对没有 用户分配 设置其生存期限,同时对已有 用户延长其生存期限。 【 对于特定词,特定结果放在首位 】 该功能在商业搜索引擎中十分常见,商家通过向搜索引擎付费来提高自身排名,而用户更信任排名较高的结果,如此可增加商家网页的点击量。 校内搜索要求对于一些特定查询,将学校相应的组织机构放在首位,例如查询“信科”、“ 都应将“信息科学技术学院”的主页放在检索结果的首位。 该功能通过数据库实现,在数据库中保存特定的词,以该词为索引,得到 特定结果的标题和摘要 以及 在接受查询后, 判断 查询是 否 特定词 , 若是 则从数据库中取出 相对应得特定结果信息 (包括标题、摘要以及 为检索结果的首条 。 【 提取摘要 】 端检索结果显示采用典型的“标题、摘要、 搜索引擎检索结果展现方式,因此要求前端实现对检索结果提取摘要的功能。 搜索引擎摘要是对链接页面的描述, 在 网页 正文的基础上提取,反映链接页面的内容。由于后台返回给前台的只有命中页面的 一共命中的结果数量,因此, 前端必须保存所有 网页 正文数据,并且 网页 正文数据必须方便的通过 对以上要求, 端使用 B, 存储正 文信息。 B 是 一种高性能嵌入式数据库,以键 /值对的方式保存数据,同时与 B 的操作。 端以 过 法后的值为键,以该 应的标题和正文内容为值生成 B。 如此, 端可 以 方便的 高效的 通过 取正文内容 ,并在获得正文内容的同时 提出 该 应的标题 。 之后便可基于查询,在正文上 提取 搜素引擎 摘要 ,提取摘要的具体过程和算法将在以后的章节中 详述 。 【 结果 显示】 索 结 果显示以网页的形式展现, 显然结算结果网页内容是动态的,随查询的不同而改变。 言中可以输出 码形成结果页面,并且在输出的 码中可嵌入 符串变量,如此可实现针对不同端平台设测试与优化 6 的查询显示不同的结果。 每条检索结果 由 搜索引擎流行的标题、 摘要、 部分组成。标题来源于B 中直接提取出的数据, 事实上通过键 过 法作用后的到是标题和正文对,即 (标题,正文 )这种二元组的形式 ;摘要是摘要算法作用于正文后的结果; 源于后台传输来的数据。 每次在页面 上显示 10 条结果,当不足 10 条结果时则显示现有数量的结果。 【 日志记录 】 搜索引擎日志包含两种:查询日志和点击日志,前者主要记录用户进行了哪些查询,后者记录用户点击了哪些结果。通过搜索引擎日志可以 发现哪些词是用户查询的高频词,可以研究用户的查询习惯,可以通过用户的点击日志调整搜索引擎结果。可以说日志是用户和搜索引擎交互的唯一记录,可以看做是用户对搜索引擎的一种隐式的反馈,对搜索引擎有着重大的意义。 志 同样 包括查询日志和点击日志。 其 查询日志采用 2005 年 9月实行的天网日志格式 (如表格 2),包括查询时间,查询词,查询来源 (址 ),命中结果数目,查询用户的 击日志同样采用 2005 年 9 月实行的天网日志格式 (如表格 3) ,包括点击时间,查询词,查询来源 (址 ),点击结果的 击结果在所有检索结果中的排序,点击结果排在第几页,生成该结果的检索模型 (台采用不同检索模型来生成检索结果 ),查询用户的 用户点击某条搜索结果 链接 时 , 会 先 调用点击日志记录脚本,该脚本记录点击日志并跳转到 真正 结果 页面。 表格 2 查询日志 容 说明 08:10:47 2006 查询时间 该查询请求的来源 瑞星杀毒破解版 查询串 查询时的域名(如 0:0 查询返回结果数:查询命中结果数 查询返回结果的页码 表格 3 点击日志 容 说明 09:23:45 2006 查询 时间 查询来源 肾积石 查询词 ,及其 关系和 工作流程 本节详细介绍 端实际实现 时 功能模 的 块划分 和各个功能模块所进行的操作 ,以及 模块 之间的调用 关系和返回信息 ,并给出 端处理一个查询时的工作流程。 端 功能 模块 【 块 】 块是 端 工作流程的主模块 ,事实上一个查询从开始处理到显示结果及是将 块整个过程运行一遍。 块 负责 接收查询调用其他模块,是 端工作 的 核心 模块 。 当用户 点击页面查询按钮 时 则调用 块 , 直到 块结束,一次查询操作也就完成了 。值得说明的是在搜索结果较多,对搜索结果多页显示时 (如图 2),当点击非当前页码或“下一页” 按钮 时,也会调用 块。事实上 点击非当前页码或“下一页” 按钮 对于 端来说就是一个新的查询,在除查询词 作为 ,又 给 块传递了一个页面参数, 即 表示查询第几个页面的结果。 如此设计是因为 对于一个查询每个页面只显示有限个结果,没有必要对不显示的结果进行处理,并且用户往往只在意排名靠前的结果。 对于每一个显示结果都用进行从 B 中提取正文,生成摘要 等 操作,而 对于一个查询,往往会有上千上万条结果, 对所有结果一次性全部处理 ,则耗时太长, 严重影响搜索引擎性能 。因此,采用这种“有请求则响应”的方法处理。 端平台设测试与优化 8 图 2 多页显示检索结果 【 块 】 块 由 块调用,返回用户 于已经分配 用户在修改 生存 期限后,直接返回 于未分配 用户,生成 置存在期限,发送至 后 向 块 返回用户 生成策略较为简单,使用文件存储当前应当分配的 ,生成 读取文件即可,同时将当前 加 1 后重新写入文件,作为下一个即将分配的 【 块 】 块实现中文切词功能 ,由 块调用。 块 以用户查询为参数, 通 过 有的 式引入北京大学计算语言所的切词程序,对查询进行切词, 返回 切词后的查询 , 。 调用切词模块之前必须确定查询的编码与切词模块相一致或者重新编码, 使得查询与切词模块编码相一致。 【 块 与 块 】 块为 搜索引擎 摘要提取模块,由 用 。 块 以切词后的查询和后台传来的 据为参数。 际并不承担摘要提取任务,其主要作用是进行摘要提取前的准备工作,主要功能是 以 后台 传送 数据中的 B(在 分提及 )中读取 对应的标题和正文, 在这之后 后 将切词后的查询和 获取的 正文作为为参数调用摘要提取核心 块为搜索引擎摘要提取的核心 ,由 块调用, 每次针对一个网页 以切词后的查询和 对应网页 正文为参数提取摘要 ,。该模块的具体实现将在第四章 详细讨论 。 【 块 】 端平台设测试与优化 9 结果页面显示模块,由 块调用,负责检索结果页面的显示, 完成查询词标红,结果的多页显示等功能 。标红指将检索结果标题或摘要中所包含的查询中的查询词突出显示 ,一般标注为红色,目的是突出检索结果和查询的关系(如图 3)。 查询结果的多页显示,在 块中已有说明,当点击下一页或非当前页码时进行一个新的查询 (该处新的查询指完整的运行一次 块 ),以超链接的方式调用 块,用 法传递参数,即直接在 以“?变量 =值”的形式 添加需要传递的参数 。该功能实现简单,但 初步实现后 在实际检测发现在 运行正常, 在 中会发生异常。经检测发现问题源于 事实上 当 包含中文参数时必须 对 行 适当 的 编码,即网 页中常见的“ %的形式 ( 如图 4) ,例如“北京 ”应当转化为“ %C%97%A%这种“ %式实质是将中文字符的 取出来,只是将 码中的 “ X”替换成了“ %”。 言中块实现一个名为 函数 ,该函数可以 解决含中文的 转化问题,使用方法 为 中文的 值得 注意的是 参数不能是 码。 图 3 对于查询“北大四级”的标红 图 4 含中文 的 码 【 块 与 块 】 块 查询日志记录模块,由 块 在最后 调用 ,负责记录查询日志 ,日志格式遵守 2005 年 9 月的天网日志格式 。 由于日志记录是对文件进行写操作,这里应当处理多个进程同时写的问题。对于该问题通过锁机制实现。设立“锁文件”,即一个专门用来让进程对其加锁的文件。当进程需要记录日志 修改文件 时首先尝试对“锁文件”进行加锁,若该“锁文件”已被加锁,则进程阻塞。若未被加锁,则加锁成功。加锁成功后即可对日志文件进行写 操作,操作结束后进行解锁。 块为 点击日志 模块,当用户点击某条检索结果时, 块被调端平台设测试与优化 10 用记录点击日志 ,日志记录完毕后跳转到 检索 结果 对应的 页面。点击日志处理 多进程同时写问题 的方式与查询日志相同 ,即设立锁文件 。 【 块 】 块功能为生成网页快照。网页原文是搜索引擎爬取的网页源代码,保存在搜素引擎服务器上,而网页快照则是基于网页原文生成的,当链接页面点不开时,用户可以通过网页快照查看所需信息。 块实现快照时,对 页面中包含的 查询中不同的关键词以 不同的颜色高亮显示。 端平台设测试与优化 11 端 功能 模块工作流程 返回 用 查询 接收 查询词 2 判断查询词合法性 3 切词 4 生成查询串 5 对于特定词汇 查 询 数 据库,发送查询串至后台 6 接收后台结果 得或分配 据库 后台服务 查询串 检索结果 端平台设测试与优化 12 端 性能优化 本节从时间性能和前端显示两个方面说明了如何对 端进行优点击检索结果 返回摘要 调用 提取摘要 8 显示结果 9 点击日志 返回摘要 调用 打开 D,得到标题和正文 2 对每 个 于正文提取摘要 用 用 记录点击日志 2 跳转到目标页面 点击天网快照 B 端平台设测试与优化 13 化。在时间性能方面描述了 端时间测试的方法;在前段显示方面介绍了站点聚类这一功能,以及 端对这个功能的实现方法。 端时间性能优化 端时间性能优化 主要在分两个步骤。一、对各个模块进行时间测试,找到瓶颈。二、针对瓶颈重点优化,可将能并行的 操作尽量以多线程的方式并行进行,比如对于特定查询将特定查询放在首位的功能涉及到查 询数据库的操作,该操作就可以和连接后台、等待后台结果并行进行。以上 两个步骤在不同的粒度上多次操作 。先 在粗粒度上进行时间测试确定瓶颈,而后可以进行一定 的优化操作,之后 再于瓶颈中进行细粒度 的时间测试。 时间测试前提是获得测试数据。 端数据来源于校内检索的查询日志,从校内检索的查询日志中提取出查询构造出查询集。获得测试数据后,让块从查询集中接受 查询 数据,开始整个工作流程。 端显示优化 站点聚类 站点聚类 (如图 )指对于某个查询,同一站点的命中结果只显示排名最高的一条,若要查看该站点上的所有结果,则可以 进行 指定站点 的 查询。 端站点聚类实现方式是将“查看站点上的更多结果”看做一种高级查询 ,在查询后添加“ 站点”。当点击“查看站点上的更多结果”时,实际上进行了查询为“原查询 站点”的查询 ,调用 块,运行整个流程。在 送至后台。 图 5 站点 聚类实例 端平台设测试与优化 14 第三 章 搜索引擎摘要 综述 背景 自动文摘 搜索引擎摘要是 在 正文 的基础上对重要信息的提取,这与自动文摘十分相似。自动文摘的研究已经经历了半个多世纪,产生了很多方法和理论,这些方法和理论对搜索引擎摘要的生成有着 非常重要的借鉴意义。 自动文摘 可 按不同的标准进行划分。 1、 按文摘来源地文档数可分为单文档文摘和多文档文摘,即在单篇或多篇文档上提取摘要。搜索引擎摘要只针对一篇网页,显然属于多单文档文摘的范畴。 2、 按文摘提取方式可分为 摘和 摘 5,这里的 别指提取文摘的两种方式。 式是指在文档中直接抽取段落作为文档摘要,不对抽取段落进行修改,所得文摘即为抽取段落组合; 式将重点放在生成 合乎语法的 摘要 ,对文档中的内容进行修改、糅合,往往需要高级的语言生成技术,涉及较多自然语言处理的问题。显然式的效率较高, 式处理速度较慢,考虑到搜索引擎摘要作为 用的一部分应当具有实时快速的特点, 法更加适合搜索引擎摘要的需求。 3、按照是否基于主题 (可分为基于主题的文摘和不基于主题的文摘。基于主题的文摘是指按照给定的主题抽取文章摘要,侧重于文章中关于给定主题的内容的提取,而不基于主题的摘要则重点在于 关于 文摘 本身主题的内容的提取。 由此类推搜索引擎摘要 也可以有两种方式,一种是基于查询的,提取页面文章中与查询最相关的部分,一种则是提取页面文章的大意,对于这两种方式应采取哪种,是否两种方式并存等问题将在“ 索引擎摘要 分类 ”中详细讨论 。 自动文摘的基础思想是 “ 确定哪些词在文档中是重要的,而后是找到包含这些重要的词的句子 ” 5。多数关于自动文摘 的工作遵从这一基本思想,不断寻找如何更好的提取对于文档重要的词和 如何更好的截取包含这些重要的词的句子的方法 。 搜索引擎摘要可以借鉴这一思想,将查询中的词看作是对于链接页面重要的词来提取包含查询中关键词的段落。 点击日志 点击日志是用户对搜索结果的反馈,可以说点击日志是用户和搜索引擎交互过程中留下的唯一记录。从直观思考, 应当 可以 点击日志 中挖掘出 用户对检索结端平台设测试与优化 15 果的 评价。比如对于一条查询,用户点 击了结果 A,而没有点击结果 B,可以直观上认为 A 的结果比 B 好。 任偏差”现象。所谓“信任偏差” 指的是用户对搜索引擎排序的信任造成偏向点击排名较高的结果,即使排名较低的结果比排名较高的结果更好。 由“信任偏差 ” 可以得出对于搜索引擎的第 N 条结果和第 N+1 条结果,如果用户点击了第 N+1 条 而忽略了第 N 条结果,则第 N+1 条结果应当比 N 条结果要更好 ,因为用户在“信任偏差”下任然点击了第 N+1 条结果 。由此考察两个结果链接页面 ,如果第 N+1 条结果 的链接页面比第 N 条结果的链接页面好,那么这样的结果是 自然; 但如果 N+1 结果并不比 N 条结果好,那么出现这种情况只有可能是搜索引擎对第 N 和第 N+1 条结果的展示方式所导致,于是可以认为N+1 条结果的摘要具备某些较好的特点,由此可以证明 一些搜索引擎摘要的启发式规则 或者挖掘出一些搜索引擎摘要的 隐式的 提取原则。 查询分类 考察对搜索引擎使用,可以发现一般只有两种目的查询。一是为了查询某种信息,比如 C+函数的某个用法;二是为了查询某个网站的 主页,比如查询“北京大学”。 在用户使用搜索引擎时,对用户眼睛进行跟踪计时,发现对于以上两种查询,摘要的理想长度在变化,前者要求摘要长一些后者要求摘要短一些,由此可知查询分类研究对于搜索引擎摘要的影响。 查询分类的方法有多种,但每种方法都包含两类查询信息类 (导航类 (,信息类查询指用户希望通过该查询得到某些信息,导航类查询则类似于上段中提及的对某个网站主页的查询。 其他类别还有交互类查询(资源类查询 (交互类查询比如多某个电子商务交易 平台的查询,资源类查询比如寻找某个电影的下载链接等,但查询的主流 仍 是信息类(导航类 ( 人通过点击日志给出了一种自动区分两类查询的方法,他们将信息类查询定义为搜索结果中有多条符合用户要求,将导航类查询定义为搜索结果中只有一条符合用户要求。 在本 文中采用将查询分为信息类和导航类 两类的分类方法。 网页正文 网页原文即是网页源文件,包含 签和图片,而网页正文就是该网页核心文字内容。网页正文是在网页原文的基础上进行去 签,去噪 (去除噪音,即去除和网页核心内容无关的信息,比如广告 )基础上提取。搜索引擎端平台设测试与优化 16 摘要是在网页正文上提取的,若正文质量低包含一些无关信息,那么摘要中很可能包含这些无关信息,产生质量较低的摘要。因此,正文质量的好坏直接关系到摘要质量的好坏。 搜索引擎摘要的意义 在 网络信息极大丰富 的今天 ,为了快速而准确的找到所需的信息,搜索引擎应运而生,成为现代网络的 必备 工具。虽然现代搜索引擎 提供了较准确的结果排序,然而时常会有一些 排在前面 的结果并不是用户所需要的 。 出现这样的 情况 一种原因 是 搜索引擎是基于全文索引技术提供服务,只要文档中包含查询词就会返回,很大可能存在与用户查询需求不相关的或者相关性弱的文档;另一种原因 用户的 查询词未必可以完全 体 现用户的意图 ,造成检索结果的偏差 。 搜索引擎摘要是对链接页面内容的体现, 因此 用户会通过阅读 搜索引擎 摘要来判定链接 页面的的价值 ,从而决定是否打开该页面进行详细的浏览 。 综上,搜索引擎 摘要的好坏直接影响到用户对链接价值判定的准确性 , 摘要的质量也成为用户选择搜索引擎 的标准之一 ,而 摘要的意义 就 在于对 于用户判断链接价值起到指导性作用 。 搜索引擎摘要评判标准 由上节可知搜索引擎摘要的意义在于对用户判断链接价值所起到的指导性作用,那么好的摘要应当起到正确的指导作用,即不产生误导,而误导的情况主要有两种: 1、 原本与用户查询较相关的链接 文档 ,用户阅读摘要后 感觉 不相关, 从 而忽略该链接 ,本文称该型误导为“类型一的误导” 。 2、 原本与用户查询不相关的链接 文档 ,用户阅读摘要后 感觉 相关,从而点击链接阅读原文 ,本文称该类型误导为“类型二的误导” 。 类型一的误导 很容易 理解 ,在日常 生活中比较常见,所以针对类型二的误导情况举例说明。 图 6 类型一误导的例子 查询: c+文件操作 摘要: 端平台设测试与优化 17 在图 6 所示的例子中,用户的意图是查找如何使用 C+语言进行文件操作,在看到图 6 所示的这个摘要后,用户会认为该链接文档主要讲的是 C+文件操作的实现原理,从而有可能不愿意点开链接。但正文恰是用户所要查询的内容,该文档详述了 C+文件操作各个函数的用法和参数设置(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房屋租赁环境卫生管理及清洁保养合同
- 商务写字楼场地长期租赁及物业管理合同
- 旅游项目保证金及诚意金合同
- 快递禁毒宣传活动方案
- 怎样实施活动方案
- 恩施奶茶活动方案
- 患者运动活动方案
- 情侣假期活动方案
- 情侣夏天室内活动方案
- 情商训练活动方案
- 人工智能技术创新对产业高质量发展的推动作用
- 2024年中国中高端电子铝箔行业市场调查报告
- 2025年中国征信行业发展监测及投资战略规划研究报告
- Unit 1 Happy Holiday 第6课时(Project Reading Plus) 2025-2026学年人教版英语八年级下册
- 部编人教版三年级上册语文必记必背
- 2025年中国PHA可降解塑料行业市场全景分析及前景机遇研判报告
- 2025江苏省射阳中等专业学校工作人员招聘考试真题
- 河南开封工程职业学院招聘笔试真题2024
- 2025河南省豫地科技集团有限公司社会招聘169人笔试参考题库附带答案详解析集合
- 开标室使用管理制度
- GB/T 27772-2025病媒生物密度控制水平蝇类
评论
0/150
提交评论