【毕业学位论文】（Word原稿）PARADISE前端平台测试与优化

上传人：O*** IP属地：四川上传时间：2017-04-17 格式：DOC 页数：36 大小：342KB 积分：20 举报 版权申诉

已阅读5页，还剩31页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本科生毕业论文题目： (中文 ) 端平台测试与优化 (英文 ) 名：学号：院系：信息科学技术学院专业：计算机科学与技术指导教师：二一七年四月十七日端平台设测试与优化摘要一种智能中文搜索引擎平台，分成前段和后台两部分。前端和后台在运行时进行交互，完成整个平台功能。本文从端的功能需求出发，详细介绍前端的各个功能模块的设计和实现方式，并且说明了端测试和优化方法。端承担了提取搜索引擎摘要的功能，但目前对于搜索引擎摘要的选取原则、算法规则却没有明确的框架或算法。因此本文对搜索引擎摘要的意义、标准、分类等进行详细的讨论，并以形成用户查询为中心的动态摘要为出发点，给出算法实现的形式化原则，并具体实现了一种动态摘要算法。与百度搜索引擎的动态摘要相比较，实验显示一致性上比百度高 6%。此处的一致性是指，摘要和用户查询相关性与原文档和用户查询相关性之间的关系，二者越接近一致性越高。该算法已经应用到北京大学校内搜索引擎上。关键词：查询，关键词，摘要，查询日志，点击日志端平台设测试与优化 i is a of of n of s of to or of is at a of on a is of % to KUs 端平台设测试与优化录第一章引言 . 1 第二章端设计与实现 . 3 端功能需求与功能实现 . 3 端功能模块划分，及其关系和工作流程 . 7 端功能模块 . 7 端功能模块工作流程 . 11 端性能优化 . 12 端时间性能优化 . 13 端显示优化站点聚类 . 13 第三章搜索引擎摘要综述 . 14 背景 . 14 自动文摘 . 14 点击日志 . 14 查询分类 . 15 网页正文 . 15 搜索引擎摘要的意义 . 16 搜索引擎摘要评判标准 . 16 搜索引擎摘要分类 . 18 “动态摘要 ”与 “静态摘要 ” . 18 搜索引擎摘要选择 . 18 静态摘要的提取 . 19 第四章搜素引擎动态摘要算法 . 20 背景 . 20 态摘要算法的形式化规则 . 20 动态摘要算法框架 . 21 动态摘要算法实现及细节处理 . 22 动态摘要算法伪码 . 22 算法实现细节及实际参数设置 . 24 第五章动态摘要算法实验及搜索引擎摘要评测 . 25 实验目的 . 25 摘要质量评测 . 25 实验方法 . 25 实验结果说明 . 26 实验结果分析 . 27 搜索引擎摘要评测 . 28 第六章搜索引擎摘要总结 . 29 端平台设测试与优化谢 . 30 参考文献 . 31 端平台设测试与优化 1 第一章引言简称，是一种智能中文搜索引擎平台。计分为前端和后台，两部分可以放在不同的服务器上，通过议进行交互。端承担了查询解析，生成一定格式的查询串，接受后台结果，提取摘要，显示结果，日志记录等任务，其性能关系到整个搜索引擎的性能表现。本文将介绍端设计框架，各个模块的功能和关系。统已经应用到北京大学校内搜索 ()。上文中提到端承担提取摘要的功能，这里所谓摘要，是指搜索引擎摘要 (是搜索结果中对链接页面内容的一段描述性文字。当搜索引擎响应查询返回结果时，对检索结果的展示往往包含三个部分：检索结果的标题、检索结果的搜索引擎摘要、检索结果的中搜索引擎摘要往往设置在标题标题下 (如图 1)。图 1 一条检索结果及说明搜索引擎摘要是关于链接页面描述性的一段文字，用以在一定程度上展示链接页面的内容，搜索引擎用户可以基于摘要要判断链接页面的价值。搜索引擎摘要和自动文摘十分类似，可以借鉴自动文摘中的理论和方法，当然搜索引擎摘要也有自身的特点。关于自动文摘的研究已经有半个世纪，但是对于搜索引擎摘要的选取原则、算法规则却没有明确的框架或算法、同时也缺少统一的比较和评测方法。在 1一书中对搜索引擎摘要进行了讨论，将其分为两类：一类是不随查询变化，与查询无关的摘要，书中称其为静态摘要；一类是与查询相关，对同一篇网页随查询变化而变化的摘要，称其为动态摘要。书中还提出了一种“ 动态摘要提取方法，指出摘要应当包含查询中的关键词，并给出了三点针对提取出的摘要的建议： (1)最大限度的包含关键词； (2)摘要内容完整，且可读； (3)足够精炼。端平台设测试与优化 2 点击日志进行研究，提出了一种利用点击日志来证明一些搜索引擎结果展示的启发式规则的方法，并利用该方法发现了一些隐式的摘要提取原则。李晓明等在2005 年给出了一种便于理解和实现的简单的动态摘要算法 3。 007年基于滑动窗口提取动态摘要 4。本文将对前人的方法进行总结，讨论搜索引擎摘要的意义，分类，提取原则，评价方法，其中涉及到查询分类，点击日志的使用等内容。本文最终以形成用户查询为中心的动态摘要为出发点，给出算法实现的形式化原则且具体实现了一种动态摘要算法。并将该算法所得摘要与商业搜索引擎摘要在一致性上进行比较。此处一致性指搜索摘要和用户查询相关性与原文档和用户查询相关性之间的关系，二者越接近一致性越高。该算法已经应用到北京大学校内搜索引擎上。端平台设测试与优化 3 第二章端设计与实现端功能需求与功能实现本节将简述前端功能需求，将对这些需求进行分析，给出满足这些需求的程序实现方式，并对这些实现方式进行说明。表格 1 端功能需求查询界面，接收用户查询解析查询，进行切词为用户分配于特定查询词，特定网页放在首位发送查询至后台，接收并解析后台结果结果显示日志记录针对端功能需求，端采用言编写。一种面向对象的半解释性的计算机程序设计语言，可方便用于编写公共网关接口 ( 并且模块间的引用十分方便。端涉及接收用户查询，字符串编码、解码、链接、切分，子串的查询，与后台进行通信连接，页面显示等操作，而言拥有脚本语言中最丰富、最强大的类库，可以较为方便的实现这些操作，因此前端选择言实现。下面将介绍端各个功能的目的，并在端的基础上，对端各个功能的实现方式进行详述。【中文切词】切词指将一个查询中的单个词切分出来，用空格隔开，例如“北京大学”经过切词之后为“北京大学”，包含在查询中的词称其为关键词。搜索引擎就是利用查询中关键词，寻找包含关键词的文档，因此切词功能对搜索引擎的效果十分重要。端中文切词功能实现是采用使用北京大学计算语言所的切词模块，将该模块编译成以尾的动态链接库文件，通过言中的式实现对该模块的引用。【编码解码操作】端涉及相当数量的字符串编码和解码操作，这一是由于字符串的处理和字符串的显示往往需要使用不同的编码方式；二是端涉端平台设测试与优化 4 及到不同模块，不同模块间对字符串的编码要求往往不同。编码解码操作通过言的数实现，在编码解码时可对函数参数进行选择，控制编码解码操作在原字符串上进行或是保持原字符串不变而是将编码解码后的结果复制到其他字符串变量中。【查询串】后台设计，后台是检索核心，而前台主要承担查询处理和结果显示等任务，前后台之间通过信息传递串联完成整个检索功能，前台对后台发送的主要信息就是查询串。考虑查询串所需包含的信息。显然查询串的主体是查询，但该查询不能是原始查询，应当经过切词，同时转化成后台可处理编码的编码方式。其次，索结果多页显示，每次在一个页面中显示一定数量检索结果 (具体实现时每个页面显示 10 条结果 )，所以每次后台也只会相应地传这一定数量的检索结果。显然对于一个新查询将显示第一页的结果，而第一页结果必然是从第一条开始，但当用户查看第二、第三页的结果时，页面的结果显示将从其他结果开始。因此，前端必须使后台得知从第几条结果开始传输。基于这点考虑，查询串必须包含“起始结果号 ” ，告知后台从该条结果开始传输。最后，查询串应当包含查询站点信息。求能够实现指定站点的查询，即只在某个站点上检索相关结果。结合以上三点可得查询串必须包含“处理过的查询”、“起始结果号”、“查询站点”。在实际实现时查询串由这三部分构成，部分与部分间用“ n”隔开，在不指定站点的情况下，“查询站点”部分为字符串“ 【前后台通信】端后台设计模式要求其前端和后台能够通信。实现时，后台通信采用议进行。议采用“客户端 /服务器”的模式解决进程间的通信问题，客户端和服务器采用不同的于统其前端相当于客户端，后台相当于服务器。前台向后台发送查询串请求后台处理，后台返回查询结果，查询结果包括命中页面的一共命中的结果数。议进行实现和封装，因此，在前台采用言实现的基础上，使用议进行前后台通信十分便捷。【配】为一个智能搜索引擎平台，其目标之一是实现个性化搜索，即根据用户的历史行为用户提供针对其喜好的服务。为用户分配要目的则是能够实现对用户身份的鉴别，为实现个性化检索服务。除此以外，用户录入搜索引擎日志，这可以方便的分析用户行为，研究用户的检索习惯，从进行一端平台设测试与优化 5 些搜索引擎优化的研究。配功能通过式实现。写在客户端的数据，可实现用户识别，踪。端在相浏览器中写入键为字符串“ ，值为数字的，其中该数字即为用户的样当用户再次进行检索操作时可以从浏览器中读出用户的值得注意的是有生存期限的，当用户长时间不使用检索服务时，其为丢失。端对没有用户分配设置其生存期限，同时对已有用户延长其生存期限。【对于特定词，特定结果放在首位】该功能在商业搜索引擎中十分常见，商家通过向搜索引擎付费来提高自身排名，而用户更信任排名较高的结果，如此可增加商家网页的点击量。校内搜索要求对于一些特定查询，将学校相应的组织机构放在首位，例如查询“信科”、“ 都应将“信息科学技术学院”的主页放在检索结果的首位。该功能通过数据库实现，在数据库中保存特定的词，以该词为索引，得到特定结果的标题和摘要以及在接受查询后，判断查询是否特定词，若是则从数据库中取出相对应得特定结果信息 (包括标题、摘要以及为检索结果的首条。【提取摘要】端检索结果显示采用典型的“标题、摘要、搜索引擎检索结果展现方式，因此要求前端实现对检索结果提取摘要的功能。搜索引擎摘要是对链接页面的描述，在网页正文的基础上提取，反映链接页面的内容。由于后台返回给前台的只有命中页面的一共命中的结果数量，因此，前端必须保存所有网页正文数据，并且网页正文数据必须方便的通过对以上要求，端使用 B，存储正文信息。 B 是一种高性能嵌入式数据库，以键 /值对的方式保存数据，同时与 B 的操作。端以过法后的值为键，以该应的标题和正文内容为值生成 B。如此，端可以方便的高效的通过取正文内容，并在获得正文内容的同时提出该应的标题。之后便可基于查询，在正文上提取搜素引擎摘要，提取摘要的具体过程和算法将在以后的章节中详述。【结果显示】索结果显示以网页的形式展现，显然结算结果网页内容是动态的，随查询的不同而改变。言中可以输出码形成结果页面，并且在输出的码中可嵌入符串变量，如此可实现针对不同端平台设测试与优化 6 的查询显示不同的结果。每条检索结果由搜索引擎流行的标题、摘要、部分组成。标题来源于B 中直接提取出的数据，事实上通过键过法作用后的到是标题和正文对，即 (标题，正文 )这种二元组的形式；摘要是摘要算法作用于正文后的结果；源于后台传输来的数据。每次在页面上显示 10 条结果，当不足 10 条结果时则显示现有数量的结果。【日志记录】搜索引擎日志包含两种：查询日志和点击日志，前者主要记录用户进行了哪些查询，后者记录用户点击了哪些结果。通过搜索引擎日志可以发现哪些词是用户查询的高频词，可以研究用户的查询习惯，可以通过用户的点击日志调整搜索引擎结果。可以说日志是用户和搜索引擎交互的唯一记录，可以看做是用户对搜索引擎的一种隐式的反馈，对搜索引擎有着重大的意义。志同样包括查询日志和点击日志。其查询日志采用 2005 年 9月实行的天网日志格式 (如表格 2)，包括查询时间，查询词，查询来源 (址 )，命中结果数目，查询用户的击日志同样采用 2005 年 9 月实行的天网日志格式（如表格 3），包括点击时间，查询词，查询来源 (址 )，点击结果的击结果在所有检索结果中的排序，点击结果排在第几页，生成该结果的检索模型 (台采用不同检索模型来生成检索结果 )，查询用户的用户点击某条搜索结果链接时，会先调用点击日志记录脚本，该脚本记录点击日志并跳转到真正结果页面。表格 2 查询日志容说明 08:10:47 2006 查询时间该查询请求的来源瑞星杀毒破解版查询串查询时的域名（如 0:0 查询返回结果数：查询命中结果数查询返回结果的页码表格 3 点击日志容说明 09:23:45 2006 查询时间查询来源肾积石查询词，及其关系和工作流程本节详细介绍端实际实现时功能模的块划分和各个功能模块所进行的操作，以及模块之间的调用关系和返回信息，并给出端处理一个查询时的工作流程。端功能模块【块】块是端工作流程的主模块，事实上一个查询从开始处理到显示结果及是将块整个过程运行一遍。块负责接收查询调用其他模块，是端工作的核心模块。当用户点击页面查询按钮时则调用块，直到块结束，一次查询操作也就完成了。值得说明的是在搜索结果较多，对搜索结果多页显示时 (如图 2)，当点击非当前页码或“下一页” 按钮时，也会调用块。事实上点击非当前页码或“下一页” 按钮对于端来说就是一个新的查询，在除查询词作为，又给块传递了一个页面参数，即表示查询第几个页面的结果。如此设计是因为对于一个查询每个页面只显示有限个结果，没有必要对不显示的结果进行处理，并且用户往往只在意排名靠前的结果。对于每一个显示结果都用进行从 B 中提取正文，生成摘要等操作，而对于一个查询，往往会有上千上万条结果，对所有结果一次性全部处理，则耗时太长，严重影响搜索引擎性能。因此，采用这种“有请求则响应”的方法处理。端平台设测试与优化 8 图 2 多页显示检索结果【块】块由块调用，返回用户于已经分配用户在修改生存期限后，直接返回于未分配用户，生成置存在期限，发送至后向块返回用户生成策略较为简单，使用文件存储当前应当分配的，生成读取文件即可，同时将当前加 1 后重新写入文件，作为下一个即将分配的【块】块实现中文切词功能，由块调用。块以用户查询为参数，通过有的式引入北京大学计算语言所的切词程序，对查询进行切词，返回切词后的查询，。调用切词模块之前必须确定查询的编码与切词模块相一致或者重新编码，使得查询与切词模块编码相一致。【块与块】块为搜索引擎摘要提取模块，由用。块以切词后的查询和后台传来的据为参数。际并不承担摘要提取任务，其主要作用是进行摘要提取前的准备工作，主要功能是以后台传送数据中的 B(在分提及 )中读取对应的标题和正文，在这之后后将切词后的查询和获取的正文作为为参数调用摘要提取核心块为搜索引擎摘要提取的核心，由块调用，每次针对一个网页以切词后的查询和对应网页正文为参数提取摘要，。该模块的具体实现将在第四章详细讨论。【块】端平台设测试与优化 9 结果页面显示模块，由块调用，负责检索结果页面的显示，完成查询词标红，结果的多页显示等功能。标红指将检索结果标题或摘要中所包含的查询中的查询词突出显示，一般标注为红色，目的是突出检索结果和查询的关系(如图 3)。查询结果的多页显示，在块中已有说明，当点击下一页或非当前页码时进行一个新的查询 (该处新的查询指完整的运行一次块 )，以超链接的方式调用块，用法传递参数，即直接在以“？变量 =值”的形式添加需要传递的参数。该功能实现简单，但初步实现后在实际检测发现在运行正常，在中会发生异常。经检测发现问题源于事实上当包含中文参数时必须对行适当的编码，即网页中常见的“ %的形式 ( 如图 4) ，例如“北京 ”应当转化为“ %C%97%A%这种“ %式实质是将中文字符的取出来，只是将码中的 “ X”替换成了“ %”。言中块实现一个名为函数，该函数可以解决含中文的转化问题，使用方法为中文的值得注意的是参数不能是码。图 3 对于查询“北大四级”的标红图 4 含中文的码【块与块】块查询日志记录模块，由块在最后调用，负责记录查询日志，日志格式遵守 2005 年 9 月的天网日志格式。由于日志记录是对文件进行写操作，这里应当处理多个进程同时写的问题。对于该问题通过锁机制实现。设立“锁文件”，即一个专门用来让进程对其加锁的文件。当进程需要记录日志修改文件时首先尝试对“锁文件”进行加锁，若该“锁文件”已被加锁，则进程阻塞。若未被加锁，则加锁成功。加锁成功后即可对日志文件进行写操作，操作结束后进行解锁。块为点击日志模块，当用户点击某条检索结果时，块被调端平台设测试与优化 10 用记录点击日志，日志记录完毕后跳转到检索结果对应的页面。点击日志处理多进程同时写问题的方式与查询日志相同，即设立锁文件。【块】块功能为生成网页快照。网页原文是搜索引擎爬取的网页源代码，保存在搜素引擎服务器上，而网页快照则是基于网页原文生成的，当链接页面点不开时，用户可以通过网页快照查看所需信息。块实现快照时，对页面中包含的查询中不同的关键词以不同的颜色高亮显示。端平台设测试与优化 11 端功能模块工作流程返回用查询接收查询词 2 判断查询词合法性 3 切词 4 生成查询串 5 对于特定词汇查询数据库，发送查询串至后台 6 接收后台结果得或分配据库后台服务查询串检索结果端平台设测试与优化 12 端性能优化本节从时间性能和前端显示两个方面说明了如何对端进行优点击检索结果返回摘要调用提取摘要 8 显示结果 9 点击日志返回摘要调用打开 D，得到标题和正文 2 对每个于正文提取摘要用用记录点击日志 2 跳转到目标页面点击天网快照 B 端平台设测试与优化 13 化。在时间性能方面描述了端时间测试的方法；在前段显示方面介绍了站点聚类这一功能，以及端对这个功能的实现方法。端时间性能优化端时间性能优化主要在分两个步骤。一、对各个模块进行时间测试，找到瓶颈。二、针对瓶颈重点优化，可将能并行的操作尽量以多线程的方式并行进行，比如对于特定查询将特定查询放在首位的功能涉及到查询数据库的操作，该操作就可以和连接后台、等待后台结果并行进行。以上两个步骤在不同的粒度上多次操作。先在粗粒度上进行时间测试确定瓶颈，而后可以进行一定的优化操作，之后再于瓶颈中进行细粒度的时间测试。时间测试前提是获得测试数据。端数据来源于校内检索的查询日志，从校内检索的查询日志中提取出查询构造出查询集。获得测试数据后，让块从查询集中接受查询数据，开始整个工作流程。端显示优化站点聚类站点聚类 (如图 )指对于某个查询，同一站点的命中结果只显示排名最高的一条，若要查看该站点上的所有结果，则可以进行指定站点的查询。端站点聚类实现方式是将“查看站点上的更多结果”看做一种高级查询，在查询后添加“ 站点”。当点击“查看站点上的更多结果”时，实际上进行了查询为“原查询站点”的查询，调用块，运行整个流程。在送至后台。图 5 站点聚类实例端平台设测试与优化 14 第三章搜索引擎摘要综述背景自动文摘搜索引擎摘要是在正文的基础上对重要信息的提取，这与自动文摘十分相似。自动文摘的研究已经经历了半个多世纪，产生了很多方法和理论，这些方法和理论对搜索引擎摘要的生成有着非常重要的借鉴意义。自动文摘可按不同的标准进行划分。 1、按文摘来源地文档数可分为单文档文摘和多文档文摘，即在单篇或多篇文档上提取摘要。搜索引擎摘要只针对一篇网页，显然属于多单文档文摘的范畴。 2、按文摘提取方式可分为摘和摘 5，这里的别指提取文摘的两种方式。式是指在文档中直接抽取段落作为文档摘要，不对抽取段落进行修改，所得文摘即为抽取段落组合；式将重点放在生成合乎语法的摘要，对文档中的内容进行修改、糅合，往往需要高级的语言生成技术，涉及较多自然语言处理的问题。显然式的效率较高，式处理速度较慢，考虑到搜索引擎摘要作为用的一部分应当具有实时快速的特点，法更加适合搜索引擎摘要的需求。 3、按照是否基于主题 (可分为基于主题的文摘和不基于主题的文摘。基于主题的文摘是指按照给定的主题抽取文章摘要，侧重于文章中关于给定主题的内容的提取，而不基于主题的摘要则重点在于关于文摘本身主题的内容的提取。由此类推搜索引擎摘要也可以有两种方式，一种是基于查询的，提取页面文章中与查询最相关的部分，一种则是提取页面文章的大意，对于这两种方式应采取哪种，是否两种方式并存等问题将在“ 索引擎摘要分类 ”中详细讨论。自动文摘的基础思想是 “ 确定哪些词在文档中是重要的，而后是找到包含这些重要的词的句子 ” 5。多数关于自动文摘的工作遵从这一基本思想，不断寻找如何更好的提取对于文档重要的词和如何更好的截取包含这些重要的词的句子的方法。搜索引擎摘要可以借鉴这一思想，将查询中的词看作是对于链接页面重要的词来提取包含查询中关键词的段落。点击日志点击日志是用户对搜索结果的反馈，可以说点击日志是用户和搜索引擎交互过程中留下的唯一记录。从直观思考，应当可以点击日志中挖掘出用户对检索结端平台设测试与优化 15 果的评价。比如对于一条查询，用户点击了结果 A，而没有点击结果 B，可以直观上认为 A 的结果比 B 好。任偏差”现象。所谓“信任偏差” 指的是用户对搜索引擎排序的信任造成偏向点击排名较高的结果，即使排名较低的结果比排名较高的结果更好。由“信任偏差 ” 可以得出对于搜索引擎的第 N 条结果和第 N+1 条结果，如果用户点击了第 N+1 条而忽略了第 N 条结果，则第 N+1 条结果应当比 N 条结果要更好，因为用户在“信任偏差”下任然点击了第 N+1 条结果。由此考察两个结果链接页面，如果第 N+1 条结果的链接页面比第 N 条结果的链接页面好，那么这样的结果是自然；但如果 N+1 结果并不比 N 条结果好，那么出现这种情况只有可能是搜索引擎对第 N 和第 N+1 条结果的展示方式所导致，于是可以认为N+1 条结果的摘要具备某些较好的特点，由此可以证明一些搜索引擎摘要的启发式规则或者挖掘出一些搜索引擎摘要的隐式的提取原则。查询分类考察对搜索引擎使用，可以发现一般只有两种目的查询。一是为了查询某种信息，比如 C+函数的某个用法；二是为了查询某个网站的主页，比如查询“北京大学”。在用户使用搜索引擎时，对用户眼睛进行跟踪计时，发现对于以上两种查询，摘要的理想长度在变化，前者要求摘要长一些后者要求摘要短一些，由此可知查询分类研究对于搜索引擎摘要的影响。查询分类的方法有多种，但每种方法都包含两类查询信息类 (导航类 (，信息类查询指用户希望通过该查询得到某些信息，导航类查询则类似于上段中提及的对某个网站主页的查询。其他类别还有交互类查询(资源类查询 (交互类查询比如多某个电子商务交易平台的查询，资源类查询比如寻找某个电影的下载链接等，但查询的主流仍是信息类(导航类 ( 人通过点击日志给出了一种自动区分两类查询的方法，他们将信息类查询定义为搜索结果中有多条符合用户要求，将导航类查询定义为搜索结果中只有一条符合用户要求。在本文中采用将查询分为信息类和导航类两类的分类方法。网页正文网页原文即是网页源文件，包含签和图片，而网页正文就是该网页核心文字内容。网页正文是在网页原文的基础上进行去签，去噪 (去除噪音，即去除和网页核心内容无关的信息，比如广告 )基础上提取。搜索引擎端平台设测试与优化 16 摘要是在网页正文上提取的，若正文质量低包含一些无关信息，那么摘要中很可能包含这些无关信息，产生质量较低的摘要。因此，正文质量的好坏直接关系到摘要质量的好坏。搜索引擎摘要的意义在网络信息极大丰富的今天，为了快速而准确的找到所需的信息，搜索引擎应运而生，成为现代网络的必备工具。虽然现代搜索引擎提供了较准确的结果排序，然而时常会有一些排在前面的结果并不是用户所需要的。出现这样的情况一种原因是搜索引擎是基于全文索引技术提供服务，只要文档中包含查询词就会返回，很大可能存在与用户查询需求不相关的或者相关性弱的文档；另一种原因用户的查询词未必可以完全体现用户的意图，造成检索结果的偏差。搜索引擎摘要是对链接页面内容的体现，因此用户会通过阅读搜索引擎摘要来判定链接页面的的价值，从而决定是否打开该页面进行详细的浏览。综上，搜索引擎摘要的好坏直接影响到用户对链接价值判定的准确性，摘要的质量也成为用户选择搜索引擎的标准之一，而摘要的意义就在于对于用户判断链接价值起到指导性作用。搜索引擎摘要评判标准由上节可知搜索引擎摘要的意义在于对用户判断链接价值所起到的指导性作用，那么好的摘要应当起到正确的指导作用，即不产生误导，而误导的情况主要有两种： 1、原本与用户查询较相关的链接文档，用户阅读摘要后感觉不相关，从而忽略该链接，本文称该型误导为“类型一的误导” 。 2、原本与用户查询不相关的链接文档，用户阅读摘要后感觉相关，从而点击链接阅读原文，本文称该类型误导为“类型二的误导” 。类型一的误导很容易理解，在日常生活中比较常见，所以针对类型二的误导情况举例说明。图 6 类型一误导的例子查询： c+文件操作摘要：端平台设测试与优化 17 在图 6 所示的例子中，用户的意图是查找如何使用 C+语言进行文件操作，在看到图 6 所示的这个摘要后，用户会认为该链接文档主要讲的是 C+文件操作的实现原理，从而有可能不愿意点开链接。但正文恰是用户所要查询的内容，该文档详述了 C+文件操作各个函数的用法和参数设置（

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【毕业学位论文】（Word原稿）PARADISE前端平台测试与优化

文档简介

温馨提示

最新文档

评论

【毕业学位论文】（Word原稿）PARADISE前端平台测试与优化

文档简介

温馨提示

最新文档

评论

相关文档