(计算机应用技术专业论文)个性化搜索引擎的研究与实现.pdf_第1页
(计算机应用技术专业论文)个性化搜索引擎的研究与实现.pdf_第2页
(计算机应用技术专业论文)个性化搜索引擎的研究与实现.pdf_第3页
(计算机应用技术专业论文)个性化搜索引擎的研究与实现.pdf_第4页
(计算机应用技术专业论文)个性化搜索引擎的研究与实现.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(计算机应用技术专业论文)个性化搜索引擎的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着w e b 信息的快速增长,搜索引擎已成为用户信息检索的主要工具。但 现有的搜索引擎基本上采用“一个搜索适用所有用户”的模型,体现不出用户真正 的兴趣所在。针对当前搜索引擎的不足,本文研究并实现了一个基于用户反馈 的个性化搜索引擎系统。 首先,本文介绍了传统搜索引擎、元搜索引擎及个性化搜索引擎的相关背 景知识,并提出未来搜索引擎的发展趋势为个性化、智能化、专业化。 其次,本文在详细介绍了与本课题开发相关的技术知识后,提出本系统开 发的总体设计架构与系统流程,并将该系统分为用户界面模块、搜索模块、学 习用户反馈模块、搜索结果优化处理模块来实现。其中,学习用户反馈模块是 本文的研究重点。本文设计了一套独特的学习用户反馈的方法:在搜索引擎中 引入用户评分制度,获取用户对搜索结果的满意度评价,挖掘隐藏信息,生成 用户兴趣模式,及时优化搜索结果,优先返回用户感兴趣的网页内容,使搜索 结果面向“特定用户”。此外,本系统还向用户推荐其他用户的兴趣模式,使得搜 索引擎的用户可以分享其他用户的搜索成果,提高搜索效率。 最后,在实现了基于用户反馈的个性化搜索引擎之后,本文提出在此搜索 引擎中引入自动聚类技术的改进方案,给出了引入聚类的优化思想并通过实验 验证了该思想的可行性,为本文今后的研究确定了方向。 关键词:个性化搜索引擎;学习用户反馈;用户兴趣模式;自动聚类 a b s t r a c t 一 a b s t r a c t w i t ht h er a p i dg r o w t ho fw e bi n f o r m a t i o n ,s e a r c he n g i n e sh a v eb e c o m et h em a i n t o o l so fi n f o r m a t i o nr e t r i e v a l b u tt h ee x i s t i n gm a j o r i t yo fs e a r c he n g i n e sh a v et h e s h o r t c o m i n g so fp r o v i d i n gt h e s a l t l er e s u l t st ot h ed i f f e r e n tu s e r s r e t r i e v a lr e q u i s i t i o n , f a i l i n gt or e f l e c tt h eu s e r s t r u ei n t e r e s t a i m i n ga tt h ee x i s t i n gp r o b l e m si nc u r r e n t s e a r c he n g i n es y s t e m s ,t h i sp a p e ri se x p e c t e dt od e v e l o pap e r s o n a l i z e ds e a r c he n g i n e b a s e do nl e a r n i n gu s e rf e e d b a c k f i r s t ,t h i sp a p e ri n t r o d u c e st h em a i nb a c k g r o u n dk n o w l e d g eo ft r a d i t i o n a l s e a r c he n g i n e s ,m e t as e a r c he n g i n ea n dp e r s o n a l i z e ds e a r c he n g i n e a l s ot h i sp a p e r p r o p o s e st h et r e n do fs e a r c he n g i n ei nt h ef u t u r e s e a r c he n g i n ew i l lb em o r ep e r s o n a l , i n t e l l i g e n ta n dp r o f e s s i o n a l t h e n ,a f t e rl e a r n i n gs o m et e c h n i c a lk n o w l e d g eo fd e v e l o p i n gp e r s o n a l i z e d s e a r c he n g i n e ,t h i sp a p e rp r o p o s e st h ef r a m ea n dp r o c e s s e so fs e a r c he n g i n e a n d t h e s y s t e mi sd i v i d e di n t ot h ef o u rm o d u l e st h a ta r ei n t e r f a c em o d u l e ,s e a r c h i n gm o d u l e , l e a r n i n gu s e rf e e d b a c km o d u l ea n do p t i m i z i n gs e a r c hr e s u l t sm o d u l e l e a r n i n gu s e r f e e d b a c km o d u l ei st h ec o r eo ft h i ss y s t e m t h i sp a p e rd e s i g n san e wm e t h o do f l e a r n i n gu s e rf e e d b a c k ,t h a ti s ,t og e tu s e r ss a t i s f a c t i o nf e e d b a c kb ya d d i n gs c o r i n g s y s t e mi n t os e a c he n g i n et og e n e r a t ei n t e r e s to fc e r t a i nu s e r t h e ns y s t e mo p t i m i z e s t h es e a r c hr e s u l t sa n dr e t u r n st h er e s u l t st h a tu s e ri sm o s ti n t e r e s t e di n ,w h i c hm a k e s s e a r c hr e s u l t sh i g h l yt a r g e t e da tc e n t a i nu s e r i na d d i t i o n ,s y s t e mw i l lb ea b l et ot e l l u s e r sa b o u to t h e ru s e r s i n t e r e s t e dm o d e s ,i no r d e rt om a k eu s e r ss h a r es e a r c hr e s u l t s w i t he a c ho t h e ra n di m p r o v et h ee f f i c i e n c yo fs e a r c h i n g a f t e ri m p l e m e n t i n gt h ep e r s o n a l i z e ds e a r c he n g i n eb a s e do nu s e r sf e e d b a c k , t h i sp a p e ra l s op r o p o s e st h ei d e at h a tb r i n g sa u t o m a t i cc l u s t e r i n gt e c h n o l o g yt ot h i s s e a r c he n g i n e f i n a l l y , p a p e rp r e s e n t st h ei m p r o v e da l g o r i t h ma n dv e r i f i e s t h e f e a s i b i l i t yo ft h ea l g o r i t h mt h r o u g he x p e r i m e n t s ,w h i c hc a nf u r t h e ri m p r o v et h e e f f i c i e n c yo fs e a r c h i n ga n dd e t e r m i n et h ed i r e c t i o no fm yf u t u r er e s e a r c h k e yw o r d s :p e r s o n a l i z e ds e a r c he n g i n e ;l e a r n i n gu s e rf e e d b a c k ;u s e ri n t e r e s t e d m o d e ;a u t o m a t i cc l u s t e r i n g i i 学位论文独创性卢明 学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得直昌太堂或其他教育机构的学位或证书而使用过的材料。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示谢意。 学位论文作者签名( 手写) :t 卅霆盖字日期:舻调哆日 i 学位论文版权使用授权书 本学位论文作者完全了解直昌太堂有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权直昌太堂可以将学位论文的全 部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编本学位论文。同时授权中国科学技术信息研究 所将本学位论文收录到中国学位论文全文数据库,并通过网络向 社会公众提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:了堤导师签名:翻反 签字日期:矽矿年l 硐易日 签字日期:万吕匀e z 月哆日 第1 章引言 1 1 研究背景 第1 章引言 随着i n t e m e t 的迅速发展,如何在浩瀚的网络信息资源中查询自己想要的信 息变得越来越重要。为此,出现了专门提供网络搜索服务的网站,比如g o o g l e 、 b a i d u 、y a h o o 、搜狐、北大天网等。然而随着网络信息的更新与扩充,传统的单 一搜索引擎存在着覆盖率有限,查准率低,用户相关性差的缺点,使得为解决 上述不足的元搜索引擎开始成为研究的热点。 元搜索引擎是指在统一的用户接口与信息反馈下,通过调用多个独立的搜 索引擎享有多个资源库为用户提供信息服务的系统。早期的元搜索引擎,虽然 大大增加了传统搜索引擎的覆盖率,但在某些方面仍旧和传统的搜索引擎一样, 对每个用户的检索要求都给出相同的检索结果,并没有考虑用户个性化的需求 对检索予以重组、过滤。如何能够更有效、更准确地找到自己感兴趣的信息, 滤除与自己的需求无关的信息,真j 下做到“各取所需”,成为基于i n t e m e t 的网络 信息检索的热点问题。随着用户行为分析、自动聚类、事例推理、互动学习等 技术的引入,搜索引擎开始走向个性化、智能化、专业化。 1 2 本课题研究意义 根据第2 2 次中国互联网发展状况统计报告,截至2 0 0 8 年6 月底,中国网 民数量达到2 5 3 亿人,搜索引擎的应用是用户获取信息的主要渠道之一,使用 率达到6 9 2 ( 美国达到9 1 ) t ,并有上升的趋势。 搜索引擎的发展经历了目录海量搜索、海量搜索、剔出垃圾网页、专业、 定向、高准确性和匹配性等几个阶段。搜索引擎在收集页面的数量、速度、准 确率方面已得到了长足的进步,但搜索引擎的框架结构和基本技术并没有实质 性的突破。而搜索引擎缺乏个性化的局限性却日益突出,具体表现在 2 1 : ( 1 ) 网络信息覆盖面广,形式各异,而传统搜索引擎对所有用户提供相同 的界面和服务,并且检索的结果成千上万、良莠不齐,用户为找到真正感兴趣 第1 章引言 的信息,往往要耗费大量的时间和精力。 ( 2 ) 人们由于年龄、性别、职业、学历、爱好等不同,各自感兴趣的领域 也随之不同,各自对词义的理解也不尽相同,不同的用户对同一检索请求得到 的检索结果常常有不同的评价,而目i j 传统搜索引擎不能体现用户的信息需求 个性,即传统搜索引擎提供的服务是“面向检索”,而不是“面向用户”的。 ( 3 ) 用户在不同时期或阶段对同一检索请求,所得到的仍是完全相同的检 索结果,对用户不具有自适应能力。 ( 4 ) 用户使用搜索引擎时带有一定的目的性,但由于领域知识的不足和搜 索引擎的查询接口的局限性而无法明确表达自己的搜索意图。 因此,如何使用户方便快捷的从海量的搜索结果中得到所需的信息,成为 一个迫切需要解决的课题。本课题通过学习用户满意度反馈,挖掘用户兴趣模 式,正确引导用户行为健康发展,实现高效的个性化查询,同时考虑结合数据 挖掘中的自动聚类技术进一步改进搜索引擎,就有可能使搜索引擎的检索质量 上升到一个新的高度,使普通用户能够高效的通过搜索引擎从万维网上找到自 己真证需要的有用信息。从长远来讲,在本课题的基础之上,还可借助用户兴 趣模式,个性化的实现自动新闻或信息搜集服务及广告的智能化投放等。 1 3 本课题主要研究内容 本课题通过学习用户满意度反馈信息, 一个基于用户反馈的个性化搜索引擎系统, 类技术的改进方案,提高搜索效率。 本文的主要研究内容: 挖掘用户隐藏兴趣,开发并实现了 并提出在此搜索引擎中引入自动聚 ( 1 ) 搜索引擎源数据的获取 即如何获取独立搜索引擎返回的搜索结果。 ( 2 ) 设计一套合理的学习用户反馈信息的方法 即通过学习用户反馈信息,把隐藏在用户操作之下的信息,如:用户的兴 趣爱好,用户的搜索倾向等进行归纳总结,借助学习算法,生成用户兴趣模式。 ( 3 ) 基于用户反馈的个性化搜索引擎系统的实现 即设计并实现一个基于用户反馈的个性化搜索引擎系统。此系统的最大特 点是:引入评分制度获取用户反馈信息,学习用户反馈,挖掘用户兴趣,依据 2 第1 章引言 用户兴趣优化搜索结果,优先返回特定用户感兴趣的网页内容并向用户推荐其 他用户的兴趣模式,使搜索结果“面向用户”,具有特定性和针对性,提高检索效 率。 ( 4 ) 基于用户反馈的个性化搜索引擎系统中引入自动聚类技术的改进方案 即如何将学习用户反馈信息、信息检索与数据挖掘中的自动聚类技术相结 合,在本文已实现的基于用户反馈的个性化搜索引擎系统中,通过对用户和搜 索结果的聚类处理,使用户能更加快捷的找到所需网页。 1 4 论文结构和章节安排 本文章节安排如下: 第一章引言: 介绍了本课题的研究背景、选题意义及本文所做的研究工作,并简要概括 了当前搜索引擎的发展。 第二章搜索引擎概述: 详细介绍了独立搜索引擎的工作原理、分类;元搜索引擎的工作原理、分 类、优势及局限性;并在此基础上介绍了个性化搜索引擎及未来搜索引擎的发 展趋势。 第三章个性化搜索引擎开发的相关技术: 详细介绍了本课题个性化搜索引擎系统开发过程中需要用到的技术知识, 包括:w e b 信息抽取技术,基于l u c e n e 的分词技术,文本表示模型( 向量空间 模型) 、用户行为分析技术和自动聚类技术。 第四章基于用户反馈的个性化搜索引擎的总体设计: 详细阐述了基于用户反馈的个性化搜索引擎系统的总体功能需求、架构设 计、系统流程设计及数据库设计等。 第五章基于用户反馈的个性化搜索引擎的具体实现: 详细阐述了基于用户反馈的个性化搜索引擎系统的模块设计及各模块的实 现,给出了各模块的实现方法、核心算法、核心代码及具体运行结果截图。 第六章基于用户反馈的个性化搜索引擎的改进方案: 在前面已实现的基于用户反馈的个性化搜索引擎的基础上,提出引入自动 聚类技术的改进方案,给出了引入聚类后的优化思想,并通过实验验证了该思 第1 章引言 想的可行性。 第七章总结与展望: 总结和分析了整个论文的实施过程、结果及创新点,并针对本系统研发过 程中的不足之处和今后可能的扩展提出了展望。 论文最后部分是参考文献。 4 第2 章搜索引擎概述 2 1 搜索引擎 第2 章搜索引擎概述 搜索引擎i ”,它就是咀一定的技术和策略在互联网中搜集、发现信息,并肘 信息进行理解、提取和处理,为用户提供w e b 搜索服务从而起到快速检索信 息的一种网络工具。 2 1 1 搜索引擎工作原理 如图21 所示,一个完整的搜索引犟系统一般由四个部分组成,它们分别是 网络爬虫、索引器、检索器和用户接口,不同搜索引擎具体的模块可能会有不 同的变化和扩展,但都是建立在这四个基本模块的基础之上。 增曼。 图21 搜索引擎整体架构凹 ( 1 ) 网络爬虫【4 l ( w e bc r a w l e r ) 网络爬虫,又称网络机器人,它不停的从网络上下载文档并抽取出新的超 链接,循环的实现对万维网的遍历。它在一个完整的运行周期n ( l g 如半个月) 可以下载超过千万的网页,并将这些文档保存在本地文本数据库,最后由索引 器负贲完成页面内容的全文索引。 ( 2 ) 索引器( i n d e x e b 索引器对收集回来的网页进行分析,提取相关网页信息f 包括网页所在u r l 、 5 第2 章搜索引擎概述 编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网 页的链接关系等) ,根据一定的相关度算法进行大量复杂计算,得到每一个网页 ( 针对页面内容) 及超链中每一个关键词的相关度( 或重要性) ,然后用这些相关信 息建立网页索引数据库。 ( 3 ) 查询器1 4 l ( s e a r c h e r ) 从使用者角度来看,查询算法是决定一个搜索引擎检索质量最重要的因素。 搜索引擎的查询器就是利用索引数据库提供的各类基本数据库,如页面全文索 引库、h t m l 标签库、超链接分析库、查询历史库等多个数据源,实现对用户 输入关键字的准确、快速的匹配。 ( 4 ) 用户接口【4 l ( u s e r ) 用户接口提供一系列的查询选项以满足不同的查询要求。一般的搜索引擎 系统都支持布尔表达式操作、搜索域名范围限制、查询网页的语种,甚至可以 选择文档的类别。合理的设置查询选项可以大大的减少搜索结果中的无效内容, 提高查询效率。 2 1 2 搜索引擎分类 搜索引擎有各种不同的分类方法。按照信息内容划分,搜索引擎可分为综 合型搜索引擎、专业型搜索引擎和特殊型搜索引擎;按照搜索工具的数量划分, 搜索引擎可分为独立搜索引擎、元搜索引擎和集成搜索引擎;按照信息的组织 方式划分,搜索引擎可分为目录式搜索引擎、全文搜索引擎和混合型搜索引擎。 以下是按信息的组织方式划分的三类搜索引擎: ( 1 ) 目录式搜索引掣5 1 ,或称按主题查询型搜索引擎,是将信息分门别类, 按照传统的分类方式分为各级目录。用户一般采取逐层浏览目录,逐步细化来 寻找合适的类别直至具体信息,著名的y a h o o 就是其代表。它的特点是质量和 匹配精度较高,能够有效涵盖目前普遍的主题,用户操作也十分方便。不足之 处是搜索范围较小,查全率较低,对偏僻主题、新兴学科、交叉学科不能很好 的涵盖。 ( 2 ) 全文搜索引擎【5 】,或称按关键字查询型搜索引擎,对各网站的每个页 面中的每个词进行搜索的搜索引擎。它的特点是信息量很大,查全率较高;而 且此类搜索引擎依赖于软件维护,周期短,发展快,代价相对便宜。不足之处 6 第2 章搜索引擎概述 是它提供的信息太多,反而降低了查准率,由于没有目录式搜索引擎那样的层 次结构,只能利用关键字来检索,精度依赖于系统的标引、分词技术等;对系 统软件的健壮性和网络质量要求很高。 ( 3 ) 混合型搜索引擎【5 】是针对全文和目录搜索引擎的缺点而设计的。有的 搜索引擎是分别提供两种检索方式供用户选择;有的是在分类目录的基础上再 迸一步进行全文检索。后者既可以使用户在分类目录中浏览,保证了一定的查 准率,又可以使用户进行全文检索,查找特定资源。现在多数的搜索引擎都朝 这个方向发展。 2 2 元搜索引擎 元搜索引擎【6 】将现有的多个搜索引擎看成一个整体,为用户提供一个统一的 查询界面,用户的查询请求由元搜索引擎根据知识库中的信息,转换为多个搜 索引擎所能识别的格式,然后分别发送给调用的各独立搜索引擎,由这些搜索 引擎完成实际的信息检索,最后元搜索引擎再把各搜索引擎返回的结果收集起 来,进行比较分析,剔除冗余信息,以一定的格式返回给用户。 2 2 1 元搜索引擎工作原理 元搜索引擎是指在统一的用户查询接口与信息反馈形式下,共享多个搜索 引擎的资源库为用户提供信息服务的系统。元搜索引擎和传统搜索引擎的最大 不同之处在于它没有自己的资源库以及机器人,它在服务中主要充当一个代理 的角色。接收用户的查询请求,把请求解析成相应独立搜索引擎的查询式并分 别或有选择的发送出去,接收参与查询过程的各个搜索引擎的查询结果,抽取 其中的部分内容以统一的形式显示给用户。图2 2 为元搜索引擎体系结构图j : 7 第2 章搜索引擎概述 图2 2 元搜索引擎体系结构图 元搜索引擎系统各模块分别介绍如下: ( 1 ) 用户接口模块【7 】 该模块负责接收用户的查询请求并显示查询结果。对于存在知识库的元搜 索引擎,用户接口模块还将从用户的反馈中收集用户兴趣等到知识库中,以实 现用户的个性化设置。 ( 2 ) 调度模块1 7 元搜索引擎的调度模块根据用户的输入必须决定查询哪一个成员搜索引 擎,以及按照不同成员搜索引擎的要求修改用户输入的查询请求。 调度模块为元搜索引擎系统决定主要的搜索策略。这些都直接影响元搜索 引擎是否能够得到有用的结果。错误的选择成员搜索引擎不能得到很好的结果, 而且成员搜索引擎的数目越多意味着需要的网络资源越多,及更多的时间来完 成搜索任务,所以必须在满足要求的情况下尽可能少地选择需要查询的成员搜 索引擎。调度模块的作用就是采用一定的调度策略来决定每次调用的成员搜索 引擎。 ( 3 ) 结果处理模块【7 】 元搜索引擎的结果处理模块从成员搜索引擎中获取网页结果,并根据各成 员搜索引擎的返回网页的不同格式提取元搜索引擎需要的内容,并对结果进行 去重、合并、输出处理等。元搜索引擎的结果一般包括网页标题、内容摘要、 所指向网页的u r l 、相关度、信息返回时间、所采用的引擎标志等。 8 第2 章搜索引擎概述 2 2 2 元搜索引擎分类 元搜索引擎有多种分类方式。按照功能划分,元搜索引擎可分为a 1 1 i n o n e 式搜索引擎和多线索式搜索引擎;按照运行方式划分,元搜索引擎可分为桌面 型元搜索引擎和基于w e b 的元搜索引擎;按照工作方式划分,元搜索引擎可分 为并行处理式、串行处理式和并串处理式。以下是对上述各类元搜索引擎的简 要介绍: ( 1 ) a 1 1 i n - o n e 元搜索引擎【8 】在其界面上以任意顺序或分类罗列的方式提供 多个搜索引擎的介绍信息和物理连接。这类元搜索引擎没有统一的全局外部模 式,而是直接把来自多个搜索引擎的搜索结果列在一个页面上,不作重新计算 或更改。这类元搜索引擎是对成员引擎的罗列,是元搜索引擎的初级形态。例 如,搜星和a l l o n e s e a r c h 。 ( 2 ) 多线索式元搜索引擎【8 】是具有典型意义上的元搜索引擎。它的使用更 为普遍,其特点是使用便捷,操作简单,通过浏览器就可以直接访问。此类元 搜索引擎一般都有共同的特征:具有统一的检索界面;能进行检索指令的转换: 具有统一结果合成机制和结果显示机制。国外很多元搜索引擎都是采用这种方 式,如d o g p i l e 、s a v v y s e a r c h 、p r o f u s i o n 等,国内有万纬。 ( 3 ) 桌面型元搜索引擎【8 】又称软件式元搜索引擎,是一种客户端元搜索软 件。它以软件的方式直接运行在用户计算机上,代理用户递交提问,一次性检 索多个成员引擎,并能获取实际的页面。它不仅可实现对多个成员引擎的并行 检索,而且也能提供重要的后期处理功能,例如:查询结果重排、删除重复记 录等功能。目前已经有许多这类成型产品,如c o p e r n i ca g e n tb a s i c ( w w w c o p e m i c c o r n ) 。桌面型元搜索软件的特点是结合客户端环境,更容易提 供个性化的检索服务,但不提供在线服务。 ( 4 ) 基于w e b 的元搜索引擎【9 1 以w e b 方式为用户提供元搜索服务。请求代 理、检索接口代理和结果显示代理都存放在元搜索引擎所在的服务器端。在这 种方式中,用户的查询请求经过服务器端的请求提交代理和检索接口代理分发 给它所调用的成员搜索引擎。这些成员搜索引擎返回的搜索结果,由服务器端 的结果显示代理处理后再返回给用户。 ( 5 ) 并行处理式元搜索引擎【9 】将用户的查询请求同时转送给它连接的多个 独立型搜索引擎进行查询处理;串行处理式元搜索引擎【9 】将用户的查询请求依次 9 第2 章搜索引擎概述 转送给它连接的每一个独立型搜索引擎进行查询处理;并串处理式元搜索引擎1 9 1 是对前两种方式的结合。 2 2 3 元搜索引擎的优势及局限性 元搜索引擎区别于独立搜索引擎,最主要的是一般没有自己独立的索引数 据库,可以投入更多精力提供统一检索界面,形成一个由多个分布的、具有独 立功能的搜索引擎构成的虚拟整体,用户通过元搜索引擎的功能实现对这个虚 拟整体中各独立搜索引擎数据库的查询、显示等操作。元搜索引擎强于传统独 立搜索引擎的优势在于【4 】: 节省时间 元搜索引擎自动地把用户的查询同时提交给多个搜索引擎,与用户手工把 查询一个一个地提交给各个搜索引擎相比,要节省不少时间。 扩大范围 元搜索引擎能够调用多个搜索引擎,自然就扩大了搜索的范围。 统一格式 各个搜索引擎搜索出来的结果格式互不相同,元搜索引擎将这些搜索结果 综合起来以统一的格式显示,使搜索结果看起来更加清晰明了。 简化使用 元搜索引擎自动地调用多个搜索引擎,用户不必了解各个搜索引擎的网址 及用法,只需要知道元搜索引擎的网址和用法就可以了。另外,系统管理者的 角度来看,元搜索引擎的实现与维护都更加简单。 提高查询覆盖率 研究表明任何一个搜索引擎对万维网的覆盖率都在3 5 以下,且来自各个 搜索引擎的结果往往相差较大,因此拥有多个数据源的元搜索引擎可以有效地 弥补传统搜索引擎在查询覆盖率方面的不足。 但是元搜索引擎的功能受源搜索引擎和元搜索技术的双重制约。它的局限 性主要表现在以下几个方面【l o l : 调用搜索引擎的局限性 一般的元搜索引擎只是调用如g o o g l e 、b a i d u 、a l t a v i s a 、i n f o s e e k 等几个主 要的搜索引擎,即使某些元搜索引擎有让用户选择搜索引擎的选项,但也只能 1 0 第2 章搜索引擎概述 在其提供的为数不多的几个搜索引擎中进行选择。 元搜索引擎查询请求的局限性 元搜索引擎在查询语法转换方面的局限性限制了许多高级查询语法。因为 元搜索引擎的查询语法要考虑到它所调用的所有搜索引擎的查询语法,这种复 杂性使得大多数元搜索引擎只能提供一些简单的查询语法。 查询结果数量的局限性 由于网络资源的急速膨胀,单个独立搜索引擎就往往会返回成千上万的搜 索结果。元搜索引擎需要对多个独立搜索引擎的返回结果进行处理,考虑到系 统运行的效率与响应时间,大多数元搜索引擎只取每个搜索引擎返回的前几个 搜索结果,这样必定影响信息的覆盖面。 查询结果排序的局限性 由于在不同的搜索引擎问存在搜集信息的数量、采用的索引方法、使用的 相似度评价等方面的巨大差异,再加上元搜索引擎的设计者不能获取这些搜索 引擎的很多技术细节,对不同的搜索引擎返回的大量结果不能e 很z 好地进行排序。 2 3 个性化搜索引擎 随着网络信息爆炸似的增长,人们通过搜索引擎检索到的信息不是太少, 而是太多了,且大多数都是与查询请求无关的信息。传统搜索引擎及一般的元 搜索引擎系统已经越来越不能满足人们的需求,因而个性化技术日益成为检索 领域研究的热点问题。 个性化搜索引擎将个性化信息服务的概念引入到搜索引擎中,使其能够更 好的适应于网络信息的发展。个性化搜索引擎的目的在于能够根据用户的背景、 兴趣爱好、研究方向、检索目的等,向用户提供相应的需求信息。个性化w e b 元搜索引擎系统模型如图2 3 3 】所示: 第2 章搜索引擎概述 图2 3 个性化w e b 元搜索引擎系统模型 其中个性化搜索引擎中各模块功能如下: ( 1 ) 用户接口1 3 】 该模块为用户提供可视化的查询输入和结果输出界面。在查询输入界面中用 户可输入一系列关键词、一系列布尔操作符( 如a n d 、o r ) ;在输出界面中,搜索 引擎将检索结果展现为一个线性的文档列表。 ( 2 ) 用户描述文件库【3 】 该库根据一定的用户兴趣模型,存放用户兴趣知识。好的用户兴趣模型不仅 要求客观、全面表达用户兴趣知识,而且还要具备良好的后期兴趣评估可操作 性。 ( 3 ) 查询分析器【3 】 根据用户兴趣库知识对用户查询请求进行概念、语义分析,并在此基础上对 查询输入进行扩展形成新的更长、更准确的查询,这样可以帮助搜索引擎弄清 用户确切所指。 ( 4 ) w e b 处理接1 :3 t 3 w e b 处理接e l 通过并行的方式调用多个搜索引擎,把所有的结果集中到一 起。 ( 5 ) 结果预处理【3 】 对来自不同搜索引擎的结果进行整合,如剔除重复、统一格式、检验链接有 效性和分类等。 1 2 第2 章搜索引擎概述 ( 6 ) 查询过滤器p j 对返回的结果进行个性化处理,比如根据用户兴趣权值等重要性尺度重新进 行相关度排序,并将结果提交给用户。此模块是信息过滤系统的核心部分。 通过以上知识,可知个性化搜索引擎系统中,建立用户兴趣模型是实现个性 化信息检索的关键,通过记录用户行为信息和用户交互信息等,运用相关w e b 挖掘技术,建立个性化的用户兴趣模型,根据用户反馈信息不断更新用户兴趣 模型,将用户兴趣模型与查询请求和检索结果相匹配,为用户提供准确、可靠 的信息服务。因此,要实现个性化的信息检索,必须对用户的浏览习惯,个人 爱好,知识领域,学术及工作领域进行挖掘,构建个性化用户兴趣模型,这是 个性化搜索引擎的基础和核心部分。 2 4 未来搜索引擎的发展趋势 当前的万维网检索结果几乎都是以列表形式表现,查询质量良莠不齐、组织 结构也不合理,但是由于该项技术高效、成熟的特点,在未来的一段时间内, 这项技术还将在搜索领域占据绝对重要的位置。为了进一步改善检索质量,未 来的搜索引擎应该在以下几方面有所突破【lo 】: 个性化 在输入方面,使用自然语言输入,更加方便用户的使用,更易于用户与搜索 引擎的交互,更能贴近地表达用户的查询需求,从而有利于提高查询的精度。 在返回结果方面,应该充分发挥预处理和搜索结果集成方面的能力,考虑人的 性别、年龄、地域等方面的差别给出个性的搜索结果。同时,按照语言的不同 将用户的查询请求发送到对应语言的独立搜索引擎,以提供多语言的搜索功能。 智能化 一方面,元搜索引擎通过不断学习来掌握用户的喜好,通过对用户搜索习惯 和兴趣的挖掘,达到自动选择合适的成员搜索引擎的目的,从而进行搜索。另 一方面,可对用户其它方式的输入查询如声音、图像、视频等,实现智能的查 询转换功能,从而得到预想的结果。 专业化 专业化元搜索引擎是个很好的概念,不但网络资源可以比普通元搜索引擎挖 得更深更多,搜索负担还小得多,应该是很符合网络发展方向的。 第2 章搜索引擎概述 2 5 小结 本章全面介绍了搜索引擎的相关知识,其中主要介绍了传统搜索引擎的工作 原理、分类;元搜索引擎的工作原理、分类、优势、局限性;并介绍了个性化 搜索引擎系统及未来搜索引擎系统的发展趋势。下面的章节将主要介绍开发本 课题个性化搜索引擎系统所需的相关技术。 1 4 第3 章个性化搜索引擎开发的相关技术 第3 章个性化搜索引擎开发的相关技术 3 1 信息抽取技术 信息抽取技术【1 1 1 ,简称i e 技术,是通过抽取、过滤无关信息,使文本信息 以用户关心的形式得以再组织,实现高效重组。信息抽取原来的目标是从自然 语言文档中找到特定的信息,是自然语言处理领域特别有用的一个子领域。信 息抽取利用语言学的知识,主要是词语知识和篇章结构的知识,从文中抽取出 特定的内容,从而避免对全文进行深入的理解。 信息抽取主要有两大方法:一是知识工程方法,二是自动训练方法。 知识工程方法【l l 】主要靠手工编制规则使系统能处理特定知识领域的信息抽 取问题。这种方法要求编制规则的知识工程师对该知识领域有深入的了解。这 种方法开发的过程可能非常耗时耗力。 自动训练方法【l l 】不一定需要如此专业的知识工程师。系统主要通过学习己经 标记好的语料库获取规则。任何对该知识领域比较熟悉的人都可以根据事先约 定的规范标记语料库。经训练后的系统能处理没有见过的新文本。这种方法要 比知识工程方法快,但需要足够数量的训练数据,才能保证其处理质量。 i e 技术所要抽取的文本可分为:自由式文本、结构化文本和半结构化文本。 自由式文本【1 1 l :信息抽取最初的目的是开发实用系统,从自由文本中析取有 限的主要信息。处理自由文本的i e 系统通常使用自然语言处理技巧,其抽取规 则主要建立在词或词类间句法关系的基础上。需要经过的处理步骤包括:句法 分析、语义标注、专有对象的识别( 如人物、公司) 和抽取规则。规则可由人工 编制,也可从人工标注的语料库中自动学习获得。 结构化文本【l l 】:此种文本是一种数据库里的文本信息,或者是根据事先规定 的严格格式生成的文本。从这样的文本中抽取信息是非常容易的,准确度也高, 通过描述其格式即可达到目的,所用的技巧因而相对简单。 半结构化文本【l l 】:这是一种界于自由文本和结构化文本之间的数据,通常缺 少语法,也没有严格的格式,用自然语言处理技巧对这样的文本并不一定有效, 因为这种文本通常连完整的句子都没有。因此,对于半结构化文本不能使用传 统的m 技巧,同时,用来处理结构化文本的简单的规则处理方法也不能奏效。 第3 章个性化搜索引擎开发的相关技术 3 2l u e e n e 检索工具包 3 。2 1 什么是l u e e n e l u c e n e 是一个高性能的,可扩展的全文索引工具包,是一个纯j a v a 实现的 成熟、自由、开源的软件项目。它不是一个完整的全文索引应用,而是一个用 j a v a 写的全文索引工具包。它可以方便的嵌入到各种应用中实现针对应用的全 文索引和检索功能。因此,近几年来,它已经成为最受推崇的开源信息检索工 具库。基于l u c e n e 的全文检索产品和应用l u c e n e 的项目在世界各地也非常多, 其中比较知名的包括: e c l i p s e :主流开发工具,其帮助文档采用l u c e n e 作为检索引擎; j i v e 知名论坛系统,其检索功能基于l u c e n e ; i f i n d e r :德国的网站检索系统,基于l u c e n e 。 可以毫不夸张地说,l u c e n e 的出现,极大地推动了全文检索技术在各个行业 和领域中的更深层次的应用。 3 2 2l u e e n e 的系统结构与源代码结构 l u c e n e 由于具有开放源代码、功能强大、可以跨平台使用等各种优点,近年 来在世界各地被广泛使用。l u c e n e 的系统结构副5 1 如下: 图3 1l u c e n e 的系统结构 1 6 第3 章个性化搜索引擎开发的相关技术 由图3 1 可以清楚地看到,l u c e n e 的系统由基础结构封装、索引核心、对外 接d - - 大部分组成,其中直接操作索引文件的索引核心又是系统的重点。l u c e n e 是一个完全使用j 2 s e 实现的全文检索引擎工具包,并不涉及任何第三方的j a v a 工具。也就是说,在安装了j d k 之后,不需要任何软件包的支持就可以使用它 来构建所需要的检索系统。 l u c e n e 的源代码被分布在几个不同的包中。下面简要介绍下l u c e n e 源代码 中各个包的作用 1 2 , 1 3 】: o r g a p a c h e 1 u c e n e a n a l y s i s a n a l y s i s 包主要用于对需要建立索引的文本进行分词、过滤等操作。 o r g a p a c h e 1 u c e n e a n a l y s i s s t a n d a r d s t a n d a r d 包是l u c e n e 的标准分析器,同时还保留了在使用生成分析器时的脚 本。 o r g a p a c h e 1 u c e n e d o c u m e n t d o c u m e n t 包主要用于提供对d o c u m e n t 和f i e l d 的各种操作的支持。 o r g a p a c h e 1 u c e n e i n d e x i n d e x 包是l u c e n e 内核中最重要的一个包,用于提供建立索引时对各种操作 的支持。 o r g a p a c h e 1 u c e n e q u e r y p a r s e r q u e r y p a r s e r 包主要用于提供检索时的分析支持。全文检索系统除了要在建立 索引时对大量文本进行分析,同时也要在用户输入检索关键字时对用户的输入 进行分析,以确定检索的关键字和关键字间的一些逻辑关系与、或、非等。 o r g a p a c h e 1 u c e n e s e a r c h s e a r c h 包是负责检索的一个包。在检索系统建立完索引后,用户调用这个包 中提供的工具对索引进行检索。 o r g a p a c h e 1 u c e n e s t o r e s t o r e 包主要用于提供对索引存储的支持,它里面的f s d i r e c t o r y 和 r a m d i r e c t o r y 双类是l u c e n e 内核中最为重要的两个索引目录。 o r g a p a c h e 1 u c e n e u t i l u t i l 包为l u c e n e 提供了一些常用工具类和常量类的支持。 1 7 第3 章个性化搜索引擎开发的相关技术 3 3 中文分词技术 英文是由空格和标点符号隔开的单词组成的,每一个单词都有意义。因此对 于英文文档的处理,标准分析模块可以先将每个字母转换成小写后暂存在缓存 中,遇到一个空格或标点符号后返回以前的所有字母,然后与停止词表对比, 发现有停止词,立即忽略掉这个词。如果不是停止词则可存入倒排索引文件中。 但中文句子没有空格作为分隔,所以这种分词方法对于中文来说是不适用的【l 引。 从2 0 世纪7 0 年代开始,我国一直有大量学者致力于中文自动分词的研究, 至今己获得许多可喜的成果,一些分词标引和检索技术已投入使用【1 2 1 。但是, 分词技术作为中文信息检索的瓶颈,仍然具有很多有待克服的问题,如专有名 词以及复合词的切分、同形异义字的区分等。目前最常用的中文分词技术主要 分为字表法、二分法和词库分词三大类: 字表法( 单汉字切分方法) 字表法f 1 2 】是对每个单字的出现位置进行索引,并依据单字的位置信息进行检 索的方法。由于汉语是由独立的汉字组成的,因而可以和处理英文单词一样处 理每一个汉字,这样可以避开分词歧义等难点问题。字表法索引库的主要部分 是每个字的字表信息,它记录了每个汉字在源文档中所出现的位置,出现位置 通常采用字符相对于文档开头的偏移字节数来表示。建立字表索引时,需要扫 描整个源文献,对出现的每一个有效字符,计算其在文献中出现的位置,并将 这个代表字符位置的值添加到对应的字表中。 显然,这不是一种很好的分词方法,因为随着索引的增加,相应索引条目的 内容会不断增加,最终导致索引库的急剧膨胀。另外,当用户对索引进行检索 时,如果用户输入6 个字组成的查询关键字,则相当于要对索引进行6 次检索, 严重影响效率。 二分法( 二元切分方法) 二分分词法【1 2 】是对单汉字索引法的一种演进,这种方法是将每两个字进行一 次切分。例如对词组“中华人民共和国”进行二分法切分,则结果如下: 中华华人人民民共共和和国 这种切分方法完全不考虑词义、语境,机械地对语句进行处理。虽然结果看 起来有些可笑,然而,在很长一段时间里,它一直是中文分词的一种很方便的 方式。按这种分词方式建立起来的索引会存有大量的无实际意义或无检索意义 1 8 第3 章个性化搜索引擎开发的相关技术 的垃圾词汇,因此,它也不是一种最好的分词方法。 词库分词 词库分词【1 2 】是将能表达一定意义的词作为基本检索单位,并根据词的出现位 置进行索引和检索的中文分词方法。词库分词包括最大匹配法、最佳匹配法等, 这类算法分词的正确性很大程度上取决于所建立的词库。一个词库应具有完备 性和完全性。词库的完备性,简单来说就是对任意一个字串,总能按词库找到 对它进行切分的方法。词库的完全性,意味着词库应包含所有的词。通常的做 法是先构造一个最小完备词库,然后在其基础上进行扩展,建立一个较完全的 词库。 3 4 文本表示模型 3 4 1 文本表示方法 中文具有多种表达方式和复杂的语法,若不对文本表达进行转换,机械的计 算机是很难对其理解和处理的。文本表示是为了自动抽取出能够表达文本内容 的词汇,常用的文本表示方法有三种: ( 1 ) 句法分析法【1 4 】。句法分析法是通过应用句法分析程序,筛选出合乎一 定过滤规则的词条。句法分析法的标引结果大多数为有意义的名词短语。为了 保证词条语义的完整性,通常

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论