(模式识别与智能系统专业论文)基于知识库的校园对象搜索引擎的相关技术研究.pdf_第1页
(模式识别与智能系统专业论文)基于知识库的校园对象搜索引擎的相关技术研究.pdf_第2页
(模式识别与智能系统专业论文)基于知识库的校园对象搜索引擎的相关技术研究.pdf_第3页
(模式识别与智能系统专业论文)基于知识库的校园对象搜索引擎的相关技术研究.pdf_第4页
(模式识别与智能系统专业论文)基于知识库的校园对象搜索引擎的相关技术研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(模式识别与智能系统专业论文)基于知识库的校园对象搜索引擎的相关技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学硕士研究生学位论文基于知识库的校园对象搜索引擎的相关技术研究 基于知识库的校园对象搜索引擎的 相关技术研究 摘要 信息检索是在给定的用户需求下,利用索引、匹配等技术,从大 量信息中识别满足条件的信息。传统的信息检索起源于对文本资料的 情报检索。针对实体网页的个性化检索,本文提出了一种有效的基于 知识库的检索方法。该方法将检索问题的处理从检索词的机械匹配提 升到实体属性的结构化匹配,针对性更强,准确率更高,从而为用户 提供高效优质的实体网页的个性化检索服务。 本文在模式识别实验室自行搭建的校园网信息搜索引擎( c o s e ) 的基础了,提出了基于知识库的对象搜索引擎。本文的工作主要包括 一下几个方面: 1 、设定和建立基于人名、组织机构名、课程名这3 大类对 象的知识库和人工标注方案。 2 、在对象知识库的基础上,通过分词、命名实体识别等自 然语言处理技术对b u p t 校园网语料进行信息抽取,然后 利用抽取的结果建立扩充知识库。 3 、最后通过应用对象知识库和扩充知识库对c o s e 系统进行 改进和优化。 关键词:信息检索对象信息抽取知识库自然语言处理 北京邮电大学硕士研究生学位论文基于知识库的校园对象搜索引擎的相关技术研究 r e s e a r c ho nr e l e a t e dt e c h n o l o g i e so f c a u so b 晒c ts e a r c he n g i n eb a s e do n r e p o s i t o r y a b s t r a c t i n f o r m a t i o nr e t r i e v a li st oi d e n t i f yt h ei n f o r m a t i o nt h a ts a t i s f i e s u s e r s r e q u i r e m e n t sw i t ht e c h n o l o g i e sl i k ei n d e x i n g ,m a t c h i n ga n ds oo n t h ec o n v e n t i o n a li n f o r m a t i o nr e t r i e v a ls t a r t e df r o mt e x td a t ar e t r i e v a l a i m i n ga tt h ep e r s o n a l i z a t i o no fi n f o r m a t i o nr e t r i e v a l ,t h i sd i s s e r t a t i o n p r o p o s e sa ne f f e c t i v em e t h o d t h ea u t h o ru s e ss t r u c t u r e de n t i t ya t t r i b u t e m a t c h i n g ,w h i c hi sp r i o rt ok e yw o r dm a t c h i n g w i t ht h i sm e t h o da d o p t e d , t h ei n f o r m a t i o nr e t r i e v a l s y s t e mc o u l da c h i e v eb e t t e rp e r t i n e n c ea n d h i g h e rp r e c i s i o n ,a n dt h e r e b yp r o v i d ep e r s o n a l i z e di n f o r m a t i o nr e t r i e v a l s e r v i c eo ne n t i t yw e b p a g e si na ne f f e c t i v ea n dh i g hq u a l i t y t h i s p a p e rp r o v i d e da no b j e c ts e a r c he n g i n eb a s e do nr e p o s i t o r y , w h i c hb a s e do nac a m p u so b j e c ts e a r c he n g i n e ( c o s e ) w h i c hw a s c a r r i e do u tb yp a t t e r nr e c o g n i t i o nl a b ,t h i ss t u d yf o c u so nm a i n l yt h e f o l l o w i n ga s p e c t s : i i 北京邮电大学硕士研究生学位论文 基于知识库的校园对象搜索引擎的相关技术研究 1 、 r e p o s i t o r ya n dm a n u a l l yt a g g i n ga p p r o a c ha r ed e v e l o p e db a s e do n p e r s o na n do r g a n i z a t i o nn a m e sa sw e l la sc o u r s en a m e s 2 、 i n f o r m a t i o ne x t r a c t i o no fb u p tc o r p u si sp e r f o r m e da d o p t i n gw o r d s e g m e n t a t i o n ,n a m e de n t i t yr e c o g n i z a t i o ne t cn a t u r a ll a n g u a g e p r o c e s s i n gt e c h n o l o g yw h i c hb a s e do no b j e c tr e p o s i t o r y , t h a n ,w e c r e a t e dt h ee x p a n s i o nr e p o s i t o r yb yu s i n gt h er e s u l t so fi n f o r m a t i o n e x t r a c t i o n 3 、 f i n a l l y , w ei m p r o v e da n do p t i m i z e dc o s es y s t e mb a s e do no b j e c t r e p o s i t o r ya n de x p a n s i o nr e p o s i t o r y k e yw o r d s :i n f o r m a t i o nr e t r i e v a l o b j e c ti n f o r m a t i o ne x t r a c t i o n r e p o s i t o r y n a t u r a ll a n g u a g ep r o c e s s i n g i i i 独创性( 或创新性) 声明 本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别 加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究 成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示 了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:主12 鳘缝 日期:型翌彳:型 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以 公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇 编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论文注 释:本学位论文不属于保密范围,适用本授权书。 、1i7笏 本人签名:呈! f 芝。乏注日期:竺z ! :三里 导师签名: 北京邮电大学硕士研究生学位论文基于知识库的校园对象搜索引擎的相关技术研究 1 1 课题研究背景 第一章绪论 随着全球网络化、信息化的发展,网络上的信息越来越多,现在i n t c r n c t 上有 上亿的网页,内容十分丰富,形式也是多样,而且处于时时变化之中。i n t c r n e t 在自身发展的同时也促进了搜索引擎技术的不断发展,各类搜索引擎在i n t e r n e t 中大显身。但是,目前的搜索引擎存在着不少局限性,最突出的表现为返回的查 询结果太多,用户难以快速找到所需的信息,如果缺乏有效的信息检索手段,最 终必将影响网络的应用。国外的第一代搜索引擎如雅虎、a l t a v i s t a 等已取得了巨 大成功,一些新的搜索引擎如a s k j c v s 、g o o g l e 、g u n m e t 、c n e a t - s e a r c h e s 等也进 入了实用阶段,它们的特征是使用了一系列新技术,特别是自然语言处理技术来 使搜索更加智能,信息查找更加容易,给用户的信息服务更加综合。 知识就是将资料进行整理、归类、统计等处理流程,得出的有意义的结果。 根据存在的方式,知识分为结构化的知识和非结构化的知识。为了将某一个( 或 几个) 领域的海量知识进行结构化处理,人们提出了知识库的概念。知识库是结 构化,易操作,易利用,全面有组织的知识集群,是针对某一( 或某些) 领域问题 求解的需要,采用某种( 或若干) 知识表示方式在计算机中存储、组织、管理和使 用的互相联系的知识集合。这些知识包括与领域相关的理论知识、事实数据,由 专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识 性知识等。 随着北京邮电大学办学质量的不断提高以及对校园信息化建设的重视,学校 迅速步入了一个信息化告诉发展的阶段。在这个阶段中,学校的校园网越来越完 善,给在校师生提供了一个非常良好的信息化教学、科研和管理平台。校内的各 种信息都在校园网上发布,通过校园网的建设,学校各项工作的效率得到了很大 的提高。然而,随着校园网的完善和发展,校园网所提供的信息越来越多、越来 越复杂。在校师生在享受校园网带来的便利的同时,也开始为在校园网内快速、 准确的寻找信息而烦恼。非常幸运的,在互联网告诉发展的前提上,搜索引擎技 术也在不断的完善和发展。所以提供一个自主产权的、维护和升级比较容易、查 全率和差准率较高的搜索引擎可以满足在校师生的需要。 北京邮电大学硕士研究生学位论文 基于知识库的校园对象搜索引擎的相关技术研究 1 2 传统搜索引擎 搜索引擎由信息抽取系统和用户界面组成。传统搜索引擎一般有两种信息检 索方式【l l :一种是目录式搜索引擎,这种方式采用目录树分类方式,用户登录的 网站属于至少其中某一个类别。由于使用了人( 专家) 的智力来对网站进行归纳和 分类,所以搜索的信息比较准确,导航质量比较高,但是它除了成本较高之外, 对网站的描述也十分简略,不能深入网站的内部细节,因此用户查询不到网站内 部的重要信息,容易造成信息丢失,而且由于人工编辑能力有限,往往导致网站 信息陈旧,数据库更新不及时等问题。二是使用全文检索技术,全文检索技术处 理的对象是文本,它能够对大量文档( 这里是大量网页数据) 建立由字( 词) 到文档 的倒排索引。在此基础上,用户使用关键词来对文档( 网页) 进行查询时,系统将 给用户返回包含该关键词的网页。全文检索是一个很成熟的技术,它能够解决对 网页细节的检索问题,但这又易导致返回的信息太多。同时基于关键字匹配的搜 索技术有较大的局限性,它不能区分同行异义,其次不能联想到关键字的同义词。 另外,还有一种常用的搜索引擎是元搜索引擎( m e t as e a r c he n g i n e ) 。元搜索 引擎其自身没有网页搜寻机制,也没有自己独立的索引数据库,但元搜索引擎可 以将多个独立搜索引擎集成在一起。并对各个独立搜索引擎返回的检索结果进行 整理、去重,然后反馈给用户,所以元搜索引擎可以大大提高检索效率,但元搜 索引擎从本质上并不能克服上面两种搜索引擎所固有的弊端。 搜索引擎是用户在i n t e r n e t 网上查找信息不可缺省的工具,用户提交查询存 在两类问题: 1 ) 用户有时无法用简单的关键词准确地表达出查询需求,这样用户的表达困 难就会影响到检索效果例如一个用户在g o o g l e q b 输入“w i n d o w s 查询与“微软操 作系统有关”的网页,但系统除了返回有关网页外,还会检索到一些如“x x 之窗” 一类的网页 2 ) 在人类的语言中,由于时间、地域或领域的差异,同一概念可以用不同的 词表达,而且在瓜领域中,查询用户和文章作者往往使用不同的词描述同一个概 念实验证明,两个人使用相同的术语( t e r m ) 描述同一个物体的概率低2 0 例 如:“航空飞机”与“太空梭”,在g o o g l e d f 使用“航空飞机”查不到“太空梭”的网页。 这两类问题就是全文信息检索中的“词的不匹配问题”( w o r dm i s m a t c h ) “词 的不匹配问题”造成在一般情况下,用户为了查找准确的信息,都要提交2 - 一3 个 查询术语给搜索引擎目前的解决思路就是采用一定的策略扩展用户提交的初始 查询例如在上文的第一种情况中,如果在用户的查询中增加“m i c r o s o f t 一词, 则可以解决无关网页的问题;而在第二种情况下,如果在用户的原有查询“航空 2 北京邮电大学硕士研究生学位论文基于知识库的校园对象搜索引擎的相关技术研究 飞机”中增加“太空梭”一词,则网页漏检的情况也可以解决现在检索系统实现 查询扩展主要有两类解决方案: 1 ) 利用静态知识库【2 】进行查询扩展这种类型的检索系统中由专家根据一定 的组织结构预先建立一个静态知识库存储领域知识,检索过程中从静态知识库中 查找与查询相关的术语信息扩展用户的初始查询。 2 ) 利用检索结果进行查询扩展这种类型的检索系统中,系统执行两次文档 查询以实现用户的一次检索,第一次的查询结果用于扩展用户的初始查询 1 3 基于知识库的实体网页个性化搜索 网络信息急速膨胀、更新迅速,从而产生一个负面结果就是用户的信息负担 过重,常常难于从海量信息中定位所需要的信息。用户希望得到并仅仅得到自己 所需要的信息,这样就有了对信息过滤的需求,即定制用户个性化的信息检索。 个性化检索旨在向使用w e b 检索的用户提供更优质的检索服务。目前信息检索技 术存在的最大问题是查准率低,改进信息检索的根本途径是从因特网的海量信息 中抽取实际可操作的规律,并据此计算查询和网页的相关度。目前的搜索引擎大 都为基于关键字匹配以及链接分析的信息检索,不能很好地为用户提供准确有效 的检索服务。要提供有效的个性化检索服务,必须建立有效的用户兴趣信息。 用户兴趣信息表达了用户的个性化要求,用于从海量、动态的网页中过滤筛 选出用户所需求的网页。一般地,用户兴趣信息有两种形式:一是主动的用户信 息,二是被动的用户信息。主动的用户信息常常是相对静态的信息,例如用户在 申请注册个性化检索服务时提供的个人背景资料、关心的兴趣焦点、要求的服务 方式等信息。检索系统对这些信息进行处理,给出个性化的查询词列表。这种方 式适合用户检索目标相对稳定的服务系统,实际上是种信息过滤服务,即从海 量动态的网页中根据用户预先定制的要求检索出用户感兴趣的网页,并以设定的 方式返回给用户。被动的用户信息则是系统根据用户历次查询的场景及用户行 为,通过对用户兴趣的学习,被动地推导出用户的兴趣特征。对于主动的用户信 息和被动的用户信息而言,前者较为专业,多用于相对固定的用户群,他们的检 索目标一般比较明确稳定,经过用户信息处理后的个性化检索的准确率较高;后 者则较为通用,多用于零散多变的用户群,模拟实现他们的检索需求,但准确率 一般不高。 个性化检索服务成为目前研究的热点,美国雅虎公司为了提供个性化检索服 务,开始采用自主开发的检索技术,在面向个人的门户网站“m yy a h o o ! ”上增 加了y a h o o ! s e a r c h 。具体而言,检索结果中包含企业联合组织发布的x m l 信息 以及r s s 站点的内容链接,用户可以很容易地在m y y a h o o ! 上添加链接,随时从 北京邮电大学硕士研究生学位论文基于知识库的校园对象搜索引擎的相关技术研究 m yy a h o o ! 上获取需要的信息。目前个性化信息检索服务有“m yl i b r a r i a n s ”、“m y i n t e m e ts e a r c h 、“m yd a t a b a s e ”、“m y h e l p 等等。 实体网页即网页内容中包含实体属性信息的网页,实体网页的个性化检索是 根据用户对实体属性信息的定义,对网页中所出现的实体信息进行相关度评价, 按照相关程度的高低排序网页列表,给用户提供定制信息的检索服务或推送服 务。针对用户对某个特定实体属性信息的定义,建立实体属性信息的描述模板, 根据实体属性信息匹配网页信息,对网页内容与实体属性进行相关度评价,从而 可以检索出与实体属性相关的网页,并按照实体属性与网页信息的相关程度排序 返回检索结果。 1 4 本文的组织 本文一共由五章组成: 第一章简单介绍课题的研究背景和研究现状以及本文要提出的基于知识库 的信息检索系统。 第二章给课题的核心技术搜索引擎技术做了一个综叙。主要介绍了信息检索 的发展、信息检索用到的主要的方法、基本算法、基本模型以及信息检索的评估 方法做了一个比较全面的介绍。 第三章详细的介绍了课题的相关技术和相关研究。主要包括:系统介绍、对 象知识库的设计与创建、知识库的标注、系统功能、系统设计、信息抽取、扩展 知识库的建立等方面,通过对每个子系统的详细介绍已经系统工作流程图等等方 式,全面的对本文提出的基于知识库的校园对象搜索引擎做了说明和讲解,其中 信息检索技术是该系统的核心。 第四章主要是建立在第三章的系统的基础上,做了一系列的实验和尝试,用 实验数据对第三章中的系统进行评估。主要是对分词模块、抽取模块、知识库标 注模块和对象相关度计算模块进行全方位的实验。通过实验数据对系统进行准确 的评估。 第五章主要是全文总结和展望。总结全文主要用的的技术和该系统主要的模 块总结以及作者对未来该领域发展的展望。 4 北京邮电大学硕士研究生学位论文基于知识库的校园对象搜索引擎的相关技术研究 第二章信息检索综述 信息检索起源于h p l u h n 在2 0 世纪5 0 年代对文献进行的统计分析,2 0 世纪7 0 年代以来人们对信息检索进行了大量的理论研究。传统上一直把对文本 的检索称为信息检索,搜索引擎的出现使信息检索成为了一个备受关注的研究课 题。广义上讲,检索的信息可以是声音、文本、图像、视频等多媒体形式,目前 相当多的研究都集中在文本数据的检索上,文本检索同时也是其他媒体内容检索 有效的辅助检索手段。 网络的时代,信息量呈几何级数增长,对网上信息检索服务的需求也日益迫 切,其中常用的检索方式是搜索引擎,g o o g l e 、a l t a v i s t a 是目前应用最广的全球 性搜索引擎,成为人们搜索网上信息的首选,国内较成功的搜索引擎有百度、中 文雅虎、北大天网等,它们的检索技术各有特点。g o o g l e ( h t t p :w w w g o o g l e c o m ) 是公认的目前全球最好的搜索引擎,向全世界提供多语种的全文信息检索服务。 根据g o o g l e 的统计,全世界的网页目前已超过3 0 亿。百( h t t p :w w w b a i d u c o m ) 是目前全球最大的中文搜索引擎,目前搜集的中文网页已超过2 亿,接受来自世 界各地的中文搜索请求,提供新闻搜索、网页搜索、图片搜索、m p 3 搜索、f l a s h 搜索、网站搜索等多种服务。北京大学网络实验室开发的分布式天网搜索引擎 ( h t t p :e p k u e d u c n ) 是国家重大基础研究项目的成果,1 9 9 6 年开始提供中文网 页的w e b 信息导航服务;另外,在国家9 7 3 和9 8 5 项目的支持下,北京大学网 络实验室还对中国w e b 进行了系统的搜集与保存处理,他们开发建设的“中国 w e b 信息博物馆”系统( h t t p :w w w i n f o m a l l c n ) 目前己收藏了自2 0 0 1 年以来搜 集的5 8 亿个网页,规模为7 t b 。然而,网络越普及,信息量越大,人们对其中 有用信息的利用反而越困难。面对潮水般涌来的信息,人们常常被淹没于信息的 海洋,苦于不能及时迅速准确地找到所需要的信息,如何从海量的动态的数据中 自动地、准确地、及时地提取感兴趣的信息,是当前人们的迫切需求,因此信息 检索成为目前研究的热点。 2 1 信息检索的发展 信息检索于2 0 世纪5 0 年代被确立为一门独立的学科,在这一时期计算机应 用和电子文本的大量出现成为传统的数据检索向现代意义的信息检索过渡的主 要推动力。国际上文本信息检索系统是最早服务于情报机构的文献检索和情报检 索,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发 展阶段。按照提供服务的不同特点,信息检索的类型有【3 】: 北京邮电大学硕士研究生学位论文基于知识库的校园对象搜索引擎的相关技术研究 a dh o c ,这类检索的查询多变,而信息源相对固定不便,是最常见的检索 模式,如图书情报资料检索、网上搜索引擎服务等属于这类检索。 f i l t e r i n g ,这类检索的查询相对固定不便,而信息源多变,一般按照用户查 询的要求将文档分为相关或不相关的两个子集,将相关文档返回给用户。例如用 户定制信息、邮件过滤等属于这类检索。 r o u t i n g 与f i l t e r i n g 类似,只是对相关文档做了排序,给用户返回按照与查询 相关程度高底排序后的文档集列表。 2 0 世纪9 0 年代中期,人们将已发展到一定程度的文本信息检索技术应用到 i n t e r n e t 上。网络的发展大大促进了信息检索技术的发展和应用,目前信息检索 的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、 动态、更新快速、分布广泛、管理松散的w e b 内容。搜索引擎是信息检索技术 的典型应用之一,搜索引擎起源于传统的信息检索,即通过扫描每一篇文档中的 每一个词( 或字) ,建立以词( 或字) 为单位的倒排文件,检索系统根据关键词 ( 或称检索词) 在每一篇文档中出现的位置、频率以及网页本身的重要程度等信 息,对包含这些关键词的网页进行筛选、排序,最后输出排序的结果。信息检索 技术是搜索引擎的核心支撑技术,随着各种搜索引擎的出现,人们也开始探索比 较和评价其性能的方法。 2 2 信息检索的基本模型 信息检索系统需要从大量的信息中,根据某种模型的算法筛选出符合用户需 求的信息。2 0 世纪6 0 年代以来,信息检索领域在索引模型、文档内容表示、匹配 策略等方面取得了许多研究成果,提出了大量的检索模型。根据搜索引擎检索信 息的方式不同,可以将信息检索模型【4 】分为布尔模型( b o o l e a nm o d e l ) 、向量空 间模型( v e c t o rs u p p o r tm o d e l ) 、扩展布尔模型( e x t e n d e d b o o l e a nm o d e l ) 、概 率模型p j ( p r o b a b i l i s t i cm o d e l ) 等。 2 2 1 布尔模型 布尔模型【6 】是最简单的信息检索模型。用户可以根据关键词在文档中的布尔 关系提交查询,搜索引擎根据事先建立的倒排索引表,确定查询结果。布尔模型 的优点是简单、快速,查询表达式易于掌握,缺点是不够精确,容易漏掉符合检 索意图的文档,不能反映文档与关键词相关程度的差异,结果不易排序。布尔模 型中,标准的布尔模型是二元逻辑,布尔查询使用a n d 、o r 、n o t 运算,可 简单定义为: 6 北京邮电大学硕士研究生学位论文基于知识库的校园对象搜索引擎的相关技术研究 s i m ( d ,) = m i n f ,1 ) s i m ( d ,o o ,) = m a x f , ) 式( 2 - 1 ) s i m ( d ,q 们) = l m i n f ,1 ) 一般地,文档巧和查询g 的相似度定义如下: s i m ( d j ,g ) = 糍e q d n f m 硝哆刖式( 2 - 2 ) 其中,为查询的索引词,q d n f = 用户查询的析取( o r ) 范式,q c c = q d n f 的 任一个合取( a n d ) 部分。这样,检索的文档与索引项关键词的关系就是相关( 1 ) 或无关( o ) 。 基于古典逻辑的布尔模型【7 】在信息检索初期很受重视,其理论基础为布尔代 数和集合理论,集合观点简单、直观,模型形式规范、清晰,普通用户容易理解 ( 简单查询) ,高效简捷,因而在实际中得到了广泛的应用,很多检索系统都是 采用布尔模型。但布尔模型同时也存在缺点,例如不能控制检索的输出量,不能 对输出的结果按照用户的查询进行相关度排序等等,因此,人们在不断地对布尔 检索模型进行推广和拓宽,如加权布尔检索模型、扩展布尔检索模型等。 2 2 2 向量空间模型 向量空间模型8 】是将检索文档和检索词( 关键词) 表示为向量的形式,视向 量表示的颗粒度大小不同,向量每一维的元素可以是字、词或短语等特征项的某 种统计值( 权值) ,然后依向量空间的相似度计算结果来排列检索结果。 在向量空间模型中,索引项表示为f = i f ,f 2 , ,f n ) ,每个文档d i 表示为所 有索引项权值组成的文档向量d i = ( w l i , w 2 l ,w n i ) ,文档向量的每一个元素可 以根据出现频率、位置、链接信息等不同的方式进行加权,其中最常用的计算权 值的方法有t f 、t f i d f 等。t f ( t e r m f r e q u e n c y ) 是索引项频率,记为t f 奶, 基本思想是利用索引项在文档中出现的频次为索引项加权,索引项在文档中出现 的次数越多,该文档与检索就越相关,二者的相似度越大。考虑到不同文档的长 度等因素,还需要对文档频率进行归范化处理。i d f ( i n v e r s ed o c u m e n tf r e q u e n c y ) 是逆文档频率,设m 是文档集中文档的数目,d f ( f i ) 是文档集中含有力的文档数 目,i d f 的定义为: i d f ( f ) = ( 1 0 9 斋) 式( 2 3 ) 北京邮电大学硕士研究生学位论文基于知识库的校园对象搜索引擎的相关技术研究 或z d f ( z ) = ( 1 。g 丽m ) 式( 2 - 4 ) 使用i d f 的对数而不直接使用i d f 是为了使这个权值对文档总数n 不特别敏感。 可以看出,i d f 倾向于在少数文档中出现的索引词,其基本思想是在大多数文 档中都出现的索引项区分文档的能力较低,应给以较低的权值,如一般情况下, “的”、“了”等高频词对判定文档与检索的相关程度时贡献不大,这正是文本分类 时希望去除的停用词( s t o pw o r d s ) ;反之,在少数文档中出现的索引项区分文 档的能力较高,应给以较高的权值。 t f 从局部上反映了单个文档与检索项之间绝对的相关性,而i d f 则从整个 文档集的全局出发,从全局上反映了每个文档与检索项之间相对的相关性,侧重 考虑了文档之间的差异性。t f i d f 的权重计算方法综合考虑了t f 和i d f ,采用 二者的乘积为检索项的权值: = t f 木i d f ( a ,乃) = t f ( f f ,d _ ,) i d f ( f ) 式( 2 5 ) 常用的定义为: = 忑t f 丽( f f , d j ) ( 1 0 9 ( 1 + 南) ) 式( 2 - 6 ) 具体采用何种方法计算索引项的权重,则要看实际的具体应用。例如,当我 们不注重文档之间的差异性,只看重文档与检索的相似性时,只用t f 也能取得 不错的效果。 在向量空间模型中,文档集表示为d = d l ,d 2 , ,d m ) ,通过索引项一文档 矩阵来表示,矩阵中的元素值为索引项( 行) 在对应文档( 列) 的权值。 d i d m 彳r 。 w 所、 i ; l j i 。2 7 , f nl w n 。w n 加 文档向量和索引向量之间的相似度计算也有各种距离、向量内积、夹角余弦等多 种不同的方法及其变种,常用的度量函数有: 绝对值距离d a ( v z ,k ) = 1w l ,一w 2 。l 式( 2 7 ) 北京邮电大学硕士研究生学位论文基于知识库的校园对象搜索引擎的相关技术研究 欧式距离d e ( k ,圪) = 阂氏距离 向量内积 夹角余弦 巩( k ,砭) = 置 i = 1 ,q 0 s i m ( q ,a j ) = g d j - e 嘞 i = 1 式( 2 8 ) 式( 2 9 ) 式( 2 1 0 ) 式( 2 1 1 ) 一般来说,文档向量与索引向量之间的距离越大,则它们的相似度就越小,但是 对于两个特定的向量,不同的度量函数计算所得结果会有所不同,有时它们之间 还具有一定的关系。 例如欧氏距离与夹角余弦具有如下的关系: 砬( 巧,) = = 抠五丽式( 2 1 2 ) 特别地,从上面的定义可以看出,向量的夹角余弦等于它们的内积除以它们的模 ( 2 范数) ,因此,对于规范化的( 模为1 ) 两个向量,它们的向量内积与夹角 余弦相等。 向量空间模型是2 0 世纪6 0 年代末由g s a l t o n 等人提出的,他是现代信息 检索的奠基人。应用向量空间模型最著名的检索系统是他开发的s m a r t ( s y s t e m f o rt h em a n i p u l a t i o n a n dr e t r i e v a lo f t e x t ) 系统,该系统免费开放源代码,大大促 进了信息检索的发展。向量空间模型不仅可以方便地产生有效的检索结果,而且 还能提供相关文档的摘要,并进行检索结果分类,为用户提供相对准确的信息。 实际上,向量空间模型将原本有关联的篇章、段落、句子中的文字串表示为 一组字、词或短语的列表,抹杀了语言元素之间的相关性和顺序性,丢失了一定 的语法和语义信息,但是它相对简单高效,并且在实际检索中取得了不错的效果, 因此是目前应用较广泛的一种信息检索模型。 2 2 3 扩展布尔模型 扩展布尔模型9 1 是布尔模型的扩展,由g s a l t o n 于1 9 8 3 年提出,希望克服 布尔模型检索结果的无序性。扩展布尔模型在检索结果的处理中使用了模糊逻辑 9 北京邮电大学硕士研究生学位论文基于知识库的校园对象搜索引擎的相关技术研究 运算,也称“软”布尔运算,将所检索的文档信息与所键入的关键词进行模糊逻辑 比较,如将匹配方式改为相似度计算,从而将布尔模型的o l 结果改进为一个0 - , - i 之间的值,这样就可以按照相关的优先次序排序检索结果。扩展布尔模型通过对 索引项加权,将向量空间模型与布尔模型融为一体,克服传统布尔模型的一些缺 陷。扩展布尔模型是对传统布尔模型完全匹配的严格性和向量空间模型的无结构 性一种折衷,并可以表现为模糊检索。布尔模型简单的扩展办法是采用p 范数模 型,对于文档向量d = d l ,d 2 ,d n 和查询检索向量q = q l ,q 2 9 * oo ,q n ,其中d i 和 q i 分别表示第i 个索引词对文档与检索的权重,定义文档向量和索引向量之间的 相似度为: s i m ( d ,线) = i s i m ( d ,q ) = q :0 - d , ) p i = i 刀 秽 j = l q ;d i p 式( 2 1 3 ) 式( 2 1 4 ) 其中1s p 0 0 。 当p = 1 时,该模型有s i m ( d ,q o , ) = s i m ( d ,q 口村) 成立,这表明“a n d ”与“一 算符没有区别,两者的功能均减退为0 ,即为向量空间模型,相似度计算采用内 积的方法。 如果当q l = q 2 = = 吼= 1 时,则上两式变为 s i m ( d ,线) = i si m ( d ,q0 ) = 显然,若p = 0 0 并且规定讲都在【0 ,1 区间上取值时,则有: l o 式( 2 1 5 ) 式( 2 1 6 ) 一p 10j 一 g 一 一 0 开h ,一p 1,j p d 一咒 弹且 北京邮电大学硕士研究生学位论文 基于知识库的校园对象搜索引擎的相关技术研究 s i m ( d ,q 三d ) = m i n d f s i m ( d ,q 三) = m a x d f ) 这就是一种模糊检索模型。如果进一步再规定d 只能取0 或1 , 布尔模型。 2 2 4 概率模型 式( 2 1 7 ) 即转变为传统的 概率模型基于贝叶斯概率论原理【1 0 1 ,利用相关反馈的归纳学习方法,获取匹 配函数。概率模型有着良好的理论依据,它通过严格的形式化模型,估计文档与 查询的相关概率;根据文档与查询的相关概率来对返回结果进行排序,但是该模 型需要预先对概率分布做准确估计。贝叶斯公式的定义为:若事件b 能且只能 与两两互不相容的事件a 1 ,a 2 ,a n 之一同时发生,即 b = 础 式( 2 1 8 ) 则有下式成立: 姒2 锷产2 嚣式( 2 - 1 9 ) 最简单的概率模型为二元概率模型【1 1 1 ( b i n a r yi n d e p e n d e n c er e t r i e v a l ,b i r ) 。该 方法先根据检索q 把整个文档集分为两个子集r 和r ,其中r 是与q 相关的文 档集合,r 是与q 不相关的文档集合( 即集合r 的补集) 。计算文档由与q 相 关的概率( 1 ) j p rd 和文档d j 与q 不相关的概率p ( r id j ) ,则文档d j 与q 的相 似度定义如下: 咖( q , d j ,= 等一。, 利用贝叶斯公式,得: ,、p ( d 尺) 尸( 尺) 酊纵g ,乃) = 币苇赫 对于一篇待判定的文档d ,在未知其相关性的情况下设文档d 与检索q 相关 或不相关的概率相等,同时假设文档中各索引项f i 之间是相互独立的,则该文 档d 与检索q 的相似度可以由下式计算而得: 北京邮电大学硕士研究生学位论文基于知识库的校园对象搜索引擎的相关技术研究 s i m ( q ,d ) = (自i。f乃-户p(f,ir ) ( 蜀f 。如i 声。p ( 诉i 尺, (舒i。d-ji净。p(f;ir ) ( 霸i 。力- i 户。p ( 诉l 尺。,)舒( 嘭净1霸( 力户o 其中: p ( zl 尺) 为索引项在相关文档集中出现的概率。 p ( 可ir ) 为索引项在相关文档集中不出现的概率5 p ( 彳ir ) 为索引项在不相关文档集中出现的概率; 式( 2 2 2 ) p h fir 。) 为索引项在不相关文档集中不出现的概率。 概率模型的优点在于文档可以按照其相关概率递减的顺序来计算秩( r a n k ) , 通过相关概率来对检索结果排序,有着很强的理论基础。缺点在于开始时需要把 文档分为相关和不相关的两个集合,没有考虑索引项在文档中出现频率,并且需 要索引项之间的独立性假设。微软剑桥研究院的s t e p h e nr o b e r t s o n ,是现代概率 信息检索模型的创始人之一( 另一个是s p a r kj o n e s ) ,他开发著名的o k a p i 概 率检索方法,在t r e c 评测中屡屡获得好成绩。另外,美国马萨诸塞大学开发的 i n q r e r y 文本检索系统所依据的也是概率模型。 综上所述,为了正确的解释检索过程,人们提出了一系列的检索模型。2 0 世 纪6 0 年代,g s a l t o n 提出了向量空间模型,并成功地应用于s m a r t 系统,2 0 世 纪8 0 年代g s a l t o n 2 0 又建立了扩展布尔模型。作为对向量空间模型的一种改 进,s k m w o n g 建立了广义向量空间模型,其中考虑了词与词之间的相依性。 该模型在没有假设词与词之间互相独立的前提下,把词向量用一组适当选择的正 交基向量来表示,这样,词之间的关系可以直接由其向量表示给出较为精确的计 算。但是广义向量空间( g e n e r a l i z e dv e c t o rs u p p o r tm o d e l ,g v s m ) 模型本身比 传统的向量空间模型复杂,难于理解,计算复杂性和代价远高于传统的向量空间 模型。 另外,z w r a s 利用格与布尔代数理论建立了代数模型;m o r o n 、r o b e r t o n 和s p a r k j o n e s 于2 0 世纪6 0 至8 0 年代期间先后建立了三种概率模型;v a n r i j s b e r g e n 还在词相依情况下讨论了概率模型。r a e d c k i 在模糊检索理论方面做 了出色的工作。近年来,又出现了概念检索、案例检索、分布式检索等检索模型。 随着网络信息的日益增长,如何构建合适的检索模型,以利于快速准确地检索出 1 2 北京邮电大学硕士研究生学位论文基于知识库的校园对象搜索引擎的相关技术研究 用户需要的信息,是检索系统的核心问题,针对不同的具体应用,人们在不断地 进行有效的改进。 信息检索的主要工作简而言之就是提取文档内容特征项( 字、词、短语等) 并进行比较计算的过程。对于较为复杂的半结构化文档( 如w e b 网页) 、非结 构化文档( 如纯文本) ,现有的多数检索系统依靠着复杂的数学和统计方法,计 算得出文档向量( 向量空间模型的典型做法,如词频统计等) 、相关概率( 概率模型) 等数据。这些模型的提出都是建立在这样一种假设之上:即从文档中提取的文档 特征或者相关概率都是相对固定的。尽管现有的一些模型在实际应用中已经取得 了不错的效果,且算法简明、可操作性强,但是这种假设是对文档信息的一种简 化,忽略了特征项之间的相互关系,丢失了很多上下文的信息,无法把握人的主 观感觉。因此就目前而言,检索模型一般都达不到1 0 0 的查准率和查全率( 或 称准确率和召回率) ,即不存在普遍意义上最好的检索模型。 虽然不同检索模型使用的方法不同,但所要达到的目标是相同的,即按照用 户要求,提供用户所需的信息。实际上,大多数检索系统往往将上述各种模型混 合在一起,以达到最佳的检索效果。目前,信息检索系统主要以布尔逻辑模型或 向量空间模型为主,辅以部分自然语言处理技术,特别是自然语言理解在信息检 索中应用,将大大提高信息检索的查准率和查全率。针对特殊的检索需求,某些 特别的技巧可能会很有效。 2 3 信息检索的相关性反馈 优化检索性能的途径之一是利用相关性反馈【1 2 ( r e l e v a n c ef e e d b a c k ) 技术,它 将已经得出的检索结果和用户对之的相关性评价作为依据,不断修正检索模型和 检索结果集合。相关反馈技术很早就应用于信息检索,使得用户的判断参与检索 过程。r o c c h i o 算法是一种应用广泛的相关性反馈算法,该算法的基本的思想是: 从根本上讲相关性是用户为中心的,即理论上用户可以得到所有的文档,判断每 个文档的相关性,并将文档分成相关r 和不相关n r 两个集合。那么对于向量空 间模型来说,最佳的查询应为: 舭,= 函1 恢e 尺。一高磊。 其中d 代表文档的词条向量。但是,实际上用户一般不会把所有的文档都作以 相关或不相关的判断,而是从一个特定的查询q c u r r e n t 开始,将该查询看作相 对q o p t i m a l 次优的。算法使用这个初始查询返回文档的一个较小子集( 如前n 条 返回结果) ,然后把这个子集中文档分成相关r 和不相关n r 两个集合。改进的 北京邮电大学硕士研究生学位论文基于知识库的校园对象搜索引擎的相关技术研究 r o c c h i o 公式为: = 口+ 南荟。一南磊。 式( 2 - 2 4 ) 2 4 文本信息检索会议t r e c t r e c 1 3 j ( t e x tr e t r i e v a lc o n f e r e n c e ) ( h t t p :t r e c n i s t g o v ) 是由美国国家标 准与技术研究所( n a t i o n a li n s t i t u t eo fs t a n d a r d sa n dt e c h n o l o g y , n i s t ) 和美国国 防高级研究计划署( t h ed e f e n s ea d v a n c e dr e s e a r c hp r o i e c t sa g e n c y ,d a r p a ) 赞 助并组织,是文本信息检索领域中一个国际性的权威评测会议,也是t i p s t e r 文 本项目工作的一部分,旨在为大规模文本检索的评测方法提供基础性支持。评测 是发展的动力,随着评测任务的不断拓展,参赛评测单位的不断增加,信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论