




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
暑;,武汉科技大学研究生学位论文创新性声明本人郑重声明:所呈交的学位论文是本人在导师指导下,独立进行研究所取得的成果。除了文中已经注明引用的内容或属合作研究共同完成的工作外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。申请学位论文与资料若有不实之处,本人承担一切相关责任。论文作者签名- 乏立日期:、7 , o o 岁z 乙研究生学位论文版权使用授权声明本论文的研究成果归武汉科技大学所有,其研究内容不得以其它单位的名义发表。本人完全了解武汉科技大学有关保留、使用学位论文的规定,同意学校保留并向有关部门( 按照武汉科技大学关于研究生学位论文收录工作的规定执行) 送交论文的复印件和电子版本,允许论文被查阅和借阅,同意学校将本论文的全部或部分内容编入学校认可的国家相关数据库进行检索和对外服务。论文作者签名:亟茎指导教师签名:2l 壁丛日,武汉科技大学硕士学位论文第1 页摘要随着计算机系统性能的提高,互联网信息的飞速发展,以及企业信息化程度的迅速提高,中文信息资源以极快的速度递增。信息的增加在满足人们对信息需求的同时也给人们快速、准确的查找所需要的信息带来了一定的难度。在这种情况下,信息检索技术成为研究的热点。信息检索( i n f o r m a t i o nr e t r i e v a l ,i r ) ,通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。信息检索的主要技术包括索引处理、查询扩展、检索模型、重排处理等,中文信息检索还涉及到分词处理等。针对中文信息检索相关技术的研究,本文的研究内容可以分为两个部分。首先,以n t c i r 7 的中文i r 4 q a 子任务为实验背景,设计并实现了一个中文信息检索系统。系统在索引时对原始文本进行分词处理后以词为单元生成倒排索引,检索部分则采用了经典的向量空间模型。为了解决词不匹配的问题,检索得到初次结果后,利用一种基于局部共现的查询扩展方法进行查询扩展处理。实验结果表明,经过查询扩展处理后,系统性能得到明显提升。对于系统所得结果,经过n t c i r 7 官方评价工具的评估,可以看到我们的检索系统有较好的检索性能。另外,对特定类型问题进行了文档重排技术的研究。针对检索系统将检索结果反馈给用户时,用户往往只浏览前n 个检索结果的情况,本文结合开放性资源维基百科和定义以及人物传记这两种类型问题的特点,将与特定问题相关的维基百科页面引入,以对初检结果进行文档重排处理。实验表明,这种方法能有效提高排在前面的文档的精度。关键词:信息检索;倒排索引;向量空间模型;查询扩展;文档重排第1 i 页武汉科技大学硕士学位论文a b s t r a c tw i t ht h ei m p r o v e m e n to fc o m p u t e rs y s t e mp e r f o r m a n c e ,t h er a p i dd e v e l o p m e n to fi n t e r n e t。i n f o r m a t i o n , 勰w e l l 勰t h ed e g r e eo fe n t e r p r i s ei n f o r m a t i z a t i o n t h ec h i n e s ei n f o r m a t i o nr e s o u r c e sg e taf a s tr a t eo fi n c r e a s e t h ei n c r e a s e so fi n f o r m a t i o nm e e tt h ei n f o r m a t i o nn e e d so fp e o p l ea n da l s ol e a dt ot h ed i f f i c u l t yf o rt h ef a s t , a c c u r a t es e a r c hr e q u i r e m e n ta tt h es a m et i m e i nt h i sc a s e ,t h ei n f o r m a t i o nr e t r i e v a lt e c h n o l o g yb e c o m e sar e s e a r c hh o t s p o t i n f o r m a t i o nr e t r i e v a lu s u a l l yr e f e r st ot e x ti n f o r m a t i o nr e t r i e v a l ,i n c l u d i n gi n f o r m a t i o ns t o r a g e ,o r g a n i z a t i o n , p e r f o r m a n c e ,q u e r y , a c c e s sa n do t h e ra s p e c t s ,a n dt h ec o r eo fi ti st h et e x ti n d e x i n ga n dr e t r i e v a l t h em a i nt e c h n i c a la b o u ti n f o r m a t i o nr e t r i e v a ls y s t e mi n c l u d e st h ei n d e xp r o c e s s i n g ,q u e r ye x p a n s i o n ,r e t r i e v a lm o d e l ,d o c u m e n tr e r a n k i n ga n ds oo n f o rc h i n e s ei n f o r m a t i o nr e t r i e v a l ,t h ew o r ds e g m e n tt e c h n i q u ei sa l s ov e r yi m p o r t a n t t h es t u d i e sa b o u tt h ec h i n e s ei n f o r m a t i o nr e t r i e v a lo ft h i sp a p e rc a nb ed i v i d e di n t ot w op a r t s f i r s t l y , w ec o m p l e t et h ed e s i g na n di m p l e m e n t a t i o no fac h i n e s ei n f o r m a t i o nr e t r i e v a ls y s t e m 弱w et a k et h en t c 瓜7c m n e s ei r 4 q as u b t a s ka st h ee x p e r i m e n t a lb a c k g r o u n d t h es y s t e ms e g m e n t st h ei n i t i a ld o c u m e n t si n t ow o r d sa n dt h e ng e n e r a t e sa l li n v e r t e di n d e xw i t hw o r du n i t s t h es e a r c hc o m p o n e n ta p p l i e st h ec l a s s i c a lv e c t o rs p a c em o d e l a f t e rg e tt h ef i r s ts t a g es e a r c hr e s u l t ,aq u e s t i o ne x p a n s i o nm e t h o db a s e do nt h el o c a lc o o c c u r r e n c ei su s e dt od 6t h eq u e r ye x p a n s i o nt og e n e r a t ean e wq u e r yf o rt h es e c o n ds e a r c h t h er e s u l t ss h o wt h a tt h i sq u e r ye x p a n s i o ns t r a t e g yi m p r o v e st h es y s t e mp e r f o r m a n c es i g n i f i c a n t l y a n da s s e s s e db yt h en i t c i r 7o 街c i a le v a l u a t i o nt o o l ,w ec a ns e et h a tt h ew h o l ep e r f o r m a n c eo fo u rs y s t e mi sw e l l 一i na d d i t i o n ,w ed or e s e a r c ho nd o c u m e n tr e r a n k i n gt e c h n i q u ea b o u tt h es p e c i f i ct y p e so fq u e s t i o n s w h e nt h er e t r i e v a ls y s t e mr e t u m st h er e s u l t st ot h eu s e r s ,t h eu s e r sm a yb eu s e dt oi u s tb r o w s et h et o pns e a r c hr e s u l t s f o ro b t a i n i n gah i g h e rp r e c i s eo ft h et o pr e s u l t s ,w et r yt od od o c u m e n tr e r a n k i n gp r o c e s s i n g t h i sp a p e rn o t i c e st h ec h a r a c t e r i s t i c sa b o u tt h eo p e nr e s o u r c ew i k i p e d i aa n dt h ed e f i n i t i o na sw e l la st h eb i o g r a p h i e st y p eo fq u e s t i o n s w em a k eu s eo ft h ew i k i p e d i ap a g e sr e l a t e dt ot h es p e c i f i cq u e s t i o n sf o rd o c u m e n tr e r a n k i n g e x p e r i m e n t ss h o wt h a to u rm e t h o dc a ni m p r o v et h ep r e c i s i o no f t h et o pr e s u l t se f f i c i e n t l y k e yw o r d s :i n f o r m a t i o nr e t r i e v a l ;i n v e r t e di n d e x ;v e c t o rs p a c em o d e l ;q u e r ye x p a n s i o n ;d o c u m e n tr e r a n k i n g武汉科技大学硕士学位论文第1 i i 页目录摘要ia b s t r a c t i i目录i i i第一章绪论11 1 研究背景及意义。11 2 国内外研究现状l1 - 3 本文的主要工作31 4 本文的结构安排3第二章检索基本原理与检索评价42 1 检索原理42 1 1 索引42 1 2 查询处理52 1 3 检索52 2 常用评测62 3 本章小结7第三章中文信息检索系统的设计与实现83 1 实验背景83 1 1n t c 取7i r 4 q a 任务简介83 1 2 实验数据简介83 1 3 评价指标103 2 系统设计整体架构1l3 3 系统功能模块设计1 l3 3 1 索引生成模块1 13 3 2 问题分析模块123 3 3 文档检索模块1 33 3 4 查询扩展模块1 43 4 本章小结1 5第四章对定义和人物传记类型问题的文档重排1 64 1 引言1 64 2 相关研究工作1 74 3 文档重排设计1 74 4 基于维基百科的文档重排1 84 - 4 1 维基百科文档预处理1 84 4 2w i k i d o c u m e n t 相关度1 9第页武汉科技大学硕士学位论文4 4 3w i k i c l u s t e r 相关度1 94 4 4 文档重排评价2 04 5 本章小结2 0第五章实验结果与分析2 l5 1 中文信息检索系统实验结果及分析2 15 1 2 查询扩展前后实验结果对比分析2 15 1 2 系统整体实验结果分析2 35 2 特定类型问题文档重排序实验结果及分析。2 55 3 本章小结2 6第六章总结与展望2 86 1 总结2 86 2 展望2 8参考文献一3 0致谢3 3附录a 攻读学位期间发表的论文3 4武汉科技大学硕士学位论文第1 页1 1 研究背景及意义第一章绪论随着i i l t e n l e t 的高速发展和应用的普及,信息在全球范围内的发布和传播得到了非常广阔的机会,但是同时也引发了“信息爆炸 ,出现了“信息过载”和“信息迷向 的现象。一方面,w w w 包含了多种类别和形式的信息,如技术资料、商业信息、新闻报道、娱乐信息等,为人们提供了一个具有很大价值的信息源;另一方面,由于互联网上的资源分散,且没有统一的管理和结构,以及自然语言本身具有多义性和复杂性,使得人们很难快捷地获取所需信息。面对互联网上的信息海洋,如何高效地组织和管理这些信息,并快速、准确、全面地从中搜索到用户所需要的信息,尽量剔除不相关的信息,是当前信息科学与技术领域面临的一个大挑战,成为学术界和企业界十分关注的焦点。信息检索技术的研究正是伴随这种科学技术的发展和信息数量的俱增应运而生的。信息检索系统能利用获取的信息,根据一定的规则来建立索引和组织数据,为用户提供友好的查询接口,帮助人们有效的找到所关注的信息。搜索引擎是信息检索在互联网上的一种典型的成功应用。但对于用户提交的查询,目前的搜索引擎返回的结果仍然不能令用户非常满意,常常返回很多无关信息。因此信息检索技术需要进一步的研究和发展。另外,信息检索还和智能问答系统、图书情报学、自然语言处理、机器学习等技术的研究和发展息息相关。信息的表现形式有文本、图像、视频、音频等多种,而据统计,文本信息含量最多【l 】,有8 0 以上是以文本为信息载体的,同时文本也是广大用户所习惯接受的形式,文本检索r t e x tr e t r i e v a l ) 同样也是信息检索的基础和最常用的部分,因此本文讨论文本信息检索相关技术。1 2 国内外研究现状信息检索是对信息项进行表示、存储、组织和存取。对信息项的表示、存储和组织是为了让用户更容易得到所需要或者感兴趣的信息【2 】。信息检索的过程可以简单的描述为【3 】:用户提交查询条件,信息检索系统根据该查询条件在文档集合中检索出与其相关的文档子集,对这些相关文档子集中的文档按照其与查询条件的相关性值进行排序,最后返回给用户有序的文档子集。从信息检索的发展历程来看,1 9 4 5 年,v a 衄e a rb u s h 发表的一篇题为“a sw em a yt 1 1 i i l l ( 的文章,成为了现代信息检索的开端【4 1 。1 9 4 8 年,美国学者c a l f i nm o o e r s 最先提出了“a t i o nr e t r i e v a l 这个术语。1 9 5 7 年,h p l u l m 提出了统计信息检索的基本理论以及方法,指出利用单词作为文档的索引单元【5 1 。上世纪6 0 年代,信息检索领域出现了一些关键进展。1 9 6 6 年,信息检索系统的评价标准于c r a n f i e l d 的项目中第一次被提出。1 9 6 8 年,美国康耐尔大学的g e r a r ds a l t o n 教授和他的学生创建了著名的向量空涮模型( v e c t o rs p a c em o d e l ,v s m ) ,他们开发的基于此模型的s m a r t 信息检索系统至今仍在沿第2 页武汉科技大学硕士学位论文用,成为了信息检索系统的样板,甚至成为一些商业或者实验系统的重要组成部分【6 】【7 】【8 】。r a c c h i o 和s a l t o n 于1 9 6 8 年共同提出了查询扩展方法,查询扩展方法至今也成为有效提高信息检索系统性能的重要途径。伦敦城市大学的r o b e r t s o n 和剑桥大学的s p a r e kj o n e s 一同提出了概率模型【9 】【1 0 】,这种方法以通过估计文档与用户查询条件的相关概率对文档进行排序【1 1 】。这一阶段提出的各种的理论技术在信息检索发展过程中掀起了一次次的研究热潮,但2 0 世纪8 0 年代以后却少有激动人心的新技术出现。这一时期的典型理论成果包括模糊集【1 2 】、模糊推理、通用向量空间模型、线性回归技术等。2 0 世纪9 0 年代,由于多种廉价的数据存储设备的成功研发,信息存储技术随之得到了革命性的进展。9 0 年代初,随着i n t e m e t 的诞生而带来的网络信息飞速的增长,使得信息检索技术进入了一个崭新的发展阶段,出现了包括潜语义索引技术【1 3 】【1 4 】、贝叶斯网络【1 5 】【1 q 以及神经网络技术【1 7 】等具有代表性的理论成果。在9 0 年代,信息检索技术的一个典型成功应用就是搜索引擎。关于一些著名的搜索引擎,国外的有g o o g l e 、l i v e 、y a h o o ;a l t a v i s t a 、l y c o s 、e x c i t e 、a s k 、i n f o s e e k 、d o g p i l e等,国内的有百度、搜狗s o g o u 、网易y o d a o 、新浪i a s k 、北大天网、中搜等。如今,w e b搜索引擎已与人们的日常生活极为密切,在某种程度上,它成了信息检索技术的代称。同时它也很好的代表了信息检索技术的快速发展和成功应用。这些信息检索技术的应用系统一般通过分布在全球各个地方的、删w 服务器来收集信息,建立、更新索引后,通过检索接口帮助用户查找所需信息。国内外的学术界和企业界对于信息检索技术,投入了相当大的力量进行前瞻性研究。其中,国外比较有代表性的一流学府和企业科研机构包括马萨诸塞大学、卡耐基梅隆大学、伦敦城市大学、i b m 、微软研究院等。国内的有北京大学、复旦大学、沈阳航天航空学院、台湾大学、清华大学、香港中文大学等。著名的国际文本检索会议( t e x tr e t r i e v a lc o n f e r e n c e ,t r e c ) 是一个权威的文本检索领域的评测会议,它吸引了m i t 、s t a n f o r d 、u c b 、北京大学、微软研究院、g o o g l e 、i b m 研究院、新加坡国立大学、台湾大学、清华大学、复旦大学、日本东京大学、香港中文大学等机构的参加。一直对国内的研究有着重要影响的8 6 3 国家高技术研究发展计划于2 0 0 3 年设立了“中文信息处理和智能人机接口技术评测专项课题,它包括对机器翻译、语音识别、信息检索在内的中文信息处理关键技术进行评测。此课题由中国科学院计算技术研究所承办,吸引了国内外众多研究单位参加,推动了国内在中文信息检索技术领域技术进步和成果的应用转化,成为这个领域技术评价和交流的平厶口。当前,随着网络信息量的飞速增长和计算机技术的不断进步,信息检索技术也在不断迅猛发展。但它的深度和广度还有待进一步拓展。在深度方面,需要对信息自动管理和加工的能力进一步提高;在广度方面,检索对象从文本到多媒体、跨语言等方面发展。在未来,我们将可能看到信息检索技术在各方面的突破性进展和不断的发展完善。武汉科技大学硕士学位论文第3 页1 3 本文的主要工作信息检索是泛指用户从包含各种信息的文档集合中查找所需要的信息或知识的过程。信息检索往往是对自然语言的处理。由于自然语言不同于数据,它没有很好的结构,同时在语义上也存在模糊性,因此检索时对用户需求的分析有一定难度。要使信息检索系统取得某个主题的相关信息,系统必须能有在某种意义上解释该主题所含信息项的内容,对于检索到的结果根据相关度进行排序。本文主要工作如下:( 1 ) 设计并实现了一个中文信息检索系统。系统具有从后台索引到前台检索的全部功能。索引采用了当前流行的倒排索引结构,使得系统具有较高的响应速度。检索部分采用了经典的向量空间模型。另外,针对用户输入查询语句较短以及词不匹配的情况,系统采用了一种基于局部共现的查询扩展方法来提高检索性能。( 2 ) 对定义和人物传记类型问题进行了文档重排。针对用户往往只习惯浏览检索结果中排在靠前的若干个文档的情况,本文结合开放性外部资源维基百科和n t c i r 7 所提供的定义和人物传记这两种特定类型问题的特点,对这两类特定问题利用维基百科文档进行答案文档重排序,以提高排在靠前的答案的精度。1 4 本文的结构安排本文分为六章,各章内容组织如下:第一章第二章第三章第四章第五章第六章简要介绍了课题的背景,国内外的研究现状和本文将要研究的内容。介绍了中文信息检索的基本原理和相关技术,包括系统基本模块的组成,各个模块相关技术以及常用检索结果评价方法。描述了我们所构建的一个中文信息检索系统。此章介绍了实验的来源背景,所用文本语料和问题集以及相关评测指标,具体地描述了系统的基本模块结构、各模块所采用的技术。提出一种针对定义和人物传记这两类特定类型问题,利用开放性外部资源维基百科进行答案文档重排的方法,以提高检索结果中排在靠前的文档的精度。此章对实验结果进行了分析,包括在n t c i r 7 评测标准下,查询扩展前后实验结果的对比分析、整个系统性能的结果分析;在p n 评测标准下,利用维基百科定义和人物传记这两类特定类型问题进行文档重排前后的结果对比分析。总结了所做的研究,并对未来研究方向进行了展望。第4 页武汉科技大学硕士学位论文第二章检索基本原理与检索评价提起信息检索,大家往往会想到g o o g l e 、百度等常用搜索引擎,这些搜索引擎是信息检索的成功应用。那么,信息检索系统所涉及到的原理有哪些? 本章将介绍检索的基本原理,主要包括索引、查询处理和检索这三个部分的相关技术介绍。对同一用户查询,基于不同的技术的信息检索系统返回的答案往往存在差异,由此也产生了比较结果的问题。因而需要制定出一套客观的评测体系,起到正确引导研究发展方向的作用。本章还将介绍信息检索系统中几个早期常用的评测指标,包括准确率、召回率、f 1 值、p n 等。2 1 检索原理信息检索是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。,信息检索的过程可以简单的描述为:用户提交查询条件,信息检索系统根据该查询条件在文档集合中检索出与其相关的文档子集,对这些相关文档子集中的文档按照其与查询条件的相关性值进行排序,最后返回给用户有序的文档子集。对于一个文本检索系统来说,主要包括如下几部分:索引生成、查询处理和文档检索。下面我们分别对各个部分相关技术、方法加以介绍。2 1 1 索引对于索引部分,通常包含索引单元的选择策略和索引的组织方式两部分。根据索引中的每个索引单元的不同,索引方法一般可以分为以字为单元的索引和以词为单元的索引方法。基于字的方法是一种机械地从文本中抽取固定长度汉字串的方法。根据所抽取汉字串的长度,它可以进一步分为基于单字的方法和基于二元的方法。基于单字的方法即简单的把文本切分成一个一个的汉字,现今大多数中文检索系统都不采用这种索引方法。基于词的方法试图从文本中识别出完整的词来建立索引。西方语言单词之间通常以空格隔开,而中文词与词之间没有明显的分隔,为了能够利用中文的词作为索引单元,首先要对中文文档进行分词处理。现今分词的主要思想可以分为基于统计的方法和基于词表的方法。基于统计的方法【1 8 】【1 9 1 2 0 】有n g r a m 算法,最大熵算法,h m m 算法,基于e m的算法等。统计方法需要一定的训练语料,且训练语料库的规模严重影响着分词的效果,因此在实际中使用并不广泛。在实际应用中,基于词表的方法【2 l 】【2 2 1 ,也叫机械匹配算法,由于它简单而又实用,因此成为当前流行的方法。根据匹配方式的不同,基于词表的方法有正向最大匹配( f m 、逆向最大匹配( r m m ) 、双向最大匹配( b d m m ) 等。对于索引的组织方式,主要有f 向索引和倒排索引两种方式。正向索引是以文档的i d为关键字,表中记录文档中每个词在文档中出现的位置信息。在进行查找时,对表中每个武汉科技大学硕士学位论文第5 页文档中词的信息进行扫描,直到找出所有包括查询关键词的文档。这种方法在建立索引时结构简单,易于维护,但是由于采用的是对文档进行顺序扫描,检索时间长,效率低。倒排索引是一种面向单词的索引机制,利用它可以提高信息检索的速度。倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索弓l ( i n v m e di n d e x ) 。倒排索引在查询的时候由于可以一次得到该关键词所对应的所有文档,所以效率高于正向索引。2 1 2 查询处理对于用户输入的查询条件,可以多种多样,如关键词的组合、布尔表达式、直接用自然语言描述的语句等等。如果直接将用户的输入内容当作关键词去进行检索,则通常不能准确地把握用户的真实信息需求。同义词是一个在各种语言中都会存在的现象。比如查询“电脑 时,一些用“计算机来表示的信息也应该考虑进来。对于这种情况,可以比较简单地采用查询同义词词典的方法来解决。但是,由于自然语言语义的多义性和复杂性,完全基于词典的方法能得到的信息非常有限,并且可能有很多时候并不适合只是简单地用同义词来替换的方法进行关键词的扩展,因此很多学者还研究采用潜语义分析、相关反馈、关联矩阵等多种方法对用户意图进行深入地挖掘。2 1 3 检索最简单的检索系统只需要按照查询词之问的逻辑关系返回相应的文档就可以了,但这种做法显然不能表达结果与查询之间的深层关系。为了把最符合用户需求的结果显示在前面,还需要利用各种信息对结果进行排序。对于没有链接等信息的纯文本,可采用基于内容的计算,利用向量空间模型、概率模型等方法来逐一计算用户查询和结果的相似度( 相关性) 。进行相似度计算的本质上是对相关度建模。信息检索模型是信息检索中的核心内容之一。信息检索的三个经典模型包括布尔模型、向量空间模型和概率模型。布尔模型也称为集合论( s e tt h e o r e t i c ) 模型,因为在这种模型中,文档和查询用标引词来表示,布尔模型相对来说比较简单,但它的效果较差;向量模型也称为代数( a l g e b r a i c ) 模型,在这种模型中,文档和查询用t 维空间的向量来表示,这种模型能够进行部分匹配,检索结果按相关性大小排序,更符合用户的需求。向量模型是当前普遍使用的模型。在概率模型中,用于构建文档和查询模型的机制是基于概率论的,因此称它为概率( p r o b a b i l i s t i c ) 模型。这种模型按预测概率的大小输出结果,这是它的优势。但概率模型的计算量相对来说较大,并且需要给定一个初始预测的概率值。而对于有链接信息等网页内容,则可以采用基于链接的分析方法来计算查询和文档的相关度。基于链接分析的方法有p a g e r a n k 、h i t s 算法等。由于本文主要研究纯文本的相关性计算,在此对此类方法不作详细介绍。第6 页武汉科技大学硕士学位论文2 2 常用评测早期常用的评测指标包括查全率( r e c a l l ,也叫召回率) 、查准率( p r e c i s i o n ,也称作准确率) 、f 1 值等,其意义如下:查全率是指检出的相关文献与相关文献( 集合r ) 总数的比值,计算公式如( 2 1 ) 所示:肚臀( 2 )查准率是指检出的相关文献与相关文献( 集合a ) 总数的比值,计算公式如( 2 2 ) 所示:p = 留( 2 2 )在公式( 2 1 ) 和( 2 2 ) e p ,l r l 表示查询实例对应的相关文档集合r 中的文献数目,i a i 表示系统所生成的检索结果的文档集合a 中的文献数目,i r a i 表示r 与a 的交集中的文献数量。f 1 值是一个把查全率和查准率结合起来的指标。计算公式如( 2 3 ) 所示:n = 篇r( 2 3 )p +、。上面介绍的几个方法的计算公式仅适用于无排序的检索结果,显然并不适合于依据“相关程度”对文档排序的检索结果,下面介绍几个用于评测已排序的检索结果的评测指标。a p ( a v e r a g ep r e c i s i o n )平均查准率,是指平均每篇相关文档被检索出来时的查准率。计算公式如下:三一州舻掣( 2 4 )k j其中,r j 表示编号为j 的主题的相关文档数。# d o c j ( i ) 表示信息检索系统针对编号为j的查询主题,在第i 篇相关文档被检索出时,共检索出的文档数。它是一个单值指标,它反映了系统在全部相关文档上的性能。m a p ( m e a na v e r a g ep r e c i s i o n )单个主题的m a p 是每篇相关文档检索出后的准确率的平均值。主题集合的m a p 是每个主题的m a p 的平均值。m a p 是反映系统在全部相关文档上性能的单值指标。p n ( p r e c i s i o n n )表示在检索出前n 篇文档时的查准率。在检索返回的结果中,用户往往对排在前面的结果最感兴趣,而一般不会浏览后面的结果。因此,排在前面的结果的质量也直接影响用户对检索的满意程度,于是f i i j n 选精度p n 也是在信息检索中一个设置的一个拟人化的指标,这里n 通常取为5 ,1 0 ,2 0 等。其计算公式如下:武汉科技大学硕士学位论文第7 页尸 = 吉;| ;曰( 2 5 )其中p 表示第f 个查询问题前面个文档的查准率,q 表示查询的总个数。2 3 本章小结本章系统地介绍了信息检索的基本原理和信息检索中常用的几个检索评价指标。检索原理主要介绍了信息检索系统的主要组成部分所涉及到的相关处理方法和技术,包括索引,查询和检索三部分。常用评价部分对几个常用指标的意义以及相关公式进行了说明。本章内容是对信息检索基础背景知识的介绍,为后面章节内容中涉及到的技术作了铺垫。第8 页武汉科技大学硕士学位论文第三章中文信息检索系统的设计与实现从系统功能上划分,一个信息检索系统主要包括索引和检索两大部分。本章根据n t c i r 7 的c s c si r 4 q a 子任务,设计并实现了一个中文信息检索系统。系统中,索引部分采用以词为单元的倒排索引结构;得到用户提交的问题后,对其问题进行了问题分析以提取更适宜系统的关键词来形成查询语句;检索部分采用了经典的向量空间模型作为检索模型:为了解决词不匹配的问题,系统采用了一种基于局部共现的查询扩展方法对初始查询进行扩展。3 1 实验背景3 1 1n t c i r 7i r 4 q a 任务简介n t c i r 是由日本国立情报研究所所主办的有关信息访问方面的国际学术会议,它旨在加强信息访i h ( i n f o r m a t i o na c c e s s ,i a ) 包括信息检索,问题回答,自动文摘,答案抽取等技术的研究。n t c i r 7 ( 2 0 0 7 6 2 0 0 8 1 2 ) 设有特别针对问答( q u e s t i o na n s w e r ,q a ) 系统中的信息检索子模块i r 4 q a ( i n f o r m a t i o nr e t r i e v a lf o rq u e s t i o na n s w e r ) 的研讨。针对此信息检索模块,根据问题和供检索的文档的语种的划分,有跨语言和单语言检索两种。跨语言检索指用户提交的问题为一种语言表示,而供检索的文档为另一种语言,如问题为英文,文档集为中文。单语言检索指问题和供检索的文档为同一种语言。在此项任务中,我们选择了简体中文到简体中文( c h i n e s es i m p l i f i e dt oc h i n e s es i m p l i f i e d ,c s c s ) 的单语言检索,即问题和供检索文档都文简体中文。3 1 2 实验数据简介n t c i r ( n a c s i st e s tc o l l e c t i o n sf o ri r ) 是由日本国家科学信息系统中心( n a t i o n a lc e n t e rf o rs c i e n c ei n f o r m a t i o ns y s t e m s ,n a c s i s ) 所策划主办的,是当前亚洲语言信息检索领域规模最大的深有影响的标准评测会议。n i t c r 评测从1 9 9 9 年至今已经举办了7 届,第八届正在举办中。n t c i r 的评测分为不同的子任务,包括信息检索、问答、文本摘要、文本抽取等。众多著名的大学和公司都参加了其测评,如伯克利大学、卡梅隆大学、哈尔滨工业大学、微软亚洲研究院等。这些科研机构在历届比赛中曾取得过好成绩,同时也推动了信息访问相关技术的发展。本次使用的实验数据全部由n t c i r 7 官方组织提供。包括文档集、问题集、答案集三部分。其具体介绍如下。( 1 ) 文档集文档集包括两种新闻语料:新华同报和联合早报,两者皆为1 9 9 8 2 0 0 1 年间的简体中文版,总共的文档数为5 3 5 ,6 1 0 。其联合早报和新华日报语料格式分别如图3 1 和3 2 所示。武汉科技大学硕士学位论文第9 页图3 1 联合早报文档示例图图3 2 新华日报文档示例图( 2 ) 问题集根据问题类型的划分,n t c i r 7 提供的问题集包括四种类型:列表事件、人传记、定义、关系。四种类型的问题总数为1 0 0 个,但其中三个问题由于某些原因无法进行答案评估,因此在最终对检索系统进行评价时只取了9 7 个问题【2 3 1 。图3 3 为问题示例。从图中可以看出,对于每个问题,有英文和中文两种语言版本。因为所进行的实验为中文信息检索,因此以中文问题作为系统的输入。另外,对于每个主题( t o p i c ) 对应的问题,有两个描述域:“q u e s t i o n ”和“n a r r a t i v e ”。其中“q u e s t i o n ”为简短的问题描述,而“n a r r a t i v e ”则为问题的详细描述。n t c i r 7 规定,可以选取这两个描述域的任何一个,或者两者都选用作为系统的问题输入。在我们的系统中,仅采用了“q u e s t i o n ”对应的内容作为用户提交的问题来进行检索。第1 0 页武汉科技大学硕士学位论文 n a 刚乇a t i 图3 3 问题不例图( 3 ) 答案集答案集列出了每个问题对应的文档,分为三个级别:l 0 、l 1 和l 2 。其中l o 表示不相关( n o tr e l e v a n t ) ,l 1 表宽松相关( r e l a xr e l e v a n t ) ,l 2 表示严格相关( r i g i dr e l e v a n t ) 。3 1 3 评价指标n t c i r 7 的i r 4 q a 子任务的结果评价主要有三个指标。a p ( a v e r a g ep r e c i s i o n ) ,q - m e a s u r e 和n d c g 。a p 值主要考虑精度,q - m e a s u r e 和n d c g 则对文档相关度的级别进行了评价。具体介绍如下。对于一个主题( t o p i c ) ,用i ( r ) 标识检索结果中排在第,位的文档是否相关,并记c ( r ) = z r 。,( f ) 。r 表示主题的已知相关文档数目,部分相关的文档也包含在内。则彳p 的计算公式为:a p :去i ( r ) c t r ) 、( 3 1 )= 三yr 3 1 )r ,、7代表相关度的级别,g a i n ( l ) 表示检索一个工级别的文档所得评价值。对于i r 4 q a的数据,有l 2 级别相关( 相关) 和l 1 级别相关( 部分相关) 的文档。为了判别不相关文档,还设定了不相关文档的级别,即l 0 。在评估中,另g ai n ( 2 ) = 2 ,g 口i n ( l1 ) = 1 。尺( 三) 表示一个主题中级别已知相关文档的数目,因此r ( 上) = r 。另g ( r ) = g a i n ( l ) 。g ( ,) 表示理想输出结果的排在第r 位的得分,c g ( ,) = 二。g ( ,) ,c g ( ,) = 二= 。g ( ,) 。则q - m e a s u r e 对应公式如下:q - m e = 去砂,鬻n 2 ,武汉科技大学硕士学位论文第1 1 页上式在实际评估中,= 1 。对于n d c g ,其值定义为:加c g :娶型塑堕!:。g ( ,) l o g ( ,+ 1 )式中,表示文档数目的截断值。在评估中,取l = 1 0 0 0 。3 2 系统设计整体架构( 3 3 )针对n t i c r 7 的c s c si r 4 q a 子任务,我们设计了一个相应的信息检索系统。系统主要由四个模块组成:索引生成、问题分析、文档检索和查询扩展模块。整个系统的体系结构如图3 4 所示:图3 4 系统体系结构图系统的处理流程为:对于给定的原始语料文档,经过索引生成模块的处理后,得到文档索引库当系统得到用户提交的问题后,系统先对用户问题进行问题分析,提取问题中的关键词,形成初始查询表达式,作为文档检索模块的输入;检索模块得到初始查询后,进行文档检索,并将检索得到的初始排序结果文档提交给查询扩展模块;查询扩展模块根据初始检索结果进行查询扩展分析,提取出查询扩展词,将扩展词加入原始问题关键词中以形成新的查询表达式;得到的新查询表达式被提交文档检索模块,文档检索模块将进行第二次检索,返回此次检索得到的排序文档作为最终排序文档提交给用户。3 3 系统功能模块设计3 3 1 索引生成模块索引生成模块的索引结构采用了以词为单元的倒排索引。对于分词处理,采用了一种开源的基于j a v a 语言开发的轻量级的中文分词工具包i k a n a l y z e r t 2 4 1 。i k a n a l y z e r 采用的是一种基于词表分词的j 下向迭代最细粒度切分法。经过第1 2 页武汉科技大学硕士学位论文测试,这种分词方法具有6 0 万字秒的高速处理能力。它支持英文字母( i p 地址、e m a i l 、u r l ) 、数字( 日期,常用中文数量词,罗马数字,科学计数法) 、中文词汇( 姓名、地名处理) 等分词处理。它具有优化的词典存储,更小的内存占用特点,并且支持用户词典扩展定义。针对n t c i r 7 官方给定的问题集中出现了多个人名及术语,而原有词典中不存在其中的数个人名或者术语,我们将这些词项加入到原有词典中。对于一些出现频率很高,但对于查询没有任何帮助,比如“的”、“了”等,无需放入索引,则预备了一个停用词表( s t o pw o r dl i s o ,用来对这类词进行过滤。每个文档都是由一串词组成的,而用户输入的查询常常是若干个关键词,因而如果预先记录了这些词出现的位置,那么只要在索引文件中找到这些词,也就找到了包含它们的文档。因此对经过预处理后获得的原始数据需要建立索引以便快速定位查询词所在的位置,为了达到这个目的,索引的结构非常关键。目前主流的索引结构是以词为单位构造倒排文档表,即生成倒排索引。其结构如图3 5 所示:。:w o r d i d:w o r d i d一一:w o r d i d图3 5 倒排索引结构图如图所示,对于每个词项,都有一个位置列表( p o s t i n g ) 来记录单词在所有文本中出现的位置信息,这些信息包括关键词出现的文档的i d ,在文档中出现的位置、频率等。根据上述结果,在查询时,根据查询关键词,可以很快得到包含相关关键词的所有文档,所以效率大大高于顺序查找的正向索引结构。但如果文档集变化,像在互联网搜索引擎等情况下,由于每个字或词对应的文档数量都随着文档的变化在动态变化,因此倒排索引的建立和维护都较为复杂。而在本系统中,由于是一个全文检索系统,检索的快速响应是一个最为关键的性能指标,而给定的语料库相对稳定,经过一次索引后无需更新,因此采用排倒排索引是一个合适的选择。3 3 2 问题分析模块问题分析模块从原始问题中提取关键词,以形成初始查询表达式提交给检索模块进行检索。当得到用户的问题时,系统将对问题进行分词和过滤噪声词汇以提取查询所用关键词。噪声词汇即一些没有太大查询意义的词如“请问 、“列举”等词和一些停用词如“的”、“地 、“是”等词语的集合。用户问题经过分词处理后,过滤掉噪声词汇,生成查询关键词。对于问题的分词处理,由于有时存在长词和短词的同进存在的情况,例如,“诺贝尔武汉科技大学硕士学位论文第1 3 页奖”可以划分为“诺贝尔奖 一个词或者“诺贝尔”+ “奖 两个词。而往往较长的词更能表达用户的检索意图从而用长词能取得更好的检索结果,因此我们将长词首选为检索关键词。但存在的一种情况是,由于汉语同一种语义表达的多样性,有时长词不能完全匹配,因此会漏检一些相关的文档。当碰到这种情况时,我们采用的方案为图3 6 所示。图3 6 问题分析处理从图3 6 中可以看到,当一个词能同时被划分为词表中的较长的和较短的词,系统选择长词作为关键词进行检索。如果检索得到的文档数目r 小于指定的阂值s 且经过替换的次数小于指定的次数,长词将由短词替代进行检索。否则,检索得到的结果将直接提交给查询扩展模块。图3 7 中显示了一个具体的问题分析示例。如图中所示,当用较长的词进行检索时,得到的文档数量少于s 且替换次数小于m ( 在系统中,s = 1 0 0 ,m = 4 ) ,我们就用“亚洲+
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年应用英语专业试卷及答案
- 2025【合同范本】工程设备采购合同范本
- 2025圆通物流运输合同
- 2025年高空车作业考试题及答案
- 工程项目产出方案(3篇)
- 工程现场采访方案(3篇)
- 《2025年度红木家具销售合同》
- 工程预算考核方案(3篇)
- 工程验收流程方案(3篇)
- 工程修改方案施工报告(3篇)
- 2025年下半年安徽省港航集团有限公司所属企业社会公开招聘22名考试参考试题及答案解析
- 人教PEP版六年级英语上册全册教案
- 3D打印技术在制造业2025年发展趋势及市场前景可行性分析报告
- 综合楼玻璃安装合同协议书范本模板6篇
- 2025年度集中供暖项目暖气设施安装及售后服务合同
- 护士医护人员职业安全防护培训
- 2025福建厦门市公安局同安分局招聘警务辅助人员50人笔试备考试题及答案解析
- 莲山教学课件下载
- 大学生创新创业基础课件 第7章 创业与创业历程
- 班主任育人故事经验分享陪伴每一名学生慢慢成长模板
- 2025至2030中国漂白粉行业发展研究与产业战略规划分析评估报告
评论
0/150
提交评论