(教育技术学专业论文)基于概念的信息检索模型研究.pdf_第1页
(教育技术学专业论文)基于概念的信息检索模型研究.pdf_第2页
(教育技术学专业论文)基于概念的信息检索模型研究.pdf_第3页
(教育技术学专业论文)基于概念的信息检索模型研究.pdf_第4页
(教育技术学专业论文)基于概念的信息检索模型研究.pdf_第5页
已阅读5页,还剩111页未读 继续免费阅读

(教育技术学专业论文)基于概念的信息检索模型研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着互联网的快速普及以及廉价大容量存储设各的不断出现,人类社会已经产生了海量的 数字化文档信息。这些数量惊人的数字化文档可谓是人类知识的一个重要的宝库,同时也使得 人们越来越依赖信息检索系统来找到所需要的信息。在传统的信息检索模型中,通常使用“词 袋”模型来表征文档和查询。然而,人类的自然语言是一个异常复杂的符号系统,词语之间存 在包括同义、歧义、语义相关等错综复杂的关系。简单的“词袋”模型忽视了词语之间的丰富 的语义关系,远远不能够表征自然语言中所蕴含的复杂的语义信息。 本文中的概念是指描述意义的一个基本单元。人类理解自然语言的过程是一个语义概念的 联想和关联的过程,这种功能是由人类大脑中几百亿个神经元构成的复杂生理组织所提供的。 把和文本主题相关的概念中所蕴含的语义知识融合到文档和查询表征模型将是构建基于语义的 信息检索模型的一个途径,这也是本文重点要解决的问题。本文针对基于概念的文本信息检索 系统的各个方面进行了系统的研究,包括文本的概念标注的构建、概念的语义表征模型、基于 概念的文档和查询模型平滑方法以及基于概念间语义相关性的检索模型。主要研究工作和研究 成果概括如下: “ 一、提出了构建文本的概念标注的方法。根据所处理文本对象的不同,提出了几种不同概 念标注方法。针对某些专业领域文档集合,可以直接利用其中专家标注的概念。在通常情况下, 文档中没有直接可以利用的概念标注。我们提出了一种利用维基百科文档建立通用概念库,并 利用基于排序学习的方法来实现文档的维基百科概念自动标注的方法。另外,中文维基百科的 质量和数量均难以满足通用概念库的要求,上面提出基于维基百科概念的方法难以应用于中文 文本集,因此我们还提出了一种自动概念抽取的方法为中文文本标注概念。 二、提出了构建概念的语义表征模型的方法。针对不同类型的概念系统,分别提出了不同 的解决方法。针对专业辞典中的概念,提出了一种基于互信息的概念表征方法。针对维基百科 概念,提出了一种基于混合模型的表征方法和一种基于互信息的概念表征方法。针对中文文本 中自动抽取的概念,提出一种基于概念间语义关联度的方法。 三、提出了一种新的基于概念的文档模型平滑方法。通过把概念的语义信息有机的整合到 基于“词袋”的文档模型,建立基于语义平滑的文档表征模型。为了验证方法的有效性,在包 括专业领域文献和新闻文本的几种标准信息检索测试集上进行了测试。实验表明,相对于传统 的语言模型方法,这种方法的检索效果有了显著的提高。 四、提出了一种新的基于概念的查询模型平滑方法。在为查询标注相关概念的过程中,分 别提出了两种不同的方法:基于伪相关反馈文档中标注的概念来建立查询的概念表征模型的方 法,以及基于交互式信息检索的概念选择的方法。在包括专业领域文献和新闻文本的几种标准 信息检索测试集上进行的测试表明。相对于传统的语言模型方法,这种方法的检索效果有了显 著的提高,进一步验证了这种方法的有效性。 五、提出了一种利用概念间语义关系的中文检索模型。利用排序学习方法有机地整合包括 概念间语义相关度等各种特征项,建立更加有效的信息检索模型。在包含不同来源新闻报道的 国际标准中文文本信息检索测试集n t c i r 上的三个子集上进行了测试。实验结果表明,相对 于传统的基于b m 2 5 模型的方法,这种方法的检索效果有了显著的提高。 关键词:基于概念的信息检索;语言模型;文档模型;查询模型;排序学习;中文索引; 概念标注 a b s t r a c t w i t ht h er a p i d s p r e a do f t h ei n t e r n e ta n d t h ec o n t i n u a l l ye m e r g e n c eo fc h e a pm a s ss t o r a g e d e v i c e s ,h u m a ns o c i e t yh a sp r o d u c e dv a s ta m o u n t so fd i g i t a ld o c u m e n t s t h es u r p r i s i n gn u m b e r o f d o c u m e n t sc a nb ec o n s i d e r e da sat r e a s u r et r o v eo f h u m a nk n o w l e d g e ,b u ta l s om a k e su s i n c r e a s i n g l yd e p e n d e n t o ni n f o r m a t i o nr e t r i e v a l s y s t e mt o f i n dt h ei n f o r m a t i o nw en e e d i n t r a d i t i o n a li n f o r m a t i o n r e t r i e v a lm o d e l s ,t h eb a g - o f - w o r d sm o d e li s u s u a l l yu s e dt or e p r e s e n t d o c u m e n t sa n dq u e r i e s h o w e v e r , h u m a nn a t u r a ll a n g u a g ei sav e r yc o m p l e xs y s t e mo fs y m b o l s ,t h e r e e x i t sv a r i o u sc o m p l e xr e l a t i o n sb e t w e e nw o r d s ,i n c l u d i n gs y n o n y m y , a m b i g u i t ya n ds e m a n t i c a l l y r e l a t e d t h es i m p l eb a g - o f - w o r d sm o d e l ,i g n o r i n gt h er i c hs e m a n t i cr e l a t i o n s h i p sb e t “w e e nw o r d s , i s f a rf r o mb e i n ga b l et oc h a r a c t e r i z et h ec o m p l e xs e m a n t i ci n f o r m a t i o ni n h e r e n ti nn a t u r a ll a n g u a g e i nt h i st h e s i s ,t h ec o n c e p tr e f e r st oab a s i cu n i to f m e a n i n 吕o u ru n d e r s t a n d i n go f n a t u r a l l a n g u a g ei sn a t u r a l l y ap r o c e s so fs e m a n t i ca s s o c i a t i o na n di m a g i n a t i o n , w h i c hi sp r o v i d e db y c o m p l e xp h y s i o l o g i c a lo r g a n i z a t i o nm a d eb yt h et e n so fb i l l i o n so f n e u r o n si no u rh u m a nb r a i n t h e s e a m l e s si n t e g r a t i o no ft h es e m a n t i ck n o w l e d g ec o n t a i n e di nt h ec o n c e p t sr e l a t e dt ot h et e x ta n dt h e t r a d i t i o n a lt e x tr e p r e s e n t a t i o nm o d e l ,w i l lb eap o t e n t i a lw a yt ob u i l ds e m a n t i c - b a s e dr e t r i e v a l s y s t e m ,a n da l s ot h ek e yi s s u et os o l v ei nt h i st h e s i s i nt h i st h e s i s , w ew i l lm a k eac o m p r e h e n s i v e s t u d yo f c o n c e p t - b a s e di n f o r m a t i o nr e t r i e v a ls y s t e m t h em a i nc o n t r i b u t i o ni n c l u d e st h ef o l l o w i n g p a r t s : 1 ) w ep r o p o s es e v e r a la p p r o a c h e st og e n e r a t ec o n c e p ta n n o t a t i o nf o rd i f f e r e n tt y p eo f t e x t s f o r t e x t si nd o c u m e n tc o l l e c t i o no fs o m ep r o f e s s i o n a ld o m a i ns u c ha sb i o m e d i c i n e , w e 咖 d i r e c t l yu s ot h ec o n c e p t sw h i c ht h ee x p e r tm a r k e d m o r ec o m m o n l y , h o w e v e r , t h et e x t d o e s n o tc o n t a i na n yc o n c e p tn o t a t i o n w ec o n s t m c tac o m m o nc o n c e p ts y s t e mb a s e do nw i k i p r x l i a k n o w l e d g ea n dp r o p o s eas u p e r v i s e dl e a r n i n gb a s e da p p r o a c ht oa u t o m a t i c a l l yg e n e r a t ew d d p e d i a c o n c e p ta n n o t a t i o n f o rt e x t s i na d d i t i o n , w ep r o p o s e 锄a u t o m a t e dc o n c e p te x t r a c t i o nm e t h o d t og e n e r a t ec o n c e p ta n n o t a t i o nf o rc h i n e s et e x t s 2 ) w ep r o p o s es e v e r a la p p r o a c h e st og e n e r a t es e m a n t i cr e p r e s e n t a t i o nm o d e lf o rc o n c e p t si n d i f f e r e n tt y p e so fc o n c e p ts y s t e m f o rc o n c e p t si np r o f e s s i o n a ld i c t i o n a r i e s ,w eu s eam u u l a l i n f o r m a t i o nb a s e da p p r o a c ht og e n e r a t es e m a n t i cr e p r e s e n t a t i o nm o d e l f o rc o n c e p t si nw 墩i p e d i a , w e x o p o s eam i x t u r em o d e lb a s e da n dam u l u a li n f o r m a t i o nb a s e da p p r o a c ht og e n e r a t es e m a n t i c r e p r e s e n t a t i o nm o d e l , r e s p e c t i v e l y i n a d d i t i o n , w ep r o p o s eas e m a n t i c r e l a t e d n e s sb a s e d r e p r e s e n t a t i o nm o d e lf o ra u t o m a t i c a l l ye x t r a c t e dc o n c e p t si nc h i n e s et e x t 3 ) w ep r o p o s ean o v e lc o n c e p t - b a s e ds m o o t h i n gm e t h o df o rd o c u m e n tm o d e l t h es e m a n t i c b a s e dd o c u m e mm o d e li sg e n e r a t e db ys e a m l e s s l yi n t e g r a t i n gs e m a n t i cr e p r e s e n t a t i o nm o d e lo f c o n c e p t si n t ot h ew o r d - b a gb a s e dd o c u m e n tm o d e l t h ee x p e r i m e n t sa r ec o n d u c t e do ns e v e r a l s t a n d a r dr e t r i e v a lt e s tc o l l e c t i o n s ,i n c l u d i n gp r o f e s s i o n a ld o c m n e n tc o l l e c t i o n sa n dn e w sc o l l e c t i o n s t h er e s u l t ss h o wt h i sa p p r o a c hp e r f o r ms i g n i f i c a n t l yb e t t e rt h a nt r a d i t i o n a lr e t r i e v a lm o d e l s 4 ) w ep r o p o s ean o v e lc o n c e p t - b a s e ds m o o t h i n gm e t h o df o rq u e r ym o d e l t w oc o n c e p t a n n o t a t i o nm o d e l sa d e v e l o p e dt oa n n o t a t ec o n c e p t sf o rq u e r y i nt h ef i r s tm o d e l ,t h ec o n c e p t si n p s e u d o - r e l e v a n c ef e e d b a c kd o c u m e n t sa r eu s e d 舔c a n d i d a t ec o n c e p t s t h es e c o n dm o d e ld i r e c t l yu s e t h ec o n c e p t si n t e r a c t i v e l ys e l e c t e db yu s e rt og e n e r a t eq u e r ym o d e l t h ee x p e r i m e n t sa r ec o n d u c t e d 0 1 1s e v e r a l s t a n d a r dr e t r i e v a lt e s tc o l l e c t i o n s , i n c l u d i n gp r o f e s s i o n a ld o c u m e n tc o l l e c t i o n sa n dn e w s c o l l e c t i o n s t h er e s u l ts h o w st h a tt h er e t r i e v a lp e r f o r m a n c eo ft h i sm e t h o di ss i g n i f i c a n t l yi m p r o v e d r e i a t i v et ot r a d i t i o n a lr e t r i e v a lm o d e l s 5 ) w ep r o p o s eac h i n e s er e t r i e v a lm o d e lb a s e d0 1 1s e m a n t i cr e l a t e d n e s sb e t w e e nc o n c e p t s i nt h i s m o d e l ,v a r i o u si m p o r t a n tf e a t u r e s ,i n c l u d i n gs e m a n t i cr e l a t e d n e s sb e t w e e nc o n c e p t sa n dt r a d i t i o n a l f e a t u r e s ,锄屯s e a m l e s s l y i n t e g r a t e di n t ot h em a c h i n el e a r n i n gb a s e dr e t r i e v a lf r a m e w o r k t h e e x p e r i m e n t sa r ec o n d u c t e d 0 1 1s e v e r a ls t a n d a r dc h i n e s er e t r i e v a lt e s tc o l l e c t i o n s t h er e s u l ts h o w st h a t t h er e t r i e v a lp e r f o r m a n c eo f t h i sm e t h o di ss i g n i f i c a n t l yi m p r o v e dr e l a t i v et ob m - 2 5m o d e l k e yw o r d :c o n c e p t - b a s e di n f o r m a t i o nr e t r i e v a l ;l a n g u a g em o d e l :d o c u m e n tm o d e l ;q u e r y m o d e l :l e a r n i n gt or a n k ;c h i n e s ei n d e x ;c o n c e p tn o t a t i o n 1 1 研究目的及意义 第1 章绪论 随着互联网的快速普及以及廉价大容量存储设备的不断出现,人类社会已经产生了海量的 数字化信息。据世界上最大的搜索引擎公司g o o g l e 于2 0 0 8 年在官方网站上公布的数据表明, 其索引的网页数已经超过了一万亿,并且每天都在以几十亿的数量递增。这还只是冰山的一角, w e b 上还有大量的网页是搜索弓| 擎爬虫无法访问的。这些数量惊人的数字化信息可谓是人类知 识的一个重要的宝库。丽另一方面,这些数字化信息的数量是如此之大,以至于即使是从一个 经过筛选后的非常小的子集中寻找答案也变成一件让人望而生畏的任务。因此,如何利用计算 机技术更加智能地获取需要的信息成为一个十分重要的议题。 信息检索就是专门研究信息的结构化、分析、组织、存储和获取的领域【。信息检索处理的 对象可以是文本、图像、音频和视频。信息检索领域包括很多不同的任务,如文本检索、文本 分类和聚类等。文本检索是信息检索中最重要的任务,也是本文中将研究的核心问题。文本信 息检索的目的是帮助用户获取和查询相关的文本信息。文本检索系统的任务可以简单的描述如 下:系统的输入是用户通过自然语言描叙的信息需求;系统的输出为多个与查询相关的文档列 ,表,列表中的文档根据其和查询的相关度排列,相关度较高的在前面。 传统的信息检索方法通常使用基于“词袋”的文本表征模型。在这种模型中,文本通常被 表示为词语项的集合,词语项是互相独立的无序的单位,构成了文档的基本特征。因为这种模 型实现起来非常简单,所以已经被大量应用于各种文本处理系统中1 2 3 1 。然而,这种模型在表 征文本时存在很明显的缺陷。人类的自然语言是一个异常复杂的符号系统,词语之间存在包括 同义、歧义、语义相关等错综复杂的关系。简单的“词袋”模型忽视了词语之间的丰富的语义 关系,远远不能够表征自然语言中所蕴含的复杂的语义信息。人类理解自然语言的过程是一个 语义概念的联想和关联的过程,这种功能是由人类大脑中几百亿个神经元构成的复杂概念网络 所提供的。把文本中的概念所蕴含的语义知识融合到文本表征模型将是构建基于语义的信息检 索模型的一个途径。图1 1 和图l ,2 分别给出了人脑中基于概念的文本表征和目前检索系统中基 于“词袋”的文本表征方法的示例。 本项目的研究目的包括两个方面:( 1 ) 构建文本和查询的概念表征模型,能捕获语言中的 语义信息,建立比“词袋”模型更加精确的文本表征;( 2 ) 把概念表征模型中蕴含的语义信息 平滑融入到传统的信息检索方法中,提高信息检索系统的性能,使得查询检索过程更接近于人 类信息检索的本质。 l 在互联网上“信息大爆炸”的火背景下,人们将越来越依赖信息处理系统帮助发现和组织 信息。因此,对信息处理系统中的基于概念的表征模型以及检索方法进行深入地研究具有重要 的理论意义和实用性价值。虽然构建种能够描述自然语言中蕴禽的语义信息的文本表征模型 将是一个非常具有挑战性的任务。但是四十多年的这个领域的研究工作为这个任务积累了坚实 的基础,也给了我们很多灵感和启发。本文的工作主要是对基于概念的信息检索系统的各个方 面的问题进行了一些分析和探索,希望能够为信息检索领域贡献一份自己的力量。 2 嘲1 1 人脑中基于概念的文本表征 鏊j 1 | | ; 澜舰嘲翮一隧鬟爹一溺豳翻隧翮鬃 乔布颠 传苹果将- 于2 0 1 2 年乔布斯生日当天发布i 蒯3 n _ 、 l 瑷鸯磊 苹果遭遇对手! 高分辨率屏幕手机盘点 ,、hh 二= = : 斗一鋈攀 德国法院驳回苹果对兰星的诉讼 :;一”一 歹 * _ h h _ 三星 i 平安夜吃苹果圣诞节中国化k , 手机 7 、 、 水果 ”_ ”* 一? 一 一” 水果市场箱装苹果缩水纸箱被灌水泥重6 斤 v 一一_ 一一”z ”f ”w _ # q ”一口? ”一一7 一” _ 搿硝疆n “镌i 。 网1 2 目前文本检索系统l 1 的“词袋”模型 1 2 主要内容及基本结构 本文中的主要研究内容是基于概念的检索系统的构建,图1 3 给出了其基本结构。根据系统 的结构,本文中的研究内容又可以分为以下几个部分: ( 1 ) 如何构建文本的概念标注;( 2 ) 如何构建概念的语义表征模型:( 3 ) 如何利用基于概念的文档表征提高信息检索的效果;( 4 ) 如何利用基于概念的查询表征提高信息检索的效果;( 5 ) 如何利用概念间语义相关性提高信息 检索的效果。 杏询 ; l m _ i - _ 蝴 。弧。 ; 构建词语索弓ii 龋施幽柚喇哟嘲嘲幽幽鞠渊 j j 构建概念索引i 构建查询模型 兹 相关度计算i 。;_ ;孟_ 晶盔_ 曲_ _ “_ 函凶童- - i 矗l 图1 3 基于概念的检索系统的结构 本文第3 章巾将研究如何利用文本主题密切相关的概念构建文本的概念标注。根据所处理 文本对象的不同,研究内容包括以下几个方面:( 1 ) 在一些如医学、法律之类的专业领域的英 文文档集中,领域专家可以使用若干个概念来对每一篇文档进行标注,这些专家标注的概念可 以直接被作为文档的概念标注;( 2 ) 通常情况下的英文文档集中并没有可以直接利用的标注好 的概念,因此在我们将研究文档的概念自动标注问题。主要研究内容包括两个部分:如何利用 英文维基百科文档集构建一个通用的概念库,以及如何利用机器学习方法自动为文本标注和文 本主题密切相关的概念。( 3 ) 中文维基百科的质量和数量均难以满足通用概念库的要求,因此 上面提出基于维基百科的概念标注方法难以应用于中文文本集。我们将研究如何从中文文本中 自动抽取概念来构建文本的概念标注。 本文第4 章中将研究如何利用统计模型方法计算得到概念的相关词语及其相关度,构建概 念的语义表征,这些工作是构建基于概念的信息检索模型的基础。针对不同类型的概念系统, 研究内容包括以下几个方面:( 1 ) 如何建立领域本体中概念的表征方法;( 2 ) 如何利用统计 3 箩 : 博老学位沦乏 l x c l i r a ld i s , i e r i a 订l j n 方法构建维基百科概念的语义表征;( 3 ) 针对中文文本中自动抽取的概念,如何表征这些概念 间语义关联度。 在本文第5 章中,我们将研究如何利用文档的概念表征来增强文档模型,进一步提高文本 信息检索的效果。主要研究内容包括以下三个部分:( 1 ) 如何利用文档中标注的概念来构建基 于概念的文档语义表征;( 2 ) 如何利用把文档的语义表征平滑融入到传统的文档模型,在一定 程度上捕获语言中的语义信息,构建基于概念的检索模型。 在本文第6 章中,我们将研究如何利用查询的概念表征来增强文档模型,进一步提高文本 信息检索的效果。主要研究内容包括两个部分:( i ) 如何利用文档中标注的概念来构建基于概 念的查询语义表征。相对于文档来说查询所包含的词语更加少,很难准确地将查询自动映射到 的和查询主题相关的概念集合,特别是当查询中包含歧义词时。因此,我们将分别研究利用伪 相关反馈文档以及在交互式信息检索的框架上构建基于概念的查询语义表征。( 2 ) 如何利用把 查询的语义表征平滑融入到传统的查询模型,在一定程度上捕获用户的查询信息需求中蕴含的 语义信息,构建基于概念的检索模型。 在本文第7 章中,将研究如何把概念间相关性信息融入到传统检索模型以提高文本信息检 索的效能。主要研究内容包括两个部分:( i ) 如何利用利用概念间相关度构建文本查询的相关 性特征;( 2 ) 如何利用有机地整合包括汉字、二元和概念相关度的多种特征构建更好的检索模 型,进一步提高最终提高检索的精度。 4 1 3 论文的组织结构 本文的组织结构如下: 第1 章概述一介绍了本文研究目的和意义,以及本文的主要研究内容。 第2 章相关研究工作概述二对本文中研究的相关背景进行了详细的介绍,并进行了 分析。 第3 章文本的概念自动标注方法一根据所处理文本对象的不同,介绍了三种不同的 为文本标注概念方法:基于领域本体概念的方法,基于维基百科概念的方法,以及基于 自动抽取概念的方法,本章中的研究工作是构建基于概念的文档语义表征模型的基础。 第4 章概念的语义表征模型一针对各类概念系统,介绍了几种不同的概念语义表征 方法。其中包括基于相关词群的专业领域概念表征模型,基于相关词群的维基百科概念 表征模型,以及基于概念间相关性的中文概念表征模型。 第s 章基于概念的文档平滑方法一介绍了一种利用文档中标注的概念以及概念的语 义表征建立基于概念的文档语义表征模型,并平滑地融入到传统的基于“词袋”的文档 模型方法中进一步提高信息检索的效果的方法。 烤老擘 曼沦更 l x clt ) r a id l s s r a 1 1 t 斛 第6 章基于概念的查询平滑方法一介绍了几种为查询标注相关概念的方法,并提出 了一种利用查询标注的概念以及概念的语义表征建立基于概念的文档语义表征模型,并 平滑地融入到传统的文档模型方法中进一步提高信息检索的效果的方法。 第7 章基于概念间相关度的中文检索模型一介绍了一种基于排序学习思想,把概念 间相关性信息有机地融入到传统检索模型以提高文本信息检索的效能的方法。 第8 章总结一对论文的主要研究成果进行了总结,并对本文中工作进行了展望。 5 2 章相关研究工作概述 本文中的主要研究内容是基于概念的检索系统的构建,这个任务涉及到信息检索研究的许 多方面的工作。这些信息检索领域相关的研究工作为这个任务积累了坚实的基础,也给了我们 很多灵感和启发。本章中将对和本文相关的研究工作进行全面的介绍。 2 1 传统信息检索方法 信息检索系统的关键实现一个检索模型,这个检索模型可以根据用户提供的查询生成一个 按相关度排序的文档列表。这个检索模型对套询和文档匹配的过程通常使用正规的形式化的数 学模型来描述。 布尔模型是最早使用的信息检索模型,这种模型不能产生排序的文档列表,而是产生一个 相关文档的集合,这个缺陷使布尔模型难以应用于大规模文档。向量空间模型【4 】出现后很快就 取代了布尔模型,并且在很长的时间内都是这个领域的统治者。在向量空间模型中,文本和查 询都被表示为由词项构成的向量,这个向量的维度由词表的规模决定,文档和查询的相关度可 以有两个向量的在这个欧式空间中的距离来确定。常见的距离计算方法是基于两个向量在高维 空间的夹角余弦。向量中每个元素的值可以简单的布尔值,也可以是复杂的浮点数。常见的浮 点数类型的统计项包括词频( 哪和倒文档频率( i d f ) 5 1 6 1 7 。t f 和i d f 这两个统计项并不是 向量空间模型中特有的,实际上基本上所有的检索模型都使用它们。一个词项的t f 值是指这 个词项在文档中出现的频率,i d f 是由整个文档集合中包含这个词项的文档数的倒数计算获得。 直觉上可以看出,一个文档中某个词项的t f 越高,则它和包含这个词项的查询的相关度越高。 另外,文档中有一些高频的常用词,它们通常不包含文档的主题信息,i d f 值可以降低它们的 影响。在检索模型中,一个常见的统计项就是t f 和i d f 的乘积,表示为t e i d f 。下面是通 过夹角余弦计算文档和查询相关性的公式: 洲“q ) 2 揣2 面z 百l 1 w _ l i 、x 丽w t , q ( 2 1 ) 其中i 寸l 和r 1 分别表示查询和文档向量的模。因为w i j o k w i q 0 ,所以s i m ( d i ,q ) 在0 和l 之间,它可以表示文档和查询之间的部分匹配关系。 图2 1 和表2 1 中给出了一个利用向量空间模型计算文档和查询相关度的例子。 d l 和d 2 分别为两个不同的文档,q 为一个查询。t l 、t 2 和t 3 为文档和查询中出现的词语。文档和查 询中词语的频率信息见表2 1 。通过向量空间模型计算后可以得出结论,文档d 1 和查询更相关。 6 缛毒掌毪论曼 l x ,c l ”耗触l 辫s s r 轨l l ,n 表2 1 文档和查询中词语的频率信息 t l ( 电脑)驼( 人脑)t 3 ( 检索) d l2 3 5 d 2372 q 002 d 2 = 乃 图2 1 向量空问模型示例 除了向量空间模型外,还有很多种不同的检索模型,其中有一些现在依然被广泛使用。m a r o n 和k u h n s g l 最早提出了利用概率模型计算查询和文档的相关度的方法。他们在布尔形式的词 项表征模型的基础上引入了概率形式的表示词项权重的方法。他们认为信息检索的过程可以被 看做一个统计推理的过程,检索系统预测哪些文档和查询相关并按照相关度对文档进行排列。 这种思想在本质上和一种流行的机器学习方法一朴素贝叶斯模型1 9 】非常相似。m m o n 和k u h n s 最早提出了按相关度排序的检索结果表征方法,这种思想对信息检索领域有很深远的影响。 在m a r c m 和k u h n s 工作的基础上,r o b e r t s o n 和j o n e s1 7 提出了一种结合i d f 和相关性 反馈的e r r ( 也被称为概率排序原则) 模型。p l 蹬( p r o b a b i l i t y r a n k i n g p r i n c i p l e ) 模型同时利用了 两个概率模型,分别对应所有相关文档和所有不相关文档。p r p 模型的关键部分是计算文档和 用户相关的概率。这个概率值越高,文档和用户越相关。r o b e r t s o n 【i o j 证明在准确估计各项概 率的情况下,利用p r p 模型对文档排序可以优化检索效能。但是,在实际应用中想要准确估计 这些概率是不太可能实现的。 7 图2 2 概率模型永例 基于p r p 模型在实际应用中的存在的缺陷,o k a p i 研究小组提出了一种p r p 模型的改进 版本一也就是现在十分流行的0 i l a p 模型1 1 1 。o k a p i 模型充分利用了t f 和文档长度特征,在 本质上和p r p 模型十分相近。o k a p i 模型在许多测试文档集合上表现都非常好,现在是研究领 域中常用的一个用于比较检索效能的基准模型。o k a p i 模型的计算公式如下: s 眦啦驴雨篱襻。紫箐弩 ( 2 2 ) 其中的f l 表示词项i 在文档d 中出现的频率,q f i 表示词项i 在查询q 中出现的频率,k l ,k 1 和k 都是经验设定的值。 2 2 基于语言模型的检索方法 统计语言模型是自然语言处理中的一种重要的文本表征模型。因其具有完善的数学基础以 及较好的性能而被应用于语音识别、汉语输入法等研究领域。由于统计语言模型在语音识别领 域取得的成功,以及p r p 模型在实际应用中的存在的缺陷,一些研究者重新尝试在概率的框架 下建立检索模型,即使用生成概率的方法表示文档。从1 9 9 8 年以来,基于语言模型的信息检索 模型的研究开始兴起,并在最近几年的时间内取得了很大的进展。这种方法具备坚实的数学基 础,并且在实验中已经证明了它可以提供优异的检索性能。基本的语言模型就是人们常用的一 元( u n i g r a m ) 模型,在该模型中用词在文档中出现的频率来表示文档。更复杂一些的模型则同时 还考虑词出现的顺序、短语、以及在时间和文档集合变化时语言的统计信息变化。 最早发表的基于语言模型的信息检索方法中使用多元伯努利分布来为文档建模【1 2 】,但是后 来提出的基于多项式分布的模型成为主流方法1 1 3 | 。在多元伯努利分布模型中,使用0 或l 表 示每个词项在文档中存在与否;而多项式分布模型则直接利用每个词项在文档中出现的频率。 8 : 褥毒掌住论爱 l x 辩l 墩a 1 f l s 谨甜 l l 荆 2 2 1 查询使然排序 查询使然方法是一种根据文档模型生成查询文本的概率来对文档进行排序的方法【1 3 i t l 5 i t l 6 1 。 在基于多项式分布的语言模型方法中,每个文档d 被表示为词表中词项t 的多项式分布 p ( t 1 0 d ) 。在进行检索的时候,每个文档根据其生产查询的概率进行排序,这正是这种方法被命 名为查询使然的真j e 原因。通过下列公式可以计算文档d “生成”查询q 的概率: s i m ( q ;d ) = p ( d i q ) p ( d ) p ( q i d ) p ( q ) , p ( d ) p ( q i d ) = p ( d ) v i p ( t i o 。) n ( 乞q ) ( 2 。3 ) t e o _ 这里n 化q ) 表示查询中词项t 出现的频次,p ( q ) 统计项对应所有的文档具有同样的值,所以 并不影响排序,在实际计算过程中可以被忽略。从公式中可以看出,查询使然模型假设词项之 间是互相独立的。公式中的p ( d ) 是选择文档的先验概率,可以被用于设置文档的重要性等权 重1 5 ,例如在网页检索中可以用来设置网页的p a g e r a n k 值 1 7 d s l 。在本文的实验中所有文档的 p o d ) 值被设置为相同的,计算时可以忽略。 最简单的估计文档生成模型的方法是直接利用文档中所有词项的信息进行计算,其计算公 式如下: p ( t 1 6 。) = 等 ( 2 4 ) 基于语言模型的信息检索模型的基本思想是计算文档概率模型,然后根据文档概率模型计 算词语的生成概率。这种方法中关键的问题是文档模型的估计和查询的最大使然估计,准确的 估计文档模型是提高检索性能的关键。然而,由于文档集合中数据的稀疏性,准确的估计文档 模型是非常困难的。当一个词语没有出现在文档中时,通过公式2 4 中的最大使然估计方法会 得到一个零概率值。实际上这并不是合理的,因为零概率通常是由于文档中数据的稀疏性产生 的,如果文档有更多的数据这个词语将被包含其中。因此,基于语言模型的检索中核心问题就 是文档模型的平滑【1 9 1 2 0 l 。已有的研究者提出了不同的结合背景语料和文档模型的平滑技术,其 主要的思想是使用插值的方法把文档模型和背景文档模型有机地结合起来f 巧1 【列【2 l 】。 其中j e l i n e k - m e r c e r 平滑方法是一种常见的平滑方法,这种方法使用线性插值的方式把文 档模型和背景文档模型整合在一个统一的模型,其计算公式如下: 9 = : 辉士掌他论乏 l x k l i ,鬏a ll 辩s s e r l a h o | l p ( t l e d ) = bp ( t i 百d ) + ( 1 一x d ) p ( 0( 2 s ) 这里的p ( o 可以通过一个大规模语料的统计获取,在实际应用过程中,g - g - 使用检索的文档集 合c 中计算得到。 p = 嚣 仁6 , 另一种常见的平滑方法是基于贝叶斯估计的方法,这种方法在很多测试集合上都取得了优 秀的检索效剿1 9 11 2 0 1 t 铆捌,其计算公式如下: p ( t l o 。) = 器p ( t + 靠p ( t ) ( 2 7 ) 公式中的p ( t ) 为文档背景模型,p 为权重控制因子,其值通常被设置为文档集合中的平均文 档长度。 表2 2 文档中词语频率表 词语葡萄美酒夜光杯 文档l 2l2 文档2l22 查询0ll 下面给出了一个利用语言模型计算文档查询相关度的例子。根据表2 2 中的文档查询中词 语的频率信息,可以进行相关度计算:对于文档l ,查询使然值p ( q l d ) = 0 2 0 4 = 0 0 8 ;文档2 , 查询使然值p ( q l d ) = 0 4 * 0 4 = 0 1 6 。可以得出结论:对于表2 2 中的查询,文档2 比文档f 更加 相关。 2 2 2 相对熵排序 在查询使然排序方法中,文档可以使用语言模型来描述。很多研究者都意识到实际上查询 本身也可以使用语言模型来描述。当我们分别建立查询模型和文档模型后,可以通过计算两个 语言模型的距离来实现排序,这种排序计算方法比查询使然更加灵活,并且可以用于文本检索 以外的其它领域中两个文本之间相关度的计算。一些研究者【1 6 】 2 4 1 嗍提出使用相对熵( 也被称为 k u l l b a c k - l e i b l e r 距离) 方法来进行排序,在统计学中这种方法是计算两个概率分布相似性的标准 方法。使用相对熵方法排序时,文档模型0 d 和查询模型8 0 的相对熵即为文档的分值,分值 烽毒掌绲沦更 1 ) t 孵1 t 张a l | l s s f r l a l l 辩 越高文档和查询越相关,其计算公式如下: s i m ( q d ) 2 一甩( o d i i o q ) = 一t v p ( t i o q ) l 。g 涨 = t e vp ( t l o q ) l o gp ( t j o d ) 一e t e vp ( t l a q ) l o gp ( t j o q ) ( 2 8 ) 这里的v 表示文档和文档集中使用的所有的词项的集合。相对熵的计算公式是不对称的,因此 我们可以使用相反的公式进行计算,但是实验证明这种方法会导致很差的检索效剁厕。公式中 的关于查询模型的熵部分( t e v p ( t l o q ) l o gp ( t j o q ) ) 是一个和查询相关的常量,在实际计算过 程中可以忽略。 。 最简单的估计查询模型的方法就是计算查询中词项的频率,其计算公式如下: p ( t 1 6 q ) = 百n ( t , 0 3 ( 2 9 ) 使用这种计算方法将可以得到和公式2 3 中查询使然方法相同的文档排序【2 7 1 。在实际检索 过程中,用户提交的查询通常很短,只包含较少的词语2 s j 。为了得到更完善的查询模型以更加 精确地表征查询需求,原始的查询模型部分可以通过线性插值的方法加入扩展的查询模型部分 7 i 【2 9 i 嘲3 。这种方法极大的改善查询模型的数据稀疏性问题,建立更加强大的查询表征方法。 p ( t o q ) = kp ( t i 百q ) + ( 1 一九0 p ( t j 百q ) ( 2 1 0 ) 这里的p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论