(计算机应用技术专业论文)中文信息检索索引单元的研究.pdf_第1页
(计算机应用技术专业论文)中文信息检索索引单元的研究.pdf_第2页
(计算机应用技术专业论文)中文信息检索索引单元的研究.pdf_第3页
(计算机应用技术专业论文)中文信息检索索引单元的研究.pdf_第4页
(计算机应用技术专业论文)中文信息检索索引单元的研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)中文信息检索索引单元的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

晴尔滨理t 大学t 程硕十学位论文 中文信息检索索引单元的研究 摘要 随着i n t e m e t 在全世界的迅猛发展,各种信息资源越来越丰富。信息检 索作为互联网的核心技术具有极大的商业价值;信息检索还直接影响到提供 给用户什么样的信息;同时信息检索也是情报处理的重要环节。从这个意义 来看,研究并掌握信息检索的核心技术,无疑具有十分重要的经济意义,社 会意义和军事意义。 本文对中文信息检索中的索引策略进行了研究。由于中文文本没有用于 切分单词的空格,这使得索引单元的研究成为中文信息检索的特有问题。本 文比较的索引策略包括基于字的索引、基于词的索引和基于字的n 元文法的 索引。本文包括以下几个方面的内容: l 、汉语自动分词。汉语分词是以词为索引单元的信息检索不可缺少的 一步。本文分析了汉语自动分词中的歧义现象,然后介绍了用于处理自然语 言的歧义问题的语占模型,最后介绍了应用于语言模型的平滑算法。综合使 用这些技术,使汉语自动分词获得了很高的准确率,满足了信息检索的需 要。 2 、信息检索系统实现问题,即信息检索系统的数据组织方式。对信息 检索系统待处理的数据进行高效的组织是进行信息检索的必要翦提。数据组 织方式影响系统的检索速度和存储空间。这部分首先介绍了索引的组织方 法,包括正向索引和倒排索引;然后在关键字的组织查找方式中介绍了两种 常用的查找方法b 树和哈希表;随后是信息检索中的数据压缩方法;最后 是信息检索系统数据组织的具体实现。本文根据实验数据的特点,恰当地选 择了数据组织方法,满足了实验的要求。 3 、中文信息检索中的索引策略。本文应用概率模型在t r e c 公开数据 ( t r e cm a n d a r i n ) 上比较了不同索引策略对中文信息检索的影响。本文首先 介绍了信息检索中的概率模型,随后给出了待比较的检索策略:基于字索 引、基于词的索引和字的二元文法索引。实验结果表明,以信息检索常用的 平均精确率和r 一精确率为评价指标,基于字的二元文法索引性能最优。以 召回率与精确率对应表和文件数与精确率对应表为评价指标,基于字的二元 文法性能最优或与最好的结果可比。 哈尔滨理t 大学t 程硕十学位论文 关键词中文信息检索:索引策略:概率模型:2 一泊松模型 竺玺堡矍:查兰:堡璺:竺丝三 r e s e a r c ho ni n d e x i n gs t r a t e g i e s f o rc h i n e s ei n f o r m a t i nr e t r e i v a l a b s t r a c t t h e r ei sm o r ea n dm o r ei n f o r m a t i o n w i t ht h ed r a m a t i cd e v e l o p m e n to f i n t e r n e to v e rt h ew o r l d a sc o r et e c h n o l o g yo fi n t e m e t ,i n f o r m a t i o nr e t r i e v a l ( i r ) t e c h n o l o g yh a sg r e a tc o m m e r c i a lv a l u e ;i td e c i d e sw h a ti n f o r m a t i o np r e s e n t e dt o t h eu s e r ;a n di ti sa l s ot h ek e ys t e pi ni n f o r m a t i c sp r o c e s s i n g s or e s e a r c h i n ga n d m a s t e r i n gt h ek e yt e c h n o l o g yo fi rh a sh e a v yi m p a c to ne c o n o m i c s ,s o c i a la n d m i l i t a r y t h i st h e s i sf o c u s e s0 1 1i n d e x i n gs t r a t e g i e si nc h i n e s ei r i n d e x i n gs t r a t e g i e s a r es p e c i a lp r o b l e mf o rc h i n e s ei rb e c a u s et h e r ei sn os p a c et os e p a r a t et h ew o r d i nc h i n e s en a t u r a ll a n g u a g et e x t s t h ec o m p a r e di n d e x i n gs t r a t e g i e si n c l u d e c h i n e s ec h a r a c t e r i n d e x i n g ,w o r di n d e x i n ga n dn - g r a mi n d e x i n gb a s e do n c h i n e s ec h a r a c t e r s 1 1 1 er e s e a r c ht o p i c si n c l u d e : 1 c h i n e s ea u t os e g m e n t a t i o n c h i n e s es e g m e n t a t i o ni sa ni n d i s p e n s a b l es t e p i nc h i n e s ei rb a s e dw o r di n d e x i n g f i r s t l yt h ea m b i g u i t yi nc h i n e s e s e g m e n t a t i o ni sa n a l y z e d ;s e c o n d l yt h el a n g u a g em o d e lu s e dt od i s a m b i g u a t ei s i n t r o d u c e d ;t h e nt h es m o o t h i n ga l g o r i t h m su s e dt oi m p r o v et h ep e r f o r m a n c eo f t h el a n g u a g em o d e la r ep r e s e m e d o u rc h i n e s es e g m e n t a t i o ns y s t e ma c h i e v e s v e r yh i g l la c c u r a c yb yi n t e g r a t e dt h e s et e c h n o l o g y t h es e g m e n t a t i o ns y s t e mc a l l f i tf o rt h en e e do fc h i n e s ei r 2 t h ei m p l e m e n to fi l li e t h ed a t aa r r a n g e m e n ti ni rs y s t e m i rs y s t e m n e e d sh i 。g he f f i c i e n c yo fa c c e s s i n gd o c u m e n tc o l l e c t i o n ,s ot h ed a t aa r r a n g e m e n t i sn e c e s s a r y t h et h e s i sf i r s t l ye x p l o r e st h ei n d e x i n gm e t h o d si ni r , i e f o r w a r d i n d e x ,i n v e r t e di n d e x ;s e c o n d l yt w ot y p e so fk e yw o r d ss e a r c h i n ga l g o r r h m ( i e b - t r e ea n dh a s ht a b l e ) a r ep r e s e n t e d ;a n dt h e nt h ec o m p r e s s i o no fi n v e r t e d i n d e x e sa n dt e x ti si n t r o d u c e d ;f i n a l l y , w ea d o p t e dt h ep r o p e rt e c h n o l o g yt o a r r a n g ed a t a ,s ot h ee x p e r i m e n t sc a l lb ee f f i c i e n t l yd o n e ,n i :查耋矍二奎茎:要耋:茎竺兰耋 3 t h ei n d e x i n gs t r a t e g i e sf o rc h i n e s ei r t h ei n d e x i n gs t r a t e g i e sf o r c h i n e s ei n f o r m a t i o nr e t r i e v a lb a s e do n2 - p o s s i o nm o d e lw i t ho p e ne v a l u a t i o n ( i e t r e cm a n d a r i n ) a r ec o m p a r e d t h ei n d e x i n gs t r a t e g i e si n c l u d ec h a r a c t e r i n d e x i n g ,w o r di n d e x i n ga n db i g r a mi n d e x i n g e x p e r i m e n t a lr e s u l t ss h o wt h a t b i g , r a mi n d e x i n gi se f f e c t i v e n e s sb yu s i n gm e a na v e r a g ep r e c i s i o na n d o rr p r e c i s i o n 船m e a s u r e m e n t a n db i g r a mi n d e x i n go u t p e r f o r m st h eo t h e r so ri s c o m p a r a b l ei fu s i n gr e c a l l l e v e lp r e c i s i o na v e r a g e so r a n dd o c u m e n tl e v e l a v e r a g e s k e y w o r d s c h i n e s ei n f o r m a t i o nr e t r i e v a l ;i n d e x i n g s t r a t e g i e s ;p r o b a b i l i t y m o d e l ;2 - p o s s i o nm o d e l i v 哈尔滨理工大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文中文信息检索索引单元的研 究,是本人在导师指导下,在哈尔滨理工大学攻读硕士学位期间独立进行研究 工作所取得的成果。据本人所知,论文中除已注明部分外不包含他人已发表或撰 写过的研究成果。对本文研究工作做出贡献的个人和集体,均已在文中以明确方 式注明。本声明的法律结果将完全由本人承担。 作者签名弗咏 日期2 0 0 6 年6 月1 日 哈尔滨理工大学硕士学位论文使用授权书 中文信息检索索引单元的研究系本人在哈尔滨理工大学攻读硕士学位期 间在导师指导下完成的硕士学位论文。本论文的研究成果归哈尔滨理工大学所 有,本论文的研究内容不得以其它单位的名义发表。本人完全了解哈尔滨理工大 学关于保存、使用学位论文的规定,同意学校保留并向有关部门提交论文和电子 版本,允许论文被查阅和借阅。本人授权哈尔滨理工大学可以采用影印、缩印或 其他复制手段保存论文,可以公布论文的全部或部分内容。 本学位论文属于 保密口,在年解密后适用授权书。 不保密日。 ( i g 在以上相应方框内打) 作者签名:玉移咯 日期;2 0 0 6 年6 月1 日 撇名;压5 州 眺2 0 0 6 年6f l ,日 哈尔滨理- 大学 程硕七学位论文 1 1 课题背景 第1 章绪论 随着信息时代的到来以及i n t e x n e t 在全世界的迅猛发展,各种信息资源越 来越丰富。互联网上的信息呈爆炸性增长,表1 - 1 列出了不同时期的搜索引擎 索引的文档情况。 表1 - 1 不同时期搜索引擎索引的文档数鼍 时间搜索引擎索引的文档 数据来源 1 9 9 4 m c b r y a n1 0 0 0 0 m c b r y a n9 4 1 9 9 7 1 lw e b c r a w l e r2 百万一t 亿 s e r g e yb r i n9 8 2 0 0 0 夏 g o o g l e 5 亿 h t t p :w w w a g g r a n d i s e c o r n s e a r c h - e n g i n e h i s t o r y h t m l 2 0 0 1 夏 g o o g l e i o 亿 h t t p :w w w a g g r a n d i s e c o r n s e a r c h - e n g i n e h i s t o r y h t m l 2 0 0 1 1 2 g o o g l e 3 0 亿 h t t p :w w w g o o g l e c o r n p r e s s ,p r c s s r e l 3 b i l l i o n h t m l 信息检索( i n f o r m a t i o nr e t r i e v a l ,i r ) 的任务是在文档集中为用户检出最 相关的子文档集,或者按检出文档的相关程度进行排序,作为对检索用户所提 出查询的回应。由于互联网技术的发展,网络资源越来越丰富,面向互联网的 信息检索已经具有了很大的市场,例如1 9 9 9 年在美国搜索引擎技术的商业价 值总和已经达到了1 0 0 0 亿一1 5 0 0 亿美元。 目前,信息检索系统可以为用户提供大量的检索结果,已经初步解决了 “查到”的问题。例如用g o o g l e 检索“哈尔滨科委”可检索到4 3 8 0 个网页, 用户不可能对所有检索到的网页进行浏览。这就需要对检索到的文档进行排 序,对检索到的结果进行排序是取当前研究的主题之一。r o b e r t s o n 提出了概 率评价准则( t h ep r o b a b i l i t yr a n k i n gp r i n c i p l e ) i l j ,其开发的o k a p i 系统在历 次t r e c 比赛中获得了很好的成绩。所谓概率评价准则就是将检索到的文件根 据和查询的相关性进行排序。它将信息获取看成是一个过程:用户提交一个查 询,系统提供给用户它所认为的相关结果列表。用户考察这个集合后给出一些 信息,系统再进一步根据这些辅助信息( 加上以前的信息) 得到一个新的相关 结果列表,如此继续。其中计算的概率应该是基于当时所能得到的所有信息。 信息检索技术,应该说是网络信息时代的一个核心技术。一个新颖的检索 :玺釜茎:当差三堡蝥:兰竺丝三 技术,也可以促成一个国际化公司的成功,带来可观的经济效益( 例如, y a h o o ,g o o g l e 公司) 。从长远观点来看,信息检索的引擎在谁的手里,将直 接影响到提供给用户什么样的信息。同时信息检索也是情报处理的重要环节。 从这个意义来看,研究并掌握信息检索的核心技术,无疑具有十分重要的经济 意义、社会意义和军事意义。 本文在概率模型的基础上,研究中文信息检索索引策略。其研究成果将为 中文信息检索系统构建提供重要支持。本文的研究既有重大的理论价值又有重 要的实际意义。 1 2 相关研究综述 1 2 1 信息检索模型 在早期的信息检索系统中,用户通过使用复杂的布尔表达式表述他们的需 求。布尔模型的主要问题是该系统从本质上而言没有文档排序的概念,用户很 难形成有效的查询。目前,大多数的信息检索系统给检索到的文档分配一个数 值,也就是排序分值。对信息检索系统进行排序的模型主要有三个:向量空间 模型( v e c t o rs p a c em o d e l ) 、概率模型( p r o b a b i l i s t i em o d e l ) 和语言模型 ( l a n g u a g em o d e l ) 。 ( 1 ) 布尔逻辑模型 布尔逻辑模型是最简单的检索模型,也是其它检索模型的基础。 设文本集d = ( d l ,d 2 ,d 3 ,d l i ) ,d ( 芦l ,2 ,1 1 ) 为文本集中某一文档;又设 t i = “i ,k ,。) 为d i 的标引词集合,则对于形如q = w i a w 2 w k 的检索 式,如果w i t l ,w 2 t l ,”,w k e t 。,则d i 为查询q 的命中文档,否则d i 为q 的不命中文档;而对于形如q = w l v w 2 v v w k 的检索式,如果至少存在某 个w j t l ( j = l ,2 , k ) ,则d | 为q 的命中文档,否则d i 为不命中文档。 用户根据所检索关键字在检索结果中的逻辑关系递交查询,查询模块根据 布尔逻辑的基本运算法则来给出查询结果。 布尔检索模型原理简单易理解,容易在计算机上实现并且具有检索速度快 的优点。但是最终给出的检索结果没有相关性排序,不能全面反映用户的需 求,功能不如其它的检索模型。 ( 2 ) 向量空间模型 s a l t o n 、w o n g 和y a n g 于1 9 7 5 年提出用于文档排序的向量空间模型 2 1 。在 向量空间模型中,文本用t e r m 的向量表示。t e r m 不是这个模型的固有特征, t e r m 可以是词,也可以是短语。如果用单词作为t e r m ,那末在字典中的每一个 词就成了非常高维向量中的一个独立一维。任何文本都可以用这个高维空间中 的向量表示。如果t e r m 属于一个文本,则在向量中该t e r m 对应一个非零的 值。查询和文档的相关程度用查询向量和文档向量的近似度( s i m i l a r i t y ) 来衡 量。典型地,量个向量的近似度定义为两个向量的夹角,夹角的c o s i n e 值作为 衡量标准。这样,如果两个向量相互垂直,余弦值为0 ;向量平行,余弦值为 1 。也可以使用内积作为两个向量近似度的衡量标准。则相似度的定义为: s i m ( d ,9 2 w ,f 口 ( 1 1 ) e u ,正, 其中西、蚕分别为文档和查询对应的向量,是向量蚕的第i 个成分,心。 是向量d 的第i 个成分。虽然向量空间模型没有定义。和。,但它们是影 响检索结果的关键因素。通常是指t e n x l i 的权重。 不同的信息检索模型都需要对t e r m 的权重进行估计。s i n g h a l 于2 0 0 1 年指 出影响权重的因素包括:1 ) t e r m 频率( i f ) ;2 ) 文档频率( d f ,d o c u m e n t f r e q u e n c y ) 或反文档频( i d f ) ;3 ) 文档长度1 3 】。t f 是在一篇文档中t e r m 出现的 频率;文档频率是文档集中包含该t e r m 的文档个数;i d f 可以根据l o g ( n d 0 计 算,其中n 为文档集中的文档个数。 r o b e r t s o n 和s p a r c k 在权重估计的时候,考虑了t f 和i d f , 给出的权重公式 为【4 】: = 昕,+ 嘞 ( 1 - 2 ) b u c k l e y 、s a l t o n 和a l l a n 于1 9 9 3 年指出仃并不是最优的,阻尼频率 ( d a m p e n e df r e q u e n c y ) 比t f 更好【5 】,例如仃的对数函数是一个阻尼函数。s a l t o n 和b u e k l e y 于1 9 8 8 年对向量模型的权重估计进行了进一步的研究,给出的权 重公式是1 6 1 : ( 1 0 9 圻,+ i ) i a f i i ” 圭 ( 1 0 9 t f i i + 1 ) * i d f i i 2 ( 1 - 3 ) j = i s i n g h a l 、b u c k l e y 和m i t r a 于1 9 9 6 提出旋转的归一化权重方法( p i v o t e d n o r m a l i z a t i o nw e i g h t i n g ) ,该算法结合了文件长度对权重进行估计【7 1 。其权重的 计算方法为公式( 1 4 ) 所示。 哈尔滨理t 大学t 程硕士学位论文 墚裟罂o q 矿o l n 蝉a f ( 1 - 4 ) r 乏易( 1 _ 5 ) + 丢勖 。 u 叫 其中: s 为常数,通常为0 2 0 n 是文档的数目 d l 是文档的长度 a v d l 是文档的平均长度 ( 3 ) 概率模型 概率模型是一个大的家族,其基本思想是检索到的文件应该根据和查询的 相关性进行排序,这通常称为概率评价准则( t h ep r o b a b i l i s t i e r a n k i n g p r i n c i p l e ,p r p ) i i j 。概率模型的最初思想来自m a r o n 和k u h n s 于1 9 6 0 年写的 论文i s 。 本文应用概率模型比较了不同索引单元对信息检索的影响。概率模型将在 第四章加以详细介绍。 ( 4 ) 语言模型 语言模型( l a n g u a g em o d e l ) 又称为文档语占模型( d o c u m e n tl a n g u a g e m o d e l ) ,该模型由p o n t ea n dc r o f t 于1 9 9 8 年提t b t 9 ) 。该模型首先使用了语言模 型中最简单的一元文法模型。在一元文法模型中,句子中的词是独立的。s o n g a n dc r o f t 以及m i l l e r , l 船a n ds c h w a r t z 于1 9 9 9 年使用二元和三元文法,这些文 法开始考虑局部上下文信息 1 0 , 1 1 i 。二元文法的性能明显优于一元文法,但它无 法处理远距离搭配。g a o 、n i e 、w u 等人于2 0 0 4 年提出了依存语占模型,该 模型使用完全句法分析方法获取词之间的依存关系,并将其应用到信息检索 1 2 1 。g a o 、q i 、x i a 等人于2 0 0 5 年使用判别学习模型融合了来源于浅层句法分 析所获取的词之间的关系1 1 3 l 。 简而占之,信息检索中典型的检索模型有布尔逻辑模型( b o o l e a n m o d e l ) 、向量空间模型( v e c t o rs p a c em o d e l ) 、概率模型( p r o b a b i l i s t i em o d e l ) 和语占模型( l a n g u a g em o d e l ) 。布尔模型简单易于理解,但从本质上它( 包 括扩展布尔模型) 没有对文档的排序能力,这限制了它的应用。向量模型将信 息检索视为文档和查询之间的相似度问题。在向量模型中,文档和查询都表示 成词空b j ( t e r ms p a c e ) 上的一个向量,文档和查询之间的相似度根据这两个 向量的夹角( 即c o s i n e 值) 确定。向量模型的缺点是词的权重依靠经验得到, 计算最优权重时没有理论指导。以2 - 泊松模型为代表的概率模型通过将待检索 哈尔滨理- 大学1 = 程硕士学位论文 的文档分为相关和不相关两类,将检索问题视为分类问题,使信息检索的研究 首次建立在比较强的理论基础上,并取得了良好的效果。语言模型又称为文档 语言模型( d o c u m e n tl a n g u a g em o d e l ) ,不仅具有坚实的理论基础,而且在实 验中也取得了很好的效果。 1 2 2 中文信息检索索引单元的研究 中文信息检索的特有问题是索引单元对检索性能的影响,这是由于中文文 本没有用于切分单词的空格引起的。典型的索引单元为字0 4 j 5 、i 司【14 1 5 1 和字的 n 元文法【l “。以字作为索引单元,不需要进行分词,实现起来比较容易;以词 作为索引单元,词作为最小的能自由运用的语言单位,将有助于检索性能的提 高,但由于自动分词会存在错误,尤其是未登录词( o o v ,o u to f v o c a b u l a r y ) 的识别目前的性能还不令人满意,这会对检索的性能产生负面影响;以字的n 元文法作为索引单元,邻近的字组成了索引单元,可以避免分词错误的影响, 有助于获得较好的检索性能。 已经有学者对索引策略进行了研究。n i e 等应用基于向量空间模型的 s m a r t 系统比较了词和字的n 元文法作为索引单元的性能1 1 7 】。l u k 等比较了 模型、索引单元对检索性能的影响【l 引。所比较的模型包括向量空间模型、2 泊 松模型、逻辑回归模型( l o g i s t i cr e g r e s s i o nm o d e l ) 和p i r c s 模型,2 泊松模型 和p i r c s 模型都是概率模型。该文中2 泊松模型使用了公式b m i i 作为文档排 序的依据。所比较的索引策略包括字、词、p i r c s 和字的二元文法。其结论是使 用2 泊松模型和字的二元文法时,信息检索系统的性能最优,但优势不大;以 p i r c s 为索引单元时系统的性能不佳,明显低于最佳结果。因此本文比较的索引 策略为字、词、字的二元文法的性能。理论推导和大量实验表明2 泊松模型的 公式b m 2 5 的性能优于公式b m l l 的性能,因此在比较不同索引策略对汉语检 索系统性能的差异时应使用公式b m 2 5 而不是公式b m l l 。本文使用公式 b m 2 5 比较了不同引策略对汉语检索系统性能的影响。 简而言之,本文的工作是应用2 泊松模型的公式b m 2 5 比较不同索引策略 对检索的影响,为中文信息检索系统的构建提供依据。 1 3 信息检索的评测会议 除了理论和技术外,评估也是系统发展过程重要的一环。信息检索有三个 主要的评测会议:t r e c ( t e x tr e t r i e v a lc o n f e r e n c e ) 、c l e f ( c r o s s - l a n g u a g e e v a l u a t i o nf o r m ) 和n t c i r ( n i it e s tc o l l e c t i o nf o ri n f o r m a t i o nr e t r i e v a l s y s t e m s ) 。其中影响最大的是t r e c 会议,该会议吸引了国际上高水平的研究团 队参与,有信息检索的奥林匹克之称。t r e c 以英文为主,并搭配一些战略语 言,“9 l l ”之后,t r e cl l 进行7 英文阿拉伯文跨语言信息检索;伴随中国的 崛起,t r e c5 、t r e c6 以及t r e c9 进行了中文信息检索和中文英文跨语言 信息检索;t r e c7 、t r e c8 进行了法文、德文、意大利文检索。c l e f 得到欧 盟的数字图书馆计划支持,以欧洲语言为主,但因应欧洲语言的多样化,主题 和文件集所涵盖的语言数相对多起来,挑战性也强很多。2 0 0 0 年的主题包括荷 兰文、英文、法文、德文、意大利文、西班牙文、瑞典文、芬兰文等。文件集 包括英文、德文、法文,意大利文。2 0 0 1 年主题增加俄文、日文、中文和泰 文,文件集增加西班牙文。n t c i r 则以东亚语言为主,初期是英文和日文的跨 语言信息检索,2 0 0 0 2 0 0 1 加入中文信息检索和英中跨语言信息检索。2 0 0 1 年 以后,规模扩大至中、日、韩、英四国语占的信息检索及跨语言信息检索。 由于本文将研究中文信息检索,下面仅对t r e c 和n t c 取进行介绍。 1 3 1t r e c t r e c 由美国国家标准和技术局( n i s t ,t h en a t i o n a li n s t i t u t eo fs t a n d a r d s a n dt e c h n o l o g y ) 和美国国防部高等研究计划局( d a r p a ,t h ed e f e n s e a d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ) 联合举办。1 9 9 2 年举办第一届会谢1 9 1 ,随 后都举行一届,在每年1 1 月举行。 1 r i 迮c 的总目标是支持在信息检索领域的基础研究,提供对大规模文本检 索方法的评估办法,具体而占,包括: ( 1 ) 鼓励对基于大测试集合的信息检索方法的研究; ( 2 ) 提供一个可以用来交流研究思想的论坛,增进工业界、学术界和政府 部门之间的互相了解; ( 3 ) 示范信息检索理论在解决实际问题方面的重大进步,提高信息检索技 术从理论走向商业应用的速度; ( 4 ) 为工业界和学术界提高评估技术的可用性,并开发新的更为适用的评 估技术。 t r e c 使用的文档集( d o c u m e n tc o l l e c t i o n ) 由语言数据联盟( l d c , l i n g u i s t i cd a t ac o n s o r t i u m ) 提供,但少数数据有所修改。每年使用的文档数据 可以是新的,也可以是以前年度已经使用过的。语言数据联盟的数据向所有研 究机构和个人开放,这些数据为免费或者付少量费用后提供。t r e c 评测报名 哈尔滨理t 大学 程硕十学位论文 免费,参加者用自己的系统运行测试问题,给出结果,并将它们提交给 n i s t n i s t 使用固定的评测软件,对结果进行评估,并将结果返回给参加 者。最后t r e c 会议进行大会论文讨论。t r e c 对相关判断( r e l e v a n t j u d g m e n t ) ( 即标准答案) 采用人工标注的方式,保证其质量。t r e c 公开查询 和相关判断,t r e c 使用的评估软件是开放的。这样,任何组织和个人都可以 用它对自己的系统进行评测。使用t r e c 提供的数据,避免了零星的个人语料 存在的问题,例如量太小、不规范、不真实、不具有可比性。尽管t r e c 的目 的是促进美国军方的情报分析和处理能力,但由于其公开性,极大地促进了信 息检索的研究。 在t r e c 中,用户查询就是所谓的“主题”( t o p i c ) ,这些主题是预先确 定的问题,用来向检索系统提问。主题由标题( t i t l e ) 、描述( d e s c r i p t i o n ) 和 详细描述( n a r r a t i v e ) 构成。标题部分由几个单词构成,非常简短。描述部分 是一句话,比标题详细。详细描述部分更详细地描述了哪些文档是相关的。 下面的斜体文字是t r e c 提供的汉语的一个主题实例。 n u m b e r :c h 2 c o m m u n i s tc h i n a s p o s i t i o no nr e u n i f i c a t i o n 中共对于中国统一的立场 d e s c r i p t i o n : c h i n a , o n e - n a t i o n - t w o - s y s t e m s , t a i w a n ,p e a c e f u l r e u n i f i c a t f i ,n , e c o n o m i ca n dt r a d ec o o p e r a t i o n , c r o s s - s t r a i tr e l a t i o n s h i p , s c i e n c ea n dt e c h n o l o g y e x c h a n g e s n a r r a t i v e : ar e l e r a n td o c u m e n ts h o u l dd e s c r i b eh o wc h i n aw i s h e st o r e a c hr e u n i f i c a t i o nt h r o u g ht h ei m p l e m e n t a t i o no f o n e - n a t i o n t w o - s y s t e m s ”i r ad o c u m e n tm e r e l ys t a t e s a f o r e i g nn a t i o n ss u p p o r to f c h i n a ss o v e r e i g n t yo v e r t a i w a no rd i s c u s s e st r a d ec o o p e r a t i o na sw e l l 甜c u l t u r a l a n dt e c h n i c a le x c h a n g e sb e t w e e nc h i n aa n dac o u n t r yo t h e r t h a nt a i w a n , t h e l lt h ed o c u m e n t 妇i r r e l e v a n l 哈尔滨理t 大学t 程硕+ 学位论文 d e s c r i p t i o n : 中国一国两翩台湾和平统一经贸合作两津关系 科技、文化交流 n a r r a t i v e : 相关文件必须提翻中共如鹅经由实现一国两翩来达到台湾 s 大硅统一的目的如果文件只是外国政府重申支持 中共对 台湾捅有主权或提劲中共s 其饱国家z 经贸、科技、文化交流 瓤为不桓关文f t 本文没有对这个实例进行任何处理。在这个实例中,有中文部分,也有英 文部分,跨语言信息检索要用到英文部分。 在相关评估时,对于每一个主题,1 r i 也c 从参加者取得的结果中挑选一部 分运行结果,即从每个运行结果中取前1 0 0 个文档,然后用这些文档构成一个 文档池,使用人工方式对这些文档进行判断。相关性判断是二值的:相关或不 相关。没有进行判断的文档被认为是不相关的,即没有进入文档池的所有文档 都被认为是不相关的。 t r e c _ e v a l 软件包( t r e c 的免费评测软件) 对所有参加者的运行结果进行 评估,给出大量参数化的评测结果( 主要是p r e c i s i o n 和r e c a l l ) 。根据这些评测 数据,参加者可以比较彼此的系统性能。本文采用t r e ce v a l 对检索系统的性能 进行评估。 1 3 2n t c i r n t c i r ( n a c s i st e s tc o l l e c t i o n sf o ri r ) 是由日本国家科学信息系统中心 ( n a t i o n a lc e n t e rf o rs c i e n c ei n f o r m a t i o ns y s t e m s ,简称n a c s i s ) 策划主办的。 n t c i r 以东亚语言为主,初期是英文和日文的跨语占信息检索,2 0 0 0 - 2 0 0 1 加入中文信息检索和英中跨语占信息检索。2 0 0 1 年以后,规模扩大至 中、日、韩、英四国语占的信息检索及跨语言信息检索。n t c i r 为信息检索提 供了基础数据。目前,n t c i r 提供的汉语语料为繁体文本,预计明年的n t c i r 将提供简体中文测试数据。 n t c i r 文件集的来源主要为n a c s i s 学术会议论文数据库中的摘要与关 键词等资料,且为英日对照。每篇文件均具有s g m l 标签,此外也有部分文 件加上了词类标记( p a r t - o f - s p e e c ht a g s ) 。n t c i r 目前已有1 0 0 个查询主题,分 竺竺堡竺三查兰二矍篓:茎堡丝兰 别属于数个不同的学科领域。查询主题的建构是依据搜集而来的真实使用者需 求,再加以修正改写而成。n t c i r 查询主题的组成结构延续t r e c 的定义, 并在此基础上增加了相关概念( c o n c e p t s ) 部分。其详细描述部分对相关词汇定 义、背景知识、检索目的、预期的相关文件数量及文件形式、相关判断的标准 等部分加以描述。 下面的斜体文字是n t c i r 提供的汉语的一个主题实例。e ln i n o 为厄尔尼 诺现象,即赤道中、东太平洋海水表面温度偶尔增暖的现象。e ln i n o 在西班 牙语的意思为圣婴,所以也译作“圣婴现象”。 ( 1 0 p l c o lo s l a n g c h c h 反墼娶现象 查询伺精反肇娶现象及其舆辈娶现象的比较舆影罄( e s c 擎婴现象结束後接著面乘的夏挈婴现象辫全球氟候舍考伺影 誊? 跟晕墼现象的不同在伺巍2 反窀娶现象形成的曝因、特徵、循瑕性等 基本介绍视藕相鹞,偶鼬固家因鼋餮琨像造或的影罄税羯不相鞠。 擎娶现象反挈婴现象。氟候f c o n c ( t o p i c 下面的斜体文字是上面的汉语主题对应的英语主题。 t o p l c c h ( 7 s l a n g e t or e t r i e v ew h a tt h el an i n a sa n dt h ec o m p a r i s o nw i t he ln i n o f d e s ( w h a ta r ee f f e c t so f l an i n a f o l l o w i n ga f t e re ln i n oo ng l o b a lc l i m a t e ? w h a t 缸t h ec o m p a r i s o nw i t he ln i n o ? i t sb a s i ci n t r o d u c t i o n , t h ew a yi ti s f o r m e a i t sf e a t u r e sa n dc i r c u l a t i o n sa r er e l e v a n t t h ei n f l u e 朋eo nc e r t a i n 哈尔滨理t 大学t 程硕士学位论文 p , o u n d ) ,m a d e 砂e l n i n o w i l l b er e g a r d e d a s i r r e l e v a n t c c o n c ) e 1n i n o , l an i n a , c j i 口r a t e c c o n c ) c t o p i c ) 1 4 本文的主要内容及其组织 鉴于汉语的特点和信息检索的发展趋势,本文主要研究不同索引策略对中 文信息检索的影响。本文研究分四个部分进行,具体内容如下: 第1 章首先介绍了本文研究的目的和意义;总结了国内外有关信息检索的 模型和中文信息检索的研究工作。 第2 章主要讨论了汉语自动分词。汉语分词是以词为索引单元的信息检索 不可缺少的一步。该章首先分析了汉语自动分词中的歧义现象,然后介绍了用 于处理自然语言的歧义问题的语占模型,最后介绍了应用于语占模型的平滑算 法。综合使用这些技术,使汉语自动分词获得了很高的准确率,满足了信息检 索的需要。 第3 章主要讨论信息检索系统的实现问题,即信息检索系统的数据组织方 式。该章首先介绍了索引的组织方法,包括正向索引和倒排索引;然后在关键 字的组织查找方式中介绍了两种常用的查找方法b 一树和哈希表;随后是信息检 索中的数据压缩方法:最后是信息检索系统数据组织的具体实现。本文根据实 验数据的特点,恰当地选择了数据组织方法,满足了实验的要求。 第4 章是本文的核心。在这一章中本文应用概率模型在t r e c 公开数据 ( t r e cm a n d a r i n ) 上比较了不同索引策略对中文信息检索的影响。该章首先 介绍了信息检索中的概率模型,随后给出了待比较的检索策略;基于字的索 引、基于词的索引和字的二元文法索引。实验结果表明,以信息检索常用的平 均精确率和r 一精确率为评价指标,基于字的二元文法索引性能最优。以召回率 与精确率对应表和文件数与精确率对应表为评价指标时,基于字的二元文法性 能最优或与最好的结果可比。 第2 章汉语自动分词 汉语分词是以词为索引单元的信息检索不可缺少的一步。本章首先分析了 汉语自动分词中的歧义现象,然后介绍了用于处理自然语言的歧义问题的语言 模型,最后介绍了应用于语占模型的平滑算法。综合使用这些技术,使汉语自 动分词获得了很高的准确率,满足了信息检索的需要。 2 1 汉语词语

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论