(计算机应用技术专业论文)基于场论的信息检索模型的研究.pdf_第1页
(计算机应用技术专业论文)基于场论的信息检索模型的研究.pdf_第2页
(计算机应用技术专业论文)基于场论的信息检索模型的研究.pdf_第3页
(计算机应用技术专业论文)基于场论的信息检索模型的研究.pdf_第4页
(计算机应用技术专业论文)基于场论的信息检索模型的研究.pdf_第5页
已阅读5页,还剩102页未读 继续免费阅读

(计算机应用技术专业论文)基于场论的信息检索模型的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 在当前“信息爆炸”的时代,信息过量几乎成为每个人都需要面对的问题。 海量信息的复杂性以及信息处理的时效性严重影响了人们对信息的获取。如何便 捷、准确地检索到所需信息已成为人们关注的焦点问题。信息检索就是研究如何 对各种形式信息( 如文本、图像、语音以及视频等) 进行高效检索的学科。 在信息检索中,文本的特征表示可以采用基于词语、短语和语义概念的表示 方法。这些方法分别对应于文本的词语级、句法级和文档级的信息表示,并且信 息的粒度由细到粗。从理论上来说,短语( 句法级) 优于词语( 词语级) ,语义 概念( 文档级) 优于短语。但针对不同的检索需求,有必要在相应的粒度上进行 信息处理,并实现不同粒度间的信息转换。 本文针对不同的检索需求对文本信息从不同粒度的角度进行分析,研究文本 的特征表示,进一步地对文档进行标引、分类。本文提出了基于场论的信息检索 模型,并将其应用于文档的检索中,实验结果显示它的文档相关性的定义能够更 好地描述文档间的关系。 本文主要的研究内容有: ( 1 ) 文档商空间讨论粒度计算的三类理论和方法;采用商空间的理论在文 档信息的三个层次上构建了信息商空间,实现了对文档信息在不同粒度上的分 析,并讨论了相应信息粒度上的信息检索的方式;对三个层次的信息商空间提出 了运用粗糙集方法对信息从细粒度到粗粒度进行转换;并根据商空间的保真原理 和保假原理提出了文档信息检索的两种搜索的策略; ( 2 ) 文档自动标引在帕欧理论的指导下,构建文档标引词候选集,运用集 对理论分析了文档标引词间的相关性,通过标引词相关度对候选标引词进行筛选 及文档标引词扩展,从而实现文档的自动标引; ( 3 ) 文本分类运用粗糙集方法对标引词相关性进行知识约简,构建了文档 类别的三层特征标引词相关度集;在此基础上通过对核心标引词相关度的加权, 实现了基于标引词相关度的文本分类; ( 4 ) 基于场论的信息检索模型分析经典信息检索模型,采用标引词的 n t f - n i d f 权重度量方法,运用场论的知识,结合信息检索的特点,设计了基于 场论的信息检索模型。 基丁场论的信息检索模型的研究 本文的主要创新点有: ( 1 ) 在深入研究文献计量学理论的基础上,提出了文档标引词选择的新方 案。这该方案以帕欧理论为依据,减少了自动标引过程中预处理信息量,从而降 低了文本标引的复杂度; ( 2 ) 在对标引词的相关性进行全面分析的基础上,提出了一种新的文本分 类的模型基于标引词相关度的文本分类。该模型运用了粗糙集的方法,对标 引词的相关性进行约简,建立了文档类别的三层特征标引词相关度集。在此基础 上通过对核心标引词相关度的加权,实现了基于标引词相关度的文本分类; ( 3 ) 在分析了各种信息检索模型的基础上,提出了一种新的信息检索模型 基于场论的信息检索模型。该模型是将物质问的作用具体表现在文档上,通 过文档间的作用描述文档的相关性,从而进行信息的检索; ( 4 ) 在分析了面向检索需求的信息粒度选择之后,在文档词语级信息空间 上,构建句法级信息商空间和文档级信息商空间。通过商空间的粒度分析,运用 粗糙集方法将文档信息从细粒度向粗粒度的转换,从而实现了不同粒度上的信息 检索。 关键词:信息检索;场论;商空间:集对分析;文档标引;文本分类 i l a b s t r a c t t h ep r o b l e mt h a te v e r y o n ea l m o s tm u s tb ef a c e di si n f o r m a t i o ns u r f e i ti nc u r r e n t “i n f o r m a t i o ne x p l o s i o n t i m e s t h ec o m p l e x i t yo ft h em a g n a n i m i t yi n f o r m a t i o na n d o ft h ee f f i c i e n c yo ft h ei n f o r m a t i o np r o c e s s i n gs e r i o u s l yi n f l u e n c e dp e o p l et oo b t a i n i n f o r m a t i o n h o wt or e t r i e v a lt h ei n f o r m a t i o nt h a tu s e rn e e d e dc o n v e n i e n t l ya n d a c c u r a t e l yb e c o m e st h ef o c u sp r o b l e mt h a tp e o p l ep a ya t t e n t i o nt o t h ei n f o r m a t i o n r e l r i c v a li st h es u b j e c tt h a tr e s e a r c h e sh o wt os e a r c hv a r i o u sf o r mi n f o r m a t i o n ( s u c h a st e x td o c u m e n t , p i c t u r e ,s p e e c ha n dv i d e oe t e ) e f f i c i e n t l y i ni n f o r m a t i o nr e t r i e v a l ,t h et e x td o c u m e n t s 锄b er e p r e s e n t e db yt h e c h a r a c t e r i s t i c ,w h i c he x p r e s s e db yw o r d ,p h r a s ea n d s e m a n t i cc o n c e p t t h e s ee x p r e s s m e t h o d sc o r r e s p o n dw i t hac l a s so f w o r d ,o f s e n t e n c ea n do f d o c u m e n tr e p r e s e n t a t i o n a n dt h eg r a n u l a r i t yo f i n f o r m a t i o ni sf r o ms l e n d e r e rt oc o l l l - rg r a i n - s i z e a tp o i n to f v i e wf r o mt h e o r yi ni n f o r m a t i o nr e t r i e v a l ,t h es e n t e n c ei sb e t t e rt h a nw o r d ,a n d d o c u m e n ti sb e t t e rt h a ns e n t e n c e b u tf a c i n gt od i f f e r e n tn e e d ,t h ei n f o r m a t i o ns h o u l d b ep r o c e s s e da c c o r d i n gt ot h en e e d s ,a n dt h ei n f o r m a t i o nc a l lb et r a n s f e rb e t w e , l 。l lt h e d i f f e r e n tg r a n u l a r i t y t h i st h e s i s a n a l y s e st h ed o c u m e n tc h a r a c t e r i s t i c f r o md i f f e r e n tg r a n u l a r i t y a c c o r d i n gt o d i f f e r e n tn e c d s i tr e s e a r c h e sa b o u tt h ea u t o m a t i ci n d e xa n dt e x t c a t e g o r i z a t i o n an e wi n f o r m a t i o nr e t r i e v a lm o d e lb a s e do n f i e l di sp r e s e n t e d ,w h i c h i sa p p l i e dt ot h ed o c u m e n tr e t r i e v a l t h er e s u l t ss h o wi t sd e f i n i t i o no fd o c u m e n t s r e l e v a n c ee l mb eb e t t e rt oe x p r e s st h er e l a t i v eo f d o c u m e n t s t b em a i nc o n t e n ti nt h et h e s i si n c l u d e : ( 1 ) q u o t i e n t $ p 1 1 c e so f d o e u m e n t t h ep a p e ri n t r o d u c e st h l c el a y e r so f t h e o r ya n d m e t h o do f g r a n u l a r i t yc o m p u t i n g t h et h e s i sb u i l d st h r e eq u o t i e n ts p a c e so f d o c u m e n t i n f o r m a t i o nb a s e d q u o t i e n ts p a c et h e o r y a n ds h o w st h em e a n so fi n f o r m a t i o n r e l x i c v a la te a c hs p a c e am e t h o do f r o u g hs e tt h e o r yc 粕t r a n s f o r mt h l es p a c e sf r o m s l e n d e rg r a n u l a rt oc , o a s e rg r a n u l a r a tl a s t , t h ep a p e rp r e s e n t st w ok i n d so fs t r a t e g i e s o f i n f o r m a t i o ns e a r c h ( 2 ) d o c u m e n ta u t o m a t i ci n d e x i n g u n d e rt h ei n s t r u c t i o nb ym l p a o st h e o r y , i l l 基于场论的信息检索模型的研究 t h et h e s i sb u i l tt h ei n d e xw o r d s e t , a n a l y z e dt h er e l e v a n c eo f t h ei n d e xw o r db a s e do n p a i rs e tt h e o r y ,f i l t e r e dt h ec a m p a i g n e ra n de x p a n d i n gt h ed o c u m e n ti n d e xa c c o r d i n g t ot h er e l e v a n c eo fi n d e xw o r d f i n a l l y ,t h e s i si m p l e m e n t e dt h ed o c u m e n ta u t o m a t i c i n d e x i n g , ( 3 ) t e x tc a t e g o r i z a t i o n t h et h e s i sr e d u c e st h ek n o w l e d g eo f t h er e l e v a n c eo f t h e i n d e xt e r mb a s e do nr o u g hs e tf i r s t l y ,t h e nb u i l d st h r e el a y e ro fr e l e v a n c eo fi n d e x w o r do fd o c u m e n tc l a s s at e x tc a t e g o r i z a t i o nm o d e lb a s e do nt h er e l e v a n c eo fi n d e x w o r do f d o c u m e n tc l a s s i f i e ri sd e s i g n e d ( 4 ) i n f o r m a t i o nr e t r i e v a lm o d e lb a s e do nf i e l dt h e o r y t h et h e s i sa n a l y z e st h e c l a s s i cm o d e lo fi n f o r m a t i o nr e t r i e v a l h a n d l i n gt h ek n o w l e d g eo ff i e l dt h e o r ya n d c o m b i n i n gt oc h a r a c t e r i s t i c so fi n f o r m a t i o nr e t r i e v a l ,t h ep a p e rd e s i g n san e w i n f o r m a t i o nr e t r i e v a lb a s e do nf i e l dt h e o r y t h em a i ni n n o v m i o ni nt h ep a p e r i n c l u d i n g : ( 1 ) r e s e a r c h i n gl i t e r a t u r em e t r o l o g yt h e o r y ,t h ep a p e r 晰n gf o r w a r dan e w s c h e m eo fs e l e c t i n gi n d e xw o r d t h i sp r o j e c tc u td o w nt h eq u a n t i t yo fc a m p a i g n e ro f i n d e xw o r da n dr e d u c e st h ec o m p l e x i t yo f a u t o m a t i ci n d e x i n gi np r e - p r o c e s s i n g ( 2 ) b a s e do na n a l y z i n gt h er e l e v a n c eo fi n d e xw o r d ,t h ep a p e rp r e s e n t san e w t e x tc a t e g o r i z a t i o nm o d e l ,w h i c hi sb a s e do nt h er e l e v a n c eo fi n d e xt e r m t h en e w m o d e lr e d u c e st h er e l e v a n c eo fi n d e xw o r du s i n gt h em e t h o do fr o u g hs e ta n dc l a s s e s t h er e l e v a n c eo fi n d e xw o r di n t ot h r e el a y e r s f i n a l l y , t h et e x tc l a s s i f i e rb a s e do nt h e r e l e v a n c eo f i n d e xw o r di sd e v i s e d ( 3 ) a f t e ra n a l y z i n gt h ef o u n d a t i o no fv a r i o u si n f o r m a t i o nr e t r i e v a lm o d e l s ,t h e t h e s i sp u tf o r w a r dan e wi n f o r m a t i o nr e t r i e v a lm o d e l ,w h i c hb a s e do nt h ef i e l dt h e o r y t l l i sm o d e li st od e s c r i b et h er e l e v a n c eo f d o c u m e n tb yt h ef u n c t i o no f t e x t w h i c hp u t t h ef u n c t i o no f m a t e r i a lo nd o c u m e n t ( 4 ) a f t e ra n a l y z i n gt h en e e d s ,t h ep a p e rb u i l d st h eq u o t i e n ts p a c eo fs e n t e n c ea n d o fd o c u m e n tb a s e do ni n f o r m a t i o ns p a c eo fw o r do fd o c u m e n t u s i n gt h er o u g hs e t t h e o r y ,t h ed i f f e r e n tg r a n u l a r i t yi n f o r m a t i o no fd o c u m e n tc a nb et r a n s f o r m e du n d e r g r a n u l a ra n a l y s i so fq u o t i e n ts p a c e s o ,i n f o r m a t i o nr e t r i e v a li nd i f f e r e n tg r a n u l a r c o m e st r u e i v k e y w o r d s :i n f o r m a t i o nr e t r i e v a l ,f i e l dt h e o r y , q u o t i e n ts p a c e ,p a i rs e ta n a l y s i s , t e x ti n d e x i n g , t e x tc a t e g o r i z a t i o n v 图表 图表 插图 图1 1 信息检索系统流程3 图1 2 信息检索的模型分类4 图2 1r o u g h 集基本概念示意图1 8 图3 1 问答系统3 3 图3 2 自动文摘3 4 图3 3 信息检索的检索过程。3 4 图4 1 康登的i n n , 一l n r 关系示意图4 0 图4 2 有效词的分辨力与词频分布的关系4 1 图4 3 不同度量方法的自动标引结果对照5 4 图4 4 求同相关度下参数变化的影响。5 5 图5 1 自动文本分类模型。5 8 图5 2 类别的特征标引词相关度。6 3 图5 3 两种文本分类的正确率比较图。6 7 图6 i 不同检索系统的平均查准率的比较8 4 表格 表5 1 训练及测试语料库6 5 表5 2 不同分类器的分类正确率比较6 6 表5 3 训练集优化前后分类正确率对比6 8 表5 4 不同分类方法的正确率比较 表6 1 不同检索系统的平均查准率的比较8 4 x i 符号说明 符号说明 说明 文档集 用户查询集 所有标引词的集合 信息检索系统中标引词的总数 某一文档 文档嘭的段落第,段落 段落聊的句子 文档嘭中段落岛间的逻辑关系 段落岛中句子嘞问的逻辑关系 句子嘞中标引词锄间的逻辑关系 某一查询 结果文档的排序函数 以岛为标引词的文档数量 同时以向、t 为标引词的文档数量 不以t 或为标引词的文档数量 以t 或屯之一为标引词的文档数量。 标引词 文档嘭中的标引词南的权值 ,维向量中标引词毛的权值 标引词的正交关联矩阵 标引词岛在文档t 中的词频 x v 号 嘭 以 p 符d q 足,够 既 嘞乃 句 谚 地 吩 勺 勺 毛 孵c 基于场论的信息检索模型的研究 文档集的文档总数 标引词岛在文档集出现的文档数 倒排文档的频率 文档乃的候选标引词的数量 标引词t ,屯在信息检索中的联系度 标引词置与标引词集置的相关度 集对 文档中的句子 文档中的段落 x 打 彬 彬 心 坼 唧 n 独创性声明 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获毪蝤貉其他教育机构 的学位或证书而使用过的材科与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示谢意。 学位论文储娩和吼签字魄加7 年够月歹工日 学位论文版权使用授权书 本学位论文作者完全了謦妻蔹倔净关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阏。本人授趑皴白葫以将学位论文的全部或部分内容编入有关数据库进行 学位篇嚣潮胁授巍:謦朗巷专本 学位论文作者签名:彳存喁掀导师签名:曩锄刁露幸街 签字日期:力卯7 年加月日 签字日期:拿乡印年缈月哆日 工作单位: 通讯地址: 电话: 邮编: 第一章绪论 第一章绪论 1 1 研究背景 自二十世纪五十年代以来,计算机和信息技术的高速发展给人类社会带来了 巨大的变化和影响。由于技术的进步,人们能够更加快速、容易和廉价地获取信 息。由于数据库的规模及其应用范围和深度的不断扩大,成千上万的数据库被用 于商业管理、政府办公、科学研究和工程开发,使得全社会的信息量以指数形式 增长 1 】。 根据粗略估计,从二十世纪八十年代开始,全球信息量每隔2 0 个月就要增加 一倍;到了九十年代,全世界所拥有的数据库及其所存储的数据规模增长更快。 一个中等规模企业每天要产生1 0 0 m b 以上来自各生产经营等多方面的商业数据。 美国政府部门的个典型的数据库每天要接收约5 t b 数据量,在1 5 秒到1 分钟时 间里,要维护的数据量达到3 0 0 t b 。在科研方面,以美国宇航局的数据库为例, 每天从卫星下载的数据量就达3 t b 4 t b 之多。另外,由于互联网的发展和普及 以及企业内部网、企业外部网和虚拟私有网的产生与应用,使整个世界互联成一 个小小的地球村。人们可以跨越时空,在网上交换信息和协作工作。这样人们面 对的己不再仅仅是本部门、本单位和本行业的庞大数据库,而是浩瀚无垠的信息 海洋。 2 0 0 3 年,加利福尼亚大学伯克利分校研究人员发现,仅在过去的3 年中,全 球的信息产出量就翻了一番。该校信息管理及系统学院莱曼教授领导的小组在研 究中对多种信息源进行了采样分析。结果发现,2 0 0 2 年全球由纸张、胶片以及磁、 光存储介质所记录的信息生产总量达到5 万亿m b ,约等于1 9 9 9 年全球信息产量的 两倍。换句话说,在1 9 9 9 年到2 0 0 2 年这3 年问,世界范围内信息生产垂以平均每 年3 0 左右的速度递增【2 】。如果以馆藏1 9 0 0 万册书籍和其他印刷出版物的美国国 会图书馆为标准,5 万亿m b 信息量足以填满5 0 万座美国国会图书馆。 在这被称之为“信息爆炸”的时代,信息过量几乎成为每个人都需要面对的 问题。由于海量数据的复杂性以及数据处理的时效性严重影响了人们对数据的使 用,人们陷入了“数据丰富,知识缺乏”的困境。如何便捷、准确地检索到所需信 息成为人们关注的焦点问题 3 】。 信息检索( i n f o r m a t i o nr e t r i e v a l ,玳) 就是研究如何对各种形式信息( 如文 基于场论的信息检索模型的研究 本、图像、语音以及视频等) 进行高效检索的学科【4 6 】。它的研究内容包括数据 建模、文档分类与聚类、系统构建、用户界面( 包括w e b 搜索引擎和w e b 浏览器) 、 数据可视化、信息过滤和查询语言等,它的检索形式有全文检索、多媒体检索、 超媒体及超文本检索、光盘技术、联机检索、网络检索等。因此,信息检索是源 于图书情报的广义交叉学科。它汇聚了不同领域的科学工作者,尤其是人工智能、 数据挖掘、数据库、并行计算、可视化、图书馆、情报学等方面的学者和工程技 术人员。 1 2 信息检索 信息检索的主要目的就是要检索出所有与用户查询相关的文档。它与一般的 数据检索差异较大。相应的数据检索主要是确定某一集合中的哪些文档包含了用 户查询中的关键词,其主要目的是检出所有明确满足给定查询条件的对象,其结 果具有确定性和准确性;信息检索处理的对象通常是自然语言文本,由于自然语 言文本语义上的歧异性,因此信息检索搜索出的对象可以是不准确的,并且很可 能有察觉不出的错误。另外,信息检索的结果还要按与用户查询的相关性 ( r e l e v a n c e ) 进行排序。这使得信息检索的核心为文档的相关性。 1 2 1 信息检索模型 信息检索模型可以用一个四元组 d ,q f ,r ( 吼,t ) 来表示,其中d 是文档集 中的一组文档的表示;q 是一组用户查询;f 是构建文档表示、查询及其关系的 机制;r 乜,d ,) 是排序函数,它输出一个由查询和文档表示决定的文档顺序【7 】。 在信息检索中,每一篇文档用一组有代表性的关键词即标引词集合来描述 【8 】。标引词( i n d e xt e r m ) 是可以是文档中的词,其语义可以帮助理解文档的主 题,标引词也可以是未在文档中出现的词语。统计表明只有大约7 0 的标引词出 现有文档中。 对于文档中的标引词集来说,决定一个标引词对文档内容描述的贡献程度是 一个十分重要的问题。目前通用的方法是用一些容易度量和评估的属性来评价标 引词对文档内容描述的重要程度,如标引词的文档出现频率( d o c u m e n t f r e q u e n c y ) 。在文档集合中,如果一个标引词出现的文档频率 3 0 ,那么,用 它作为标引词就没有意义了,因为它不能区分每篇文档的差别,也就不能告诉用 2 第一章绪论 户哪篇文档是用户感兴趣的。为了明确描述文档内容的标引词与文档内容的相关 性,我们为标引词定义一个权值( t e r mw e i g h t ) 来描述这种相关程度。 用t 表示标引词,嘭表示文档,o 为二元组( t ,嘭) 的权值。该权值用来 衡量描述文档语义内容的标引词的重要性。 定义1 1 用f 表示系统中标引词的数目,置表示标引词,k = 毛,屯,毛) 是 所有标引词的集合,嘞 o 是文档t 中的标引词七的权值,对于没有出现在文档 文本e e 的标引词,其权值= o 文档t 可以用标引词向量嘭来表示: 吒= w 1 ,w 2 ,嘞 此外,函数蜀用以返回任何f 维向量中标引词t 的权值, 即蜀) = w o 标引词的权值通常被假定为相互独立的,即由二元组( t ,嘭) 的权值不能 推导出二元组( k 。,乃) 的权值o 。j 这样的假设简化了检索问题。因为文档中有 很多的标引词在语义上是相关的。如果用词语“计算机”和“网络”给涉及计算 机网络领域的给定文档编制索引,在这篇文档中,这两个单词中的一个出现通常 会引起另一个单词的出现。标引词的彼此独立简化了权值的计算工作,但它对检 索的结果存在着一定的影响。 1 2 2 信息检索过程 信息检索的系统流程如图1 1 所示,它包括; 图1 1 信息检索系统流程 f i g u r e1 1 :s y s t e m f l o w o f i n f o r m a t i o nr e t r i e v a l ( 1 ) 信息内容分析与编码该过程产生信息记录及检索标识; ( 2 ) 组织存贮它将全部记录按文件、数据库等形式组成有序的信息集合。 3 基于场论的信息检索模型的研究 ( 3 ) 用户提问处理和检索输出采用友好的人机界面实现用户查询的输入和 结果的输出。 其中,最关键部分是信息提问与信息集合的匹配和选择,即对给定提问与集 合中的记录进行相似性比较,根据一定的匹配标准选出有关信息。 1 2 3 信息检索模型的划分 信息检索的核心问题是判断相对于某一查询,哪些文档是相关的,哪些文档 是不相关的以及相关的程度。这实际上是由检索的排序算法来确定的。排序算法 是信息检索系统的核心。 因此,信息检索的模型是由文档相关性的定义来形成的。不同的文档相关性 定义对应于不同的信息检索模型。对现有的信息检索模型从文档相关性定义的数 学基础出发,可将它们分为主要的三类:集合论( s e tt h e o r e t i c ) 模型、代数 ( a l g e b r a i c ) 模型和概率( p r o b a b i l i s t i c ) 模型。从标引词之间是否被假设为不相 关,又可分为:标引相关和标引独立两类,其中标引相关又可分为固有的联系和 先验的联系。许多信息检索模型是将其中两类或三者相结合 9 】,如图1 2 所示。 黟羲_ 巧蠹蠹g 。:二一一一一。”i ;| 瓣艘脚肭蝴了 辩醐坤憾* i i o 畦自辩m 翻隧棚t p d 刳 畦蚺 i m m a o c n t # 酣错n d 桃i j 0 鬯吵! 远黛一。一点。! 黪,嵴譬! 唑k 麓椎蜘黼恤鞲嗍黼蝴_ ? j 蝌3 i 麓落t 一f “ ; 。“ i; 。,7 。,一一 盘怒耘黼。- 熙 ”黼嚣妒二毒毒致溉麓黔。勰徽 t。遂。 li 。怒。;”赫, 荆嘲嘲# # # ,0 涮 。 l 絮嚣一髅;l 图1 2 信息检索的模型分类 f i g u r e1 2 :t h ec l a s s i f i c a t i o no f i n f o r m a t i o nr e t r i e v a lm o d e l 在信息检索中有三个经典的检索模型:布尔模型、向量模型和概率模型,它 们分别是基于集合论、代数和概率论的模型。在信息检索模型的发展过程中还出 现了大量的衍生模型,这些衍生模型按其文档相关性定义的数学基础分为: 在基于集合论的模型中,还出现了模糊集合论模型和扩展布尔模型; 4 第一章绪论 在基于代数的模型中,衍生了广义向量模型、潜语义标引模型和神经网络模 型; 在概率模型中,产生了推理网络模型和信任度网络模型等。 对于解决不同的检索需求,在检索中应当使用不同的模型。到目前为止,还 没有一种信息检索模型在每一检索需求上都能表现最佳。 1 3 现代信息检索 1 3 1 发展简史 现代信息检索的特点是将计算机技术与情报检索技术相结合,它的发展简史 如下: 二十世纪六十到七十年代,这时的信息检索系统主要面向小型的科学文摘数 据库、法律和商业文档。检索模型为基本的布尔模型和向量空间模型。c o m e u u m v e r s i t y 的s a l t o n 教授及其学生是信息检索领域的先驱。 八十年代,信息检索技术应用于l e x i s - n e x i s 、d i a l o g 、m e d l i n e 等大型文 档数据库中。 九十年代,a r c h i e 、w a i s 等检索系统开始在互联网上对f t p 文档进行搜索。 l y c o s 、y a h o o 、a l t a v i s t a 等在w o r l dw i d ew e b 上展示了其强大的搜索能力。同 时,学术机构开始对信息检索进行的有组织的评测,如由美国国防部d e f e n s e a d v a n c e dr e s e a r c hp r o j e c t s a g e n c y ( d a r p a ) 和美国国家标准技术协会n a t i o n a l i n s t i t u t eo f s t a n d a r d sa n dt e c h n o l o g y ( n i s t ) 联合发起的t r e c 评测。 本世纪以来,信息检索主要表现为w e b 搜索服务的链接分析。g o o g l e 崭露 了头脚。还出现了问答系统。问答系统是让用户以自然语言的形式提出问题,系 统返回精确的结果。 和国外相比,国内的中文信息检索起步较晚。2 0 0 3 年,国家8 6 3 计划软硬 件主题设立了“中文信息处理和智能人机接口技术评测”专项课题,对包括机器 翻译、语音识别、信息检索在内的中文信息处理关键技术进行评测。信息检索评 测的目的并不仅仅是定位为8 6 3 课题验收或资格认证,而是要了解国内在中文信 息检索技术领域的研究现状,验证互联网环境下大规模数据的中文信息检索技术 的系统有效性,推动技术进步和成果的应用和转化。该课题的研究成为这个领域 技术评价和交流的平台。该课题由中国科学院计算技术研究所承办,从2 0 0 3 年 5 基于场论的信息检索模型的研究 到2 0 0 6 年连续举办四届,吸引了国内外众多研究单位参加。 8 6 3 信息检索评测基本上反映了中文信息检索技术的发展水平。目前,国内 的中文检索技术基本上都是基于国际主流的算法,在检索模型上采用向量空间模 型、概率模型、语言模型等基本模型或者混合模型。但是,从连续四年来的整体 检索效果看,各个指标年年都有了很大提高。在短短几年间,中文信息检索从无 到有,已经取得了令人鼓舞的进步。 1 3 2 发展趋势 作为实用化的信息检索,g o o g l e 、b a i d u 、y a h o o 等w e b 搜索引擎为人们所 熟悉,并与人们的网络生活关系密切,它们在某种程度上成了信息检索的代称。 但商用化的搜索引擎一般采用比较成熟的检索技术,并对稳定性、反映速度、界 面等工程化问题更为关注j 因此,这些系统并不能完全代表信息检索技术的发展 水平。 目前,信息检索正在朝着多样化、个性化、可视化、智能化等方向发展。 1 、多样化 信息检索的多样化发展趋势主要表现在三个方面: ( 1 ) 目前被检索的信息资源呈现多样化的形态,如文本、声音、图像、动 画等。互联网为多种媒体信息资源的检索创造出前所未有的生机。基于内容的检 索技术和语音识别技术是信息检索研究的热点和发展趋势之一。 ( 2 ) 网络的迅速发展,使得整个世界变成了“地球村”,国别障碍、语言障 碍已经成为影响信息检索效率的主要因素之- - 1 0 。因此,信息检索的一个发展 趋势就是研究多语种信息检索以及提供语言互译的检索。 ( 3 ) 单一的检索工具和检索服务已经不能适应现在检索需求。集多种检索 功能于一体的检索工具和检索服务已经越来越受到人们的欢迎【1 l 】。 2 、个性化 个性化是指用户更加注重信息检索内容的特色化和注重信息检索个性化的 服务。 信息检索作为一种重要的服务,必须贯彻以用户为中心的理念。随着网络经 济、知识社会的到来,人们越来越追求个性化。所以检索系统如何按照个人需求 的不同实现个性化检索是未来信息检索发展的趋势之一。个性化服务是能够根据 6 第一章绪论 不同用户的特点和需求智能化地检索用户所需要的知识。它能提供满足用户喜好 的界面,以用户喜好的方式获得用户需求,并以用户需要的内容和喜好的形式显 示给用户,做到自动根据用户喜好的变化在检索界面和检索结果中加以体现。 3 、可视化 可视化的核心是对检索系统进行选择( 系统类型和内容类型) ,对可视化目 标属性的映射的识别( 引用关系、逻辑关系和词义关系) ,对可视化空间的界定 与创造,确定对所有可视化目标的映射方法,开发浏览与检索系统。 可视化技术可能会从根本上改变信息资源采集、信息组织、信息检索的方式, 它们将来可能会取代以布尔逻辑检索为基础的、传统的信息检索系统。 4 、智能化 智能化信息检索是利用智能推拉、神经智能技术、可扩展标记语言技术实现 信息源对不同用户类型所需求的信息资源的按需“推送”。利用知识发现技术, 可从“推拉”技术所获取的信息资源中进一步提取更有意义、更有价值的知识, 发现隐藏在信息资源中的内在规律;利用数据挖掘技术、知识评价技术,最终能 够提取真正符合用户需求的知识。 1 3 3 研究热点 信息检索的研究热点在早期是以o k a p i 、s m a r t 、查询扩展、相关反馈的内容 分析技术,后来是以p a g e r a n k 和h i t s 为代表的链接分析技术。语言模型也掀起 过研究热潮。目前的研究热点是不同粒度的信息获取。国外的学术界和企业界为 此投入了相当大的力量进行前瞻性研究,这方面比较有代表性的机构包括马萨诸 塞大学、卡耐基梅隆大学、伦敦城市大学、i b m 、微软研究院、滑铁卢大学等 1 2 】。 2 0 0 3 年,t r e c 在其总结报告指出,“现在信息检索的发展已连续几年的1 0 增长之后,信息检索性能已进入平台期”【1 3 】。这表明,与用户无关的传统信息 检索技术已相对成熟。这些技术已经被商用搜索引擎广泛应用,并在一定程度上 解决了用户对粗粒度( 文档级) 信息的获取需求。从t r e c 来看,现在的信息检 索的研究朝着高精度、细粒度和大规模三个方向发展 1 4 1 1 5 ,比较有代表性的 有高精度文档检索( h i g ha c c u r a c yr e t r i e v a lf r o md o c u m e n t s ,简称h a r d ) 【1 6 1 1 7 、新信息检测( n o v e l t yd e t e c t i o n ) 【1 8 、问答系统( q u e s t i o na n s w e r ) 【1 9 - 2 1 、t b 级检索( t e r a b y t et r a c k ) 2 2 - 2 4 等。其中前三个检索要求返回的结 7 基于场论的信息检索模型的研究 果不再是简单的一篇篇文档,而是信息片断,而t b 级检索则是把测试集的规模 提高到了t b 级。从评测结果来看,这些检索的研究已经取得了很大进展。但相 对于目前的技术而言,这些检索的技术还不成熟,与实用还有一段距离。 1 4 本文研究的内容 在信息检索中,文档与查询的相关性是非常重要的研究内容之一。文档和查 询在检索中都要进行形式化地文本表示。文本的特征表示可以采用基于词语、短 语和语义概念的表示方法。这些方法分别对应于文本的词语级、句法级和文档级 的信息表示,并且信息的粒度由细到粗。从理论上来说,短语( 句法级) 优于词 语( 词语级) ,语义概念( 文档级) 优于短语。但面对不同的检索需求,需要在 相应的粒度上进行信息处理,并实现不同信息粒度间的转换。 本文针对不同的检索需求对文档信息从不同粒度的角度进行分析,研究文档 的特征表示,进一步地对文档进行标引、分类。本文提出了基于场论的信息检索 模型,并将其应用于文档的检索中,实验结果显示它的文档相关性的定义能够更 好地描述文档间的关系。 1 4 1 主要创新点 本文的主要创新点有以下几个方面: ( 1 ) 在分析了面向检索需求的信息粒度的选择之后,在文档词语级信息空 间上,构建句法级信息商空间和文档级信息商空间。通过商空间的粒度分析,运 用粗糙集方法将文档信息从细粒度向粗粒度的转换,从而实现了不同粒度上的信 息检索。 ( 2 ) 在深入研究文献计量学理论的基础上,提出了文档标引词选择的新方 案。这该方案以帕欧理论为依据,减少了自动标引过程中预处理信息量,从而降 低了文本标引的复杂度; ( 3 ) 在对标引词的相关度进行全面分析的基础上,提出了一种新的文本分 类的模型- 基于标引词相关度的文本分类。该模型运用了粗糙集的方法,对标 引词的相关度进行约简,通过文本类别的三层特征标引词集,实现了基于标引词 相关度的文本分类模型; ( 4 ) 在分析了各种信息检索模型的基础上,提出了一种新的信息检索模型 基于场论的信息检索模型。该模型是将物质问的作用具体表现在文档上,通 8 第一章绪论 过文档间的作用描述文档的相关性; 1 4 2 内容组织 本文的内容组织如下: 第一章绪论概要阐述了论文的研究背景,介绍信息检索的系统流程、模型 及发展趋势,简要介绍了本文的主要研究内容; 第二章本文的理论基础简单介绍了论文进行文档标引和文档处理的理论 基础,包括商空间、集对理论、粗糙集和场论的基本概念和相关定理; 第三章文档商空间讨论三类粒度计算的理论与方法;采用商空问的理论在 文档信息的三个层次上构建了信息商空间,提出了运用粗糙集方法对信息从细粒 度到粗粒度进行转换;并根据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论