(计算机应用技术专业论文)文本信息检索模型研究.pdf_第1页
(计算机应用技术专业论文)文本信息检索模型研究.pdf_第2页
(计算机应用技术专业论文)文本信息检索模型研究.pdf_第3页
(计算机应用技术专业论文)文本信息检索模型研究.pdf_第4页
(计算机应用技术专业论文)文本信息检索模型研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)文本信息检索模型研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘璎 文本信息检索模型研究 计算机应用技术专业硕士研究生黄果 指导教师周竹荣副教授 摘要 随着i n t e m e t 技术的发展,人类已经步入信息时代,网上庞大的数字化信息 与人们获取所需信息能力之间的矛盾只益突出,怎样快速准确地检索相关信息已 经成为当今信息领域的研究热点。到目l j 为止,国内外研究组织和公司已经提出 了多种信息检索模型并研发出了相应的搜索引擎,这些搜索引擎对于要在网络上 获取相关知识的用户起到了一定的导航的作用,但是同时也有不少局限性:返回 大量的垃圾信息,重要信息丢失等。 本文首先从研究文本信息检索模型入手,阐述了传统的信息检索模型的基本 原理及其算法思想,然后着重介绍了有关领域本体的知识以及在领域本体参照下 三种语义相似度的计算模型:基于距离的语义相似度计算模型、基于内容的语义 相似度计算模型以及基于属性的语义相似度计算模型。得知这三种语义相似度的 计算模型分别从三个不同的分析角度来量化概念之间的语义相似度:( 1 ) 基于距 离的语义相似度计算模型简单、直观,但它非常依赖预先建立好的概念层次网络, 网络的结构直接影响到语义相似度的计算:( 2 ) 基于内容的语义相似度计算模型 在理论上更有说服力,因为在计算概念之自j 语义相似度的时候,充分利用了信息 理论和概率统计理论的相关知识,但是这种方法不能更细致的区分层次网络中各 个概念之间语义相似度的值;( 3 ) 基于属性的语义相似度计算模型可以很好的模 拟人们平时对现实世界中事物之间的认识和辨别,但是要求对客观事物的每一个 属性进行详细和全面的描述。因此,针对这三种计算模型的优缺点和领域本体所 特有的性质,提出了一种改进的基于领域本体的语义相似度计算模型,该模型能 够比较准确地反映概念之间的语义关系,为概念之间的语义关系提供一种有效的 量化。 论文在上述基础上,通过对基于统计的信息检索模型和基于本体的信息检索 曲南人7 硕十学付 模型进行分析比较,得知这两种模型在某种程度上互补:( 1 ) 壤f 统计的信息检 索模犁强调关键字的统计信息,然而忽略了关键字之间的语义信息;( 2 ) 基于本 体的信息榆索模璎强调关键字之间的语义信息,然而忽略了关键字的统计信息。 结合两种信息检索模型各自的优点提出了一种混合的信息榆索模氆。通过该模型 构建了一种新的信息检索系统的原型,并对该原型系统的几个蘑要的模块的功能 及原理进行了既明。 最后,实验主要采用j s p 作开发技术构建了基于c s 模式的文本信息检索系 统,通过p r o t 6 9 6 e 开发数据结构这门课程前三章的领域本体,使用a p a c h e t o m c a t5 0 作为w e b 服务器,采用m i c r o s o f to f f i c ex pa c c e s sp r o f e s s i o n a l 作为 数据库构建的实验环境。实验结果证明该原型用于信息检索中,其查全率和查准 率方面较基于统计的信息检索模型和基于本体的信息检索模型有了一定的改进。 关键词:信息检索本体语义相似度混合 a b s t m c t r e s e a r c ho n r e x ti n f o r m a t i o nr e t r i e v em o d e l m a j o r :c o m p u t e ra p p l i c a t i o n d i r e c t i o u :a i & c a i s u p e r v i s o r :a s s o c i a t ep r o f z h o uz h u r o n g a u t h o r :h u a n gg u o ( 2 0 0 4 1 0 9 3 ) a b s t r a c t p e o p l ea l eg o i n gi n t oi n f o r m a t i o na g ew i t ht h ed e v e l o p m e n to fi n t e r n e t a tt h e s a m et i m e ,t h ec o n t r a d i c t i o nb e t w e e nl a r g ea m o u n to fd i g i t a li n f o r m a t i o na n dt h e i n f o r m a t i o np e o p l er e a l l yn e e db e c o m e sm o r ea n dm o r ei n c i s i v e n o w a d a y s ,h o wt o r e t r i e v et h er e q u i s i t ei n f o r m a t i o nq u i c k l ya n dp r e c i s e l yt u m si n t ot h eh o ts p o ti n i n f o r m a t i o nf i e l d s o m eo r g a n i z a t i o n sa n dc o m p a n i e sb o t hh e r ea n da b r o a dh a v e d e v e l o p e dm a n yk i n d so fi n f o r m a t i o nr e t r i e v a l m o d e l ss o f a r , t o g e t h e rw i t h c o r r e s p o n d i n gs e a r c h i n ge n g i n e s ,w h i c ht os o m ee x t e n th e l pu s e r sn a v i g a t ea m o n g i n t e r n e tt o g e tn e e d e di n f o r m a t i o n h o w e v e r , t h e r ee x i s ts o m el i m i t a t i o n si nt h o s e m o d e l ss u c h 私t h er e t u r n i n go fm u c hj u n ki n f o r m a t i o n , l o s i n go fi m p o r t a n t i n f o r m a t i o n , s oo ns of o r t h f i r s t l y , t h i sa r t i c l eb e g i n n i n gw i t hi n f o r m a t i o nl e w i e v em o d e l ,i ts e t sf o r t ht h e b a s et h e o r i e sa n dt h ep r i n c i p l e so fa l g o r i t h m so ft r a d i t i o n a li n f o r m a t i o nr e t r i e v e m o d e l a n dt h e nt h et h e t i se m p h a s i z e st op r e s e n ts o m er e l a t e dk n o w l e d g eo nd o m a i n o n t o l o g ya n dt h r e ek i n d so fc o m p u t i n gm o d e l sb a s e do nt h ed o m a i no n t o l o g y w e h a v ea n a l y z e dt h r e es e m a n t i cs i m i l a r i t yc o m p u t a t i o nm o d e l sw h i c ha r eb a s e do n d i s t a n c e ,c o n t e n ta n da t t r i b u t er e s p e c t i v e l y i ti sk n o w nt h a tt h o s et h r e em o d e l s q u a n t i z et h es e m a n t i cs i m i l a r i t ya m o n gc o n c e p t sf r o mt h r e ed i f f e r e n tp o i n t so fv i e w : ( 1 ) t h ed i s t a n c e - b a s e dm o d e li ss i m p l ea n di n t u i t i o n a l ,b u ti td e p e n d sd e e p l yo nt h e c o n c e p th i e r a r c h i c a ln e t w o r ke s t a b l i s h e db e f o r e ,w h o s es t r u c t u r ew i l la f f e c t t h e c o m p u t a t i o no fs e m a n t i cs i m i l a r i t yd i r e c t l y ( 2 ) t h ec o n t e n t b a s e dm o d e lh a sm o r e i i i 曲南人学硕p 产伊 p e r s u a s i o ni nt h e o r yb e c a u s ei tm a k e sf u l lu s eo f t h ek n o w l e d g eo fi n f o r m a t i o nt h e o r y a n dp r o b a b i l i t ya n ds t a t i s t i c s h o w e v e r ,t h i sm o d e lc a n n o td i f f e r e n t i a t et h ev a l u eo f s e m a n t i cs i m i l a r i t ym e t i c u l o u s l ya m o n ge a c hc o n c e p ti nt h eh i e r a r c h i c a ln e t w o r k ( 3 ) t h ea t t r i b u t e - b a s em o d e lc a ns i m u l a t eh u m a n sb e h a v i o ro fr e c o g n i z i n ga n d d i s t i n g u i s h i n gw e l l ,b u ta s kf o rad e t a i l e da n dc o m p r e h e n s i v ed e s c r i p t i o no ne v e r y a t t r i b u t eo ft h eo b j e c t s s o ,a i m e da tt h ea d v a n t a g e sa n dd i s a d v a n t a g e so ft h e s e m o d e l s ,a sw e l la st h ec h a r a c t e r i s t i co f d o m a i no n t o l o g y , w ep u tf o r w a r da l li m p r o v e d d o m a i no n t o l o g y - b a s e ds e m a n t i c s i m i l a r i t yc o m p u t i n gm o d e l ,w h i c hm a k e sa c o n c e p t si n f o r m a t i o nc o n t e n ta n da t t r i b u t ea st w od e c i s i o nf a c t o r so nt h eg r o u n do f t h ed i s t a n c e - b a s e dc o m p u t i n gm o d e l b a s e do na b o v et h e o r y , t h r o u g ht h ec o m p a r i s o nb e t w e e ns t a t i s t i c a l b a s e da n d o n t o l o g y - b a s e di n f o r m a t i o nr e t r i e v a lm o d e l ,w ek n o wt h a tt h et w or e i n f o r c ee a c h o t h e ri ns o m ed e g r e e :( 1 ) t h es t a t i s t i c a l b a s e di n f o r m a t i o nm o d e le m p h a s i z e st h e s t a t i s t i c a li n f o r m a t i o no ft h ek e yw o r d s ,b u ta tt h es a l t l et i m ei g n o r e st h es e m a n t i c i n f o r m a t i o nb e t w e e nt h ek e yw o r d s ( 2 ) t h eo n t o l o g y - b a s e di n f o r m a t i o nr e t r i e v a l m o d e lb e h a v e so nt h ec o n t r a r y i nt h i sp a p e r , i tp u t sf o r w a r dah y b r i di n f o r m a t i o n r e t r i e v a lm o d e lb yt a k i n gt h ea d v a n t a g eo ft h et w om o d e l sm e n t i o n e da b o v e w e c o n s t r u c tat y p eo fp r o t o t y p eo fa d v a n c ei n f o r m a t i o nr e t r i e v es y s t e mb a s e do na b o v e m o d e l ,a n dg i v es o m ee x p l a n a t i o n sa b o u tf u n c t i o n sa n dp r i n c i p l e so fs e v e r a lp a r t so f t h ep r o t o t y p es y s t e m f i n a l l y , at e s ts y s t e mc a l l e dc sm o d eb a s e dt e x ti n f o r m a t i o nr e t r i e v a ls y s t e mi s d e s i g n e du s i n gj s pt e c h n o l o g y w eh a v ed e v e l o p e dad o m a i no n t o l o g yo ft h ef o r m e r t h r e ec h a p t e r si nd a t as t r u c t u r et h r o u g hp r o t a g e ,a n du s e da p a c h et o m c a t5 0a sw e b s e v e r ,m i c r o s o f to f f i c ex pa c c e s sp r o f e s s i o n a la sd a t a b a s et ob u i l tt h ee x p e r i m e n t e n v i r o n m e n t i ti sp r o v e dt h a tc o m p a r e dw i t ht h es t a t i s t i c a l b a s e da n do n t o l o g y - b a s e d m o d e l sw i t ht h er e s u l t so fs e v e r a le x p e r i m e n t s ,t h em o d e lw ep u tf o r w a r dh a sb e e n o b v i o u s l yi m p r o v e di nt h er a t i oo f c o m p l e t e n e s sa n dc o r r e c t n e s s k e y w o r d s :i rv s mo n t o l o g yh y b r i d - i v - 独创性声明 学位论文题目:塞奎焦! 壑捡塞搓型盟究 本人提交的学位论文是在导师指导下进行的研究工作及取得的研究 成果。论文中引用他人已经发表或出版过的研究成果,文中已加了特别标 注。对本研究及学位论文撰写曾做出贡献的老师、朋友、同仁在文中作了 明确说明并表示衷心感谢。 学位论文作者:萋粱 签字日期:0 ,7 年厂月t o 日 i 学位论文版权使用授权书 本学位论文作者完全了解西南大学有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被 查阅和借阅。本人授权西南大学研究生院( 筹) 可以将学位论文的全部或 部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手 段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书,本论文:口不保密,口保 密期限至年月止) 。 学位论文作者签名:徘 签字日期:a ,订年争月【口日 工作单位: 通讯地址: 导师签名: 签字日期: 电话: 邮编: 硪竹哞 一7 年r 月f 口曰 第一带锗论 第一章绪论 本章对论文研究的背景、国内外相关研究现状、研究的内容与意义以及论文 的内容安排予以说明。 1 1 论文研究背景 随着科学技术的发展,人类已经步入信息时代。信息化、网络化的发展已经 是当今社会发展的趋势。据了解,全球最大的中文搜索引擎百度于2 0 0 6 年2 月 9 日正式宣布,百度搜索标注的中文网页数量已经到达8 亿多,g o o g l e 搜索引擎 也声称标注了近6 亿中文网页。要从这么多的网页中找到我们需要的信息无疑像 大海捞针一样困难,于是人们出现了“信息迷航”、“信息过载”等问题。人们迫 切的需要一种高效、准确的信息检索工具来查找相关信息。 信息检索主要研究内容包括对信息的表示、存储、组织和访问。对信息的表 示、存储和组织是为了让用户更容易得到所需要或者感兴趣的信息。信息检索的 过程可以简单的描述为:用户提交查询条件,信息检索系统根据该查询条件在文 档集合中检索出与之相关的文档子集,对这些相关文档子集中的文档按照其与查 询条件的相关性值进行排序,最后返回给用户有序的文档子集。 到目前为止,研究人员提出了三种主流的信息检索技术:( 1 ) 基于向量空间 的信息检索模型“;( 2 ) 基于超链接的信息检索模型”1 ;( 3 ) 基于语义本体的信 息检索模型”。s a l t o n 提出的向量空间模型己经广泛的应用到当今的搜索引擎中, 取得了很好的效果,但是随着网络资源的不断膨胀,向量空间模型返回大量无用 的垃圾信息,同时一些重要的信息却丢失:基于超链接的信息检索模型充分利用 网页的超链接结构对网页进行排序,即一个网页被链接的次数越多、链接它的网 页质量越高,那么该网页就被认为是同类网页中用户最需要的,其典型代表是 p a g e r a n k 和h i l l t o p 算法。但是基于向量空自j 的信息检索模型和基于超链接的信 息检索模型都是基于关键字的层面,没有深入到语义理解的层面。近年来语义网 的本体理论的提出在一定程度上解决了搜索引擎语义理解的问题,文献3 提出了 基于本体的信息检索模型,通过引入本体对用户查询条件和数据文档进行知识表 示,然后利用预先构建的基于本体的“词一词”相似度矩阵来确定用户查询条件 和文档之间的相似度,该模型在一定程度上把信息检索从目前基于关键字的层面 荫南人7 饷卜。7 伊论文 提高到基于知识的层面。 1 2 国内外相关领域的研究现状和存在的问题 1 9 5 0 年,美国学者c a l v i n n m o o e r s 首创了“信息检索”这一术语。1 9 5 8 年, 美国学者l u n 提出了基于统计信息枪索的基本理论和方法。1 9 6 0 年,m a r s o n 和 k u h n s 提出了信息检索的概率模型。1 9 6 5 年,美国康奈尔大学的g e r a r ds a l t o n 教授及其学生创立了信息检索的向量空| h j 模型“1 ,该模型至今仍然是信息检索领 域最为有效和广泛应用的理论模型,原理足使用t f * i d f 法则将给定的文本转换 为一个高维向量,然后利用相似度计算公式进行比较。后来,r o e c h i o 和s a l t o n 共同提出了相关反馈模型,该模型通过用户和系统之例的交互,有效地提高了检 索的结果的精度。针对网页所具有的特性,m i c h a lc t t l t e r 结合h t m l 标记的特 性,在向量空间模型的基础上提出了基于位置的信息检索算法,进一步提高向量 空间模型的查准率。近年以来,许多研究者发现w w w 上的超链接结构是一个 非常丰富而重要的资源,利用这些资源可以极大地提高检索结果的准确性,其中 主要代表有,k l e i b e r g 提出了h i t s ( h y p e r l i n k i n d u c e dt o p i cs e a r c h ) 超链接主 题查找算法,后来b r i n 和p a g e 在此算法的基础上提出了经典的p a g e r a n k 算法, 该算法被广泛地应用到目前的搜索引擎之中,并取得了很到的效果。r l e m p e l 和s m o r a n 提出了s a l s a 算法,该算法考虑了用户的兴趣模型,保留了p a g e r a n k 的随机特性和h i t s 的a u t h o r i t y 和h u b 的思想,取消了a u t h o r i t y 和h u b 之间的 相互加强关系。 南京大学的李振东等将概念图引入到信息检索中,提出了基于概念的信息检 索模型。在此基础上,中科院的赵军等在信息检索中的两大关键技术( 标引和相 似度计算) 中,引入了语义计算,用浅层语义来指导检索过程,提高了信息检索 的准确率。本体( o n t o l o g y ) 是研究实体存在性和实体存在本质等方面的通用理 论,它把现实世界中某个应用领域抽象或概括成一组概念及概念之间的关系,通 过构建出这个领域的本体,会使计算机对该领域的信息处理大为方便。因此国内 外研究学者和组织提出了一系列基于本体的信息检索模型及原型系统。当前基于 o n t o l o g y 的语义检索系统已经得到了广泛的关注和应用,出现了一系列优秀的应 用系统,其中典型的是s w o o g l e - - 语义网中的基于蜘蛛网的检索系统,系统从 每个搜索到的文本中抽取本体,根据本体之间的相关度来比较文本之间的关系。 第一苹锗i 仑 在语义网中,基于o n t o l o g y 的语义检索搜索引擎有s h o e 、o n t o b r o k e r 、o n t o s e e k 、w e b k b 、c o r e s e 。n g u a r i n o 等人通过建立一个基于w o r d n e t 的o n t o l o g y , 解决了从黄页和产品目录中进行信息检索的问题,但是黄页与产品目录信息、一 般来说都具有一定的结构,因此采用的技术不能够很好的应用于自然语言文本的 检索。国防科大的徐振宁等提出并实现了一个以特定领域的本体作为统一语义模 型的关系数据库网上发布与集成系统d i d s b s ,该系统从领域本体出发,提出并 实现了形式化本体和d t d ( d o c u m e n tt y p ed e f i n i t i o n ) ,d t d 和关系视图的转换算 法并实现了x m l 文档和数据库视图在语义和结构上的对应关系。潘字斌等主要 研究通用o n t o l o g y 在信息检索及自然语言理解中的应用,但是要建立一个能够 涵盖所有领域知识的通用o n t o l o g y 是很困难甚至是不可能的,因此比较现实的方 法是建立某个领域的o n t o l o g y ,利用它去解决该领域的特定的信息检索问题。 由哈尔滨工业大学自然语占实验室研究开发的面向旅游、体育领域的i n s u m q a 系 统,该系统通过建立领域本体并结合自然语占处理技术,在保证实时的情况下, 检索的精度比较理想。南京理工大学的丁晟春等从语义检索和概念空亩j 的内涵入 手,分析了现有的两种概念空间形式,重点分析了基于o n t o l o g y 的概念空问的 构建方法、描述语言及其编辑工具p r o t 铅6 。在此基础上,分析了基于o n t o l o g y 的 语义检索系统的构建步骤及其关键技术,最后利用p r o t 6 9 6 实现了简单的语义检 索。 目前,文本信息检索模型从原理上讲,主要分为两种模型,即基于统计的信 息检索模型和基于本体的信息检索模型,主要存在以下两点的问题: ( 1 ) 向量空间模型采用关键词或改进的关键词匹配的方法,将文本信息作 为孤立词或词组,完全忽略了文本的语义信息以及词与词之间的逻辑关系,因此 查准率和查全率都比较低。 ( 2 ) 基于本体的信息检索模型突破了关键字的障碍,在一定程度上解决了 搜索引擎语义理解的问题,但是这种方法也不能完全替代传统的基于数理统计的 方法( 基于向量空自j 的信息检索模型和基于超链接的信息检索模型) ,原因在于: 传统的信息检索模型已经得到了广泛的应用,并取得了有目共睹的效果,并 且已经深入人心;基于本体的信息检索模型主要是利用专家构建的领域本体 对用户查询条件与数据全集之问的相似度,因此忽略了本体特征词在数据全集中 曲南,、颀十e ,伊 芝 的统计特性;研究者发现通过综合技术较单的技术在文本信息的查准率和 查伞率方面都要好一些”。 1 3 论文研究的内容及其所做的工作 本文首先阐述了传统的文本信息检索模型的原理和相关算法,然后通过对比 分析指出了各种信息检索模型所存在的不足之处,最后针对这些信息检索模型的 优缺点,提出了一种混合的文本信息检索模型( h y b r i di n f o r m a t i o nr e t r i e v a l m o d e l ,后面的章节简称:h i r m ) 。研究内容和工作主要包括以下几点: ( 1 ) 对传统的两种信息检索模型( 基于统计的信息检索模型和基于本体的 信息检索模型) 的原理进行的分析和阐述: ( 2 ) 针对领域本体的特性,提出了一种改进的基于领域本体的概念相似度 计算模型( d o m a i no n t o l o g y - b a s e di m p r o v e ds e m a n t i cs i m i l a r i t y c o m p m i n g m o d e l ,后面的章节简称:d o bi s s m ) ,该模型能够比较准确地反映概念之间的 语义关系,为概念之间的语义关系提供了一种有效的度量; ( 3 ) 通过对传统的两种信息检索模型进行分析比较,得知基于统计的信息 检索模型强调了关键字之间的统计信息而忽略了其语义信息,基于本体的信息检 索模型强调了关键字之间的语义信息而忽略了其统计信息,因此结合两种信息检 索模型各自的优点,提出了一种混合的信息检索模型: ( 4 ) 提出了一种基于混合信息检索模型系统的体系结构,并对其中的主要 模块的原理和功能以及模块所采用的算法进行了分析和阐述: ( 5 ) 指出了本文提出的混合信息检索模型的不足之处,并提出了今后的改 进思路。 1 4 论文的意义和创新 论文研究文本信息检索模型,主要意义在于将传统的信息检索模型的优点进 行整合,提高了目前信息检索系统的查准率和查全率。本文在研究文本信息检索 模型中,主要的创新有以下几点: ( 1 ) 通过研究传统的基于本体的概念相似度计算方法的优缺点,提出了一 种“基于领域本体的语义相似度计锋模型”; ( 2 ) 通过对基于统计的信息检索模型和基于本体的信息检索模型进行分析 第一章绪论 比较,提出一种混合的信息检索模型: ( 3 ) 构建了基于混合信息检索模型系统的体系结构,并对其中重要的功能 模块的原理和算法进行了阐述。 1 5 论文的结构 在余下的章节中,第二章是介绍传统的信息检索模型,第三章是基于本体的 概念语义相似度计算的改进模型,第四章是基fh i r m 的信息检索系统的体系 结构,第五章是网页特征词的提取及分词模块,第六章是语义扩展模块,第七章 是原型系统的实验,第八章是总结与展望,最后是论文的参考文献。 阿南人硕i p 伊论文 第二章传统的信息检索模型 对于传统的信息检索技术与方法可以卡h 略的划分为两大类:基于统计的方法 和基于语义的方法。基于统计的方法主要根据用户查询条件与数据全集中数据的 统计量度计算相关性。基于语义的方法对用户查询条件和数据全集中的数据进行 一定程度的语法及语义分析,即是在对用户查询条件和数据全集内容浅层理解的 基础上进行两者的相关性计算。 2 1 基于统计的信息检索模型 2 1 1 布尔模型 传统布尔模型是一种简单的检索模型,它建立在经典的集合论和布尔代 数的基础上。在布尔模型中,文档索引词的权重只有0 和l 两种,分别表示 文档中不包含该索引词和包含该索引词:用户查询条件是由标准逻辑操作符 a n d 、o r 和n o t 将索引词连接起来构成布尔表达式。 用户查询与文档的相关度的计算方法是:对用户查询条件的每个索引词 o t :构造一个文档集合哦,使得该集合内的每一个文档都包含索引词k ,: b 2 科h 一,将用户查询条件中的布尔表达式中的操作符a n d 、o r 和n o t 替换为集合运算符n 、u 和一,于是用户查询条件中的布尔表达式转换为集 合之间的操作。信息检索的返回结果是一个集合,在集合中的文档是相关文 档,否则为非相关文档。例如:设关键词全集:焉,岛,岛,毛,与,屯,岛,毛,数据全集 中的文档为d id 2d ,仇,其中:日:传,岛,岛 ,b :砖,岛,与,毛 ,b :溉,版,吃,蛐, 日= 碱,岛,岛,岛 ,b = 线,岛,心,岛,岛) 皿= 讹,岛,岛,屯 。假如用户输入的查询条件为: 置一也删双岛) ) ,则用户的查询结果为: q 皿皿岛h n b 毋忍 。( q 四艘b 彤。 布尔模型的最大优点是机制简单,检索效率很高,因此在早期的商用信 息检索系统中得到了普遍的应用。但是由于它的分类能力有限,仅能够将文 档划分为相关和不相关两大类,而不能给出相关性大小的数值,因此经常会 出现高相关度的文档排序靠后的现象。为了克服传统布尔模型的不足之处, 信息检索专家g s a l t o n 及其博士生e a f o x 、w uh a r r y 等人在上述问题上进 第章传统的信息枪索榄叩 行了深入研究,并提出了一种基于布尔逻辑框架的混合布尔、向硅特性的检 索模型,即扩展佰尔模型。 2 1 2 概率模型 在概率模型中,文档和用户查询条件表示为索引词集合的形式,概率模璎通 常采用索引词在文档中的统计分布等参量,计算任意文档d 与给定用户查询条件 a 相关的概率p ( q l 们。 贝叶斯推理网络模型是一种典型的信息检索概率模型,该推理网络模型提供 了一种将不同来源的证据结合起来,以确定给定文档满足用户查询条件或者信息 需求概率要求的自然方法。 贝叶斯网络足一个描述随机变量之间因果关系的有向无环图。在贝叶斯网络 中,节点表示随即变量,一条从父节点y 到子节点x 的边表示两个随机变量的 依赖关系,在贝叶斯网络中的任一节点x 都附加了一系列条件概率 尸( x 陬,l ) ,该条件概率表示子节点与父节点k ,k 依赖关系的强度, 在贝叶斯网络中,一个节点仅条件依赖于它的父节点。 在将贝叶斯网络应用于信息检索系统中,节点是每个索引词,数据全集中 的文档嘭和用户查询条件q 。边有两种类型:一类是从文档t 指向索引词t , 表示索引词毛出现在文档d ,中;另一类是从毛指向用户查询条件q ,表示索引词 七一出现在查询条件q 中。这样整个贝叶斯网络也划分为3 个基本层次:文档层次、 索引层次和用户查询层次,于是,计算用户查询条件与文档的相关度这一问题转 换为由贝叶斯网络计算用户查询条件与文档的联合概率问题,如图2 1 所示: 图2 1 信息检索中的贝叶斯网络模型 文档层次 一索剖层次 用户查询层次 两南人产硕 。中伊论文 可以得出: p ( q ,dj ) = p “q d ,) l k ,k 、 p ( k ,k 、) = p q ,d ,k ,i 、) l 、 = p i g i d ,k l ,k ) p i d ,t l , _ = p i qj d ,k ,k ) p ( t t 。k i d ,) p ( d ,) 义由索引侧的独立假i 殳 p ( k ,t i d ,) = 丌p ( k ,阶1 - i ( 1 一p ( k ,) | 土,= io = 0 于是有: p ( g ,d ,) - p g p ,一k ,k 。) p ( d ,) 兀j d t ,p ,) 兀( 1 一p ( k ,i d 川 oi o ”io l - o 因此,为计算p ( g ,d ,) ,必须已知先验概率p ( d ,) 、条件概率p ( ,i d ,) 和后验 概率p ( g k ,“) 。其中先验概率p ( d j 为文档的概率,p ( t p ,) 是索引词t 与文 f 当d j 相关的概率,p ( q l k ,k ) 是索引词岛,k m 与用户查询条件相关的概率。 对于p ( d j ) 的计算方法如下: ( 1 ) 均匀分布法: 尸( d ,) = 兑中n 为数据全集中文档的总数。 ( 2 ) 正规化法: 。,2 霸1 其中,阿f 为文档向量乃的长度。 对于p ( t i d ,的计算方法如下: ( 1 ) 二值法: 叫= 犯如果刺恫篙产帅一中岍 ( 2 ) 权重法: “叫i 户i 对于p ( g k ,“) 的计算方法如下: ( 1 ) 二值法: 呻,= 似如果刺恫k “毫警存查询条铀蛐现 ( 2 ) 权重法: 第幸传统的信息检索模即 p t 。旧,t 。,2 基于1 d :的函数 概率模掣的优点是:文档可以按照它们的相关概率递减的顺序计算秩;缺点 是:开始时需要猜想把文档分为相关和不相关的两个集合,实际上这种模型没有 考虑索引术语在文档中的频率,而索引术语都是相互独立的。 2 1 3 向量空间模型 基于统计的信息检索模型主要包括:布尔模型、扩展布尔模型、贝叶斯模型、 向量空问模型,以向量空间模型为典型代表,并已经广泛应用于当今的搜索引擎。 向量空间模型的基本思想是:把文档d j 表示成n 维向量:= ( ,w n ,) , 同样用户的查询条件q 也可以表示成n 维向量:q 2 w l w 2 一”一) ,利用相应 的相似度计算公式就可以得出查询条件q 与数据全集中某一文档d j 的相似度 s i m i l a r i t y ( q ,d j ) 。因此,向量空间模型包括两种关键算法:索引诃权重的计算和 相似度计算。 1 索引词权重的计算 计算索引词权重经典的算法是“词频与倒文档频度”( t p i d f 方法,该方 法将一个索引词在单个文档的重要性和在整个数据全集中的重要性相结合,从而 形成一个统一的量度。 一个索引词在文档中出现的频度是该词在该文档中重要性的标志之一,这样 一个简单确定索引词权重的方法就是用该词在文档中出现的频度来标志权重: m ,t 珥:慨,( 慨。表示索引词屯在文档d ,中出现的频度) ,这个公式反映了一 个索引词在特定文档中的局部统计特征。然而仍然不够完善,主要表现在索引词 在单一文档中的频度不能够完整地表示该索引词的重要性。从整体的角度看,如 果一个索引词在某一篇文档中出现的频度越高,那么该索引词对表示某个特定文 档的内容以及对于用户查询区分相关文档和不相关文档的重要性就不会很大。反 之,如果一个索引词在整个数据集中出现的频度较低,则它应该是反映包含该词 文档内容的重要词汇。即一个索引词的权重与该词所在文档的总数成反比关系: 曲南人学硕十中伊论文 w * i d f 。= l o g ( 暑) ( 2 - 1 ) 其中: n 为数据全集中文档的总数,n ;为包含索引词k i 的文档总数。 公式( 2 一lj 反映了索引词在整个数据全集中重要性的全局统计特征。 因此,一个索引词k i 在文档d j 中的权重w f ,计算公式: = t f , j w f , = m 。i o g ( ( 2 - 2 ) 公式( 2 2 ) 说明一个在单个文档中的频度很高,而在整个数掘全集中频度很低 的词更为重要。 但是这一量度仍有不足之处,主要表现在它没有考虑文档中索引词的总数, 为了反映文档中索引词总数对权重的影响,以珥,d e 量度为基础,许多学者 对这一量度进行“正规化”( n o r m a l i z a t i o n ) : ( 1 ) 最大正规化法 针对t f 的改进主要是将词频进行正规化处理,将它映射为一个在区间 o ,l 】 中的量。改进方法之一是将词频除以某个与包含该词文档的索引词总数相关的因 子,如文档中词的总数或者文档中具有最大频度的词的频度等,即: 矾广面f 丽r e q j 哦,i d f = l o g ( n 。,) ( 2 ) 对数词频法 对数词频法不使用文本长度或者最大词频这些正规化因子,而是通过对数函 数降低了词频对t f 取值的影响,从而减少了文档中少数高频词对权重的影响, 降低了低频词权重的取值,而且减轻了文档长度变化对这一取值的变化影响,即: 珥,j = l o g ( f r e q ,) + 1 2 相似度计算 当用户查询条件和数据全集中的文档按照公式( 2 2 ) 进行量化后,就可以计算 第:苹传统的信屈”索模p 它们之日j 的相似度。相似度足用户查询条件与文档相关惟的量度,令d 表示文档 向置,q 表示用户查询条件向量,s i m a r i l a t y ( d ,g ) 取值通常需要满足一下条件: 非负性:s i m a r i l a t y ( d ,g ) 0 ; 对称性:s i m a r i l a t y ( d ,g ) e s i m a r i l a t y ( q ,d ) ; s i m a r i l a t y ( d ,g ) 的取值范围通常是经正规化处理后存区f , j o ,1 】上的任意一个 值: 若s i m n r i l a t y ( d ,口) = 0 ,则表示文档d 与用户查询条件q 完全不相关; 若s i m n r i l a t y ( d ,口) = 1 ,当且仅当文档d 与用户查询条件q 完全相同; s i m a r i l a t y ( d ,q ) 值越大,表示文档d 与用户查询条件q 相关性越大。 传统的向量相关度算法主要有:街区距离、欧式距离、余弦相似度等方法, 其中余弦相似度方法和基于距离方法是典型代表。 ( 1 ) 余弦相似度方法 用户查询条件q 可以表示为n 维向量q = ( 叫m ) ,其每一维的权值 为( 1 f j ) ,数据全集中某一文档d j 可以表示为n 维向量哆= ( w l j ,屹) , 每一维的权值为o g 肋,一个简单的相似度计算方法是直接计算这两个n 维 向量的内积,即公式( 2 3 ) 所示: j i m i l a r i t y ( g 。d ) :壹w i w j ,( 2 3 ) 特别地,当这两个n 维向量都经过了余弦正规化处理后,它们的内积恰好是两 个向量夹角的余弦,即余弦相似度计算模型如公式( 2 - 4 ) : 。,、 善”u ( 2 - 4 ) ism i l a r i t y ( q ,d ) = - 尹皇_ 了尹一 、善2 。、善( w “) 2 ( 2 ) 基于距离方法 与余弦相似度方法相似,数据全集中某一文档d j 和用户查询条件q 都表示 为相应的向量形式,这样可得: 砌妇n o , ( q , d 卜百嘉而 三,( g ,d ) = 【l q ,一d ,1 9 】” 阳南夫硕卜7 伊论文 当p = l 时,这一量度称为街区距离( c i t y b l o c k d i s t a n c e ) : 当p = 2 时,这一量度称为欧氏距离( e u c l i d e a nd i s t a n c e ) : 当p = 时,这一量度称为最大方向距离( m a x i m a ld i r e c t i o nd i s t a n c e ) 2 2 基于超链接的信息检索模型 链接分析排序的思想起源于文献引文机制,即一篇

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论