已阅读5页,还剩122页未读, 继续免费阅读
(计算机软件与理论专业论文)面向信息检索的文本内容分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
面向信息检索的文本内容分析 摘要 信息检索是信息服务中很重要的研究课题,它是现今人们面对信息 “爆炸”时迫切需要的应对措施。研究自动有效的信息组织以及信息搜 索方法,对使用大量甚至海量信息具有极为重要的理论意义和实用价 值。信息检索包括检索模型、信息处理和应用等研究领域,本文分别在 其中的检索模型和信息处理技术的若干问题上提出了一些解决方案,处 理的对象是自然语言文本:首先研究了基于递归概念图的检索模型;之 后为了实现这个检索策略,探讨了从机器可读词典中获取概念结构以及 从自由文本中构建概念间语义关系的方法;最后,从文本聚类和文本情 感分析的角度进行了文本信息处理的研究。 具体来讲,本文对文本信息检索的贡献主要体现在以下几个方面: ( 1 ) 提出了一种基于概念( 属性名,属性值) 结构的递归概念图来描 述特定领域文本内容的语义,用以标引文档以及用户需求。这种表示方 式通过语义上的概念分析,以递归形式的概念图嵌套,对应于句法上的 组合。这种结构上的对应,期望实现从句法范畴到语义范畴的映射,使 得语义分析与语法分析同步。基于这种递归概念图的表示方法,本文标 引了一定数量的网页文本标题和用户需求,并提出了在这种递归概念图 上的文本语义相关度的计算方法,以解决检索模型中相关性问题o ( 2 ) 讨论了以概念图标引为目的的概念( 属性名,属性值) 结构的自 动获取。通过对以往获取词语( 概念) 知识研究的比较,可以看到词典 是获取概念知识,尤其是概念内涵特征的有利资源。本文研究了属性值 抽取模板的建立和模板适用性消歧等问题,提出了一种自动获取名词概 念常用的五种属性值以及特定种类概念的部分属性值的方法。这种策略 和传统提取词典信息主要依靠句法分析的方法不同,从而避开了汉语句 法分析的难题。 ( 3 ) 就递归概念图的检索模型,提出了一种从网页文本语料中自动 获取模板的b o o t s t r a p p i n g 策略,这种模板用于概念关系的识别:由用户 提供若干初始种子启动训练,不断迭代生成新的模板和概念对。和以往 应用b o o t s t r a p p i n g 挖掘关系模板的方法不同,本文引人生物信息计算中 上海交通大学博士学位论文 两序列比对的方法生成相似上下文的候选模板,使得单个模板的可理解 性以及模板集的覆盖能力都得到了提高;定义了新的模板评价机制计算 模板的置信度,提高了下一轮迭代抽取的质量。就“( 地理) 领属”、 “( 实体) 功能”和“( 动作) 对象”概念关系的识别而言,本文的方 法相比以往的系统,获得的模板集合识别正确率和覆盖率都更高。 ( 4 ) 提出了一种以线性插植方式结合余弦测度和量化概念关系的,应 用于文本聚类的文本相似度计算方法。通过假设词典词条和它的释义在 语义上等价来量化其概念关系,并作为文本聚类的词语知识。就优化聚 类的硬准则函数和软准则函数而言,本文定义的这种文本相似度在k 均 值聚类算法下能明显提高聚类系统的性能。实验结果说明从非结构化词 典中合理量化的词语概念关系,对文本聚类研究具有较高的价值o ( 5 ) 提出了一种应用于文本情感分析的基于语言建模的生成模型。把 文本的感情倾向标定为“喜欢”或“不喜欢”,在文本检索时能提供细 致的语义信息。本文分别在文本全局和局部的情感分析上引入了语言建 模的方法。在全文语言建模中,基于相对熵构造语言模型的距离。而在 局部语言建模中,则定义了一种触发式的语言模型来描述领域术语与其 上下文中普通词语之间的依存连接。语言建模的方法表现出了较好的情 感分析性能,为将来探索更加适用于情感分析的语言模型提供了依据。 关键词:检索模型,词典提取,关系构建,文本聚类,情感分析 in f o r m a t i o nr e t r i e v a lo r i e n t e da n a l y s i so ft e x tc o n t e n t a bs t r a c t i n f o r m a t i o nr e t r i e v a li st h ei m p o r t a n ta n dk e yp r o b l e mi ni n f o r m a t i o ns e r v i c e i ti s t h em e 硒u r ef o rp e o p l ew h e nf a c i n gt h e ”i n f o r m a t i o ne x p l o s i o n ”t h er e s e a r c ho nh o wt o a u t o m a t i c a l l ya n de f f e c t i v e l yo r g a n i z ei n f o r m a t i o na n ds e a r c hi n f o r m a t i o nh a sv e r yh i g h v a l u e so ft h e o r ya n dp r a c t i c ef o ru s i n gl a r g es c a l eo fi n f o r m a t i o n t h er e t r i e v a lr e s e a r c h i n c l u d e sr e t r i e v a lm o d e l ,i n f o r m a t i o np r o c e s s i n ga n di t sa p p l i c a t i o n s t h i st h e s i sp r e s e n t s e v e r a lm e t h o d sf o rt h e s ep r o b l e m s ,r e s p e c t i v e l y , a n dt h eo b j e c tp r o c e s s e di nt h e s es t u d i e s i st e x td a t a f i r s t , ar e c u r s i v ec o n c e p t u a lg r a p hb a s e dr e t r i e v a lm o d e li sp r e s e n t e di nt h i s t h e s i s s e c o n d ,a na p p r o a c ht oe x t r a c t i n gt h ec o n c e p t u a l ( a t t r i b u t e ,v a l u e ) s t r u c t u r eo r i e n t e d k n o w l e d g ef r o mam a c h i n er e a d a b l ed i c t i o n a r yi se x p l o r e d ,a n dam e t h o df o ra u t o m a t i c a l l y c o n s t r u c t i n gt h er e l a t i o n sl a b e l e db ya t t r i b u t en a m e sb e t w e e nc o n c e p t si nu n s t r u c t u r e dt e x t s i sp r o p o s e d a tl a s t ,t h i st h e s i se x p l o r e st h et e x tc l u s t e r i n ga n ds e n t i m e n ta n a l y s i sf o rt e x t i n f o r m a t i o np r o c e s s i n g c o n c r e t e l yt os a y , t h i st h e s i sm a k e st h ec o n t r i b u t i o n si nb e l o wf o ri n f o r m a t i o nr e t r i e v a l : ( 1 ) ar e c u r s i v ec o n c e p t u a lg r a p hf o r m a l i s mi sp r e s e n t e dt od e s c r i b et h em e a n i n go f d o c u m e n tc o n t e n t sa n du s e r s q u e r i e si nas p e c i f i e dd o m a i n t h i sf o r m a l i s mi sd e f i n e db a s e d o nt h e ( a t t r i b u t e ,v a l u e ) s t r u c t u r e i te x p e c t su s i n gn e s t e dc o n c e p t u a lg r a p h sc o r r e s p o n d i n g t ot h ec o m b i n a t i o no fs y n t a c t i cp a r t st oi m p l e m e n tt h em a p p i n gf r o ms y n t a c t i cs t r u c t u r e t os e m a n t i cs t r u c t u r e t h i sk i n do fp a r a l l e l i s mc o u l dm a k et h es y n c h r o n i z a t i o nb e t w e e n s e m a n t i ca n a l y s i sa n ds y n t a c t i ca n a l y s i si nf u t u r e b a s e do nt h i sr e c u r s i v es t y l e ,t h i st h e s i s i n d e x e ss o m ed o c u m e n t sa n dq u e r i e s ,a n dp r o p o s e san e wc o m p a r i s o na l g o r i t h mb e t w e e n g r a p h st oa d d r e s st h er e l a t i v i t yi s s u e ( 2 ) ac h i n e s em a c h i n e - r e a d a b l ed i c t i o n a r yi se x p l o i t e dt oe x t r a c tt h ec o n c e p t u a lk n o w l - e d g e ,i e t h e ( a t t r i b u t e ,v a l u e ) s t r u c t u r ef r o mt h ec o r r e s p o n d i n gd e f i n i t i o n so fn o m i n a le n - t r i e s b yc o m p a r i n gt h ep r e v i o u sw o r ko fa c q u i r i n gw o r dk n o w l e d g ef r o mf r e et e x t sa n d d i c t i o n a r i e s ,i tf i n d st h a tad i c t i o n a r yi sa na d v a n t a g e dr e s o u r c ef o re x t r a c t i n gd i s c r i m i n a t i v e k n o w l e d g eo fc o n c e p t s o u rm e t h o df o c u s e so nc o n s t r u c t i n gt h ea t t r i b u t e - v a l u ee x t r a c t i n g p a t t e r n sa n dt h es t a t i s t i c a ld e c i s i o nf o ra p p l y i n gt h e s ep a t t e r n s t h e r e f o r et h ew o r ki sd e s i g n e dt ob ean e wt h r e e - s t e pp r o c e d u r et h a ti sd i f f e r e n tf r o mp r e v i o u sd i c t i o n a r ye x t r a c t i n g s t u d i e sw h i c hp a r s et h ed e f i n i t i o n sf i r s t 上海交通大学博士学位论文 ( 3 ) t os e r v et h ec o n c e p t u a lg r a p hb a s e dr e t r i e v a l ,ab o o t s t r a p p i n gm e t h o df o ra u t o m a t - i c a l l ye x t r a c t i n gs e m a n t i cp a t t e r n sf r o mal a r g e - s c a l ec o r p u st oi d e n t i f yt h r e er e l a t i o n sb e - t w e e nc h i n e s ec o n c e p t si nc o n t e x t si se x p l o r e di nt h i st h e s i s o u rc o n t r i b u t i o n sd i f f e r e n t f r o mo t h e rb o o t s t r a p p i n gm e t h o d sl i ei ni n t r o d u c i n gab i s e q u e n c ea l i g n m e n t a l g o r i t h mf r o m b i o i n f o r m a t i c st og e n e r a t ec a n d i d a t ep a t t e r n s ,a n dg i v i n gan e we v a l u a t i n gm e t r i cf o rp a t t e r n s c o n f i d e n c et oe n h a n c et h e i re x t r a c t i n gq u a l i t i e si nn e x ti t e r a t i o n i nt e r m so f a u t o m a t i c r e c o g n i t i o no ft h e s et h r e er e l a t i o n s ,t h ee x p e r i m e n t ss h o wt h a tt h ep a t t e r ns e tg e n e r a t e db y o u rm e t h o da c h i e v e sh i g h e rc o v e r a g ea n dp r e c i s i o nt h a nd i p r ed o e s 。 ( 4 ) i nt h i st h e s i s ,an e ws i m i l a r i t yo ft e x to nt h eb a s i so f c o m b i n i n gc o s i n em e a s u r ew i t h t h eq u a n t i f i e dc o n c e p t u a lr e l a t i o n sb yl i n e a ri n t e r p o l a t i o nf o rt e x tc l u s t e r i n gi sp r e s e n t e d t h e s er e l a t i o n sd e r i v ef r o mt h ee n t r i e sa n dt h ew o r d si nt h e i rd e f i n i t i o n si nad i c t i o n a r y , w h i c ha r eq u a n t i f i e du n d e rt h ea s s u m p t i o nt h a tae n t r i e sa n di t sd e f i n i t i o na r ee q u i v a l e n ti n m e a n i n g t h i sk i n do fr e l a t i o n si sr e g a r d e da s k n o w l e d g e ”f o rt e x tc l u s t e r i n g u n d e rt h e f r a m e w o r ko fk - m e a n sa l g o r i t h m ,t h en e wi n t e r p o l a t e ds i m i l a r i t yi m p r o v e st h ep e r f o r m a n c e o fc l u s t e r i n gs y s t e ms i g n i f i c a n t l yi nt e r m so fo p t i m i z i n gh a r da n ds o f tc r i t e r i o nf u n c t i o n s t h er e s u l t ss h o wt h a ti n t r o d u c i n gt h ec o n c e p t u a lr e l a t i o n sf r o mt h ea n - s t r u c t u r e dd i c t i o n a r y i n t ot h es i m i l a r i t ym e a s u r ec o u l dp r o v i d ec o n t r i b u t i o n sf o rt e x tc l u s t e r i n g ( 5 ) t h i st h e s i sp r e s e n t sag e n e r a t i v em o d e lb a s e do nt h el a n g u a g em o d e l i n ga p p r o a c hf o r s e n t i m e n ta n a l y s i s b yc h a r a c t e r i z i n gt h es e m a n t i co r i e n t a t i o no fd o c u m e n t sa s f a v o r a b l e o r u n f a v o r a b l e ”,t h i sm e t h o dc a p t u r e st h es u b t l ei n f o r m a t i o nn e e d e di nt e x tr e t r i e v a l i n o r d e rt oc o n d u c tt h i sr e s e a r c h ,t h i st h e s i se x p l o r e st h eg l o b a la n dl o c a ll a n g u a g em o d e l i n g a p p r o a c h e s ,r e s p e c t i v e l y i tu s e sk u l l b a c k - l e i b l e rd i v e r g e n c eb e t w e e n t h el a n g u a g em o d e l e s t i m a t e df r o mt e s td o c u m e n ta n dt h et w ot r a i n e ds e n t i m e n tm o d e l sf o rg l o b a ll a n g u a g e m o d e l i n g ,a n du s e st h ed e p e n d e n tl i n k a g e sb e t w e e nad o m a i n t e r m a n do t h e ro r d i n a r y w o r d si nt h ec o n t e x t sb ye x p l o i t i n gat r i g g e r e dl a n g u a g em o d e lf o rt h el o c a la n a l y s i s t h e b e t t e rr e s u l t sm o t i v a t eu st oc o n s i d e rf i n d i n gm o r es u i t a b l el a n g u a g em o d e l sf o rs e n t i m e n t d e t e c t i o ni nf u t u r er e s e a r c h k e yw o r d s :r e t r i e v a lm o d e l ,d i c t i o n a r ye x t r a c t i o n ,c o n c e p t u a lr e l a t i o nc o n s t r u c t i o n , t e x tc l u s t e r i n g ,s e n t i m e n ta n a l y s i s l v 上海交通大学学位论文版权使用授权书 本学位论文作者完全了解上海交通大学有关保留,使用学位论文的规定,同意 学校保留并向嗣家有关部门或机构送交论文的复印f l :和电予版,允许论义被查阅和 借阅。本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库 进行检索,可以采j 材影印、缩印或扫描等复制手段保存和汇编本学位沦文。 ( 保密的论文在解密后应遵守此规定) 学位论文作者签名:煳 日期: 埤年且月卫l := | 指导教癖签名丝墅缓一 日期:靴月华i 目 , 上海交通大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工 作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何他个人或集体 已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在 文中以明确方式标明。本文完全意识到本声明的法律结果由本人承担。 学位论文作者签名:搠盟 e l 期:盘季- 年l 月垃日 1 1 信息检索的基本概念 第一章绪论 人类社会的不断发展使得可使用的信息资源急剧增长,因此从中寻找有用信息 的实践活动,即信息检索( i n f o r m a t i o n r e t r i e v a l ,简称i r l 由来已久。它作为一个比较 规范的用语,最早由美国学者c m o o e r s 在1 9 4 9 年提出并使用【l 】,最初还仅限于学术 界的讨论。但随着图书馆尤其是互联网的普遍使用, “信息检索”这一学术名词逐 渐流行起来,并被越来越多的社会成员了解和应用。 所谓“信息检索”,广义上是指“信息存储与检索( i n f o r m a t i o ns t o r a g ea n dr e t r i e v a l ) ”,它将信息按照一定的方式组织和存储起来,并根据用户的需要找出其中 的相关信息。因此,从本质上讲信息检索是一种有目的性和组织性的信息存取活 动,其中包括了存”和诹”两个基本环节。对于崤! ”而言,主要指对来自各种渠道的 大量或海量信息高度组织化的存储;对于“取”而言,则要求在面对随机出现的各 种用户信息需求时,进行的选择性查找,尤其强调查找的快速性与准确性。这里, 具体的存储载体可以是书本、磁带、磁盘、光盘等;存储的内容可以是文献的书目 信息、文摘或全文,也可以是图像、音频或视频等数字化信息;丽具体的查找对象 因存储信息类型的不同而不同,较为常见的有文献的作者、题名、主题或分类号 码,图像颜色、物体形状、音乐的节奏或旋律等等。其中文本检索是信息检索领域 中占据重要地位的研究方向,并处于不断的发展之中:从早期的结构化书目信息检 索到当前的无结构或半结构化的自由文本检索;从关键词检索到概念的语义检索。 本文讨论的信息检索指的是文本信息检索。 作为一种有目的和组织化的信息存取活动,信息检索中的“存”与“取”之间存在 着密不可分的关系。首先,两者是相互依存的:不存储就无法检索,不检索存储将 失去意义;其次,两者又是互相矛盾和制约的:从存储的角度看,越简单越好,但 过于简单的存储,势必影响到检索的质量与效率,即有效的检索需要以增加存储代 价作为前提。在实际开发与设计检索系统时,信息检索“存”与“取”的这种相互制约 的关系需要达到某种合理的平衡。 1 2 信息检索的基本原理 在现实生活中用户的信息需求千差万别,获取信息的方式与途径也各式各 样,但如果分析不同的检索处理过程,其基本原理却是相同的。可以把信息检索的 基本原理抽象概括为:对信息集合与需求集合的组织、匹配与选择( 见图1 1 ) 2 】。 为了更清楚地阐述图1 1 对信息检索基本原理的描述,对图中的各个部分进一步 加以说明。 ( 1 ) 信息集合 i 上海交通大学博士学位论文 图1 1 信息检索的基本原理图 f i g 1 1f u n d a m e n t a lg r a p ho fi n f o r m a t i o nr e t r i e v a l 信息集合是指经采集、加工的信息集合体。现实世界中已产生和积累的信息资 源数量非常庞大,通常需要结合特定的目的和用途,或者面对特定的用户群体,对 原始的信息资源进行有选择地采集,组织和存储,形成可供用户访问与检索的信息 集合中的信息。对信息的加工,为的是有效的表达信息本身,方便计算机使用,是 信息集合组织和存储时需要考虑的问题。 在某种意义上说,信息集合是一种共享的知识结构,它有可能弥补某个特定用 户的知识缺陷,即可以向用户提供所需要的知识或信息,或是获取知识的线索。 ( 2 ) 需求集合 用户的信息需求是在社会实践活动中产生的。当人们在执行某一任务或做某项 工作时,经常会觉得知识缺乏,这就产生了信息需求。由于工作领域和社会职能的 相似,总体上用户信息需求往往具有较为客观的一面,但由于各自的个性、能力、 文化程度、习惯等方面的差异,又使其信息需求受到个人主观性的影响。 众多用户不同形态的信息需求的汇集,就形成了需求集合。信息需求的产生与 满足,是实现信息检索行为的前提与基础,也是实施信息检索行为的目的所在。和 信息集合一样,需求也存在表示问题,要尽可能的表达真实的需求,又要便于计算 机处理。 ( 3 ) 选择与匹配 面对信息集合与需求集合,如何在两者之间建立联系,以便能从信息集合中快 速获取用户所需要的信息与知识,就要求信息检索提供一种“匹配”机制。这种机制 的主要功能在于:能够把需求集合与信息集合依据某种相关性标准进行比较与判 断,进而选择出符合用户需要的信息。这里,要求匹配机制至少包括两个要素:第 一是匹配标准,即相似性标准;第二是执行匹配的主体。 对于“匹配标准”来说,不同的信息类型,可以选择不同的匹配标准,而且在有 些情况下,匹配标准的选择还要依赖于需求的性质及系统的智能水平。例如,对 于文本信息而言,最主要、最有意义的匹配标准是“内容( c o n t e n t ) 或“主题”( t o p i c ) 标 准,此外,还有“结构”( s t r u c t u r e ) 标准等。 “执行匹配的主体”主要指匹配动作的执行者或实施者,在通常情况下,它可以 是机器,也可以是人,或者是两者同时作用,共同完成匹配操作。 一2 一 第一章绪论 为了保障信息检索的快速与高效,要求在检索匹配之前,分别对信息集合和需 求集合进行某种形式化的加工,形成它们的特征化表示。对于信息集合来说,就是 要对它们进行分析与标引,使每条信息都获得某种特征化表示,即让原来隐含的、 不易识别的特征显性化,并获得相应的标识( 如分类号、主题词等) 。正是这些被分 析、提取出来的特征及标识,成为组织和查找信息资源的依据和标准。 另一方面,对用户提出的信息需求也需要进行类似的加工处理,即分析需求的 内容,提取出主题概念或其他属性,并利用与信息集合相同的标识系统来表示需求 中所包含的概念和属性,从而构成用户需求的形式化表示。 这样,原先的信息需求与信息集合的匹配就简化为用户需求与有序的、经过特 征化表示的信息集合之间的匹配,即两组有限的符号化特征之间的匹配比较。这种 简化对于提高匹配和选择的效率来说非常必要,但同时它也带来了一些问题,很突 出的就是语义信息的缺失,从而导致的检索遗漏、检索错误等问题。如何减少乃至 避免这类问题,也就成了信息检索领域中一个备受关注的核心课题。 1 3 信息检索的研究方向 由于信息检索能服务大量的用户,并产生很好的社会、经济效益,所以引起了 世界各国计算机科学界和信息产业界普遍的高度关注。随着计算机技术和网络技术 的不断进步,面向文本检索的搜索技术也随之进人了新的发展阶段,无论是从检索 机制还是核心算法上都不断产生新的突破。关于信息检索的发展趋势,大致包括以 下几个方面: ( 1 ) 检索模型研究 信息检索的核心问题是检测哪些文献相关,哪些文献不相关,即判断一篇文献 是否符合用户的查询条件。为此,人们提出了一系列判定相关文档的方法,试图正 确解释信息的检索过程。不同的判定方法形成了不同的信息检索模型,而信息检索 系统所采用的信息检索模型又决定了系统的检索性能和检索效果。 ( 2 ) 信息处理技术研究 对文本信息的处理包括文本自动聚类( t e x tc l u s t e r i n g ) ,文本自动分类( t e x tc a r e - g o r i z a t i o n ) 、查询扩展( q u e r ye x p a n s i o n ) 等。文本聚类把无序的文本集合聚合成有一 定结构特征的划分,形成的聚合类往往具有一定的主题共性,这是一个无监督的过 程,不需要人工加入标记信息,就可以减少文本信息集合的信息量或熵。而文本自 动分类则是根据某种需求,需要人工给部分文本作一定的标记,然后通过学习机制 获得对新文本的分类能力,这同样也是一种文本信息组织的技术。查询扩展则描述 了通过信息需求来修正用户查询的一系列技术,从而更好地表达用户的需求。 ( 3 ) 应用研究 随着w e b 信息资源的迅速增加,如何在浩瀚的信息海洋中准确、方便、快速地 找到自己所需的信息,是个迫切需要解决的问题,1 9 9 5 年出现的网络搜索引擎很好 地解决了这个问题。作为文本信息检索最重要的应用,搜索引擎已成为一个新的研 一3 一 上海交通大学博士学位论文 究、开发领域。因为它需要应用信息检索、人工智能、计算机网络、分布式处理、 数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,所以具有 综合性和挑战性。它所提供的导航服务已成为i n t e m e t 中最重要的网络服务之一。目 前搜索引擎已成为网络检索系统的核心,围绕着搜索引擎的基本概念、分类、功能 以及实现等内容,已有了很多发展。 1 3 1 文本检索模型概述 2 0 世纪6 0 年代中期以来,人们提出了大量的信息检索模型。自最初为一些较小 和较为结构化文档( 如文献记录,包括题目、作者和主题词等) 所设计的特殊模型, 发展到现在具有较强理论基础和能处理多种文档格式的模型。当前的信息检索模型 能够处理具有复杂内部结构的文档,并且一般都具有学习和利用相关反馈进行查询 优化等功能,使得系统性能大大提高。 2 0 世纪7 0 年代,文本检索引入了布尔方法、向量空间模型、基于贝叶斯统计的 布尔方法和简单概率模型;2 0 世纪8 0 年代,在新的人工智能技术的发展同时,产生 了一些模拟专业文献搜集者和领域专家的专家系统,使用对用户建模以及自然语言 处理等技术来辅助用户和文档的表示,并且产生一些研究用的原型系统( 如潜在语义 索引模型) 。2 0 世纪9 0 年代,当研究者们认识到了创建领域知识库的困难之后,研究 者们试图采用新的机器学习技术用于信息分析,如神经网络、遗传算法、b a y e s 推理 网络等。2 0 世纪9 0 年代中期之后,随着搜索引擎的普及以及网络s p i d e r 、索引、超链 分析等技术的发展,文本检索已经成为更新、更强大的用于网络内容的搜索工具。 根据信息检索基本原理:用户通过一系列关键词来阐明自己的信息需求,信息 检索则检索与用户查询最为匹配( 接近) 的文献,同时借助某种相关性指标对检索出的 文献行排序。可以看出信息检索模型由以下几部分组成: ( 1 ) 用户的需求表示。包括用户查询信息的获取与表示。 ( 2 ) 文档的表示。即文档内容的识别和表示,包括结构、语义内容和上下文属 性。 ( 3 ) 匹配机制。包括用户的需求表示和文档的表示之间的查询机制、文档和用户 需求之间的相关性排序准则和函数表示,其中相关性排序准则是决定信息检索模型 的重要因素,它决定了信息检索系统的基本性能。 ( 4 ) 反馈修正。根据检索结果对查询表示进行扩充与优化,以提高系统性能。 1 3 2 经典的信息检索模型 经典的信息检索模型使用一组具有代表性的关键词( 索引术语) 来描述数据库 中的每一篇文档。术语是文档中的一些简单的单词,通过它们可以与数据库中的文 档相联系。一般说来,索引术语大部分是名词,冈为名词的语义很容易识别。而形 容词、副词和连接词经常以补语的形式出现,因此很少被用作索引术语。然而一些 系统也可能将文档中所有不同单词用作索引术语,如w e b 上的全文检索系统。 除了涉及文本的内容之外,检索模型还可以涉及文本的结构,即表示文本结构 的结构模型。主要有两种类型:非重叠链表模型和邻近节点模型。 一4 一 第一章绪论 图1 2 信息检索的基本模型 f i g 1 2b a s a lm o d e l so f i n f o r m a t i o nr e t r i e v a l 对这些检索模型可以用图1 2 来表示他们的层次结构 3 】。 在一组索引术语中,并不是所有的索引术语都能用来描述文档的内容。根 据术语的重要程度摘要出文档的内容是一个很好的方法。例如,假定存在一个 文档集合。有一个单词出现在每一篇文档中,显然把这个单词作为索引术语是 毫无用处的,因为它并不能确切的指明在集合中哪些文档是用户感兴趣的,因 此用来描述文档内容的索引术语必须是适当的。可以通过为每一篇文档中的索 引术语分配一个数组权重来解决这个问题。假设k ;表示一个索引术语,d ,表示一 篇文档,w i ,f 0 表示序偶对( ,出) 的权重。权重的量化对用来描述文档内容的 索引术语是非常重要的。假设t 是数据库中索引术语的数目,是一般的索引术 语。k = 七1 ,k 2 , 是所有的索引术语,w ,o 表示索引术语乜在文档d j 中的权 重。如果一个索引术语在一篇文档中的出现次数为零,则叫f f = 0 。文档d f 与一个索 引量d ;相对应,d ;= ( l 加w 2 ,w t ) 。进一步,定义函数返网索引术语在维, j g ik i t 空间向量中的权重( d fl = w i ,f ) 。索引术语的权重之间通常是相互独立的,这意 味着序偶对( ,d j ) 的权重w i , j 不能说明序偶对( k i + l ,如) 权重w i + l d 的任何信息,因为索 引术语在文档中的出现次数是相互无关的。 传统的文本信息检索模型主要有三种:布尔模型、向量空间模型和概率模型 ( 包括后来发展出来的语言模型) ,也称为经典信息检索模型。在布尔模型中,文 献和查询用标引词集合来表示,因此人们称该模型是集合论模型;在向量空间模型 中,文献和查询用多维空间的向量来表示,称为代数模型;在概率模型中,把检索 看做是文献表示和查询之间匹配程度的概率估计问题,称为概率模型。后两种模型 的许多性能优于布尔模型,但应用到商业系统上的时间却很短。随着信息检索技术 的发展,从这三类经典模型中派生了许多扩展模型。如从布尔模型中,衍生出了基 于集合论的扩展布尔模型和模糊集合模型;从向量模型中衍生出了基于代数理论的 广义向量模型、潜语义标引模型、神经网络模型;从概率模型衍生出了基于概率论 的推理网络模型、信任度网络模型,之后又发展出了一个相对独立的语言模型检索 策略【4 】。 一5 一 上海交通大学博士学位论文 尽管出现的检索模型很多,但通过对成熟检索模型的讨论,也可以了解信息检 索的大致思路。所以这里只简略的介绍一下经典的布尔模型、向量空间模型和概率 模型【5 】。 布尔模型 布尔( b o o l e a n ) 模型是基于集合论和布尔代数的一种简单检索模型。因为集合 的定义非常直观,所以布尔模型提供了一个信息检索系统用户容易掌握的框架。查 询串通常以语义精确的布尔表达式的方式输入,如口= k 1a ( k 2v1 如) 。 在某一篇文档中,布尔模型定义索引术语只有两种状态:出现或者不出现,这 样就导致了索引术语的权重都表现为二元性( 例如,w i f = 0 ,1 ) ) 。用户需求口是一个 传统的布尔表达式,假设q d n f 是口的分离形式,而是q d t 。,的任何一种分离形式,文 档与用户需求的相关性定义为: s t m ( 呜g ) = 1 磊蔫:窘硎 眠 历习2 历( 翻( 1 t ) 如果s i m ( d j ,口) = 1 ,b o o l e a n 模型表示文档d f 与用户需求相关,否则就表示与文 档以不相关。 一般来说,布尔模型存在以下不足: ( 1 ) 它的检索策略是基于二元判定( b i n a r yd e c i s i o nc r i t e r i o n ) ( 例如,对于检索 来说一篇文档只有相关和不相关两种状态) ,缺乏文档分级( r a n k ) 的概念,限制 了检索功能。 ( 2 ) 虽然布尔表达式具有精确的语义,但实际上大多数检索用户发现要把他们的 查询信息转换为布尔表达式并不那么容易。 由于上述缺陷,这种完全匹配方式常常会导致太多或者太少的结果文档被返 回。布尔模型的主要优点在于其具有清楚和简单的形式,所以布尔模型仍然是文档 数据库系统中的主要模型。进一步考虑到引人索引术语的权重能提高了检索系统的 功能,从而导致了对向量模型( v e c t o rm o d e l ) 的研究。 向量模型 s a l t o n 认识到布尔模型中二元权重的局限性,从而提出了一个适合部分匹配的向 量模型 6 】 7 】。它在查询和文档之间分配给索引术语非二元的权重,这些术语权重反 映了数据库中的每篇文档与用户递交的查询的相关度,并将查询返回的结果文档集 按照相关度的降序排列,所以向量模型得到的文梢是部分地匹配查询。向量模型的 优点在于返同的结果集要比布尔模型返回的结果集在“感觉”上更加符合检索用户 的需要。 一6 一 第一章绪论 假设序偶对( k i ,d j ) 的权重姚,j 是准确的,非二元的。更迸一步,在查询中的索 引术语也被赋予权重。假设w i , j 是序偶对( k i ,g ) 的权重,且w i d 0 。查询向量彳= ( w ,口,w 2 加w t ,。) ,t 表示数据库中索引术语的数目。和布尔模型中的一样,文档嘞 的向量也= ( w l , j ,w 2 , j ,w t , j ) 。 因此,文档画和用户需求q 1 ) a t 维向量的形式表示。该向量模型计算出文档如关 于查询q 的相关度,即向量d ;和才的相关性,这种相关性可以通过余弦( c o s i n e ) 法 则量化: c 0 8 池川卜赫2 矗黼t w ( 1 2 ) 其中l 巧i 和i 亏l 是文档和查询向量的范数( n o r m s ) 。元素l 刁i 并不影响返回的结 果文档集,因为它对数据库中所有的文档都是一样的。元素陌l 在文档空间中提供 标准化。因为w i d 0 ,w 钿0 ,所i ) 2 c o s ( q ,d j ) ( 0 ,1 ) 。这样该向量模型根据查询的 相关度来标记文档,因此即使有的文档只是部分匹配查询,由于它相对于查询具有 较高的相关度,也会被返回。为了计算文档的相关度,首先需要知道定义索引术语 权重的方法。索引术语的权重可以通过多种方法获得,这里不详细的进行讨论。 向量模型的优点在于【8 】: ( 1 ) 术语权重的算法提高了检索的性能; ( 2 ) 部分匹配的策略使得检索的结果文档集更接近用户的检索需求; ( 3 ) 根据相对查询串的相关度可对结果文档进行排序。 概率模型 这里仅简单介绍一下概率模型的基本理论 9 】 1 0 】。给定一个用户的查询,存在 一个包含所有相关文档的集合,这样的集合看作是一个理想的结果文档集,这样可 以把查询处理看作是对理想结果文档集特征的处理。问题是并不能确切地知道这些 属性,我们所知道的是用索引术语来表示这些文档特征,并且需要在初始阶段来估 计这些特征。这种初始阶段的估计允许对首次检索的文档集合产生一个初步的有关 理想结果集的概率描述。为了提高理想结果集的描述概率,系统需要与用户进行交 互式( f e e d b a c k ) 操作。具体处理过程如下:用户大致浏览一下结果文档,决定哪 些是相关的,哪些是不相关的;然后系统利用该信息重新定义理想结果集的概率描 述:重复以上操作,就会越来越接
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 制苯装置操作工岗前沟通协调考核试卷含答案
- 乙醛装置操作工安全培训强化考核试卷含答案
- 宝石轴承磨工安全检查考核试卷含答案
- 巷修工岗前安全知识考核试卷含答案
- 烧结成品工安全生产规范考核试卷含答案
- 2026年国防教育示范学校创建知识问答
- 2026年省级能源局公务员面试题库
- 2026年大数据分析专家面试常见问题
- 2026年自然资源资产产权制度知识测试
- 2026年变电运行人员倒闸操作标准化流程与危险点控制问答
- 2026年公立医院信息科工作人员招聘考试笔试试题(含答案)
- 内蒙古包头市2026届高三下学期二模考试(包头二模)物理+答案
- 江西省八所重点中学高三下学期联考历史试题
- 毕业设计(论文)-重锤式破碎机设计
- 管道完整性管理-洞察与解读
- 水利水电工程单元工程施工质量检验表与验收表(SLT631.5-2025)
- 网格化管理工作制度汇编
- NCCN临床实践指南:宫颈癌(2025.V4)解读
- 水下数据中心建设方案
- 控制工程基础课件-
- 优良学风你我共建班级学风建设主题班会
评论
0/150
提交评论