《信息检索理论模型》PPT课件.ppt_第1页
《信息检索理论模型》PPT课件.ppt_第2页
《信息检索理论模型》PPT课件.ppt_第3页
《信息检索理论模型》PPT课件.ppt_第4页
《信息检索理论模型》PPT课件.ppt_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2019/12/5,1,第2章信息检索理论模型,2019/12/5,2,信息检索过程,信息检索过程实际上涉及到三个重要的处理:文档集的逻辑表示查询的表示相似匹配及其排序对上述因素和检索过程建模(抽象描述),产生各种不同的信息检索模型,2019/12/5,3,信息检索模型分类,2019/12/5,4,本章主要内容,2.1布尔检索模型2.2向量空间模型2.3概率检索模型2.4信息检索逻辑模型,2019/12/5,5,2.1布尔检索模型,布尔检索模型的理论基础是布尔逻辑和集合理论,2019/12/5,6,2.1布尔检索模型,布尔逻辑主要内容:命题逻辑与谓词逻辑布尔逻辑是数理逻辑的基础部分利用符号来表示逻辑中的各种概念建立了一系列的运算法则,利用代数的方法研究逻辑问题,2019/12/5,7,布尔运算,布尔逻辑运算符:“与(AND)”、“或(OR)”、“非(NOT)”运算的定义,2019/12/5,8,传统布尔检索模型,文献表示将文档表示成一个集合,集合中的每个元素都为一个二元变量,取值非“0”即“1”,表示该元素所代表的主题词是否包含在该篇文档之内。若包括在文档中,则元素取值为1,反之则取0。给定一个文献集合D,包含m篇文献,分别用d1,d2,d3dm表示。再给出一个标引词集合T,包含n个标引词t1,t2,tn。假定对文献集D的描述完全是基于该标引词集合的,则文献集D中任意一篇文献di就可以表示为(di1,di2,din),2019/12/5,9,传统布尔检索模型,查询表示在布尔检索系统中,根据用户提出的检索需求,选取适当的检索标识,与布尔运算符“与”、“或”、“非”共同构成与查询相符的检索提问式,也即相应的布尔表达式例如,布尔提问式q=t1and(t2ornott3)q的主析取范式(t1andt2andt3)or(t1andt2andnott3)or(t1andnott2andnott3)q的简化形式qdnf(1,1,1)or(1,1,0)or(1,0,0),其中,(1,1,1)、(1,1,0)和(1,0,0)是qdnf的3个合取子项(合取子项可用符号qcc表示),2019/12/5,10,传统布尔检索模型,匹配函数,2019/12/5,11,传统布尔检索模型,文献D1=(t1,t2,nott3)查询Q=t1andt2andnott3,2019/12/5,12,传统布尔查询的评价,该模型结构简单、容易实现和快速检索。,2019/12/5,13,传统布尔查询的评价,布尔模型在检索系统的开发与应用中表现出的主要问题有:(1)准确匹配(exactmatching)策略问题。布尔模型采用准确匹配策略,对检索过程中客观存在的一些不确定性情形绝对排斥,认为一篇文献对于某一提问要么是“相关的”,要么是“不相关的”。这种“非此即彼”的二值判断标准严重影响到检索系统的性能改善,并带来其他一些相关问题。(2)布尔逻辑表达用户需求的能力问题。把用户的一个信息需求转换成一个恰当的布尔表达式,在很多情况下并不容易实现。,2019/12/5,14,传统布尔查询的评价,为了弥补这些缺陷,发展了一些别的检索模型,如向量空间、扩展布尔、概率检索和聚类模型。,2019/12/5,15,2.2向量空间模型,2.2.1传统向量空间检索2.2.2项的权重模式2.2.3相似度的计算2.2.4潜在语义标引,2019/12/5,16,2.2.1传统向量空间检索,向量空间模型(Vectorspacemodel)介绍向量空间模型(VSM)的评价,2019/12/5,17,向量空间模型介绍,1.文献空间(1)文献空间的概念文献集合中的任一文献都可以表示为这个多维空间中的一个向量,这个空间就称为“文献空间”在一个文献空间内,用向量D1来代表某一文献,则该向量在这个文献空间各个轴上的分量就是相应的表述该文献的各个项的权重文献与空间点(2)标引词空间,2019/12/5,18,向量空间模型介绍,2019/12/5,19,向量空间模型介绍,2.项权重(1)词频越重要的项分配越高的权值可以用词频来作为该项的权重(用tf表示)(2)文献频率假设存在一个文献集合,其中大部分的文献都包含了某一项,则说明该项对某一主题的专指度较差,可能就不太重要在设计项权重时,要考虑逆文献频率(用idf表示),2019/12/5,20,向量空间模型介绍,2.项权重(3)权重的规范化处理为了抵消由篇幅带来的不同影响,经常要对项权重进行规范化处理在各种规范化方法中,余弦规范是一种常用、有效的方法:tfidf权重/文献向量的欧氏长度,2019/12/5,21,向量空间模型介绍,3.文献向量与查询向量的匹配匹配函数利用向量的内积运算,得到文献向量Di与查询向量q之间的相似度Sim(Di,q)=Diq简单存在的一个主要的不足是它忽略了项之间存在一些相互联系的事实。通常,需要引入一些特别的方法来改进这个相似度计算公式,使得其能够考虑到项的相互联系这一重要因素,2019/12/5,22,向量空间模型的评价,优点简单,功能却非常强大能将非结构化的文献表示成向量的形式,使得各种数学处理成为可能模型的检索效果和布尔检索模型比起来,要好得多不足忽略项之间存在的相互联系,必然使得检索效果产生极大的偏差传统向量处理模型不能处理布尔表达等结构化查询改进广义向量空间模型(GVSM)、潜在语义标引(LSI)、概率向量处理模型以及基于语义分析的向量空间模型(SVSM),2019/12/5,23,2.2.2项的权重模式,项向量的规范化,2019/12/5,24,项向量的规范化,构建一个项权重模式,需要涉及三个主要因素:词频、集合频率和向量的规范化。一般来说,会为那些在特定文献中出现非常频繁的词(有着高词频的词)分配较高的权值;为那些在文献集中很少部分的文献中出现的词(有着低文献频率的词)分配较高的权值;对文献集合中长度不一的文献进行规范化处理,从而排除长文献与短文献在统计上的差别。,2019/12/5,25,项向量的规范化,余弦规范化余弦规范化是在向量空间模型中最为常用的一种规范化方法。它的规范因子是:这里的wi是项的原始tf*idf权重。在一个文献中,如果一个项有着异常的高出现次数,利用余弦规范化,也可以减小这个高词频对权重的影响。,2019/12/5,26,2.2.3相似度的计算,内积相似度运算余弦相似度“距离”相似度运算等等,2019/12/5,27,2.2.4潜在语义标引,模型的提出潜在语义标引模型模型的评价,2019/12/5,28,模型的提出,VSM模型的主要缺陷假定项之间是相互独立的。因为忽略项之间的联系,从而在空间中增加或剔除一个项,对空间中已然存在的项是毫无影响的,实际上,在集合中增加一个新的文献,不仅仅会增加一些新的项,而且还会影响到已经存在的项的权重分配,因为新增的文献影响了这些项在整个集合中的逆文献频率(idf)因素。词频矩阵过大(降维处理),2019/12/5,29,潜在语义标引模型,该方法的基本步骤是:1)建立词频矩阵R0;2)计算词频矩阵的奇异值分解,把词频矩阵分解成3个矩阵的积:T0S0D0,其中T0、D0的列向量都两两正交,S0为对角线矩阵。如果要求T0、D0是满秩的并且S0中对角线上的单值按照从小到大的顺序排列,那么词频矩阵有,并且仅有一个这样的分解;3)S0中对角线上的k个较大的单值被保留,其它较小的单值被置为0,去掉S0中单值为0的所有行和列得到对角阵S,去掉T0、D0中相应的列,得到矩阵T、D,并可以产生一个新的矩阵R=TSD,作为新的词频矩阵;4)对于每一个文档d,用SVD方法筛选得到的词的组成新的向量替换原有的文本特征向量;5)保存所有向量集合,并用高级多维索引技术为文本集合创建索引;6)使用转换后的文档向量进行相似度计算。,2019/12/5,30,模型的评价,潜在语义标引的长处在于第一、模型具有丰富的表述能力。保持了原始数据中的主要信息,同时,也捕捉住了隐含的潜在语义信息。第二、传统的基于字面的词匹配系统,无法解决大量的同义或歧义现象造成的查全、查准下降的问题。而在潜在语义标引中,却能自动处理这类问题。第三、潜在语义标引能够降低检索运行的时间。第四、能够处理由于人为原因,如拼写错误导致的匹配问题。,2019/12/5,31,模型的评价,潜在语义标引的不足:总体上看来,潜在语义标引对于较大集合的运算却是非常耗费的,2019/12/5,32,2.3概率检索模型,检索过程存在内在的不确定性,如信息检索系统不能精确地定义文献集合中与查询相匹配的文献概率理论是处理随机不确定性的理论一个概率模型就是要估计概率,即文献dk与查询q相关的概率。,2019/12/5,33,2.3概率检索模型,概率模型试图在一个概率框架中处理信息检索问题,其基本思想是:给定一个用户的查询,则有一个包含相关文档且不包含不相关文档的集合。设想这个文档集合是一个理想的结果集。给出这个理想结果集的描述,并用于检索。查询的过程是说明理想结果集属性的过程,初始的时候努力的猜测它们是什么,猜测结果我们将产生一个对理想结果集的概率描述,检索出最初的结果集,然后引入用户的交互,改善结果集。,2019/12/5,34,2.3概率检索模型,基本假设:给定一个查询q和文档集中一个文档dk,概率模型试图找出用户对其感兴趣的概率,模型假设这个概率只是依赖于查询和文档的表示,进而模型假设文档集中存在一个子集,它使得在集合中的文档被认为是与查询相关的,不在集合中的则被认为是不相关的。,2019/12/5,35,2.3概率检索模型,其主要优点是:理论上,文档按照其与目标集合的相关概率的降序排列。主要缺点是:需要最初将文档分为相关和不相关的集合;所有权重都是二值的,模型中仍然假设索引项之间是相互独立的。,2019/12/5,36,2.3概率检索模型,概率模型(ProbabilisticModel)概率排序原则:按照根据系统已经获得的全部数据估计出来的相关概率的降序排序是最优的排序贝叶斯推断:由feedback更新先验概率分布w1=documentisrelevant,w2=non-relevant.x=(x1,x2,.,xn)binaryvector代表:INQUERY,2019/12/5,37,2.3概率检索模型,优点:无需经验性的权值计算公式,完全从理论上推断出ranking很好支持用户反馈feedback,渐进的优化检索效果缺点:先验分布难于得到?,2019/12/5,38,ProbabilisticModels,RigorousformalmodelattemptstopredicttheprobabilitythatagivendocumentwillberelevanttoagivenqueryRanksretrieveddocumentsaccordingtothisprobabilityofrelevance(ProbabilityRankingPrinciple)Reliesonaccurateestimatesofprobabilitiesforaccurateresults,2019/12/5,39,ProbabilisticRetrieval,Goesbackto1960s(MaronandKuhns)Robertsons“ProbabilisticRankingPrinciple”Retrieveddocumentsshouldberankedindecreasingprobabilitythattheyarerelevanttotheusersquery.Howtoestimatetheseprobabilities?Severalmethods(Model1,Model2,Model3)withdifferentemphasesonhowestimatesaredone.,2019/12/5,40,ProbabilisticModels:SomeNotation,D=AllpresentandfuturedocumentsQ=Allpresentandfuturequeries(Di,Qj)=Adocumentquerypairx=classofsimilardocuments,y=classofsimilarqueries,Relevanceisarelation:,2019/12/5,41,ProbabilisticModels:LogisticRegression,ProbabilityofrelevanceisbasedonLogisticregressionfromasamplesetofdocumentstodeterminevaluesofthecoefficients.Atretrievaltheprobabilityestimateisobtainedby:,Forthe6Xattributemeasuresshownnext,2019/12/5,42,ProbabilisticModels:LogisticRegressionattributes,AverageAbsoluteQueryFrequencyQueryLengthAverageAbsoluteDocumentFrequencyDocumentLengthAverageInverseDocumentFrequencyInverseDocumentFrequencyNumberofTermsincommonbetweenqueryanddocument-logged,2019/12/5,43,ProbabilisticModels:LogisticRegression,Estimatesforrelevancebasedonlog-linearmodelwithvariousstatisticalmeasuresofdocumentcontentasindependentvariables.,2019/12/5,44,ProbabilisticModels,StrongtheoreticalbasisInprincipleshouldsupplythebestpredictionsofrelevancegivenavailableinformationCanbeimplementedsimilarlytoVector,Relevanceinformationisrequired-oris“guestimated”Importantindicatorsofrelevancemaynotbeterm-thoughtermsonlyareusuallyusedOptimallyrequireson-goingcollectionofrelevanceinformation,Advantages,Disadvantages,2019/12/5,45,VectorandProbabilisticModels,Support“naturallanguage”queriesTreatdocumentsandqueriesthesameSupportrelevancefeedbacksearchingSupportrankedretrievalDifferprimarilyintheoreticalbasisandinhowtherankingiscalculatedVectorassumesrelevanceProbabilisticreliesonrelevancejudgmentsorestimates,2019/12/5,46,2.4信息检索逻辑模型,在信息检索领域,可以看作是文献d满足查询q,也可以说文献d与查询q相关。逻辑模型着重强调信息检索是一个推理过程,即如果文献同查询相关,可以通过推理得出,2019/12/5,47,2.4信息检索逻辑模型,逻辑模型的基本思想假如两个对象O1和O2,O1O2则表示对象O1蕴涵对象O2,换句话说,可以从O1中推理出O2。假设通过某一方法,将文献的信息内容用d表示,查询的信息需求用q表示,dq表示可以从文献d中推理出查询q,即文献d中的信息足以蕴涵查询q中的信息。,2019/12/5,48,2.4信息检索逻辑模型,几种典型的信息检索逻辑模型古典逻辑模型基于可能世界的逻辑模型基于情景理论的信息检索模型基于术语逻辑的信息检索模型信息检索的元模型,2019/12/5,49,2.4信息检索逻辑模型,个人观点一篇文献看成是一个知识集,把文献集看成是一个知识库,把查询看成是一个知识集把检索操作看成验证要查询的知识集是否是知识库的一个子集,也就是说,把针对文献的查询转变成针对知识的查询。进一步,将检索操作看成是逻辑程序的自动推理过程。借助于逻辑模型,可以研究查询与知识集的蕴含关系、知识集与文献的蕴含关系、查询与文献的相关程度;,2019/12/5,50,2.4信息检索逻辑模型,个人观点把信息检索系统看成是一个逻辑程序P。如果Q是一个查询,且P|-Q那么我们称Q可检的,2019/12/5,51,InferenceNetworkModel,InferenceNetworkModelInthesimplestimplementation,adocumentinstantiatesatermwithacertainstrength,andthecreditfrommultipletermsisaccumulatedgivenaquerytocomputetheequivalentofanumericscoreforthedocument.Ifthestrengthisconsideredtobetheweightoftheterminthedocument,thentherankingissimilartotheVectorSpaceModelortheProbabilisticModel.Anyformcanbeusedtodefinethestrengthoftheinstantiation,andanyformulacanbeused.,2019/12/5,52,结构化文本检索模型概念,有时候,用户希望能够对文档中的某些结构组元中包含的信息进行检索,例如,对出现在章节标题的词进行检索。那么就需要一种模型,把文档内容与文档的结构结合起来,为用户提供信息检索的能力。这种模型就被称为结构化文本检索模型。,2019/12/5,53,结构化文本检索模型概念,在检索任务中,传统的结构化文本检索模型没有采用相关性的思想,它只是从各个结构组元中匹配用户的查询项。从这个意义上看,过去的结构化文档检索模型是一个数据检索模型,但是,检索系统能够搜索出那些部分匹配查询条件的文档,在这种情况下,这种匹配是近似的,并且某些排序也是使用这种近似的结构。因此,结构化文档检索算法可以看作是一种信息检索算法,但排序机制并不健全。在结构化文本检索模型中,我们使用“匹配点”来表示文本与用户查询相匹配的词串位置;我们使用“区域”表示文本的块;使用“节点”表示文档的结构化组元。这样,一个节点是一个区域,具有文档的作者与用户所共知的、预定义的逻辑属性。,2019/12/5,54,结构化文本检索模型非重叠链表模型,基于非重叠链表的模型是把文档中的整个文本划分为非重叠文本区域,并用链表连接起来。因为有多种方法将文本分为非重叠的区域,所以,对于同一个文档,会产生多个链表。这些链表清晰的记录了文档的数据结构。在相同链表中的文本区

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论