词项(Term)加权问题细节.ppt

上传人：j*** IP属地：河南上传时间：2020-06-19 格式：PPT 页数：31 大小：165KB 积分：20 举报 版权申诉

已阅读5页，还剩26页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、1,IR（继续）,参考JaimeCarbonell讲稿和ModernInformationRetrieval,2,TodaysTopics,词项（Term）加权问题细节GeneralizedVectorSpaceModel(GVSM)最大边界相关法（MaximalMarginalRelevance）SummarizationasPassageRetrieval（基于片段提取的综述）,3,词项加权问题,我们有了“共有词汇”假设：“文档”和“查询”等价于它们含有的词汇集合，它们的相关性可以完全由共有词汇的情况来决定向量空间模型最简单的：二元向量，只是刻画一个词项的出现与否稍复杂些：计数向量，刻画一

2、个词项在文档（查询）出现的次数一般的：我们可以考虑“以文档集合为背景，一个词项在一篇文档中的权重”,4,TermWeightingRevisited(1),Definitionswi“ithTerm:”词,词根,或者索引的短语，统称“词项”Dj“jthDocument:”文本索引的单位，例如，一篇网页，一个新闻报道，一篇文章，一个专利，一个法律案例，一本书，书的一章，等等。（根据需要确定这个基本单位）,5,TermWeightingRevisited(2),DefinitionsC，一个收藏（收集，Collection）：一个索引文档的集合（例如，1998年人民日报的所有文章，Web等）Tf(

3、wi,Dj)“TermFrequency:”，词频，wi在文档Dj中出现的次数。人们有时候通过除以该文档中最大的非停用词的TF对Tf进行规格化Tfnorm=Tf/max_TF.,6,TermWeightingRevisited(3),DefinitionsDf(wi,C)“documentfrequency,文档频率:”，wi至少在其中出现一次的文档的个数.Df通常，我们取规格化的结果，即除以C中的文档总数。IDf(wi,C)“InverseDocumentFrequency”:Df(wi,C)/size(C)-1.多数情况下人们用log2(IDf)，而不是直接的IDf。,7,TermWeig

4、htingRevisited(4),词项在TfIDf意义下的权重（相对于一个文档）一般来讲：TfIDf(wi,Dj,C)=F1(Tf(wi,Dj)*F2(IDf(wi,C)通常，F1=0.5+log2(Tf),orTf/Tfmaxor0.5+0.5Tf/Tfmax通常，F2=log2(IDf)，“抑制函数”在Salton的SMARTIR系统中：TfIDf(wi,Dj,C)=0.5+0.5Tf(wi,Dj/Tfmax(Dj)*log2(IDf(wi,C),8,TFIDF的（启发式）含义,一个词项在一篇文档中的“重要性”和它在该文档中出现的次数成正比（局部）和它在文档集合中涉及文档的个数成反比（全

5、局）重要性设计的目地区别两个文档对同一个查询的相关程度共有词（频）越多，则相关程度应该越高（同一性强）如果一个共有词在文档集合中出现得很普遍，则由它反映的相关程度应该越低（区分性差）,9,探个究竟,K.Papineni,“WhyInverseDocumentFrequency,”Proc.NorthAmericanAssociationforComputationalLinguistics,2001,pp.25-32.证明了IDF在某种距离函数意义下的优化特性。,10,TermWeightingbeyondTfIDf(1),概率模型传统概率方法（计算q和d相关的概率）R.R.Korfhage,

6、InformationStorageandRetrieval.JohnWiley&Sons,Inc.,NewYork,1997G.Marchionini,InformationSeekinginElectronicEnvironments.CambridgeUniversityPress,NewYork,1995Improvesprecision-recallslightly完整的统计语言学模型(CMU)Improvesprecision-recallmoresignificantly概率模型的共同缺点是计算效率不够高,11,TermWeightingbeyondTfIDf(2),神经网络理论

7、上有吸引力不幸的是，基本谈不上什么可扩展性（规模不能大）模糊集合研究还不够深入，也会有扩展性的困难,12,TermWeightingbeyondTfIDf(3),自然语言分析法首先分析和理解Ds&Q采用某种基于自然语言理解的IR理论，从d中获取和q相关的子集一般来讲，自然语言理解依然是一个尚待解决的问题即使我们能做，还有一个可扩展性问题到现在为止，自然语言理解的方法只在很有限的领域对IR有所改善。,13,GeneralizedVectorSpaceModel(1),原理通过其在多个文档中出现的模式（occurrencepatterns）来定义词项对查询中的词项也同样定义相似度的计算基于对d和q

8、中重叠的模式来进行,14,GeneralizedVectorSpaceModel(2),好处自动包含了部分相似的效果如果“heartdisease”，“stroke”和“ventricular”共同出现在许多文档中，那么即使查询只包含其中一个，则包含其他几个的文档也会得一些分，和它们的文档“共生率”成一定比例。不需要做查询扩展或者相关性反馈,15,GeneralizedVectorSpaceModel(3),不利因素计算开销较大效果=“向量空间+Q扩展”的效果,16,GVSM的具体实施(1),将文档集合表达为一个向量：LetC=D1,D2,.,Dm将每一个词项按照其在文档集合上的分布也表达成一

9、个向量：Letvec(ti)=Tf(ti,D1),Tf(ti,D2),.,Tf(ti,Dm)定义词项之间的相似度：sim(ti,tj)=cos(vec(ti),vec(tj)这样，经常同时出现的词，例如“Arafat”和“PLO”，“北大”和“创建一流”等就会较高的相似度（near-synonyms，其实是共生词）,17,Bytheway,Synonymy，同义词，影响recallPolysemy，多义词，影响precision,18,query-document的相似度计算相应变化，sim(q,d)不再是q和d的向量点乘，而是用上述“词项-词项”相似度的某个函数。例如，对q的每一个词项，分别

10、得到它和d中词项的最大相似度，将这些最大相似度加起来得q和d的相似度：sim(q,d)=imaxj(sim(tqi,tdj)通常也以q和d的长度为基础做规格化：simnorm(Q,D)=,GVSM,HowitWorks(2),19,GVSM,HowitWorks(3),主要问题：需要较大的计算量(sparse=dense)主要好处：自动完成了通过语料的termexpansion,20,对于单纯追求相关性的一种批评(1),IRMaximizesRelevanceprecisionandrecall是关于相关性的度量忽略了所获取文档的质量问题（高相关不一定是高质量的）,21,对于单纯追求相关性的批

11、评(2),其他重要的因素信息的新颖性novelty,时新性timeliness,freshness，合适性appropriateness,有效性validity,可理解性comprehensibility,强度density,.?信息获取，我们其实是要最大化：P(R(fi,.,fn)|Q&C&U&H)其中Q=查询，C=文档集合，U=用户背景，H=交互历史，fi=某种因素.butwedontyetknowhow.Darn.,22,最大边界相关,MaximalMarginalRelevance一种粗浅的近似：novelty=minimal-redundancy加权线性组合，重新确定文档序值：(re

12、dundancy=cost,relevance=benefit)自由调整参数：kand,23,MaximalMarginalRelevance(2),MMR(Q,C,R)=ArgmaxkdiinCsim(Q,di)-(1-)maxdjinR(sim(di,dj)Q,查询C,所有文档的集合R,已得到的一个以相关度为基础的初始集合Argmaxk*，给出集合中k个最大元素的索引,24,MaximalMarginalRelevance(MMR)(3),利用MMR进行文档重定序的一种计算方法1.用其他常用IR方法取得前K个文档记Dr=IR(C,Q,K)2.选maxsim(diDr,Q)作为第一个文档，即

13、让Ranked=，（用这记号表示有序集合）3.LetDr=Drdi，从中去掉这个元素4.WhileDrisnotempty,do:a.FinddiwithmaxMMR(Q,Dr,Ranked)b.LetRanked=Rankeddi，（后续追加操作）c.LetDr=Drdi,25,MMRRankingvsStandardIR,query,documents,MMR,IR,controlsspiralcurl,26,MaximalMarginalRelevance(MMR)(4),应用：对从IR引擎中获得的文档重新定序在自动生成综述（summary）的应用中对要包含的片段（passage）的定序。一篇文章可能有近似的句子或段落，但综述中不宜有。,27,文档综述简要,综述（summarization）的类型,28,DocumentSummarizationinaNutshell(2),其他方向单篇文章还是多篇文章？不同体裁的自适应，还是一种统一的规格？一种语言还是跨语言？线性综述还是超链结构？仅文本还是多媒体？.,29,以片段提取为基础的综述(1),查询驱动的综述：将文档分成片段e.g,sentences,paragraphs,FAQ-pairs,.用查询来提取最相关的片段，或者考虑MMR来避免冗余。将提取的

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

词项(Term)加权问题细节.ppt

文档简介

温馨提示

最新文档

评论

词项(Term)加权问题细节.ppt

文档简介

温馨提示

最新文档

评论

相关文档