




已阅读5页,还剩26页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 IR 继续 参考JaimeCarbonell讲稿和 ModernInformationRetrieval 2 Today sTopics 词项 Term 加权问题细节GeneralizedVectorSpaceModel GVSM 最大边界相关法 MaximalMarginalRelevance SummarizationasPassageRetrieval 基于片段提取的综述 3 词项加权问题 我们有了 共有词汇 假设 文档 和 查询 等价于它们含有的词汇集合 它们的相关性可以完全由共有词汇的情况来决定向量空间模型最简单的 二元向量 只是刻画一个词项的出现与否稍复杂些 计数向量 刻画一个词项在文档 查询 出现的次数一般的 我们可以考虑 以文档集合为背景 一个词项在一篇文档中的权重 4 TermWeightingRevisited 1 Definitionswi ithTerm 词 词根 或者索引的短语 统称 词项 Dj jthDocument 文本索引的单位 例如 一篇网页 一个新闻报道 一篇文章 一个专利 一个法律案例 一本书 书的一章 等等 根据需要确定这个基本单位 5 TermWeightingRevisited 2 DefinitionsC 一个收藏 收集 Collection 一个索引文档的集合 例如 1998年人民日报的所有文章 Web等 Tf wi Dj TermFrequency 词频 wi在文档Dj中出现的次数 人们有时候通过除以该文档中最大的非停用词的TF对Tf进行规格化 Tfnorm Tf max TF 6 TermWeightingRevisited 3 DefinitionsDf wi C documentfrequency 文档频率 wi至少在其中出现一次的文档的个数 Df通常 我们取规格化的结果 即除以C中的文档总数 IDf wi C InverseDocumentFrequency Df wi C size C 1 多数情况下人们用log2 IDf 而不是直接的IDf 7 TermWeightingRevisited 4 词项在TfIDf意义下的权重 相对于一个文档 一般来讲 TfIDf wi Dj C F1 Tf wi Dj F2 IDf wi C 通常 F1 0 5 log2 Tf orTf Tfmaxor0 5 0 5Tf Tfmax通常 F2 log2 IDf 抑制函数 在Salton的SMARTIR系统中 TfIDf wi Dj C 0 5 0 5Tf wi Dj Tfmax Dj log2 IDf wi C 8 TFIDF的 启发式 含义 一个词项在一篇文档中的 重要性 和它在该文档中出现的次数成正比 局部 和它在文档集合中涉及文档的个数成反比 全局 重要性设计的目地区别两个文档对同一个查询的相关程度共有词 频 越多 则相关程度应该越高 同一性强 如果一个共有词在文档集合中出现得很普遍 则由它反映的相关程度应该越低 区分性差 9 探个究竟 K Papineni WhyInverseDocumentFrequency Proc NorthAmericanAssociationforComputationalLinguistics 2001 pp 25 32 证明了IDF在某种距离函数意义下的优化特性 10 TermWeightingbeyondTfIDf 1 概率模型传统概率方法 计算q和d相关的概率 R R Korfhage InformationStorageandRetrieval JohnWiley Sons Inc NewYork 1997G Marchionini InformationSeekinginElectronicEnvironments CambridgeUniversityPress NewYork 1995Improvesprecision recallslightly完整的统计语言学模型 CMU Improvesprecision recallmoresignificantly概率模型的共同缺点是计算效率不够高 11 TermWeightingbeyondTfIDf 2 神经网络理论上有吸引力不幸的是 基本谈不上什么可扩展性 规模不能大 模糊集合研究还不够深入 也会有扩展性的困难 12 TermWeightingbeyondTfIDf 3 自然语言分析法首先分析和理解D s Q采用某种基于自然语言理解的IR理论 从 d 中获取和q相关的子集一般来讲 自然语言理解依然是一个尚待解决的问题即使我们能做 还有一个可扩展性问题到现在为止 自然语言理解的方法只在很有限的领域对IR有所改善 13 GeneralizedVectorSpaceModel 1 原理通过其在多个文档中出现的模式 occurrencepatterns 来定义词项对查询中的词项也同样定义相似度的计算基于对d和q中重叠的模式来进行 14 GeneralizedVectorSpaceModel 2 好处自动包含了部分相似的效果如果 heartdisease stroke 和 ventricular 共同出现在许多文档中 那么即使查询只包含其中一个 则包含其他几个的文档也会得一些分 和它们的文档 共生率 成一定比例 不需要做查询扩展或者相关性反馈 15 GeneralizedVectorSpaceModel 3 不利因素计算开销较大效果 向量空间 Q扩展 的效果 16 GVSM的具体实施 1 将文档集合表达为一个向量 LetC D1 D2 Dm 将每一个词项按照其在文档集合上的分布也表达成一个向量 Letvec ti Tf ti D1 Tf ti D2 Tf ti Dm 定义词项之间的相似度 sim ti tj cos vec ti vec tj 这样 经常同时出现的词 例如 Arafat 和 PLO 北大 和 创建一流 等就会较高的相似度 near synonyms 其实是共生词 17 Bytheway Synonymy 同义词 影响recallPolysemy 多义词 影响precision 18 query document的相似度计算相应变化 sim q d 不再是q和d的向量点乘 而是用上述 词项 词项 相似度的某个函数 例如 对q的每一个词项 分别得到它和d中词项的最大相似度 将这些最大相似度加起来得q和d的相似度 sim q d i maxj sim tqi tdj 通常也以q和d的长度为基础做规格化 simnorm Q D GVSM HowitWorks 2 19 GVSM HowitWorks 3 主要问题 需要较大的计算量 sparse dense 主要好处 自动完成了通过语料的termexpansion 20 对于单纯追求相关性的一种批评 1 IRMaximizesRelevanceprecisionandrecall是关于相关性的度量忽略了所获取文档的质量问题 高相关不一定是高质量的 21 对于单纯追求相关性的批评 2 其他重要的因素信息的新颖性novelty 时新性timeliness freshness 合适性appropriateness 有效性validity 可理解性comprehensibility 强度density 信息获取 我们其实是要最大化 P R fi fn Q C U H 其中Q 查询 C 文档集合 U 用户背景 H 交互历史 fi 某种因素 butwedon tyetknowhow Darn 22 最大边界相关 MaximalMarginalRelevance一种粗浅的近似 novelty minimal redundancy加权线性组合 重新确定文档序值 redundancy cost relevance benefit 自由调整参数 kand 23 MaximalMarginalRelevance 2 MMR Q C R ArgmaxkdiinC sim Q di 1 maxdjinR sim di dj Q 查询C 所有文档的集合R 已得到的一个以相关度为基础的初始集合Argmaxk 给出集合中k个最大元素的索引 24 MaximalMarginalRelevance MMR 3 利用MMR进行文档重定序的一种计算方法1 用其他常用IR方法取得前K个文档记Dr IR C Q K 2 选maxsim di Dr Q 作为第一个文档 即让Ranked 用这记号表示有序集合 3 LetDr Dr di 从中去掉这个元素4 WhileDrisnotempty do a FinddiwithmaxMMR Q Dr Ranked b LetRanked Ranked di 后续追加操作 c LetDr Dr di 25 MMRRankingvsStandardIR query documents MMR IR controlsspiralcurl 26 MaximalMarginalRelevance MMR 4 应用 对从IR引擎中获得的文档重新定序在自动生成综述 summary 的应用中对要包含的片段 passage 的定序 一篇文章可能有近似的句子或段落 但综述中不宜有 27 文档综述简要 综述 summarization 的类型 28 DocumentSummarizationinaNutshell 2 其他方向单篇文章还是多篇文章 不同体裁的自适应 还是一种统一的规格 一种语言还是跨语言 线性综述还是超链结构 仅文本还是多媒体 29 以片段提取为基础的综述 1 查询驱动的综述 将文档分成片段e g sentences paragraphs FAQ pairs 用查询来提取最相关的片段 或者考虑MMR来避免冗余 将提取的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年新能源行业供应链绿色物流技术应用报告
- 电商直播中2025年主播与品牌合作风险控制策略报告
- 第四节 溶液的配制教学设计-2025-2026学年初中化学北京版2024九年级下册-北京版2024
- 宠物洗浴考试题库及答案
- 城市工作考试题型及答案
- 2025年家教小学英语题库及答案
- 台州新颖团建活动方案策划
- 南方单层建筑改造方案设计
- 建筑咨询项目服务方案
- 信息咨询营销管理方案
- 部编语文四年级上册教材解读与集体备课
- ESG投资策略实证分析
- 施工电梯安装(拆卸)安全技术交底
- 危险化学品罐区日常安全检查表
- 《18良渚古玉》教学设计(浙江省县级优课)x-四年级美术教案
- 混凝土检查井施工方案
- 2023年农商银行面试自我介绍四篇(汇总)
- 捷达VS7汽车说明书
- 教育部首批中等职业学校专业教学标准
- 讲文明讲卫生
- 内科护理学循环系统疾病患者护理
评论
0/150
提交评论