信息存储与检索复习资料2.ppt_第1页
信息存储与检索复习资料2.ppt_第2页
信息存储与检索复习资料2.ppt_第3页
信息存储与检索复习资料2.ppt_第4页
信息存储与检索复习资料2.ppt_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章信息检索模型 可编辑 第二章信息检索模型 2 可编辑 第一节信息检索模型概述 一 信息检索模型的基本概念1 信息检索模型的概念信息检索模型 信息检索的数学模型 就是运用数学的语言和工具 对信息检索系统中的信息及其处理过程加以翻译和抽象 表述为某种数学公式 再经过演绎 推断 解释和实践检验 反过来指导信息检索实践 信息检索模型由以下几部分组成 1 用户的需求表示 2 文档的表示 3 匹配机制最简单的信息检索模型就是单项检索模型 Q TkDocA Ta Tb Tc DocB Tb Tk Tm 信息检索模型主要从两个方面抽象地研究信息检索方法 P27 确定在检索模型中如何表示构成检索系统的两个要素 即文档和检索式 确定在检索模型中如何定义和计算文档与检索式之间的关系 3 可编辑 第一节信息检索模型概述 一 信息检索模型的基本概念2 信息检索模型表示一般一个信息检索系统可以形式化地抽象表示为如下的四元组 P28 如下 System D Q F R dj q D 信息检索系统的信息资源集合Q 用户信息需求集合F 信息资源与信息需求的匹配处理框架R dj q 相似性 匹配函数 4 可编辑 第一节信息检索模型概述 一 信息检索模型的基本概念2 信息检索模型表示 1 信息资源集合DD 用集合论的观点 我们可以把D表示成 D d1 d2 dn n 0 每篇原始文档信息在检索系统中存储时 一般都要进行必要的加工 生成文档的某种逻辑视图 logicviewofdocument 文档逻辑视图 通常是由从文档中抽取出的 能表达文档内容的特征项 如索引词 所构成的 是文档的一种形式化表示 文档逻辑视图的生成可以通过施加不同的文本操作 或转换 来实现 可以把D看作是全体文档逻辑视图的一个集合体 5 可编辑 第一节信息检索模型概述 一 信息检索模型的基本概念2 信息检索模型表示 2 用户信息需求集合Q用户的信息需求有不同的存在状态 潜在真实需求 RealinformationNeed RIN 意识到或感知到的需求 PerceptionInformationNeed PIN 表达的需求 Request 提问 Query 这里 我们把用户信息需求集合 Q 简化为用户的提问集合 Q q1 q2 qm 注意 1 提问式也可以理解为用户信息需求的一种逻辑视图表示 2 在某一检索系统中 使用自然语言表达的用户需求 即Request 一般也要采用与文档类似的形式化表示方法加以表述 以形成满足系统检索语言语法要求的提问式 Query 6 可编辑 第一节信息检索模型概述 一 信息检索模型的基本概念2 信息检索模型表示 3 信息资源与信息需求的匹配处理框架 F 匹配处理框架 F 提供对文档视图 提问式以及它们之间关系进行模型化处理的框架与规则 布尔模型而言 匹配规则为二值相关性判断 匹配运算主要基于集合论的集合基本运算 向量空间模型而言 匹配规则采用多值相关性判断 匹配处理建立在代数论的多维向量空间操作基础之上 7 可编辑 第一节信息检索模型概述 一 信息检索模型的基本概念2 信息检索模型表示 4 匹配函数R dj q 匹配函数R dj q 用于计算任一文档dj与任一提问q形成的文档提问对 dj q 之间的相似度的大小一般R dj q 的函数值为一实数 其取值区间为 0 1 从数学上来讲 匹配函数的选取 要求能够具备一下特点 计算方法简单 计算量小 函数值在取值区间均匀分布 针对某一提问所获取的相关文档集合 能够实现合理的排序输出 8 可编辑 第一节信息检索模型概述 一 信息检索模型的基本概念3 信息检索模型的分类传统的文本信息检索模型主要有三种 布尔模型 向量空间模型和概率模型 也称经典的信息检索模型 经典信息检索模型的基本假设 1 被检索对象主要是文档对象 2 标引词是相互独立的 彼此无关的 3 所有文档的内容和所需信息的表示都是非常精确的 9 可编辑 布尔模型 集合论模型 文献和查询用标引词集合来表示 匹配规则为二值相关性判断 向量模型 代数模型 文献和查询用t维空间的向量来表示 匹配规则采用多值相关性判断 概率模型 概率模型 检索是文献和查询之间匹配程度的概率估计问题 经典模型 如集合论 代数 概率模型 的各种不同的改进模式 集合论模型 模糊集合论和扩展布尔模型 代数模型 广义向量模型 潜语义标引模型和神经网络模型 大多数检索系统往往将各种检索模型混合以达到最佳的检索效果 10 可编辑 第二节布尔检索模型 一 布尔逻辑模型的概念文献表示 每一文献用一组标引词表示 标引词可以是关键词 作者 篇名等能反映文档特征的词 提问表示 每个提问都表示为提问词 检索词 的布尔组配 称其为布尔逻辑表达式 布尔逻辑表达式指采用布尔运算符 逻辑与 and 逻辑或 or 逻辑非 not 等 来连接运算分量 检索词 以及表示运算优先级的括号组成的一种表达检索要求的一种算式 简称提问逻辑式 匹配函数 布尔模型对于任一篇文档dj D 定义dj与用户提问q的匹配函数为 Sim dj q 1 dj中包含有Q的合取向量 dj与Q相关Sim dj q 0 dj中不包含有Q的合取向量 dj与Q不相关 11 可编辑 第二节布尔检索模型 二 布尔逻辑运算符及其运算含义常用的布尔逻辑运算符有三种 它们是逻辑或 or 逻辑与 and 逻辑非 not 1 逻辑或 or 逻辑加 逻辑或可使检索命中结果的区域扩大 达到了扩检的目的 从而增强了检全率 2 逻辑与 and 逻辑乘 通过对检索词之间的与运算 增强了查找的专指性 可提高查准率 以网络搜索引擎为例 见P30 3 逻辑非 not 实质上为与非 12 可编辑 第二节布尔检索模型 二 布尔逻辑运算符及其运算含义 4 布尔逻辑运算符的运算次序绝大多数检索系统是按照如下规则进行检索运算的 同级运算是从左向右进行的 括号内的逻辑运算优先执行 括号有多层时 最内层括号中的运算最先执行 当检索提问式含有截词符 位置算符 限制符时 布尔运算最后执行 但对于运算符or and not 它们的运算优先次序在不同的系统中有着不同的规定 DIALOG的RECON软件 not最先执行 and其次执行 or最后执行 STAIRS软件 ORBIT软件 and与not同级 并高于or 它们依其自然顺序执行 or最后执行 在UNIVAS上运行的UNIDAS软件 and最先执行 not其次执行 or最后执行 13 可编辑 第二节布尔检索模型 三 传统布尔查询的评价优点 1 与思维习惯相一致 2 方便扩检与缩检 3 易于计算机实现 缺点 1 信息集合的标引问题 无权重设计 2 用户需求的表示问题逻辑运算符的理解和应用 提问词的选择 例如整体与部分 3 匹配问题 二值匹配策略问题 相关性排序以及检索结果输出量控制 匹配标准不尽合理 14 可编辑 第三节向量空间检索模型 20世纪60年代末期 GerardSalton 现代信息检索的奠基人 SMART系统 向量空间检索模型 VectorSpaceModel 简称VSM向量空间模型是用提问词和标引词的向量空间来表示用户的查询要求和文档信息 根据向量空间的相似度 排列查询结果 向量空间方法的基本思想要点是 1 将文档D和查询Q都用向量表示 2 检索的过程就是计算文档向量和查询向量之间的相似度 3 根据相似度的不同 对检索结果进行排序 15 可编辑 第三节向量空间检索模型 一 向量空间模型的基本原理 1 文档向量的构造考虑到一个有n个记录 文献 的集合 D d1 d2 dn 对一条属于该集合的特定的文档记录di 可以用属性向量把它表示成 di ti1 ti2 tim di就称为文档向量 其中 m 用于描述这些记录的属性的个数 一般情况下 该属性为主题词 tij 表示文献di中具有属性tj j 1 2 m 的程度 把这种程度用数值的形式表示出来 就是人们常说的 加权 一般来讲 若文献di具有属性tj 则tij 1 否则tij 0 我们称向量di ti1 ti2 tim 为文档向量 16 可编辑 第三节向量空间检索模型 一 向量空间模型的基本原理 1 文档向量的构造把文档向量di i 1 2 n 看成矩阵C的第i行 那么整个文献集合可以用矩阵C来表示 C cij n m i 1 2 n j 1 2 m N 是文献集合中文献的篇数 M 是用来标引文献的主题词的个数 我们把矩阵C叫做文献集合的文献 属性相关矩阵 17 可编辑 第三节向量空间检索模型 一 向量空间模型的基本原理 2 提问向量的构造对于一个特定的提问Q也可以用属性向量把它表示成 Q q1 q2 qm 这里qj j 1 2 m 表示提问Q包含属性tj的程度 18 可编辑 第三节向量空间检索模型 一 向量空间模型的基本原理 3 匹配函数的选择及相似度阈值的确定较常采用的相似度计算指标是两个向量夹角的余弦值 按照两个向量夹角余弦的计算含义 文档dj和提问q的相似度值可以通过下面的计算公式获得 P31 1 简单匹配系数 2 余弦系数 19 可编辑 第三节向量空间检索模型 一 向量空间模型的基本原理 3 匹配函数的选择及相似度阈值的确定利用相关性计算结果 可以 计算系统中所有文档与某一提问的相似度 并能够按照其相似度值的降序排列方式输出命中的结果文档 量化地判断系统文档两两之间的相似程度 文档相关矩阵D 量化地判断系统中标引词 属性 两两之间的相似程度 属性相关矩阵T 20 可编辑 第三节向量空间检索模型 量化地判断系统文档两两之间的相似程度 文档相关矩阵D 文献相关矩阵D 为了表示文献之间的相关关系 分别计算C矩阵中第i行与第j行之间的相关系数dij 由 dij 构成的一个n n的矩阵就称作文献相关矩阵 当C矩阵中的值取1和0时 dij k 说明这两篇文献中有k个相同的标引词 矩阵中dij元可以理解成第i篇文献与第j篇文献包含的属性词的重复面的大小 dij越大 说明第i篇文献与第j篇文献包含的相同主题越多 因此两篇文献的相关程度也就越大 21 可编辑 第三节向量空间检索模型 量化地判断系统中标引词 属性 两两之间的相似程度 属性相关矩阵T 标引词 属性 相关矩阵T 分别计算文献集合中第i列和第j列之间的相关系数tij 由 tij 构成的m m矩阵T称标引词相关矩阵 当C矩阵中的值取1和0时 tij k 则说明有k篇文献同时用第i个词和第j个词标引 T矩阵中tij元可以理解成第i个属性词与第j个属性词在整个文献库中存在于同一文献中的 相遇机会 的大小 tij越大 表示第i个属性词与第j个属性词在同一篇文献中相遇的次数愈多 它们二者的相关性一般也就越大 22 可编辑 第三节向量空间检索模型 已知主题词表 A 汽车a1 拖拉机a2 摩托车a3 发动机a4 废气a5 传动结构a6 处理a7 修理a8 文献集合 D d1 d2 d3 d1取标引词 汽车 发动机 废气 处理 d2取标引词 拖拉机 传动结构 d3取标引词 汽车 拖拉机 摩托车 发动机 修理 提问Q取提问词 汽车 拖拉机 发动机 废气 处理 要求写出 相关系数的计算采用简单匹配系数的方法 1 文献向量 2 提问向量 3 属性文献相关矩阵C 4 文献相关矩阵D 5 标引词相关矩阵T 问 1 哪篇文献最符合提问要求 2 哪两篇文献内容比较接近 23 可编辑 第三节向量空间检索模型 二 向量空间模型的技术特征分析与应用 1 向量空间模型技术特征分析部分匹配策略 词加权处理模式 对检索结果排序输出 2 向量空间模型的应用典型的基于VSM理论的文本信息处理主要包括以下几个分支领域 文本检索 文本分类 文本过滤 文本挖掘 文本浏览与可视化等 应用前提 VSM的量化处理思想充分发挥了计算机的计算特长 VSM理论没有对其特征项 即属性词 的权值评价 文档向量与提问向量的相似度计算等问题做出统一的规定 VSM理论的文本语种无关性 各检索词之间的关系是相互独立的 两两正交假设 24 可编辑 第三节向量空间检索模型 三 向量空间模型实际应用中的局限性 1 信息检索系统的向量模型要求用于检索的计算机的内存容量是相当大的 解决方法 稀疏矩阵的存储与处理 2 上述理论要求属性词表是相对稳定的 不但其个数不能变 且其位置也不能变 解决方法 预留空号 3 提问向量反应不出提问式主题词之间的多种逻辑组配关系 解决方法 提问式变换 例如 根据7个主题词A B C D E F G的主题词 有 Q A D EQ A D E 25 可编辑 第四节扩展布尔检索模型 一 扩展布尔检索模型的概念例子 有以下检索式 Q1 k1andk2andk3and andk8Q2 k1ork2ork3or ork81983 Salton 扩展的布尔检索模型 该模型中巧妙地引入了一个参数 通过适当调节这个参数 Salton模型可以分别为布尔模型 向量模型和模糊模型 26 可编辑 第四节扩展布尔检索模型 二 扩展布尔模型的工作原理基本思想 将所检索的文档信息中的标引词与用户的查询表达式进行相似度的比较 按照相关的优先次序排列查询结果 扩展布尔检索模型常用的方法 MMM模型 Paice模型 P Norm模型 本课以P Norm模型为例 27 可编辑 第四节扩展布尔检索模型 二 扩展布尔模型的工作原理假设文本集中仅有两个标引词t1和t2 并且t1和t2允许赋以权值 其权值范围为 0 1 在扩展布尔检索模型中 上述情形用平面坐标系上某点代表某一文本和用户给出的检索式 如P39图2 2所示 28 可编辑 第四节扩展布尔检索模型 29 可编辑 第四节扩展布尔检索模型 二 扩展布尔模型的工作原理可以将

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论