版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章 信息检索模型 第二章 信息检索模型 信息检索模型概述 1 布尔检索模型 2 向量空间检索模型 3 扩展布尔检索模型 4信息存储与检索技术第一节 信息检索模型概述一、信息检索模型的基本概念1、信息检索模型的概念信息检索模型(信息检索的数学模型):就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实践检验,反过来指导信息检索实践。信息检索模型由以下几部分组成:(1)用户的需求表示(2)文档的表示(3)匹配机制最简单的信息检索模型就是单项检索模型。 Q=TkDocA=(Ta, Tb, Tc)DocB=(Tb, Tk, Tm
2、)信息检索模型主要从两个方面抽象地研究信息检索方法(P27):确定在检索模型中如何表示构成检索系统的两个要素,即文档和检索式;确定在检索模型中如何定义和计算文档与检索式之间的关系。信息存储与检索技术第一节 信息检索模型概述一、信息检索模型的基本概念2、信息检索模型表示一般一个信息检索系统可以形式化地抽象表示为如下的四元组(P28),如下:System=(D,Q,F,R(dj,q)D:信息检索系统的信息资源集合Q:用户信息需求集合F:信息资源与信息需求的匹配处理框架R(dj,q):(相似性)匹配函数信息存储与检索技术第一节 信息检索模型概述一、信息检索模型的基本概念2、信息检索模型表示(1)信息
3、资源集合DD:用集合论的观点,我们可以把D表示成:D=d1,d2,dn n=0) 每篇原始文档信息在检索系统中存储时,一般都要进行必要的加工,生成文档的某种逻辑视图 (logic view of document)。文档逻辑视图:通常是由从文档中抽取出的、能表达文档内容的特征项(如索引词)所构成的,是文档的一种形式化表示。 文档逻辑视图的生成可以通过施加不同的文本操作(或转换)来实现。可以把D看作是全体文档逻辑视图的一个集合体。信息存储与检索技术第一节 信息检索模型概述一、信息检索模型的基本概念2、信息检索模型表示(3)信息资源与信息需求的匹配处理框架(F) 匹配处理框架(F)提供对文档视图、
4、提问式以及它们之间关系进行模型化处理的框架与规则。布尔模型而言,匹配规则为二值相关性判断,匹配运算主要基于集合论的集合基本运算;向量空间模型而言,匹配规则采用多值相关性判断,匹配处理建立在代数论的多维向量空间操作基础之上。 信息存储与检索技术第一节 信息检索模型概述一、信息检索模型的基本概念2、信息检索模型表示(4)匹配函数R(dj,q)匹配函数R(dj,q)用于计算任一文档dj与任一提问q形成的文档提问对(dj,q)之间的相似度的大小一般R(dj,q)的函数值为一实数,其取值区间为0,1。从数学上来讲,匹配函数的选取,要求能够具备一下特点:计算方法简单,计算量小;函数值在取值区间均匀分布;针
5、对某一提问所获取的相关文档集合,能够实现合理的排序输出。信息存储与检索技术布尔模型(集合论模型):文献和查询用标引词集合来表示,匹配规则为二值相关性判断 。向量模型(代数模型):文献和查询用t维空间的向量来表示,匹配规则采用多值相关性判断 。概率模型(概率模型):检索是文献和查询之间匹配程度的概率估计问题。 经典模型(如集合论,代数,概率模型)的各种不同的改进模式:集合论模型:模糊集合论和扩展布尔模型;代数模型:广义向量模型、潜语义标引模型和神经网络模型。 大多数检索系统往往将各种检索模型混合以达到最佳的检索效果。 信息存储与检索技术第二节 布尔检索模型一、布尔逻辑模型的概念文献表示:每一文献
6、用一组标引词表示,标引词可以是关键词、作者、篇名等能反映文档特征的词。提问表示:每个提问都表示为提问词(检索词)的布尔组配,称其为布尔逻辑表达式。 布尔逻辑表达式指采用布尔运算符(逻辑与“and”、逻辑或“or”、逻辑非“not”等)来连接运算分量(检索词),以及表示运算优先级的括号组成的一种表达检索要求的一种算式,简称提问逻辑式。匹配函数:布尔模型对于任一篇文档djD,定义dj与用户提问q的匹配函数为:Sim(dj,q)1:dj中包含有Q的合取向量,dj与Q相关Sim(dj,q)0:dj中不包含有Q的合取向量,dj与Q不相关信息存储与检索技术第二节 布尔检索模型二布尔逻辑运算符及其运算含义常
7、用的布尔逻辑运算符有三种,它们是逻辑或“or”、逻辑与“and”、逻辑非“not”。 (1)逻辑或(“or”,逻辑加,) 逻辑或可使检索命中结果的区域扩大,达到了扩检的目的,从而增强了检全率。 (2)逻辑与(“and”,逻辑乘,) 通过对检索词之间的与运算,增强了查找的专指性,可提高查准率。 以网络搜索引擎为例:见P30。 (3)逻辑非“not”(实质上为与非)信息存储与检索技术第二节 布尔检索模型三、传统布尔查询的评价优点:(1)与思维习惯相一致;(2)方便扩检与缩检;(3)易于计算机实现。缺点:(1)信息集合的标引问题无权重设计(2)用户需求的表示问题逻辑运算符的理解和应用;提问词的选择(
8、例如整体与部分)(3)匹配问题: 二值匹配策略问题相关性排序以及检索结果输出量控制;匹配标准不尽合理。信息存储与检索技术第三节 向量空间检索模型 20世纪60年代末期,Gerard Salton(现代信息检索的奠基人),SMART系统。向量空间检索模型:Vector Space Model,简称VSM 向量空间模型是用提问词和标引词的向量空间来表示用户的查询要求和文档信息,根据向量空间的相似度,排列查询结果。 向量空间方法的基本思想要点是:(1)将文档D和查询Q都用向量表示;(2)检索的过程就是计算文档向量和查询向量之间的相似度;(3)根据相似度的不同,对检索结果进行排序。 信息存储与检索技术
9、第三节 向量空间检索模型一向量空间模型的基本原理(1)文档向量的构造把文档向量di(i1,2,n)看成矩阵C的第i行,那么整个文献集合可以用矩阵C来表示:C=(cij)nm(i1,2,n;j1,2,m)N:是文献集合中文献的篇数;M:是用来标引文献的主题词的个数。我们把矩阵C叫做文献集合的文献属性相关矩阵。 信息存储与检索技术第三节 向量空间检索模型一向量空间模型的基本原理(2)提问向量的构造 对于一个特定的提问Q也可以用属性向量把它表示成:Q(q1,q2qm) 这里qj(j1,2,m)表示提问Q包含属性tj的程度。 信息存储与检索技术第三节 向量空间检索模型一向量空间模型的基本原理(3)匹配
10、函数的选择及相似度阈值的确定 较常采用的相似度计算指标是两个向量夹角的余弦值。按照两个向量夹角余弦的计算含义,文档dj和提问q的相似度值可以通过下面的计算公式获得(P31):1)简单匹配系数:2)余弦系数:信息存储与检索技术第三节 向量空间检索模型一向量空间模型的基本原理(3)匹配函数的选择及相似度阈值的确定利用相关性计算结果,可以:计算系统中所有文档与某一提问的相似度,并能够按照其相似度值的降序排列方式输出命中的结果文档。量化地判断系统文档两两之间的相似程度文档相关矩阵D;量化地判断系统中标引词(属性)两两之间的相似程度属性相关矩阵T;信息存储与检索技术第三节 向量空间检索模型 量化地判断系
11、统文档两两之间的相似程度文档相关矩阵D; 文献相关矩阵D:为了表示文献之间的相关关系,分别计算C矩阵中第i行与第j行之间的相关系数dij,由dij构成的一个nn的矩阵就称作文献相关矩阵。 当C矩阵中的值取1和0时,dijk,说明这两篇文献中有k个相同的标引词。 矩阵中dij元可以理解成第i篇文献与第j篇文献包含的属性词的重复面的大小,dij越大,说明第i篇文献与第j篇文献包含的相同主题越多,因此两篇文献的相关程度也就越大。 信息存储与检索技术第三节 向量空间检索模型 量化地判断系统中标引词(属性)两两之间的相似程度属性相关矩阵T; 标引词(属性)相关矩阵T:分别计算文献集合中第i列和第j列之间
12、的相关系数tij,由tij构成的mm矩阵T称标引词相关矩阵。 当C矩阵中的值取1和0时:tijk,则说明有k篇文献同时用第i个词和第j个词标引。 T矩阵中tij元可以理解成第i个属性词与第j个属性词在整个文献库中存在于同一文献中的“相遇机会”的大小,tij越大,表示第i个属性词与第j个属性词在同一篇文献中相遇的次数愈多,它们二者的相关性一般也就越大。 信息存储与检索技术第三节 向量空间检索模型二、向量空间模型的技术特征分析与应用(1)向量空间模型技术特征分析部分匹配策略;词加权处理模式;对检索结果排序输出。(2)向量空间模型的应用 典型的基于VSM理论的文本信息处理主要包括以下几个分支领域:文
13、本检索、文本分类、文本过滤、文本挖掘、文本浏览与可视化等。应用前提:VSM的量化处理思想充分发挥了计算机的计算特长;VSM理论没有对其特征项(即属性词)的权值评价、文档向量与提问向量的相似度计算等问题做出统一的规定;VSM理论的文本语种无关性。各检索词之间的关系是相互独立的(两两正交假设) 。 信息存储与检索技术第三节 向量空间检索模型三向量空间模型实际应用中的局限性(1)信息检索系统的向量模型要求用于检索的计算机的内存容量是相当大的。 解决方法:稀疏矩阵的存储与处理。(2)上述理论要求属性词表是相对稳定的-不但其个数不能变,且其位置也不能变。 解决方法:预留空号。(3)提问向量反应不出提问式
14、主题词之间的多种逻辑组配关系。 解决方法:提问式变换。 例如:根据7个主题词A,B,C,D,E,F,G的主题词,有: QA*D*-E Q(A+D)*-E. 信息存储与检索技术第四节 扩展布尔检索模型二、扩展布尔模型的工作原理 基本思想:将所检索的文档信息中的标引词与用户的查询表达式进行相似度的比较,按照相关的优先次序排列查询结果。扩展布尔检索模型常用的方法:MMM模型;Paice模型;P-Norm模型。 本课以P-Norm模型为例。信息存储与检索技术第四节 扩展布尔检索模型二、扩展布尔模型的工作原理 假设文本集中仅有两个标引词t1和t2,并且t1和t2允许赋以权值,其权值范围为0,1。在扩展布
15、尔检索模型中,上述情形用平面坐标系上某点代表某一文本和用户给出的检索式。如P39图2-2所示。信息存储与检索技术第四节 扩展布尔检索模型信息存储与检索技术第四节 扩展布尔检索模型二、扩展布尔模型的工作原理可以将上述只包含两个项目的查询式的相似度计算进一步扩展:(1)可将检索词的个数扩充为m个;(2)将该式用于对检索词加权的情况下。P-Norm模型公式如下:Xm:表示第m个标引词在文献d中的权重;P:表示检索词间逻辑关系严格的程度。信息存储与检索技术第四节 扩展布尔检索模型二、扩展布尔模型的工作原理P1:P:当P1时,布尔逻辑式中算符“or”和“and”之间的差别消失,模型等价于向量空间模型;当P时,提问式中的逻辑算符又符合模糊逻辑的形式,可以看作是布尔逻辑的一种泛化,相对应的模型是布尔模型/模糊逻辑模型;P值取1到之间的值时:“or”:提问式中多出现几个提问词总比少出现好;“and”:提问式中所有词都出现总比仅出现几个词更有价值,但同时又不苛求所有提问词都出现。 信息存储与检索技术第四节 扩展布尔检索模型二、扩展布尔模型的工作原理(1)P值的大小,表达了对布尔逻辑算符的约束强度,取值越小约束越松,取
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 六年级语文下册第五单元教学设计说明
- 企业宣传策划方案
- 初中学生军训发言稿
- 2026 学龄前自闭症融合干预社交课件
- 2026届辽宁省辽阳市太子河区达标名校中考语文模试卷含解析
- 六年级数学上册第五单元圆教学设计
- 保安辞职信范文(34篇)
- 健康公益宣传活动方案
- 初中学生自我反思总结(20篇)
- 2026 学龄前自闭症社交训练课件
- 职业性中暑的预防
- 《股票交易技术分析》课件
- 创意速写课件
- 小升初典型奥数:握手问题(讲义)-2023-2024学年六年级下册数学人教版
- 药理学练习及标准答案-人卫版
- 国家义务教育质量监测现场应急预案
- 招标代理服务服务方案
- 路灯照明维修技巧培训课件
- 马克39cd机使用说明书
- 营养专科护士理论考核试题及答案
- 20《金字塔》一等奖创新教学设计-1
评论
0/150
提交评论