版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第2章 检索系统第1节 数学模型第2节 检索系统的类型第3节 检索系统的构成第4节 国内外主要的检索系统第1节 数学模型在现实生活中,社会成员的信息需求千差万别,获取信息的方式与途径也各式各样。但是,如果仔细分析基于不同信息检索设施或系统的检索处理过程,其基本原理却是相同的。我们可以把信息检索的基本原理概括为一句话:检索系统对用户信息需求(集合)与系统存储的信息资源(集合)所进行的某种匹配与选择。如何进一步严密地表述和论证这一原理?这离不开数学工具,即需要建立信息检索的数学模型。第1节 数学模型一、什么是数学模型二、检索系统的形式化表示三、常用的数学模型数学模型,是指为了某种特定目的,通过对现
2、实世界的某一特定对象做出一些必要的简化与假设,运用适当的数学工具得到的一种数学结构。数学模型具有保留本质、抑制细节的功能,它或者能解释特定现象的状态和性质,或者能预测它的未来状况,或者能提供对处理对象的最优决策或控制。信息检索中的数学模型,就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以抽象和编码,表述为某种数学公式,再经过演绎、推理、解释和检验,反过来指导信息检索服务与实践。(赖茂生,计算机情报检索)第1节 数学模型一、什么是数学模型二、检索系统的形式化表示三、常用的数学模型一般来说,一个信息检索系统可以形式化表示为如下的四元组形式,即: System=(D,Q,F,R(dj
3、,q)其中:D:表示检索系统的信息资源集合;Q:表示检索系统的用户信息需求集合;F:表示检索系统的信息资源与信息需求的匹配处理框架;R(dj,q):匹配计算函数。1信息资源集合(D)检索系统中一般存储着大量的(有时甚至是海量的)经过搜集与筛选的信息资源,为了便于用户的查询与访问,通常对这些资源进行某种组织化处理。用集合论的观点,可以把D表示为: D=d1,d2, ,dN(N0)如果以文本信息为例,这里,D集合是由N篇文档所组成的,D的每一个元素dj(j=1,2,N)表示一篇文档。考虑到检索匹配所要求的快速与便利,每篇原始文档信息在检索系统中存储时,一般还要生成文档的某种逻辑视图(logic v
4、iew of document)。对于文本信息而言,文档逻辑视图通常是从文档中抽取出的能表达文档内容的特征项(如索引词)所构成,它是文档的一种形式化表示。为简单起见,也可以把D看作是全体文档逻辑视图的一个集合体。1信息资源集合(D)全文文本是文档的一个最完全的逻辑视图,而由人类专家标引、提供的一个由少量索引词构成的集合,则是一种最简洁的文档逻辑视图,二者之间还存在许多不同的、中间状态的逻辑视图形式。文档逻辑视图的生成可以通过施加不同的文本操作(或转换)来实现。例如:剔除停用词、识别并使用名词与名词性词组、进行词干加工等等。下图描述了英文检索系统可能采用到的常见文本操作及其产生的不同文档逻辑视图
5、的情况。DocumentAccents,Spacing,EtcStopwordsNounGroupsStemmingAutomaticor manualIndexingStructureRecognition结构全文索引词文本+结构文本文档逻辑视图:从全文文本到索引词集合假设一个信息检索系统存在t个索引词,任一索引词用ki表示,则全体索引词的集合K可以表示为:K=k1,k2,ki, ,kt 进一步地,对于系统中的任一文档dj,我们用wij来表示索引词ki在文档dj中的重要性,或称为“权值”(weight)。一个索引词权值的大小,定量地表示了该索引词描述或揭示某文档语义内容的能力与价值。很显然,
6、 wij 0,特别地,当ki不在文档dj中出现时, wij =0。借用wij的定义,我们可以用一个由索引词权值构成的向量来表示D集合中的一篇文档,形式如下:dj =(w1j,w2j,wij)这种文档的形式化表示将为后面对各种数学模型的理解奠定一个必要的基础。文档逻辑视图是原始文档的一个“替身”(Surrogate)。在信息检索系统中,采用不同形式的文档视图表示,不仅会直接影响到检索系统的检索性能,也会影响到检索系统的计算代价与计算复杂性。2用户信息需求集合(Q)用户信息需求的产生是信息检索与信息检索系统存在的基础,而满足用户的信息需求,则是建立信息检索系统的出发点,也是信息检索系统发挥效用的归
7、宿。从理论上讲,用户的信息需求有: 潜在真实需求(Real Information Need,简称RIN) 意识到或感知到的需求(Perception Information Need,简称PIN) 表达出的需求(Request) 提问(Query)RINPIN Request QueryPerceptionExpressionFormalization用户信息需求的不同状态Berrypicking行为模型 (Bates, 1989)2用户信息需求集合(Q)这里,我们把用户信息需求集合(Q)简化为用户的提问集合,并表示为: Q=q1,q2,qm集合中的每一个qi(i=1,2,m)表示一个具体的
8、用户提问。在某一检索系统中,使用自然语言表达的信息需求一般也要采用与文档类似的形式化表示方法加以表述,以形成满足系统检索语言语法要求的提问式。这里,提问式可以理解为用户信息需求的一种逻辑视图表示。3信息资源与信息需求的匹配处理框架(F)信息检索的根本任务是信息集合(D)与需求集合(Q)之间基于某种相似度规则的匹配处理。匹配处理框架(F)正是寻求在二者之间建立一种沟通与联系机制,提供对文档视图、提问式以及它们之间关系进行模型化处理的框架与规则。不同的检索模型,匹配处理的数学基础及采用的匹配规则是不一样的。例如,对布尔模型而言,匹配规则为二值相关性判断(binary relevance judge
9、ment),匹配运算主要基于集合论的集合基本运算;对向量空间模型而言,匹配规则采用多值相关性判断(n-ary relevance judgement),匹配处理建立在多维向量空间理论和标准的向量线性代数操作基础之上;而概率模型则依赖集合论、概率运算和Bayes法则来完成检索的匹配处理,其匹配规则也是多值性的相关性判断。4匹配计算函数(R(dj,q))匹配函数R(dj,q) 是一个排序函数,用于计算任一文档dj (djD)与任一提问q(qQ)形成的文档提问对(dj,q)之间的相似度大小,即为其相关度赋予一个排序值。一般R(dj,q)的函数值为一实数,其取值区间为0,1。从数学上来讲,匹配函数的选
10、取,要求能够具备以下特点: 计算方法简单,计算量小; 函数值在取值区间均匀分布; 针对某一提问所获取的相关文档集合,能够实现合理的排序输出。 目前,在信息检索的研究和实践活动中,已提出很多有效的匹配函数及其计算方法,其中绝大多数为基于多值相关性判断标准的匹配函数。第1节 数学模型一、什么是数学模型二、检索系统的形式化表示三、常用的数学模型检索型数学模型(Retrieval)浏览型数学模型(Browsing)基于内容的数学模型基于结构的数学模型(结构化模型)平面(Flat)结构导航(Structure Guided)超文本(Hypertext)集合论模型布尔模型非重叠链表(Non-Overlap
11、ping Lists)邻近节点(Proximal Nodes)模糊集合模型扩展布尔模型代数论模型向量空间模型广义向量空间模型潜在语义索引神经网络概率论模型(经典)概率模型推理网络信念网络集合论检索模型布尔模型布尔模型是一种简单的检索模型,它建立在经典集合论和布尔代数的基础上。鉴于集合论中的“集合”概念的直观性以及布尔表达式所具有的准确语义,布尔模型非常容易被用户理解和接受。布尔模型采用布尔代数的方法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑比较来检索文献。在传统的布尔模型中,每一篇文献用一组标引词表示。例如,对于某一特定文献i,可表示为: Di=(T1, T2, T3, , Tm
12、) 每个提问则表示为标引词的布尔组配。例如,对于特定提问Qj,可表示为: Qj=(T1 AND T2) OR (T3 AND NOT T4) 系统对提问的响应是输出一个包含有该提问式的组配元且符合组配条件的文献集合。例如,对上述提问Qj来说,系统的响应必须是这样一组文献:它们都含有标引词T1 和T2,或者含有标引词T3,但不含有标引词T4。布尔检索示例集合论检索模型布尔模型布尔模型是最早提出的一个信息检索模型。1957年,巴希列尔(Y Bar-Hille)就对布尔逻辑应用于计算机信息检索的可能性进行了探讨;20世纪60年代末期,布尔检索模型正式被大型文献检索系统所采用;70年代时逐渐成为各种商
13、业性联机检索服务系统的标准检索模式。目前,基于布尔检索框架的各类检索系统仍具有顽强的生命力,并在信息服务领域占据重要地位。该模型具有简单、易理解、易实现以及能处理结构化提问等优点,故在信息检索系统中得到了广泛的实际应用。不过,由于它采取准确匹配策略,太僵硬,不考虑那些大体能满足提问需要的文献,所以常常使检索结果不能令人满意。传统布尔检索模型的具体缺陷表现在以下五个方面:集合论检索模型布尔模型(1)布尔检索式的非友善性,即构造一个好的检索式是 不容易的。尤其是对复杂的检索课题,提问式既不易构造也不易理解。(2)易造成零输出或输出过量。检索输出完全依赖于布尔提问式与倒排档中文献的匹配情况,输出量较
14、难控制。(3)无差别的组配元,不能区分各组配元的重要程度。(4)匹配标准有些不合理的地方。例如,在响应A AND B AND AND Z检索式时,系统把只含有其中一个提问词的文献看作与那些根本不含有其中任何一个提问词的文献一样差,同样加以排除。另一方面,在响应A OR B OR OR Z检索式时,系统却不能把含有所有这些提问词的文献看作比那些只含有其中一个提问词的文献更好一些。(5)检索结果不能按照任何用户定义的重要性排序输出。代数论检索模型向量空间模型鉴于布尔模型的缺陷,20世纪60年代末期,信息处理专家、美国著名学者,被称为现代搜索技术之父的萨尔顿(G. Salton)在其开发的试验性检索
15、系统SMART(System for Mechanical Analysis and Retrieval of Texts)中最早提出并采用线性代数的理论和方法构建出一种新型的检索模型,这就是后来广为人知的向量空间模型(Vector Space Model,简称VSM)。向量空间模型文档D和查询Q都可用向量表示;检索过程就是计算文档向量与提问向量之间的相似度;可以根据相似度值的不同,对检索结果进行排序;可以根据检索结果,进一步做相关检索(Relevance feedback)。代数论检索模型向量空间模型在向量空间模型中,检索系统中的每一篇文献和每个提问均用向量来表示,例如: Di=(T1, T
16、2, T3, , Tm) Qj=(T1, T2, T3, , Tm) 式中, Di为文献集合中的第 i篇文献; Qj为提问集合中第j个提问; Tk表示文献向量或提问向量中的第k个分量,即文献表示或提问式中所含有的第k个标引词或检索词。从文本到向量空间(vector space)文档的向量表示示例假定有三个项目(索引词):“糖尿病”,“运动”,“高血压”假定以项目(索引词)在文本中的出现次数为项目的权值糖尿病T1运动T2高血压T3d1235d2372q002计算向量之间的相似程度向量间相似程度的不同度量方法(几十种)Inner product (内积)Dice coefficient(dice系
17、数)Cosine coefficient(余弦)Jaccard coefficient(雅各比)在上面的例子中,如何度量q 跟 d1 相似还是跟 d2 相似?夹角余弦:相似程度的最常用的度量方法夹角余弦计算示例代数论检索模型向量空间模型采用这种向量检索模型的典型系统就是G萨尔顿(Salton)等人20世纪60年代中期开始研制的实验性系统SMART。与采用布尔模型的普通检索系统相比,该系统有以下几个特色:(1)采用自动标引技术为文献提供标引词。(2)文献和提问在系统中被看作是m维向量空间中的多维词空间,即表示为m维空间中的一个特定位置,其中m为标引作业中使用的不同标引词的数量。(3)假定某一给定
18、向量中所包含的每个词都相互独立(即具有正交性),且全部词均具有同等的重要性(除非是因给每个词加权所引起的差别)。代数论检索模型向量空间模型(4)检索不以标准的倒排档技术为基础,而是基于聚类文档,即通过计算文献之间的相似度,使属性相似的文献计量聚拢在一起,以提高检索效率。(5)采用部分匹配策略和排序输出原理,提高了检索的灵活性。(6)通过相关反馈技术自动修正提问向量,改进检索结果。缺点:(1)相似度计算的工作量巨大;(2)文献向量中各分量的值(标引词权值)较难确定;(3)对标引词两两正交的假设太僵硬等。概率论检索模型经典概率检索模型概率模型(probabilistic model)基于概率排序原
19、理,即文献应该根据它们与提问的相关概率来排序输出。所有检索系统都是通过处理它们所能获得的、决定哪些文献应被检出的信息来响应提问的。在实践中,人们认识到:现有的任何一种检索机制都不理想,一些不相关的文献常常被不适当地检出,而另一些更符合需要的文献却可能漏检了。概率检索理论清楚地认识到这种不确定性,即给定文献与给定提问之间存在某种相关概率。概率检索模型就是利用概率论的原理,通过赋予标引词某种概率值来表示这些词在相关文献集合或无关文献集合中的出现概率,然后计算某一给定文献与某给定提问相关的概率,最后系统据此做出检索决策。它基本上是一种基于Bayes决策理论的自适应模型。与前两种模型不同的是,它的提问
20、式不是直接由用户编写的,而是由系统通过某种归纳式学习过程(相关反馈)来构造一个决策函数去表示提问。概率论检索模型经典概率检索模型最早提出排序输出思想的是M.E.马龙(Maron)和J.L.库恩斯(Kuhns)。他们在1960年提出概率标引理论(probabilistic theory of indexing),标引作业描述为:给定某一特定文献d,对某个标引词来说,标引员的任务是作出这样的预测:如果某一类型用户B判定d为相关且在他的提问中只用一个检索词,则他可能选用该词的概率有多大。也就是说,标引员要估计的是:对使用该标引词检索文献的给定用户类型来说,某一给定文献的相关概率或权值。标引词加权和利
21、用这种权值来计算文献的“相关性”(满足给定提问的概率)的方法就是概率标引理论的基础。他们的目标是根据文献与给定提问的相关值来对文献进行排序。概率论检索模型经典概率检索模型他们首先定义一组事件: Di:获得的第i篇文献并发现它是相关的。 Ij :要求获得以第j个词为标引词的某一主题领域的文献。A:来自图书馆的情报 P(A, Di) P(A, Di, Ij )P(A, Ij , Di)= P(A, Ij )公式中左端表示当某用户要求获得有关Ij的情报时,文献Di,满足其需要的概率;右端的P(A, Di)是文献Di的一个先验概率,通过图书馆的统计数据获得; P(A, Di, Ij )表示当某用户需要获得Di所含的情报时,他用Ij做检索词的概率;而对于给定的提问Ij来说,P(A, Ij )是一个常数。概率论检索模型经典概率检索模型概率模型的主要优点是:(1)针对检索决策容易出错的问题,采用一种理论上更为严密的方式来进行决策。(2)容易与加权方法结合起来,为人们提供了一种理论基础。(3)不涉及布尔算符的使用,回避了构造布尔提问式的困难。(4)文献可按用户的期望值来排序输出。(5)吸收了相关反馈原理,可开发出理论上更为坚实的方法。缺点是:(1)布
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国家管网集团高校毕业生招聘考试题库(浓缩500题)附参考答案详解(轻巧夺冠)
- 2025国网云南省电力校园招聘(提前批)笔试模拟试题浓缩500题及答案详解1套
- 2026国网浙江省电力公司高校毕业生提前批招聘(约450人)笔试备考题库浓缩500题含答案详解(培优b卷)
- 2026国家能源投资集团有限责任公司高校毕业生统招考试参考试题(浓缩500题)及答案详解(各地真题)
- 2026秋季国家管网集团西南管道公司高校毕业生招聘考试备考试题(浓缩500题)及一套完整答案详解
- 国家管网集团山东分公司2026届秋季高校毕业生招聘考试参考试题(浓缩500题)附参考答案详解(b卷)
- 2026秋季国家管网集团西南管道公司高校毕业生招聘考试备考试题(浓缩500题)及答案详解【历年真题】
- 2025国网山西电力校园招聘(提前批)笔试模拟试题浓缩500题及答案详解(基础+提升)
- 2025国网四川省电力校园招聘(提前批)笔试模拟试题浓缩500题含答案详解(预热题)
- 2026秋季国家管网集团福建公司高校毕业生招聘笔试备考试题(浓缩500题)附答案详解(夺分金卷)
- 提前退租免责协议书
- 2025年卫生资格考试营养干预策略试题及答案
- 《智慧健康综合解决方案》课件
- 合同发票变更协议模板
- API RP 17A-2022 海底生产系统的设计和操作-一般要求和建议
- 骨折合并老年痴呆的护理
- 门诊服务窗口管理制度
- 汽车售后服务企业经营与管理 课件 项目四 汽车维修配件管理
- 柞绢绸项目投资可行性研究分析报告(2024-2030版)
- 应急第一响应人理论考试试卷(含答案)
- 新《行政许可法》知识考试题库(100题)
评论
0/150
提交评论