版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第第 6 6 章章 计算机信息检索概述计算机信息检索概述Information Organization & Retrieval目目 录录 6.1 计算机信息检索的含义和特点6.1.1 含义含义6.1.2 发展简史发展简史6.1.3 分类分类6.1.4 特点特点Information Organization & Retrieval目目 录录 6.2 计算机信息检索的数学模型6.2.1 布尔检索模型布尔检索模型6.2.2 向量空间模型向量空间模型6.2.3 概率检索模型概率检索模型参见计算机情报检索P3641Information Organization & Retr
2、ieval目目 录录 6.3 计算机信息检索的策略6.3.1 检索策略的含义与作用检索策略的含义与作用6.3.2 检索表达式检索表达式6.3.3 检索表达式的构造步骤检索表达式的构造步骤6.3.4 检索策略的反馈与调节检索策略的反馈与调节Information Organization & Retrieval目目 录录 6.4 信息检索技术6.4.1 文档检文档检索技术索技术6.4.2 全文检全文检索技术索技术 6.4.1.16.4.1.1 书目数据库的结构:书目数据库的结构:记记录与字段、逻辑记录与物理记录录与字段、逻辑记录与物理记录、各种文档、各种文档 6.4.1.26.4.1.2
3、 顺序文档的检索技术顺序文档的检索技术 6.4.1.3 6.4.1.3 倒排文档的检索技术倒排文档的检索技术6.4.3 基于内容的多媒体检索基于内容的多媒体检索技术技术:图像、视频、图像、视频、 音频音频Information Organization & Retrieval 含义:含义:人们根据特定的信息需求,按照一定的人们根据特定的信息需求,按照一定的方法,利用计算机从相关的信息检索系统中识方法,利用计算机从相关的信息检索系统中识别并获取所需的信息的过程。别并获取所需的信息的过程。 本质本质信息用户的提问标识与信息集合数据信息用户的提问标识与信息集合数据库特征标识匹配的过程。库特征
4、标识匹配的过程。 参见图参见图61。6.1.1 计算机信息检索的含义计算机信息检索的含义Information Organization & Retrieval6.1.2 计算机信息检索发展简史计算机信息检索发展简史1 12020世纪世纪5050年代年代开始的脱机批开始的脱机批处理检索。处理检索。定题检索和回定题检索和回溯检索。溯检索。 2 22020世纪世纪6060年代至年代至8080年代的联机检年代的联机检索阶段。索阶段。3 32020世纪世纪8080年代年代以来的光盘检以来的光盘检索。索。2020世纪世纪8080年年代后期开始代后期开始的网络检索。的网络检索。原有的联机原有的联机
5、检索系统的检索系统的网络化;搜网络化;搜索引擎。索引擎。4 4Information Organization & Retrieval6.1.3 计算机信息检索的分类计算机信息检索的分类 1.根据所检索数据库的形式分:根据所检索数据库的形式分: 书目检索、数据检索、事实检索和全文检索。书目检索、数据检索、事实检索和全文检索。 2.根据计算机检索服务形式分:根据计算机检索服务形式分: SDI、回溯检索和日常检索、回溯检索和日常检索 3.根据检索方式分:根据检索方式分: 脱机检索、联机检索、光盘检索(又分为单机光盘检脱机检索、联机检索、光盘检索(又分为单机光盘检索和光盘网络检索两种)和网络
6、检索索和光盘网络检索两种)和网络检索Information Organization & Retrieval6.1.4 计算机信息检索的特点计算机信息检索的特点 1.检索范围大检索范围大 2.速度快速度快 3.功能强大、组配灵活功能强大、组配灵活 4.途径多途径多 5.数据更新及时,时效性强数据更新及时,时效性强 6.检索结果输出形式多样检索结果输出形式多样Information Organization & Retrieval6.2 计算机信息检索的数学模型计算机信息检索的数学模型l信息检索的数学模型:信息检索的数学模型:就是运用数学的语言和工具,就是运用数学的语言和工具,对
7、信息检索系统中的信息及其处理过程加以翻译和抽对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释象,表述为某种数学公式,再经过演绎、推断、解释和实际检验,反过来指导信息检索实践。和实际检验,反过来指导信息检索实践。l检索系统的形式化描述:检索系统的形式化描述:S(D,T,Q,f)其中,其中,D D(D D1 1,D D2 2,D D3 3,DDn n),为某系统中经过标引),为某系统中经过标引的文献集合,的文献集合,T T (T T1 1,T T2 2,T T3 3,TTm m),), Q Q (Q Q1 1,Q Q2 2,Q Q3 3,QQl l),)
8、,T T和和Q Q分别表示所有可能存在的标引词分别表示所有可能存在的标引词集合和提问集合,集合和提问集合,f f为匹配函数。为匹配函数。Information Organization & Retrieval6.2.1 布尔检索模型布尔检索模型采用布尔代数的方法采用布尔代数的方法,用布尔表达式表示用户提问,通过对文,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑比较来检索文献。献标识与提问式的逻辑比较来检索文献。在传统的在传统的布尔模型中,每一文献用一组标引词表示。例如,对布尔模型中,每一文献用一组标引词表示。例如,对于某一特定文献于某一特定文献i i,可表示为:,可表示为:
9、D Di i(T T1 1,T T2 2,T T3 3TTm m)每个提问则表示为标引词的布尔组配。例如某个特定的提问每个提问则表示为标引词的布尔组配。例如某个特定的提问Qj,表示为,表示为 Q Qj j(T T1 1 ANDAND T T2 2)OR OR (T T3 3 AND AND (NOTNOT T T4 4)Information Organization & Retrieval6.2.1 布尔检索模型布尔检索模型局限:局限:布尔检索式的非友善性,即构造一个好的检索式是不容易的布尔检索式的非友善性,即构造一个好的检索式是不容易的易造成零输出或输出过量易造成零输出或输出过量无
10、差别的组配元,不能区分各组配元的重要程度无差别的组配元,不能区分各组配元的重要程度匹配标准存在某些不合理的地方匹配标准存在某些不合理的地方检索结果不能按照任何用户定义的重要性排序输出。检索结果不能按照任何用户定义的重要性排序输出。Information Organization & Retrieval6.2.2 向量空间模型向量空间模型向向量空间模型量空间模型(Vector Space Model)中中,检索系统中的每检索系统中的每一篇文献和一篇文献和每个提问均用等长的向量表示:每个提问均用等长的向量表示: D Di i(T T1 1,T T2 2,T T3 3TTm m) T Tj
11、j (T T1 1,T T2 2,T T3 3TTm m),), Di为文献集合中的第为文献集合中的第i篇文献;篇文献;Qj为提问集合中的第为提问集合中的第j个提问个提问;Tk表示文献向量或提问向量中的第表示文献向量或提问向量中的第k个分量,即文献表个分量,即文献表示或提问式中所含的第示或提问式中所含的第k个标引词或检索词。传统的向量个标引词或检索词。传统的向量空间模型将空间模型将Tk取值为取值为0或或1,现在大多在,现在大多在0,1区间取值。区间取值。Information Organization & Retrieval6.2.2 向量空间模型向量空间模型n 可以构成一个向量空间,
12、把信息检索中文献与提问的匹配可以构成一个向量空间,把信息检索中文献与提问的匹配处理过程转化为向量空间中文献向量与提问向量的相似度处理过程转化为向量空间中文献向量与提问向量的相似度问题。某一文献与某一提问的相关程度通过计算该向量对问题。某一文献与某一提问的相关程度通过计算该向量对之间的相似度来测定。之间的相似度来测定。n 最简单的计算相似度的方法是用点积函数,它把文献向量与提最简单的计算相似度的方法是用点积函数,它把文献向量与提问向量的相似度定义为:问向量的相似度定义为:S(Di,Qj) TikTjkK1mInformation Organization & Retrieval6.2.2
13、 向量空间模型向量空间模型n 最常用的计算相似度的方法是用余弦函数,它把文献向量与提最常用的计算相似度的方法是用余弦函数,它把文献向量与提问向量的相似度定义为:问向量的相似度定义为: (Tik)2 (Tjk)2S(Di,Qj)K1m TikTjkK1mK1mInformation Organization & Retrieval6.2.2 向量空间模型向量空间模型向量空间模型的局限:向量空间模型的局限:相似度计算的工作量巨大;相似度计算的工作量巨大;文献向量中各分量的值文献向量中各分量的值(标引词权值标引词权值)较难确定;较难确定;对标引词两两正交的假设也太僵硬。对标引词两两正交的假设
14、也太僵硬。文献中的标引词实际文献中的标引词实际上并不是相互独立的,它们之间存在一定的语义联系。为此,有上并不是相互独立的,它们之间存在一定的语义联系。为此,有人又致力于研究基于词相依性的向量模型。人又致力于研究基于词相依性的向量模型。Information Organization & Retrieval6.2.3 概率检索模型概率检索模型l 概率检索模型(概率检索模型(Probabilistic Model)基于概率排序原理基于概率排序原理,即文献应该根据它们与提问的相关概率来排序输出。,即文献应该根据它们与提问的相关概率来排序输出。l 基本思想:基本思想:给定文献与给定提问之间存在
15、不确定性,即给定给定文献与给定提问之间存在不确定性,即给定文献与给定提问之间存在某种相关概率。所以利用概率论的文献与给定提问之间存在某种相关概率。所以利用概率论的原理,通过原理,通过赋予标引词赋予标引词某种某种概率值概率值来表示这些词在相关文献来表示这些词在相关文献集合或无关文献集合中的出现的概率,然后计算某一给定文集合或无关文献集合中的出现的概率,然后计算某一给定文献与某给定提问相关的概率,最后系统据此作出检索决策。献与某给定提问相关的概率,最后系统据此作出检索决策。l 它的提问式不是直接由用户编定的,是由系统通过某种归纳它的提问式不是直接由用户编定的,是由系统通过某种归纳式式学习过程学习过
16、程(相关反馈相关反馈)来构造一个决策函数去表示用户提问。来构造一个决策函数去表示用户提问。Information Organization & Retrieval6.2.3 概率检索模型概率检索模型l 由由MEMaron和和JLKuhns最早提出了概率标引理论。最早提出了概率标引理论。l 该模型将将标引作业描述为:该模型将将标引作业描述为:给定某一特定文献给定某一特定文献d,对某个,对某个标引词来说,标引员的任务是作出这样的预测:如果某一类标引词来说,标引员的任务是作出这样的预测:如果某一类型用户型用户B判定判定d为相关且在他的提问中只用一个检索词,则为相关且在他的提问中只用一个检索词
17、,则他可能选用该词的概率有多大。他可能选用该词的概率有多大。 也就是说,标引员要估计的是:对使用该标引词检索也就是说,标引员要估计的是:对使用该标引词检索文献的给定用户类型来说,某一给定文献的相关概率或权值文献的给定用户类型来说,某一给定文献的相关概率或权值。标引词加权和利用这种权值来计算文献的。标引词加权和利用这种权值来计算文献的“相关值相关值”( (满满足给定提问的概率足给定提问的概率) )的方法就是概率标引理论的基础。的方法就是概率标引理论的基础。 概率检索模型概率检索模型1 1:Information Organization & Retrieval6.2.3 概率检索模型概率
18、检索模型概率检索模型概率检索模型1 1:首先定义一组事件首先定义一组事件 D Di i:获得的第获得的第i i篇文献并发现它是相关的。篇文献并发现它是相关的。 I Ij j:要求获得以第要求获得以第j j个词为标引词的某一主题领域的文献。个词为标引词的某一主题领域的文献。A A:来自信息资源集合的信息。:来自信息资源集合的信息。然后,利用然后,利用BayesBayes逆概公式逆概公式, ,对文献的相关概率加以定义。对文献的相关概率加以定义。Information Organization & Retrieval6.2.3 概率检索模型概率检索模型概率检索模型概率检索模型1 1:l 公式
19、左端表示当某用户要求获得有关公式左端表示当某用户要求获得有关I Ij j的信息时,文献的信息时,文献D Di i满足其满足其需要的概率;需要的概率;l 右端的右端的P(AP(A,D Di i) )是文献是文献D Di i的一个先验概率,通过信息资源管理的一个先验概率,通过信息资源管理机构的统计数据获得;机构的统计数据获得;l P(AP(A,D Di i,I Ij j) )表示当某用户需要获得表示当某用户需要获得D Di i所含的信息时,他用所含的信息时,他用I Ij j做检索词的概率,而对于给定的提问做检索词的概率,而对于给定的提问I Ij j来说,来说,P(AP(A,J Jj j) )是一个
20、是一个常数。常数。( ,)* ( , )( , ,)( , )iijjijP A DP A D IP A I DP A IInformation Organization & Retrieval6.2.3 概率检索模型概率检索模型基本思想:基本思想:标引阶段不对标引词进行加权,而是在检索阶段才标引阶段不对标引词进行加权,而是在检索阶段才导入概率检索机制。检索作业重复若干次,每重复一次,用户导入概率检索机制。检索作业重复若干次,每重复一次,用户就对检出文献进行相关性判断。然后利用这种反馈信息,根据就对检出文献进行相关性判断。然后利用这种反馈信息,根据每个词在相关文献集合和无关文献集合的分
21、布情况来计算它们每个词在相关文献集合和无关文献集合的分布情况来计算它们的相关概率。的相关概率。用下式计算标引词的权值:用下式计算标引词的权值:p和和p是该模型的参数,分别表示某词在相关文献集合或无关文献集是该模型的参数,分别表示某词在相关文献集合或无关文献集合中出现的概率。某一文献的权值合中出现的概率。某一文献的权值(决定它在排序输出中的位置)则决定它在排序输出中的位置)则是它所含的标引权值之和。是它所含的标引权值之和。 概率检索模型概率检索模型2 2:词相关权值词相关权值logp/(1p)p/(1p)Information Organization & Retrieval6.2.3
22、概率检索模型概率检索模型基本思想:基本思想:同时做两种预测,标引员选词标引时要预测文献对具同时做两种预测,标引员选词标引时要预测文献对具有不同特性的用户的相关概率;用户选词检索时也要预测某词对有不同特性的用户的相关概率;用户选词检索时也要预测某词对具有不同特性的文献的相关概率。可用下图来表示模型具有不同特性的文献的相关概率。可用下图来表示模型3。 概率检索模型概率检索模型3 3:Model 3Model 1Model 2标引员标引员用户用户信息信息集合集合信息信息需求需求信息信息特征特征提问提问特征特征预预 测测Information Organization & Retrieval6
23、.2.3 概率检索模型概率检索模型 概率检索模型的一般表述形式:给定提问概率检索模型的一般表述形式:给定提问Q,则文献,则文献D的相关概率为的相关概率为P(relD)。根据。根据Bayes定理,可用下式定理,可用下式求其值:求其值:P(rel)和和P(nrel)分别代表某一给定文献相关或不相关的先验分别代表某一给定文献相关或不相关的先验概率;概率; P(Drel)和和P(Dnrel)则代表文献则代表文献D属于相关文献集合或无属于相关文献集合或无关文献集合的概率。关文献集合的概率。P(relD) P(Drel) P(rel) P(Drel) P(rel) P(Dnrel) P(nrel) Inf
24、ormation Organization & Retrieval6.2.3 概率检索模型概率检索模型概率检索模型的主要优点是:概率检索模型的主要优点是:它注意到检索决策是容易出错的,故采用了一种理论上更它注意到检索决策是容易出错的,故采用了一种理论上更为严密的方式来进行决策。为严密的方式来进行决策。它容易与加权方法结合起来,为人们提供了一种理论基础它容易与加权方法结合起来,为人们提供了一种理论基础它不涉及布尔算符的使用,回避了构造布尔提问式的困难它不涉及布尔算符的使用,回避了构造布尔提问式的困难文献可按用户的期望值来排序输出文献可按用户的期望值来排序输出吸收了相关反馈原理,可开发出理
25、论上更为坚实的方法。吸收了相关反馈原理,可开发出理论上更为坚实的方法。Information Organization & Retrieval6.2.3 概率检索模型概率检索模型概念检索模型的主要缺陷:概念检索模型的主要缺陷:布尔关系消失了布尔关系消失了(至少在早期的模型中是如此至少在早期的模型中是如此),A ANDB和和A OR B被视为等同。被视为等同。增加了存贮和计算资源的开销。增加了存贮和计算资源的开销。参数估计难度大。为此,人们提出了各种参数估计技术,参数估计难度大。为此,人们提出了各种参数估计技术,如最大阀值估计法,相关反馈原理,最大熵原理等。如最大阀值估计法,相关反馈原理
26、,最大熵原理等。Information Organization & Retrieval6.3.1 检索策略的含义与作用检索策略的含义与作用u 检索策略的基本知识:检索策略的基本知识:通常应是在分析检索课题内容实质(即通常应是在分析检索课题内容实质(即明确检索目标和信息明确检索目标和信息需求)需求)的基础上进行的,选择检索系统,确定检索词及其相的基础上进行的,选择检索系统,确定检索词及其相互关系、拟定检索表达式等的信息检索方案。互关系、拟定检索表达式等的信息检索方案。是为实现检索目标而制定的计划或方案,是对整个检索过程是为实现检索目标而制定的计划或方案,是对整个检索过程的科学规划。可分
27、为手工检索策略和计算机检索策略。的科学规划。可分为手工检索策略和计算机检索策略。明确用户的信息需求,是制定检索策略的基础和依据。明确用户的信息需求,是制定检索策略的基础和依据。Information Organization & Retrieval6.3.2 检索表达式检索表达式是检索策略的逻辑表达式和具体体现,是指信息检索中是检索策略的逻辑表达式和具体体现,是指信息检索中用来表达用户检索提问的逻辑表达式;用来表达用户检索提问的逻辑表达式;由检索词和各种布尔逻辑算符、位置算符以及系统规定由检索词和各种布尔逻辑算符、位置算符以及系统规定的其他组配连接符号组成。的其他组配连接符号组成。是计
28、算机可以识别和执行的命令形式。是计算机可以识别和执行的命令形式。Information Organization & Retrieval6.3.2 检索表达式检索表达式 6.3.2.1 逻辑表达式逻辑表达式基于基于布尔检索模型。布尔检索模型。布尔逻辑算符:常见的有逻辑与(布尔逻辑算符:常见的有逻辑与(ANDAND或或* *)、逻辑)、逻辑或(或(OROR或或)、逻辑非()、逻辑非(NOTNOT或或- -)。)。逻辑表达式:也叫布尔逻辑表达式,利用布尔代数逻辑表达式:也叫布尔逻辑表达式,利用布尔代数中的逻辑运算符来描述检索词间的关系,把检索词中的逻辑运算符来描述检索词间的关系,把检索词连
29、接起来,为检索式搭起框架,指定检索词出现或连接起来,为检索式搭起框架,指定检索词出现或不出现的条件。不出现的条件。Information Organization & Retrieval6.3.2 检索表达式检索表达式 6.3.2.1 逻辑表达式逻辑表达式 构造容易,便于理解构造容易,便于理解 可以表达和用户思维习惯相一致的查询要求,与计算机逻可以表达和用户思维习惯相一致的查询要求,与计算机逻辑运算功能一致,表达意义比较明显直观辑运算功能一致,表达意义比较明显直观 不能实现检索结果的相关性排序不能实现检索结果的相关性排序 不能反映表达式中检索词的重要性不能反映表达式中检索词的重要性 如
30、果用户的检索课题中涉及的检索词较多,可能写出一个如果用户的检索课题中涉及的检索词较多,可能写出一个相当复杂的表达式。相当复杂的表达式。Information Organization & Retrieval6.3.2 检索表达式检索表达式 6.3.2.2 加权表达式加权表达式 加权检索:是指在检索提问中,根据每个检索词在检索要求加权检索:是指在检索提问中,根据每个检索词在检索要求中的重要程度,分别给予一定的数值加以区别,即赋权,这中的重要程度,分别给予一定的数值加以区别,即赋权,这个数值就是权值,然后对含有这些检索词的信息进行加权计个数值就是权值,然后对含有这些检索词的信息进行加权计算
31、,其和在规定的阀值以上的,即确定为命中信息。算,其和在规定的阀值以上的,即确定为命中信息。 例如:例如:中国(中国(5 5)高等教育()高等教育(5 5)发展趋势()发展趋势(5 5) 阀值阀值W W1515Information Organization & Retrieval6.3.2 检索表达式检索表达式 6.3.2.3 6.3.2.3 检索表达式中的位置算符检索表达式中的位置算符n 位置算符:表示所连接的各个检索词间位置关系的符位置算符:表示所连接的各个检索词间位置关系的符号,它的作用是对复合检索词进行加工修饰,限制词号,它的作用是对复合检索词进行加工修饰,限制词与词间的位置关
32、系,弥补布尔逻辑算符只是定性规定与词间的位置关系,弥补布尔逻辑算符只是定性规定检索词的范围,提高查准率。检索词的范围,提高查准率。n 不同的检索系统中采用的位置算符通常有差异。不同的检索系统中采用的位置算符通常有差异。n 常见的有(常见的有(W W),(),(nWnW),(),(N N),(),(nNnN),(),(S S),),(F F),(),(C C),(),(L L)等。)等。Information Organization & Retrieval6.3.2 检索表达式检索表达式 6.3.2.4 6.3.2.4 检索表达式中的截词符检索表达式中的截词符n 截词符:对单元检索词进
33、行加工修饰,解决检索词的单、截词符:对单元检索词进行加工修饰,解决检索词的单、复数问题,词干相同而词尾不同以及英美词汇拼写差异问复数问题,词干相同而词尾不同以及英美词汇拼写差异问题等。常用的有题等。常用的有“* *”,“?”?”,“$”$”。n 截词按截断的词量分为有限截断和无限阶段。按截断形式截词按截断的词量分为有限截断和无限阶段。按截断形式分有左截断(后方一致)、中截断(任意一致)和右截断分有左截断(后方一致)、中截断(任意一致)和右截断(前方一致)(前方一致)。有限截断是检索词串与被检索词实现只能在指定位置可有限截断是检索词串与被检索词实现只能在指定位置可以不一致的匹配。常用以不一致的匹
34、配。常用“?”表示。表示。无限截断是检索词串与被检索词实现部分一致的匹配,无限截断是检索词串与被检索词实现部分一致的匹配,常用常用“* *”表示。表示。Information Organization & Retrieval6.3.2 检索表达式检索表达式 6.3.2.4 6.3.2.4 检索表达式中的限制符检索表达式中的限制符n 限制符:限制检索词或表达式在数据库记录中出现的字段位限制符:限制检索词或表达式在数据库记录中出现的字段位置。置。数据库中可供检索的检索字段有题名(数据库中可供检索的检索字段有题名(TITI),文摘),文摘(ABAB),主题词(),主题词(DEDE)和标识词(
35、)和标识词(IDID),主题词),主题词(SUSU),作者(),作者(AUAU),语种(),语种(LALA),出版年代(),出版年代(PYPY)、)、刊物名称(刊物名称(JNJN),文献类型(),文献类型(DTDT)等。)等。限制符在不同的数据库中有不同的表达形式和使用规限制符在不同的数据库中有不同的表达形式和使用规则。则。Information Organization & Retrieval6.3.3 检索策略的构造步骤检索策略的构造步骤1.1.分析信息需求分析信息需求2.2.选择检索系统选择检索系统3.3.选择检索途径和方法,确定检选择检索途径和方法,确定检索词,构造检索表达式索
36、词,构造检索表达式4.4.处理检索结果处理检索结果5.5.获取原始信息获取原始信息Information Organization & Retrieval6.3.3 检索策略的构造步骤检索策略的构造步骤 6.3.3.1 6.3.3.1 分析信息需求,明确检索要求分析信息需求,明确检索要求n 信息需求的类型:信息需求的类型:新、全、准新、全、准。n 所需要的信息类型:所需要的信息类型:数据、事实还是文献数据、事实还是文献。n 所需要信息的目的:所需要信息的目的:科学研究、生产、生活等科学研究、生产、生活等n 所需要信息的格式:所需要信息的格式:数字的、印刷的数字的、印刷的n Inform
37、ation Organization & Retrieval6.3.3 检索策略的构造步骤检索策略的构造步骤 6.3.3.2 选择检索系统 6.3.3.3 选择检索途径和方法,确定检索词,构造检索表达式 6.3.3.4 处理检索结果 6.3.3.5 获取原始资料Information Organization & Retrieval例如:构造有关例如:构造有关“造纸废水的处理技术造纸废水的处理技术”的检索表达式。的检索表达式。抽取检索词:抽取检索词: 造纸:造纸:paper makingpaper making,paper pulppaper pulp;废水:;废水:waste
38、 waste waterwater;处理:;处理:treattreat,treatmenttreatment。构造检索表达式:构造检索表达式: (paper paper w w making making OROR paper paper w w pulp) pulp) ANDAND waste waste water water ANDAND (treat (treat OROR treatment) treatment)Information Organization & Retrieval6.3.4 检索策略的反馈与调节检索策略的反馈与调节6.3.4.1影响查全率和查准率的主要因
39、素影响查全率和查准率的主要因素主题的分析检索词检索词间的逻辑关系Information Organization & Retrieval6.3.4 检索策略的反馈与调节检索策略的反馈与调节6.3.4.2提高查全率和查准率的方法提高查全率和查准率的方法1. 提高查全率的方法提高查全率的方法降低检索词的专指度;可从词表中选上位概念或检出信降低检索词的专指度;可从词表中选上位概念或检出信息中的相关词补充到检索式中息中的相关词补充到检索式中进行族性检索,可采用分类号检索或采用一组近义词或进行族性检索,可采用分类号检索或采用一组近义词或同义词或相关词同义词或相关词OROR连接在检索式中连接在检索
40、式中进行截词检索,可采用后截断、前截断、前后截断等截进行截词检索,可采用后截断、前截断、前后截断等截词方法词方法增加和调整检索途径增加和调整检索途径调节检索式的网络度,如删去某个不重要的概念面调节检索式的网络度,如删去某个不重要的概念面取消某些限制过严的检索条件,如年代、语种、文献类取消某些限制过严的检索条件,如年代、语种、文献类型等型等Information Organization & Retrieval6.3.4 检索策略的反馈与调节检索策略的反馈与调节6.3.4.2提高查全率和查准率的方法提高查全率和查准率的方法2. 提高查准率的方法提高查准率的方法提高检索词的专指度,增加或换
41、用下位词和专指性较强提高检索词的专指度,增加或换用下位词和专指性较强用用ANDAND连接一些进一步限定主题概念的相关检索项,增加相互制连接一些进一步限定主题概念的相关检索项,增加相互制约约利用利用NOTNOT限制与信息提问不相关信息的输出,减少检索噪音限制与信息提问不相关信息的输出,减少检索噪音利用限制符,限制检索词出现的可检字段,用位置符控制检索利用限制符,限制检索词出现的可检字段,用位置符控制检索词的词间顺序和位置词的词间顺序和位置进行加权检索,从定量角度加以控制进行加权检索,从定量角度加以控制对检索结果的外部特征进行限制,加强针对性对检索结果的外部特征进行限制,加强针对性进行二次检索,或
42、对检索结果进行后处理,如聚类、挖掘等。进行二次检索,或对检索结果进行后处理,如聚类、挖掘等。信息检索步骤的流程图:信息检索步骤的流程图:明确用户需求,分析主题选择信息检索工具或数据库确定检索词构造检索表达式提交检索表达式显示与优化检索结果获取原始信息满意修改表达式不满意修改检索词重新选择工具再次确定用户需求Information Organization & Retrieval6.4 6.4 信息检索技术信息检索技术l 6.4.1 书目数据库的检索技术书目数据库的检索技术l6.4.1.1 书目数据库的结构书目数据库的结构n 书目数据库书目数据库主要来源于期刊论文、会议论主要来源于期刊论
43、文、会议论文、研究报告等一次文献,结构简单、数据文、研究报告等一次文献,结构简单、数据量大,连续性积累性强。量大,连续性积累性强。n主要用途是联机检索服务。主要用途是联机检索服务。n主要有文摘索引主要有文摘索引DB和图书馆书目和图书馆书目DBn是以是以文档文档的形式组织起来的,文档的基本组的形式组织起来的,文档的基本组成单位是成单位是记录记录。Information Organization & Retrievall6.4.1.1 书目数据库的结构书目数据库的结构n 记录记录(record)是作为一个单位来处理的有关数据的集合,是对是作为一个单位来处理的有关数据的集合,是对某一实体的属
44、性进行描述的结果。在书目数据库中,被描述的实某一实体的属性进行描述的结果。在书目数据库中,被描述的实体是某一特定的文献,实体的属性就是该文献的持征。体是某一特定的文献,实体的属性就是该文献的持征。n 字段(字段(field)是记录的下级数据单位,用来描述实体的是记录的下级数据单位,用来描述实体的某一属性。在书目数据库的记录中,字段的划分与文献著某一属性。在书目数据库的记录中,字段的划分与文献著录事项的划分相一致,一个字段与一个著录项目相对应。录事项的划分相一致,一个字段与一个著录项目相对应。每个字段的具体内容称为字段值(每个字段的具体内容称为字段值(field value)或属性值(或属性值(
45、attribute value)。)。1.记录与字段Information Organization & Retrievall6.4.1.1 书目数据库的结构书目数据库的结构n逻辑记录:逻辑记录:由应用程序员根据需要,把某些逻辑上相关联由应用程序员根据需要,把某些逻辑上相关联的数据组织在一起的数据集合称为逻辑记录,简称记录。的数据组织在一起的数据集合称为逻辑记录,简称记录。n物理记录:物理记录:是指硬件设备上的一个基本存贮单位,亦称为是指硬件设备上的一个基本存贮单位,亦称为“块块”。随着设备的不同,物理记录有不同的固定类型和长度。随着设备的不同,物理记录有不同的固定类型和长度。一个物理
46、记录可含有一个或多个逻辑记录,而一个逻辑记录。一个物理记录可含有一个或多个逻辑记录,而一个逻辑记录也可能存放在一个或几个物理记录中。也可能存放在一个或几个物理记录中。物理记录是内外存之间物理记录是内外存之间进行数据交换的基本数据单位。进行数据交换的基本数据单位。2.逻辑记录与物理记录Information Organization & Retrievall6.4.1.1 书目数据库的结构书目数据库的结构n(sequential file)全部记录按顺序存放,记录的物理位置通全部记录按顺序存放,记录的物理位置通常由记录的键值决定,记录之间的逻辑顺序与物理顺序一致。常由记录的键值决定,记录
47、之间的逻辑顺序与物理顺序一致。n又称为链式文档或线性文档。又称为链式文档或线性文档。n这种存贮方式决定了对记录的存取只能顺序进行。它使记录这种存贮方式决定了对记录的存取只能顺序进行。它使记录之间紧密排列在一起。文档的之间紧密排列在一起。文档的修改和删除操作简单修改和删除操作简单,但,但插入插入操操作麻烦,存取时间与数据的物理位置有关。作麻烦,存取时间与数据的物理位置有关。3.文档(1)顺序文档Information Organization & Retrievall6.4.1.1 书目数据库的结构书目数据库的结构n是相对顺序文档的另一种存贮方式。文档中的记录按随机方是相对顺序文档的另一
48、种存贮方式。文档中的记录按随机方式存放在支持直接存取的磁盘、磁鼓或内存中。式存放在支持直接存取的磁盘、磁鼓或内存中。n在记录的关键码与存放该记录的地址之间建立某种关系,根在记录的关键码与存放该记录的地址之间建立某种关系,根据这种关系来确定该记录在文档中的位置以及对文档进行存取据这种关系来确定该记录在文档中的位置以及对文档进行存取的方式。的方式。n它的待点是:对记录可以随机存取,不考虑记录在文档中的它的待点是:对记录可以随机存取,不考虑记录在文档中的排列次序。排列次序。3.文档(2)随机文档Information Organization & Retrievall6.4.1.1 书目数据
49、库的结构书目数据库的结构3.文档(3)主文档nmaster filemaster file:每条记录以线性形式存放,都包含了对:每条记录以线性形式存放,都包含了对应信息的所有字段,检索时,只能按其物理顺序读取这些应信息的所有字段,检索时,只能按其物理顺序读取这些记录及其中的字段。记录及其中的字段。n外购、合建或自建数据库经过格式转换(转换成标准格外购、合建或自建数据库经过格式转换(转换成标准格式或本联机系统内部格式)构成检索系统的主文档。式或本联机系统内部格式)构成检索系统的主文档。n主文档的记录为可变长记录,一般采用紧密无间隙地组主文档的记录为可变长记录,一般采用紧密无间隙地组织和组块方式存
50、贮,并建立相应的主文档索引织和组块方式存贮,并建立相应的主文档索引(master master file indexfile index,简写,简写MXMX),),即主文档的索引文档,指明每条即主文档的索引文档,指明每条记录在磁盘中的存贮起始位置。记录在磁盘中的存贮起始位置。MXMX中的数据结构为:中的数据结构为:存取号存取号地址指针地址指针Information Organization & Retrievall6.4.1.1 书目数据库的结构书目数据库的结构n(inverted file,IF)就是把记录中一切可检字段或属性值就是把记录中一切可检字段或属性值等抽出,按某种顺序重新加
51、以组织后所得到的一种文档。等抽出,按某种顺序重新加以组织后所得到的一种文档。n 既可以按不同类型的宇段组成不同的倒排档既可以按不同类型的宇段组成不同的倒排档(如著者倒排档如著者倒排档、主题词倒排档等、主题词倒排档等),也可以把所有不同的字段组成一个混合,也可以把所有不同的字段组成一个混合倒排档。倒排档。n MF MF和和IFIF主要区别是主要区别是:MF以以文档文档的完整记录为处理和检索的完整记录为处理和检索单元,单元,IF则以则以文献的属性文献的属性(即(即记录中的可检字段记录中的可检字段)为处理和为处理和检索单元。检索单元。IF是从是从MF中派生出来的一种文档。中派生出来的一种文档。3.文
52、档(4)倒排文档Information Organization & Retrieval例子:现有一个文献集合001 001 专家系统在信息检索中的应用(标引词:专家系统;专家系统在信息检索中的应用(标引词:专家系统;智能检索系统)智能检索系统)002 002 一种新的倒排档溢出处理算法(标引词:倒排档;一种新的倒排档溢出处理算法(标引词:倒排档;溢出处理)溢出处理)003 003 信息检索专家系统的特点与发展(标引词:专家系信息检索专家系统的特点与发展(标引词:专家系统;智能检索系统)统;智能检索系统)004 004 提问式中的位置算符(标引词:提问逻辑式;位置提问式中的位置算符(标
53、引词:提问逻辑式;位置算符)算符)005 005 提问式准波兰变换算法的研究(标引词:提问逻辑提问式准波兰变换算法的研究(标引词:提问逻辑式;准波兰变换)式;准波兰变换)006 006 智能检索系统的设计与开发(标引词:智能检索系智能检索系统的设计与开发(标引词:智能检索系统)统)Information Organization & Retrieval用“”作为记录分隔符,上面6个信息的主文档如下: 001专家系统在信息检索中的应用专家系统在信息检索中的应用002 一种新的倒排档一种新的倒排档溢出处理算法溢出处理算法003 信息检索专家系统的特点与发展信息检索专家系统的特点与发展004
54、 提问式中的位置算符提问式中的位置算符005 提问式准波兰变换算法提问式准波兰变换算法的研究的研究006 智能检索系统的设计与开发智能检索系统的设计与开发对应的主题倒排文档如下:倒排档倒排档 002提问逻辑式提问逻辑式 004,005位置算符位置算符 004溢出处理溢出处理 002智能检索系统智能检索系统 001,003,006专家系统专家系统 001,003准波兰变换准波兰变换 005Information Organization & Retrievall6.4.1. 1 书目数据库的结构书目数据库的结构n由于主文档中每条记录含可检字段很多,建成的倒排文档很大,由于主文档中每条记录
55、含可检字段很多,建成的倒排文档很大,且其中每个检索键(且其中每个检索键(Key)所带的记录号个数不等,所以可建立)所带的记录号个数不等,所以可建立一种随机文档,采用定长的记录格式,但这样做又浪费了空间。一种随机文档,采用定长的记录格式,但这样做又浪费了空间。n折中的做法是将倒排文档中的检索键和记录号分开处理。用一折中的做法是将倒排文档中的检索键和记录号分开处理。用一个文档单独存贮各种检索键,称为个文档单独存贮各种检索键,称为“词典词典”文档(文档(IX),),按随机按随机方式存贮。其数据结构如下:方式存贮。其数据结构如下:Keynp3.文档(5)“词典”文档Information Organi
56、zation & Retrievalp为地址指针,为地址指针,指向相应的指向相应的倒排倒排文档文档记录的相对记录的相对地址。地址。记录号记录号字段代号字段代号句编号句编号词编号词编号记录个数记录个数Keynp另为词典文档建一顺序文档存贮与检索键对应的记录另为词典文档建一顺序文档存贮与检索键对应的记录号集合,仍称为倒排文档(号集合,仍称为倒排文档(IFIF),它的数据结构为:),它的数据结构为:Key为检索键为检索键的值,如的值,如“著著者名、主题词、者名、主题词、分类号等分类号等”。n为出现的为出现的频率,即有频率,即有关的记录个关的记录个数数。Information Organiza
57、tion & RetrievalKEY13p1KEY22p2KEY3n3p3KEYmnmpm字典文档(字典文档(IXIX)词典文档的倒排词典文档的倒排文档(文档(IFIF)Information Organization & Retrievaln检索系统中各文档之间的关系检索词IX检索词在IF中的地址指针IF命中信息在主文档中的地址MF命中信息MX记录号词表词表文档文档相关词Information Organization & Retrieval以以“智能检索系统智能检索系统”为例:为例:第一步:先利用词典文档获取指针:第一步:先利用词典文档获取指针:智能检索系统智能检
58、索系统3011111第二步:利用指针从词第二步:利用指针从词典文档的倒排文档中获典文档的倒排文档中获取记录号:取记录号:记录记录号号字段代字段代码码001003006Information Organization & Retrieval第三步:利用记录号访问主文档的索第三步:利用记录号访问主文档的索引文档即引文档即MXMX,获取各记录号对应的物,获取各记录号对应的物理地址;理地址;001物理地址物理地址n003物理物理地址地址m006地址地址p第四步:利用记录号对应的物理地址第四步:利用记录号对应的物理地址从主文档中获取完整记录。从主文档中获取完整记录。Information Org
59、anization & Retrievall6.4.1.2 顺序文档的检索技术顺序文档的检索技术 最早由日本人菊池敏典提出,将文档中的每一条记录依最早由日本人菊池敏典提出,将文档中的每一条记录依次匹配用户的检索提问集合,处理完后,将各提问的命中结次匹配用户的检索提问集合,处理完后,将各提问的命中结果归并分发给用户。即用文档中记录一条一条去匹配提问。果归并分发给用户。即用文档中记录一条一条去匹配提问。主要方法有:主要方法有:n1.表展开法表展开法n表展开法的关键技术是采用列表处理方法将提问表展开法的关键技术是采用列表处理方法将提问逻辑式逻辑式(检索式检索式)变换成等价的提问展开表,按提问
60、变换成等价的提问展开表,按提问展开表的内容对顺排文档的每篇文献进行检索。展开表的内容对顺排文档的每篇文献进行检索。n2.树展开法树展开法Information Organization & Retrievall6.4.1.2 顺序文档的检索技术顺序文档的检索技术提问式提问式Q Q(A AB BC C)* *D DE E)* *F F的展开表的展开表地地址址条件满条件满足指向足指向条件不满条件不满足指向足指向级级位位检索词检索词代号代号检索检索条件条件所属所属字段字段检索检索词词14221略略A24323略略B34515略略C46517略略D56不命中不命中09略略E6命中命中不命中不命中011略略FInformation Organization & Retrievall6.4.1.2 顺序文档的检索技术顺序文档的检索技术检索提问式(检索提问式(AB)*(CD)E*F树展开法树展开法Information Organization & Retrieval顺序文档的检索技术表展开法(1)提问的编辑)提问的编辑(表展开法表展开法)例如要检索计算机信息检索方面例如要检索计算机信息检索方面1985198519901990年间出版的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 外贸公司国际贸易经理面试参考题
- 高新企业注册环保类技术人员选拔及面试题分析
- 健康类企业招聘面试题及答案参考
- 办公室主任面试题及答案
- 2026届云南省昆明市云南民族大学附属高级中学高三上学期第四次月考历史试题(含答案)
- 2025年大数据分析中心运营可行性研究报告
- 2025年城市供水管网升级改造项目可行性研究报告
- 2025年农产品电商直播模式可行性研究报告
- 2025年医疗健康监护机器人项目可行性研究报告
- 2025年直播电商生态系统构建项目可行性研究报告
- 基于VAR的证券投资组合优化模型毕业论文
- 人教版小升初考试数学试卷(含解析)重庆市渝北区鲁能巴蜀小学2025年
- 2025年天津红日药业股份有限公司招聘考试笔试参考题库附答案解析
- 卓有成效的管理者要事优先
- 生产车间安全管理检查表及整改措施
- 电厂标识系统KKS编码说明pdf
- 2023年郴州职业技术学院单招职业倾向性考试题库及答案详解1套
- 2025年福建省综合评标专家库考试题库(二)
- 完整版医疗器械基础知识培训考试试题及答案
- 220kV电网输电线路的继电保护设计
- 《无人机地面站与任务规划》 课件全套 第1-9章 概论 -无人机内业数据整与处理
评论
0/150
提交评论