版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章
数字档案信息检索数字档案馆学(第二版)档案信息检索的基本原理01文本数字档案信息检索02图像档案信息检索03目录CONTENTS音频档案信息检索0405视频档案信息检索档案信息检索的基本原理01数据库子系统与检索子系统是数字档案馆建设最重要的两个组成部分。所有的信息资源集合都需要依靠信息检索技术实现信息的查询。从原理上讲,档案信息检索与其他资源的信息检索是相同的,但是由于档案文件之间的有机联系和档案组织方式的层级特征,档案信息检索的实现更为复杂。档案信息检索的基本原理01档案信息检索的基本原理是将用户的检索提问标识和档案文件的检索标识进行比较,找出完全或部分匹配的结果输出给用户的过程,可以抽象概括为在信息集合与需求集合之间比对,选择匹配度较高、满足用户信息需求的过程。档案信息检索的过程档案信息检索的基本原理02对档案文件的内容特征,包括分类特征和主题特征进行识别,这个过程称为标引。标引的实质是由标引人员或计算机自动分析档案文件的内容,将提取出来的内容特征通过检索语言转变为分类号、主题词、关键词等检索标识的过程。其中,赋予档案文件主题词的过程称为主题标引,赋予档案文件分类号的过程称为分类标引。档案文件的标引(1)主题标引主题标引包括主题分析与用词转换两个工作步骤。用词转换指选用相应的检索语言对词语进行规范。标引的质量对档案文件的检索效果有直接影响。一般采用穷举度与一致性来衡量标引的质量。·穷举度指标引时将档案文件所讨论的全部主题反映出来的程度。穷举度高有利于提高查全率。·一致性是指不同标引人员或同一标引人员在不同时期,对同一主题档案文件进行标引时,对其主题归类的一致程度。一致性强则有利于提高查准率。自动标引是指利用计算机代替人对档案进行标引。在自动标引前,首先需要将文献转化为机读形式。自动标引有两种形式:抽词标引与赋词标引。档案信息检索的基本原理02档案文件的标引(2)分类标引档案分类标引需要主题分析与分类号转换两个步骤。首先要对档案文件进行周密的主题分析,把握所论述的对象,然后依据
《中国档案分类法》及其使用指南,给出分类标识。档案分类标引应充分考虑实际的检索需求和检索方式,根据档案的具体内容和用途,选定适当的标引深度。同主题标引一样,档案的分类标引也应保持一致。档案分类标引的一致性要求各种文本、载体类型的同一主题档案所标引的分类号均应一致。(3)检索语言检索语言是用来描述信息资源特征和进行资源检索的人工语言,是应信息的加工、存储和检索的共同需要而编制的专门语言,是表达一系列概括档案信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。检索语言是沟通信息存储与信息检索两个过程的桥梁。在信息存储过程中,用它来描述信息的内容和外部特征,从而形成检索标识;在检索过程中,用它来描述检索提问,从而形成提问标识。当提问标识与检索标识完全匹配或部分匹配时,即命中文献。档案信息检索的基本原理03标引是对档案内容特征的揭示和记录,是档案著录工作的一个组成部分。档案著录是档案编目的基础,也是形成检索工具的基础。档案文件的著录与编目(1)著录我国档案著录主要依据《档案著录规则
》著录项目在条目中的排列顺序及其表达方式称为著录格式。档案著录的结果称为条目,又称为款目,是反映文件或案卷内容和形式特征的著录项目的组合。(2)编目编目就是将著录形成的条目按一定的顺序组织成目录的过程。它包括著录、标引、组织、制作目录四项基本操作。(3)检索工具档案检索工具是用于存储、查找和报道档案信息的系统化文字描述工具,是目录、索引、指南等的统称。检索工具的特点是:详细描述档案文件的内容特征与外部特征;每条记录必须有检索标识;所有条目按一定顺序形成一个有机整体。档案信息检索的基本原理04档案信息查找是从已有档案检索工具中检索出与用户提问相关的信息,包括档案文件、事实、数据等。包括数据检索、事实检索
、档案文件检索。衡量档案信息检索质量的两个重要指标是查全率与查准率。·查全率是指检出的相关文献与文献集合中全部相关文献的百分比。查全率=(检索出的相关信息量/系统中的相关信息总量)×100%漏检率即未检出的相关文献量与文献集合中相关文献总量之比。漏检率=1-查全率·查准率是衡量某一检索系统的信号噪声比的一种指标,即检出的相关文献与全部检出文献的百分比。查准率=(检索出的相关信息量/检索出的信息总量)×100%误检率即检出的不相关文献占全部检出文献的百分比。误检率=1-查准率档案信息查找文本数字档案信息检索02文本信息检索常常被等同于信息检索本身,是大部分网络搜索引擎的基础。其他形态信息的检索技术,也是在文本信息检索的基础上发展而来的,也需要文本信息检索技术的支持。文本数字档案信息检索1.数字档案信息的组织档案信息检索的第一步是档案信息的序化、组织与存储,然后才是档案信息的查找。数字档案文件在数据库中是以文档的形式存储的。(1)文档的组成文档是数据库中数据管理的有效组织形式,是具有相同性质的档案文件记录的集合。文档的结构形式包括基本数据项或称字段、组合数据项、记录、文档。(2)文档的分类从信息检索的角度来看,档案文件数据库包括顺排文档与倒排文档两个部分。倒排文档索引的优势包括:文献特征标识或关键词个数远远少于文档中的记录数量;易于同各种信息检索算法模型相结合。使用倒排文档可以缩短检索时间,提高检索效率。文本数字档案信息检索2.信息检索的算法模型把一个信息检索系统形式化地描述为一个四元组:
D表示某系统中经过标引的文献或档案文件集合;T表示所有可能存在的标引词集合;Q表示提问集合;ρ为匹配函数;R为函数值集合。(1)单项信息检索模型单项信息检索模型是最简单的信息检索模型。它将文献集合中的每一文献用一个或多个主题词标引,检索提问由单个主题词构成。检索的匹配标准是,若提问式中的主题词属于某文献标引词集合中的成员,则该文献为命中文献。否则,系统对提问的响应是文献不被检出。此模型的优点是:检索过程简单,为人们所熟知且使用广泛。但是其检索效果往往不好,尤其是当文献集合很大时,需要花费很长的时间。文本数字档案信息检索2.信息检索的算法模型(2)布尔检索模型布尔模型采用布尔代数的方法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑比较来检索文献。布尔检索模型的基本运算是“与”(and)、“或”(or)、“非”(not)的运算。布尔检索模型具有简单、易理解、易实现以及能处理结构化提问等优点。传统布尔检索模型的具体缺陷主要表现在以下几个方面。·对于复杂的检索课题而言,构造一个好的检索式是不容易的。·不能区分出检索提问式中的各组配元的重要程度。·僵化的准确匹配策略,难以区分出检索结果与检索提问的相关程度。文本数字档案信息检索2.信息检索的算法模型(3)向量空间模型在向量空间模型中,可以把检索系统中的文献合和提问集合表示如下:式中,
为文献集合中第j篇文献;
为提问集合中的第k个提问;
表示文献向量中的N个分量,也就是文献表示的第N个标引词,
表示提问向量中的N个分量,也就是提问式中所含的第N个检索词。(4)概率检索模型利用概率论的原理,通过赋予标引词某种概率值来表示这些词在相关文献集合或无关文献集合中出现的概率,然后计算某一给定文献与某给定提问相关的概率,最后系统据此做出检索决策。文本数字档案信息检索2.信息检索的算法模型(5)模糊集合模型把文献看作与某个提问在某一程度上相关。在信息检索系统中,对每个标引词,都存在一个模糊的文献集合与之相关。同时,对某一给定的标引词,用某种隶属函数去表示每个文献与该词相关的程度,即隶属度,在0~1之间取值。(6)扩展布尔检索模型用一个标准化的距离函数
(基于线性向量范数)来匹配提问式与文献,当某一给定文献中出现较多提问词时,它的值就大于含提问词较少的文献。文本数字档案信息检索3.数字档案信息检索技术根据不同的标准,数字档案信息的检索可以划分为不同的类型。根据计算机检索服务的方式可以划分为:定题检索、回溯检索与日常检索。根据检索的技术方式可以划分为:脱机检索、联机检索、光盘检索与网络检索。档案信息检索系统常用的检索策略有:布尔逻辑检索、截词检索、位置检索、限制检索与聚类检索。4.档案信息检索的步骤(1)选择合适的数据库,确定检索途径(2)分析课题内容,进行概念分析,提炼出主题概念,运用检索语言将检索词转换成系统采用的检索标识。(3)用逻辑运算符构造提问表达式(4)利用档案信息检索系统进行检索,对检出结果进行相关性分析和评价。(5)必要时对检索词或检索式进行修改,直到检出符合要求的结果。(6)查找原文。图像档案信息检索03单图像档案信息检索基于内容的图像检索CBIR,是指在图像数据库中找出具有特定视觉特征的图像的过程。·基于内容的图像检索技术的优势在于:可以利用图像的颜色、纹理及形状等特征进行检索。该技术可以帮助用户从多种途径找到图像内容信息,由于采用示例检索,且界面友好,用户比较容易接受。·基于内容的图像检索需要以图像特征索引库的建立为基础。·从本质上讲,基于内容的图像检索是一种结合了计算机视觉、图像处理、图像理解以及数据库技术的综合技术。1.图像信息检索原理图像档案信息检索颜色特征的提取主要有四种方法:颜色直方图、颜色相关图、颜色矩与颜色一致性向量。颜色直方图方法是最常用的方法。颜色直方图方法描述了颜色图像统计的分布特征。2.基于颜色特征的图像检索纹理特征包括粗糙度、方向性和对比度。基于纹理特征的图像检索就是计算用户示例的图像与数据库图像之间的纹理相似度。纹理相似度的计算包括两个要素,一是纹理的表示,二是根据相应的纹理表示定义相应的纹理相似度。常用的纹理表示方法有统计法、结构法、模型法与频谱法。3.基于纹理特征的图像检索4.基于形状的图像检索基于形状的图像检索可以分为两种:一种是基于轮廓,该方法只利用形状的外轮廓,而不考虑形状内部的特征;另一种是基于区域,该方法则是利用形状的整个区域特征。形状特征的提取方法包括两种:利用图像轮廓信息进行检索的轮廓算法和利用区域图像灰度分布信息进行检索的区域算法。单图像档案信息检索图像检索系统通过计算待查询图像和库中图像特征的相似度,经排序过滤后按照相似度由大到小输出检索结果。检索步骤为:由用户提供要查询的示例图像,系统根据示例图像自动提取其特征,然后在数据库中查找出所有与示例图像特征相似的图像。5.基于内容的图像档案信息检索系统音频档案信息检索04音频档案信息检索音频信息的类型·波形声音,波形声音是模拟声音数字化而得到的数字音频信号。·语音是一种高度抽象的概念交流媒体。·音乐是人声或乐器音响等配合所构成的一种声音。音频档案信息检索语音检索语音检索是以语音为中心的检索,基于语音技术的检索是利用语音处理技术检索音频信息。语音检索有如下几类:·利用大词汇语音识别技术进行检索·基于子词单元进行检索·基于识别关键词进行检索·基于说话人的辨认进行分割音频检索音频检索是以波形声音为对象的检索。音频数据的训练、分类和分割方便了音频数据库的浏览和查找,基于听觉特征的检索为用户提供了高级的音频查询接口。这里的音频检索是针对广泛的声音数据的检索,分析和检索的音频可以包含语音和音乐,但采用的是更一般的声学特性分析方法。音频档案信息检索音乐检索音乐检索是以音乐为中心的检索,利用音乐的音符和旋律等特性来检索,如检索乐器、声乐作品等。音乐检索利用的是诸如节奏、音符、乐器等特征。节奏是可度量的节拍,是音乐周期特性的表示。音乐的许多特征是随时间变化的,所以可以运用统计方法度量音乐的特征,包括基本频率检索法与基音抽取算法。基于内容的音频档案查询基于内容的音频档案查询是一种相似查询,它实际上是检索出与用户指定的要求非常相似的所有声音,可以指定返回的声音数或相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年太湖创意职业技术学院单招综合素质考试题库及答案详解(网校专用)
- 2026年安徽工商职业学院单招职业倾向性测试题库及答案详解(夺冠)
- 2026年安徽工商职业学院单招职业倾向性考试题库带答案详解(典型题)
- 2026年安徽工商职业学院单招职业技能考试题库附答案详解(黄金题型)
- 2026年安徽工商职业学院单招职业适应性考试题库及答案详解(各地真题)
- 2026年安徽工贸职业技术学院单招综合素质考试题库含答案详解(a卷)
- 2026年安徽工贸职业技术学院单招职业倾向性测试题库带答案详解(基础题)
- 2026年安徽工贸职业技术学院单招职业倾向性考试题库带答案详解(a卷)
- 2026年安徽工贸职业技术学院单招职业技能测试题库带答案详解(黄金题型)
- 2026年安徽工贸职业技术学院单招职业适应性考试题库及答案详解一套
- OpenClaw发展研究1.0报告 by 清新研究
- 2025届北汽集团全球校园招聘正式开启(1000+岗位)笔试参考题库附带答案详解
- 文明礼仪教育主题活动方案
- 电子行业跟踪报告:OpenClaw助力AIAgent技术范式升级
- GB/T 1534-2026花生油
- 2026年新能源产业发展政策解读试题
- 2026天津市津鉴检测技术发展有限公司招聘工作人员14人笔试备考试题及答案解析
- 2026年春季人教PEP版四年级下册英语Unit 1 Class rules 教案(共6课时)
- 2025geis指南:软组织肉瘤的诊断和治疗课件
- 2026广东汕头市公安局招聘警务辅助人员152人考试参考试题及答案解析
- 2026年人工智能技术应用与发展试题
评论
0/150
提交评论