版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章
数字档案馆系统的分析与设计数字档案馆学(第二版)信息系统开发方法介绍01档案信息系统的规划02档案信息系统设计03目录CONTENTS信息系统开发方法介绍01介绍了信息系统开发的一般方法,包括结构化生命周期法、原型法、面向对象的开发方法以及计算机辅助设计工程;分析了档案信息系统规划的方法和可行性研究;最后阐述了档案信息系统设计的步骤和方法。单信息系统开发方法介绍(1)基本思想:运用系统的思想和系统工程的方法,将复杂系统按功能结构进行模块分解和组合,自顶向下地对信息系统进行分析与设计的方法。它采用结构化技术
(结构化分析、结构化设计和结构化实现)来完成软件开发的各项任务。(2)含义:结构化生命周期法将软件生命周期的全过程依次划分为系统分析、系统设计、软件编码、系统测试、系统运行和维护以及系统评估六个阶段,直至建立新的系统。(3)特点:阶段性、推迟实施、文档管理1.结构化生命周期法信息系统开发方法介绍——结构化技术010203根据抽象模型的概念,按照数据传递、变换的关系,自顶向下逐层分解。结构化分析以结构化分析所产生的文档
(包括数据流图、数据字典和软件需求说明书)为基础,自顶向下,逐步求精和模块化的过程。结构化设计在结构化实现阶段,把前一阶段设计的物理模型实现为可运行的软件系统,主要包括编码、软件测试和调试。结构化实现信息系统开发方法介绍——结构化技术02结构化设计A.主要任务:体系结构设计;接口设计;数据设计;过程设计B.理念:结构化设计的核心是模块分解设计。结构化设计最重要的概念包括模块化、内聚与耦合。·模块化:模块应该具有可分解性、可组装性、可理解性、连续性与保护性的特性。·内聚:指一个模块内各个元素彼此结合的紧密程度,它是信息隐蔽和局部化概念的自然扩展。设计时应该力求高内聚度,内聚的模块应当恰好做一件事情。·耦合:耦合是对一个软件结构内不同模块之间互联程度的度量。耦合程度的强弱取决于模块间接口的复杂程度、进入或访问一个模块的点,以及通过接口的数据。模块间的耦合程度强烈影响系统的可理解性、可修改性、可测试性和可靠性,在软件设计中应该追求尽可能松散耦合的系统。结构化设计是软件生命周期的重要组成部分,包括体系结构设计、接口设计、数据设计和过程设计。信息系统开发方法介绍——结构化技术02结构化设计C.工具:控制结构图是结构化设计的一种重要图表工具,与数据流程图、过程结构图和代码一起形成了结构化系统分析与设计技术的主要图表体系。D.步骤:结构化设计通常可分为概要设计和详细设计。·概要设计的任务是确定软件系统的结构,进行模块划分,确定每个模块的功能、接口及模块间的调用关系。采用结构图来描述程序的结构。结构化设计方法有时也使用层次图和HIPO图。·详细设计的任务是为每个模块设计实现细节。详细设计工具用来描述程序处理过程,包括图形工具、表格工具与语言工具,具体包括:程序流程图、盒图(N-S图)、问题分析图、PAD(problemanalysisdiagram)图、过程设计语言(problemdesignlanguage,PDL)和判定表。信息系统开发方法介绍——结构化技术02结构化设计E.具体过程第一步:复查基本系统模型。第二步:熟悉数据流图,复查有无遗漏,对不合理处进行必要的修改,精简数据流图。第三步:确定数据流图的信息流类型是变换型(图7-1)还是事务型(图7-2)。第四步:根据信息流的类型分别实施变换分析或事务分析。单信息系统开发方法介绍(4)局限:结构化生命周期法采取预先定义需求的策略。这种方法的局限在于a.阶段回溯不可避免,延长了系统开发的时间。b.项目的参与者之间往往存在沟通障碍。c.不能从根本上解决让用户参与系统开发的问题,系统维护比较困难。d.文档资料缺乏实用价值。e.用这种技术开发出来的软件,稳定性、可修改性和可重用性都比较差。f.系统开发周期过长。1.结构化生命周期法信息系统开发方法介绍(1)基本思想:开发者和用户在系统的主要需求上取得一致意见后,由开发者在短期内开发出一个功能不是十分完善的、实验性的、简易的应用软件的基本框架
(称为“原型”),先运行这个原型,再不断修改、改进、扩展原型,使之逐步完善,直至形成一个相对稳定的系统。2.原型法(2)优点:符合用户对计算机应用的认识逐步发展、螺旋式上升的规律;容易被不熟悉计算机应用的用户接受,可提高用户参与系统开发的积极性。(3)局限:对于大量需要运算的、逻辑性较强的程序模块来说,原型法很难构造出模型来供人评价;对于原本基础管理不善、信息处理过程混乱的问题,原型法使用起来有一定的困难;由于原型法需要快速形成原型和不断修改演进,因此系统的可变更性高,易于修改。信息系统开发方法介绍(1)基本概念a.对象:从最简单的整数到复杂的飞机等均可看作对象,它不仅能表示具体的事物,还能表示抽象的规则、计划或事件。对象具有静态特征和动态特征。b.类:具有相同或相似性质的对象的抽象就是类。类的实例是对象。类的属性刻画了对象的性质或状态,是对象的状态的抽象,可以用数据结构来描述类的属性。类分为实体类、接口类与控制类。不同的类之间通常有两种主要的结构关系:一般—具体结构关系,又称为分类结构;整体—部分结构关系,又称为组装结构。c.消息和方法:消息就是向对象发出的服务请求,它应该含有提供服务的对象的标识、服务标识、输入信息和回答信息。对象之间的通信可通过消息进行。类中操作的实现过程叫作方法,方法包括方法名、参数与方法体。3.面向对象的开发方法(objectoriented,OO)信息系统开发方法介绍(1)基本概念d.继承与重写:继承规定一个类可以从其他的类
(父类)中派生,并且该派生类继承其父类的接口和相应代码,该派生类又称为子类。重写规定了一个派生类可以创建与父类某种方法不同的实现代码。e.接口:接口是一种约定,它定义了方法、属性、时间和索引器的结构,必须通过创建一个类来实现接口所定义的特征,而不能直接从一个接口创建对象。一种方法可以具有许多不同的接口,但方法的名称是相同的。f.封装:封装是指把方法、属性、事件集中到一个统一的类中,并对使用者屏蔽其中的细节问题。g.多态:多态规定一个同样的函数对于不同的对象可以具有不同的实现。3.面向对象的开发方法(objectoriented,OO)信息系统开发方法介绍(2)特点a.对象的唯一性。在对象的整个生命周期中它的标识都不改变,不同的对象不能有相同的标识。b.抽象性。抽象性是指将具有一致数据结构(属性)和行为(操作)的对象抽象成类。继承性。c.继承性是面向对象的程序设计语言不同于其他语言的最重要特点,是其他语言所没有的。通过类的继承关系,公共的特性能够共享。在软件开发中,类的继承性使所建立的软件具有开放性、可扩充性,减少了对象、类的创建工作量,增加了代码的可重性,提高了软件的重用性。d.多态性。多态性是指相同的操作或函数、过程可作用于多种类型的对象并获得不同的结果。不同的对象收到同一消息可以产生不同的结果,这种现象称为多态性。多态性增强了软件的灵活性和重用性。3.面向对象的开发方法(objectoriented,OO)信息系统开发方法介绍(3)面向对象的软件开发a.面向对象的分析。目的是对客观世界进行建模,对系统将要面临的具体问题以及用户需求进行调查研究,在复杂的问题域中抽象地识别出对象及其结构、属性、方法等。b.面向对象的设计。把分析阶段得到的需求转变成符合成本和质量要求的、抽象的系统实现方案的过程。可以细分为系统设计和对象设计。系统设计确定了实现系统的策略和目标系统的高层结构。对象设计确定类、关联、接口形式及实现操作的算法。面向对象的设计的准则包括:模块化、抽象、信息隐藏、低耦合、高内聚。c.面向对象的实现。包括选择面向对象的程序设计语言、对类的实现、对应用系统的实现和面向对象的测试。3.面向对象的开发方法(objectoriented,OO)信息系统开发方法介绍4.计算机辅助软件工程(CASE)(1)基本概念:采取系统化工程方法,运用人们在信息系统开发过程中积累的大量宝贵经验,利用计算机帮助软件开发人员完成信息系统开发的技术,它集图形处理技术、程序生成技术、关系数据库技术和各类开发工具于一身。它通过具有辅助设计功能的系统,帮助设计人员在计算机上完成设计模型的构造、分析、优化和输出等工作。CASE是一种支持信息系统各种开发技术和方法
(如结构化生命周期法、原型法、面向对象的开发方法)的计算机技术,是从第四代语言(4GL)发展而来的大型综合型软件开发技术。信息系统开发方法介绍4.计算机辅助软件工程(CASE)(2)CASE工具:包括CASE分析与设计工具、CASE代码生成工具、CASE测试工具、CASE维护工具、CASE用户界面开发工具与CASE管理工具。CASE工具的特点:提高信息系统的开发效率,加快信息系统的开发进程;降低信息系统的开发费用;实现系统设计的恢复和逆向软件工程的自动化,自动产生程序代码,自动进行各类检查和校验;项目管理和控制实现自动化;软件工具高度集成化;提高信息系统的开发质量,提高软件的复用性和可移植性。档案信息系统的规划02信息系统规划是关于信息系统长远发展的计划。由于数字档案馆信息系统的开发是一个复杂程度高、投资大、周期长的复杂工程,因而在开发之前,应根据档案馆发展目标对系统进行全面规划和可行性分析。档案信息系统规划的方法战略集转化法SST·把整个战略目标看成一个信息集合,由使命、目标、策略和其他战略变量组成。·步骤:识别组织的战略集;将档案馆战略集转化成档案管理信息系统战略,档案管理信息系统战略应包括系统目标、约束以及设计原则等。关键成功因素法CSF·以关键因素为依据来确定系统信息需求的一种总体规划方法。·通过分析找出档案馆成功的关键因素,然后再围绕这些关键因素来确定系统的需求,找出实现目标所需的关键信息集合,从而确定系统开发的优先次序。·识别档案馆关键成功因素所用的工具是树枝因果图。·关键成功因素的识别包含以下步骤:了解组织目标;识别关键成功因素;识别性能的指标和标准;识别测量性能的数据。档案信息系统规划的方法系统规划法BSP·一种能够帮助系统规划人员根据企业目标制定管理信息系统战略规划的结构化方法。·通过这种方法可以做到:确定未来信息系统的总体结构,明确子系统组成和开发子系统的先后顺序;对数据进行统一规划、管理和控制,明确各子系统之间的数据交换关系,保证信息的一致性。·优点:能使信息系统具有对环境变更的适应性。·步骤:档案信息系统规划的可行性研究STEP1STEP2STEP3STEP4画出业务流程图先进行档案馆组织结构和功能分析,然后画出档案馆组织结构图与档案馆组织业务关系图,绘制业务功能一览表,最后画出业务流程图。编写数据字典数据字典条目的内容包括:数据项;数据结构;数据流;数据存储;处理过程;外部实体。需求分析强调档案馆的参与,要完整掌握现行档案信息系统的情况,发现存在的问题和薄弱环节,收集相关资料,为下一步的系统分析和提出新系统的逻辑设计做好准备。画出数据流程图具体步骤:(1)调查数据的汇总分析;(2)画数据流图;档案信息系统设计03档案信息系统设计是数字档案馆建设的关键环节。档案信息系统设计的思路决定着数字档案馆系统的功能、稳定性与可扩展性,同时它提供了信息化时代档案业务人员要遵循的全新的工作流程和操作规范。档案信息系统设计的原则系统性实用性经济性安全性规范性适应性目前系统设计主要采取自顶向下的结构化系统设计方法。结构化系统设计的主要工作包括:总体设计;代码设计和设计规范的制定;数据库设计;计算机处理过程设计;功能模块设计;系统物理配置方案的设计。(系统设计文件是最终实现信息系统的重要基础)档案信息系统的总体设计1.系统划分的一般原则系统划分就是将档案馆按业务功能划分为若干相互独立的子系统。子系统划分的原则如下:(1)结构划分易理解(2)便于新旧系统间过渡。(3)子系统具有相对独立性。(4)有利于减少数据冗余。(5)便于系统分阶段实现。(6)兼顾组织机构的要求,以便系统实现后能够符合现有的情况和人们的习惯,更好地运行。(7)考虑各类资源的充分利用,保证设备资源、信息资源的合理分布和充分使用,以减少系统对网络资源的过分依赖,减少输入、输出、通信等设备的压力。2.数字档案馆系统划分在数字档案馆系统进行总体设计时,首先要进行系统划分,确定数字档案馆信息系统的子系统与功能模块,这是后续设计工作的指南。下面以
《电子档案管理系统基本功能规定》(档办发〔2017〕3号)所列举的档案管理软件功能以及深圳市档案馆、天津泰达档案馆的实际做法为例进行阐述。档案管理软件功能(1)档案接收与整理功能(2)档案保存功能(3)档案利用功能(4)档案鉴定与处置功能(5)档案统计功能(6)系统管理功能电子档案管理系统应具备用户信息管理功能,支持系统管理员、系统安全保密员和系统安全审计员的“三员”分立的安全控制,支持电子档案管理用户的分组、分类管理,以及按照功能和数据进行授权等。档案信息系统的总体设计2.数字档案馆系统划分深圳市档案馆应用信息系统模块设计(1)电子档案信息收集模块。该模块负责采集各类电子档案信息并将其输入系统。根据数字档案来源,在此模块下设立了三个子系统:馆藏资源数字化系统、信息接收系统、信息搜寻系统(2)电子档案信息管理模块。主要负责对采集到的信息进行整理、分类、管理,使大量无序的信息有序化。(3)电子档案信息利用模块。该模块包括档案信息开发、综合智能查询、网站信息发布与光盘发布等子系统。(4)电子档案信息安全维护模块。档案信息系统的总体设计2.数字档案馆系统划分
天津泰达档案馆系统(1)电子文件处理中心。(2)档案信息采集子系统。该模块完成各种档案信息资料进入档案馆的任务,包括收集、整理、数字化、修复等工作。(3)档案核心管理子系统。包括档案信息标准化、分类及主题词标引、元数据录入、鉴定、目录管理、报表制作、信息统计以及信息备份等。(4)档案信息利用系统。(5)档案库房管理子系统。(6)档案咨询服务平台。借助呼叫中心建立此服务平台,使用户能够方便、快捷地享受数字档案馆提供的服务。(7)应用系统维护平台。档案信息系统的总体设计代码的分类代码的类型包括数字型、字母型、数字字母混合型等。根据代码的功能和结构,可以将代码进行分类:档案信息系统的总体设计3.档案信息系统的代码设计代码也叫信息编码,是用来表征客观事物的唯一一组有序的符号。代码设计的内容包括:各类代码名称、功能、相应的编码表、使用范围、使用要求及对代码的评价。代码设计方法顺序编码法;重复编码法;分组编码法;表意编码法;专用编码法;组合编码法;十进制编码法。除此之外,还有组类编码法、按位编码法、区块编码法、字母编码法等,各自适用于不同的编码对象。上述编码方法各有优缺点,在档案信息系统的设计过程中,应根据编码对象的特点和系统处理的要求进行代码设计。代码的特点唯一性;合理性;简单性;标准化;系统性;可扩充性和稳定性;便于识别和记忆;短小精悍;容易修改。档案信息系统的总体设计3.档案信息系统的代码设计代码设计步骤严格地讲,代码设计是从编制数据字典开始的。具体来说,代码设计的步骤如下:(1)确定代码编制目的。(2)确定编码对象,调查已在使用的代码系统。(3)确定代码使用场合和使用期限。(4)分析编码对象的使用要求。如使用频率、变更周期、输出要求等。(5)根据代码的使用范围、使用时间,确定具体编码方法,考虑是否采用检验位。(6)针对每种代码编写代码设计书,对代码做详细说明。(7)将总代码设计书归类,编写代码簿,并建立代码管理制度。档案信息系统的总体设计3.档案信息系统的代码设计档案信息系统中的代码档案信息系统中常用的代码包括档案馆代码、档案文件代码、部门代码、人员代码、用户代码等。档案信息系统的总体设计4.档案数据库设计数据库是数字档案馆系统中至关重要的一个组成部分,也是档案信息系统开发中的一项重要工作。数据库技术的广泛应用,为研制各类新型的信息系统提供了有力的支持。5.档案信息系统计算机处理过程设计(1)输入输出设计(input/output,I/O)输入设计涉及输入方式、格式、输入校对:·输入方式的设计主要是根据总体设计和数据库设计的要求来确定数据输入的具体形式。·在设计数据输入格式时,应严格按照数据字典和代码设计的实际标准统一格式。·对于一些重要的报表,输入设计一定要考虑适当的校对措施,以减少出错。一般对输出信息的基本要求是:准确、及时、适用。输出设计的详细步骤包括:确定输出类型与输出内容、确定输出方式
(设备与介质)、表格设计等。常用的最终输出方式有两种:一种是报表输出,另一种是图形输出。应根据系统分析和管理业务的要求而定。档案信息系统的总体设计5.档案信息系统计算机处理过程设计(2)处理流程设计处理流程设计的主要任务是设计出系统的所有模块以及模块之间的相互关系,并具体地设计出每个模块内部的功能和处理过程。结构化的处理流程设计通常采取输入输出(inputprocessoutput,IPO)图、控制流程图
(flowchart,FC)、问题分析图
(problemanalysisdiagram,PAD)完成工作。档案信息系统的总体设计5.档案信息系统计算机处理过程设计(3)界面设计用户界面设计应坚持友好、简便、实用、易于操作的原则。界面设计通常采用菜单方式、会话管理方式、操作提示方式三种方式(4)编写程序设计说明书·程序设计说明书包括概要设计说明书与详细设计说明书。·程序设计说明书是对软件系统的设计和实现进行描述和记录的文档。·它包含系统的功能、模块的设计和实现细节、数据结构、算法、接口定义、输入输出格式等内容。·程序设计说明书是开发人员向其他团队成员、项目经理、测试人员以及维护人员传达程序设计思想和实现细节的重要手段。它不仅可以帮助团队成员理解代码的设计和功能,还可以提供项目开发和维护的指导。档案信息系统的总体设计6.档案信息系统环境的配置(1)档案信息系统的硬软件配置·服务器系统。服务器系统作为数字档案馆的应用服务基础和后台,要具有强大的能力。·企业级服务器。企业级服务器主要适用于需要处理大量数据、对处理速度和可靠性要求极高的大型企业和重要行业。·高性能的部门级服务器。部门级服务器适合中型企业作为数据中心、web站点等应用,集成大量的监测和管理功能,能够提供强大的数据管理能力。·档案数据库管理系统。数据库管理系统是一种操纵和管理数据库的大型软件,用于建立、使用和维护数据库。·开发工具。后台服务端的开发工具一般与数据库管理系统软件联系比较紧密,使用数据库管理系统提供的开发工具开发的后台服务软件更适应数据库系统的操作。档案信息系统的总体设计6.档案信息系统环境的配置(2)档案信息网络设计计算机网络可分为局域网、广域网和城域网。·局域网是指档案馆办公大楼内的以internet技术为基础的网络系统;·广域网是指把档案馆局域网作为市政府的子网的网络系统,还包括县区档案馆远程与档案馆大楼内部网的连接;·城域网则是指通过互联网接入系统。档案信息系统的总体设计7.系统安全设计(1)系统的安全性系统的安全性是指系统能自动抵御来自外部和内部威胁的能力。对系统的威胁,通常分为偶然的、被动的和主动的三种。(2)系统的可维护性系统的可维护性是指当系统交付使用后,能方便地改正错误或为了满足新的需要而改进系统。系统的可维护性分为硬件的可维护性和软件的可维护性。决定软件可维护性的因素有可理解性、可测试性、可修改性。(3)系统设计说明书系统设计说明书是系统设计阶段的主要成果,是新系统的物理模型,也是系统实施的重要依据。系统设计说明书主要包括需求分析说明书、概要设计说明书、详细设计说明书等。谢
谢
观
看数字档案馆学(第二版)第八章
数字档案信息检索数字档案馆学(第二版)档案信息检索的基本原理01文本数字档案信息检索02图像档案信息检索03目录CONTENTS音频档案信息检索0405视频档案信息检索档案信息检索的基本原理01数据库子系统与检索子系统是数字档案馆建设最重要的两个组成部分。所有的信息资源集合都需要依靠信息检索技术实现信息的查询。从原理上讲,档案信息检索与其他资源的信息检索是相同的,但是由于档案文件之间的有机联系和档案组织方式的层级特征,档案信息检索的实现更为复杂。档案信息检索的基本原理01档案信息检索的基本原理是将用户的检索提问标识和档案文件的检索标识进行比较,找出完全或部分匹配的结果输出给用户的过程,可以抽象概括为在信息集合与需求集合之间比对,选择匹配度较高、满足用户信息需求的过程。档案信息检索的过程档案信息检索的基本原理02对档案文件的内容特征,包括分类特征和主题特征进行识别,这个过程称为标引。标引的实质是由标引人员或计算机自动分析档案文件的内容,将提取出来的内容特征通过检索语言转变为分类号、主题词、关键词等检索标识的过程。其中,赋予档案文件主题词的过程称为主题标引,赋予档案文件分类号的过程称为分类标引。档案文件的标引(1)主题标引主题标引包括主题分析与用词转换两个工作步骤。用词转换指选用相应的检索语言对词语进行规范。标引的质量对档案文件的检索效果有直接影响。一般采用穷举度与一致性来衡量标引的质量。·穷举度指标引时将档案文件所讨论的全部主题反映出来的程度。穷举度高有利于提高查全率。·一致性是指不同标引人员或同一标引人员在不同时期,对同一主题档案文件进行标引时,对其主题归类的一致程度。一致性强则有利于提高查准率。自动标引是指利用计算机代替人对档案进行标引。在自动标引前,首先需要将文献转化为机读形式。自动标引有两种形式:抽词标引与赋词标引。档案信息检索的基本原理02档案文件的标引(2)分类标引档案分类标引需要主题分析与分类号转换两个步骤。首先要对档案文件进行周密的主题分析,把握所论述的对象,然后依据
《中国档案分类法》及其使用指南,给出分类标识。档案分类标引应充分考虑实际的检索需求和检索方式,根据档案的具体内容和用途,选定适当的标引深度。同主题标引一样,档案的分类标引也应保持一致。档案分类标引的一致性要求各种文本、载体类型的同一主题档案所标引的分类号均应一致。(3)检索语言检索语言是用来描述信息资源特征和进行资源检索的人工语言,是应信息的加工、存储和检索的共同需要而编制的专门语言,是表达一系列概括档案信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。检索语言是沟通信息存储与信息检索两个过程的桥梁。在信息存储过程中,用它来描述信息的内容和外部特征,从而形成检索标识;在检索过程中,用它来描述检索提问,从而形成提问标识。当提问标识与检索标识完全匹配或部分匹配时,即命中文献。档案信息检索的基本原理03标引是对档案内容特征的揭示和记录,是档案著录工作的一个组成部分。档案著录是档案编目的基础,也是形成检索工具的基础。档案文件的著录与编目(1)著录我国档案著录主要依据《档案著录规则
》著录项目在条目中的排列顺序及其表达方式称为著录格式。档案著录的结果称为条目,又称为款目,是反映文件或案卷内容和形式特征的著录项目的组合。(2)编目编目就是将著录形成的条目按一定的顺序组织成目录的过程。它包括著录、标引、组织、制作目录四项基本操作。(3)检索工具档案检索工具是用于存储、查找和报道档案信息的系统化文字描述工具,是目录、索引、指南等的统称。检索工具的特点是:详细描述档案文件的内容特征与外部特征;每条记录必须有检索标识;所有条目按一定顺序形成一个有机整体。档案信息检索的基本原理04档案信息查找是从已有档案检索工具中检索出与用户提问相关的信息,包括档案文件、事实、数据等。包括数据检索、事实检索
、档案文件检索。衡量档案信息检索质量的两个重要指标是查全率与查准率。·查全率是指检出的相关文献与文献集合中全部相关文献的百分比。查全率=(检索出的相关信息量/系统中的相关信息总量)×100%漏检率即未检出的相关文献量与文献集合中相关文献总量之比。漏检率=1-查全率·查准率是衡量某一检索系统的信号噪声比的一种指标,即检出的相关文献与全部检出文献的百分比。查准率=(检索出的相关信息量/检索出的信息总量)×100%误检率即检出的不相关文献占全部检出文献的百分比。误检率=1-查准率档案信息查找文本数字档案信息检索02文本信息检索常常被等同于信息检索本身,是大部分网络搜索引擎的基础。其他形态信息的检索技术,也是在文本信息检索的基础上发展而来的,也需要文本信息检索技术的支持。文本数字档案信息检索1.数字档案信息的组织档案信息检索的第一步是档案信息的序化、组织与存储,然后才是档案信息的查找。数字档案文件在数据库中是以文档的形式存储的。(1)文档的组成文档是数据库中数据管理的有效组织形式,是具有相同性质的档案文件记录的集合。文档的结构形式包括基本数据项或称字段、组合数据项、记录、文档。(2)文档的分类从信息检索的角度来看,档案文件数据库包括顺排文档与倒排文档两个部分。倒排文档索引的优势包括:文献特征标识或关键词个数远远少于文档中的记录数量;易于同各种信息检索算法模型相结合。使用倒排文档可以缩短检索时间,提高检索效率。文本数字档案信息检索2.信息检索的算法模型把一个信息检索系统形式化地描述为一个四元组:
D表示某系统中经过标引的文献或档案文件集合;T表示所有可能存在的标引词集合;Q表示提问集合;ρ为匹配函数;R为函数值集合。(1)单项信息检索模型单项信息检索模型是最简单的信息检索模型。它将文献集合中的每一文献用一个或多个主题词标引,检索提问由单个主题词构成。检索的匹配标准是,若提问式中的主题词属于某文献标引词集合中的成员,则该文献为命中文献。否则,系统对提问的响应是文献不被检出。此模型的优点是:检索过程简单,为人们所熟知且使用广泛。但是其检索效果往往不好,尤其是当文献集合很大时,需要花费很长的时间。文本数字档案信息检索2.信息检索的算法模型(2)布尔检索模型布尔模型采用布尔代数的方法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑比较来检索文献。布尔检索模型的基本运算是“与”(and)、“或”(or)、“非”(not)的运算。布尔检索模型具有简单、易理解、易实现以及能处理结构化提问等优点。传统布尔检索模型的具体缺陷主要表现在以下几个方面。·对于复杂的检索课题而言,构造一个好的检索式是不容易的。·不能区分出检索提问式中的各组配元的重要程度。·僵化的准确匹配策略,难以区分出检索结果与检索提问的相关程度。文本数字档案信息检索2.信息检索的算法模型(3)向量空间模型在向量空间模型中,可以把检索系统中的文献合和提问集合表示如下:式中,
为文献集合中第j篇文献;
为提问集合中的第k个提问;
表示文献向量中的N个分量,也就是文献表示的第N个标引词,
表示提问向量中的N个分量,也就是提问式中所含的第N个检索词。(4)概率检索模型利用概率论的原理,通过赋予标引词某种概率值来表示这些词在相关文献集合或无关文献集合中出现的概率,然后计算某一给定文献与某给定提问相关的概率,最后系统据此做出检索决策。文本数字档案信息检索2.信息检索的算法模型(5)模糊集合模型把文献看作与某个提问在某一程度上相关。在信息检索系统中,对每个标引词,都存在一个模糊的文献集合与之相关。同时,对某一给定的标引词,用某种隶属函数去表示每个文献与该词相关的程度,即隶属度,在0~1之间取值。(6)扩展布尔检索模型用一个标准化的距离函数
(基于线性向量范数)来匹配提问式与文献,当某一给定文献中出现较多提问词时,它的值就大于含提问词较少的文献。文本数字档案信息检索3.数字档案信息检索技术根据不同的标准,数字档案信息的检索可以划分为不同的类型。根据计算机检索服务的方式可以划分为:定题检索、回溯检索与日常检索。根据检索的技术方式可以划分为:脱机检索、联机检索、光盘检索与网络检索。档案信息检索系统常用的检索策略有:布尔逻辑检索、截词检索、位置检索、限制检索与聚类检索。4.档案信息检索的步骤(1)选择合适的数据库,确定检索途径(2)分析课题内容,进行概念分析,提炼出主题概念,运用检索语言将检索词转换成系统采用的检索标识。(3)用逻辑运算符构造提问表达式(4)利用档案信息检索系统进行检索,对检出结果进行相关性分析和评价。(5)必要时对检索词或检索式进行修改,直到检出符合要求的结果。(6)查找原文。图像档案信息检索03单图像档案信息检索基于内容的图像检索CBIR,是指在图像数据库中找出具有特定视觉特征的图像的过程。·基于内容的图像检索技术的优势在于:可以利用图像的颜色、纹理及形状等特征进行检索。该技术可以帮助用户从多种途径找到图像内容信息,由于采用示例检索,且界面友好,用户比较容易接受。·基于内容的图像检索需要以图像特征索引库的建立为基础。·从本质上讲,基于内容的图像检索是一种结合了计算机视觉
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 景区安全责任制度汇编
- 2025年广州市天河区智谷第二幼儿园公开招聘编外聘用制专任教师备考题库有完整答案详解
- 2025年成都东部新区面向全国公开选调事业单位工作人员40人备考题库带答案详解
- 山东省2026年春季高考技能测试学前教育类专业考试模拟样题及参考答案
- 落实相关责任人责任制度
- 幼儿园抚养责任制度实施细则
- 生活垃圾监管责任制度
- 妇产科院感工作责任制度
- 洗煤厂文明生产责任制度
- 江苏治安岗亭责任制度
- 马戏团表演行业分析报告及未来三年行业发展报告
- 新部编版六年级语文下册一单元考试卷附答案
- 部编版五年级道德与法治下册全册必背知识点
- 《销售人员培训教材》课件
- 初中音乐八年级上册(简谱) ☆御风万里
- 樱与刀:日本民间故事集
- 中建路基挡土墙施工方案
- 项目一 新能源汽车维护作业前场地要求与准备
- GB/T 42756.1-2023卡及身份识别安全设备无触点接近式对象第1部分:物理特性
- 中国精神障碍分类与诊断标准第3版
- Listen-to-This-2英语中级听力答案+原文整理版
评论
0/150
提交评论