(计算机应用技术专业论文)分布式数字化档案馆的研究与实现.pdf_第1页
(计算机应用技术专业论文)分布式数字化档案馆的研究与实现.pdf_第2页
(计算机应用技术专业论文)分布式数字化档案馆的研究与实现.pdf_第3页
(计算机应用技术专业论文)分布式数字化档案馆的研究与实现.pdf_第4页
(计算机应用技术专业论文)分布式数字化档案馆的研究与实现.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

韭立銮煎太空退堂焦盈塞主塞撞噩 中文摘要 摘要:随着我国经济的不断发展,信息化已经融入到社会生活的各个方面。传统的 档案存储和管理方式已经不能适应现阶段的业务需要。旧有的档案管理方式,导 致档案的利用率低,档案查询繁琐,查询费用昂贵,因此档案的数字化处理和基 于i n t e r a c t 的档案管理应运而生。 本文以河北省数字化档案馆建设为依托,通过分析目前河北省档案馆建设的 业务需求,针对河北省数字化档案馆的分布式特征,系统研究了河北省数字化档 案馆分布式数据库,以及基于w e b s e r v i c e 的分布式服务和存储。实现了河北省档 案馆档案资源数字化和管理系统,实现对河北省档案馆馆藏资源的数字化处理和 有效管理,并提出了分布式的档案数据资源存储方案。 本文的主要工作和贡献如下: 1 了解了数字档案馆的基本思想,对数字化档案馆建设过程中的若干难题以及 相关技术进行了研究。 2 对河北省档案馆档案数字化与管理系统进行了需求分析和总体设计。 3 通过对分布式数据库体系机构的研究,基于c s s 三层模型,提出了河北省 数字化档案馆分布式数据库系统体系机构。 4 实现了河北省档案馆档案资源数字化与管理系统,此系统不仅能够实现各种 纸质,音频,视频的数字化处理,同时实现了数字化资源的管理。 5 基于河北省档案馆馆藏资源的现状,系统研究了数据存储策略,实现了河北 省档案数据资源的分布式存储。 关键词:数字档案馆分布式数字化存储 a b s l l 【a c i w i t ht h ed e v e l o p m e n to fo u rc o u n t r y se c o n o m y , 皿ei n f o r m a t i o nt e c h n o l o g y h a v em e l ti n t oe v e r yp a r to fo u r sl i f e 皿ct r a d i t i o n a la r c h i v es t o r a g ea n d m a n a g e m e n t s t y l ed o n lm e e tt h em o d e mn e e d i nt h eo l da r c h i v em a n a g e m e n ts t y l e ,t h eu s er a t eo f a r c h i v ei sl o w e ra n di ti sd i f f 俄d tf o ru st os e a r c ht h ea r c h i v e a l s o , i ti se x p e n s i v ef o r u st or e a dt h ea r c h i v e s ot h ed i g i t a la r c h i v eb a s e do nt h ei n t e m e tt e c h n o l o g yc o m ei n t o o u r sl i f e 1 1 l i sp a p e ra n a l y z et h eb u s i n e s sr e q u i r e m e n to fh e b e id i g i t a la r c h i v e a c c o r d i n gt o t h ed i s t r i b u t ef e a t u r eo ft h ea r c h i v e 1d ot h er e s e a r c ho nt h ed i s t r i b u t ed a t a b a s e , w e b s e r v i c e , d i s t r i b u t es t o r a g eia c c o m p l i s ht h ed i g i t a ls y s t e mo ft h eh e b e ia r c h i v e , w h i c hc a nd e a lw i t ht h ea r c h i v e sq u i c k l y a i s o , w e 啪u s et h i ss y s t e mt om a n a g et h e a r c h i v ed a t ar e s o u r c e se f f i c i e o f l y 1 n h ef u r t h e r , ig i v et h ed i s t r i b u t ea r c h i v es t o r a g ep l a n n em a i nt a s ka n dc o n t r i b u t i o no ft h i sp a p e r : f i r s t l y , is t u d yt h eb a s i ck n o w l e d g eo fd i g i t a la r c h i v ea n dd or e s e a r c ho nt h ek e y t e c h n o l o g yp r o b l e m sa n dr e l a t e dt h e o r ya b o u tt h ed i g i t a la r c h i v e s e c o n d l y , a n a l y z et h er e q u i r e m e n to ft h es y s t e ma n dd e s i g nt h es y s t e mw h o l l y t h i r d l y , i nt h i sp a p e r , ad i s t r i b u t ed a t a b a s ea r c h i t c c t a r eo fh e b e id i g i t a la r c h i v e b a s e do nc s sm o d e li sg i v e na c c o r d i n gt ot h ed i s t r i b u t ed a t a b a s et h e o r y f o u r t h l y , la c c o m p l i s ht h ed i g i t i z es y s t e mo fh e b e ia r c h i v e ,w h i c hc a np r o c e s sa n d m a n a g et h ep a p e r , a u d i o ,v i d e oa r c h i v e g i v et h ed i s t r i b u t ea p p l i c a t i o ns e r v i c eb a s e do l l w e b s e r v i c et e c h n o l o g y f i n a l l y , b a s e do nt h er e s o u r c e so fh e b e ia r c h i v e ,ir e s e a r c ho nt h ef l o wo fa r c h i v e d i g i t i z ea n ds t o r a g es t r a t e g y , a c c o m p l i s ht h ed i s t r i b u t es t o r a g eo fd i g i t a ld a t ao fh e b e i a r c h i v e k e y w o r d s :d i g i t a l a r c h i v ed i s t r i b u t e d i g i t a l i z a t i o ns t o r a g e 致谢 本论文的工作是在我的导师范辉副教授的悉心指导下完成的,范老师严谨的 治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢三年来范老 师对我的关心和指导。 范老师悉心指导我们完成了实验室的科研工作,在学习上和生活上都给予了 我很大的关心和帮助,在此向范辉老师表示衷心的谢意。 在将近三年的硕士研究生学习过程中,正是在范辉老师无微不至的关怀下, 我才能按部就班的参与到各项理论学习与科研实践中,在各个方面取得不断的积 累和进步。 同时,要特别感谢罗四维教授。罗老师严谨的科研态度和淳厚的学者风范对 我影响至深,罗老师言传身教的治学精神和育人方法,让我受益匪浅。罗四维教 授,黄雅萍老师对我的科研工作和论文都提出了许多的宝贵意见,在此表示衷心 的感谢。 在实验室工作及撰写论文期间,谷好嫔、杨晶、江海异等同学对我论文的研 究工作给予了热情帮助,在此向他们表达我的感激之情。 另外也感谢家人,最重要的是我的父母,他们的理解和支持使我能够在学校 专心完成我的学业还要感谢的是我的女朋友,她在我的毕业论文写作过程中, 帮我搜集到很多有价值的资料。感谢她在我学习和生活中对我的鼓励和支持,让我 能够快乐的学习和工作。 序 进入上世纪9 0 年代以来,数字化档案馆率先在经济发达的美国蓬勃发展。我 国也在“十五”期间,有步骤的推进数字化档案馆建设。伴随着数字化档案馆的 不断发展,档案数字化处理和管理以及相关技术也逐步成熟。 我国在数字化档案馆建设方面,先后试点性的建设了深圳,青岛,福建三个 省( 市) 的档案馆系统,并且在全国逐步开展数字化档案馆建设工作。河北省数 字化档案馆建设,也是在这种背景下产生的,并已列入河北省。十一五”规划, 成为河北省信息化建设中的重要一环。 本论文的工作成果目前已经应用到河北省档案馆以及各地市( 区县) 档案馆, 取得了良好的运行结果,实现了河北省档案馆档案资源的数字化,丰富了档案文 献存储的途径,同时实现了对档案文献的有效管理。本论文的工作对于其他省市 数字化档案馆的设计和实现,都有借鉴意义。 1 引言 1 1 课题项目的研究背景 1 1 1 河北省数字档案馆建设概要 档案【l l 是过去和现在的国家机构、社会组织以及个人从事政治、军事、经济、 科学、技术、文化、宗教等活动直接形成的对国家和社会有保存价值的各种文字、 图表、声像等不同形式的历史记录。与传统载体档案相比,数字化形式的档案的 最大特点是能够通过网络迅速流动。档案馆数字化系统的研究和建设将彻底改变 档案的利用方式,冲破档案利用的种种局限,使档案馆从封闭走向开放,为政府 决策、企业经营服务,傲到“科技服务档案,档案服务经济”。 目前,随着计算机技术、多媒体技术、i n t e r a c t 网络技术以及网格技术的飞速 发展,传统的计算机档案管理系统t 2 1 e 从比较单一的纯文字目录检索,出借管理向 全文处理、联机查阅方向发展。国家十五计划已对数字化档案馆的建设提出了明 确要求和具体实施步骤,这标志着中国数字化档案馆建设工程己进入具体实施阶 段。 2 0 0 5 年1 2 月,中共河北省委办公厅、河北省人民政府办公厅联合印发了关 于加强河北省信息资源开发利用工作的指导意见,提出:“加快以传统载体保存 的政府公文、档案等信息资源的数字化工作。”2 0 0 5 年6 月,郭庚茂常务副省长 批准了省档案局关于从。十一五”开始启动河北省档案馆传统载体档案数字化 工程的请示,省信息办把省馆档案信息资源开发利用列入了全省“历史公共文献 数据库”。 传统载体档案数字化 3 1 ,就是采用计算机技术和多媒体技术,将实体形态的档 案( 主要包括纸质档案、模拟信号音像档案、照片档案等) 转换成数字方式存储 的过程。对传统载体档案数字化后,既可以实现对档案原件的有效保存,保证不 可再生珍贵档案资源的安全;又可以通过计算机网络实现档案信息的在线共享, 更好地发挥档案信息资政育人、服务群众的作用。档案部门的服务能力、服务水 平和服务质量将得到极大提高。 河北省传统载体档案数字化及分布式系统的建设旨在利用当今的计算机技 术、网络技术以及相关技术,以河北省、区市,县( 市、区) 综合档案馆馆藏档 案为对象,在现有“档案目录数据库”的基础上,对传统档案资料实现数字化计 算机化处理并建立综合档案分布式数据库系统,利用政务网实现全省各级档案馆 档案信息资源共享,同时为接入全省政务信息网的各立档单位提供调阅服务 1 1 2 河北省数字档案馆业务需求 河北省数字化档案馆作为河北省“十一五”期间全省信息化建设中的一项重 要工程,其设计目的和功能效用,主要体现在能够切实提供优质的档案查询服务, 可融入电子政务网的业务处理平台,包括档案公文管理,网络会议档案管理等。 还有原有大量非数字资源的数字化以及数字化以后的数据档案资源的有效管理。 其主要业务需求体现在如下几个方面: 一省中心档案馆与地市档案馆的分布式查询实现异地查询,异地调用,利 用分布式技术,实现档案文件存储在所在地档案馆,却可实现存储在全省范围内 的各地档案异地可查,从而提高工作效率。目前省局可以查询全省档案,各地市只 能查询地市档案。 二提供基于目录与全文的内容检索。提供基于省局以及各地分馆的分开查 询。提供基于图片,音频,视频的在线测览。所有数字化后的纸质文档,最终全 部转化为图片,并存储在当地档案馆。提供图片的快速浏览,利用流媒体技术, 实现音频和视频文件的“边下载,边播放”的功能。 三基于b s s 模型的融入河北省电子政务网的门户两站,使接入电子政务两 的各部门能够在线查询。提供政务网内非档案馆人员的档案查询功能,其模块包 括用户注册,用户登录,管理员设置,用户权限等模块。以及档案馆的业务支撑 平台。 四基于c s s 模型的河北省数字档案馆数字化系统。分类实现原有的档案资 源的数字化。其中,最多的就是纸质的档案文件的数字化工作。实现档案文件的 扫描,处理,归档,审核,存储等功能。同时对原有的基于模拟信号的音频和视 频文件转化为数字化的文件并存储。在最大程度上保持其真实性。本数字化系统 同时实现与原有己数字化的资源的无缝整合。实现跨平台的资源可重用性。 五全省数字化档案馆的安全性。由于档案文件的保密性要求,省局和各地方 档案馆对安全性的要求较高,利用政务网和i n t e r n e t 的物理隔离和防火墙,实现档 案馆的安全性要求,同时考虑在未来情况下的与公众网连接后的安全性处理需求。 本人所做的主要工作是:研究并实现基于c s s 模型的档案资源的数字化和管 理系统。 档案资源数字化和管理系统基本结构图如下: 2 图i 河北省档案资源数字化模型图 3 1 2 本文的研究内容与组织安排 1 2 1 本文的研究内容 基于河北省数字化档案馆项目,实现了河北省档案馆档案资源数字化和管理系 统。 第一:研究了数字档案馆的基本理论,提出了河北省数字档案馆档案数字化 处理流程模型。 第二:研究了c s s 三层模型,针对数字档案馆中的原有的档案资源,结合分 布式数据库理论,提出了河北省档案馆分布式数据库体系结构。 第三:结合河北省档案馆建设实际需要,实现了河北省档案馆档案资源数字 化与管理系统。此系统不仅实现了河北省现有各种纸质,音频,视频档案资源的 数字化,并实现对数字化资源的有效管理。 第四:基于分布式存储理论,实现了河北省数字化档案馆数据资源的分布式 存储。 河北省数字化档案馆项目,于2 0 0 5 年1 2 月着手调研,并进行总体设计以及 编码工作。2 0 0 6 年9 月,河北省档案馆档案资源数字化和管理系统正式投入使用 1 2 2 本文的内容安排 第一章本章介绍了本文的研究背景,重点阐述了河北省数字化档案馆的业务 需求以及分布式档案馆档案资源数字化模型,并介绍了本文的内容安排。 第二章本章系统讲解了数字档案馆的来历,数字档案馆在国内外的发展历程, 数字化档案馆建设中的关键技术及理论。 第三章详细介绍了档案数字化的内涵和元数据理论。结合河北省数字化档案 馆项目,具体分析了河北省数字化档案馆馆藏资源的数字化需求,结合馆藏资源 处理的工作流机制,从软件平台设计和硬件平台设计两个方面,实现了河北省档 案馆分布式馆藏资源数字化系统。 第四章系统研究了分布式数据库理论,针对数字化档案馆中的分布式数据库 问题,实现了以省中心数据库为核心的分布式数据库结构。 第五章系统分析了数字化档案馆中的分布式存储问题。实现了河北省数字化 档案馆馆藏资源的分布式存储。 第六章结合项目背景,指出了本项目设计过程中的不足以及对河北省数字化 档案馆建设未来的展望。 4 2 数字档案馆概述 2 1 数字档案馆的基本概念 2 1 1 数字档案馆的定义 什么是数字档案馆 4 1 ,我们可以给它下这样一个定义,n 数字档案馆”就是”以 数字资源为主要采集对象。实施档案的数字化存储、管理与维护,及提供数字档 案信息的网络传输、利用服务,并架构于一个完整的标准化体系基础之上的档案 馆。”数字档案馆”概念的外延则是所有以数字化档案为主要处理对象的档案馆的总 体。 “数字档案馆”的含义有广义和狭义之分。广义的数字档案馆是指存储和利 用档案信息资源的信息空间,是一个由众多档案资源库群、档案信息资源处理中 心、档案用户群构成的数字档案馆群体。狭义的数字档案馆则是指其中的个体档 案馆,代表的是一种信息环境和基础设施的构建,即软、硬件系统的设计和组织 实体的建立,包括馆藏档案数字化,档案信息的采集、整理、存储、检索、传递、 保管、保护、利用、鉴定和统计等内容。 最早档案部门提出数字档案馆或数字化档案馆【5 犍借鉴数字图书馆的概念。但 是数字图书馆和数字档案馆的概念和建设内容有着本质的区别,数字图书馆是借 用传统图书馆的名称,已经脱离传统图书馆的工作、管理模式,数字图书馆是下 一代互联网的信息资源组织形式,是将目前互联网信息资源的无序状态变为有序 面数字档案馆依然是档案馆,其对馆藏档案的管理功能没有改变,同样具有收集、 整理、鉴定、保管、利用,统计、编研等功能,只不过其采用的技术方法、管理 手段、管理对象等有了较大的变化。数字档案馆不是网络档案馆,也不是虚拟档 案馆,以目前我国档案管理法律法规的限定,档案本身在网上运行是不允许的; 以当前网络安全的状况,档案本身处于互联网或局域网环境中是非常不安全的; 以我国现有公众对档案的认识和利用需求,全国档案馆或部分地区档案馆联网, 在投入和产出效率上是非常不合算的。因此,以目前的管理手段和技术水平,将 数字档案馆建设成网络档案馆既没有必有也不安全。 从技术角度来看,数字档案馆是指“用二进制编码的数字方式存储、处理档 案信息内容,应用计算机、通讯和多媒体技术,提供电子网络检索和服务的档案 信息系统”。 从资源共享的角度看,数字档案馆“是一个数字化的信息系统,它把分散于 不同载体、不同地理位置的信息资源以数字化的形式存贮,以网络化的方式互相 5 连接,从而提供及时利用,实现档案资源共享” 从信息服务的角度来看,数字档案馆“是一个电子化信息的仓储,能够存储 大量各种形式的档案信息,用户可以通过网络方便地访问它,以获得这些信息, 并且其信息存储和用户访闯不受地域限制”。 2 1 2 数字档案馆的属性【6 l 数字档案馆包含在办公自动化系统、计算机辅助设计和管理系统与公共信息 数据管理系统之中,是由分布式文件和档案数字资源构成的具有强大服务功能的 跨机构,跨地域的信息系统,它属于国家数字信息基础工程中的一部分。 数字档案馆的建设不仅涉及馆藏档案的数字化,也不只是停留在整个档案工 作业务流程的计算机化。它代表了网络环境下档案信息资源的整体处理模式,涉 及到一系列标准规范与法规的制定和推行、软硬件基础设施构建、应用系统开发、 数字资源建设、人才队伍培养等多方面内容。 2 1 3 数字档案馆的分类 根据目前国内外数字档案馆的有关情况和发展态势,我们可以按照不同的分 类标准,将其分为以下几种:按照层次级别,数字档案馆分为国家级、省级、市级 和县级数字档案馆。按照管理内容,数字档案馆分为综合数字档案馆、专业行业 数字档案馆和专门、专题数字档案馆。按照管理部门的性质,数字档案馆又可以 分为国家机关、企事业单位、团体和个人数字档案馆。 图2 数字档案馆的分类 6 2 1 4 数字档案馆的功甜7 1 数字档案馆应该具备档案馆的两大基本功能,即安全保管档案和提供档案信 息服务。数字档案馆将馆藏的各类珍贵档案和用户利用率比较高的涉及经济、科 学、技术和文化等类档案以图像和文本的形式发布到网络上,极大地丰富了网上 的信息资源,既方便了用户的利用,又扩大了档案馆自身的影响力。 数字档案馆的主要职能包括: 第一,数字档案信息聚集功能与传统档案馆相比,数字档案馆收集的对象和 类型都更为广泛。内容丰富的档案信息是数字档案馆的基石,数字档案馆是数字 档案信息贮存的基地。数字信息的存储可以节省空间,更能实现智能化的保管。 它主要针对三个方面的档案或档案信息进行收集和处理:一是接收办理完毕应当 归档的电子文件及其元数据。并对立档单位的电子文件工作漉程实施在线监督和 控制,以及时捕获电子文件,防止重要文件的流失。通过与其他信息网的无缝链 接,实现电子文件及时归档,使档案收集提前进行。用数字化手段对档案业务各 流程进行管理,真正实现文档一体化,实现整个档案馆业务流程的全面数字化。 二是将现有馆藏纸质、照片和声像等类档案进行数字化。实现数字化档案资源在 网络上的发布和传递。三是在网络上捕获一些具有保存价值但不属于进馆范围的 档案信息。 第二,数字档案信息捡索功能。数字档案馆提供了新的信息和知识传播手段, 改变了档案利用服务以提供物理实体为主的的传统方式,指引终端用户通过网络 获取存储在各个站点的档案信息资源,为用户提供超越时空限制的个性化服务, 利用者可以通过网络对数字化档案信息资源进行查阅( 包括目录、索引和全文) 。 数字档案馆建立以用户为中心的服务模式,通过网络技术将各个分散的档案信息 数据库连接起来,用户可以通过网络与档案馆建立联系,而不受地理位置和时间 的限制,实现了跨馆际查询。数字档案馆具有多种查询途径、强大的检索能力、 友好的用户界面以及完善的借阅管理和调用控制功能,能根据检索项提供多条件 组合查询,并能对常用检索途径进行优化,满足用户对查全率和查准率的要求;能 根据用户需要设置目录检索、元数据检索、全文检索和图文声像一体化检索;能对 查询结果进行显示、排序、转存、打印输出等技术处理;能通过数据调度和数据 集成等方式建立检索机制,利用者可以通过网络对电子文件资源( 包括目录、索引 和全文1 进行远程查阅和调用。经数字化处理,进入数字档案馆数据库的各地孤本、 珍品档案资料也能在网上查询获取。数字档案馆的咨询系统分为自我服务信息和 请求帮助系统,前者能在各终端或微机上显示利用指南,可用菜单方式或窗口软 件,自动指引利用者使用数字档案馆;后者为请示帮助系统,是用户与档案馆联系 7 的渠道,用户可以通过电子咨询信箱向数字档案馆提出咨询,也可接受提供的信 息服务。 第三,数字档案信息传播中介功能。数字档案馆的档案信息发布和传递主要 有两种形式,一种是光盘发布,一种是网络发布光盘发布是指将档案信息复制 到光盘,用户不需安装应用系统,只需先执行光盘阅读程序,即可对档案信息进 行浏览和检索。网络发布分为i n t e r n e t 网上发布( 即通过局域网为立档单位提 供档案信息查询) 和i h t e r n e t 网上发布( 即在公众网上公布档案信息) ,它是通 过网页制作软件,将编辑出来的数字档案信息放在网页上,供用户使用。与数字 图书馆不同,数字档案馆很注重对于数字档案信息的真实性的维护,较少出现版 权问题。数字档案馆的信息提供利用受时效与密级的限制,一些内容不能公开, 必须分内部网和外部网两个部分,用户可以根据授权度查阅网页所提供的档案信 息。数字档案馆也可以通过网络进行专题展览,能够在更大范围内发挥档案馆爱 国主义教育基地的作用。 图3 数字档案馆职能 8 2 1 5 数字档案馆与传统档案馆的区别 数字档案馆与传统档案馆的区别哆l 主要表现在两个方面: 第一,馆藏内涵发生变化。传统档案馆收藏的主要是纸质档案,而数字档案 馆则要收集各种载体形式的档案,包括各种电子文件、光盘、多媒体、缩微载体 和声像载体档案等。 第二,技术服务方式发生重大变化。传统档案馆采用的是一种被动的服务方 式,数字档案馆提供的则是一种开放型的服务,用户可以通过终端联网查找到自 己所需要的信息。同时,信息检索系统的功能也由单纯的纸质文件信息的输入、 处理、存储、检索和输出,转向加工各种视频和音频资料。这样的检索系统具有 灵活的数据组织、管理和检索功能,还具有联机信息处理、资源共享、远程传真 和发送接收电子邮件等多弛功能。服务方式也更加的多元化,能够增强与用户之 间的联系,加快档案信息的使用率,提高档案馆的服务质量。 2 2 数字档案馆的发展 2 2 1 数字档案馆目前在国内的发展 随着计算机网络、现代通讯技术和多媒体信息技术的飞速发展,社会正处在 由物质型经济向信息型、智能型和知识型经济转变的关键时期。档案作为社会信 息资源的重要组成部分,日益成为国家进行经济建设、政治建设和文化建设的重 要资源,社会对于档案信息的需要也更加迫切。在互联网的作用下,人们利用档 案资源也要突破一个档案馆的界限,突破时间和空间的限制,按照自己的需要, 寻求同类信息的组合。档案现代化管理模式和最终目标,是实现档案信息收集、 整理和开发利用的数字化,有效地满足人民群众日益增长的信息需求。因此,建 立数字化档案馆,对档案进行一体化管理,是知识经济时代对档案管理工作的迫 切要求。档案馆馆藏数量的激增和存储空间有限之间产生了严重的矛盾,需要通 过建设数字档案馆来解决。档案数量的急剧增长,带来的不仅仅是存储问题,由 于档案机构人员配备很有限,档案往往不能得到有效的管理和利用。档案人员常 常陷于档案的入库排架和库房管理,提供利用等繁琐的日常管理中,忽略了对档 案的形成和利用规律这些深层次的问题的研究。 近年来,新型档案载体逐渐并迅速地被磁盘、磁带、光盘所取代,电子档案 的增多要求电子档案的收集、保管、保护和利用手段及时更新,数字档案馆建设 迫在眉睫。 9 “数字档案馆”越来越多地受到人们特别是档案界的关注,据不完全统计, 2 0 0 0 年至2 0 0 4 年,公开发表在档案专业期刊上的相关论文就达到2 0 0 余篇。 国家档案局在1 9 9 7 年6 月7 日重新发布的中华人民共和国档案法实施办 法第二十条中规定,各级国家档案馆保管的档案应当按照档案法的有关规 定,分期分批地向社会开放。现阶段,我国的各级各类档案馆已经普遍使用计算 机辅助档案的管理,各类档案管理软件也己开发出来,并投入了档案馆的日常工 作中,这些都为数字档案馆的建设打下了基础。 2 0 0 0 年1 2 月1 9 日,国家档案局和中央档案馆印发的全国档案事业发展“十 五”计划,己经明确提出要“加快档案信息化、加快现有档案的数字化进程”。 2 0 0 2 年1 1 月,国家档案局发布的全国档案信息化建设实施纲要中明确提 出要“在部分中心城市建设示范性数字档案馆”。 国家档案局确定深圳档案馆为“数字化档案馆系统”工程的第一个试点馆。 2 0 0 1 年,国家档案局将青岛、深圳确立为数字档案馆建设的试点城市。2 0 0 2 年以 来,杭州市档案馆、天津开发区档案馆、江苏电力公司档案馆等也逐步开始试点 建设数字档案馆。广东省顺德市、广州市自云区、深圳市福田区和宝安区、浙江 省萧山区档案馆等在内的档案馆在数字化、信息化和网络化建设方面也取得了较 大成效。 2 2 2 数字档案馆在国际上的发展状况【9 l 国外档案部门在研究和关注信息技术对档案管理的影响方面起步较早,从2 0 世纪9 0 年代初就开始从理论和概念上对数字档案馆进行研究和探讨,主要是对虚 拟档案馆和网络档案馆建立的可行性和作用等进行探讨,1 9 9 8 年在中国北京召开 的第十三届国际档案大会,对虚拟档案馆和网络档案馆的讨论成为大会的主题之 一。美国、加拿大、日本、英国、比利时、挪威、西班牙、泰国和斯威士兰等很 多国家都有了自己的数字档案馆,其中更以美国和英国为代表,其数字档案馆的 建设不仅研究、起步较早,而且发展很快。从数字档案馆的地理分布情况看,数 字档案馆主要分布在北美洲,其中以美国居多。 l o 2 3 数字档案馆相关理论以及技术 2 3 1 数字档案馆的相关技术1 1 0 】 数字档案馆的建立,综合了多学科及高科技领域的最新成果,这些成果支持 了数字档案馆的发展。主要表现在以下方面: 1 数据描述技术。传统档案分类编目有一套完整的分类著录方法和索引方法, 在数字档案馆中,由于传统档案的著录格式在档案资源描述方面存在一定的局限 性,如对纸介质档案描述较详细,对电、磁、光等介质档案描述很少,所以 不能很好地描述以i n t e r n e t 资源为代表的电子资源,为了适应网上资源描述的需要, 就必须对传统的分类著录标准进行扩充。如增加。电子资源地址存取字段”等。 另外还采用新的信息处理技术对元数据进行档案信息的描述。元数据是。关于数 据的数据”,它主要用来描述任何i n t e r n e t 数据资源。目前,国际上己经有了相应 的元数据标准,如档案置标著录( 简称e a d 标准和元数据标准) 等,元数据 是数字档案馆对数字档案描述的重要工具。 2 高层协议技术。不同组织或机构在建设数字档案馆时,由于建设的目的、方 式以及运作手段不同,在技术实现上采用的平台、协议、体系结构也就各不相同。 为了使数字档案馆资源利用最大化,数字档案馆的高层应用就必须和不同的底层 信息基础进行交互,这样就能传递用户所需要的档案信息。为了实现这个目的, 就必须实现高层信息的统一管理。这就是高层协议其基本原理是:把数字档案 馆所提供的服务作为一个独立的模块,或者构件,分布在i n t e r n e t 上,通过开放的 协议进行互相通信,从而实现信息的互访。 3 图像与视频数据检索技术。数字档案馆中的信息除文本形式外,还有图形、 图像,动画和视频等多媒体形式。如何组织、表达、存贮、管理、查询和检索这 些图形、图像、动画和视频数据,是数字档案馆建设中需要研究的重大课题,也 是对传统数据库技术提出的挑战。因此,数字档案馆的建设必须得到数字图像处 理技术、模式识别技术、计算机视角技术、基于内容的检索技术、条码识别技术、 版面识别技术和交互界面技术等一系列信息技术的支持,这些技术都是数字档案 馆建设过程中的关键技术。目前,我国在这些技术领域发展很快,基本上能够支 持数字档案馆的建设。 4 多媒体数据压缩与传输技术。大量档案数据需要描述、检索、存贮、传输, 所需的存贮空间和传送带宽就相当大。为了适应档案信息的大量存贮和快速流通, 就必须对多媒体数据进行压缩,这就要求有压缩技术和相应的标准的支持。 5 数据加密技术。对档案信息加密是数字档案馆信息使用权限及保密的重要技 l l 术之一。其中密码学是重要的研究领域。同时,信息伪装技术、数字水印技术、 信息隐藏技术、数字指纹技术等新的技术都是数字档案馆必须用到的保密技术, 这些新技术为数字档案馆的保密提供了保障。数据加密技术在数字档案馆和其他 信息领域已被广泛的应用。 6 数字档案馆交互界面技术。交互界面是数字档案馆与用户交流的窗口,是 数字档案馆设计的重要组成部分。如何设计一个理想的用户界面,让用户使用时 得心应手,能够体现出友好、直观、方便的人文精神,这就是交互界面设计需要 重点考虑的问题。交互界面的设计应充分利用图形、语音艺术和相应的软件工具, 将人性化、智能化融为一体。 图4 数字档案馆关键性技术图 2 3 2 档案文件生命周期理论【1 1 l 数字档案馆的建模有相当部分是以文件生命周期理论为基础的,故在该节中, 对文件生命周期理论做一个简要的介绍。 文件生命周期理论,是在文件从其形成到销毁或永久保存这一过程中,研究 文件属性与人的主体行为之间关系问题的理论,是档案学上的两大理论支柱之 一。这一理论具有标志着现代档案学成熟的里程碑意义,即人们已从研究“历史” 档案( 也可以说是非现行文件) ,进入了以文件及其运动过程为研究对象的系统分 析、系统规划的时代。 讨论文件生命周期理论,首先必须对。文件”本身的性质有一个较为成熟的 认识。从国外研究这一理论的经验看,文件生命周期理论中的文件有以下两种观 点。 第一,。文件”的含义不是狭义的,而是广义上的概念,是广泛的。 第二,文件生命周期理论中所谓的。文件”,是一种集合( 或全称) 概念,它 不是特指某一份或者某一类文件。文件生命周期理论强调对整体性质文件的研究, 而非特殊的个别研究。 文件生命周期理论告诉我们:文件从其形成到最后销毁或作为档案永久保存 是一个完整的生命过程( 文件运动整体性) ;而文件的整个生命过程中因其先后表 现出不同的价值形态可划分为几个不同的运动阶段( 文件运动阶段性) ;在不同的 运动阶段中,应根据文件的不同特点,采用各自适宜的存放地点和管理方式( 3 c 件运动阶段内各要素间的内在联系的特点) 。 文件运动阶段与文件运动状态:”文件运动阶段”,或说”文件生命阶段”,或说 ”文件生命运动阶段“是用于描述文件运动状态时间跨度上的一个用语,文件运动阶 段同文件运动状态一一对应,文件处在同一运动阶段表明文件处在同一运动状态, 只有当文件运动状态发生变化时,文件才从一个运动阶段跨人了另一个运动阶段。 在文件生命运动全过程中文件的运动状态会发生若干次变化,因而也就呈现为若 干个运动阶段,文件运动理论既注重文件运动的整体性,也注重文件运动的阶段 性。 2 4 数字档案馆建设面临的f 司e i m 数字档案馆的建设是一项系统工程,及包括技术上的若干难点,也包括了一 些社会生活中需要注意到的问题,同时也时常涉及到文献的保密问题等等。综合 观点可以得到,数字档案馆的建设中主要面临如下几个问题。 2 4 1 技术难关 要真正实现数字档案馆,技术是关键。数字档案馆是以信息源、网域网络、 数据库为基础,以i n t e r n e t 为平台,向用户提供信息资源的档案馆。其相关的 技术是较复杂较先进并且不断发展的,从海量信息存储到面向对象的分布式管理, 数据仓库技术、高速网络技术,几乎囊括了计算机网络技术所需解决的所有问题, 技术密集,因此也是变化发展最为迅速而难以把握的。 2 4 2 标准化问题 数字档案馆建设的目的是要使地区档案馆、全国档案馆乃至整个世界的档案 馆连成一体,实现资源共享。因此,必须要遵照国际化标准,如网络资源的取舍 标准、著录标引标准、数据的描述标准、元数据标准等等。但长期以来,我国的 档案信息系统没有具体标准遵循,数据库的结构不统一,数据不规范,给实现资 源共享带来很大的困难。 2 4 3 数字化误区 数字档案馆的信息资源建设包括原始馆藏的数字化和网络信息数据库。原始 馆藏的数字化是将馆藏档案转化成计算机可以识别和处理的数字化信息,经过整 理和组织,存储在存储设备里。网络信息数据库是指实现数字化后的信息资源分 布在网络服务器中,通过网络互联提供资源共享。数字档案馆是管理档案信息的” 信息中心”,档案的实体保管模式应该向信息管理模式过渡。而国内在构想数字档 案馆时,则普遍认为把纸质档案经过转化后放到网上去,就变成数字档案馆了, 这对数字档案馆概念的理解是不完整的。 1 4 2 4 4 个人信息化水平低下 这其中包括管理者和利用者两个方面首先,所有的管理离不开入的行为。 目前我国绝大多数档案馆很少有条件能长期聘用计算机方面的专业人才。但作为 数字档案馆的管理人员应该对各类相关技术深入了解,这可能有些困难,然而这 却是必须的。其次,利用者的信息化水平也制约着数字档案馆的发展。近几年, 虽然计算机在城市的普及率越来越高,但计算机网络的普及相对仍然很低。再加 上上网投资、电脑技术、语言能力等因素的影响,数字档案馆的服务对象在我国 还是属于”贵族化”。 2 4 5 资金短缺 数字档案馆的建设是一件十分耗费资金的事。建设所需的各类硬件及网络设 旌、软件开发以及进行数字化的投入,都需要高昂的费用。而国内绝大多数档案 馆的事业经费都算不上多,由政府拨出专用款项支持数字档案馆建设的情况还很 少。 3 河北省档案资源数字化与管理系统设计 3 1 档案数字化的内涵 3 1 1 档案数字化的含义 档案数字化也就是档案信息化,档案信息数字化就是指利用数据库技术、数 据压缩技术、高速扫描技术等技术手段,将纸质文件、声像文件等传统介质的文 件和已归档保存的电子档案,系统组织成具有有序结构的档案信息库。 经过数字化处理后,档案信息提高了计算机检索速度,节省档案存贮空间, 缓解库房紧张的压力;减少档案原件( 特别是珍贵档案) 由于频繁使用而造成的磨 损,从而充分发挥档案馆的信息优势,丰富网上信息资源的内容和数量,加强档 案信息资源的开发与利用,为档案馆开展特色服务创造条件。 档案数字化是将各种纸质、照片、声像、胶片等传统介质的档案信息通过计 算机技术转换为数字化的信息。完成档案信息化的基础建设,这些信息通过高速 宽带通信网络设施相连接和提供利用,实现真正的资源共享。 数字化的好处是:检索快捷方便、容易实时同步备份、存储空间小,维护方 便、安全。 3 1 2 档案数字化建设的基本内容 从数字化的程度来看,档案数字化的内容有两个不同层次: 一档案目录的数字化,其目标是建立档案目录数据库,其关键就是规范档案 的著录标引,并科学选定档案目录数据库结构。 二档案全文的数字化,可以采用扫描录入方式,将档案全文按原貌逐页存储 为图像文件,并为其编制目录索引,或是经o c r ( 光学字符技术) 识别后采用文本 格式存储档案内容,辅之以全文检索数据库两种不同方式。在档案数字化过程中, 可以根据档案的自身特点和档案部门的实际情况将这两种方式结合使用。 数字化内容,也即数字化所有采集对象的总合。数字化的采集对象有内容信 息、背景信息、结构信息三种类型。信息采集程度是衡量数字化方法的重要因素。 一种数字化方法,能否将数字化对象的所有信息同时采集下来,成为人们是否选 择转换系统、数字信息管理系统、信息流转系统和用户接收系统等无法兼容,那 么即使数字化流程很完善,用户也可能无法读取信息,数字化工作的意义也会受 到影响。为此,选择数字化方法,应力求实现数字化馆藏跨平台、跨软件的无障 碍流通。 目前大部分档案馆馆藏档案载体仍然是以纸质为主,纸质档案数字化制作方 式一般有二种: 第一种是通过计算机人工录入或通过扫描仪扫描由字符识别软件( o c r ) 识 别,制成文本文件。 第二种是将档案文件的每一页看成是一张图片,不管上面具体是什么内容, 由扫描仪按页扫入计算机制成图形文件。 第一种方式占据空间小,是一种真正意义上的全文数字化,但纸质档案信息 的记录方式是多种多样的,有的是手写体、繁体字,有的字迹褪化及非文字形式 等,此时采用第一种方式就会暴露出如下致命弱点:用o c r 字符识别的准确率低; 若采用人工录入,不但需要大量的录入人员,而且一时还不能马上胜任此项工作, 差错率大且核对困难,投入大,收效慢。而第二种方式实现容易,一般档案工作 人员只要稍加培训,即可操作机器,且工作可以定量化,差错率相对较低,即便 有一些错扫、漏扫等,也能很快被发现。另外,还因为图像扫描保持了档案原件 本来面目,可以使利用者在看到文字内容的同时,也能看到纸质档案的其它一些 特征,如原件的纸色、墨迹、印章、圈点、批注等各种原貌,使利用者可以获得 更多的线索,开展一些更深入的研究。 3 1 3 档案数字化要求 ( 1 ) 基本原则 1 档案数字化的基本原则是使档案信息资源准确方便快捷地提供利用,使可 以公开的档案信息资源得到共享,以满足社会对档案利用的需求。 2 应当对所要进行数字化的对象按照一定的原则和方法进行确认,只有符合 一定要求的档案文献才能进行数字化。 3 符合国家法律法规的原则。档案的数字化,必须符合国家档案开放规定以 及有关规定。 4 价值性原则。属于归档范围且应永久或长期保存的、社会利用价值高的档 案可列入数字化加工的范围。 ( 2 ) 长期保存 由于数字化馆藏必须以一定的格式存储在一定媒体上,其信息内容与生成和 读取它的硬件平台、软件系统以及存储媒体捆绑在一起,因此,媒体腐坏和技术 进步成为影响数字信息长期可读性的两大因素。馆藏资源数字化的重要目的是保 持珍贵的藏品原貌,维护人类历史文化遇产,所以一种数字化方法是否能够通过 1 7 格式转换与信息迁移确保数字信息的长期保存,很大地影响着该方法的可选度。 3 1 4 档案数字化路径 传统档案馆的数字之路由三个相互联系的阶段组成: 图5 档案馆发展路径 1 档案馆数字化。档案馆的数字化包含着以下三层含义,其一是随着计算机 技术的引入,建立档案馆的自动化系统,实现档案馆自动化管理,完成档案管理 的数字化;其二是馆藏信息数字化,数字化的馆藏档案信息能直接被计算机识别 和处理,建成完备的信息数据库;其三是构建平滑高效的档案信息数字化传输平 台,实现档案的统一管理和资源共享。 2 数字化档案馆。在档案馆数字化基础上,形成以数字化信息为馆藏内容, 以计算机为管理手段,以网络传递为利用方式的一种新型档案馆,是采用现代高 新技术的数字信息资源系统。 3 数字档案馆。通过国家信息基础工程联合数字化档案馆,运用网络互联技 术,将个体数字化档案馆联合起来,进行扩张、伸展,组成完全意义的数字档案 馆,遵循共同协议,实现数字化信息共享,是超大规模的、便于使用的、没有时 空限制的知识信息中心。用户可以通过网络计算机终端提出需求,由数字档案馆 1 8 系统完成查找和调阅档案信息,完全不受时间和地理条件的限制。如果说运用虚 拟技术,建立虚拟档案馆的话,那么,档案馆发展到第三个阶段,才真正可以称 得上是虚拟档案馆。 3 2 档案馆资源数字化建设 计算机技术的普及,为档案馆数字化建设奠定了良好的基础。档案馆数字化 建设包含以下几个方面。 3 2 1 档案管理的数字化 档案管理自动化是对档案馆自身管理行为现代化的确定,而这种现代化是建 立在计算机数字化管理基础上的。这个特征是基础性的,有普遍意义的,是开展 其他数字化工作的前提条件。现在许多文章在探讨数字档案馆或虚拟档案馆时, 较多是对档案馆美好前景的预测与憧憬,很少涉及传统档案馆的现代化管理问题, 忽视档案管理具体业务环节的计算机数字化管理问题,如档案自动编目和自动检 索、档案自动全文存储与检索、档案业务工作辅助管理、计算机辅助立卷、档案 自动标引、文档一体化管理、档案馆办公自动化、档案库房保护技术现代化、档 案数据库设计与建立等。而这些不仅是档案管理基本的业务环节,也是档案管理 自动化的具体体现,更是档案管理数字化全面

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论