




已阅读5页,还剩62页未读, 继续免费阅读
(档案学专业论文)本体论在数字化档案内容管理中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海大学硕士学位论文 摘要 信息是对客观事物的概念性描述。鉴于事物在不断地发展变化,且存在复杂的联系,人 们对于事物的描述也不能停留在简单、孤立、静止、表面的阶段。在社会信息数字化,特别 是语义网技术迅速发展的进程中,所有信息将被定义准确的语义,从而使描述对象从一般文 献信息转向知识信息,描述特征从形式转向内容,描述方式从静态转向动态,描述手段从手 工转向计算机自动化处理。传统的档案著录和标引难以适应数字化档案信息描述和利用的要 求。成为制约档案信息资源开发利用的瓶颈。近几年来,人们将起源于哲学领域的本体概念 引入了人工智能、知识工程、软件复用和图书情报等多个领域,用以解决知识概念描述和知 识组织体系方面的有关问题。 本文通过在理论上描述了数字化档案信息管理中所遇到的手工著录标引工作效率极低、 机器自动标引精确度无法保证。以及其内容查询的智能化程度不高,无法同时保证较高的查 全率和查准率等当前函待解决的关键问题,从技术层面上分析探讨在人工智能领域中得到应 用的本体理论以及数字化档案本体构建过程中的原则、目标、主要技术等问题,实现对数字 化档案内容信息资源描述的结构化、有序化、规范化以及管理利用的自动化,智能化和动态 化在此基础上构建出有关数字化档案内容的本体,通过关键概念的规范和实用演示程序的 编制,应用于对内容管理的实践,着力解决在信息资源整合利用背景下,数字化档案内容管 理中对非结构化信息和异构信息的结构化描述、准确识别、快速传递和安全共享等问题,从 而指导对数字化档案的内容管理工作,促进档案内容智能化管理工作与社会信息化、智能化 和自动化发展相协调适应,使档案事业的发展更加顺应井更好的体现时代的要求。 关键词:数字化档案内容管理本体 v 上海大学硕士学位论文 a b s t r a c t i n f o r m a t i o no no b j e c t i v et h i n g sc o n c e p t u a ld e s c r i p t i o n a st h i n g sc o n t i n u et o 姗l 卵a n d c h a n g e ,a n dt h e r ea cc o m p l e xl i n k s ,t h e r ei sa l s oad c s c r i p t i o no ft h i n g ss h o u l dr e m a i nj nt h e s i m p l e , i s o l a t e d ,s t a t i cs u r f a c eo ft h es t a g e i nad i 垂u di n f o r m a t i o ns o c i e t y , i np a r t i c u l a rt h e s e m a n t i cw e bi st h er a p i dd e v e l o p m e n to ft e c h n o l o g yj nt h ep r o c e s s a l lt h ei n f o r m a t i o nw i l lb e a c c u r a t ed e f i n i t i o no ft h es e m a n t i c s ,s ot h a tt h ed e s c r i p t i o no fo b j e c t s 臼伽nt h eg e n e r a lf i t e r a t u r e i n f o r m a t i o nt o k n o w l e d g e a n di n f o r m a t i o n d e s c r i b i n gc h a r a c t e r i s t i c s o ff o t l ni oc o n t e n t , d e s c r i p t i o nf r o mt h cs t a t i ct od y n a m i ca n df r o mad e r c r i p t i o no ft h ec o m p u t e rm a n u a lt o a u t o m a t e dp i o c c 醛妯舀t r a d i t i o n a la r c h i v ed e s c r i p t i o na n di n d e xi td i f f i c u l tt oa d a p tt ot h ed i g i t a l a r c h i v e a n d t h e u s e o f i n f o r m a t i o n d e s c r i b i n g t h e r e q u i r e m e n b c o n s t r a i n s t h ea r c h i v ed e v e l o p m e n t a n du t i l i z a t i o no fi n f o n n a t i o nr e s o u r c e i x , t t l e n c c l lh o w e v e r , t h em e t a d a t aw eu s u a l l yu t i l i z ef a i l s t o 。) 叩嘴豁t h ei n f o r m a t i o ns e m a n t i c s , t h e r e f o r e , 缸r e c e n ty e a r st h eo n t o l o g yt h e o r yo r i g i n a u yu s e d i np h i l o s o p h yh a sb e e ni n t r e d u c e ds u c ha st h ea r t f i c i a li m c g 曲c e ,t h ek n o w l e d g ee n g i n e e r i n g , t l s c d s o f t w a r e ,t h ei n f o r m a t i o nf i e l da n ds oo nm a n yd o m a i n s ,s oa st os o l v et h ep r o b l e m so i lt h e k n o w l e d g ec o n c e p td e s c r i p t i o na n dt h ek n o w l e d g eo r g a n i z a t i o ns y s t e ma s p e c tr e l a t e dq u e s t i o n t h bp a p e rt h e o r e t i e a n ya n a l y s e st h o s ek e yp r o b l e m si nt h ed i g i t i z e da r c h i v ei n f o m a 6 0 n m a n a g e m e n ta sf o l l o w s :w o r k i n gl o we f f i c i e n c yi nt h em a n u a ld e s c r i p t i o ni n d e x , t h eu n r e a l i z i t i o n o ft h em a c h i n ea u t o m a t i ci n d e xp r e c i s i o n , l o wi n t e l l e c t u a l i z e dd e g r e e 咀t h ei t sc o n t e n ti n q u i r y , a s w e l la st h ef a i l e dg u a r a n t e et oa c h i e v ea h i g h e ra c a 町丑c vr a t i o a n dt h ec o v e r e dr a t i o s i m u l t a n e o u s l ya n ds oo n a tt h et e c h n i c a ll e v e l , t h i sp a p e rd i s c u s s e so n t o l o g yu s e di nt h ea r t i f i c i a l i n t e l l i g e n c ed o m a i na n di np r o c e s sp r i n c i p l e , g o a la n dm a i nt e c h n o l o g yw h e nc o n s t r u c t i n gt h e d i g i t i z e da r c h i v e t h i sp a p e ra i m sa tr e a l i z i n g 也es t r a c t u r i z a t i o n , o r d e f i z a t i o na n ds t a n d a r d i z a t i o n o fc o n t e n td e s c r i p t i o ni nt h ed i g i t i z e da r c h i v e 舔w e l l 嬲t h ea u t o m a t i z a t i o n , t h ei n t e l l e c t u a l l z a t i o n a n dd y n a m i z a t i o n 诎p a p e rw i l ls e tu pt h eo n t o l o g yo fd i g i t i z e da r c h i v eb a s e do nt h ef o r e n a m e d a n a l y s i s b ys t a n d a r d i z i n ge s s e n t i a lc o n c e p t sa n dw o r k i n go u tp r o g r a m s ,a n dp u t t i n gt h e mi n t o p r a c t i c e , t h i sp a p e rf o c u s e so nd e a l i n gw i t ht h es t t u c t t t r ed e s c r i p t i o n , a c c u r a t er e c o g n i t i o n ,f a s t t r a n s m i s s i o no ft h en 埘a - s t r u c t a r ei n f o r m a t i o n ,d i s p a t s i v e - s t r u c t u r ei nt h em a n a g e m e n to fd i 西t i z e d a r c h i v ea tt h eb a c k g r o u n do fo r g a n i z i n ga n di l t i l i z i i l gi n f o r m a t i o nr e s o n r o 目$ 。s oa sa ti t 啪d i r e c t t h e m a n a g e m e n to f t h ed i g i t i z e da r c h i v e , a n dp r o m o t et h eh a r m o n yo ft h ei n t e l l e c t u a l i z e d m a n a g e m e n t o ft h ed i g i t i z e da r c h i v e c o n t e n tw i t ht h e s o c i a l i n f o r m a t i o n i z a t i o l a , t h e i n t e l l e c t u a l i z a t i o na n dt h ea u t o m a t i z a t i o n , a n df i n a l l ym a k et h ed e v e l o p m e n to ft h ea r c h i v a l e n t e x p r i s ea c c l i m a t ea n dr e f l e c tt h er e q u e s t so fo n ra g e ! k e y w o r d s :d i g i t a l a r c h i v ec o n t e n t m a n a g e m e n to n t o l o g y v i 上海大学硕士学位论文 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表 或撰写过的研究成果。参与同工作的其他同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名:主:l 鎏日期:垫z :笸? 叮 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅:学校可 以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:主:l 蕴导师签名:哩日期:2 1 1 】:曼:! z n 上海大学硕士学位论文 第一章数字化档案内容管理概述 1 1 数字化档案 1 1 1 数字化档案概念 当今时代,随着社会信息化盼迅猛发展,各级各类政府,企事业机关已经并 正在形成大量的电子文件,这些新型载体的文件,目前是纸质文件的重要补充, 将来将逐步取代纸质文件,成为档案管理的主要对象。电子文件的问世,不但使 挡案的存储载体和存储方式面临重大转移,而且使新世纪档案工作赋予了系列 新的特征和内涵。档案信息存储的海量化、传递的网络化、内容的知识化以及管 理和利用方式的多样化,将对档案管理的理论、原则、制度、方法等带来一系列 深远的影响,其中对数字化档案内容的智能化控制,是信息化环境下档案管理面 临的重大而紧迫的课题。 众所周知,档案是社会组织或个人在社会实践活动中直接形成具有清晰的、 确定的原始记录作用的固化信息“1 。所谓数字化档案,是指以数字形式记载、存 储、传递、处理和利用且具有档案特性的信息。其范畴不仅包括天生的数字化文 件,即以数字形式形成的文件,包括电子文件、c a l l 工程图纸、多媒体数字摄录 像信息等,也包括其它需要转换的后天的数字化文件,即现有馆藏的纸质档案经 过数字化加工后形成的声音、图像、图片等电子信息,不能将其简单等同于归档 电子文件( 或数字档案) 它是一种新型的档案信息形式,把分散于不同载体、 不同地理位置的信息资源以数字化的形式存贮,以网络化的方式互相连接,从而 可以及时利用,实现资源的可获得性、可互操作性和可持续性。而数字化档案信 息除了以上两类文件信息外还包括档案管理部门在工作过程中形成的方便检索、 查询、统计的档案目录和二次、三次文献信息。脚数字化档案信息的具体分类及 其相互间关系如下图( 图1 ) 所示: 1 1 1 冯惠玲,张辑哲,档案学概论【h q 北京,中国人民大学出版社棚1 埘薛四新。陈永生数字化档案信息的真实性保障,档案与建设 j 2 0 0 5 ,6 1 上海大学硕士学位论文 图i 数字化档案信息分类及关系示意图 图l 中的存量数字化档案信息具体是指在档案管理过程中,以保护原件、便 于利用、广泛共享、展示特色、缓解“胀库”为目的对档案馆已接收的以纸质、 模拟磁带、录像带或者缩微胶片等为储存载体的档案进行数字化扫描、数字化转 换等加工处理,形成的以数字形式存取的声音、图像、图形、多媒体信息等。这 类档案形成主要是对现有馆藏档案进行数字化加工和处理而获得,并没有为馆藏 增加新的档案信息,只是存储方式发生了改变增量数字化档案信息具体是指档 案馆接收的档案本身就是以数字化形式存储的,像以光盘、磁盘、硬盘等存储介 质进行脱机归档的档案以及以网络、信息系统、数据迁移、数据转换等系统实现 自动在线归档的电子文件等都属于这一类。这类档案信息在形成时为档案馆增添 了新的档案内容。数字化档案目录信息则具体是指以数字形式存储和处理的档案 目录,是指在档案整理和归档的过程中、在馆藏数字化过程中、在库房处理过程 中形成的为方便审核、调卷、检索和图文一体化管理的,以数据库或文件形式存 储的档案目录信息,这些信息是提供档案检索和利用的基础性信息。数字化档案 三次文献则主要是指档案工作人员以馆藏档案为基础进行编辑和研究工作中所 产生的成果总合。后两类信息较之前两类信息最大的区别就在于其动态性,它的 内容和组织形式是随着不同的需求和档案内容及管理方法的变化丽不断变化的。 通过以上对数字化档案内容的分析不难看出其与电子文件和归档电子文件 间的联系。数字化档案不仅包含了纸质档案中经过数字化加工处理的一部分档 案,也包含了电子文件中具有保存价值的归档电子文件部分,它内涵组成上的复 杂性必然造成了其特点的多样性,同时由于其外延上的广泛性也使得对其管理方 法的研究更具意义 2 上海大学硕士学位论文 1 1 2 数字化档案的结构 数字化档案是全新的信息技术革命的产物,它导致了档案在载体形态、记录 方法、传输方式、识读方法以及载体与信息的关系等方面都发生了根本的变化。 传统的纸质档案其载体与信息内容一旦结合,便不可分离、“生死相依”,而数字 化档寨则完全不同,由于它载体与内容的可分离性使得它原始记录性的本质属性 不单单依靠一个固化的物质形态的完整性来体现,而是需要一个系统元数据 系统,必须依靠这个系统中各结构要素功能的发挥才能实现其原始记录性功能。 这个系统中的三个结构要素有: ( 1 ) 内容,指文件中所包含的表达作者意图的信息,如标题、档号、分类 号、主题词、形成时间、形成单位等,是原始的且不能再生的,直接 形成于数字化环境。它不仅是数字化档案的基础和核心,更是数字化 档案管理中的重点和难点,如同人体中的“肌肉”。 ( 2 ) 结构,指文件内容信息的组织表达方式,如段落层次、格式、载体、 文体、发( 收) 文者、发( 收) 文者地址、称谓等,是数字化档案有 效性、可还原性的保障,如同入体中的“骨架” ( 3 ) 背景,指能够证明文件形成过程和文件之间相互关系的信息,包括表 示文件来源与传送目的地的信怠以及与内容信息相关的其他信息,如 应用软件、操作平台、文件使用权限、文件的保存与处置决定等,是 数字化档案真实性的保护性、证明性信息,如同人体中的“血液”。 元数据系统中鲍三个结构都是保证数字化档案原始性不可或缺的组成元素, 三者之间相互依托,紧密相连。内容是数字化档案价值的集中体现,结构是价值 的支撑,背景则是价值的保证,只有将三者封装为一体,才能实现数字化档案价 值的自我说明、自我解释和自我证聪,保证其完整性、真实性和可识别性。 1 2 内容管理 , 1 2 1 内容管理概念 数字化档案管理的对象是各种各样的不同载体和表现形式的信息资源,这些 都可以统称为“内容”。如何对这些内容进行自动的、智能的、精确的管理是目 前档案馆建设的重要工作之一,也是数字档案馆得以真正实现的基石面对这种 需求,近几年来一种源于出版媒体业的“内容管理( c o n t e n tm a n a g e m e n t ,简称 上海大学硕士学位论文 c m ) ”技术受到了企业和i t 领域的广泛关注。 何谓内容管理? 内容管理就是协同各种组织与个人之间的信息交互,应用现 代化的信息技术,实现内容的创建更新、储存、共享、分析、应用,加速信息流 转的自动化、智能化,并在业务、战略、决策等诸方面产生价值或潜在价值的过 程,它已经逐渐成为信息化应用的基础。其主要由“内容”和“管理”两部分组 成: 1 、“内容”强调对象,实质上是指任何类型和形态的数字信息的结合体,包 括以文本、图形图像、w e b 页面、业务文档、数据库表、视频音频文件、程序、 软件、各种实时信息等方式存储的信息。“内容”与以往经常提到的“数据”“信 息”“知识”既相互区别又相互联系。“数据”是载荷或记录信息的按照一定规则 排列组合的物理符号“1 ,是反映客观事物属性的记录、信息的具体表现形式:对 于数据的解读离不开数据背景和规则。“信息”是客观事物属性经过加工处理并 对人类客观行为产生影响的数据表现形式,是数据载荷的内容,与“数据”是一 对多的关系,即同一信息可以有多种数据表现形式。“知识”是信息接收者通过 对信息的提炼和推理而获得的正确结论,是人通过信息对自然界、人类社会以及 思维方式与运动规律的认识和把握,是人的大脑通过思维重新组合的、系统化的 信息集合而“内容”从狭义上说专指非结构化信息,而从广义上看则是一个 比数据、文档和信息范畴更广的概念,是对各种结构化数据、非结构文档、信息 的聚合,某种程度上也包含了知识;是具有价值的容易( 数字化) 、安全( 权限 控制) 、快速( 传递数据) 地进行共享和利用的一切数字资产 国2 数据、信息、知识、内容间的关系示意图 1 1 l 【2 l 马费成,胡翠华等信息管理学基础咖武汉,武汉大学出版社2 0 0 2 :7 4 上海大学硕士学位论文 2 、“管理”强调方法,是指施加在“内容”对象上的一系列处理过程,包括 收集、确认、批准、描述、整理、定位、转换、分发、更新、存档等,目的是为 了使“内容”能够在正确的时间、以正确的形式通过正确的途径传递到正确的地 点和人。内容管理不单是要存储内容信息,更重要的是要解决如何进行内容再加 工、再利用的问题,并且内容也不再只是局限于单一的、无任何关联的一些文件, 而是经过整理、加工甚至重构的具有广泛利用价值的数字信息资产。t r s 公司总 经理旌水才先生曾在作客( i t 二人行时谈到“内容管理作为以菲结构化数据 为管理对象的技术体系在应用角度涵盖了数据内容的采集、加工、管理、服务、 挖掘等各个环节的应用。在架构角度它跨越了目前流行三层架构的数据层、应用 层和服务层。一般来说现在大多从应用角度去定义内容管理。”另外,他也提到 了“内容管理边缘化”的问题,随着“内容“范畴从起初的主要以菲结构化信息 扩展到现在的异构信息为主,内容管理的范畴和内涵也相应扩大和发展。由此可 见,内容管理突破了传统目录管理只能处理结构化信息的局限性,可以解决对各 种非结构化或半结构化、甚至是异构资源的采集、管理、利用、传递与增值。 一个完整的内容管理应该包括以下几方面的功能:车富的内容采集功能、多 样的内容处理、完善的存储备份、可靠的安全管理、灵活的业务流转、快捷的内 容检索、统的发布平台和灵活的二次开发能力。它具有低级到高级的渐进过程, 即由数据管理到信息管理,进而发展到知识管理,更加注重信息含义的管理。忽 略了信息载体因素,更多她考虑了数据和信息的意义和语义,“1 真正实现对内容 的管理不因资源对象的变化而变化,不因系统软硬件平台的不同而不同,解决信 息异构和非结构化产生的信息共享危机。 1 2 2 内容管理的思想 , 为使内容管理真正发挥作用,并不单单是建立一个技术性的内容管理系统就 能解决的,它是一项结合人、过程以及技术的“技术一社会”工程。在人方面, 需要建立专门的内容管理机制,指派特定的内容人员( 如内容经理、内容编辑等) 进行内容的管理和维护;而在过程方面,要建立透明的内容管理过程,包括内容 的创建、存储、分享、应用和更新,并要将内容管理过程和具体的业务过程紧密 结合,使内容“从业务中来,并到业务中去,- 在技术方面,主要就是要建立一 t l 刘永基于内容管理思想的文档网络构建,档案管理 j 2 0 0 5 ,6 5 上海大学硕士学位论文 套内容管理系统,为内容人员以及内容管理过程提供技术上的支捧环境。 图3 内容管理的“技术i 社会”特性1 1 l 从技术层面上看,内容管理是一种思想或策略,由于对复杂的异构和非结构 化信息不可能仅依靠单一的技术手段解决,因此,内容管理必然是许多先进技术 的集成和一体化综合运用的规则。它涵盖机构内网、外网、因特网应用,结合最 毅的x g l 、j a v a 、g e t a d a t a 等技术,突破了传统信息流管理软件、办公自动化软 件以及文档管理软件的应用范围,最终实现内容价值链的最优化。目前,内容管 理的实现方案有很多种,在选择适合本单位的方案时,要考虑到其开放性、扩展 性、可升级性、可靠性、安全性和全面性。综合现在各种实现方案来看,基本上 都是采用层次处理的体系结构,可以清晰地表示内容处理由外以内,由上及下的 模块化结构。下图为内容管理系统功能示意图( 图4 ) 。 1 1 l a m t 企业资源管理研究中心内容管理初探h t i p :c n 州m i c l 鼹c o n 吖h t m l c o n t c a t a s p 6 上海大学硕士学位论文 r。_。_。-。o。 l 用户接l z lo u iij 企业信息门户e i pil 政府信息门户g i pl l | 全文搜索ii 元数据li 上下文搜索ll 视频,声频搜索l 图4 内容管理系统( c m s ) 功能示意图 在图4 中: ( 1 ) 内容仓库:用以存储各种形式的内容,如文档、视频、声频文件等。 ( 2 ) 内容描述:用以实现非结构信息结构化和异构信息同构化的转换。 ( 3 ) 内容处理:是内容管理系统的主要功能模块,用以提供对内容管理过 程的支持,包括; 内容创建和编辑;用以实现各种数据、信息、文档和程序的获取并提供创建 内容的协作工具,如文档和网页制作工具,数据转换 ( m e t a d a t aa n dx m l ) 工具等。 内容个性化:是内容管理区别于传统文档管理的一个重要特征,包括根据用 户喜好的用户控制个性化、根据内容相关性的数据控制个性化 等。 存档管理:用以实现安全存贮、管理各种形式的内容。 工作流;用以实现用户自定义的流程和基于角色的流程控制、审批流程等 安全控制:包括数据库安全控制、加密,拷贝和传播限制等。 生命周期管理:指对内容版本的控制,如多版本控制、版本跟踪等功能。 ( 4 ) 内容搜索:是内容管理系统的核心功能模块,用以帮助使用者快速定 7 洄洄洄洄洄 上海大学硕士学位论文 位所需内容,按照搜索方法可分为全文搜索、上下文搜索 等现在更先进的检索技术还包括智能化知识检索技术, 自然语言查询等。 ( 5 ) 内容访问设备:包括客户计算机以及p d a ( p e r s o n a ld i g i t a l a s s i s t a n t 掌上电脑) 、移动电话等移动型设备。 目前,内容管理理论研究及其应用系统已经发展到了比较成熟和稳定的阶 段,同时其应用范围也由出版媒体业到企业信息化之后,开始转向在数字图书馆 等其他行业的应用,例如由i 蛳公司开发的数字图书馆( d i g i t a ll i b r a r y ) 系 统和舡t 开发的数字空间( d s p a c e ) 都是基于内容管理的系统。这些成功的实例 无疑都为档案馆实现非结构化信息的内容管理提供了良好的借鉴和参考资料。 l 。2 3 内容管理中现在遇到的瓶颈问题 内容管理的目标是异构的、非结构化的信息的互连互动,即实现非结构化信 息或半结构化信息的外部特征和内容信息的结构化,其关键是:如何打破自然语 言和异构信息的局艰实现资源的共享性及重用性、资源检索的效率和数据的一致 性和完整性以及深度内容信息的挖掘。解决这些问题一方面是要靠标准、规则的 制定和实行,另方面就是技术实现。 信息异构是指信息表示和揭示上差异,或是信息类型的不同。它通常表现为 信息格式异构、信息平台异构、信息环境异构和存取模式异构。“1 这些往往会造 成兼容性故障、通信故障、信息解释和传递失真、信息呈现与编辑错误、概念冲 突、信息完整性缺陷等问题,不但制约了信息的存取和正确利用,还严重地影响 了信息处理的效率。而信息非结构化是指难以用关系型为主的数据库进行管理的 信息,是信息自身的差异问题。它主要包括真读载体记录的信息、数字载体信息 和模拟载体信息三部分。 厂直读载体信息:信件、邮件、传真、原始凭证、会议记录、公文等 椭构化信息辨载体黼:譬气纂敢数演示煳文瓠酗、 l 模拟载体信息:影片、照片、录音和录像等 1 1 l 刘永基于内容管理思想的文档网络构建档案管理 刀2 0 0 5 ,6 b 上海大学硕士学位论文 现在已经可以通过诸如直接硬件协议支持、多协议枚举支持、多协议中间件 支持、建立以数据库存取为中心的、以链接存取、数据库大二进制数据存取等手 段为辅的技术措施来解决这些问题,但都是局部的解决而已,仍然还有大部分的 信息难以实现共享和重用,而这部分信息往往又是价值很高的。因而,内容管理 作为一种产生于从根本上改变这种信息利用现状的思想和解决方案,是必然要将 这个问题的解决作为其核心任务。档案工作中为了提高数字化档案的管理水平和 利用效率,也必须关注内容管理的技术和方法,加快档案信息化进程 1 3 数字化档案实现内容管理的必要性 任何一个理论的合理都与其环境不可分割,每一个新理论和新技术的出现都 是当时时代的产物。在当今的数字化、信息化、网络化时代,数字化档案来源上 的多元化,数量上的海量激增,形式上的多样化以及利用上的随机化都对其管理 提出了更高、更严格的要求。使得其内容“存“与“取”的问题更加突出。如何 从现有档案数据信息中实现知识信息的准确描述表示、深度挖掘提炼和快速传递 共享成为档案管理现阶段函待解决的重要问题,而内容管理则为解决这一问题提 供了有效的思路和方法。 l3 1 数字化档案的整合难 从数字化档案自身的变化来看,档案要成为资源的必要条件就是要经过整 合,使其有序化,然而目前数字化档案所呈现出多样化和非结构化的突出特点使 得对其进行内容管理成为必然。 第一,社会信息化产生了多种系统和海量的数据和信息资源,使得档案以 数字化的形式产生、存储、传递、显示其信息内容是大势所趋,数字化档案内容 的广泛性、分散性和关联性强的特点越来越突出。在社会信息化过程中。不可能 只建立一个单一的系统满足社会各个层面、职能和人员的信息需求,因此,在各 企业和党政机关内往往运行着各种各样的系统。这些系统中每天都产生大量的数 据和信息资源,其来源不同,格式多样,关系复杂,结构各异且更新频率不同; 除此之外,由于多次使用使得数据被多次复制,更加剧了信息的增长速度和混乱 程度。数字化档案海量信息的无组织及低质量,导致信息组织、管理和使用的低 效率和低效益,严重阻碍了其价值的实现。 9 上海大学硕士学位论文 第二,数字化档案海量的非结构化内容需要像数据一样加以管理。信息技 术的发展导致信息快速指数增长,档案信息的数量和类型从稀缺发展到丰富、过 剩,虽然技术上档案馆已经通过关系型数据库及数据仓库解决了同构和结构化信 息的“信息孤岛”和“信息共享”的问题,但是大量异构和非结构化信息的存在 所导致的信息内容上的“冰山”现象日益成为制约数字化档案开发利用的瓶颈问 题。如果听任各式各样的非结构化内容散布在数字化档案各处而不加以管理,不 仅其价值根本无法充分发挥,而且会导致大量时间被浪费,严重降低工作效率。 第三,信息异构使得计算机无法自动识别。g a r t n e r 调查显示:平均每个知 识员工每个星期在不增值的相关文档处理任务上需要花费8 个小时,包括文档的 创建、寻找、整理等。“1 数字化档案中的大量信息在不同的系统中形成,按照自 身要求的格式存储,彼此之间不兼容的现象很常见,内容的共享和管理上都增加 了难度。因而,要解决信息孤岛问题首先保证异构信息的同一化处理,即对载体 异构、格式异构、系统异构、环境异构等异构信息进行整合处理,解决好异构信 息的同构化、非结构信息结构化的闯题,然后在此基础之上,建立统一的非结构 化信息的存取和传递系统,解决信息分散问题,实现信息内容的集成 l3 2 数字化档案的著录难 从数字化档案管理者的霜度来看,对档案信息的驾驭需要对其进行分析、选 择和记录,然而目前著录标引手段的能力不足、质量差、效率低的现状,跟不上 信息技术的快速发展使得实现内容管理成为必然。 第一,档案著录不仅要满足其表层形式特征描述的需求,而且要满足其深层 内容信息智能化控制的需求。传统著录是在档案进入档案部门后才开始的,只是 对文件转变为档案后一种结果的著录,这种著录过程本身是静态的、局部的和相 对的,大多只是针对机构、时间、题名、主题词等有限几个简单检索点迸行著录, 一般著录完成后著录结果将不再更变,因而著录结果之间是相对孤立的,无法实 现语义联系。而电子著录打破了传统著录模式化、单一化的方法,是从电子文件 一形成就开始了,是对其整个流转过程中信息的动态著录,著录时期也由以前的 后端转向前端,著录内容侧重于目次、提要、文摘甚至全文内容信息,并且其本 身要求著录结果有语义延伸性,加强了著录结果间的联系。 哪宋红松传统知识与知识产权电子知识产权阴2 0 0 3 :3 6 l o 上海大学硕士学位论文 第二,档案著录不仅要满足人工阅读的需求,而且要满足计算机自动处理的 需求。传统著录是面向手工管理的,是档案工作者通过仔细阅读每一份档案内容, 仔细分析、总结、提炼并进行逐一记录的过程,因而著录结果主观性太强,缺乏 规范性。而电子著录则是面向机器管理的,它不仅要求著录过程是自动的,而且 要求著录结果是机器本身能够正确识别的;除此之外,其过程中人为参与很少, 著录条目和内容挑选的规则方法都是事先定义好的,有利于保证著录结果的一致 性。 第三,档案著录不仅要满足数字信息的检索需求,而且要满足其凭证价值的 证明需求。电子著录不仅包含传统著录中对档案的形式特征和内容特征的提取和 记录,还包括对文件的背景信息和结构信息的获取,著录范围和内容更加广泛、 详尽,这是由电子文件的虚拟性特征所决定的,只有将内容、背景和结构三者封 装在一起,才能有效得实现电子文件的自我说明和自我证明 在这个电子化、网络化的社会中产生的档案存在,要求档案管理员在新的管 理对象、新的管理空间、新的管理模式、新的管理思想的状态下进行档案管理工 作。数字化档案信息激增,使得档案管理者的工作内容不能只是简单的保存档案 载体因素,更重要是的是应当将注意力集中于档案信息含义的管理,更多地考虑 数据和信息的意义和语义。同时不能像以往一直将档案信息资源开发利用作为档 案信息化的核心,而应强调信息利用、智能化改造、协调性提升,将知识化作为 信息化的核心。而知识化信息正是内容管理的高级对象,它不仅包括附加规则的 信息,还包括具有回答特定问题的功能,是档案利用中最受欢迎的要素。因而, 数字化档案管理必然需要借鉴内容管理的策略,完成从数据管理到信息管理,进 而发展到知识管理这一由低级到高级的渐进过程。 1 3 3 数字化档案的利用难 从数字化档案利用者的角度看,档案的价值得以充分发挥的重要条件就是利 用者实现检索的及时、准确。然而现有检索工具检索效率低下,无法快速、准确 找到需要的、有价值的信息的状况呼唤对其进行内容管理。数字化档案的产生, 信息网络化的建立,打破了传统信息传播的时空局限性,极大地提高了劳动生产 率,把人们从谋生的牢笼中解放出来,在进行物质活动之外得以更多地进行精神 活动,人们对档案信息内容的需求也日趋多样化,利用手段多元化。在网络化背 1 1 上海大学硕士学位论文 景下,数字化档案信息内容的提供利用具有共享性、复用性、交互性、多样性、 开放性等特点,与纸质档案相比表现出了无与伦比的便利性,但是信息爆炸所带 来的信息资源越来越沙漠化,资源太多但精品太少,阅读量太多但注意力太少, 查找成本越来越高。利用者对信息的控制能力薄弱,很难在庞大的信息“沙漠” 中挖掘到真正具有价值的精品。内容管理能够对数字化档案的内容信息进行准确 的描述和表达,有助于改变其通常仅是“网中之鱼、笼中之鸟”难以发挥自身价 值的现状;内容管理对内容信息的分析、综合以及挖掘、提炼,赋予了档案信息 新的生命,让档案真正活起来,充分发挥自身的潜在价值,逐渐缓解信息爆炸与 用户需求不对等的矛盾,提高内容信息的自动化程度、可控制性、共享性,最大 限度地满足社会对档案内容“广、快、精、准”的利用要求。 。 数字化环境下的电子著录成为实现档案计算机管理的必然要求,目前常用的 方法如元数据、x m l 、e a d ,r d f 等由于其自身的局限性,都无法很好的解决计算 机自动识另q 著录结果语义的问题,信息引导能力较差,不能帮助利用者准确定位 确定所需信息所在的领域,导致大量无用信息涌现,形成了有用的档案检索不到, 检索到的档案确无用的利用矛盾,给档案事业的发展带来了很大阻力。除此之外, 由于常规的直接基于关键词的信息检索技术也远不能满足用户在语义上和知识 上的需求,使得寻找新的解决方法成为目前研究的热点。而本体理论作为一种结 构化的知识描述语言恰恰为上述问题提供了良好的解决途径,使得电子著录更加 规范化、准确化。 上海大学硕士学位论文 第二章内容管理的新工具本体 2 1 本体概述 2 。l 。1 本体的含义 随着第二代网络语义网的快速发展,人们对于事物的描述已不满足子停 留在简单地、静止地表面化描述阶段,所有信息将被加上明确的语义信息,使描 述对象从文献信息转向知识信息、描述方式从静态转向动态,从而使智能代理自 动对网络上的资源进行处理,使网络信息得到更充分的利用。但我们现在通常使 用的元数据又存在不能表示信息语义的缺陷,因而,近几年来,人们将起源于哲 学领域的本体概念引入了人工智能、知识工程、软件复用和图书情报等多个领域, 用以解决知识概念描述和知识组织体系方面的有关问题。 本体( o n t o l o g y ) 一词早在十七世纪就已诞生,派生于拉丁文o n ( 存在, 有,是) 和o n t o s ( 存在物) ,指本源性的实体,包括形式、目的、质料和动力 四个因素。这一概念最早出现在形而上学的哲学分支中,其哲学定义为“对世界 上客观存在物的系统地描述,即存在论”,是客观存在的一个系统的解释或说明, 关心的是客观现实的抽象本质。“1 马克思认为本体是事物存在的基础和来源,也 是事物生存的前提与根本条件,提出“物的属性不是由该物同他物的关系产生, 而只是在这种关系中表现出来”。嘲说事物的属性不是在事物间的关系中产生, 而是在这种关系中表现出来,实际上也就是说事物的属性是由事物本身( 本体) 而来。因而将本体看作是事物的生命、性质、属性、功能、关系、态势( 动静、 交固、生灭等) 的承受者、包容者和发起者也是不无道理的。啪本体论代表着人 类认识中的一种追寻根本原因、根本依据、根本基础与根本出路的倾向,因而, 不难看出,对于任何一个学科,本体在任何意义上都是第一性的。 在计算机知识工程领域,本体论被用于对客观世界的存在现实进行系统化描 述,方便知识的充用和交互。更有助于解决由于信息异构所造成的信息无法互操 作的问题。目前国内外学者对于本体概念的阐述有很多种,没有一个统的规范 的概念,现已获得大部分研究者公认的本体概念是t o mg r u b e r 于1 9 9 4 年在 s r i ( b ( s h a r e dr e u s a b l ek n o w l e d g eb a s e s ) 的e - 皿a i l 列表中提出的定义:“本 体是关于共享概念的协议。共享概念包括对领域知识建模的概念框架、可互操作 i l j 邓志鸿,唐世渭等o n t o l o g y 研究综述北京大学学报( 自然科学版) c j 2 0 0 2 5 嘲马克思资本论:第一卷 m 7 2 柳于海江再论本体,辽宁教育学院学报 j 2 0 0 2 ,1 1 3 上海大学硕士学位论文 的系统通信协议和特定领域理论的表示协议在知识共享环境中,本体以定义表 达词汇的形式来获得描述”。虽然人们已经从不同的角度和方面对其进行定义, 但从内涵上说认识是一致的,都认为其是对领域内部不同主体之间进行对话、互 操作、共享等交流的一种语义基础,即由本体提供一种明确定义的共识从本质 上说,其反映了一个对给定领域的通用观点,是该领域中的概念以及这些概念问 关系的集合;这些关系反映了概念间的约束和联系,也可以被看作是一个特殊的 概念,关系之闻还可以存在新的关系。由此看来,简单的说,本体就是用来表达 和交流某些主题的、层次清晰的规范说明,包括所表达主题的知识词表和一个关 系集。德国卡尔斯鲁厄大学的s t u d e r 等学者认为一个完整的本体应该具有以下 特征:脚 ( 1 ) 明确( e x p l i c i t ) 指“被引用的概念所属的上位类与在使用此概念时 的限制条件应预先得到明确的定义和说明” ( 2 ) 形式化( f o r m a l ) 。指“本体以计算机可读的形式存在”。( 即能被计算 机处理) ( 3 ) 共享( s h a r e ) 。指在一个本体中,知识所表达的观念、观点应该“抓 住知识的共性,也就是说,本体不只是为某一小部分人所接受认可,而是被整个 群体共同认可”。 ( 4 ) 概念化( c o n c e p t u a l i z a t i o n ) 。指人们对世界进行认识以及交流这种 认识的结构化的表述。例如,对于一个档案工作者来说,概念化意味着能根据档 案的不同特点分成不同的类型,如按照专业性可以分为党政档案、科技档案、会 计档案、人事档案等:按照载体不同可以分为纸质档案、电子档案等。同时要将 这些概念进行抽象建模得到概念模型,概念模型所表述的含义独立于具体的环境 状态。 2 1 2 本体的构成要素 本体是对领域实体存在本质的抽象,强调实体闻的关联,并通过多种知识表 示元素将这些关联表示和反映出来,以实现其对领域实体存在本质抽象的目的, 并且只有包含这六个要素的知识表示体系才是真正完整意义上的知识本体。这些 元素主要包括( 表1 ) : 1 1 m i k eu s c h o l d m i c h a e lg r a n i n g e r o n t o l o g i e s :p r i n c i p l e s m e t h o d sa n da p p l i c a t i o n s k n o w l e d g e e n g i n e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 材料加工安装合同范本
- 道路运输企业主要负责人和安全生产管理人员安全考核模拟试题及答案
- 爱心捐资合同范本
- 工程合伙合同范本简单
- 代买采购合同范本
- 2025年水文测站试题及答案
- 2025年征信考试题库(征信数据)分析与商业价值挖掘试题卷及答案
- 病区医院感染管理规范考核试题及答案
- 高压电工模拟试题(附答案)
- 通信工程概预算考试试题与答案(基础题与专业题)
- 2025年吉林省中考语文真题(含答案)
- 2025高级会计师考试试题及答案
- 工地建筑钢板租赁合同范本
- 水稳摊铺作业安全技术交底
- 实验室病原微生物危害 评估报告
- 科技项目申报专员系列培训(技术攻关项目)
- 品质异常处罚细则及奖罚制度
- 小升初英语学习方法指导PPT
- GB∕T 40753-2021 供应链安全管理体系 ISO 28000实施指南
- GA∕T 1577-2019 法庭科学 制式枪弹种类识别规范
- 福州市长乐区农村宅基地及房屋确权登记
评论
0/150
提交评论