




已阅读5页,还剩54页未读, 继续免费阅读
(计算机科学与技术专业论文)文档管理系统关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理一r 大学硕十学位论文 摘要 随着企业信息化技术的发展,企业办公过程中产生的各种电子文档与日俱 增。另外,企业纸质文档也希望能够被转换为电子文档,以便于文档在部门之 间的流转、查阅以及长期保存和共享,从而提高文档的使用率和价值。文档管 理越来越受到企业的重视。但是企业在进行文档管理的过程中,经常会碰到海 量文档存储、查找效率低下、文档版本管理混乱、文档安全缺乏保障、文档无 法有效协作共享、知识管理举步维艰等问题。因此文档管理逐渐成为国内外业 界研究的热点。 本文在研究国内外文档管理系统现状的基础上,提出应用元数据技术解决文 档在资源描述、检索、共享以及长期保存等方面的问题,提出应用使用访问控 制u c o n 解决文档安全方面的问题。 论文首先介绍了文档管理以及文档管理系统的基本理论知识;接下来阐述了 元数据基本理论,重点阐述了元数据的描述机制,研究元数据的标准以及元数 据描述语言规范x m l 和元数据描述框架i f ;接下来,回顾了传统访问控制模 型的特点以及应用领域,指出了所存在的问题,在此基础之上重点研究了使用 访问控制模型u c o n ,分析了它的新特性以及核心模型。 论文结合文档管理系统的特点,提出了文件系统与关系数据库混合使用的存 储策略;在对元数据基本理论理解的基础上,提出了文档管理系统元数据采集 方案,给出了元数据描述的实例;在对使用控制u c o n 理论研究基础上,设计 了电子文档管理系统的权限控制模型。论文为文档管理系统的研究提供了有益 的参考。 关键字:文档管理,元数据,使用控制u c o n 武汉理工大学硕十学位论文 a b s t r a c t w i t hn l e d e v e l o p m e i l t o fe i l t e 印n s ei n f - o 彻a t i o n t e c b 叽o l o g y , av 撕e t yo f e l e c 们i l i cd o c l l m e i l t si n c r e a s e dd 谢n gt h eb u s i n e s sp r o c e s s i na d d i t i o n ,t 1 1 ec o f n p a n y a l s oh 叩e st ot i 珊p 印e rd o c u m e n t si n t oe l e c 仃d n i cd o c 啪饥t s ,i no r d e rt of a c i l i t a t e m ec i r c u l a t i o n ,a c c e s s ,l o n g t e n i lp r e s e r v a t i o na i l ds h 撕n go ft h ed o c u m e l l ti nt h e s e c t o r ,t h e r e b ye 1 1 h a n c i n gt h eu t i l i z a t i o na n dv a l u eo fm ed o c u m e n t t h e r e f o r e ,m o r e a 1 1 dm o r ee 1 1 t e r p s eb e 百n st op a ym o r ea t t e n t i o nt od o c u m e l l tm a i l a g 锄e n t h o w e v e n t e 叩r i s e si nt h ep r o c e s so f d o c u m e n tm a n a g e m e i l to f t e l lm e tm 锄yp i 、0 b l 唧s ,f o r e x 锄p l e ,d o c 啪e n t so r e n n e e dm a s ss t o 豫g e ,t t l e s e a r c h i n gi sl o we 伍c i e n c y d o 伽m e n tv e r s i o nm a n a g 锄e i l tb e c o m e sc o n 向s e d ,d o c 啪e n ts a f e t ) ri sl a c ko fs e c u 打t y , d o c u m e n ts h 撕n gc 觚n o tb ee 虢c t i v ec o l l a b o r a t i o 玛h o w l e d g em a i l a g e m e n th a v e d i 伍c u l t i e s t h e r e f o r e ,d o c u m e l l tm a l l a g e m e n t h a sb e c o m e ah o tr e s e a r ( mi nh o m ea i l d a l b r o a d b a s e do nt h er e s e a r c hs i t u a t i o no fd o m e s t i c 锄di n t e m a t i o n a ld o a l m e n t m a n a g 锄e n ts y s t e m s , m et h e s i s p r o p o s e su s i n gm e t a d a t at e c h n o l o g y t 0s o l v e p r o b l e m si nr e s o u r c ed e s c r i p t i o n ,s e a r c h ,s h a r ea i l dl o n 乎t 锄p r e s e a t i o n ;p r o p o s e s a p p l 如n gt h en e x t g e i l e r a t i o na c c e s sc o n n 0 l - u s a g ec o n t r o lu c o n t os o l v ed o 印m e n t s e c u r i t yi s s u 鹪 t 1 1 et h c s i s f i r s t l yi n 仃o d u c e sn l eb a s i ct l l e o r e t i c a l1 ( 1 1 0 w l e d g eo fd o c u m 酬 m a l l a g e m e l l t 锄dd o c u m e n tm a l l a g 锄e n ts y s t e 埘;t h en e x t ,r 印r e s e l l tt h eb a s i ct 1 1 e o 巧 i nm e t a d a t 钆f o c u s e so nt h em e t a d a t ad e s c r i p t i o nm e c h a i l i s m sa i l dm e t a d a t as t a i l d a r d s , s p e c i f i e dd e s 谢b e sm e t a d a t ad e s 商p t i o n1 锄g u a g e x m l 觚dt l l e 危吼e w o r k r d f ; t 1 1 i r d l v ,t h et l l e s i sr e v i e w st h ec h a r a c t e r i s t i c so ft r a d i t i o n a la c c e s sc o n t r o lm o d e l sa n d 印p l i c a t i o i l s ,p o i n t e do u ti t sp r o b l 锄s ,b a s e do nt h et l l i ss t l l d y t 1 1 et h e s i sp r i m a d , s t u d i e su s a g ec o n t r o lm o d e l u c o n ,锄a l y s i si t sn e wf - e a t u r e sa i l dc o r em o d e l s a c c o r d i n gt ot h ef e a t u r e so fd o c u m e n tm a l l a g 锄哪s y s t e m s ,t h et h e s i sp r o p o s e s a6 l es y t 锄a i l dr e l a t i o n a ld a t a b l a s em i x e d u s e ds t o m g cs 乜a t e g ) r ;b a s e d 0 nt h e u n d e r s t a i l d i n go f m e t a d a t ab a s i ct l l e 0 职m em e s i sp u t s 内m a r dam e t a d a t aa c q u i s i t i o n p r o 伊锄,西v e se x 锄p l e so fm e t a d a t ad e s c r i p t i o ni nd o c u m e l l tm a i l a g 锄胁ts y s t 锄; b a s e d0 nt h et h e o r yi nu s a g ec 0 n t r o lm o d e l - u c o n ,t l l et h e s i sd e s i 印st l l ea c c e s s u 武汉理j 亡大学硕士学位论文 c o n t r o lm o d e li ne l e c t l o m cd o 蚴e n tm a n a 髀n e n ts y s t e m t h et l l e s i sp r o v i d e sa u s e 向lr e 】f e r e n c ef o r t h er e s e a r c ha b o u td o c l 】m e n tm a n a g 咖e i l ts y s t 锄s k e yw o r d s :d o c u m e n tm a l l a g 锄e 1 1 t ,m e t a d a t a ,u s a g ec o n t r o l l 独仓i j 性声明 本人声明,所呈交的论文是我个人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生( 签名) :逢竖聋日期:望龋 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即 学校有权保留并向国家有关部门或机构送交沦文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部l 勾容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同【j 于授权经武汉理: 大学认可的国家有 关机构或沦文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) 夹避导师( 签名 弋日期:趟咀 武汉理= 大学硕士学位论文 1 1 研究背景 第l 章引言 企业生产经营过程中会产生各种各样的文档。最早是用纸质文档来保存, 随着企业信息化的建设,各种电子文档也随之出现了,而且电子文档的类型更 加丰富多彩,不仅有传统的表格形式的报表,文档类型的资料等,而且可以保 存现代的多媒体信息,比如声音文件、图像文件等。文档产生的原因就是要方 便工作人员随时查阅,实现信息地共享。但实际的情况是,无论是在存储还是 在查询利用上都存在着不尽人意的地方:个人或者部门自己产生的文档大多都 存在自己的电脑上,存储方式直接影响到文档的利用,其它部门需要查阅这些 文档的工作人员不能有效的利用,而且查阅过程中还可能会受到人的影响。总 之,文档价值没有被充分挖掘出来。 实际应用中,人们逐渐认识到上述问题,逐步摸索各种解决办法。信息技 术的不断发展给了人类启示,人们开始思考能否开发出一个系统能够高质量的 管理文档的生命周期,能够有效地解决文档的创建、检索、维护、流转和长期 存储等。目前有越来越多的人参与到这一项研究课题中。研究文档管理的课题 具有鲜明的现实意义: 文档管理系统的出现笼统的说就是要实现文档的有效管理。具体通过为企 业的显性知识提供的管理平台,能够解决文档的长期存储,减少由于文档意外 丢失造成的损失;能够提高文档的检索查询效率,降低交流查询所消耗的时间, 减少由于查找失误造成的负面影响;方便企业各个部门的交流,实现文档的共 享和有效利用;在提高文档利用率的基础上,进而提高工作人员的工作效率, 通过建立企业文档管理系统,加速文档信息资源的流动,减少工作中经常出现 地拖拉和责任推卸等现象;记录工作人员对文档的操作,有效跟踪文档的流转 进程,监督工作人员业务处理进程,有效提高工作效率i i 】。 1 2 国内外研究现状 文档管理是个学科,有传统的纸质文档的管理,还有本文要讨论的对电子 化文档的管理。美国国际数据集团i n t e n l a t i o n a ld a t ag r o u p 对文档管理系统的定 武汉理工大学硕士学位论文 义是,文档管理系统是能够控制文档的产生,管理文档的存储以及实现文档的 访问,控制文档的分发,监控文档的流转过程的软件系统【2 l 。它将纸质文档的管 理和电子文档的管理结合起来,并且结合了企业应用环境中的商业智能,以及 知识管理的概念,充分利用文档的价值,为各类用户提供服务。 关于文档管理系统的研究,最初只停留在概念上,伴随着电子信息技术的 蓬勃发展,逐步从概念走向实际应用,从研究走向开发。最先诞生的文档管理 系统是为了解决某些特定领域的复杂业务流程的,应用范围狭窄。后来诞生了 办公自动化的概念,文档管理系统也随着有了进一步的发展。为了满足各个应 用环境对于文档管理的需求,相继出现了各种各样的系统,从最初的单个用户 的文档管理系统,到后来的多用户文档管理系统,从办公自动化系统中对公文 流转管理的集成到专业的文档管理系统p j 。目前,文档管理系统已经被应用在各 个行业,例如政府电子政务,建筑工程项目等,几乎所有的领域都需要文档管 理系统的支持,可以这样说,只要有文档产生的地方就有文档管理的应用空间。 文档管理系统,从最初的静态的手工方式,发展到加入了工作流的动态方 式。随着内容管理,知识管理,商务智能以及计算机协同工作等概念的出现, 文档管理系统正向着融合了这些概念的设计方向发剧3 1 。市场上已经存在很多系 统软件,有商业化的也有开源的。国内的产品一般都是在某个开源产品基础上 进行的二次开发,主要实现了办公自动化,电子邮件管理,公文管理以及工作 流。通用型的文档管理系统国外产品较多,国内相对较少,国内的产品多针对 性较强,偏重于特定领域的比较专业化的产品。接下来从以下几方面具体阐述 文档管理系统的发展历程。 文档管理系统功能,从根本上讲就是要实现对文档的存储、检索、操作、 共享,功能实现上,大体可以分为系统管理和文档管理两部分【4 】。具体的讲,系 统管理主要实现对于用户的管理,关于组织机构的管理,以及关于系统安全方 面的管理等,其中安全管理又可以包含关于日志的管理以及系统灾难处理,备 份等。系统管理是文档管理的辅助,文档管理才是核心,主要实现文档分类, 文档上传下载等操作,文档检索以及能够追踪文档版本,定制文档权限,实现 文档备份,以及定制文档工作流等1 4 j 。 文档管理系统的存储,目前应用比较广泛的是采用文档数据库或者关系数 据库。文档数据库是l o t u s 公司在1 9 8 9 年发布n o t e s 产品的时候提出的数据库 技术概念,和其他传统的数据库不同,它是专门用来管理文档的【2 】。文档数据库, 文档是处理信息的基本单位。文档单位可以像字处理文档一样可以没有任何结 2 武汉理工大学硕士学位论文 构,并且很长、很复杂。应用文档型数据库的代表产品是l o t l l s 公司开发的基于 d o m i n o n o t e s 的构架上的d o c i 】m e n tm a n a g e r 。关系数据库基于表结构的数据库, 有严格的规范。典型的关系数据库系统有适合数据量不是非常大的s o ls e r v e r , 适合于大量数据应用需求的o m c l e 以及最适于海量数据的存储的d b2 。由于关 系数据库技术成熟,并且可供选择的产品较多,大部分的文档管理系统都是基 于关系数据库开发的。 文档管理系统的体系结构,主要有两种:c s 结构( c l i e n t s e 神和b s 结构 ( b r o w s e s e r v e r ) 。它们都可以再分为两层结构和三层结构。两层结构一般分为客 户端和服务器端,客户端主要完成用户的浏览操作,而服务器端主要负责完成 文档管理的各种应用程序以及对数据库中的数据的操作【l 】。三层结构一般分为客 户端界面层、中问业务逻辑层和后端数据库服务器层,中间业务逻辑层就是把 两层结构中服务器端应用程序中的中间业务逻辑独立出来组成的。中间业务逻 辑层实现客户端对后端数据库的访问、生成大量业务逻辑规范供客户端程序调 用;后端数据库服务器通常是专业数据库管理系统,被中间业务层访问。当应 用发生变化,需要扩展时,不需要对客户端应用界面做修改,只需要对中业务 逻辑和数据库结构进行扩展即可。 文档管理系统的具有较强的安全性要求,主要通过在几个层次上的控制得 以保障:首先是在系统层次上,通过设置用户和口令登录来维护系统用户的可 靠性;其次在文档层次上,采用访问控制策略来实现,一般综合采用访问控制 列表方法和基于角色访问控制,前者实现了权限的控制,而后者则实现了用户 与访问权限的逻辑分离;在网络传输层,利用各种加密技术,把文档信息从明 文编辑成密文,从而保护系统的信息不受非法侵害瞪j 。 通过以上对文档管理系统国内外现状的研究分析,可以得出,目前市场上 主要有三类文档管理系统:基于c s 结构的文档管理群件系统,基于b s 结构 的专业的文档管理系统,以及在制造业应用较广的产品数据管理系统。 1 3 存在问题 上一小节阐述了文档管理系统国内外研究现状,经过分析得出传统的文档 管理系统主要存在以下几方面的问题: 文档管理系统,一般使用的数据库是文档型数据库和关系型数据库。文档 型数据库在文档的存储上占有优势,但是不擅长信息的查询以及数据的统计分 3 武汉理工人学硕士学位论文 析,而且开发在后期的维护和实施上存在较大的难度。关系型数据库凭借其严 格的理论基础占有一定的优势,但是对于存储的对象同样有着严格的要求,要 求存储的数据类型大小确定。 文档管理系统,一般使用基于访问控制列表( a c l ) 的访问控制技术或基于角 色的访问控制模型( r b a c ) 【6 】。这些技术有一定的优势,但是当角色较多或者角 色信息经常发生变化,特别是当要求控制的对象不确定或分配权限比较细致的 情况下,它们都不能有效地保障文档的安全性。 文档管理系统中文档的检索,一般采用的是基于关键字的匹配,这种方式 容易实现,但是检索的信息相对简单。而实际应用中,有很多基于内容的,条 件复杂的信息需要被挖掘出来,对文档的检索技术提出较高的要求。否则不能 充分利用文档资源,造成了文档信息资源的费浪。 文档管理系统架构,一般采用集中式的架构,集中式方便对文档的统一管 理,但是不能满足跨地域企业的需要,缺乏对分布式的支持。 通过对文档管理系统中存在问题的分析,发现传统的文档管理系统不能很 好地满足企业的需求。因此有必要在传统文档管理系统的基础上做适当的改进, 来适应新的应用需求,提高发现和使用文档信息资源的效率,有效地保护隐私 文档的安全,充分发挥文档管理系统的作用。 1 4 研究目标和内容 通过对国内外文档管理系统现状的研究分析,得出本课题的研究目标是探 索企业文档管理系统的思想和方法,实现电子文档、电子表格、图形和扫描文 档等的存储、分类和检索。 为实现上述课题目标,本论文的所要研究的内容有以下几方面: 1 ) 非结构化数据存储研究 文档管理中数据大多是以文件、报表等非结构化形式出现,如何管理这些 非结构数据是首先要研究的问题。通过阅读相关文献资料,深入分析并比较已 有的非结构化数据的存储方法。 2 ) 文档检索研究 文档管理中要支持数据检索和全文检索。数据检索主要是根据文档属性来 进行,根据文档描述信息实现分类检索,包括标题检索,关键字检索,所有人 4 武汉理工大学硕十学位论文 检索,时问检索等多种检索手段。全文检索主要是根据指定的关键字,在文档 内容中进行的检索。 为了加快检索速度,研究采用什么方式组织文档,采用什么机制建立索引, 每种类型的文档需要提供哪些元数据,以支持文档的检索。 3 ) 文档安全研究 为了保证存储的文档更加的安全,避免企业因为文档的丢失、内漏等失误 造成不可避免的经济损失,研究了文档管理系统中的安全访问控制机制。 1 5 本文结构安排 全文一共分为6 章,具体的结构安排如下: 第l 章,引言部分。主要阐述了本课题研究的背景意义,文档管理系统国 内外发展现状以及目前存在的问题,本课题研究目标和内容,以及本论文的组 织结构安排。 第2 章,文档管理相关概念。主要分析了文档管理以及文档管理系统以及 在文档管理系统中主要研究解决的问题,讨论了文档数据以及它的存储方式。 第3 章,文档管理中的元数据技术。主要研究了元数据标准以及元数据描 述语言规范x m l 和元数据描述框架r d f 。 第4 章,文档管理中的访问控制策略。在传统访问控制策略的基础上,重 点研究了使用控制技术u c o n ,探讨了u c o n 在文档管理系统中的应用。 第5 章,文档管理研究与设计。在前面几章相关技术研究的基础上,给出 了一个文档管理原型的基本架构,重点分析了元数据和u c o n 在文档管理系统 中的设计。 第6 章,总结与展望。最后,对本论文的研究工作的总结,并对系统的发 展提出了进步的展望。 5 武汉理工大学硕士学位论文 第2 章文档管理相关概念 文档是知识的容器,是已经物化的显性知识。文档管理是个学科,是企业( 组 织) 保存和利用知识资产的重要手段,历经了最初的纸质文档的管理到目前电子 文档的管理的过程。本章综合分析了文档管理以及文档管理系统,探讨了文档 管理系统研究的重点问题,并且分析比较了文档数据的存储方式。 2 1 文档管理和文档管理系统 2 1 1 文档管理 文档管理有传统的纸质文档的管理,还有本文要讨论的对电子化文档的管 理。传统的纸质文档处理模式,需要专人花费大量的时间实现对文档的管理, 包括文档的整理,分类,编目,入库以及查找;对电子化的文档的管理,是指 对电子文档、电子表格、纸质文件的图像的分类、存储和检索,只包括书面形 式的知识文档,不包括音频,视屏文件【引。电子文档形式,比如微软的d o c 格式、 x l s 格式、p p t 格式、p d f 格式、纯文本t x t 格式等。 2 1 2 文档管理系统 文档管理系统( d o c 嘶e i l tm a l l a g e n l e l l ts y s t 咖,简称d m s ) ,也称为电子文件 管理系统,是利用先进的计算机技术生成的一种计算机系统( 或计算机程序) ,将 企业的电子文件和或纸质文件的图像整合起来,满足用户在文档获取方式、文 档操作处理、文档存储和查询等环节的不同需求,以实现资源的共享,并能对 文档进行有效的监型引。 这个概念和比较新的内容管理系统的概念有一些重叠。从广义上,企业内 容管理( e n t e 叩r i s ec o r l t e n tm a l l a g 咖e n t ,简称e c m ) 系统也属于文档管理系统。 它通常和企业内容管理,数字资产管理,文档成像,工作流程系统和档案管理 系统相关联。 6 武汉理+ 大学硕士学位论文 2 。1 3 文档管理系统的作用 文档管理系统在企业中的应用,充分利用计算机技术的效能,解决了传统 文档管理模式的缺陷。文档管理系统可在企业管理中发挥的作用:利用电脑存 储多种格式文档,将员工从大量的纸质文档中解放出来;大幅度提高了文档的 检索和传输速度;技术上增强了文档的安全性;即实现文档资源的共享,又能 有效的设置文档的访问权限;企业用户可以追踪文档,即时查阅不断更新的数 据;文档的查阅,修改不受时间空间的限制【9 】。 总之,文档管理系统能帮助企业在内部实现标准化,统一相似文档的创建 以及显示方式;能帮助员工轻松地实现信息的查找和共享,有助于提高企业办 公效率。文档管理系统是企业基础信息管理的重要应用软件系统,有利于企业 内部各部门之间及员工间信息的存储、管理、交流和利用,促进企业运作流程 的合理化、规范化与有效监控。 2 1 4 文档管理系统研究内容 企业对文档管理的要求往往是矛盾的,资料分散使用但需集中控制,文件 版本保持最新的同时也要求妥善保留原文档。文档管理系统最重要的是实现对 文档的全生命周期的管理。细分文档的生命周期,一般包括:创建,审批,发 布,使用,修改,废止与恢复,归档这样几个环节。文档管理系统需要研究解 决以下几个方面的问题【9 】: 1 ) 存储位置:文档将被储存在哪里? 人们需要去哪里访问文档? 2 ) 存储方式:采用什么方式组织文档,什么机制建立索引,每种类型的文 档需要提供哪些元数据,以支持文档的检索? 3 ) 检索方式:通常情况下,检索文档包含浏览和特定信息检索。为了加快 检索速度,什么样的信息需要建立索引? 4 ) 安全机制:如何确保文档的安全? 如何控制文档的访问,防止未经授权 的人员阅读,修改或破坏文件? 5 ) 灾难恢复:如何从火灾的破坏,洪水或自然灾害等情况下恢复文档? 6 ) 保留:文档能保存保留多长时间? 7 ) 归档:为了今后的可读性,需要以何种方式保存文档? 8 ) 分布式:如何将文档提供给那些需要的人昵? 9 ) 工作流:如果文档需要从一个人传递到另个人,流动的规则是什么? 7 武汉理工大学硕士学位论文 1 0 ) 创作:如何创建文档? 当需要多人合作,以及版本控制和创作出现时, 这个问题变得很重要。 1 1 ) 真实性:有没有一种方式能为文档的真实性作担保? 1 2 ) 可追溯性:何时,何地由何人实现对文档的创建,修改,出版和存储? 2 2 非结构化数据 电子文档数据格式多种多样,它们是非结构化的数据。广义上的数据通常 分为结构化数据、半结构化数据和非结构化数据。电子文档管理系统中处理的 文档( 电子文档、电子表格、纸质文件的图像等) 属于非结构化数据。 2 2 1 非结构化数据的特征 结构化数据是经过严格的标引后的数据,一般以二维表的形式存在。如关 系数据库中表元组和对象数据库中的类型对象。半结构化数据是数据结构不规 则或不完整的数据。如h t m l 、x m l 、电子邮件等。非结构化数据是没有经过 人为处理的不规则的数据。例如,传真、字处理文档、电子表格,演示文稿, 票据、报表、图像、声音、视频等【l o 】。 非结构化数据的特征: 1 ) 格式多样性,非结构化数据需要借助对应的解释软件才能打开。 2 ) 标准多样性,非结构化数据无法从数据本身直接获取其表达的物理属 性,没有结构化数据那么一目了然,即不易于理解。 3 ) 数据量大,非结构化数据特别是多媒体数据信息量非常大,如果直接存 储于数据库中,不仅大幅度增加了数据库的容量,还降低了维护和应用的效率, 中小型数据库系统表现尤为突出。 4 ) 非结构化数据不具备严格的结构,与结构化数据相比,难以统一管理。 2 2 2 非结构化数据的存储 目前主要有两种常用的非结构化数据管理模式i l l 】: 第一种是数据库管理模式。这种模式的数据库管理系统一般都提供 b l o b ( 大二进制对象) 数据类型,这种模式的存储就是将源数据直接存放在提供 了b l o b 数据类型的数据库中。常见的b l o b 型数据有:二进制文件、超大文 8 武汉理工大学硕士学位论文 本、图像、图形、视频、音频等。优点是:可以利用数据库管理系统本身的一 些功能进行统一管理,比如并发控制,容错,查询等。不过它的缺点是:在b l o b 中存储数据采用的是二进制格式,不够直观;增加了数据库的负担,难于维护, 效率低下,容易造成服务器等待超时甚至是死机等现象。 另外一种方式是数据库和文件系统相结合的管理模式【7 1 。这种模式就是仍然 在文件服务器上存储文件实体,而在数据库系统中建立对应的数据表,使用“实 体+ 表的方式存储。这种方式的优点是:访问效率较高,因为表中只存储文件 名和路径;保持了数据的独立性,适于文档的管理和归类。但是这就导致了数 据库无法控制文件的增加、删除,修改,进一步引发了文件系统中的非结构化 数据文件和数据库中的文件记录的不一致。 企业文档管理系统中常常含有大量的非结构化数据文件,上述两种常用管 理模式都存在着一定的缺点。结合电子文档管理系统自身要求:既需要数据库 系统提供的功能支持又需要保持数据的独立性,本文采用文件系统和数据库相 结合的存储方式。 9 武汉理_ 1 :大学硕士学位论文 第3 章文档管理中的元数据技术研究 通常要为每个文档存储元数据。例如,元数据可以是文档存储的数据或者 用户存储的标识。电子文档管理系统可以从文档中自动抽取元数据,也可以提 示用户增加元数据。产生的元数据能够协助用户通过关键字定位文档,或者提 供全文搜索的能力,或者用于自身的定位与检索。提取的元数据既可以和文档 一起存储,又可以作为搜索文档集合的资源单独存储。本章重点研究元数据标 准以及描述元数据的描述语言x m l 和描述框架r d f 。 3 1 元数据基本理论 3 1 1 元数据定义 元数据,英文原文m e t a d a t a 。关于元数据,学者大都认可的观点是:元数据 是“关于数据的数据或“关于数据的结构化数据”【l 引。用于描述其他数据的 数据。但这个定义比较简洁和宽泛,不能清晰的反映出元数据的内涵。对其具 体含义,根据具体应用领域有不同的阐释。 在文档或文件管理背景下,元数据可以被定义为:用来描述文件背景、内 容、结构以及整个管理过程的数据。元数据可以是结构化数据也可以是半结构 化的,目的是为了确保文件可以不受时间的限制,不受领域限制,在未来时间 内在相同的领域内或者在不同领域之间生成、转换、分类、查询、归档和应用; 最终能够反映特定的价值观或特定的知识或有限群体的思想甚至社会集体或组 织活动的一方面【1 4 j 。文档或文件管理中的元数据可以对文件以及文件的形成, 管理,维护和使用文件的人、流程、系统及其管理政策等方面进行识别、确认 和证实以说明其背景关系。 元数据能够在不同深度上反映它所描述的语义信息,依据表达的丰富程度 可以把它分为语法级元数据、结构级元数据和语义级元数据三大类。 语法级元数据,一般适合于描述相对比较模糊的资源信息,与其他两个元 数据相比,相对简单。这一类型的元数据通常描述的是文档资源的格式、语种、 来源等外围属性。虽然这一类型的元数据只能提供较少的上下文信息,也不能 l o 武汉理工大学硕士学位论文 有效地帮助理解文档本身的内容,但它也有它可以发挥作用的应用。目前语法 级元数据的典型代表是都柏林核心元数据标准【l 习。 结构元数据,通常被用来描述资源信息内在的有关结构方面属性。h t m l 文档中的 等就属于这类结构标记。和语法级元数据相比, 这类元数据能够在一定程度上辅助理解文档内容的信息。然而,它的辅助效果 并不是太符合人们的期望。目前结构元数据的典型代表是i e e e 的学习对象 ( l e 啪i n go b j e c tm e t a d a t a ,简称l o m ) 元数据标准【1 6 】。 语义元数据,一般被用来表示资源信息内在的有关于领域方面的属性。这 类元数据能够传递丰富的语义信息,进而有效地确定资源的上下文环境,最终 帮助理解资源的内容。通常情况下,语义元数据是和特定领域的本体知识紧密 相关的。 3 1 2 元数据作用 元数据作为一种管理信息和知识的工具最初应用在地理空间信息和数据仓 库领域,目前在数据网格、多媒体管理、信息集成等许多领域都有应用。元数 据逐渐成为w e b 环境下字信息建模的主要手段。简要概括,元数据的主要作用 有以下几点【l7 j : 1 ) 有利于信息的共享 由于每个人的表达习惯和存储方式的不同,对信息资源的描述也不相同, 这对信息的共享带来了一定的困难。而元数据最基本的功能就是对信息资源的 内容和属性实现详细的全面的描述,能提供一个统一的标准来描述信息,因此 可以帮助人们更好的理解不同来源的信息。 , 2 ) 有利于信息的检索 元数据包括对资源进行描述和确认的各种重要数据项,例如目录、标题、 作者、摘要等,这些信息可以作为查询的参考帮助人们快速检索出需要的信息。 3 ) 有利于信息的组织和管理 元数据的数据元素不仅包括数据信息比较全面的著录描述数据,也可以包 含有关权限使用、电子签名等其他方面的信息,能有效地支持资源的组织和管 理,有利于保障信息资源的科学存储和使用管理,减少管理风险。 4 ) 有利于信息的长期保存 信息资源是人类宝贵的知识资源,有必要对信息提供科学合理的保护,有 武汉理工大学硕士学位论文 效地对信息实现长期保存。元数据除了包含对信息资源的内容和属性详细的全 面的描述外,通常还可以实现对格式信息、转换方式、制作信息、保护条件、 保存责任等内容详细的描述。因此它可以对信息资源的长期保存提供支持,不 管是在信息资源产生之后的哪个时刻,也不论外部环境和当时创建的环境有何 差异,都能有效地正确地重构信息资源,实现对信息资源的长期有效保存。 在文档管理中,使用元数据描述文档特征,为文档管理提供长期的支持。 元数据是能够充分发挥数据作用的重要条件之一。 3 1 3 元数据标准 元数据标准【l8 j 是描述某类资源的具体对象时所有规则的集合,不同的元数 据标准适用于不同类型资源的描述。元数据标准通常需要包含描述一个客观对 象时所需要的数据项集合、各数据项语义定义、著录规则以及计算机应用语法 规定。 到现在为止,在国际上比较有影响力的元数据标准有7 种,分别应用在不 同的领域。此外,还有一些别的研究单位的元数据标准也具有参考价值。上述7 种描述标准所涉及到的描述对象基本上涵盖了当前所有类型的资源,但是每个 标准又对某类资源各有偏型聊。 对于信息资源格式化,目前国际上使用较为广泛的是都柏林核心元数据标 准( d u b l i i lc o r e ,简称d c ) ,本论文参考这一标准。d c 在1 9 9 5 年3 月创建之时 只有1 3 个基本元素,在1 9 9 6 年9 月发展为现在的1 5 个基本元素。表3 1 列出 d c 的1 5 个基本元素。 在实际应用中,d c 的1 5 个基本元素的描述能力是有限的,d c 又发展了限 定元素。1 9 9 7 年3 月,第四次d c 研讨会上确定了d c 附加的三个限定词: s c h e m a ( 模式体系) 、l a l l g ( 语种描述) 和聊属性类) 【1 5 】。 1 2 武汉理工大学硕七学位论文 表3 1d c 元数据标准 s u b j e c t ( 主题词或者资源的主体,一般是描述资源的主题和内容的关键词。 关键字)建议采用受控词表和规范的分类体系。 t i t l e ( 标题)被描述资源的名称。 d e s 嘶p t i o n 资源内容的文本描述,例如:文献类的文摘或者视频作品 ( 描述) 的内容描述等。 资源 l 觚g l l a g e ( 语言)被描述资源内容的描述语言。 内容 r d a t i o n ( 关联) 被描述资源与其他资源之间的关系。例如:翻译自、节 选自、格式转换自等。 描述 用来唯一标识被描述资源的衍生源。如当前资源为其原 s o u r c e ( 来源) 始形式,来源项元素可以不用。 被描述资源空间或时间特性。空间范围指物理区域,来 c o v e r a g e 自于规范词表的地名或全称。时间范围指资源内容,而 ( 时空范围)非资源产生的时间( 由日期d a 伧元素表示) ,时间描述( 通 常是一个时间范围) 采用与与日期d a t e 相同的格式。 c 1 e a t o r 对创造资源知识内容负主要责任的个人或机构。 ( 作者或创建者) p u b l i s h e r 负责发行被描述资源的组织。如出版社等。 知识 产权 ( 出版者) 指没有在c f e a t o r 元素中列出的,对被描述资源的创作 描述c o n t r i b u t o r 作出了贡献的其他人或组织,其贡献次于创建者,如编 ( 其他参与者) 辑、誊写员等。 i u g h t ( 版权管理) 被描述资源的版权卢明。 d a t “发布日期)描述资源公开发布的日期,采用i s 0 8 6 0 l 所规定的格式。 聒( 类型) 被描述资源属性的范畴或类型,例如手稿、技术报告、 论文等。 外部 属性 f o m a t ( 格式) 被描述资源的数据格式,用于注明需要什么软件或硬件 来显示和执行这一资源。 描述 能够唯一标识描述资源的字符或数字。例如网络资源中 i d 即t i f i 叫标识) 的u i 也,国际标准二传号l s b n 或其它规范名称皆可作为 标识值。 1 3 武汉理j r 人学硕士学位论文 1 ) s c h e i i l a 模式体系:指明元素值的选取符合某个已经存在的或者正在议案 中的体系结构中确认的合法值,例如主题词、各类代码表或者各种分类法表。 s c h 锄a 限定词为应用软件或应用人员更好的使用限定元素提供一个良好的处理 线索。 2 ) l a l l g 语种描述:指明元素值描述字段时能够使用的语种,它描述的并不 是资源数据自身的语言。目前,英语被假定为网上语言,但是随着信息技术的 发展,网络上语言种类越来越多,有必要明确指明资源本身以及资源描述的语 言,因此这个限定词也被大量的使用。 3 ) 聊e 属性类型:指明元素值是何种类型的元素值,通常是以子元素限定 的方式来描述的。 基于d c 开展的元数据项目存在两种应用模式:第一种是被称为简单d c , 就是在1 5 个基本元素的基础上进行扩展或者缩减元素,但是不能使用任何限定 词;另一种被称为复杂d c ,就是在基本元素之外同时增加限定词。d c 以其结 构简单、语义互通和容易扩展等特点,事实上已经成为国际范围内通用的关于 网络信息资源描述的元数据标准【1 5 1 。 3 1 4x m l 在元数据管理中的应用 元数据具有结构层次化的特性,而x m l 树状结构也具有层次化的特点,二 者所表现出来的相似性,使得在元数据表示的时候很自然地想到采用x m l 技术, 事实证明,x m l 在元数据表示、存储、转换、传输、查询、建模等领域都有广 泛的应用范围。 元数据是使用x m l 实例文档来表示的。图3 1 明确地展示了x m l 在元数 据系统中应用。x m l l 0 规范用来确保生成的x m l 文档格式的规范性,文档的 有效性用d t d 或者x m ls c h 锄a 来约束。由于x m l 本身是树状结构的,每个 x m l 文档都可以映射为一棵x m l 查询模型树,很自然的就可以使用基于树状 结构的x m l 查询语言x p a m 或者x q u e r y 来查询。如果想实现x m l 文档之间 的相互转换或者实现l 文档与h t m l 等其它格式的表现文件的转换就要使 用x s l t 技术i 删。 1 4 武汉理1 :大学硕士学位论文 图3 1x m l 在元数据系统中的应用 3 2 元数据规范语言x m l x m l 是标准化的元数据语言规范。x m l 是e x t e i l s i b l em a r k u pl a l l g u a g e 的英 文缩写,中文翻译为可扩展标记语言,它是一种类似于h t m l 的标记语言。本质 上x m l 是一组定义语义标记的规则,这些标记将文档分成若干部分并对这些部 分加以标识1 2 。 x 】l 被设计用来管理数据本身,而不是数据的样式,数据的显示则交给其 他的技术来解决,它实现了数据和样式的分离。x m l 固有特性如下: 1 ) 自描述性。x m l 的最大特点是允许自行定义标记,而且这些标记不必局 限于对于显示格式的描述。x m l 的自描述性不仅限定了元素的层次结构,而且 在一定程度上指示了元素的含义。 2 ) 内容的独立性。由于x m l 标记描述的是文档内容的结构和含义,而不是 描述页面元素的格式化,所以x m l 实现了内容和显示的分离,保证了内容不受 显示格式的限制,具有独立性。 3 ) 可扩展性。由于x m l 没有固定的词汇表,并且它允许开发者创造和使用 1 5 武汉理一 人学硕士学位论文 自行定义的标记而不是像h t m l 只能使用固有的标记集,所以它很容易被扩展。 x m l 相对于其他的标记语言所具有的特性使得它的应用范围非常广,不仅 应用在w e b 开发的许多方面,在描述领域和信息存储领域也越来越受欢迎。 3 2 1x m l l o 规范 w 3 c 组织( w o 订dw i d ew e bc o n s o r t i 砌) 于1 9 9 8 年2 月1 0 日正式发布了x m l 1 o 规范。以l1 o 标准是x m l 技术的核心。它以统一字符编码u n i c o d e 和统一资 源标识符u r i ( u n i f o 咖s o u r c ei i l d e l l t i f i e r s ) 为基础,可定义严格的文本格式规则以 及d t d 验证语言。但是x m l l 0 的设计不能很好地适应u i l i c o d e 的新版本。为了解 决这一问题,2 0 0 6 年8 月1 6 日w 3 c 发布了x m l1 1 f 2 2 】,并且作为w 3 c 推荐标准。 但由于大量现存x m l1 o 工具却不能应付x m l1 1 文档,x m l l 1 并没有大量使 用。本文还是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 绿色转型2025:政策支持与农业绿色生产技术集成应用研究报告
- 2025音乐培训班劳动合同书
- 核酸与核苷酸区别
- 单硝酸异山梨酯主要作用
- 员工劳动合同变更及加班费调整协议
- 污水处理厂竣工环境保护验收与运维指导协议
- 离婚后共同财产分割与债权债务承担补充协议
- 文化旅游产业现代学徒制校企人才培养合作协议范本
- 2025药品销售合同
- 物业总经理任期公共安全与应急预案合同
- 《动物比较生理学》课件
- 火龙罐综合灸疗法
- 化学锚栓承载力计算
- 肺部感染性疾病课件
- 医院健康体检表
- 肌肉工作原理
- 液体外渗的处理ppt
- 2016火力发电机组及蒸汽动力设备水汽质量
- 市政排水管网施工方案
- 2023年6月浙江省大学英语三级考试真题试卷
- HGT-2521-2008工业硅溶胶的内容
评论
0/150
提交评论