




已阅读5页,还剩64页未读, 继续免费阅读
(计算机系统结构专业论文)内容管理中xml存取技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着社会信息化的推进,信息量越来越庞大。如何保证这些信息被充分的利 用。实现信息价值的最大化,是目前迫切需要解决的问题。此外,信息类型也呈 现出多样化的特征,大量半结构化以及非结构化信息的出现,需要一种新的解决 方案来支持对异构系统问各类信息进行统一的管理。信息系统从数据管理、文档 管理到内容管理的转变是解决这些问题的一条途径。 基于上述问题,本文从对x m l 数据的存储和检索出发,对基于x m l 的内容管 理技术进行了研究。本文在对关系数据库和n a t i v e 数据库处理x m l 数据的性能特 点进行分析、比较后,提出以关系模型和n a t i v e 数据库相结合的方式对x m l 数据 进行存储和检索,其基本思想是:由关系数据库处理特定的良构x m l 文件;由 n a t i v e 数据库完成对半结构y d v i l 文档的管理;并在此基础上,提供一个统一的 用户访问接口。 基于上述思想,本文对内容管理系统进行了详细设计和实现。利用b e r k e l e y d b 存储引擎将良构x m l 文档映射为关系表存储于数据库中;利用b e r k e l e yd b x m l 实现对半结构x i d l 文档的存储;通过数据字典保存文档存储信息,为用户提供统 一的访问接口。 关键字内容管理,x m l ,b e r k e l e yd b ,n a t i v e 数据库 a b s t r a c t a bs t r a c t a st h ed e v e l o p m e n to fi n f o r m a t i o ns o c i e t y , t h eq u a n t i t yo fi n f o r m a t i o ni sb e c o m i n g m o r ea n dm o r e h o wt ou t i l i z et h ei n f o r m a t i o ns u f f i c i e n t l ya n dm a x i m i z et h ev a l u eo ft h e i n f o r m a t i o ni sa nu r g e n tp r o b l e mt ob es o l v e d 。b e c a u s eo ft h ed i v e r s i t yo ft h et y p e so f i n f o r m a t i o na n dt h ep r e s e n c eo fm u c hs e m i - s t r u c t u r a ia n dn o n - s t r u c t u r a ii n f o r m a t i o n ,a n e ws o l u t i o ni sn e e d e dt os u p p o r tt h em a n a g e m e n to fa l lk i n d so fi n f o r m a t i o nb e t w e e n h e t e r o g e n e o u ss y s t e m s i nau n i f o r mw a y t h ee v o l v e m e n to fi n f o r m a t i o ns y s t e mf r o md a t a a n dd o c u m e n tm a n a g e m e n tt oc o n t e n tm a n a g e m e n ti st h ek e yo ft h i ss o l u t i o n t h i st h e s i ss t u d i e dt h ex m l - b a s e dc o n t e n tm a n a g e m e n tt e c h n o l o g yb a s e do nt h ex m l d a t as t o r a g ea n dr e t r i e v a l as y s t e mc o m b i n e dt h er e l a t i o n a lm o d e la n dt h en a t i v ex m l d a t a b a s ew a sp u tf o r w a r dt or e t r i e v ea n ds t o r et h ex m lc o n t e n ta f t e ra n a l y z i n gt h e p e r f o r m a n c eo fp r o c e s s i n go ft h ex m ld a t ab yt h er e l a t i o n a l d a t a b a s ea n dn a t i v ex m l d a t a b a s e t h eb a s i ci d e ai st h a tt h er e l a t i o n a id a t a b a s e sw a su s e dt op r o c e s st h e w e l l f o r m e dx m ld o c u m e n t sa n dn a t i v ed a t a b a s ew a su s e dt op r o c e s st h es e m i - s t r u c t u r a i x m ld o c u m e n ts o nt h i sb a s i sa nu n i f o r ma p p l i c a t i o np r o g r a mi n t e r f a c ew a ss u p p l i e d t h i st h e s i se x p l a i n e dt h ed e s i g na n di m p l e m e n t a t i o no ft h ex m b b a s e dc o n t e n t m a n a g e m e n ts y s t e m 1 1 1 eb e r k e l e yd bs t o r a g ee n g i n ew a su s e dt om a p w e l l f o r m e dx m l d o c u m e n tt ot h er e l a t i o n a lt a b l ew h i c hs t o r e di nt h ed a t a b a s ea n dt h eb e r k e l e yd b x m lw a s u s e dt os t o r et h es e m i - s t r u c t u r a ld o c u m e n t a nu n i f i e da c c e s si n t e r f a c ew a sp r o v i d e db y s a v i n gt h ed o c u m e n ti n f o r m a t i o ni nd a t ad i c t i o n a r y k e y w o r d sc o n t e n tm a n a g e m e n t ,x m l ,b e r k e l e yd b ,n a t i v ex m l d a t a b a s e i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:型i 亟茎日期:p 口7 年歹月己矿日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:啦导师签名:垒至 日期:们护牛侈月日 第一章绪论 1 1 课题背景 第一章绪论 随着近年来i n t e r n e t 技术和电子商务技术的迅猛发展,全世界范围内正面临 着第二次“信息爆炸n 3 。资料与文档数量的急剧增加,企业信息的流通加速, 结构化、半结构化的数据的大量涌现,并且企业信息越来越多以各种各样的形式 存储起来,各种媒体的使用使越来越多的企业认识到内容管理的重要性,内容管 理应运而生。内容管理是协助组织和个人,借助信息技术,实现内容的创建、存 储、分享、更新、应用、并在企业个人、组织、业务、战略等诸个方面产生价值 的过程。 计算机网络的发展,使信息形式出现了多样化,除了数据库以外,还有许多 的信息存放于t x t 文件或者其他预处理文件以及表格文件( 如p d f 、w o r d 、e x c e l 等) 或视频和图像文件中,这些信息本身又呈现出各种不同的形式,也因为来自 不同用户的不同定义,使信息格式呈现出千差万别的形态。这样,一方面,用户 的需求越来越高,他们迫切的需要从海量的信息中准确、快速的找到自己所需要 的信息;另一方面,大量形式分散以及不同格式的信息给当前信息的处理带来了 越来越大的难度。 随着x m l 的出现,一种新的数据访问和交换模式开始发展,) c i v i l 具有内容 的自描述性、跨平台性、内容和显示分离、可扩展性等特点。) :2 v i l 技术对异构系 统间的信息共享和交换提供了很好的支持。同时x m l 技术对半结构化或非结构 化信息的表示也提供了有力的支持。很多组织和个人开始使用) c m l 作为信息存 储格式,大多数的数据库系统( 关系数据库和n a t i v e 数据库) 也已经开始支持对 :x 2 v i l 内容的存储,并提出各种解决方案。 目前内容管理主要有三大应用领域:【2 】 ( 1 ) 企业内容管理的产品。这是政府和企业的内部信息门户和知识系统,其 目的在于实现信息的高度共享和提高决策的科学性及其效率。如m i c r o s o f t ,f i l e n e t ,i b m ,i n t e r w o v e n 等公司都致力于解决企业内部的非结构化信息平台的建设, 完成企业对内容管理提出的各种需求,提供通用平台性内容管理解决方案,并基 电子科技大学硕士学位论文 于企业内容管理不断提供各种内容管理的垂直应用。先进内容管理解决方案是替 代传统m i s 系统和办公自动化系统的最佳选择。 ( 2 ) w e b 网站内容管理。这是在网站投入运行后因为大量内容的产生,对 网站内容的维护以及网站的功能提出的新要求。简单地说,w e b 网站内容管理是 对网站发布的信息内容( 从创建到归档) 进行全方位管理的一系列任务和工具, 它可以实现站点维护的简化,并且在整个网站上最轻松地采用一个可进行风格改 变的系统,有利于节约时间和成本。 ( 3 ) 一些特定的内容管理应用,如全文搜索引擎等。由于这类产品一般都针 对于特定的应用、功能比较单一,在大部分情况下都会作为组件之一合并到其他 p o r t a l 提供强大的用户权限管理机制和部分有用接口作为管理功能的平台。 1 2 国内外研究现状 内容管理在国外起步较早,现在已经发展的比较成熟,而国内企业对“内容 管理”的认知和熟悉还是近几年的事,许多专注于提供内容管理解决方案的厂商 在中国也面临着巨大的压力。中国被很多调研机构认为在未来几年内具有非常可 观的市场。但迄今为止,内容管理被国内用户理解和接受程度还十分有限,其价 值也未被充分挖掘。 目前国外主要有v i g n e t t e ,i n t e r w o v e n 6 ,b r o a d v i s i o n ,o p e n m a r k e t ,a t g , d o c u m e n t u r n ,h u m m i n g b i r d 等厂商从事内容管理软件的研发。他们的产品主要面 向企业级用户,解决方案专业性强,功能丰富。国内领先的内容管理软件提供商 有t r s 信息技术有限公司,他们在2 0 0 0 年首先提出了中文内容管理的概念,开 发了一系列拥有自主核心技术和知识产权的内容管理产品【3 】。 下面介绍几种主流的内容管理软件: m i c r o s o f tc o n t e n tm a n a g e m e n ts e r v e r :是一种允许企业快速、高效的建立、 部署并维护高度动态化i n t e m e t 、企业内部网络及企业外部网络w e b 站点的企业 级内容管理系统,其中的关键功能包括支持x m l ,数据交换和微软n e tw e b 服 务的w e b 标准。 i b m d b 2 - 是一套全面的企业级内容管理集成软件解决方案,其内容管理器 在单一、开放式的体系架构中处理所有类型的数字化内容的管理、共享、重用和 存档。2 0 0 4 年i b m 将x m l 技术加入到其内容管理解决方案中,用以加速建立内 2 第一章绪论 容管理系统的程序,并且在系统建立和运行后,简化x m l 文件定义的过程,让 企业文件的存取更加快速、更有弹性。 i b m 内容管理家族是一套全面的面向w e b 的内容管理集成软件解决方案,它 提供了在i n t r a n e t 或i n t e m e t 上立即访问文档信息的能力,可以有效地保证所需要 的文档按照正确的工作流程在正确的时间提供给合适的使用人员。该方案具有实 时和无缝访问数字化、索引化内容的能力。该方案主要具有以下产品组件:i b m c o n t e n tm a n a g e r 、c o n t e n tm a n a g e ro n d e m a n d 、i b me n t e r p r i s ei n f o r m a t i o n k p o r t a l 、 i b mc o m e mm a n g e rv i d e oc h a r g e r 和i b mc o m m o n s t o r ef o rs a p 4 。 i b mc o m e mm a n a g e r ( d b 2c m ) 是i b m 用于企业内容管理的解决方案的核 心,它提供对企业信息进行组织和数字化。无论是音频、视屏、x m l 、图像还是 p c 文件、多媒体资产现在都可以进行有效地数字化传输和存档,并能在公用网或 专用网上有效传输。这一分布式架构的中间层提供了: 从单个部门到地理上分散的企业的可伸缩性。 支持多种操作系统、数据库、应用程序和资源的开放性。 支持x m l 的数据模型。 关键任务( m i s s i o nc r i t i c a l ) 应用程序与像s i e b e l 、p e o p l e s o f t 、d b 2r e c o r d s m a n a g e r 、w e b s p h e r e m qw o r k f l o w 以及w e b s p h e r ep o r t a l 这样的中间 件的集成,从而提供w e b 内容管理。 图1 1d b 2c m 数据模型 电子科技大学硕士学位论文 如图1 - 1 5 1 ,d b 2c m 数据模型是一种面向对象的关系数据模型。一个i t e m 类型由多个条目组成,这些条目都有被指定的相关的属性。i t e m 类型是数据模型 的主要组件,它包含了所有的子组件( 如果有的话) ,及其相关的数据。一个i t e m 类型包含有: 一个根组件。分级i t e m 类型的第一级,或者仅有的一级。 零个或者多个子组件。分级i t e m 类型的第二级,或者更低级,这是可 选的。 有两种系统定义的i t e m 类型:非资源i t e m 类型,表示没有存储在资 源管理器上的实体。被划分为i t e m 类的条目被当作元数据存储在库服 务器( 1 i b r a r ys e r v e r ) 上;资源i t e m 类型,表示存储在资源管理器中的 对象。这些条目都是描述和指向资源管理器上的内容,例如视频、图像、 文件和其他数据。 动态数据对象( d d 0 ) 表示在数据体系结构中的组件( 根组件、子组件和资源 组件) 。持久数据标识符可以唯一地标识这些对象,这些对象以数据条目作为其属 性值,并且包含了内容。每个数据条目都有一个数据标识符,一个名称,一个值 以及一些属性。链接,或者引用,是由数据条目表示的,每个数据条目引用另一 个条目类型中的一个条目( 资源或非资源) 。链接将两个条目关联起来,并提供了 访问被链接条目的途径。链接关系有一个名称,一个标识符,例如c o n t a i n s ”或 者”h a s ”。只有条目的根组件才可以链接到其他条目或者被其他条目链接。 ”o u t b o u n d ( 出站) ”链接是指以该条目作为源的链接。“i n b o u n d ( 入站) 链接 是指以该条目作为目标的链接。 c o n t e n tm a n a g e ro n d e m a n d 是企业内容管理中间件c o n t e n tm a n a g e r 解决方 案的一部分。自动捕获、具有立即可用性的强大索引以及对账单、对账单和票据 的即时访问。为客户服务提供了支持,并改善了操作。高级功能包括c d r o m 发 布和p d f 索引。电子对账单呈现功能则为提高呼叫中心工作效率和允许客户通过 i n t e m e t 进行自助服务。 图1 - 2d b 2c mo n d e m a n d 数据模型 4 第一章绪论 如图1 2 ,d b 2c mo n d e m a n ds e r v e r 环境包含了一个库服务器和一个或多个 对象服务器,对象服务器驻留在一个或多个节点中。库服务器维护着关于存储在 d b 2c mo n d e m a n d 中的报告的中央数据库。对象服务器维护着缓存中的文档, 或者利用归档存储管理器维护归档媒介( 例如光媒介或磁盘) 上的文档。对象服 务器负责装载数据、检索文档和输出数据。其中术语a p p l i c a t i o n 、a p p l i c a t i o ng r o u p 和f o l d e r 表示c mo n d e m a n d 存储、管理、检索、查看和索引数据的方式: f o l d e r ( 文件夹) 是用户查询和检索存储在c mo n d e m a n d 中数据( 报告) 时所针对的唯一目标。如果这些应用程序组具有相同的数据库字段的话,一个文 件夹可以查询不止一个的应用程序组。 a p p l i c a t i o ng r o u p ( 应用程序组) 是定义数据库、存储需求和报告的地方。如果 这些应用程序具有相同的数据库和存储管理属性的话,一个应用程序组可以包含 不止一个的应用程序。每个应用程序代表用于定义系统的一个报告。 a p p l i c a t i o n ( 应用程序) 描述一份报告的物理特征。你必须将应用程序指派 给摸个应用程序组 i b me n t e r p r i s ei n f o r m a t i o n k p o r t a l 增强关键内容仓库的能力。他能让用户同时 在多个内容库中进行搜索。利用它可以在单个查询过程中使用个性化查询方式执 行一个联合搜索,并从文档、打印输出或传统数据库中提取相关信息。i b me i p 简化了当搜索某个特定信息时所需完成的对多个服务器和数据资源( 无论是对 i b m 数据库还是对非i b m 数据库) 进行的大量搜索任务。 i b mc o m e mm a n g e rv i d e oc h a r g e r 提供强大的视屏、音频流服务。通过它, 可以在i n t e m e t 或i n t r a n e t 上传送数字化的音频流及视频流,供企业内部用户或 i n t e m e t 用户享用远程教学或宽带服务。i b mc mv i d e oc h a r g e r 服务器支持a i x , w i n d o w sn t 2 0 0 0 服务器。支持从2 8 8 k b p s 到1 5 m b p s 各种质量的多媒体数据源。 支持传送h o t m e d i a 数据流。通过t i v o l is t o r a g em a n a g e r 支持多媒体信息的存档 方案。支持a p p l eq u i c k t i m e 4 。 i b mc o m m o n s t o r ef o rs a p 是特别针对s a pr 3 的归档方案。它是获得s a p 认证的,特别是针对s a pr 3 系统设计的、面向电子商务数据及文档的归档方案。 通过i b mc o n t e n tm a n a g e rc o m m o n s t o r ef o rs a pr 3 ,s a p 的数据库数据、 s a p 的相关进出文档以及企业的其它文档都将被有效地归档、管理、分发,用户 可以直接通过s a p 界面或w e b 浏览器访问所需的信息。 i b mc o m m o n s t o r cf o rd o m i n o 是特别针对d o m i n o 的归档方案。它是特别针 对l o t u sd o m m o n o m s 环境设计的电子存档及内容管理解决方案。通过 5 电子科技大学硕士学位论文 c o m m o n s t o r ef o rd o m m o ,用户可以将目前不经常使用的n o t e s 信件、文档或只 是针对文档中附件进行归档,以减少n o t e s 数据库的容量、提高n o t e s 应用的运 行效率。客户日后可以通过n o t e s 的客户端快速调阅所存的文档或相关的附件信 息。 i n t e r w o v e n 6 :是一种以x m t 为基础的企业内容管理方案,能够帮助企业内部 所有部门管理企业所依赖的重要咨询。此软件能够”动态”地同时处理编码和内容, ”灵活”地智能浓缩来源于元数据的内容,”迅捷”地利用其特有的专利技术和基于 标准的构成。他是定位于为企业需求而设计的内容管理平台,以t e a m s i t e s6 0 内容服务器为基础,引进了突破性的用户体验c o n t e n t c e n t e r ,为用户能够迅捷 建议地使用而专门设计。为了回应市场上加速将企业w e b 内容转化为x m l 内容的 紧迫需求,i n t e r w o v e n 还推出了一个名为t e a m x m l 的选配件,用以提高内容作者 的效率,创建出最新的、易重用的内容。 1 3 本文的研究目标与所做工作 随着越来越多的内容管理系统采用x m l 技术对内容进行表示和管理,对x m l 文档的存储和检索成为构建一个内容管理系统的核心问题。 本课题研究的主要目标:以x 2 c l l 数据的存储和检索为重点提出一个内容管 理解决方案,该系统应该能够高效的对各种类型x m l 文档进行存储、查询;支 持多进程、多线程访问,具有较高的安全性。 本文所做的主要工作:本文在对关系数据库和n a tiv e 数据库处理x m l 数据的 性能特点进行分析、比较后,提出以关系模型和n a ti v e 数据库相结合的方式对 x m l 数据进行存储和检索,其基本思想是:由关系数据库处理特定的良构x m l 文件;由n a t i v e 数据库完成对半结构x m l 文档的管理;并在此基础上,提供一 个统一的用户访问接口。基于上述思想,本文对内容管理系统进行了详细设计和 实现。利用b e r k e l e yd b 存储引擎将良构x m l 文档映射为关系表存储于数据库中; 利用b e r k e l e yd b x i d l 实现对半结构x i d l 文档的存储:通过数据字典保存文档存储 信息,为用户提供统一的访问接口。 6 第一章绪论 1 4 论文结构 针对以上目标,本文对内容进行了如下组织: 第一章,绪论主要分析了课题背景、国内外的研究现状以及本文研究的目标 及所做的工作。 第二章,介绍了本文相关的一些基本概念。首先概述了什么是内容管理以及 内容管理系统。然后重点介绍了x m l 语言的特点、相关规范以及x m l 数据的存 取。 第三章,对本文的内容管理系统进行了总体介绍。首先由对关系数据库和 n a t i v ex m l 数据库的比较,在此基础上提出了出本系统的设计思想,由此对系统 进行了初步的总体设计,并划分了系统各个模块功能,定义了相关接口。 第四章,详细设计并实现了各个功能模块。 第五章,对系统进行了测试。 第六章,总结全文,对尚需做的进一步工作进行了讨论。 1 5 本章小结 本章对目前内容管理系统的现状和发展趋势进行了研究,并着重研究介绍了 i b md b 2 内容管理解决方案,在此基础上提出了本文的研究目标。对x m l 、内 容管理等相关技术将在下章介绍。 7 电子科技大学硕士学位论文 第二章x m l 与内容管理系统 2 1 内容管理与内容管理系统 “内容管理”本身就由“内容”和“管理”两部分组成,认知“内容管理 首先要认识“内容 。所谓“内容( c o n t e n t ) ”,指的是企业和单位中广泛存在的 各种结构化、非结构化的文件和数据。“内容 是一个机构的核心所在,是一个比 数据、文档和信息更广的概念。数据通常是结构化数据,采用关系型数据库管理 系统进行管理,如o r a c l e ,d b 2 ,s q l s e r v e r 等系统是管理关系型数据的有 力工具,文档通常指企业和单位的非结构化信息,而信息通常包括结构化的数据 和非结构化的文档,而且非结构数据的量要远远大于结构化数据,非结构化数据 包括文档资料、文字、流媒体、多媒体、网页、广告、程序、软件等各种信息。 随着互联网和内联网的广泛发展,w e b 页面成为“内容”的主流。内容中蕴涵了 丰富的信息,是企业的“知识”的重要组成部分。内容已经在逐步成为企业和单 位的重要资产,管理好内容,利用好内容,将使得企业和单位在有形和无形中获 得巨大的回报。 2 1 1 内容管理及其作用 ( 1 ) 内容管理 目前,业界对内容管理还没有一个统一的定义。内容管理处理的对象范围比 传统关系数据库管理系统( r d b m s ) 处理的结构化数据更广,除了一般的文字、 文档、多媒体、流媒体外,还包括w e b 网页、广告、程序( 如j a v a s c r i p t ) 、软件 等一切数字资产,以及其他非结构化的文档。 简单的说内容管理的对象既包括结构化的信息,也包括半结构化的信息和非 结构化信息。相应对于不同类型信息也有相应不同的存储方式,结构化的信息一 般情况下直接存储在关系数据库中,半结构化的信息通常以x m l 文档的形式来 存储,而非结构化信息则以普通文件的方式来存储。 与内容管理相关的概念主要有:网站内容管理w c m ( w e bc o n t e n t 8 第二章x m l 与内容管理系统 m a n a g e m e n t ) 和企业内容管理系统e c m ( e n t e r p r i s ec o n t e n tm a n a g e m e n t ) 等。 方便站点的管理和创作编辑是网站内容管理的主要目的。它通过使用模版和 通用的设计元素来确保整个网站的协调。管理员只需要修改模版就可以改变网站 的外观。作者只需要在文档中采用少量的模版代码,即可将精力集中于站点内容 的设计上。 企业内容管理的主要目的是对企业范围内的存在于异构平台上的各类信息进 行有效的管理,并支持对这些信息的集成和发布。 ( 2 ) 内容管理的作用 内容管理由“内容”和“管理 两个部分组成。“管理”就是施加在“内容 上的一系列具体的处理过程。内容管理的目的是实现各种数字信息内容的创建、 存储、分享和应用,并在企业内部创造价值。 、 商业智能环境 、 p 尚 即 即么 时 时 反 需 7 求应 俞妙 弋 整合的内容 彳p凸 分散、混乱的内容 图2 - 1内容管理的作用 从图2 1 中可以看出,内容管理不仅能使得企业能够通过对内容进行有效的 管理直接实现内容增值,而且也能在商业环境中实现有效的关系管理、面向内部 和外部的客户需求的快速反应起到重要的作用f 5 】o 2 1 2 内容管理系统 内容管理系统( c o n t e n tm a n a g e m e n ts y s t e m ,c m s ) 就是支撑内容管理的一种 工具或一套工具的组合,他形成了组织企业信息内容的基础框架设施。内容管理 系统是针对实际问题提出的解决方案,是人、过程与技术的集成,需要从人员组 织、业务流程以及内容管理系统的建立等多方面共同协调努力。 9 电子科技大学硕士学位论文 对大部分内容管理系统都大致分为内容仓库、内容搜索、内容管理以及访问 设备这四个层次模块,如图2 2 所示。 图2 2c m s 层次结构 ( 1 ) 内容搜索主要负责对数据进行有效、快速的检索 ( 2 ) 内容仓库主要负责内容的收集、存储、编辑、整合以及转换等工作。 ( 3 ) 内容管理负责组件、内容以及发布模版的存取管理,并可记录内容的版 本、工作流程的状态、权限的设定及更新处理等等,也可以说是保障内容从收集、 创建到发布这一过程准确高效进行的管理系统。 ( 4 ) 访问设备通过系统提供的用户接口使用系统。 c m s 是一个整合的系统,这是一个广义的概念,它并不是单独的存在,从其 发展的过程看c m s 是众多管理系统的交汇融合。作为企业信息管理的中心,他 们都有重叠的部分。这些构成了信息管理的“生态系统”。下面是各个内容管理系 统中的核心部分。 企业内容管理( e n t e r p r i s ec o n t e n tm a n a g e m e n te m c ) :e m c 系统需要有比较 完善的底层存储支持,能够通过集成接口层访问多种内容来源。另外还需要有较 强的x m l 处理以及搜索分类定位于组织内任何地点内容的能力。 互联网内容管理( w e bc o n t e n tm a n a g e m e n t ,w c m ) :w c m 系统一般用于 互联网内容的管理,它管理的内容格式多样,不仅包括一些x m l 、h t m l 内容, 1 0 第二章x m l 与内容管理系统 也还包括一些其它诸如图片、视频、p d f 等内容格式。w c m 的基础是分离内容 和表示的能力,使用模版可以简化内容创建的复杂度在不需要技术员工支持情况 下可以将内容直接发布到站点上。 文档管理( d o c u m e n tm a n a g e m e n t ,d m ) :d m 主要用于处理纸质文档,包 括文档存储、检索、索引、工作流处理能力、文档版本控制、导入导出和收集、 发布等功能。 数字资产管理和数字权限管理( d i g i t a la s s e tm a n a g e m e n t ,d a m & d i g i t a l r i g h t sm a n a g e m e n td r m ) :虽然和w c m 、d m 有很多相似的地方,但d a m 系 统关注的是那些能够产生收入或者具有明显价值的内容。d r m 是d a m 的扩展, 它更强调对第三方使用的安全和管理方面的能力。 企业信息门户( e n t e r p r i s ei n f o r m a t i o np o r t a l ,e i p ) :门户的作用在于将信息 和应用连接起来,它从应用底层、以及复杂的各种数据源中抽象出相关用户,简 化了信息发现的过程,经常被用作知识网络创新的基础,使大范围的项目协作成 为可能。 知识管理与协作( k n o w l e d g em a n a g e m e n t ,k m & c o l l a b o r a t i o n ) - k m 工具涵 盖范围较广,不过它主要用于协助组织从其智能或知识资产中获得最大化价值。 协作被看作知识管理领域的一部分,因为在员工之间,外部合作伙伴之间的协作 关系对于信息捕获和发掘知识都非常重要。 软件配置管理( s o f t w a r ec o n f i g u r a t i o nm a n a g e m e n t ,s c m ) :s c m 被用于软 件开发生命周期中的代码管理。包括版本控制,检入,检出,代码库和审计功能, 同时支持大型软件项目低于分布的团队合作功能。 以上分别描述了w c m 、e c m 、d a m 、d m 、d r m 、k m 、s c m 等内容管理 领域中的不同信息系统。内容管理系统不是单独的概念,它本省有着多方面丰富 的内涵,理解c m s 的意义本身就是一个抽象的层次。 2 2x m l 文档与n a t i v ex m l 数据库 本文研究的内容管理系统是基于x m l 技术的,l 及其相关技术在内容的 表示、查询、以及格式的转换等方面都发挥着重要的作用。x m l ( e x t e n s i b l em a r k u p l a n g u a g e ,可扩展标记语言) 是由w 3 c 组织与1 9 9 8 年2 月发布的一种标准。x m l 将数据和对数据的描述结合在一起,是一种自描述、半结构化、可扩展的标记语 电子科技大学硕士学位论文 言。它不仅能表示结构化信息,还能表示半结构化信息。作为通用的数据格式, x m l 在i n t e r n e t 上不同类型的信息交换方面扮演着越来越重要的角色。以下几个 小节将对x m l 及其相关技术作较详细的介绍。 2 2 1 x m l 的特点 x l c l l 具有以下一些特点:1 6 】 自描述性:x m l 语言可以让信息提供者根据需要,自行定义标记及属性名,也 可以包含描述法,从而使x m l 文件的结构可以复杂到任意程度 内容的独立性:x m l 可脱离具体应用以一种统一的数据模型来描述保存在异 构环境中的各种数据,屏蔽数据源中应用环境和数据结构的异构性,其他应用系 统能直接对这些自描述的文件中的数据进行操作,因此,它能够实现异构数据源 中数据的互操作性。 结构化:x m l 是结构化的,x l d l 文档应该粘附一个特殊的结构。如果一个文档 没有适当的结构,那么就不能认为它是x m l 。 可扩展性:x l d l 可以在不破坏现有文档的结构和系统性的情况下增加新的数 据字段。 便于网络传输:x m l 文件只是一些简单的文本文件,因而很容易通过网络传 输。在x m l 中,文件是由一个个称之为元素( e l e m e n t ) 的部件构成。元素是由有 意义的标记( t a g ) 来描述的。由于使用了标记的描述方法,在互联网上进行数据交 换时可以保持原有数据的意思和构造,进而可以保持不同系统之间数据交换的灵 活性。 2 2 2 ) g v i l 语言的相关规范 自从x m l i 0 规范发布之后,x j v i l 的有关技术规范不断涌现,w 3 c 在1 9 9 9 年先后推出了n a m e s p a d e si nx m l ( x m l 中的名字空间) ,c s s 2 、a s s o c i a t i n g s t y s h e e t sw i t hd o c u m e n t s ( 将样式表关联到文档) 等推荐标准。与( y d v i l ) 有关 的重要技术规范还包括d o m 、x s l 、x l i n k 、x m ls c h e m a 等【,j 。 2 2 2 1 应用编程接口d o m 和s a ) ( 围绕x m l 出现的各种标准的a p i ( a p p l i c a t i o np r o g r a m m i n gi n t e r f a c e ,应用编 程接口) 对于x m l 应用开发来说无疑是十分重要的,应用程序开发者可以使用这 1 2 第二章x m l 与内容管理系统 些标准的接口来获得和设置x m l 文档中的元素、属性、数据内容等。在这些x m l 的应用编程接口中最重要的是w 3 c 制定的d o m ( d o c u m e n to b j e c tm o d e l ,文档 对象模型) 。d o m 是基于文档的树状结构的,它提供了用来表示x m l 文档的一 组标准的对象、组合这些对象的标准模型以及存取和操纵它们的一个标准接口。 s a x 的全称是s i m p l e sa p i sf o rx m l ,即x m l 简单应用程序接口。s a x 提 供了一种对文档进行顺序访问的模式,这是一种快速读写数据的方式。当使用 s a x 解析器对文档进行解析时,会触发一系列的事件,并激活相应的事件处理函 数,从而完成对x m l 文档的访问,所以接口也被称作事件驱动接口j 。s a x 接 口之所以叫做“简单”应用程序接口,是因为这个接口的确相当简单,绝大多数 事情分析器都没有做,需要应用程序自己去实现。它的基本原理是由接口的使用 者提供符合定义的处理器,分析时遇到特定的事件,就去调用处理器中特定事件 的处理函数。 d o m 分析器通过对x m l 文档的分析,把整个x m l 文档以棵树的形式存 放在内存中,应用程序可以随时对d o m 树中的任何一个部分进行访问与操作。 这种访问方式给应用程序的开发带来了很大的灵活性,它可以任意地控制整个 x m l 文档中任一部分内容。然而,由于d o m 分析器把整个文档转化成d o m 树 放在了内存中,因此,当x m l 文档比较大或者文档结构比较复杂时,对内存的 需求就比较高。而且,对于结构复杂的树的遍历也是一项比较耗时的操作。所以, d o m 分析器对机器性能的要求比较高,实现效率不太理想。不过,由于d o m 分 析器的树结构的思想与x m l 文档的结构相吻合,而且,通过d o m 树机制很容 易实现随机访问,因此,d o m 分析器还是有着很广泛的使用价值的。 s a x 分析器在对x m l 文档进行分析时,触发一系列的事件,应用程序通过 事件处理函数实现对x m l 文档的访问。由于事件触发本身是有时序性的,因此, s a x 分析器提供的是一种对文档的顺序访问机制,对于己经分析过的部分,不能 再倒回去重新处理。s a x 之所以被叫做“简单”应用程序接口,是因为s a x 分 析器只做了一些简单的工作,大部分工作还需要由应用程序自己去做。同d o m 分析器相比较,s a x 分析器对文档的处理缺乏一定的灵活性,然而,对于那些只 需要访问x m l 文档中的数据而不对文档进行更改的应用程序来说,s a x 分析器 的效率则更高。由于s a x 分析器实现简单,对内存要求比较低,因此实现效率比 较高,同样具有广泛的使用价值。 电子科技大学硕士学位论文 2 2 2 2x s l ( x m ls t y l e s h e e tl a n g u a g e ) x m l 的一个最重要的特性是把内容和显示格式分开,这样做带来了一个很大 的好处,可以让不同的用户按照其各自希望的格式显示同一x m l 文档的数据内 容,这也就意味着x m l 文档本身并没有关于格式方面的信息,为x m l 文档提供 格式信息的是样式表,适用于文档的样式表语言有x s l 和c s s 语言。c s s 语言 既可以用于h t m l 文档也可以用于x m l 文档,而x s l 是专为x m l 设计的样式 表语言并采用x m l 语法,x s l 的优势在于它可以用于转换。严格说来x s l 包含 三部分x s l t 、x p a t h 和x s l 格式化对象。x s l t 是一种用来将x m l 文档转换 成其他类型文档或其它x m l 文档的语言。x p a t h 是一种对x m l 文档的部分进行 寻址的语言。设计x p a t h 是要让x s l t 使用的。x s l 格式化对象是将一个x s l 转换的结果变成适于读者或听众使用的输出格式的过程。1 9 9 9 年1 1 月1 6 日,x s l t 和x p a t h 被作为两个单独的w 3 c 推荐标准发布。目前对于x s l 格式化对象还没 有单独的w 3 c 文档,但是在x s l l 0 推荐标准内有一个描述。下文主要对x s l t 和x p a t h 做简单介绍。 x s l t :x s l t 是x s l 标准中最重要的部分,它用于将一个x m l 文档转换成 另一个x m l 文档或另一种类型的文档,也就是将一个x m l 文档转换成浏览器所 能识别的一种格式。这其中之一就是h t m l 。通常,x s l t 将每个x m l 元素都转 换成一个h t m l 元素。x s l t 还可以向输出文件中增加一些全新的元素,或去掉 一些元素。它也可以重新安排这些元素并对元素进行分类,测试并确定显示哪些 元素等等 x p a t h :x p a t h 是用来帮助x s l t 在x m l 源文档中查找定位信息的语言。在 实际使用过程中,x s l t 和x p a t h 总是混在一起使用。x p a t h 本质上是与具有层次 结构的x m l 数据模型相匹配的查询语言。它可以通过按任何方向浏览树来选择 节点,并根据节点的值及其位置应用谓词。它还包括用于基本字符串处理、数字 计算和布尔代数的工具。例如,x p a t h 表达式l i b b o o k y e a r 表示从文档根开始, 选择所有l i b 子元素,然后选择l i b 的所有b o o k 子元素,最后再选择子元素的所 有y e a r 属性。x p a t h 表达式主要用于选择要进行处理的输入节点、在条件处理期 间测试条件,以及计算值以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 智能家居认证系统安全性评估-洞察及研究
- 人工智能角色生成方法探索-洞察及研究
- 嵌入式QT框架下的FPGA加速技术-洞察及研究
- 污染源在线监测与控制-洞察及研究
- 工程项目建设质量与进度保障协议
- 市场推广活动策划执行协议
- 专业培训服务合同及成果交付保障协议
- 技术服务合同协议范本及说明
- 跨境电商物流风险防范:2025年企业应对策略研究报告
- 房地产合同管理风险防范措施
- 跟司马懿学管理
- 2024年下半年湖北省恩施巴东县乡镇事业单位考聘三支一扶人员5人易考易错模拟试题(共500题)试卷后附参考答案
- 《内科学,循环系统》课件
- 2024-2025大学英语考试六级汉译英中英对照
- 材料清单模板
- 2024-2025学年广东省深圳实验学校高中园高一(上)第一次段考数学试卷(含答案)
- 人教版(2019)高中生物必修1《分子与细胞》期末复习知识点考点提纲
- 2《企业会计准则第9号-职工薪酬(2014年修订)》
- 2024年太原市小店区供热公司招聘笔试参考题库附带答案详解
- 中医培训课件:《放血疗法》
- 市政道路监理规划及市政道路监理大纲
评论
0/150
提交评论