




已阅读5页,还剩49页未读, 继续免费阅读
(系统分析与集成专业论文)基于emc+documentum的档案与稽核平台的构建.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 当今信息爆炸的时代,信息每天都在以惊人的速度增长。研究部门把由传统关系数 据库管理系统处理的数据信息称为结构化数据,把包括纸质文件、电子文档、传真、报 告、表格、图片、音频和视频文件等在内的信息称为非结构化数据或内容。通过调查发 现,在企业存储的海量信息中,结构化数据仅占数据信息总量的1 5 ,而非结构化数据 却占数据信息总量的8 5 。有序地存储、管理并挖掘非结构化数据是目前全球一切成 功企业提高竞争力和生产力的主要手段。 随着中国经济的高速发展和中国金融改革的进一步深入,中国金融市场的竞争将日 益激烈,竞争的方式将从企业的外延比如统一、高效的营业服务系统,向企业的内涵比 如管理决策方面转移。国内各大金融机构近几十年投入巨资大力发展i t 应用,已经初 步建成了各自统一的营业服务系统和企业内部信息传递管理系统,经过多年的运行积 累,存储了海量的信息资源。由于历史的原因,这些海量的信息资源管理分散、共享困 难,形成彼此隔离的信息孤岛。科学管理和合理开发这些信息资源尤其是大量的、非结 构化数据信息,是国内银行界面临的巨大挑战。 本文致力于对d o c u m e n t u m 资源库的研究,结合当前银行实施档案管理和电子 化稽核系统的需求,在j 2 e e 体系下提出基于d o c u m e n t u m 资源库的会计档案系统 和会计稽核系统的设计和实现方案。本文结合内容管理系统和当前应用开发的实际情 况,对系统进行了实现,并说明了系统开发和部署环境。作为内容管理一个应用,为企 业信息资源的挖掘和整合利用、解决信息孤岛问题提供可实施的例子。 关键词:内容管理;非结构化数据;平台;项目群:稽核系统 a b s t r a c t t o d a y i st h ee r ao fi n f o r m a t i o ne x p l o s i o n ,a si n f o r m a t i o ng r o w i n ga ta na l a r m i n gr a t e e v e r yd a y r e s e a r c hd e p a r t m e n t sd e a lw i t ht h ed a t aw h i c hc o m e sf r o mt h et r a d i t i o n a l r e l a t i o n a ld a t a b a s em a n a g e m e n ts y s t e ma ss t r u c t u r e dd a t a , a n dc a l lt h ep a p e rd o c u m e n t s , e l e c t r o n i cd o c u m e n t s ,f a x e s ,r e p o r t s ,t a b l e s ,p i c t u r e s ,a u d i oa n dv i d e of i l e s 弱u n s t r u c t u r e d d a t ao rc o n t e n t ( c o n t e n t ) t h r o u g ht h es u r v e y ,i th a sb e e nf o u n dt h a ti nt h em a s ss t o r a g ei nt h e e n t e r p r i s ei n f o r m a t i o n ,s t r u c t u r e d d a t ai s o n l yd a t a f o r15 o ft h e t o t a l ,w h i l et h e u n s t r u c t u r e dd a t aa c c o u n t sf o r8 5 o ft h et o t a li n f o r m a t i o n a n dh o wt oo r d e r l ys t o r a g e , m a n a g ea n du s et h eu n s t r u c t u r e dd a t a i st h ep r i m a r ym e a n so fa l ls u c c e s s f u l g l o b a l e n t e r p r i s e st oi m p r o v et h e i rc o m p e t i t i v e n e s sa n dp r o d u c t i v i t y w i t hc h i n a sr a p i de c o n o m i cd e v e l o p m e n ta n dc h i n a sf u r t h e rf i n a n c i a lr e f o r m ,c h i n a s f i n a n c i a lm a r k e tw i l lb e c o m e i n c r e a s i n g l yi n t e n s e ,a n d t h ec o m p e t i t i o nw i l lf r o mt h e e x t e n s i o ns u c ha sau n i f i e da n de f f i c i e n ts y s t e mo fb u s i n e s ss e r v i c e st ot h ee n t e r p r i s e ss u c ha s t h em e a n i n go ft h et r a n s f e ro fm a n a g e m e n td e c i s i o n - m a k i n g m a j o rf i n a n c i a li n s t i t u t i o n s i n v e s t e dh e a v i l yi nr e c e n td e c a d e st od e v e l o pi ta p p l i c a t i o n s ,a n dh a si n i t i a l l yb u i l tu pt h e i r b u s i n e s ss e r v i c e st oau n i f i e ds y s t e ma n de n t e r p r i s em e s s a g i n gm a n a g e m e n ts y s t e ma f t e r y e a r so fr u n n i n gt h ea c c u m u l a t i o no fm a s s i v es t o r e so fi n f o r m a t i o nr e s o u r c e s d u et o h i s t o r i c a lr e a s o n s ,t h e s ei n f o r m a t i o nr e s o u r c em a n a g e m e n tm a s s i v e l ys p r e a da n dd i f f i c u l t l y s h a r e d ,f o r m a t i n gt h ei s o l a t e di s l a n d so fi n f o r m a t i o n s c i e n t i f i cm a n a g e m e n ta n dr a t i o n a l e x p l o i t a t i o no ft h e s ei n f o r m a t i o nr e s o u r c e s ,e s p e c i a l l yl a r g e ,u n s t r u c t u r e dd a t a , a r et h e e n o r m o u sc h a l l e n g e sf o rt h ed o m e s t i cb a n k i n gs e c t o rt of a c e t h i sa r t i c l ed e d i c a t e dt or e s e a r c ht h ed o c u m e n t u mr e s o u r c el i b r a r y c o m b i n e dw i t h t h ei m p l e m e n t a t i o no ft h ec u r r e n tb a n k i n ga n de l e c t r o n i cr e c o r d sm a n a g e m e n ts y s t e m so f a u d i t i n g ,t h i sp a p e rd e s i g n sa n di m p l e m e n t st h ep r o g r a m ,i nj 2 e es y s t e mr e s o u r c e sb a s e do n t h ea c c o u n t i n gd o c u m e n t u mf i l es y s t e ma u d i t i n ga n da c c o u n t i n gs y s t e m s t h i sp a p e r c o m b i n e dt h ec u r r e n ta c t u a ls i t u a t i o no ft h ec o n t e n tm a n a g e m e n ts y s t e m sa p p l i c a t i o n d e v e l o p m e n t ,a n da c h i e v e dt h ea p p l i c a t i o no ft h es y s t e m ,a sw e l la sd e s c r i b e dt h es y s t e m s d e v e l o p m e n ta n dd e p l o y m e n te n v i r o n m e n t s a sac o n t e n tm a n a g e m e n ta p p l i c a t i o nf o r i i e n t e r p r i s e ,t h i sp a p e rh a sp r o v i d e da ne x e c u t i v ee x a m p l eo fi n f o r m a t i o nr e s o u r c e sa n d i n t e g r a t e du s eo ft h ee x c a v a t i o nt oa d d r e s st h ei n f o r m a t i o n k e y w o r d s :c o n t e n tm a n a g e m e n t ;u n s t r u c t u r e dd a t a ;p l a t f o r m ;p r o j e c tg r o u p ;a u d i t s y s t e m i i i 湖北大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特另j j d d 以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 论文作者签名:亍习,魂 日期:砷年j 月砧日 学位论文使用授权说明 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即: 按照学校要求提交学位论文的印刷本和电子版本;学校有权保存并向国家有关部门 或机构送交论文的复印件和电子版,并提供目录检索与阅览服务;学校可以允许采用影 印、缩印、数字化或其它复制手段保存学位论文;在不以赢利为目的的前提下,学校可 以公开学位论文的部分或全部内容。( 保密论文在解密后遵守此规定) 作者签名:硇钓 指导教师签名:荔 g j 、 日期:弘r 劣 必 醐:7 卢 1 绪论 1 1 课题来源及研究意义 1 1 1 课题来源 1 绪论 本课题来源于2 0 0 8 年初,某银行总行将全行非结构化数据信息化建设提上了议事 日程,并在该银行科技应用总体规划明确提出了企业内容管理( e n t e r p r i s ec o n t e n t m a n a g e m e n t ,e c m ) 平台项目,并将其定位为全行的基础设施,在此基础上构建一个统 一的、综合化的电子档案平台和综合业务稽核平台。 1 1 2 研究意义 随着世界各国信息化进程的不断推进,对于信息资源的发掘和利用已经成为当前应 用发展的重点方向。一个企业或者组织内部,每天产生的各种类型的文档可能数以万计, 如何把众多的人力物力从庞杂的文档管理中解脱出来,并达到对信息的有效挖掘和利 用,成为摆在企业信息服务中的核心问题。在整个互联网应用环境下,犹如火山爆发般 产生的超大量信息,如果不能很好的管理利用起来,人们花在检索、整理上的时间和精 力就会造成极大的浪费。有效地把信息管理起来,使之真j 下成为企业增值链中的一环, 内容管理的概念就是为了解决这个问题而出现的。 一 传统的关系数据库己经能够完成对结构化数据的有效管理。经过数十年的发展,数 据库理论已经非常成熟完善,各种数据库管理软件和工具功能已经足够强大。但是在应 用中我们可以深刻的体会到,结构化数据仅仅只占应用中涉及到的数据很少的一部分。 大部分数据,例如文档、图片、音乐、视频、软件、w e b 页面等等,都是属于非结构化 数据,传统手段己经无法有效管理这些数据。而内容管理的目的就是来有效管理这些非 结构化数据,不论数据是何种类型,内容管理系统都能把它们统一管理起来,并为应用 提供统一的接口【1 1 。 作为内容管理系统的底层架构,内容知识库( 也称信息资源库) 扮演类似数据库管 理系统的角色。内容知识库是文件系统、传统数据库等和应用之间的中间层。应用通过 内容知识库来访问内容数据。 当前的内容知识库体系结构还没有成熟,在大部分内容管理系统中,内容知识库并 不是一个独立而完整的模块。大部分系统仍然采用传统数据库和文件系统结合的方式, 湖北大学硕i :学位论文 系统耦合性差,功能己经不能满足需要。内容知识库正是当前发展迅速的内容管理领域 内最为重要的一个技术架构,对内容管理技术的未来发展起着最为基础和决定性的作 用。在这种状况下,无论是在理论上还是在应用上,对于新的独立而完整的内容知识库 体系结构的研究对于未来内容管理技术的发展都是具有重要意义的。 1 2 国内外研究现状及发展现状 内容管理系统已经成为当前w e b 应用的主流产品,内容管理产品的市场扩展非常 迅速。当前大部分著名的门户网站,诸如新浪、搜狐等i c p ,都采用了内容管理技术来 处理大量的信息更新。而且大多数企业和政府机关已经开始意识到内容管理的重要意 义,并积极开始引入内容管理产品来提升和完善组织内部的信息挖掘、处理、共享、发 布等,以达到真正利用信息,通过信息产生增值的目的。 内容管理市场上国内外已经拥有大批厂商和成熟的产品【2 1 。 一类是o r a c l e ,i b m ( 拥有d b 2 数据库) 、m i c r o s o f t ( 拥有s q ls e r v e r 系列) 等有 数据库技术背景的公司,提供的产品是通用的平台解决方案。它们通过自己深厚的数据 库技术,在内容数据的底层管理上拥有强大的竞争力。如m mc o n t e n tm a n a g e r , m i c r o s o f tc o n t e n tm a n a g e m e n ts e r v e r 等。 一类是单纯的应用开发商,如国外的i n t e r w o v e n ,b r o a d v i s i o n ,o p e n m a r k e t ,a t g , a l l a i r e ,d o c u m e n t u m ,h u m m i n g b i r d 等,国内的t r s 等。这些开发商在需求的满足和 使用性上下功夫,专业性强,是内容管理软件的主要厂商。 国内的厂商在数据库技术上实力较弱,竞争力不容乐观。但是胜在对中文支持比较 好,需求满足比较到位。但是未来只有在中文处理和检索技术上有所突破,掌握数据库 技术才可能拥有核心竞争力。值得一提的就是国内的t r s 公司,在中文检索方面有自 己的核心技术,因而具有了强大竞争力。 经过多年的发展,内容管理的概念已经与发展初期时有了很大的不同。以前,内容 管理可能是指对一个平台、一台p c 上的信息管理。现在,网络已经可以把所有的系统 都联系起来,内容管理则是要在使用端建立起一个跨平台的系统,让各种操作系统、应 用系统、数据库,例如l o t u sn o t e s 、微软o f f i c e 等软件都能在这个跨平台的系统上运 行,并让人事、销售、行销等不同部门、不同需求的人都能使用,这才是真正有效率的 企业内容管理系统。 因此,内容管理就是要解决对信息的分析、过滤、阅读权限、内容安全等多方面问 2 l 绪论 题,实现从内容采集、创建、传递到内容分析等整个产业价值链的完全整合。内容管理 平台就是以信息共享为目的,面向海量信息处理,集信息数字化、分布存储、管理、传 播、查询为一体的管理平台。所以,内容管理具有四大功能:内容集成、内容管理、内 容智能和内容发布。内容集成功能( c o n t e n ti n t e g r a t i o n ) 可以让使用者到不同系统中寻 找到不同形式的资料文档。该功能可协助一般消费者利用网站查询资料,完成自我服务。 而内容管理功能,就是要让成千上万个使用者同时使用不同系统的内容。就像百年前福 特汽车公司提出的生产线观念,让员工站在生产线上投入不同的物料及零件,生产线那 端就会产出产品。现在,使用者投入不同的知识在这条”信息生产线上,就能从内容管 理系统上得到不同的知识型产品。另外,一个好的内容管理还应具有内容智能的功能。 就像在藏书浩瀚的图书馆中,要用书签等归类方式,让使用者顺利找到他想要的书一样。 这时,内容智能就是扮演这种书签的角色,将内容分类归档,让信息变得更易取用、更 有价值。具备这三项功能之后,如果缺少了内容发布的功能,仍然不能算一个完整的内 容管理系统。所谓内容发布功能,是要让所有的使用者在同一个时间接收到信息,而不 会延误任何时间。以某家全球知名的投资银行为例,每天要把各种不同的研究报告同时 传达给全球3 3 0 0 个大型投资机构的客户,由于每份报告都牵涉到重大投资案的评估结 果,因此,好的内容发布系统必须保证让所有人都同时拿到同样的报告,不至于让少数 的使用者因较晚拿到资料而可能造成巨大的投资损失【3 1 。 内容管理系统的出现和建立是面向应用,以功能为导向的。所以内容管理系统一直 以来是作为一个技术体系而不是理论体系来发展的。虽然也出现过相关的模型讨论,但 是随着市场和应用的深入发展,建立一个理论完备的模型是十分必要的。 1 3 论文组织 本论文共分五章。 第一章讲述了课题来源及意义和国内外发展动态。 第二章主要介绍了内容管理系统开发的相关技术。 第三章通过非结构化数据的基本特性出发,阐述了内容管理系统的系统结构,并 且介绍了一下国际一流的内容管理厂商e m c 的d o c u m e n t u m 产品的功能与特点, 和介绍了一般银行业务上实施档案管理和电子稽核的背景与积极意义,从而引出内容知 识库和档案管理平台、电子稽核平台的概念。然后通过对内容数据的介绍,引入对结构 化数据和非结构化数据的特点分析,描述了银行进行非结构化数据管理,实现真正意义 3 湖北大学硕 :学位论文 的流程化银行的必要性。本章最后提出基于内容知识库之上的文档管理平台和银行业务 稽核平台的实现目标。 第四章详述了系统总体设计与实现。根据前面分析和选择的技术路线,对系统进 行总体设计与实现。并介绍了运行环境和测试环境等。 第五章结论部分,对本文的工作进行总结,并指出工作中需要完善和进一步发展 的地方。 1 4 小结 本章侧重介绍了内容管理技术当前发展的现状和意义。国内外信息化建设的实践也 证明了信息化资源建设在整个信息化建设中具有基础性的作用。但是当前这个问题一直 没有得到很好的解决,信息孤岛的问题还比较严重。会计档案管理和会计稽核系统的意 义就是要解决如何把当前信息开发和挖掘中面对的多种多样的信息整合起来的问题,从 而提出一个较好的解决方案。通过对e m cd o c u m e n t u m 资源库的研究和应用,不 仅仅能够解决此项目中的资源整合共享、开发、挖掘和利用,还能为今后的内容知识管 理,提高银行的信息化管理水平做好铺垫。 本文的目的致力于对d o c u m e n t u m 资源库的研究,结合当前银行实施档案管理 和电子化稽核系统的需求,在j 2 e e 体系下提出基于d o c u m e n t u m 资源库的会计档 案系统和会计稽核系统的设计和实现方案。作为内容管理一个应用,为企业信息资源的 挖掘和整合利用、解决信息孤岛问题提供可实施的例子。 4 2 内容管理相关技术 2 1 简介 2 内容管理的相关技术 从内容管理系统的组成及功能,可以看出内容管理应用范围主要有以下几个方向: 对信息,特别是非结构化信息的管理。内容管理主要是应用在企业的信息管理上, 而企业的信息主要是非结构化信息,如文档、报表、网页、音频、视频多媒体信息等。 这就要求内容管理系统不但能够对结构化的数据进行全面地访问、管理、分析和共享, 同时对非结构化的数据也要能够实现同样的管理功能【4 】。 和业务应用的结合。因为内容管理最终还是要服务于具体的业务过程。这很大程度 上是一个系统和应用的集成问题,它需要消除应用( 如e r p ,s c m ,c r m 等) 之间妨 碍内容应用的界限。c m 的核心价值是构造一个开放的内容基础设施,易于和企业管理 应用,如e r p ,c r m 等集成,实现内部网、i n t e m e t 和企业网之间内容的统一、灵活的 管理和使用。内容管理解决方案必须和电子商务服务器紧密集成,从而形成内容生产 ( p r o d u c t i o n ) 、传递( d e l i v e r y ) 以及电子商务端到端系统。要做到这一点,内容管理 系统从设计,实现上就必须与企业己有的电子商务系统兼容。目前j 2 e e 是电子商务的 主流技术,具有完善的架构,良好的可扩展性及系统兼容性,是大多数企业电子商务系 统实现的首选。因此选择使用j 2 e e 架构就是内容管理系统最好的选择,而且使用j 2 e e 还可以为内容管理系统带来许多开发上的便利。 实现完整的价值链,内容价值链包括内容供应商( c o n t e n tp r o v i d e r s ) ,服务提供商 ( s e r v i c ep r o v i d e r s ) 和内容消费者( c o n t e n tc o n s u m e r s ) ,因此内容管理解决方案必须 提供从创建、检索、发布、传递、个性化等全套功能。在实现检索功能上,非结构化数 据检索技术( 如图像检索技术) 是实现的关键。而在实现内容的发布以及传递功能上, x m l 作为一个公开的标准,实现了数据与显示的分离,同时保留了数据的结构信息, 配合x s l 能够很好的支持各种内容发布的需求,而配合d t d 和s c h e m a ,又能使得企 业间内容的共享、系统间数据的传递成为现实。个性化功能的关键是对用户行为进行数 据挖掘,因此数据挖掘技术的发展也会影响内容管理系统的实现。最后,内容管理还强 调对电子商务流程的管理,所以研究流程控制的工作流技术的研究也越来越受到人们的 重视【5 】o 从对内容管理应用的分析,可以看出电子商务是推动内容管理市场发展的源动力, 5 湖北大学硕1 :学位论文 而关系数据库、x m l 、j 2 e e 、内容检索、数据挖掘、工作流等技术都在内容管理中有 十分重要的地位1 。下面就对相关技术进行简要的介绍。 2 2 关系数据库技术 关系数据库理论出现于6 0 年代末到7 0 年代初。1 9 7 0 年,m m 的研究员e fc o d d 博士发表大型共享数据库数据的关系模型一文提出了关系模型的概念,以及后来陆 续发表多篇文章,奠定了关系数据库的基础。关系数据库是目前各类数据库中最重要、 最流行的数据库,也是目前使用最广泛的数据库系统。2 0 世纪7 0 年代以后开发的数据 库管理系统产品几乎都是基于关系的。在数据库发展的历史上,到目前为止最重要的成 就就是关系模型【7 1 。 2 3j 2 e e 体系结构 2 3 1j 2 e e 架构 j 2 e e ( j a v a2p l a t f o r m ,e n t e r p r i s ee d i t i o n ) 是一种利用j a v a2 平台来简化诸多与企 业解决方案的开发、发布和管理相关的复杂问题的体系结构j 2 e e 技术的基础是j a v a 2 平台的标准版,j 2 e e 不仅巩固了标准版中的许多优点,例如“编写一次、到处运行 的特征、方便存取数据库的j d b ca p i 、异步消息控制的j m s ,c o r b a 技术以及能够 在i n t e r n e t 应用中保护数据的安全模式等等,同时还提供了对e j b ( e n t e r p r i s e j a v a b e a n s ) ,j a v as e r v l e t sa p i ,j s p ( j a v as e r v e r p a g e s ) 1 8 1 。 2 3 2e j b 技术 作为j 2 e e 架构核心部分的e j b 技术,是专为j a v a 设计的、一种跨平台的,在服务 器端运行的组件技术。e j b 规范现在己经成为工业标准,最近已经发展到了3 0 版本 1 8 1 0 e j b 将j a v a b e a n 概念扩展到j a v a 服务器端组件体现结构【9 1 。这个模型支持多层的 分布式对象应用,并使开发人员能够把精力集中在业务逻辑上,它的优点有: 组件的可移植性。e j b 体系结构提供了一个简单而优质的服务器端组件容器模型。 此模型使得j a v a 平台服务器组件一旦被开发,可以在任何供应商的容器系统中发布。 即使容器系统以不同的方式实现它们运行时的服务,e j b 接口也能保证e j b 组件能够依 赖低层系统来提供一致的生命周期、持久性、事务处理、分布处理以及安全服务。 6 2 内容管理相关技术 e j b 体系结构的独立性。e j b 体系结构完全独立于任何特定的平台、协议和中间件 的基础设施。在一个平台上开发的应用程序可被移植到另一个平台上。e j b 应用程序可 以不需要任何修改的从一个小的单处理器,如基于i n t e l 的n o v e l 环境,扩展到一个大 的多处理器,如u l t r a s p a r c 环境或者m m 的大型机环境中【m 】。 开发者的高生产率。e j b 组件体系结构提高了应用程序开发者的生产率。e j b 环境 自动的使用复杂的基础设施服务,如事务处理、线程管理和安全检查。组件和应用程序 开发者不需要在应用编程中实现这些复杂的功能,从而简化了开发工作。 高度的可定制性。e j b 应用程序是高度可定制的。内在的组件模型支持定制而不需 要存取源代码。应用程序的行为和运行时的设置是通过一组在发布时可以被改变的属性 来定义的。 多功能和伸缩性。e j b 模型是基于一个多功能和强大的依赖于工业标准协议的多层 分布式对象体系结构之上。这个模型对小规模应用程序或大规模事务处理都很合适。随 着应用需求的增长,应用程序能够迁移到先进的、操作功能强大的环境中,而此环境 本身就支持基于w e b 的应用和其他i n t e m e t 使能的客户端设备。更多的客户端应用系统 可以随时加入进来,而无需改变应用程序的核心部分。e j b 技术提供了一个随着工业发 展而不断成长的随时支持新技术的环境。组件的可重用性。e j b 组件是组件供应商根 据客户的需要,开发的业务逻辑功能模块。如果模块的功能定义良好,则组件供应商开 发的组件可以应用到相同领域的不同的客户身上。这样就避免了需要为每一个客户定制 组件的需要,降低了组件的开发成本【l l 】。 2 4d o c u m e n t u m 2 4 1d o c u m e n t u m 简介 d o c u m e n t u m 5 是一个健壮的、灵活的平台,支持企业内容管理应用。d o c u m e n t u m 5 是一套一起工作的产品和服务,通过变化融合以适应企业对内容管理的需要【1 2 】。 d o c u m e n t u m 平台易于客户化定制以适应特殊的商业需求或是建立自定义的内容应用。 一个能提供开发和运行服务的平台,这种服务支持不同应用软件的共同需要。对于 关键功能提供高级别的接口,使开发人员能够把焦点放在业务问题上。例如,数据库平 台向应用提供基于结构化数据的存储服务,包括:创建和维护建构化数据,控制当前存 取,向队列返回结果【l3 1 。一个w e b 应用服务器平台提供基于w e b 应用的底层架构支撑, 7 湖北人学硕士学位论文 进行基本的任务分派,内存管理和对s e s s i o n s 管理,控制用户安全并提供管理界面。 d o c u m e n t u m 5 平台提供开发和运行服务,支撑内容应用的需求。其体系结构保证 了所有的功能能够相互配合工作,使企业能够把应用集成为一个完整的企业价值链。 2 4 2d o c u m e n t u m 的特点 一、覆盖企业内容管理的六大应用,提供完整内容管理方案 d o c u m e n t u m 在统一的内容管理服务之上,支撑企业内容管理( e c m ) 的六大应用, 如图2 1 所示。包括企业文档管理( e d m ) 、w e b 内容管理( w c m ) 、数字资产管理( d a m ) 、 企业档案管理( e r m ) 、基于内容的企业法规遵从应用( c o m p l i a n c e ) 、协作内容管理 ( c c m ) 【14 1 。 图2 1e c m 的六大应用 二、统一的底层平台,内容一次创建,多处应用 d o c u m e n t u m 基于底层统一的d o c u m e n t u me c mp l a t f o r m 提供各种应用和服务,使 得企业的内容只需创建一次,就可以在企业各种基于内容的应用中按需使用,涉及到的 流程和格式转换均可在自定义的条件下实现完全自动化,如图2 2 所示。 8 2 内容管理相关技术 苗毫 t i i p 嚣 毫c ,争0 争皂。:基 。立 圈2 2d o c u m e n t u m 的应用和服务 三、强大的业务流程管理 d o c t l l l l c n t u n lb p m ( b u s i n e s sp r 铝sm a n a g e m e n t ) 业务流程管理模块支持业界标 准工作流管理联盟w f m c 规范;其中的f o r mb u i l d e r 组件可以快速设计流程中的 表单使开发人员从大量的w e b f o r m 重复开发工作中解脱出来专注于业务逻辑开发, 如图2 3 所示。 2 5 小结 蓬第, 馏甜 毫篓i 幽 品= 烂 _ f 自 粤惮掣 一l 醚i h 1 壹一守r 一t o , 图2 3d o c u l l l o i l t u n lb p m 的业务流程图 本章简单介绍了内容管理涉及的相关技术,数据库技术以及j 2 e e 技术体系。并且 详细介绍了国际一流厂商e m c 的内容管理产品d o c u m e n t u m 的特点。这些特点与 掣: 鼎溉 鞘? p 湖北大学硕上学位论文 技术都是目前较新兴的技术,支持快速的开发方式、支持统一的安全标准、支持健壮化 的服务平台,能够最大限度保证系统的适用性。数据库技术是当前大部分应用开发的核 心结构,也是d o c u m e n t u m 所依赖的底层技术。j 2 e e 技术是应用丌发的有力工具, 保证了应用的跨平台性和通用性,d o c u m e n t u m 支持开放的j 2 e e 标准,方便做到 功能与服务的扩展。这些技术都是进行内容管理系统实现必不可少的技术,对于整个架 构的设计和实现具有重要的意义【l 7 1 。 1 0 3 内容管理的基本技术 3 内容管理与非结构化数据 3 1 内容管理的基本技术 3 1 1 简介 当今世界上,各个国家都把信息化作为提高国家竞争力、转变经济增长方式的一个 重要手段来重视和建设。有人甚至把这次信息化称之为“第二次信息革命”。这次信息 化建设是以高速、多媒体信息为特征的,将对经济、军事等人类生产和生活的各个领域 产生深远的影响,信息化建设的成败已经直接对国家间的竞争产生重要影响。随着互联 网设备和计算机硬件的不断升级和发展,网络带宽不断增加,可靠性不断提高,计算机 的处理能力不断增强。信息的生产和传输不再是单纯追求目标,信息的发掘和管理r 益 成为更加急迫的问题。对于信息处理的侧重点开始从数量向质量转变。 在这种潮流的推动下,内容管理的概念应运而生。内容管理就是要将不同类型的数 字内容全部以数字化的方式妥善保存起来,并利用足够的信息、高效的查询手段对所保 存的数字资产进行查询和检索,用智能分析技术对其进行数据挖掘,最终使得这些数字 内容能够得到最充分的利用,价值不断地提升,提高企业在信息时代的竞争力。 当前内容管理技术研究的重点有以下几个技术【1 8 】: 文字处理技术。主要研究跨媒体出版需求下的文字处理技术,包括各种格式文 本如w o r d ,p d f ,r t f ,p s ,s 2 格式文件向x m l 转化,以及x m l 文件的 w 曲表现及出版技术。 图形图象处理技术。主要研究包括图像数字版权保护技术、图象压缩技术、图 像w e b 浏览技术和图片内容检索技术。 基于内容检索技术。主要面向多媒体数字内容的技术内容检索技术研究,包括 全文检索、基于内容的图片内容检索和基于内容的视频检索。 文本数据挖掘技术。主要包括自动分类技术、聚类技术、相似搜索技术、知识 自动问答、自动提取关键词、自动提取摘要、自动消重等技术。 x m l 与数据库技术。主要包括元数据存取技术、数据库存取技术、x m l 于信 息交换等方面的研究。 海量信息存储技术。主要包括海量信息存储模型研究,包括h s m ( h i e r a r c h i c a l s p a c em a n a g e m e n t ) 存储架构、分布式存储架构、信息归档、信息备份、c d n 1 1 湖北大学硕一i :学位论文 分发等技术。 业务流程管理( b p m ,b u s i n e s sp e r f o r m a n c em a n a g e m e n t ) 技术。 跨媒体信息发布技术。主要包括内容面向不同媒体介质的发布技术,如w e b 发布技术、数据库出版技术、光盘出版技术等。 从上述的关键技术我们可以清晰的看出,对于内容的处理、存储和检索,是整个内 容管理技术的重中之中。而本文研究的内容知识库,恰恰就是为了解决上述问题提出的。 所以说内容知识库对于内容管理技术的意义非常重要,是整个内容管理体系结构的基 石。 3 1 2 内容管理系统 内容管理系统( c o n t e n tm a n a g e m e n ts y s t e m ,c m s ) ,就是用来完成内容管理任务的 软件集合。在当前信息化浪潮中,随着企业对于内容管理的需求,将会出现越来越多的 内容消费者( c o n t e n tc o n s u m e r ) ,功能强大的、可伸缩的、灵活的内容管理系统必然会 成为企业的核心应用之一【19 1 。 内容管理系统的发展可以分为三个部分: 第一部分,可以称为文档管理,或者说针对特定应用的内容管理。比如图片管理, 报表管理,等等。 第二部分,是网站内容管理,进行网站内容的编辑管理和发布。当前的大部分内容 管理应用都处在这个阶段。 第三部分,是内容管理的最终目标,称作通用内容管理平台。这个平台可以完成对 于企业内部非结构化数据的统一管理并提供服务,满足企业内容信息需求,并在之上扩 展各种内容应用。 当前的内容管理系统主要分为以下几类: 企业内容管理( e n t e r p r i s ec o n t e n tm a n a g e m e n t ,e c m ) ,适用于整个企业。具备 对门户( p o r t a l ) ,工作流( w o r k f l o w ) 和业务进程管理( b u s i n e s sp r o c e s s m a n a g e m e n t ) 等工具或者应用的支持,并且具备检索和定位内容数据的能力。 互联网内容管理( w e bc o g e n tm a n a g e m e n t ,w c m ) ,通过对内容和表现的分离, 简化内容创建。不仅仅管理w e b 页面,还支持各种格式数据的管理。支持从企 业内部到大型电子商务的各种应用,具备多站点管理的功能。 文档管理( d o c u m e n tm a n a g e m e n t ,d m ) ,不仅仅是管理物理存在的纸质文档, 1 2 3 内容管理的基本技术 也管理电子文档。包括文档的存储、索引、检索、工作流处理能力、版本控制、 导入导出、发布等功能,能够管理文档的整个生命周期。 数字资产管理和数字权限管理( d i g i t a la s s e tm a n a g e m e n t ,d a m d i g i t a l r i g h t sm a n a g e m e n t ,d r m ) ,通常,数字资产指媒体文件,如影像、视频、音频 等。d a m 应用捕获、分类、存储这些资产,然后通过整合发布服务。d r m 是 d a m 的相关扩展,它强调对第三方进行资产使用的安全和管理方面的能力。 可能包括基于网页的付费内容的发布,通过其他频道,帮助组织跟踪和控制它 所授权的那些数字资产的权利。 企业信息门户( e n t e r p r i s ei n f o r m a t i o np o r t a l ,e i p ) ,发展和应用十分广泛。它将 内部网和外部网信息和应用连接起来。能表现出个性化的视图,使用户从中获 得增值信息。它从应用底层,以及复杂的各种数据源中抽象出相关用户。门户 简化了信息发现的过程,经常被用作知识网络创新的基础,它使得大范围的项 目协作成为可能。门户的这些优势,依赖于“内容”的实现。在这两者之间,。 己经有了越来越多的相互依存的联系。 知识管理与协作( k n o w l e d g em a n a g e m e n t ,k m & c o l l a b o r a t i o n ) ,涵盖了比较 广泛的范围,主要用于协助组织从知识资产中获得价值的最大化。提供捕获、 组织、发布机构知识的平台,关注比较专门的领域,比如搜索、索引、电子教 学、数据挖掘、部分协作等等。协作被看作知识管理领域的一部分。协作技术 包括及时消息,交互讨论,在线会议,对等知识交换,基于项目的团队工作管 理等等。 软件配置管理( s o f t w a r ec o n f i g u r a t i o nm a n a g e m e n t ,s c m ) 用于软件开发生命 周期中的代码管理。包括版本控制,检入,检出,代码库和审计功能,同时支 持大型软件项目地域分布的团队合作功能。把s c m 也归类于内容管理系统是 因为其中也涉及到大量非结构化的内容数据。 上述的这么多分类中,e c m 是内容管理技术发展的目标。当前的主要应用方向是 互联网内容管理,即网站内容管理。传统的静态网站,基本采用手工制作页面,费时费 力,容易出现很多问题。而现在流行的动态网页技术( 如a s p ,j s p ,p h p ) 等,虽然 带来了极大的灵活性,但是同样要写大量的脚本代码。内容管理充分利用了静态页面和 动态页面的特点,通过把文本、图片等数据和模板连接起来,这里的模板就是页面上不 变的那一部分,包括页边、页尾、导航栏及广告栏等【2 0 】。而对于页面与页面而言,区别 1 3 湖北大学硕上学位论文 在于其中的文本和图片内容。这样把静态内容和动态内容分开,一方面可以不修改页面 的视觉风格就可以修改页面的内容,一方面可以通过对一个模板的修改来完成对一系列 页面风格的修改。两者完全分隔开来。这样的优点是显而易见的,使用者不需要了解任 何制作页面的知识,只需要录入、编辑、发布文章就可以直接完成对页面内容更新。而 网页制作人员也只需创建、修改模板就可以完成对网页风格的修改,而不用去修改一个 个的静态页面。当前的内容管理系统基本采用的也是三层架构。唯一的区别就是系统涉 及到非结构化数据的管理。所以底层数据管理不再是单纯的数据库,而是内容知识库【2 1 1 。 3 2 非结构化内容的文档管理 3 2 1 内容的定义 内容是一切商业或者说事务活动的基础,常常能见到“内容为王”这句话,从侧面 印证了“内容在当前企业应用中的重要地位,内容( c o n t e n t ) 是比数据( d a t a ) ,信 息( i n f o r m a t i o n ) 更加宽泛的概念。这里的数据( d a t a ) 是狭义的数据定义,指的是计 算机能够加工处理的“原料 。但是单独的数据是不具备任何意义的,计算机也无法处 理没有任何意义的数据。随着元数据伽e t a d a t a ,说明数据的数据概念的出现,信息的概 念出现了,信息就是有意义关联排列的数据。数据库处理的就是信息涵义下的数据t e a l 。 而内容则是各种结构化数据、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025深圳市民办学校教师聘用合同书范本
- 2025江苏南通市川姜镇招聘人力资源和社会保障基层公共服务平台工作人员4人模拟试卷及答案详解(全优)
- 2025年甘肃省张掖市(甘州区)博物馆讲解员招聘考前自测高频考点模拟试题及答案详解(夺冠系列)
- 2025个人二手车买卖合同模板
- 2025贵州省文化和旅游厅所属事业单位第十三届人博会引进人才3人模拟试卷及答案详解(有一套)
- 2025年甘肃交通职业技术学院考核招聘急需紧缺专业人才模拟试卷附答案详解(完整版)
- 2025年甘肃财贸职业学院考核招聘博士研究生模拟试卷及答案详解一套
- 2025河南民航发展投资集团有限公司招聘28人考前自测高频考点模拟试题有完整答案详解
- 2025广西大岭乡储备村“两委”后备人才80人模拟试卷及答案详解(历年真题)
- 2025年枣庄市妇幼保健院公开招聘备案制工作人员(23人)考前自测高频考点模拟试题及答案详解(网校专用)
- 国企运营资产管理办法
- 中国手机美容市场深度调研分析及投资前景研究预测报告
- 【Google】2025全球短剧营销白皮书(市场数据、渠道打法、ROI全盘点)
- 校园导向标识设计
- 2025垂直领域具身智能机器人产业化落地现状及潜力应用场景分析报告
- 农业植保员培训课件
- 大班徒步秋游活动方案
- 成人高考计算机毕业论文
- 呼吸内科发热宣教
- 山洪防御知识培训课件
- 小学生防霸凌课件教学
评论
0/150
提交评论