(计算机应用技术专业论文)内容知识库的研究和应用.pdf_第1页
(计算机应用技术专业论文)内容知识库的研究和应用.pdf_第2页
(计算机应用技术专业论文)内容知识库的研究和应用.pdf_第3页
(计算机应用技术专业论文)内容知识库的研究和应用.pdf_第4页
(计算机应用技术专业论文)内容知识库的研究和应用.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机应用技术专业论文)内容知识库的研究和应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 内容管理技术已经成为当前计算机研究和应用领域的一个热点,它是实现企业组织 内容挖掘、处理、共享、发布的核心技术。内容管理技术的深入研究对于提高我国企业 的信息化建设程度、企业业务系统运行效率以及竞争力都有着重要的意义。随着i n t e r a c t 应用的普及和w e b 技术的发展,基于w 曲的内容管理技术已经成为当前内容应用的主 流 本文对国内外内容管理技术及内容知识库技术进行研究和总结,并借鉴已有的成果, 把内容管理技术应用w e b 应用环境,提出了j 2 e e 技术体系下的内容知识库的框架结构 和实现方案。 内容管理技术发展的时间并不长,尤其在国内,应用的时间还比较短,技术还不是 特别成熟。本文首先对国内外内容管理技术的发展现状进行调查和研究,并对内容管理 技术的理论体系和参考模型进行全面的分析和阐述。在此基础上,本文探讨了常见的各 种内容管理技术的技术来源和分类,并详细剖析了各种内容知识库架构和设计方案 a s o p c m s 是基于j 2 e e 技术体系的新一代内容管理系统的实现方案。文中给出了a s o p c m s 框架结构的设计,并对系统内容知识库结构进行了细致的模块分析、方案设计。 最后,本文结合内容管理系统和当前应用开发的实际情况,对系统进行了实现,并说明 了系统开发和部署环境。 关键词内容;内容管理;内容知识库 a b s t r a c t c o n t e n tm a n a g e m e n tt e c h n o l o g yi sa l w a y sa h o t s p o ti nt h ea r e ao fc o m p u t e rr e s e a r c ha n d a p p l i c a t i o n i ti sv e r yi m p o r t a n tt os t u d yt h et e c h n o l o g yi n - d e p t h , s i n c ei t c a nc a r r yo u t c o n t e n td a t am i n i n g , p r o c e s s i n g , s h a r i n g , a n dp u b l i s h i n g w i t ht h er a p i dg r o w t ho fi n m e t u s a g ea n dd e v e l o p m e n to fw e bt e c h n o l o g y , t h ew e b - b a s e dc o n t e n tm a n a g e m e n ts e r v i c e p r o v i d ec o n d i t i o n sf o r d i s t r i b u t e dw o r k i n ga n di n t e r - e n t e r l ) r j s ec o r p o r a t i o n , a n di th a sb e 啪m e t h ec h a r a c t e r i s t i co ft h en e x t g e n e r a t i o nc o n t e n tm a n a g e m e n ts y s t e m s ( c ms ) t h em a i nt a s ko ft h ep a p e ri st oi m p l i c a t et h ec o n t e n tm a n a g e m e n tt e c h n o l o g yi nt h ew e b e n v i r o n m e n ta n db r i n gf o r w a r dt h ec o n t e n tr e p o s i t o r ym o d e lb a s e do nj 2 e e a r c h i t e c t u r e c o n t e n tm a n a g e m e n tt e c h n o l o g yh a sn o tb e e nd e v e l o p e dal o n gt i m e , e s p e c i a l l yt h e d o m e s t i ct e c h n o l o g ys t i l lw a sn o tw e l l r o u n d e df o rt h el i t t l ea p p l i c a t i o n i nt h i sp a p e r , w cf i r s t c a r r yo nac o m p r e h e n s i v ea n a l y s i st oc m s t h e n , w ei n t r o d u c et h eo r i g ma n dc l a s s i f i c a t i o n o fc o m m o nc o n t e n tm a n a g e m e n tt e c h n o l o g y , a n da n a l y s i ss o m ek i n do fc o n t e n tr e p o s i t o r y m o d e la n dd e s i g n i n g a f t e rt h a t ,w eb r i n gf o r w a r dt h ea s o pc m sm o d e lt h a ti s 盎n e w g e n e r a t i o nc o n t e n tm a n a g e m e n ts y s t e m t h ep a p e ra n a l y s i st h es y s t e mm o d e l a n dc a r r yo u tn d e s i g n i n gd e t a i l e d a tl a s t , w ci m p l e m e n tt h es y s t e ma n di n t x o d u c et h ed e v e l o p i n ga n dd e p l o y e n v i r o n m e n tb a s e dt h ea p p l i c a t i o nd e v e l o p i n ga c t u a l i t y k e y w o r d sc o n t e n t :c o n t e n tm a n a g e m e n t :c o n t e n tr e p o s i t o r y m 本人声明 本人郑重声明;所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得 的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或 撰写过的科研成果。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律责任由本人承担。 论文作者签名:丁立鱼 日期:堡耸3 殳 i 关于学位论文使用授权的声明 本人完全了解中国航天第二研究院有关保留、使用学位论文的规定,同意中国航天 第二研究院保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅;本人授权中国航天第二研究院可以将本学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印,缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:= _ 埠导师签名:婚日期:兰掣 i j 北京信息控制研究所工学硕士学位论丈 i i 课题来源及研究意义 i i i 课题来源 第1 章绪论 本课题来源于航天四创软件公司对c m $ 系统的理论预备研究,通过对内容知识库 体系结构和应用的研究,把握内容管理领域新的发展方向以期为未来内容管理系统提 供可靠的内容数据管理方式。 i i 2 研究意义 随着世界各国信息化进程的不断推进,对于信息资源的发掘和利用已经成为当前应 用发展的重点方向。一个企业或者组织内部,每天产生的各种类型的文档可能数以万计, 如何把众多的人力物力从庞杂的文档管理中解脱出来,并达到对信息的有效挖掘和利 用,成为摆在企业信息服务中的核心问题。在整个互联网应用环境下,犹如火山爆发般 产生的超大量信息,如果不能很好的管理利用起来,人们花在检索、整理上的时间和精 力就会造成极大的浪费。有效地把信息管理起来,使之真正成为企业增值链中的一环, 内容管理的概念就是为了解决这个问题而出现的i l l 。 传统的关系数据库已经能够完成对结构化数据的有效管理。经过数十年的发展,数 据库理论已经非常成熟完善,各种数据库管理软件和工具功能已经足够强大。但是在应 用中我们可以深刻的体会到,结构化数据仅仅只占应用中涉及到的数据很少的一部分。 大部分数据,例如文档、图片、音乐、视频、软件、w e b 页面等等,都是属于非结构化 数据,传统手段已经无法有效管理这些数据。而内容管理的目的就是来有效管理这些非 结构化数据,不论数据是何种类型,内容管理系统都能把它们统一管理起来,并为应用 提供统一的接口。 作为内容管理系统的底层架构,内容知识库( 也称信息资源库) 扮演类似数据库管理 系统的角色。内容知识库是文件系统、传统数据库等和应用之间的中间层。应用通过内 北京信息控制研究所工学硕士学位论文 容知识库来访问内容数据。 当前的内容知识库体系结构还没有成熟,在大部分内容管理系统中,内容知识库并 不是一个独立而完整的模块。大部分系统仍然采用传统数据库和文件系统结合的方式, 系统耦合性差,功能已经不能满足需要。内容知识库正是当前发展迅速的内容管理领域 内最为重要的一个技术架构,对内容管理技术的未来发展起着最为基础和决定性的作 用。在这种状况下,无论是在理论上还是在应用上,对于新的独立而完整的内容知识库 体系结构的研究对于未来内容管理技术的发展都是具有重要意义的。 1 2 国内外研究现状及发展状态 内容管理系统已经成为当前w e b 应用的主流产品,内容管理产品的市场扩展非常 迅速。当前大部分著名的门户网站,诸如新浪、搜狐等i c p ,都采用了内容管理技术来 处理大量的信息更新。而且大多数企业和政府机关已经开始意识到内容管理的重要意 义,并积极开始引入内容管理产品来提升和完善组织内部的信息挖掘、处理、共享、发 布等,以达到真正利用信息,通过信息产生增值的目的。 内容管理市场上国内外已经拥有大批厂商和成熟的产品。 一类是o r a c l e 、r a m ( 拥有d b 2 数据库) 、m i c r o s o f t ( 番l j 有s q ls e r v e r 系列) 等有数据 库技术背景的公司,提供的产品是通用的平台解决方案。它们通过自己深厚的数据库技 术,在内容数据的底层管理上拥有强大的竞争力。如m mc o n t e n tm a n a g e r ,m i c r o s o f t c o n t e n tm a n a g e m e n ts e r v e r 等t 一类是单纯的应用开发商,如国外的i n t e r w o v e n ,b r o a d v i s i o n ,o p e n m a r k e t ,a t g , a l l a i r e ,d o c u m e n t u m ,h u m m m g b k d 等,国内的t r s 等。这些开发商在需求的满足和 使用性上下功夫,专业性强,是内容管理软件的主要厂商。 国内的厂商在数据库技术上实力较弱,竞争力不容乐观。但是胜在对中文支持比较 好,需求满足比较到位。但是未来只有在中文处理和检索技术上有所突破,掌握数据库 技术才可能拥有核心竞争力。值得一提的就是国内的t r s 公司,在中文检索方面有自 己的核心技术,因而具有了强大竞争力。 对于内容管理,业界还没有一个统一的定义,不同的机构有不同的理解; 2 北京信息控制研究所工学硕士拳住论文 g a r t n c r g r o u p 认为内容管理从内涵上应该包括企业内部内容管理、w e b 内容管理、 电子商务交易内容管理和企业外部网( e x t m e o 信息共享内容管理( 如c r m 和s c m 等) , w e b 内容管理是当前的重点,e - b u s i n e s s 和x m l 是推动内容管理发展的源动力。 m e r r i l l l y n c h 的分析师认为:内容管理侧重于企业员工、企业用户、合作伙伴和供 应商方便获得非结构化信息的处理过程。内容管理的目的是把非结构化信息出版到 i n t r a n e t s , e x t r a n e t s 和i t e ( i n t e r n e tt r a d i n g e x c h a n g e s ) , 从而使用户可以检索、使用、分 析和共享。商业智能系统0 3 i ) 侧重于结构化数据的价值提取,而内容管理则侧重于企业 内部和外部非结构化资源的战略价值提取。 g i g ag r o u p 认为:作为电子商务引擎,内容管理解决方案必须和电子商务服务器紧 密集成,从而形成内容生产( p r o d u c t i o n ) 、传递( d e l i v e r y ) 以及电子商务端到端系统。 y a n k e eg r o u p 认为:内容价值链包括内容供应商( c o n t e n tp r o v i d e r s ) 、服务提供商 ( s c i c ep r o v i d e r s ) 和内容消费者( c o n t e n tc o n s u m e r s ) , 因此内容管理解决方案必须提供从 创建、出版、传递、个性化等全套功能。 t r s 认为,内容管理不是某种单独的创新技术,而是许多先进技术的综合应用,它 涵盖企业内联网( i n t r a n e 国、因特网( i n t e r n e t ) 和企业外联网( e x t r a n e t s ) 应用,大大突破了 传统信息流管理软件、办公自动化软件以及文档管理软件的应用范围、使用效果和商业 价值。内容管理解决方案重点解决各种非结构化或半结构化的数字资源的采集、管理、 利用、传递和增值,势能有机集成到结构化数据的商业智能( b d 环境中,如e r p 、c r m 等。电子商务和x m l 是内容管理市场发展的源动力,内容管理解决方案的终极目标是 实现内容价值链的最优化。 内容知识库理论本身是来自于非结构化数据管理理论的,而对于非结构化数据管理 上分为两个方向因为当前结构化数据管理技术十分成熟和完善,一种方向倾向于在现 有成熟系统的基础上进行扩展,而另一种方向倾向于建立一套全新的理论和应用架构。 前一种方向有效利用当前成熟的、经过检验的技术,而不是贸然使用所谓的新技术。 这也是应用中首先要考虑的问题。当前著名的关系数据库产品,已经及早注意到当前应 用中非结构化数据的广泛应用。例如o r a c l e ,s q l s e r v e r 等大部分著名关系数据库产品 都已经支持各种二进制文件,超长文本等内置数据类型,来实现对于非结构化数据的管 理。基于这种方向之上的知识库模型,其实就是在关系数据库之上建立了一个中间层, 3 北京信息控制研究所工学硕士学位论文 充分发掘利用关系数据库的数据管理能力,来完成对非结构化数据的抽象管理。或者把 数据库和文件系统结合起来,通过数据库管理文件系统中的文档信息,以期达到对内容 数据的管理。上述方法的缺点也是比较明显的,关系数据库并不是为管理非结构化的内 容数据建立的,管理能力还比较欠缺特别是在对非结构化数据的版本管理和检索等高 级应用上,还有很多技术难题。 后一种方向主要体现在理论上,国外在非机构化数据相关方面的研究和应用进行的 比较早而深入理论上,1 9 9 7 年只b u n e m a n 等人发表的( a d d i n g s t r u c t u r et ou n s t r u c t u r e d d a t a 等一系列相关论文,详细讨论和描述了非结构化数据管理模型,并定义了模型采 用的检索语言1 2 3 。应用上,创立于1 9 8 9 年的著名生物数据库a c e d b ,就是采用了树形 数据结构管理线虫的基因数据,并采用了类似s o l 语言的查询语言斯坦福大学目前 也在同时进行几个非结构化数据库的研究项目,如t s i m m l s 等。但是与关系数据库相 比,这些理论和应用还远未具备相应的应用深度和广度。 1 9 9 8 年m i c r o s o f t 公司的p h i l i p 八b e m s t e i n 发表了( r e p o s i t o r i e sa n do b j e c to r i e n t e d d a t a b a s e s ,对内容知识库的结构、功能和特性作了详细说明并给出了应用模型。作为 内容知识库本身而言,无论基于哪种理论,或者采用那一种技术来实现,本身应该具备 的功能特征都是有严格要求的。其后的内容管理系统相关书籍都把内容知识库作为系统 的一个单独模块,无论这个模块内部的结构如何,基本的功能都是为了完成对于内容数 据的有效管理,类似于传统应用中d b m s 的角色。2 0 0 5 年5 月,j c p 通过了j s r1 7 0 规范,试图建立起一个j a v a 应用范围内的内容知识库标准。该标准从模型构建上来讲已 经比较成熟完善,虽然推出的时间不久,没有太多相关的应用。但是可以想象类似标准 对未来内容管理技术的发展将起到深远的影响。 内容管理系统的出现和建立是面向应用,以功能为导向的。所以内容管理系统一直 以来是作为一个技术体系而不是理论体系来发展的。虽然也出现过相关的模型讨论,但 是随着市场和应用的深入发展,建立一个理论完备的模型是十分必要的。 1 3 论文组织 本论文共分五章。 4 北京信息控制研究所工学硕士学位论文 鲁薯葛置_ _ _ | 舅舅曹- 蛋_ 奠鼍_ 鼻量_ 蕾_ 薯_ 置皇目_ 舅_ 量_ 量_ _ 量i i 第一章讲述了课题来源及意义和国内外发展动态。 第二章,主要介绍了内容管理系统开发的相关技术 第三章,先分析了内容管理系统的系统结构,引出内容知识库的概念。然后通过对 内容数据的介绍,引入对结构化数据和非结构化数据的特点分析,阐述了非结构化数据 管理的概念。通过对内容知识库的研究,提出基于内容知识库的系统平台的实现目标。 第四章,详述了系统总体设计与实现。根据前面分析和选择的技术路线,对系统进 行总体设计与实现。并介绍了开发平台,运行环境和测试平台。 最后是结论部分,对本文的工作进行总结,并指出工作中需要完善和进一步发展的 地方。 1 4 小结 本章侧重介绍了内容管理技术当前发展的现状和意义。国内外信息化建设的实践也 证明了信息化资源建设在整个信息化建设中具有基础性的作用。但是当前这个问题一直 没有得到很好的解决,信息孤岛的问题还比较严重。内容知识库的概念就是要解决如何 把当前信息开发和挖掘中面对的多种多样的信息整合起来的问题,从而提出一个较好的 解决方案。通过对内容知识库的研究和应用,不仅仅能够解决实际项目中的资源整合共 享,开发、挖掘和利用,还能为今后相关研究铺平研究道路。 本文的目的致力于对内容知识库的研究,结合当前企业信息化建设的现实,在j 2 e e 体系下提出基于内容知识库的内容管理系统的设计和实现方案。作为内容管理一个应 用,为企业信息资源的挖掘和整合利用、解决信息孤岛问题提供可实旋的例予 北京信息控制研究所工学硕士学位论文 第2 章内容管理相关技术 2 1 简介 从内容管理系统的组成及功能,可以看出内容管理应用范围主要有以下几个方向: 对信息,特别是非结构化信息的管理。内容管理主要是应用在企业的信息管理上,而 企业的信息主要是非结构化信息,如文档、报表、网页、音频、视频多媒体信息等。这 就要求内容管理系统不但能够对结构化的数据进行全面地访问、管理、分析和共享,同 时对非结构化的数据也要能够实现同样的管理功能x m l 技术在这里就扮演了很重要 的角色,它作为一个可扩展,可自定义的标准,非常适合在不同的环境下作为非结构化 数据与系统之间的一个中介的角色,帮助内容管理系统实现对非结构化数据的管理。当 然,传统关系数据库也起着不可或缺的作用,它依然能够有效地提供数据管理服务的功 能。 和业务应用的结合。因为内容管理最终还是要服务于具体的业务过程这很大程度 上是一个系统和应用的集成问题,它需要消除应用( 如e r p ,s c m ,c r m 等) 之间妨碍 内容应用的界限。c m 的核心价值是构造一个开放的内容基础设施,易于和企业管理应 用,如e r p ,c r m 等集成,实现内部网、i n t e m e t 和企业网之间内容的统一、灵活的管 理和使用。内容管理解决方案必须和电子商务服务器紧密集成,从而形成内容生产 ( p r o d u c t i o n ) 、传递( v e l i v e r y ) 以及电子商务端到端系统。要做到这一点,内容管理系统从 设计,实现上就必须与企业已有的电子商务系统兼容。目前j 2 e e 是电子商务的主流技 术,具有完善的架构,良好的可扩展性及系统兼容性,是大多数企业电子商务系统实现 的首选。因此选择使用j 2 e e 架构就是内容管理系统最好的选择,而且使用j 2 e e 还可以 为内容管理系统带来许多开发上的便利。 实现完整的价值链,内容价值链包括内容供应商( c o n t e n tp r o v i d e r s ) 、服务提供商 ( s e r v i c ep r o v i d e r s ) 和内容消费者( c o n t e n tc o n s u m e r s ) ,因此内容管理解决方案必须提供 从创建、检索发布,传递,个性化等全套功能。在实现检索功能上,非结构化数据检 索技术( 如图像检索技术) 是实现的关键。而在实现内容的发布以及传递功能上,x m l 作 为一个公开的标准,实现了数据与显示的分离,同时保留了数据的结构信息,配合x s l , 6 北京信息控制研究所工学硕士学o - e 文 能够很好的支持各种内容发布的需求,而配合d t d 和s c h e m a ,又能使得企业间内容的 共享、系统问数据的传递成为现实。个性化功能的关键是对用户行为进行数据挖掘,因 此数据挖掘技术的发展也会影响内容管理系统的实现。最后,内容管理还强调对电子商 务流程的管理,所以研究流程控制的工作流技术的研究也越来越受到人们的重视。 从对内容管理应用的分析,可以看出电子商务是推动内容管理市场发展的源动力, 而关系数据库、x m l 、j 2 e e 、内容检索、数据挖掘、工作流等技术都在内容管理中有 十分重要的地位。下面就对相关技术进行简要的介绍。 2 2 关系数据库技术 关系数据库理论出现于6 0 年代末到7 0 年代初。1 9 7 0 年,l b m 的研究员e e c o d d 博士发表大型共享数据库数据的关系模型一文提出了关系模型的概念,以及后来陆 续发表多篇文章,奠定了关系数据库的基础1 3 】。关系数据库是目前各类数据库中最重要、 最流行的数据库,也是目i ;i f 使用最广泛的数据库系统。2 0 世纪7 0 年代以后开发的数据 库管理系统产品几乎都是基于关系的。在数据库发展的历史上,到目前为止最重要的成 就就是关系模型【4 j 。 2 3x m l 技术 2 3 1 介绍 1 9 6 9 年,i b m 公司开发了一种文档描述语言,用来解决不同系统中文档格式不同的 问题。这样,文档的显示和打印可以更少地依赖特殊的硬件,不过这样的系统需要不同 的计算机系统提供专门的软件来显示和打印文档。i b m 把自己这种标识语言称作通用标 记语言( g e n e l i z e dm a r k u pl a n g u a g e ,即g m l ) 。1 9 8 9 年,欧洲物理量子实验室( c e r n ) 的资讯专家蒂姆伯纳斯李由此创造了h t m l ,将超文本完全应用在网页上。这使人 们可以随便浏览网页的内容,并把原来技术专家之间的网络通信,普及到社会的各个角 落。这种方式也就是现在的因特网( i n t e r n e t ) _ l 使用最为普遍的“超文本”( h y p e r t e x 0 方 式。h t m l 继承了s g m l 的许多重要的特点,比如结构化、实现独立和可描述性,但 7 北京信息控制研究所工学硕士学位论文 是同时它也存在很多缺陷:比如它只能使用固定的有限的标记,而且它只侧重于对内容 的显示。随着电子商务等数据交换活动的增多,这些h t m l 存在的缺点就变的不可被 忽略。h t m l 有着致命的缺点,h t m l 的标记只有页面表现的意义,而对数据没有任何 约束,处理多媒体信息的能力很弱,扩展能力也有刚5 1 。而s g m l 相对来说又过于复杂, 最后,w 3 c 决定开发一个新的s g m l 的子集,称为x m l 。w 3 c 组织投注有关资源和 人力致力于x m l 规格的发展,在1 9 9 8 年2 月正式推出x m lr e c o m m e n d a t i o n1 0 版的 格式标准。 x m l 语言非常简单,网络传输非常方便。有统一的标准,但不会因为标准而把语言 限制的死板僵化。x m l 本身还有很强的扩展性,因为它不像h t m l 那样是一个标记语 言,而是一种后设语言( m e t a - l a n g u a g e ) ,用户可以根据规则自己指定相应的标记,把x m l 扩展成自己的标记语言具有比h t m l 更强的数据连接功能,可做双向甚至多向数据 连接。可自定义文件类型,处理h t m l 无法处理的专门格式文件,如:乐谱、化学方 程式、数学公式、财务预算表、工程应用图表、v l s il a y o u t 图、向量图形文件、声音 文件和影像数据等等。现在有人已经或者正在这个领域研究,制定了相关的扩展标准。 x m l 是一个开放的工业标准,不属于任何独立公司,这使它具有了强大的生命力 和广泛的支持。它具有清晰简单的语法和无歧义的结构,容易被程序处理。使用u n i c o d e 作为标准字符集,支持当前地球上大部分的书写系统( 文字) 和符号,包括北欧古文学字 符和中国象形文字,也可以很容易地与样式表组合以及以任何用户想要的样式来创建格 式化文档1 6 1 自从x m l 出现以后,已经出现了大量基于x m l 的应用技术,包括从数据存储、传 递、到表现等技术,涉及面十分广泛深入。 2 3 2x s l x m l 本身也有缺点,在于它本身没有预定义的标记用来显示x m l 文档,从这个角 度而言表示能力有限。h t m l 任何一个标记浏览器都可以解释成一种显示形式,但是 x m l 中的标记并不能被浏览器直接理解。最初采用c s s 来描述x m l 的显示,但是c s s 有很大的局限性,于是又出现了x s l ( e x t e n s i b l es t y l e s h e e tl a n g l l a g c ) 语言专门用来描述 8 北京信息控制研究所工学硕士掌位论文 x m l 在浏览器中的显示x s l 也是架构在x m l 语言之上的一个应用,包括: x s l t ,t 代表t r a n s f o r m a t i o n 。x s l t 就是一种用来将x m l 文档转换成其他类 型文档或其它x m l 文档的语言 x p a t h 是一种定义x m l 部分或模式的语言。用它来对x m l 文档的部分进行寻 址。设计x p a t h 是要让x s l t 使用的。 当前的x m l 显示,一般都是用x s l t 把x m l 转换为h t m l ,然后在浏览器显示的 办法。x s l t 通过专门的软件,称作x s l p r o c e s s o r ,对源树( s o u r c et r 1 即转换前的x m l 文件结构进行分析转换为结果树( r e s u l tt r c 曲。 x s l 处理器启动的时候,会先让x m l 解析器解析x s l 文件以及要转换的x m l 文 件,然后根据x s l 文件中的命令指示,在源树上进行遍历。在转换的过程中,x s l t 用 x p a t h 来定义源文档中与一个或多个预先确定的模板相匹配的部分。当找到了一个匹配 的叶节点时,x s l t 则按x s l t 中的设定,将源文档中的匹配部分转换成结果文档,生 j 成新的枝叶;而源文档中不与任何一个模板匹配的部分保持不变,如此重复直到整棵源 树都处理完毕为止,而处理器所生成的就是一个新的结果树,最后把结桑树保存或显示 出来。 x p a t h 是在1 9 9 9 年1 1 月1 6 日和x s l t 一起成为正式标准的。x p a t h 是用作x s l t 和x p o i n t c r 的对x m l 文档各部分进行定位的语言。它给x s l t 和x p o i n t e r ( x m l 文件 内部链接语言_ l 考黾供一个共同、整合的定位语法,用来定位x m l 文件中各个部位。x p a t h 除了提供一套定位语法之外,还包括一些函数,它们提供基本的数字运算、布尔运算和 字符串处理功能。x p a t h 使用一个紧凑的、非x m l 的语法来方便实现x p a t h 在x m l 属性值中的使用,它基于x m l 文档的逻辑结构,在该结构中进行导航。除了用于定位, x p a t h 自身还有一个子集能用于进行匹配,它能验证一个节点是否匹配某个模式。x p a t h 把一个x m l 文档看成一个树或节点的模型。节点的类型可以有多种,包括元素节点、 属性节点和文本节点。 x p a t h 的基本语法由表达式构成。在计算表达式的值之后产生一个对象,这种对象 有以下四种基本类型:节点集合、布尔型、数字型和字符串型。表达式的计算依据上下 文的出现,x s l t 和x p o i n t e g 中分别规定了x p a t h 表达式将在怎样的情况下出现。这些 上下文的关系包括:节点、一对正整数( 表明位置和大小) 、一套变量绑定集合、函数库 9 北京信息控制研究所工擘硕士学位论文 以及规定表达式范围的名域声明。其中,变量绑定是从标量名称到变量值的映射。变量 的值是一个对象,可以是表达式可能得到的各种类型,也可以是其他没有规定的类型。 在函数库中,每个函数有零个或多个参数,并返回一个结果x p a t h 定义了所有支持工 具都必须实现的核心函数库。其中的函数的参数和结果都是上面涉及的四种基本类型。 当然x s l t 和m i n t e r 中还对x p a t h 的核心函数库进行了扩展,有些函数的参数和返回结 果数据类型超出了四种基本类型。 x p a t h 基本上和在文件系统中寻找文件类似,如果路径是以“广开头的,就表明该 路径表示的是一个绝对路径,这和在u n i x 系统中关于文件路径的定义是一致的。 2 3 3d t d 和s c h e m a x m l 的文件类型可分为两种:一种是规格化( w e l l - f o r m e d ) 的x m l 文件,另一种是 标准化( v a l i d ) 的x m l 文件。两者的不同就在于是否包含文件格式定义d i d ( d o c u m e n t t y p ed e f i n i t i o n ) 或者s c h e m a 。只要格式正确,就是一个w e l l f o r m e d 的x m l 文件,但 要是一个v a l i d 的x m l 文件,就必须包含d t d 或s c h e m a 验证,并通过验证。 d t d 和s c h e m a 都是用来描述x m l 结构、约束等因素的语言。它们帮助x m l 开 发人员描述在他们的x m l 文档中的结构和数据,定义x m l 文件的各项标记元件的关 系与其代表的意义。d t d 和s c h e m a 都提供给x m l 分析器关于x m l 文档结构的信息, 当x m l 分析器分析一个x m l 文档时,它能利用这些信息来判断该文档是否合法。如 果不使用d t d 和s c h e m a ,要想判断一个x m l 文档中的元素是否符合某个特定的结构 和数据类型是很困难的。 d t d 是近几年来x m l 技术领域所使用的最广泛的一种模式。作为s g m ld t d 的 一个子集,x m ld t d 具有与x m l 格式完全不同的格式。这一特性使得x m ld t d 并 不能完全满足x m l 自动化处理的要求,例如不能很好实现应用程序不同模块间的相互 协调,同时也缺乏对文档结构、属性、数据类型等约束的足够描述等等,所以w 3 c 于 2 0 0 1 年5 月正式推荐x m l s c h e m a 为x m l 的标准模式。x m l s c h e m a 事实上也是x m l 的一种应用,也就是说x m ls c h e m a 的格式与x m l 的格式是完全相同的,给x m l s c h e m a 的使用带来许多好处。 1 0 北京信息控制研究所工学硕士学位论文 s c h e m a 与d t d 相比的好处主要在于对数据类型的支持。d t d 提供的数据类型只 有c d a t a 、e n u m e r a t e d 、n m t o k e n 、n m t o k e n s 等十种置( b u i l t i n ) 数据类型。 这样少的数据类型通常无法满足文档的可理解性和数据交换的需要。x m l s c h e m a 则不 同,它内置了三十七种数据类型,如l o n g , i n t ,s h o r t ,d o u b l e 等常用的数据类型,还 支持用户自定义类型。由于s c h e m a 实际上就是x m l 的一个应用x m l 用户在使用 x m l s c h e m a 的时候,不需要为了理解x m l s c h e m a 而重新学习。许多的x m l 编辑工 具、a ll 开发包、x m l 语法分析器可以直接的应用到x m ls c h e m a ,而不需要修改 d t d 与s c h e m a 都支持对子元素节点顺序的描述,但d t d 没有提供对于无序情况的描 述,也就是如果以x m l d t d 来描述元素的无顺序出现情况,它必须采用穷举元素各种 可能出现的排列顺序的方式来实现,这种方法不仅繁琐,有时甚至是不现实的。而x m l s c h e m a 则提供了 标记来描述这种情况可以看出,s c h e m a 比d t d 具有更强的表现 力,能够更好的满足不同领域应用的需求。但需要看到,由于s c h e m a 成为正式推荐标 准的时间较晚,加之d t d 语法相对简单,所以现在大部分的研究和应用都是基于d t d 展开的。d t d 是作为x m l 标准的一部分发布的,w 3 c 似乎并没有准备将其从x m l 标 准中废除掉,因此对于d t d 的支持还将持续。当然,对于那些对数据交换或者描述能 力要求较高,( 内容管理系统就属于此类) ,d t d 已不能满足功能需求,以s c h e m a 来代 替d t d 己经成为一种必然趋势。 2 4j 2 e e 体系结构 2 4 1j 2 e e 架构 j 2 e e ( j a v a2p l a t f o r m ,e n t e r p r i s ee d i t i o n ) 是一种利用j a v a2 平台来简化诸多与企业 解决方案的开发、发布和管理相关的复杂问题的体系结构1 7 1 j 2 e e 技术的基础是j a v a2 平台的标准版,j 2 e e 不仅巩固了标准版中的许多优点,例如“编写一次、到处运行” 的特征、方便存取数据库的j d b c a p i 、异步消息控制的j m s ,c o r b a 技术以及能够在 i n t e r n e t 应用中保护数据的安全模式等等,同时还提供了对e b ( e n t e r p r i s ej a v a b e a n s ) 、 j a v a s e n l e t s a p i ,j s p ( j a v a s e r v e r p a g e s ) 以及x m l 技术的全面支持。 北京信息控制研究所工学硕士学位论文 2 - 2 2e d b 技术 作为j 2 e e 架构核心部分的f i b 技术,是专为j a v a 设计的、一种跨平台的,在服务 器端运行的组件技术f i b 规范现在已经成为工业标准,最近已经发展到了3 0 版本 8 1 。 e j b 将j a v a b c a n 概念扩展到j a v a 服务器端组件体现结构。这个模型支持多层的分布式 对象应用,并使开发人员能够把精力集中在业务逻辑上,它的优点有; 组件的可移植性。f _ , j b 体系结构提供了一个简单而优质的服务器端组件容器模 型。此模型使得j a v a 平台服务器组件一旦被开发,可以在任何供应商的容器系 统中发布。即使容器系统以不同的方式实现它们运行时的服务,f i b 接口也能 保证f i b 组件能够依赖低层系统来提供一致的生命周期、持久性、事务处理、 分布处理以及安全服务。 f i b 体系结构的独立性。f i b 体系结构完全独立于任何特定的平台、协议和中 间件的基础设施。在一个平台上开发的应用程序可被移植到另一个平台上。f i b 应用程序可以不需要任何修改的从一个小的单处理器,如基于i n t e l 的n o v e l l 环 境,扩展到一个大的多处理器,如u l t r a s p a r c 环境或者i b m 的大型机环境中 开发者的高生产率。f i b 组件体系结构提高了应用程序开发者的生产率。f i b 环境自动的使用复杂的基础设施服务,如事务处理、线程管理和安全检查。组 件和应用程序开发者不需要在应用编程中实现这些复杂的功能,从而简化了开 发工作。 高度的可定制性。e i b 应用程序是高度可定制的。内在的组件模型支持定制而 不需要存取源代码。应用程序的行为和运行时的设置是通过一组在发布时可以 被改变的属性来定义的。 多功能和伸缩性。e j b 模型是基于一个多功能和强大的依赖于工业标准协议的 多层分布式对象体系结构之上。这个模型对小规模应用程序或大规模事务处理 都很合适。随着应用需求的增长,应用程序能够迁移到先进的、 操作功能强大的环境中,而此环境本身就支持基于w e b 的应用和其他i n t c r n e t 使能的客户端设备。更多的客户端应用系统可以随时加入进来,而无需改变应 用程序的核心部分。f i b 技术提供了一个随着工业发展而不断成长的随时支持 1 2 北京信息控制研究所工学硕士学位论文 新技术的环境。 组件的可重用性。f _ j b 组件是组件供应商根据客户的需要,开发的业务逻辑功 能模块。如果模块的功能定义良好,则组件供应商开发的组件可以应用到相同 领域的不同的客户身上。这样就避免了需要为每一个客户定制组件的需要,降 低了组件的开发成本 2 5 小结 本章简单介绍了内容管理涉及的相关技术,数据库技术、x m l 技术以及j 2 e e 技术 体系。这些都是当前应用系统普遍采用的通用技术,能够最大限度保证系统的适用性。 数据库技术是当前大部分应用开发的核心结构,无论是效率还是可靠性都是经过工业级 应用检验过的。x m l 是当今发展最快的技术,以极快的速度渗入到应用开发的各个领 域,从数据存储到数据交换,都已经出现了基于x m l 的技术。j 2 e e 技术是应用开发的 有力工具,保证了应用的跨平台性和通用性。这些技术都是进行内容管理系统实现必不 可少的技术,对于整个架构的设计和实现具有重要的意义。 北京信息控制研究所工学硕士学位论文 第3 章内容知识库技术 3 1 内容管理技术 3 1 1 简介 当今世界上,各个国家都把信息化作为提高国家竞争力、转变经济增长方式的一个 重要手段来重视和建设。有人甚至把这次信息化称之为“第二次信息革命”。这次信息 化建设是以高速、多媒体信息为特征的,将对经济、军事等人类生产和生活的各个领域 产生深远的影响,信息化建设的成败已经直接对国家间的竞争产生重要影响。随着互联 网设备和计算机硬件的不断升级和发展,网络带宽不断增加,可靠性不断提高,计算机 的处理能力不断增强。信息的生产和传输不再是单纯追求目标,信息的发掘和管理日益 成为更加急迫的问题。对于信息处理的侧重点开始从数量向质量转变【叽。 我国早在9 0 年代中期就提出了建设“国家信息化体系”,强调了“信息资源的开发 和利用”在体系中的核心地位和重要意义。国家信息化工作领导小组在2 0 0 4 年审议并 通过了关于加强信息资源开发利用工作的若干意见,并于2 0 0 4 年1 2 月1 2 日以“中 发办【2 0 0 4 】3 4 号”的形式下发,信息资源的开发和利用在我国已经被提到前所未有的 战略高度。 在这种潮流的推动下,内容管理的概念应运而生。内容管理就是要将不同类型的数 字内容全部以数字化的方式妥善保存起来,并利用足够的信息、高效的查询手段对所保 存的数字资产进行查询和检索,用智能分析技术对其进行数据挖掘,最终使得这些数字 内容能够得到最充分的利用,价值不断地提升,提高企业在信息时代的竞争力 当前内容管理技术研究的重点有以下几个技术: 文字处理技术。主要研究跨媒体出版需求下的文字处理技术,包括各种格式文 本如w o r d 、p d f 、r t f 、p s 、s 2 格式文件向x m l 转化,以及x m l 文件的 w e b 表现及出版技术。 图形图象处理技术。主要研究包括图像数字版权保护技术、图象压缩技术、图 像w e b 浏览技术和图片内容检索技术

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论