(计算机应用技术专业论文)基于xml的web数据管理技术在企业级的研究与应用.pdf_第1页
(计算机应用技术专业论文)基于xml的web数据管理技术在企业级的研究与应用.pdf_第2页
(计算机应用技术专业论文)基于xml的web数据管理技术在企业级的研究与应用.pdf_第3页
(计算机应用技术专业论文)基于xml的web数据管理技术在企业级的研究与应用.pdf_第4页
(计算机应用技术专业论文)基于xml的web数据管理技术在企业级的研究与应用.pdf_第5页
已阅读5页,还剩78页未读 继续免费阅读

(计算机应用技术专业论文)基于xml的web数据管理技术在企业级的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 ii 摘要 作为互联网联盟w 3 c 提出的下一代w e b 发布语言,x m l 是一种界定数据 的简便而标准的方法,它的数据描述机制意味着它将成为一种共享信息的强大途 径。其开放性、自描述性和标准性特征使它可以在不同系统或模块之间共享数据。 因此发展迅速,已被公认为网络革命的中心。 企业级e r p 作为管理企业资源配置、物料流通、计划收益的重要工具需要 具有实时、快捷、安全、稳定等特点。目前,企业级e r p 在安全性、稳定性、 可兼容性等方面已经十分成熟完善。但是,随着越来越快速的信息更新速度和越 来越简捷的商品交易过程,庞大的企业级e r p 系统显得力不从心。这就需要一 些新的外围的轻量级的应用来解决,而x m l 正是一系列解决方案中的最佳选择。 本论文提出了x m l 文件数据库存储的概念和原型。详细地阐述了涉及x m l 管理w e b 数据的各种关键技术,从总体上对利用x m l 存储和转换的过程加以分 析和描述。详细地说明了企业级e r p 系统中存在的问题和新的需求,并以这些 问题和需求为入口点,进一步分析了使用x m l 文件数据库存储的诸多优势,并 设计了基于x m l 文件的存储、转换模式,建立了x m l 和关系数据库之间传递 数据的有效渠道。本课题在结合笔者参与的“天雄e r p 系统”的实际项目中得 到了很好的体现,设计并开发出x m l 文件数据库实例,可以进行各种实时数据 操作,并可与关系数据库进行数据导入,完善了企业e r p 系统,并为其他基于 x m l 的w e b 数据管理系统提供了参考。 关键词x m l ;半结构化数据;x m l 数据库;e r p a b s t r a c t a st h en e wg e n e r a t i o no fw e bl a n g u a g ep r e s e n t e db yi n t e r n e t a l l i a n c ew 3 c , x m li sas i m p l ea n dc o n v e n i e n tw a yt od e 国l ed a t a i t sd a t ad e s c r i b i n gs y s t e mw i l l m a k ei t p o w e r f u lm e a n so fi n f o r m a t i o ns h a r i n g i t s f e a t u r e si n c l u d i n go p e n i n g , s e l f - d e s c r i p t i o na n ds t a n d a r d w i l le n a b l ei tt os h a r ed a t aa m o n gd i f f e r e n ts y s t e m sa n d m o d u l e s t h e r e f o r ei tc a nd e v e l o pr a p i d l ya n di th a sb e e nr e c o g n i z e dt h ec e n t e ro f i n t e r a c tr e v o l u t i o n e r pa te n t e r p r i s el e v e l ,a st h ei m p o r t a n tt o o lt om a n a g er e s o u r c ed i s t r i b u t i o n , l o g i s t i cf l o wa n dp l a n n e db e n e f i t ,n e e dt oh a v ef e a t u r e so f i n - t i m e ,p r o m p t n e s s ,s a f e t y a n ds t a b l e n e s s c u r r e n t l ye r pa te n t e r p r i s el e v e lh a sb e c o m eq u i t em u t u a li ns a f e t y , s t a b l e n e s sa n dc o m p a t i b l e n e s s b u tf a c i n gw i t ht h ee v e rg r o w i n gs p e e do f i n f o r m a t i o n u p d a t ea n d c o n v e n i e n tc o m m o d i t yt r a d e ,h u g ee n t e r p r i s el e v e le r pc a nn o th a n d l et h e s i t u a t i o n s ow en e e dan e wa n ds i m p l i f i e ds o l u t i o n x m li st h eb e s tc h o i c ea m o n ga s e r i e so f s o l u t i o n s t h i sp a p e rp r e s e n t st h ed e f i n i t i o na n dp r o t o t y p eo fx m ld a t a b a s e t h ea u t h o r e x p l a i na l lk i n d so fk e yt e c h n o l o g yc d a c e r n i n gh o wx m lm a n a g e dd a t aa n dg i v ea c o m p r e h e n s i v ea n a l y s i so nh o w t ou s e x m lt os t o r ea n dt r a n s f e rd a t a t h ea u t h o ra l s o m e n t i o np r o b l e m si na n dn e wd e m a n df o re n t e r p r i s el e v e le r et om a k eac o n t r a s t , a u t h o rf u r t h e ra n a l y z et h ea d v a n t a g e so fx m l t h ea u t h o rd e s i g ns t o r i n ga n dt r a n s f e r m o d e lb a s e do nx m la n de s t a b l i s he f f e c t i v ec h a n n e l sb e t w e e nx m la n dr e l a t i o nd a t a b a s e t h i ss u b j e c th a sb e e nw e l lr e a l i z e di nt h e t i a n x l o n ge r ps y s t e m p r o g r a m t h ea u t h o rp a r t i c i p a t e d i nt h a tp r o g r a m ,x m ld a t a b a s ew a sd e v e l o p e dw h i c hc a n r e a l i z ei n - t i m ed a t ao p e r a t i o n t h i sg r e a t l yi m p r o v e de r ps y s t e ma n dp r o v i d e d r e f e r e n c ef o ro t h e rw e bd a t am a n a g e m e n ts y s t e mb a s e do nx m l k e yw o r d sx m l ,s e m i s t r u c t u r e dd a t a ,x n i ld a t a b a s e ,e r p - 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人己经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:至盎日期:巡:印 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名: i 垂叠 导师签名:曰期:谢、r 印 第1 章绪论 1 1 引言 第1 章绪论 i n t e r n e t 改变了世界。在i n t e m e t 迅速发展的2 0 年中,人们的生活和工作 等各个方面都不知不觉地发生着巨大的变化。如今,i n t e m e t 已经无处不在了, 这其中w w w ( w o r l dw i d ew e b ) 起了决定性的作用。w w w 的迅速发展使其成 为全球信息传递与共享日益重要和最具潜力的资源,它作为一种新的环境资源, 为新技术的产生开辟了新的领域,同时也为传统技术( 如数据库、知识库、模式 识别、人工智能等) 的研究提出了新的方向。随着需求的发展,w e b 的功能不再 停留在原有的静态数据获取上,而是朝着更高级、更智能的w e b 服务发展。简 单地说,w e b 服务能够对数据进行动态搜索、采集和整理,为人们提供真正需要 的信息。人们通过它可以得到个性化服务,方便地查找资料、购买产品,公司也 可以通过它定购原材料、获取订单、出售商品。因此如何有效地管理w w w 上 的大量信息,以满足用户不断增长的信息需求,是当前面临的新课题。 由于i n t e m e t 的发展,网上数据不断激增,对网上信息的应用需求也不断提 高,原有的对文本文件的链接浏览和关键词检索已无法满足一些复杂的应用需 求。近年来,大量的研究致力于将数据库技术应用于网上数据的管理和查询,使 查询可以在更细的粒度上进行,并集成多个数据源的数据。但是,将传统数据库 技术直接应用于网上数据的最大困难在于,网上数据缺乏统一的、固定的模式, 数据往往是不规则且经常变动的。因此,半结构化数据模型应运而生,其无模式 及自描述的特点适宜于描述网上数据。事实上,日益普及的x m l 数据就是一种 自描述的半结构化数据,它的出现推动了w w w 在电子商务、电子数据交换和 电子图书馆等多方面的应用。但对于如何有效地存储管理和查询这类数据,目前 却莫衷一是,已有的数据库技术,如关系数据库、面向对象数据库,都不能完全 适应于新的应用需求,而专用的半结构化数据管理系统目前仍处于初步实验阶 段。 可以预言,x m l 将成为数据组织和交换事实上的标准,大量的x m l 数据 将很快出现在w e b 上。实质上,x m l 为w e b 的数据管理提供了新的数据模型, 北京工业大学工学硕士学位论文 很多成熟的数据库技术将进入w e b 信息处理领域,将其变为一个巨大的数据库。 x m l 是朝这个方向迈出的第一步。这种变化给数据库研究界带来了巨大的机会, 使将数据库技术的研究扩展到对w e b 数据的管理成为可能。目前,对x m l 数据 的存储和查询的研究正方兴未艾。x m l 数据模型与半结构化数据模型有着很多 的相似性,可以说,x m l 是w w w 上的半结构化数据,它既为半结构化数据的 研究展示了广阔的应用前景,同时也推动了半结构化数据研究的发展。 1 。2 国内外研究综述 1 2 1 国外研究应用现状 x m l 可以将i n t e m e t 转变为个基于知识仓库的全球计算平台。最终的环境 可以被看成是实现电子数据存储交换的强大基础架构。因此,包括i b m 、微软、 s u n 、o r a c l e 、b e a 在内的诸多国际顶级i t 企业、著名研究机构和国际标准化组 织无不对x m l 技术青睐有加,他们几乎在每个专业x m l 标准的制定中都有参 与。 x m l 标准发展过程 1 9 9 8 年2 月1 0 日,万维网联盟( w 3 c ) 发布了x m l l 0 标准。此后, x m l 仅得到了一部分浏览器生产商和网络管理联盟的支持。其中最为人关注的 要数s u n 公司宣布开发x m l 的j a v a 扩展部件的计划及桌面管理任务组( d m t f ) 发布的x m l 编码规范,该规范作为其基于w e b 企业管理( w b e m ) 倡议的一 部分使通用信息模型( c i m ) 的数据使用x m l 。 1 9 9 8 年1 0 月,微软宣布它将在w i n d o w s 和n t e r n e te x p l o r e r5 0 中包含现 有的x m l 标准。 。n e t s e a p e 公司在1 9 9 9 年7 月发行的n e t s c a p en a v i g a t o r5 0 版的核心引擎 g e c k o ,据说也全面支持c s s 和x m l 文档。 1 9 9 9 年7 月,n o v e l l 宣布向n d s 增加支持x m l 的计划,同时b o w s t r e e t s o f t w a r e 在基于x m l 和l d a p 的标记语言之上开发出的d i r e c t o r ys e r v i c e m a r k u pl a n g u a g e ( d s m l ,目录服务标记语言) 得到了业界的广泛支持。 之后全球最大的电子商务供应商o r a c l e 公司也宣布将加大x 寸x m l 的支持 第1 章绪论 力度,着手开发从j a v a 到x m l 过渡的产品,并发布了支持x m l 的o r a c l e 开发 工具最新版本j d e v e l o p e r3 1 和o r a c l e 开发工具包( o r a c l e x m l d e v e l o p e r k i t ) 。 世界各大巨头纷纷在x m l 标准基础上开发出了一系列技术规范,如 微软的b i z t a l k 框架、i b m 的t p a m l 、c o m m e r c e o n e 的x c b l 2 0 等,所以有可 能会引起x m l 应用中的混乱,甚至会阻碍x m l 的进一步发展。为了解决标准 化的问题,x m l 相关标准化团体o a s i s 在2 0 0 2 年1 月份成立了技术委员会。 这技术委员会可以说强者云集,m m 、惠普、o r a c l e 、s u n 、n o v d l 、s a p 等知 名厂商均是该委员会的成员。该技术委员会的成立,将有助于避免可能发生的无 序竞争和标准混乱,促进了x m l 的标准化进程。 x m l 应用现状 虽然x m l 的某些技术标准尚有争议,但是人们已经普遍认识到x m l 的巨 大作用和潜力,并将x m l 应用到互联网的各个领域。目前,国外x m l 的应用 如火如茶,传统应用有以下方面: 应用于不同数据源进行数据交换,代替传统的e d i ( 电子数据交换) 。 应用于大量运算负荷分布在客户端,即用户可以根据自己的需求选择和 制作不同的应用程序以处理数据,而服务器只需发出同一个x m l 文件; 应用于同一数据以不同形式的表现,即用户根据不同的需求形成不同的 样式表x s l ,将同一组x m l 数据以不同的形式表现出来;可应用于网络出版。 应用于网络代理对所取得的信息进行编辑、增减以适应个人用户的需要, 形成具有个人特色的数据文件。可应用于智能代理和精确搜索。 新兴应用有以下方面: 化学标记语言c m l 和数学标记语言m a t hm l 。c m l ( c h e m i c a lm a r k u p l a n g u a g e ) 和m a t hm l ( m a t h e m a t i c a lm a r k u pl a n g u a g e ) 是x m l 的两个分支, 分别应用于描述化学和数学公式的标记语言。c m l 可描述分子与晶体结构、化 合物的光谱结构等。而m a t hm l 的出现则为数学家带来了福音。自w e b 问世以 来,数学家们第一次可以将数学公式精确地显示在浏览器上,而这个愿望的实现 主要是依靠m a t hm l 。 o s d 开放式软件描述格式。软件集合包在网上的发行一直处于试行阶段。 o s d ( o p e ns o f t w a r ed e s c r i p t i o n ) 是x m l 的组用来描述各种软件产品的标记 北京工业大学工学硕士学位论文 集,可以详细说明软件的规格、使用说明以及可运行平台等。 c d f 通道定义格式。通道定义格式c d f ( c h a n n e ld e f i n i t i o nf o r m a t ) 是 m i c r o s o f t 在m4 0 浏览器中使用的x m l 数据格式并用于描述活动通道的内容和 桌面部件,它主要用于指明经过通道的信息及其更新情况。c d f 使不同平台的 互操作成为可能,使w e b 发布者可以控制推( p u s h ) 技术。专用的推技术将不 再影响不同推技术的互操作性,这样一来从互不兼容的平台上可以获得相同的 w e b 内容。 o f x 开放式财务交换。o f x ( o p e nf i n a n c i a le x c h a n g e ) 也是x m l 的一 种标记集,专门用于描述会计事务所与客户之间的业务往来。使用o f x ,客户 与会计事务所之间可以直接交换财务数据,包括电子银行和支付协议等说明文 件。 著名i t 企业的应用支持 m i c r o s o f t 准备将其代号为“y u k o n ”的新版本s q l s e r v e r 推向企业级舞台。 y u k o n 将被作为m i c r o s o f t 的n e t 网络服务战略中的x m l 后端引擎,设计目标是 “语言无关性”。m i c r o s o f t 在不断地增加对嵌入式x m l 标准的支持,在1 0 月公 布的s q l x m l 2 0 中包含了对x s d ( x m l 计划定义) 的支持。 o r a c l e 推出了和x m l 相关的技术,称作x d b ( x m l 数据库支持) ,但目前没 有提供更深的细节。m m 则强调d b 2 和x m l 扩展件的结合,提供了与o r a c l e 的x d b 技术基本相同的功能。m m 认为,x d b 就是d b 2 加x m l 扩展件。d b 2 通过创建x m l 扩展件来管理x m l 内容。 s u n 已经宣布它正在将基于x m l 技术的标准扩展加入下一个版本的 e n t e r p r i s ej a v a b e a n s 架构,以响应客户对提高e j b 组件的适用性的要求。 1 2 2 国内研究应用现状 在国内,x m l 的应用远没有国外那样普及。由于x m l 标准是英文的,对 于国内用户来说,存在着语言障碍,因此有必要制定x m l 的中文标准。而这依 靠个别厂商和组织的力量是无法完成的,必须要有行业协会、计算机协会、各企 业联合起来共同参与才能够成功。由中国科学院软件研究所电子商务研究中心作 为第一发起人,联合中国电子信息产业发展研究院、用友、神州数码等共同创立 4 第1 章绪论 的e n x m l 联盟,现在正致力于建立符合中国企业商业习惯和管理特点的x m l 标准,并陆续吸纳更多的电子商务公司、系统集成商和软件开发商参与进来。 由于至今尚未从体系的角度全面制定出我国基于x m l 的电子商务关键技术 标准,致使在国际有关标准大量出现,而我国又无国家标准可循的情况下,使企 业无所是从,不可避免地妨碍着我国电子商务的健康发展。为此,由中国标准研 究中心牵头的“基于x m l 的电子商务关键技术标准研究”项目近日j 崾利通过国 家科技部、国家质量监督检验检疫总局和国家标准化管理委员会的审批。项目将 从标准技术体制、关键技术标准和标准的可持续发展三个角度出发,根据我国电 子商务应用和发展对标准化的总体需要,本着与国际接轨,符合国情的原则,在 充分借鉴u m c e f a c t 和o a s i s 组织制定的e b x m l 和u n c e f a c t 、 i s o t c l 5 4 、w 3 c 、i e t f 等的有关成果的基础上,汲取其标准的优点,成体系 地研究和制定我国基于x m l 的电子商务基础性、通用性和关键性技术标准。 1 2 3 此领域有待深入研究的问题 虽然x m l 发展速度很快,但毕竟x m l 技术诞生仅仅八年。因此在此领域 还存在很多需深入研究、探讨的问题: 1 半结构化数据的管理。w e b 信息基本上都是半结构化的,这些信息资源 的动态性、分布性、多元性和无序性等特点,使信息的查找和检索变得越来越困 难。对于2 l 世纪的信息用户和信息管理者来说,困扰他们的是信息过多的问题。 因此,如何对w e b 半结构化信息资源进行合理的描述,组织、序化网络信息资 源,提高信息利用率,是有待深入研究的问题 2 x m l 与数据库之间的转换。数据库是目前主要的数据存储方式,而x m l 正成为最流行的数据格式,人们很自然地希望可以将x m l 格式的文档与数据库 结合在一起使用。因此,x m l 数据与数据库之间的转换成为目前应用最有前景 且最需要深入探讨的问题。 3 x m l 文件作为数据库存储。在小型的轻量级应用中,将x m l 文件作为 数据库存储数据是非常有前途的,这是由x m l 本身易于交换、结构严谨等特点 所决定的。因此,x m l 文件数据库成为当前研究领域的另一个侧重方面。 4 x m l 数据的安全性。随着x m l 技术越来越多地被应用到网络信息传输 北京工业大学工学硕士学位论文 中,x m l 的安全性也越来越多地受到人们的关注。目前,x m l 安全性主要的相 关开发是x m l 加密和x m l 签名、可扩展访问控制语言( x a c l ) 和相关的安 全性断言标记语言等。 1 3 课题来源及主要研究内容 在流通企业e r p 系统中,企业的各种资源整合在一起,形成一个自上而 下的整体供应链系统。在此系统中企业的各种决策至关重要,而影响企业决策的 一个重要因素就是来自上层供应商、下层分销商的一系列统计、价格、采购量、 销售量等数据信息。但是,上下层商家的应用平台、数据库系统是如此之不同, 存在着各种各样的数据结构。因此,数据的管理、存储,信息的交换、共享成为 制约企业收益的瓶颈。在这种情况下,提出了w e b 数据管理的概念,即通过对 w e b 数据源的集成,将关系数据库中的数据,w w w 信息,一些半结构化数据 通过半结构化数据模型集成为一种统一的模式,然后再转化为x m l 模型,以达 到提高信息交换与管理的效率,真正实现w e b 数据的共享利用的目的。 本文以设计x m l 数据管理模型为目的,结合x m l 文件数据库实例,深入 研究和阐述了以下几个问题: 1 深入半结构化数据的管理模型,包括半结构化数据的表示、抽取、查询 及半结构化数据与x m l 数据的相似性等。 2 研究x m l 的技术特点,主要是x m l 文档结构、层次特点和解析x m l 文件。 3 深入研究x m l 数据与关系数据库之间的转换模型,尤其是x m l 数据至 关系数据库的映射模型等。 4 研究x m l 文件存储系统的特点。在总结与数据库存储的基础上,结合 x m l - - - ) 数据库映射模型给出实例。 1 4 有关本论文的信息 本论文共六章,章节组织安排如下: 第l 章主要包括w e b 数据管理介绍,对x m l 技术领域国内外研究现状加 以分析,并说明课题来源、研究内容、以及本论文的相关信息。 第1 苹绪论 第2 章介绍了x m l 相关技术,总体分析研究了x m l 技术的体系结构。 第3 章研究并提出了半结构化数据的管理模型。 第4 章介绍x m l 和数据库之间的联系,并给出了x m l - - ) 关系数据库映射 的规则和模型。 第5 章介绍x m l 文件数据库存储,从整体上把握x m l 文件存储数据的特 点。为实际应用奠定基础。 第6 章结合前面提出的x m l 与关系数据库映射机制、x m l 文件存储,给 出x m l 文件数据库的实例。 北京工业大学工学硕士学位论文 第2 章x m l 相关技术 讧l ( e x t e n s i b l e m a r k u p l a n g u a g e ) 是种可扩展的置标语言,它是由w 3 c ( w o r l d w i d e w e b c o n s o r t i u m ) 于1 9 9 8 年2 月发布的一种标准。它同样是s g m l 的一个简化子集,将s g m l 的丰富功能与h t m l 的易用性结合到w e b 的应用中, 以一种开放的、自我描述方式定义了数据结构。在描述数据内容的同时能突出对 结构的描述,从而体现出数据之间的关系。这样所组织的数据对于应用程序和用 户都是友好的、可操作的。 2 。1 煳l 的由来 x m l 有两个先驱s g m l 和h t m l ,这两个语言都是非常成功的置标语 言,但是它们都在某些方面存在着与生俱来的缺陷。x m l 正是为了解决它们的 不足而诞生的。 关于s g m l s g m l ( s t a n d a r dg e n e r m i z e dm a r k u pl a n g u a g e ) 的全称是标准通用置标语言, 最初是由m m 开发的一种用于排版的符号化语言,称为g m l 。经过若干年的发 展,1 9 8 4 年国际标准化协会( i s o ) 开始对此提案进行讨论,于1 9 8 6 年正式承 认s g m l 为国际标准规范( 1 s 0 8 8 7 9 ) 。s g m l 实际上是一种通用的文档结构描 述符号化语言,主要用来定义文献模型的逻辑和物理类结构【28 1 。一个s g m l 语 言文件由三部分组成,即语法定义、文件类型定义d t d ( d e f i n i t i o nt y p e d o c u m e n t ) 和文件实例。语法定义部分定义了文件类型定义和文件实例的语法 结构:文件类型定义部分定义了文件实例的结构和组成结构的元素类型:文件实 例是s g m l 语言程序的主体部分。 从2 0 世纪8 0 年代初开始使用,s g m l 创建了成千上万的置标语言,它为语 法置标提供了异常强大的工具,同时具有极好的扩展性,因此在分类和索引数据 中非常有用。但是s g m l 非常复杂,其复杂程度对于网络上的日常应用简直不 可思议。不仅如此,s g m l 还非常昂贵。目前比较便宜的s g m l 软件之一是a d o b e f r a m e m a k e r ,其标准版本价格为8 5 0 美元,而a d o b ef r a m e m a k e r + s g m l 是以 第2 章x m l 相关技术 1 9 9 5 美元售出的。还有关键的一点,几个主要的浏览器厂商都明确拒绝支持 s g m l ,这无疑是s g m l 在网上传播遇到的最大障碍。 关于i t t m l h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ) 超文本链接标识语言,它是从s g m l 中分离出来的最有名的应用程序,也是建构网页的描述语言,它提供了精简而有 力的文件定义,用户可以利用它来设计出多彩多姿的超媒体文件( h y p e r m e d i a d o c u m e n t ) ,通过h t t p ( h y p e rt e x tt r a n s f e rp r o t o c 0 1 ) 通讯协议,使得h t m l 文件可以在万维网( w d r l d w i d e w e b ,w w w ) 上进行跨平台的文件交换。h t m l 文件为纯文本的文件格式,可以用任何文本编辑器( 例如记事本、写字板等) 来 编辑。至于文件中的文字、字型、字体大小、段落、图片、表格及超级链接,甚 至是文件名称都是以不同意义的标记( t a g ) 描述,以此来定义文件的结构与文 件间的逻辑关联。简而言之,h t m l 是以标记来描述文件中的多媒体信息,w e b 浏览器就是依据这些标记来处理文件以及显示文件的内容。 但是由于h t m l 侧重于页面表现形式的描述,且作为s g m l 的一个实例, 其文档格式作为标准被固定下来,因此h t m l 不能定义其它符号和标识。其自 身的这些特点使它蕴藏了许多危机,随着网络的不断发展,这些危机越来越突出, 甚至已然成为h t m l 继续发展应用的障碍。 h t m l 有以下几个固有弱点: h t m l 是专门为描述主页的表现形式而设计的,是面向描述的,而非面 向对象的。它疏于对信息语义及其内部结构的描述,不能适应日益增多的信息检 索要求和存档要求。 h t m l 的标记集合是固定的,用户不能增加自己的有意义的标记。而且 各大浏览器的规格不尽相同,要使用h t m l 做的网页能够被所有浏览器正常显 示,只能够使用w 3 c 定义好了的标记来创建网页。 h t m l 对表现形式的描述能力实际上也还是非常不够的,如果希望非常 精确地表现一些自己的数据,可能需要增加在h t m l 中尚不存在的标记。因此 h t m l 无法描述矢量图形、科技符号和一些其他的特殊显示效果。 h t m l 的标记集日益臃肿,而其松散的语法要求使得文档结构混乱而缺 乏条理,导致浏览器的设计越来越复杂,降低了浏览的时间效率与空间效率。 北京工业大学工学坝士学位论文 由于s g m l 和h t m l 的种种弱点已渐渐不能适应万维网发展的需求,于是 w 3 c 的研究小组决定创建x m l 。使它既具有s g m l 的强大功能和可扩展性,同 时又具有h t m l 的简单性。x m l 去除了s g m l 中所有非核心的、未被使用的和 含义模糊的部分。x m l 的描述只有2 6 页,而当初s g m l 的描述却长达5 0 0 页 之多。尽管篇幅只是s g m l 的1 2 0 ,但s g m l 中所有的精华都被保留了下来。 这以后x m l 不断发展演化,并且从c m l 和m a t h m l 中汲取了大量的经验。 1 9 9 7 年,可扩展链接语言x l l 草案被拟定。同年,微软也开始了关于频道描述 格式c d f 的定义工作,这应该算是x m l 的第一次真正应用。最后,1 9 9 8 年2 月,w 3 c 正式批准了x m l 的1 0 版本。 2 2 为什么选择x m l 及x m l 相关标准 2 2 1 选择x m l 的理由 选择x m l 是因为它具有以下几个特殊的优点: 1 良好的可扩展性 利用x m l 制定新的置标语言非常简单易行。因为各个不同的行业可能会有 一些独特的要求,比如建筑学家需要设计图纸中的某些特殊标记,音乐家需要音 符,化学家需要化学公式中的一些特殊符号等等,这些都需要单独的标记。但是, 其他网页设计者一般不会用到也不需要这些记号。x m l 的优点就在于它允许各 个组织、个人建立适合他们需要的标记库,并且这个标记库可以迅速地投入使用。 x m l 在允许不同行业根据独特的要求制定一套自己标记的同时,并不要求 所有的浏览器都能处理成千上万个标记,同样也不要求置标语言的制定者制定出 一个非常详尽全面的语言规范从而适应各个行业领域的应用。因此,实际上这更 有助于置标语言的发展。 2 内容与形式的分离 x m l 中的标记为要表现的数据赋予了一定的含义,用这种形式存储时,数 据非常简单明晰,因为它所携带的信息不是显示上的描述,而是语义上的描述。 在x m l 中,显示样式从数据文档中分离出来,放在样式单文件中。这样, 如果需要改动信息的表现方式,无需改动信息本身,只要修改样式单文件就够了。 第2 章x m l 相关技术 如果要把列表的数据改用表格显示,则无须再去修改大量数据信息文档,因为它 们和同一个样式单文件相关联,只要改动这个样式单文件就可以了。同样,在 x m l 中数据检索也可以简单高效地进行。搜索引擎没必要再去遍历访问整个 ) a 讧l 文档,只须找一下相关标记下的内容就可以了。 x m l 是自我描述语言,因此,即便是一个预先对文档无所知的人,也可 以清晰的阅读。因为x m l 中的元素本身就描述了语义信息。此外,信息之间的 某些复杂关系,比如树状结构、继承关系等,在x m l 中也都得到了绝好的体现。 这大大方便了x m l 应用处理程序的开发。 3 便于不同系统之间信息的传输 当今的计算机世界中,不同企业、不同部门中存在着许多不同的系统。操作 系统有w i n d o w s 、u n i x 、s o l a r i s ,数据库有o r a c l e 、s y b a s e 、d b 2 等等。要想 在这些不同平台、不同数据库软件之间传输信息,不得不使用一些特殊的软件, 非常不方便。而不同的显示界面,从工作站、个人微机到手机,使这些信息的个 性化显示也变得很困难。 而有了x m l ,各种不同系统之间可以采用x m l 作为交流媒介。x m l 不但 简单易读,而且可以标注各种文字、图像甚至二进制文件,只要有x m l 处理工 具,就可以轻松地读取并利用这些数据,使得x m l 成为一种非常理想的网际语 口o 4 具有较好的保值性 x m l 作为一种文件格式,能用于保存一些需要保值的文件,如政府文件、 公文、科学研究报告等。例如本论文的写作工具是字处理软件w o r d2 0 0 0 ,而且 文件也保存为w o r d2 0 0 0 格式。但1 0 0 年甚至2 0 0 年之后呢,还能找到w o r d2 0 0 0 或w j r d2 0 0 0 的兼容产品来读取本论文吗? 显然,在这种情况下,虽然磁盘文件 仍然存在,但是该文件的价值已经彻底失去了。 根本上说,x m l 文件实际上是包含置标的文本文件,文本文件无须特殊工 具支持,只要磁盘文件存在,读取完全没有问题。而且文本文件中即使丢失一些 数据,仍然可以读取剩下的数据,而其他文件格式可能就难以保证这一点。 北京工业大学工学硕士学位论文 2 2 2x m l 相关标准 x m l 相关标准可分为元语言标准、基础标准、应用标准三个层次【l 8 】: 元语言标准( m e t a - l a n g u a g e ) :描述的是用来描述标准的元语言。在x m l 标准体系中就是x m l 标准。在x m l 标准体系中,x m l 标准与s g m l 标准在 s g m l 标准体系中的地位相似,是整个体系的核心,其他x m l 相关标准都是用 它制定的或为其服务。 基础标准( f o u n d a t i o ns t a n d a r d s ) :这一层次的标准是为x m l 的进一步实用 化制定的标准,规定了采用x m l 制定标准时的一些公用特征、方法或规则。如: x m ls c h e m a 描述了更加严格地定义x m l 文档的方法,以便可以更自动化地处 理x m l 文档;x m l n a m e s p a c e 用于保证x m l d t d 中名字的一致性,以便不同 的d t d 中的名字在需要时可以合并到一个文档中;x s l 是描述x m l 文档样式 与转换的一种语言;x l i n k 用来描述x m l 文档中的超链接:x p o i n t c r 描述了定 位到x m l 文档结构内部的方法;d o m 定义了与平台和语言无关的接口,以便 程序和脚本动态访问和修改文档内容、结构及样式等等。 应用标准( a p p l i c a t i o ns t a n d a r d s ) :x m l 已开始被广泛接受,大量的应用标 准,特别是针对i n t e r a c t 的应用标准,纷纷采用x m l 进行制定。如:有关矢量 图形的s v g 标准:有关多媒体同步显示的s m i l 标准;微软发起的电子商务的 s c h e m a 库b i z t a l k ;电子商务领域的e b x m l 标准等等。 2 3x b l 文件结构介绍 x m l 对于语法有着严格的规定,只有当一个x v t l 文档符合“格式良好” 的基本要求时,处理程序才能对它加以分析和处理。“格式良好”这一标准通过 对x m l 文档的各个逻辑成分和物理成分进行语法规定,保证了x m l 严密的条 理性、逻辑性和良好的结构性。 在x m l 中,“格式良好”有着明确的标准,即要遵守x m l l 0 规范中的语 法规则。无论是从物理结构上讲,还是从逻辑结构上讲,x m l 文档都必须符合 规范,才能被正确理解处理。具体而言,“格式良好”的x m l 文档应该满足的 条件主要包括: 第2 章x m l 相关技术 x m l 文件的第一行必须是x m l 声明。 元素的起始标记和结尾标记必须成对出现。 空标记必须以卢结尾。 必须有一个根元素包含所有的其他元素。 所有标记必须满足嵌套排列,不可以交错排列。 属性值必须以双引号( ”) 括起来。 只使用5 个默认的实体参照( e n t i t yr e f e r e n c e ) 。 使用 来开始一个标记,使用& 来开始一个实体参照。 在“格式良好”的前提下,在特定的应用中,数据本身还具有含义上、数据 类型上和数据关联上的限制,也就是语义限伟1 ( s e m a n t i cc o n s t r a i n t ) ,即要求文档 是有效的( v a l i d ) 。有效的即如果一个x m l 文档有规定其文档类型和数据结构 的定义( d t d 或s c h e m a ) 与之相关联,那么这个文档就是有效的。 x m l 文档结构包括逻辑结构和物理结构。每个x m l 文档由一个个存储单 元组成,这些单元称为实体( e n t i t y ) ,包括解析数据( p a r s e dd a t a ) 和末解析数据 ( u n p a r s e dd a t a ) 。解析数据由字符组成,其中一些形成字符数据,一些形成标记 ( m a r k u p ) 。在形式上,标记有以下各种格式: 注释 引用 字符数据段 起始标记 结束标记 空元素 文档类型声明 序言 每个x m l 文档都有一个逻辑结构和物理结构。从物理角度来看,文档由实 体单元组成,一个实体也可以在其他文档的实体中被引用( r e f e rt o ) 。一个文档以 一个根元素或文档实体来开始。逻辑上讲,文档由声明( d e c l a r a t i o n ) 、元素 ( e l e m e n t ) 、 注释( c o m m e n t ) 、字符引用( c h a r a c t e rr e f e r e n c e ) 和处理指令q m c e s s i n g i n s t r u c t i o n ) 组成。这些组成部分在文档的标记中必须明确规定。 北京工业大学工学硕士学位论文 物理结构和逻辑结构是从另一角度来理解x m l 文档,它们也必须满足格式 良好的特点。 2 4x m l 主要技术 2 4 i 文档类型定义d t d 文档类型定义d t d ( d o c u m e n tt y p ed e f i n i t i o n ) 是一套关于标记符的语法规 则,详细地描述了一组x m l 文档的结构。它告诉使用者可以在文档中使用哪些 标记,它们应该按什么次序出现,哪些标记可以出现于其他标记中,哪些标记有 属性等等。在x m l 出现之前,d t d 就已广泛应用于s g m l 文档结构的定义。 s g m l d t d 提供了s g m l 的s c h e m a 机制,用来确定文档的基本框架。而x m l d t d 可以是x m l 文档的一部分,但是它通常是份单独的文档或者一系列文 档。x m l 本身并没有一个通用的d t d ,而且d t d 也不是强制性的。对于简单 应用程序来说,开发商不需要建立他们自己的d t d ( 因为没有意义) ;他们可以 使用预先定义的公共d t d ,或者根本就不使用。即使某个文档已经有了d t d , 只要文档是组织良好的,语法分析程序也可以不对照d t d 来检验文档的合法性。 服务器可能已经执行了检查,所以检验的时间和带宽将得以节省。对想使用x m l 进行数据交换的行业或组织可以定义它们自己的d t d 。 当制定一个d t d 的时候,实际上是在设计一个形式化的x m l 文档,该d t d 文件严格地规定了以它为标准的所有实例x m l 文档的树状层次结构的全部细 节;当在一个具体的x m l 文档中引用该d t d 文件时,要求解析器以这个d t d 文件为标准对x m l 文档进行有效性确认,并且在文档不满足d t d 文件的规定 时给出提示。 2 4 2s c h e m a 作为x m l l 0 规范的重要组成部分,d t d 对于x m l 文档的结构起到很好的 描述作用。但是,它也有些缺点,比如,它采用了非x m l 的语法规则、不支 持数据类型、扩展性较差等等。另外,l 文档处理的自动化要求有种更为 严格、更为全面的解决方案。这方面的需求包括如何使一个应用程序的不同模块 第2 苹x m l 相关技术 间能够互相协调,以及对文档结构、属性、数据类型等的约束等等

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论