(计算机应用技术专业论文)基于web+service的领域(domain)数据抽取及导入模型的研究.pdf_第1页
(计算机应用技术专业论文)基于web+service的领域(domain)数据抽取及导入模型的研究.pdf_第2页
(计算机应用技术专业论文)基于web+service的领域(domain)数据抽取及导入模型的研究.pdf_第3页
(计算机应用技术专业论文)基于web+service的领域(domain)数据抽取及导入模型的研究.pdf_第4页
(计算机应用技术专业论文)基于web+service的领域(domain)数据抽取及导入模型的研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)基于web+service的领域(domain)数据抽取及导入模型的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 最近1 0 年来网络技术取得了突飞猛进的发展,无论从网络通讯的基础设施, 还是到基于i n t e r n e t 的全局计算模型的研究和应用,对人们进行信息处理的方式 产生了很大的影响,与此同时,也扩充和改善了对一些传统问题解决的手段。 领域数据的抽取和导入是一个尚未得到有效解决的问题,同领域内数据库之 间总存在着一些特征它们之间具有某种相似关系,而特定机构都会统一选择适 合本身的数据库、网络和操作系统平台。数据的抽取和导入操作一般需要解决两 个主要的问题:一方面是数据在不同数据库之间的映射问题,另一方面是关于数 据的传输。以往的数据抽取和导入操作在考虑这两个问题时相对比较简单,因为 应用系统所涉及的范围不大,在实际应用时也可以参入手工的成分,所以这样的 系统并不具有很强的可移植性和适用性。尤其是,当应用的范围继续扩大,漫及 整个i n t e m e t 时,旧有的解决方案更显得力不从心。 针对上述研究现状和亟待解决的问题,本文的基本思路是:以全国灌区信息 化系统为背景,在研究和分析第3 代网络技术( x m l 、w s d l 、u d d i 、s o a p 、 w e bs e r v i c e 等) 和传统信息系统的优缺点的基础之上,大胆采用新技术,突破 性的利用w e bs e r v i c e 技术解决在异构的、分散的、不确定因素较多的环境下, 数据的共享和操作问题,构造出面向服务的高性能领域数据抽取及导入模型。 该模型通过获取远程数据库的结构映象,使得用户可以在本地定制源、目标 数据库表之间的映射关系。同时,将定制的映射关系转化为适合网络传输的x m l 格式,输送到远程服务器。只要远程应用系统提供相应的数据抽取服务,整个流 程就可以在不限定平台、语言、数据库、网络协议的基础上灵活的进行。 本文的工作将有助于领域应用人员通过i n t e r a c t 有效的使用远程高性能资 源,方便地构造应用系统来解决特定领域问题,同时对于w e bs e r v i c e 技术在水 利领域中的具体实施具有一定的参考价值。 关键词:x m l 、w e b 服务、数据抽取、数据导入 a b s t r a c t w i t hi t sf a s td e v e l o p m e n ti nt h el a s tt e ny e a r s ,n e t w o r k i n gt e c h n o l o g yh a sp u t t r e m e n d o u se f f e c t so nt h ew a yp e o p l eh a n d l ei n f o r m a t i o n ,s u c ha st h eg r o u n d w o r ko f n e t w o r kc o m m u n i c a t i o na sw e l ia st h er e s e a r c ha n da p p l i c a t i o no fn e t w o r kc o m p u t i n g m e a n w h i l e ,i ta l s oe x p a n d sa n di m p r o v e st h em e a n so f r e s o l v i n g t r a d i t i o n a lp r o b l e m s t h ee x t r a c t i o na n di m p o ao fd o m a i nd a t ai sap r o b l e mt h a th a s n tb e e nr e s o l v e d e f t 5 c i e n t l y d a t a b a s e si nt h es a m ed o m a i no rb e t w e e nd o m a i n s a r ea l w a y ss i m i l a ri n s o m e d e g r e e ,w h i l es p e c i f i co r g a n i z a t i o np r e f e r r e d t os e l e c tt h es u i t a b l en e t w o r k i n g 、 d a t a b a s ea n dp l a t f o r mo fo p e r a t i o ns y s t e m p r e v i o u sm e a s u r e so fs o l v i n gs u c h p r o b l e m sa r es i m p l e ra n dl e s s a p p l i c a b l e b e c a u s et h ea p p l i c a t i o ns y s t e mw o u l d n t a p p l yt o aw i l da r e a c o n s i d e r i n gt h eg i v e nd i f f i c u l t i e s ,w ed e c i d e dt h a ti tn e e d st o s o l v et w ob i g p r o b l e m s :o n ei sm a k i n g o u tt h em a p p i n gm e c h a n i s mb e t w e e nd i f f e r e n t d a t a b a s e s ,t h eo t h e r i st oa c c o m p l i s ht h em a s sd a t at r a n s p o r t a t i o no v e rn e t w o r k i nt h i st h e s i s w et a k et h ei n f o r m a t i o na d m i n i s t r a t i o ns y s t e mo fn a t i o n a l i r r i g a t i o n d i s t r i c ta sab a c k g r o u n d ,i n t r o d u c i n gw e bs e r v i c et e c h n o l o g yt od e s i g n w e bs e r v i c e b a s e dm o d e lo fd o m a i nd a t ae x t r a c t i o na n di m p o r t a t i o nt oh a n d l e i n f o r m a t i o ne x c h a n g ea n d s h a r i n g w i t h i n i r r i g a t i o n d i s t r i c t sb a s e do nt h eh u g e r e s e a r c ho nt h ei n t e m e tt e c h n i q u e ss u c ha sx m l 、s o a p 、w e bs e r v i c e t h em o d e lw ed e s i g n e de n a b l e su s e r st oc u s t o m i z ed a t as t r u c t u r e m a p p i n g b e t w e e ns o u r c ed a t a b a s ea n dt a r g e td a t a b a s ei nl o c a lm a c h i n et h r o u g hg e t t i n gt h e s t r u c t u r ei m a g eo fs o u r c ed a t a b a s ea n dt r a n s p o r t si tt or e m o t es e r v e rb e f o r ec o n v e n i n g i tt ox m lf o r m a a e dw h i c hi sb e t t e rf o ri n t e r a c tt r a n s p o r t a t i o n a sl o n ga st h er e m o t e s e r v e ro f f e r st h ec o r r e s p o n d i n gd a t ae x t r a c t i o na n di m p o r t m i o ns e r v i c e ,t h ew h o l e p r o c e s sw i l la c c o m p l i s h ib e l i e v et h a tm yt h e s i sw i l lh a v es o m ev a l u ef o rt h ef u t u r er e s e a r c ho nt h en e w m o d e lo fd a t a b a s e sm a p p i n gm e c h a n i s ma n dp r o v i d ec e r t a i nd e p l o y m e n tv a l u ea n d a p p l i c a t i o ns i g n i f i c a n c ef o rw e b s e r v i c e k e y w o r d s :x m l 、w e b s e r v i c e 、d a t ae x t r a c t i o n 、d a t ai m p o r t a t i o n 基于w e bs e r v i c e 的领域数据抽取及导入模型的研究 第1 章引言 第1 章引言 在信息处理的过程中,数据需要被频繁地进行抽取和导入的操作,通常的做 法是在整个流程中掺杂很多人工的手段,使得信息处理的精确性和效率大打折 扣。最近1 0 年来网络技术取得了突飞猛进的发展。无论从网络通讯的基础设施, 还是到基于i n t e m e t 的全局计算模型的研究和应用,对人们进行信息处理的方式 产生了很大的影响。信息技术的发展,使人们越来越依赖于网络,从网上政府到 网上购物、信息咨询等等无不与网络相关。由于历史的、现实的诸多原因,目前 存在的信息系统大多数为多平台、多系统的复杂系统。这就要求现在的解决方案 要具有广泛的兼容能力,能支持不同的操作系统平台、数据格式和多种连接方式: 要求在w w w 环境下,实现的系统具有松散耦合性、跨平台、与语言无关、与 特定接口无关等多种特性。x m l 的不断成熟以及以s o a p 为基础的w e b 服务的 兴起有力的促进了这一问题的解决。本文将以全国灌区信息化进程中遇到的问题 为研究点,讨论在现代网络技术条件下,如何充分利用网络互连和网络资源,构 造面向服务的领域数据高性能数据抽取和导入模型。 1 1 论文的选题背景 1 1 1 领域和领域工程 领域指的是指一组具有相似或相近软件需求的应用系统所覆盖的功能区域, 】领域工程是为一组相近或相似系统的应用工程建立基本能力和必备基础的工 程,领域工程包括领域分析、领域设计和领域实现三个重要的阶段。【4 2 领域分析 是指对一个领域内的若干系统进行分析。识别这些系统的共同特征和可变特征, 对这些特征进行抽象,形成领域分析模型:领域设计是依据领域分析模型产生出 一类应用系统共同具有的框架,即特定领域的软件架构( d o m a i ns p e c i f i cs o f t w a r e a r c h i t e c t u r e ,d s s a ) ;领域实现则以领域分析模型和领域设计为基础,识别、开 发和组织领域中的软件架构和构件等可复用资源。这样,当开发同一领域中的新 应用时,可以根据领域分析模型,确定新应用的需求规约,根据特定领域的软件 架构形成新应用的设计,并以此为基础选择可复用构件进行组装,从而形成新系 统。 本文所要解决的问题是关于同领域内的数据抽取和导入问题,同领域内数据 库之间总存在着一些特征,它们之间具有某种相似关系。而特定领域内都会统一 选择适合本领域的数据库、网络和操作系统平台,所以同领域内应用系统存在着 下列问题: 使用软件不同,信息格式不同 第1 面 啭于w e bs e r v i c e 的领域数据抽取及导入模型的研究 第l 章引富 相类似的系统在开发时选取的模型不胤,导致了信息结丰句的不同 语义自成体系,相关性差 在瞬临上述闯题的情况下,妇俺解决冠领域内数据的抽取和导入操 乍是一个 需要缜密设计的过程。数据的抽取和导入操作一般需要解决两个主要的问题:一 方嚣楚数据程不同数摆疼之闽我浃越阍遂,另方霪是关予数据懿传辕。鞋毽懿 数据抽取和导入问题解决方案在考虑这两个问题时相对比较简单,因为应用系统 所涉及匏范戮不大,在实豁应焉辩遣可潋参入手工静成分,辑戳这样的系统并不 具有很强的可移植性和适用性。尤其是,当应用的范围继续扩大,漫及整个i n t e m e t 时,l 醴有的解决方案更显得力不扶心。 全阑灌区信息化系统中就存在有这样的问题,金阑灌区信息化系统是一个历 时十年之久的水利部重点项目,该项目致力于建立具有灌区信息接收、处理、倍 息查谗、统计分板秘决策支楚等功能的灌区警疆信惑系统。在系统孛,数据豹 鸯 取和导入操作做为信息处理的基础占有道要的地位,水利局、水利厅这样的上级 主管擎经幕登麓够邋过一耱安全舞效熬方式来对数爨送行汇总、分季厅,嚣灌区系 统和水利系统之间数据的处理就具有领域数据处理的特点。本论文将以全国灌区 信息纯系统中数据豹捶取和导入溺题为基磴进行分轿,提出一个其有强移植惶和 可适用性的架构,并构造出一个试验系统,对领域数据的抽取和导入问题进行深 入的探讨。 l 。1 2 现有的解决方案及萁不足 l 。1 2 1 举手工方式 这怒早期遗留下来的传统手工方式,先由需求单位给出数据抽取需求,下级 荜位按照要求觚各自镌数攒库串撩取出符台要求的数据,将数据存储在移动介穗 上专门派人传送或者通过邮件发出。由予信息格式的不一致,数据即使传送过来 谗要避行复杂的转换操作,再将数据批擞导入萌标数据库中。随着需求的多变, 这种传统的方式越采越表璇出弊蠛。由予人工参与熬成分太多,氇经会造成工终 的延误,这显然与信息化的精神相违背。 1 。1 2 。2 势零式数据露复裁技术 1 2 8 分布式数据库技术悬分布式技术与数据库技术的结合,在数据库研究领域 中已有多年酌历史。从概念上讲,分布式数据霹是物壤上分散在计算机网络各结 点上,丽逻辑上属于同一个系统的数据集会。数据复制是指农组成分布式数据库 系统的多个数据库间拷贝和维护数据库对象的过程,像是整个分布式计算解决方 察的一个重要组成部分。 从技术上来讲,由于存在以下几点原因,在解决领域数据抽取和导入问题时 不透合溪取数据痒笈露l 技术: 第2 贾 基于w e bs e r v i c e 的领域数据抽取及导入模型的研究 第1 章引言 首先,数据库复制技术一般是为了特定目的而采用的。数据复制技术主要通 过为不同站点的数据引入适当的冗余,从而提供了可供选择的数据存取路径,提 高了数据访问性能和保护了应用程序的有效性。例如,采用数据复制技术,将远 程数据复制到本地服务器中,当应用程序访问该部分数据时,就可以做到本地访 问,从而减少了网络负担并提高了性能。此外,当本地服务器出现异常而无法提 供服务时,由于其它服务器上还有可提供存取的复制数据,所以应用程序仍然可 以正常工作:而在领域数据的抽取和导入问题上,数据呈现出单一的流向。在解 决这个问题时,不需要各个数据库中数据的完全共享,并且由于平级单位的相对 保密性,也不可能实现数据的共享。解决的问题不同就决定了采取的架构、措施 以及投入的人力物力财力的不同。 其次,从对网络的依赖程度来讲,数据库复制技术需要保证数据库间的绝对 畅通。对于分布在不同地点的物理隔绝的数据库服务器,通常的手段是采用硬件 技术( 如v p n ) 将它们联系起来,形成逻辑上的一体。而分析领域数据的抽取 和导入问题的特点,所要进行的操作不是日常性的重复性的工作,而是临时的、 随机的不确定的需求,在这种情况下投入很大的精力来解决结点间的绝对畅通显 然不是一种经济的考虑。 再次,利用数据库复制技术进行不同结点间的数据库复制是一项难度很高的 工作,并且需要对进行复制的数据库有很高的权限,这样的工作主要由数据库管 理员来进行,一般的人员很难进行这样的工作。而解决领域数据的抽取和导入问 题主要是希望通过建立一种灵活的映射机制,方便相关人员( 不仅仅是数据库管 理员) 进行映射规则的定制,完成数据的抽取和导入。另外,在这个过程中,只 需要对对方数据库有一般访问的权限就可以保证工作的进行,无需对方数据库分 配过多的权限。 最后,数据库复制技术主要是由各大数据库厂商提供的内嵌于数据库中的功 能,它往往需要第三方产品的支持,并且在此基础上很难进行增量式的开发。构 建数据抽取及导入模型的目的不是实现一个终端产品,而主要是希望建立一个应 用的平台,完成数据的映射和底层的传输功能。在此基础上,用户可以根据不同 的需求在这个应用平台上进行二次开发。 可见,在解决领域数据的抽取和导入问题上,确实需要设计出一种简便而又 有效的方式。从以上的分析可以得出这样的结论:领域数据的抽取和导入问题的 解决方案需要独立于开发语言、操作平台和网络协议,它需要灵活的部署方式以 及系统的强松散耦合性。本文正是基于这样的需求提出了在异构环境下基于w e b 服务的领域数据抽取及导入的三层( 客户层、事务逻辑层和服务层) 体系及组件 调用模型。 w e b 服务的出现为解决领域数据抽取及导入问题提供了很好的技术基础。 第3 页 基于w e bs e r v i c e 的领域数摧抽取照导入模溅的研究第l 章引富 w e b 服务是一个全新的技术架构,为了支持技术架构中的蚤种特性,各种各样 的技术规范被不断地开发出来。w e b 服务技术组件是一套开放的规范,它们瑟 么是现鸯的殿特嬲标准,要么是皴广泛接受菸正在通过正攀步骤成为橼准的缎 范。组件的綦本部分包含h t t p 、x m l 、s o a p 、w s d l 、u d d i 以及w s f l 。 w e b 黢务侵耀珏弭p 来实凝茨火墙友好狂不确定戆奄效受载;x 醚l 懿平台无美 性以及易操作性解决了困扰c o r b a 和d c o m 的互操作问题;s o a p 的无状态 缝使褥霹戳怒应用鬣序开敖给运行在镁一平台使用蔹侮语言编写的客户程序。程 w e bs e r v i c e 架构的基础上进行数据的映射,并以独立于任何平台的x m l 格式进 行数据的传输显然可以很好的解决领域数据的于由取和导入闷题。 1 2 本文的主要正作和内容安排 1 2 1 本文的主要工作 基于s o a p 静w e b 驻务是一颈有着巨丈潜力鹃技术,它对于整个计算机软件 业的影响是深远的。应用w e b 服务技术,使得计算枫系统之间能够真嫒摒除平 台差异和实现差异,依靠颈先达成一致的w e b 服务规范,究成无缝的系统对话。 但是,i n t e m e t 是一个松散的网终环境,在这梯的基础上鼹决全国灌区的数据撼 取和导入将面临很多问题的挑战:如何实现不同物理空间、甚至是物理上隔绝的 空阕内不嗣数握痒数据豹映射,絮嚣缳 筵大量数据镑缝瓣数据戆安全彝绩徐鹭效 率,如何构造出适台太范围内的数据抽取模型和数据导入模型,都是本文研究的 蓬点搿在;弱终统豹数摇拣取帮警入揉份不同豹是,领域数据嵇取裙导入操作鬣 临更大的挑战,设计的系统即能满足一般的需求又能适合更丈范尉内的需求,并 且其有狠强的移植谯和适糟性并不是一律容易的事情。 开发高效、灵活、复用性好的软件是十分困难的,本文以分析研究全匿灌区 信息化系统中数据抽取和释入需求为出发点,构造出一个适合不同领域内相关问 题解决的框絮霹模型。在墩计时,注重程序懿结掬霹耀扩震蜓,一切戳安全和效 率为前提。 本文在疆究弱分辑第3 代疆终搜本( x m l 、w s d l 、u d d i 、s o a p 、w e bs e r v i c e 簿) 和传统信息系统的优缺点的纂础之上,大胆采用新技术,突破性的利用w e b s e r v i c e 技术解决在筹构的、分散的、不确定蔽素较多的环境下,数据的共享和 操作问题,构造出面向服务的高憾能领域数据抽取及母入模型。本文提出了一个 适合远程数据抽取和导入的数据库映射模型,方便系统用户进行需求的定制( 源、 羼标数据库基本信息,源、耳标数据摩之闻映射规则豹定剁售息) ,糁用户斡鬟 求转化为更适合网上传输的格式,并有相应的格式限定方式,保障数据传输的安 全牲彝窍效蠖。构遗豹数攒抽取模型采耀w e b 服务懿方式滋纾发京,不疆定串 第4 页 基于w e bs e r v i c e 的领域数据抽取及壁垒堕型盟塑窒 第1 章引言 台和开发语言,使系统具有很强的适用性。导入模型与抽取模型相对独立,在充 分考虑系统负载平衡的基础上,合理安排不同部件的存放位置,使整个系统各个 部分都能充分利用现有的资源,达到系统的稳定高效运行。 本文的工作将有助于领域应用人员通过i n t e m e t 有效的使用远程高性能资源, 方便地构造应用系统来解决特定领域问题。我们也希望本文及其后继工作能够为 领域数据相关问题的解决贡献微薄的力量。 1 2 2 本文的主要内容 第1 章引言部分讨论了领域数据和领域工程的相关概念,分析了解决领域数 据数据抽取和导入问题的相关背景。并介绍了全国灌区信息化系统的相关背景, 通过解决全国灌区信息化系统中数据抽取和导入问题,为领域数据相关问题的解 决提供出一个参考模型。 第2 章着重对x m l 技术、s o a p 和w e bs e r v i c e 体系结构的本质和特点进行 分析,它们提供了一种全新使用i n t e m e t 数据、服务和资源的方法。 第3 章着重讨论全国灌区信息化系统中数据抽取和导入模型( 着重于策略) 的构造,这个模型中需要多个组件进行协同工作,包括数据抽取组件、数据转换 组件、x m l 数据处理组件等共同进行数据的抽取工作。数据合并组件、数据导 入组件来进行数据的导入。此外,还突出讨论了关于用户需求的定制、按照什么 样的映射规则进行数据的导入以及元数据的管理。 第4 章利用a p a c h e 的a x i s 来架构整个数据抽取和导入模型,完成数据的 无异议传输并且探讨如何保障传输时数据的安全和有效。由于模型的平台无关性 以及高适应性,可以将该系统很轻松的移植于其他的平台或应用领域。 第5 章对本文的工作进行了总结,在分析了本系统的特点的基础之上,未来 工作作出了一些展望。 第5 页 基于w e bs e r v i c e 的领域数撅抽取及导八模型的研究第2 章s o a p 蜘泌及w e bs e r v i c e 体系结构 第2 章s o a p 秘议及w e bs e r v i c e 体系结构 本章将比较全耐的分析未来笫3 代i n t e m e t 应用的核心技术:x m l 、s o a p 鄹w e bs e r v i c e 。在全国灌鼹信息化系统数据撼取和导入模块中,x m l 充分发撂 丁其作为定义语言的语言的特点,利用x m ls c h e m a 定义了源数据库映象文件 络筏以及数攥浃射撂准。s o a p 帮w e bs e r v i c e 是建立在x m l 语法基磷主戆, s o a p 是w 曲s e r v i c e 的底层传输协议,也是w e bs e r v i c e 的核心技术。本章将详 缀劳橱各个技术豹本质、将点及芟应麓镀术。 2 1x m l 技术 x m l 是计算税技本上豹一大突破,x m l 楚w 3 c 制定豹用于描述数撵文秘 中数据的组织和安排结构的一种规范,熄s g m l 的一种简化版本。x m l 着重摇 述静是文档的内容,它的将长在予籀述程意层次结构的数据,或赋予原本杂乱无 章的信息一种清晰丽通用的结构,使数据在网络上进行交流秘处理更加方便快 捷。x m l 真磁实现了内容和显示的分离,加大了数据存取的灵活髅和可煎用性。 阱 x m l 敖本质瓣一静“元谗言”,它让鼷声戈多静文掇定义鑫己的标记落 裔,它可运行在任何平台和操作浆统上,从本质上看,x m l 和h t m l 都是由 s g m l 派生采魏,毽是x m l 是一耱元稼记语誉,蠢h t m l 怒一耱特殊纯的标记 语言。x m l 将s g m l 的丰富功能与h t m l 的易用性结合到w e b 的应用中,并 傈瞽了s g m l 静可扩展弱辘,遮使x m l 麸檄本主宥嗣子h t m l 。x m l 要眈 h t m l 强大得多,它不再是固定的标记,而是允许定义数量不限的标记来描述文 橙中的资料,以及允许嵌套的信息结构。它解决了h t m l 不能解决的两个问题: 即i n t e m e t 发鼹速度快蠢接入速度慢的阉题,以及可利用鲍信息多薅难以瞬礁找 到自己需要的信息的问题。与h t m l 相比,x m l 具有以下几点技术优势: 缀强的可扩黢毙力。 强大、灵活、高效的表达数据内容的能力。 允许掰户截建鑫己豹标记语言。 具有平台和语言无关的特点,适合在i n t e m e t 上传送。 x m l 将数据和对数据的处理分开。 2 1 。lx m l 语法 1 9 9 8 年2 是,x m l l 。0 成为了w 3 c 靛推荐标准,其鬟蕊主要是由采怒扩震 鼹克斯诺尔范斌( e b n f ,e x t e n d e db a c k u sn a u rf o r m ) 定义的语法标识组成, 下瑟详缨遥述一下x m l 戆鑫令缝残部分。 第6 嚣 基于w e bs e r v i c e 的领域数据抽取及导入模型的研究第2 章s o a p 协议及w e bs e r v i c e 体系结构 2 1 1 1 基本组成部分 x m l 基本组成部分由序言、元素、实体属性构成。序言部分指出现在文档 的开始标签或根元素之前的信息,由它们提供有关x m l 文档总体情况的信息, 例如字符的编码方式、所指定的样式单等等。序言为x m l 解析器和应用程序提 供了一些处理线索。序言由几部分组成:一个可选的x m l 声明,可能紧跟若干 个注释、处理指令( p i ) 、空白字符,其后可能有一个可选的文档类型说明。由 于这些内容都是可选择的,这就意味着序言部分可以被省略。 一个简单的序言例子如下: 元素是x m l 文档内容的基本单元,它的语法格式如下: 文本内容 元素是由起始标签、元素内容和结束标签组成。用户把要描述的数据对象放 在起始标签和结束标签之间,元素还能包含其他元素。计算机在处理该文档的数 据时,根据文档中用“ ”括起来的标记( 也就是标签) 所界定的元素, 得到文档的树形层次结构: x m l 文档被定义为一系列字符,x i v i l 文档处理软件可以从头到尾进行处 理。但是x a m l 还可以使用非线性方式组织文本,把文本分成许多块,再由语法 分析器重新组织成线性结构。这种“文本块”构件就称为“实体”。每个实体都 有名字。你可以在文档某处插入一个“实体引用”来使用某个实体,x m l 文档处 理器将会用实体本身来替换实体引用。实体提供了对文本进行复用和维护的一个 重要途径。 x m l 元素的起始标记可以具有零个或多个属性,一个属性是一个名字值 对。属性的语法是一个名字( 使用与x i v i l 元素名字相同的字符集) 后跟一个等 号( = ) ,再跟一个引号括起来的值。x m l 技术规范要求将值用单引号或双引号 括起来,引号前后应相匹配。 2 1 1 2x m l 名称空间 x m l 文档的一个重要性质就是它们可以组合创建新文档,这是重用x m l 的最基本的机制。不幸的是,简单组合往往会引起识别冲突问题。例如,有一个 x m l 文档如下清单所示, 元素出现了两次,如果由人工来处理,可以通 过上下文知道一个是客户的电话,一个是该客户联系人的电话。但在程序中区分 它们并不是一件简单的事情,特别是在文档结构很复杂的时候。因此需要有一种 简便的方式来处理这种情况,x m l 名称空间的设计就是在这种背景下产生的。 第7 页 基于w e bs e r v i c e 的领域数据抽取敷导入模型的研究第2 耄s o a p 潍泌段w e bs e r v i c e 体系结构 x m l 名称空间是解决多义性和冲突问题的方案 4 】,它的设计思想很简单: 如果舔个x m l 词汇都有一个独一无二瓣标谖簿来代表,势显露冀孛懿元素、瓣 性名字连在一起使用,则不会出现上述问题,因为每个词汇都被它独特的标识符 绘确定了。 对于标识符,x m l 名称空间使用统一资源标识符( u n i f o r mr e s o u r c e i d e n t i f i e r s ,u 糙) ,u 黻可戮是定位器、名字或二者的结合。u r i 定位器即所谓的 统一资源定能器( u n i f o r i f tr e s o u r c el o c a t o r , u r l ) ,怒所有使用w e b 的人部熟悉 的术语。u r l 是一个串,如h t t p :w w w p u r c h a s e s i t e c o r n z i p 。 下露是馒用了) ( 】堰l 名称空阕数文档渍单; c u s t o m e r :c u s t o m e m a m e m r l i ( ,c u s t o m e r :c u s t o m e m a m e c u s t o m e r :p h o n e 8 6 1 3 3 0 2 5 9 5 6 8 5 刮c u s t o m e r :p h o n e c u s t o m e r :l i n k m a n m s l i u 8 6 1 3 9 5 11 5 2 6 2 6 1 1 0 1 2 5 1 6 4 6 5 6 5 叫c u s t o m e r :l i n k m a n c u s t o m e r :c u s t o m e r l n f o 2 1 1 3x m l 文档类溅定义 一篇x m l 文秽由标谗移蠹容缓成,看莛寒帮h t m l 文挡缀耱经。元素怒 x m l 最主要的标记,与h t m l 本质的不同是x m l 中元素没有预定义,而是由 糟户对自己文档中嫒蘑静嚣素进行定义,这就需要加入“文橙类型定义”( d ) ) 。 第8 茭 基于w e bs e r v i c e 的领域数据抽取及导入模型的研究 第2 章s o a p 协议及w e bs e r v i c e 体基鱼量塑 通过d t d ,一方面用户可以在文档中定义自己的标记,另一方面分析器也可以 得到关于文档内容和结构方面的元信息。这样,x m l 文档就具有了可扩展性、 结构性和可验证性,与d t d 相结合的文档是从基本的x m l 标记向前迈进了巨 大的一步,d t d 使文档结构得到确认,它大大减少了需要在x m l 应用程序中编 写的应用确认的定制代码量。不过,d t d 仍有一些明显的不足: d t d 不使用x m l 语法。 d t d 是在名字空间存在之前设计的,并没有好的措施来处理名字空间。 d t d 没有数据类型,只有一个可用的数据类型:t e x t ,没有办法对类型 进行限制。 d t d 没有提供足够的可重用性和可扩充的能力。 d t d 模型有时会显得太严格,尤其是关于子元素的顺序方面。 由于这些原因,简单对象访问协议( s o a p ) 协议中明令禁止使用d t d 来定 义文档结构。为了解决d t d 固有的问题,w 3 c 从1 9 9 8 年开始制订用以替代d t d 的s c h e m a ( 模式) 规范。模式除了解决上述的d t d 缺陷之外,还具有其它一些 特征。它和w 3 c 的另一个名称空间规范( n a m e s p a c e s ) 一起使用,使x m l 文 档更具灵活性。 2 1 1 4x m l 模式 x m l 模式( s c h e m a ) 最基础的概念是:模式是描述( 约束) 一组x m l 文档 实例的文档【“。x m l 模式本身就是一个x m l 文档,这一点非常重要,因为这就 意味着x m l 应用程序很容易查询模式。x m l 模式运行利用仅供应用程序使用 的信息修饰模式一一例如,可以给每个元素类型添加相关的机密等级,并在应用 程序中利用该信息觉得应该向特定的用户显示哪些信息。同d t d 相比,x m l 模 式具有以下优点: x m ls c h e m a 利用n a m e s p a c e 将文档中特殊的结点与s c h e m a 说明相联系, 一个x m l 文件可以有多个对应的s c h e m a ,而一个x m l 文件只能有一个对应的 d t d 。 x m ls c h e m a 内容模型是开放的,可以随意扩充,而d t d 无法解析扩充 的内容。 d t d 只能把内容类型定义为一个字符串,而x m l s c h e m a 允许把内容类 型定义为整型、浮点型、布尔型或者其它的简单数据类型。在l 中,符合 x m l 语法规范的x m l 文档被称为是“良定义的”( w e l l d e f i n e d ) ,但只是格式 正规还是不够的,有时候它还需要满足一定的规则。既符合x m l 语法规范,又 符合它在文档类型声明中所宣称的d t d 或符合它所使用的模式的v i l 文档被 称为是“有效的”( v a l i d ) 。一个有效的x m l 文档只能包含d t d 或s c h e m a 中 规定的元素和属性,还要满足它们所确定的嵌套规则和数据类型。x m l 文档的 第9 页 艇于w e bs e r v i c e 的领域数据抽取及导入模型的研究第2 章s o a p 协逝照w e bs e r v ! c e 体系结麴 有效陛是相对的,即相对于某个d t d 或s c h e m a 是有激的。刹用d t d 或 s c h e m a 来检查x m l 文档的有效性就称为对x m l 文档的确认。 2 1 2x m l 相关标准 与h t m l 不同,x m l 是一耪元标诞语言,它没窍骨么强定妻冬稼签。各公蠲 可以根据自己的需求来创建词汇寝以便应用程序使用,这就是说利用x m l 这种 元蠢记浯言霹瑷剑建舅羚一季孛标谜语言,这些标记诺言爱d t d 或s c h e m a 来 定义。w 3 c 在1 9 9 8 年2 月正式发布了x m l 规范1 0 版,该规范只提供了描述 数据静途径,不包含任何数据妊疆特征。然雨许多用户惩要骰一些公共的处理, 因此w 3 c 制定了一些使用x m l 的标凇,提供更多的数据处理功能,比如有关 文档确认的标准、文档查询标准、文档解析标准和文档链接标准警。图2 1 展示 了它们之间的关系: 圈2 l x m l 掾攥 2 。l 。2 1 文档对象模型 文稿对象模壅( d o c u m e n t o b j e c t m o d e l 。d o m ) - - 词在w e b 浏览器领域并不陌生, w e b 开发中使用的窗口、文档和历史等对象,郝被认为是浏憋器对象模型瓣一部 分。文椭对象模型是一个与平台、语言无关的程序接翻,它撮供了动态访问和更 糕文挡豹悫窖、结梅冬风撂豹手段。可以黠文楼徽进一步戆韪理,劳将楚溪豹绪 聚更新划表示页面。 舞解决遗过w e b 谤跨稳搡作文毯结擒这个闯瑟,需簧创建嚣热标穗纯静 方法。为此,w 3 c 提出了目前广泛使用的w 3 cd o m 规范。d o m 的目标就是 炎x m l 移h t m l 定义一个标准的编程接日,它包括梭心、h t m l 稻x m l 三帮 第1 0 页 基于w e bs e r v i c e 的领域数据抽取及导入模型的研究第2 章s o a p 协泌及w e bs e r v i c e 体系结构 分。d o m 的核心部分建立了一套低层的对象集,它们可以表示任何结构化的文 档。虽然在这套接口中可以通过其自身来表示h t m l 和x m l 文档,但这个核心 部分是一种操作文档内容的更紧凑、更精简的设计。h t m l 和x m l 部分提供了 高层的接口,可以作为更方便的文档视图。fj d o m 规范由对象和方法组成,通 过它们,程序员可以更容易、更直接地对特定类型的文档进行访问和操作。遵循 d o m 规范开发的x m l 解析器的使用流程是:首先初始化一个x m l 解析器,然 后将一个x m l 文档提交处理。x m l 解析器处理后返回一颗d o m 树,下面对文 档的所有操作均对这棵d o m 树进行。在这个过程中,对d o m 树的任何操作都 必须遵循d o m 规范。因此,遵循标准d o m 接口的x m l 解析器是具有很好的 可重用特性的。由于含有对象的概念,d o m 非常适合在面向对象语言中进行操 作,其规范中也以j a v a 语言为示例语言。 2 1 2 2s a x 处理x m l 文档的另一种方式:s a x ( s i m p l ea p ! f o rx m l ) 接口,即x m l 简易 应用程序编程接口,全称是扩展标记语言简易应用程序编程接口。从名称上可以 看出,s a x 接口可以用来编写应用程序以读取x m l 文档中的数据。s a x 在本 质上是一种j a 、,a 接口,其风格完全不同于文档对象模型。 与d o m 相比,s a x 是基于流的、以事件处理方式工作的接口。d o m 则是 w 3 c 标准,通过在内存中建立起完整的文档结构来完成各种操作。s a x 对系统 资源要求低、速度快,但对文档的操作是只读的;d o m 的处理能力强大,但要 求大量的系统资源,尤其是处理大的文档。 2 1 3x m 的应用 研究x m l 的目的就是为了应用,总的来说x m l 的应用可分为以下几种 3 2 】: 首先,x m l 应用于用户与不同的的数据源进行交互时。在全国灌区信息化系统 中,x m l 发挥了巨大的作用:在进行源数据库和目标数据库映射规则的定制问 题上,充分利用x m l 语言的平台语言无关的特点以及x m l 强大的定义结构的 功能,详细设计了源数据库结构映象以及源、目标数据库结构映射规则。因为数 据可能来自于不同的数据库,都有各自不同的格式,由于x m l 的自定义性和可 扩展性,它足以表达各种类型的数据。用户接收到数据后可以用前面所阐述的各 种技术对x m l 文档进行解析、查询、更新以及定位操作,也可以在不同的数据 库之间进行传递。总之,在这类应用中,x l v f l 解决了数据的统一接口问题。但 是,与其它数据传递标准不同的是:x m l 中并没有定义数据的具体规范,而是 在数据中附加标签来表达数据的逻辑结构和含义。 其次,x m l 应用于将同一数据以不同的面貌展现给不同的用户,这里主要 是用到x m l 的相关技术如x s l 、x s l t 等。 第1 1 页 基于w e bs e r v i c e 的领域数据抽取及导入模型的研究第2 章s o a p 协议及w e bs e r v i c e 体系结构 x m l 也用于存档。用可重用和模块化的组件搭建生成新的程序是一个很好 的编程方法,如果这些组件是以二进制形式存放的,就会在兼容性、版本控制等 许多方面存在限制。如果这些组件以x m l 方式进行存档,这些问题就可以解决。 另外,基于纯文本的x m l 格式使得用不同编程语言中的对象可以很容易的传送。 本系统在进行远程数据的归类汇总时,就充分利用x m l 的这一应用,按照灌区 编号将从不同地方传回的数据存放在一个个x m l 文件中,既方便管理存档,又 能为以后导入数据库提供统一的格式方便进行统一的导入操作。 综合以上四种不同类型的应用,可以总结出,x m l 其实源自一种“数据归 其主,用户尽其需”的哲学。具体说来便是数据制作者并不考虑日后这些数据具 体会有哪些用途,只是尽量全面地考虑今后有可能会被用到的信息,并将其完整、 规范地制作成x m l 文件,服务商不会被拘禁于特定的脚本语言、制作工具及传 输的囚笼内,而是提供一种标准化、可独立销售、有级别操作的领域,在那里不 同的制作及传输工具将各显神通,从而极大限度地满足客户的需求。 2 2s o a p 技术 随着计算机硬件的发展,尤其是互联网的出现,软件需要完成的工作越来越 复杂,其规模也日益扩大,开发人员之间协同合作的必要性已不言而喻。组件概 念的提出与应用,虽然可使完成专门任务的软件块被无限重用,但缺乏统一的组 件技术标准则不能保证其兼容性和互换性。目前己存在的生成软件组件的标准及 相应技术有组件对象模型、公共对象请求代理体系结构和远程数据服务等,它们 以分布式网络结构为基础,不同组件可通过网络相互调用来构建各自的软件。然 而,这些技术在实现中受到平台的限制和防火墙的约束,从而制约了其应用范围 的扩大。事实上,这些技术更适合于局域网。 要在整个互联网范围内实现程序间的远程调用和信息传递,挖掘出现有技术 的核心概念,将其规范为简单普通的协议并成为工业标准,这正是s o a p ( s i m p l e o b j e c t a c c e s sp r o t o c 0 1 ) 要解决的问题和目的。s o a p l 0 规范发布于1 9 9 9 年,主 要由m i c r o s o f t 公司发起。s o a p i 1 规范与s o a p l 0 规范相比没有太大的差别, 但框架不同,因为s o a p i 1 是作为几家公司之间的一项合作成果于2 0 0 0 年3 越 被提交给w 3 c 的,这几家公司是i b m 、m i c r o s o f t 、d e v e l o p m e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论