(农业机械化工程专业论文)基于xml数据库的查询优化研究.pdf_第1页
(农业机械化工程专业论文)基于xml数据库的查询优化研究.pdf_第2页
(农业机械化工程专业论文)基于xml数据库的查询优化研究.pdf_第3页
(农业机械化工程专业论文)基于xml数据库的查询优化研究.pdf_第4页
(农业机械化工程专业论文)基于xml数据库的查询优化研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(农业机械化工程专业论文)基于xml数据库的查询优化研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南大学硕士学位论文 摘要 摘要 w e b 技术的发展推动了i n t e m e t 及其应用的发展,尤其是动态网页技术和服务器与客服 端的三层服务模式的应用推动了w e b 以令人惊异的速度发展。同时w e b 应用开发者开始体 验到现有h t m l 的局限性,因为h t m l 并不具备_ 人规模w e b 应用所需的可扩展性、结构化 和数据验证等特性,而x m l 技术的出现则正是为了有效应剥上述问题。目前x m l 已经成为 i n t e r n e t 以及电子商务中进行数据表示和数据交换事实上的标准。由于其丰富的表达能力和自 描述性、灵活性等特点,x m l 已被,“泛应用于电子商棼、数字图书馆、智能i n t e m e t 检索等 领域。然而由于x m l 数据的半结构化特性以及x m l 数据所特有的路径表达的在询方式不同 1 二现有的关系数据库查询,使得关系数据库系统对x m l 数据的管理功能受到极大限制。现 在互联网上己经存在大量以文件形式存放的x m l 数据,这些数据包含了丰富的信息,如何 高效准确地完成对x m l 数据的查询成为当前的一个研究热点。 x m l 以其数据和表现相分离的特性和强大的数据表达能力,已经成为互联网和数据库之 间沟通的桥梁,它的出现使文本的互联网转变为数据的互联网一个全球范围的分布式数 据库。然而,x m l 不仅仅是互联网和数据库之闻的中间媒介,它完全可以做更多的事情。 x m l 最大的优点是它强大的数据表达能力,不仅可以表达关系模型和对象模型的数据,而且 还可以表达不规则的,易变的数据,它是典型的半结构化数据。既然x m l 包含着数据,那 么就存在着如何查询,如何管理这些数据的问题,而目前应用最广泛的关系数据库管理系统 并不适合管理半结构化数据。这是因为关系模型的二维表结构在表达半结枸化数据上存在很 _ 夫的困难不但转化算法复杂,而且数据的冗余度很大。作为描述的标记语言,x m l 能够根 据具体应用灵活地表现异构数据源中的各种信息,包括应用程序之间的数据交换、结构化和 学结构化文档蚍及数据库中数据的输出。当前,随着x m l 应用领域的扩大,越来越多的信 息开始采用x m l 进行存储、交换和表现,传统信息管理技术因为x m l 文档的出现而面临新 的挑战。因此跨越不同数据源的基于x m l 信息的查询捡索能力变得日益重要。 由于x m l 数据中具有自描述性的模式信息,数据节点的值的类型和大小是根灵活的, 不能以固定的形式来处理他们。加上其本身的嵌套结构和模式信惠不垒舶特赢使得其结构菲 常复杂,对它的查询处理也比较困难。传统的基于树的遍历的方法是通过对树型结构的多次扫 描,这在拥有大量数据的x m l 数据库中效率及低,不能满足复杂的处理要求,而x m l 西询 表达式的计算实际上就是寻找树模式查询到文档树的映射的过程,或称之为树模式查询的距 两南大学硕士学位论文摘要 配。一般来说,树模式杏询匹配的效率是与树模式查询的规模赢接相关的,树模式查询规模 越大,匹配效率就越低下,则在进行树模式的查询之前,要尽可能的简化树模式的查询。因 此对x m l 数据库采用索引技术,简化查询刚的路径搜索,提高匹配效率;同时对其查询进 行分解,把复杂查询分解为多个简单查询,又要保证其查询结果的有效连接。 基于x m l 数据的查询和关系数据序类似,都力图用简洁的查询语句商效准确的进行数 据的查询。同时由于x m l 文档的树型结构有剐于关系数据库的记录,对树的遍历增加了查 询的复杂性。本研究的日的是对x m l 文档建立索引,对其d t d 文档进行编码优化,降低查 询x m l 数据的复杂度,并对查询算法进行优化,减少查询中对结点的访问次数和连接次数。 本文就基于树型结构的x m l 数据查询进行了研究,对x m l 查询的相关知识,查询机 理,优化原理进行了分析,通过;l 入多种优化理论和方法最终实现了降低查询复杂程度。主 要内容如下: 1 - 在对x m l 技术及n a t i v e x m l 数据库介绍下,对x m l 模式的规范化进行了讨论。 着重阐述了x m l 函数依赖,x v l l 文档规范化规则。通过规范化实现了x m l 文档到n 范式的映射,从而实现对x m l 数据进行有效的存储和查询。 2 研究m l 的两种索引技术即结点记录类索引、结构摘要索引。深入分析了x m l 数据的 区间编码技术,利用编码技术使孩子与双亲节点,兄篱节点可以通过编码值获取,降低节点 对树型结构的依赖程度,使得查询在执行表达式时不必遍历整个结构树;同时引入基于后缀 树的索引构造技术,尽可能地合并相同标签路径的节点。所以,周游一条路径即可得到该标 签路径下的所有节点,避免了相同标签路径的重复访问的缺陷。 3 在查询执行过程中。对查询表达式进行分解,把复杂查询分解为多个筒单查询,然后 对查询中间结果进行连接。在优化设计了查询中的分解连接算法基础上,把扩展的q b 编码和 s u f f i n d e x 后缀树引入a m p m g j n 算法,最后利用该算法对x m l 数据进行奁询实验,并对结果 进行了分析。 关键字:x m l 查询优化索引技术分解连接 两南大学硕上学位论文 a b s t r a c t a b s t r a c t t h e w e b t e c h n o l o g y d e v e l o p m e n ti m p e l l e d i n t e m e ta n di t s a p p l i c a t i o n d e v e l o p m e n t ,e s p e c i a l l y ,w e bd e v e l o p m e n tr a p i d l yi si m p e l l e db ya c t i v ep a g et e c h n i q u ea n d t h r e e - l a y e rs e r v i c em o d e lt h a tb e t w e e ns e v e ra n dc l i e n t s i m u l t a n e i t y , w e bd e v e l o p e ri sc o n s c i o u s o f l i m i t a t i o no f c u r r e n th t m l ,e x p a n s i b i l i t y , c o n f i g u r a t i o n , d a t ac o n f i r m a t i o ne t ca r e n tp r o v i d e d w i t hh t m l ,h o w e v e r ,t h o s ea r en e e d f u lf o rl a r g e - s c a l ew e ba p p l i c a t i o n x m lt e c h n o l o g yi s p r e c i s e l yf o rd e a l i n ge f f i c a c i o u s l yw i t ht h ea b o v eq u e s t i o n a tp r e s e n t ,x m la l r e a d yb e c a m e v i r t u a ls t a n d a r d o f d a t a e x c h a n g ei n i n t e m e ta n de l e c t r o n i cc o m m e r c e b e c a u s ei th a s c h a r a c t e r i s t i c sw h i c ha r ec o m p r i s e do fr i c he x p r e s s i o nf u n c t i o n , s e l f - d e s c r i p t i o n ,f l e x i b i l i t ye t c , x m lh a sb e e nw i d e l ya p p l i e di nt h ee l e c t r o n i cc o m m e r c e ,t h ed i g i t a ll i b r a r y t h ei n t e l l i g e n ti n t e m e t s e a r c ha n ds oo n h o w e v e r , s e m i s t r u c t u r e ds p e c i a l i t yo f x m ld a t a sa n dq u e r yw a yb a s eo nt h ep a t h e x p r e s s i o na r ed i f f e rf r o mt h er e l a t i o n a ld a t a b a s eq u e r y , s oi t i sl i m i t e dt h a tf u n c t i o nt h a tt h e r e l a t i o n md a t a b a s es y s t e mm a n a g i n gx m l d a t a s c u r r e n t l y a b u n d a n c ex m l d a t a st h a ti sd e p o s i t e d i nt h el i g h to ff i l ef o r mi si ni n t e m e t t h e s ed a t a si n c l u d e da m p l ei n f o r m a t i o n ,s ot h es e a r c hw a y t h a tc o m p l e t e sq u e r yt ot h ex m ld a t ae f f i c i e n t l ya n da c c u r a t e l yb e c o m eas t u d yh o t s p o t x m lh a sc h a r a c t e r i s t i ct h a td a t a sa n di t sp e r f o r m a n c ec a nb es e p a r a t ea n df o r m i d a b l ed a t a e x p r e s s i o na b i l i t y i ta l r e a d yb e c a m et h eb r i d g ew h i c hb e t w e e nt h ei n t e m e ta n dt h ed a t a b a s e i t s a p p e a r a n c ec a u s e si n t e r n e tb a s eo nt e x tt ot r a n s f o r mi n t oi n t e r n e tb a s eo nd 缸ad i s t r i b u t e d d a t a b a s ei ng l o b a ls c o p e n e v e r t h e l e s s ,t h ex m li sn o tm e r e l ym e d i u mb e t w e e nt h ei n t e m e ta n d t h ed a t a b a s e ,i tc a nc o m p l e t em o r em a t t e r t h ex m lb i g g e s tm e r i ti si t sf o r m i d a b l ed a t ae x p r e s s i o n a b i l i t y ,b e c a u s ei tn o to n l yc o u l de x p r e s sd a t a si nr e l a t i o n a lm o d e la n do b j e c tm o d e l b u ta l s oc o u l d e x p r e s si r r e g u l a r 、a nc h a n g e f u ld a t a ,i ti st y i c a ls e m i s t r u c t u r e dd a t a s d u et ox m ld a t a sh a ss e l f - d e s c r i p t i o nc h a r a c t e r i s t i c ,t y p ea n dn u m b e ro fd a t an o d ev a l u ea r e v e r yf l e x i b l e ,s ow ec a l m tp r o c e s st h e mb yt h ef i x e df o r m ,i ti sg r e a d t l yd i f f i c u l tt oq u e r yt ox m l d a t ao na c c o u n to fc h a r a c t e r i s t i ct h a tb u i l t i ns t r u c t u r ea n dt h ep a r e mi n f o r m a t i o ni sn o t i n t e g r a t e d i ti si n e f f i c i e n tf o rx m l d a t a b a s et h a tt h et r a d i t i o n a lm e t h o dw h i c hb a s e do bs c a n n i n g t h et r e es t r u c t u r ec o n t i n u a l l y , i tc a l ln o tf u l f i lt h ec o m p l e xp r o c e s s i n gr e q u e s t i nf a c t ,c o m p u t a t i o n o f t h ex m l q u e r ye x p r e s s i o ni ss e e k sm a p p i n gp r o c e s sf o rt h et r e ep a t t e r nt ot h ed o c u m e n t s t r e e ,i n 1 1 1 西南大学顿士学位论文 a b s t r a c t o t h e rw o r d ,i ti st h eq u e r ym a t c hb a s eo nt h et r e ep a t t e r n g e n e r a l l ys p e a k i n g , m a t c h i n ge f f i c i e n c y o f t h et r e ep a t t e r nq u e r yi sc o r r e l a t i o nw i t ht h et r e ep a t t e r ni q u e r ys c a l ed i r e c t l y t r e eq u e r ym o d e l i sb i g g e r , t h em a t c he f f i c i e n c yi sl o w e r ,i tm u s ts i m p l i f yq u e r ya sp o s s i b l e t h e r e f o r e ,w en e e dt o u s et h ei n d e xt e c h n o l o g yt ot h ex m ld a t a b a s e ,s i m p l i f y p a t hs e a r c h ,e n h a n c e st h em a t c h e f f i c i e n c y m e a n w h i l e ,w em u s td e c o m p o s eq u e r ye x p r e s s i o na n dr e s o l v ec o m p l e xq u e r yi n t om a n y s i m p l eq u e r i e s ,a l s oi tm u s tp r o m i s et h a ti t sq u e r yr e s u l ti se f f e c t i v e i ti ss i m i l a rb e t w e e nq u e r yb a s eo nx m ld a m sa n dq u e r yb a s eo nr e l a t i o n a ld a t a b a s et h a t t r y i n gh a r dt oh i g h l ye f f e c t i v e l ya n da c c u r a t e l yp e r f o r mq u e r yw i t hs u c c i n c tq u e r ys e n t e n c e a tt h e s a m et i m e ,b e c a u s ex m lt r e es t r u c t u r ei sd i f f e r e n tf r o mr e l a t i o n a ld a t a b a s e ,s c a n n i n gt ox m l t r e e i n c r e a s e st h eq u e r yc o m p l e x i t y ,i nt h i sp a p e r , t h eg o a li sr e d u c i n gc o m p l e x i t yo fq u e r y i n gt h ex m l d a t aa n do p t i m i z i n gt h eq u e r ya l g o r i t h ma n dr e d u c i n ga c c e s st on o d e - t h i s p a p e r r e s e a r c h e s x m l d a t a q u e r y b a s e o i l t r e es t r u c t u r e ,a n a l y s e s k n o w l e d g ea b o u t x m l q u e r ya n dq u e r ym e c h a n i s ma n do p t i m i z e dt h e o r y t h e nt h em a n yk i n d so fo p t i m i z e dt h e o r ya n d t h em e t h o da r eu s e dt or e d u c et h eq u e r yc o m p l e x i t y i b a s e do nt h ei n t r o d u c e do f x m l t e c h n o l o g ya n dt h en a t i v e - x m l ,n o r m a l i z a t i o no f x m l s c h e m a si sd i s c u s s e d x m lf u n c t i o n a ld e p e n d e n c i e sa n dr u l e so fn o r m a l i z a t i o no fx m l d o c u m e n ta r es t r e s s e di nt h i sp a p e r b yt h ea i do f n o r m a l i z a t i o n , x m ld o c u m e n tm a p p e dt ox m l n o r n lf o r m sa n da c h i e v e de f f e c t i v es t o r a g ea n dq u e r yf o rx m ld a t a 2 t w oi n d e x t e c h n i q u e , n o d er e d o r di n d e xa n ds t r u c t u r ea b s t r a c ti n d e xa r e r e s e a r c h e d b e s i d e s ,at h o r o u g ha n a l y s i so fs e c t o rc o d et e c h n o l o g yi si n v o l v e di n t h i s p a p e r p o s i t i o no fc h i l dn o d e , p a r e n t sn o d ea n db r o t h e rn o d ei nt h et r e es t m c t u r ec a ng e tf r o mt h e c o d ev a l u e sb yu s i n gc o d et e c h n o l o g y b e c a u s eo f t h ec o d et e c h n o l o g y ,t h ed e p e n d e n c yo f n o d et o t r e es t r u c t u r ei sr e d u c e d t h ei n t r o d u c t i o no f i n d e xs t r u c t u r et e c h n o l o g yb a s e ds u f f i xt r e e sm a d e n o d e sh a v es a m et a gp a t hm e r g e da sf a ra sp o s s i b l e s oa l lt h en o d e si nat a gp a t hc a no b t a i n e db ya t r a v e l sa r o u n do f t h et a gp a t h ,i ta v o i dt h er e p e a tv i s i t i n go f t h es a m et a gp a t h 3 i ni n q u i r yi m p l e m e n t a t i o n ,c o m p l e xq u e r ya r ed e c o m p o s e dt os e v e r a ls i m p l eq u e r ya n d i n t e r m e d i a t er e s u l ti sc o n n e c t e d b a s e do nt h eo p t i m i z e dd e s i g no fd e c o m p o s i t i o nc o n n e c t i o n a l g o r i t h m ,e x t e n d e dq bc o d ea n ds u f f i xt r e e si si n d u c t e di na m p m g j na l g o r i t h n a a tl a s t ,a q u e r yt e s to f t h ea l g o r i t h mi sm a d ea n dt h er e s u l ti sa n a l y z e d k e yw o r d s :x _ m l ,q u e r yo p t i m i z a t i o n i n d e xt e c h n o i o g y d e c o m p o s ea n dc o n n e c t 学位论文题目 独创性声明 蒸鱼逊l 邀丝叠鱼! 垂地塑盏 本人声明所星交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据 我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写 过的研究成果,也不包含为获得西南大学或其他教育机构的学位或证书而使用过的材料。 与我同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 意。 学位论文作者:储冶雄 签字日期:g 0 0 6 年,月j 7 日 学位论文版权使用授权书 本学位论文作者完全了解西南大学有关保留、使用学位论文约规定,有权保留并向国家 有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权西南大学 研究生院可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书,本论文:日不保密, 口保密期限至年月止) 。 学位论文作 签字日期: 学位论文作 工作单位: 通讯地址: 者签名:豫身雅 文一咕年g - 月7 1 曰 者毕业后去向: 锄始分吁 签字日期:6 年r 月f7 日 电话 邮编 西南大学硕士学位论文 第一章文献综述 第一章文献综述 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 称为可扩展标记语言,是一种您可以用来创建自 己的标记的标记语言。它山万维网协会( w 3 c ) 创建,用来克服h t m l ( h y p e r t e x tm a r k u p l a n g u a g e ,它是所有网页的基础) 即超文本标记语言的局限。 x m l 同h t m l 一样,都来自s g m l ( s t a n d a r d g e n e r a l i z e d m a r k u p l a n g u a g e ) 日l j 标准通用标 记语言的简称。早在w e b 未发明之前s g i v i l 就早已存在。正如它的名称所言,s g m l 是一种 用标记来描述文档资料的通用语言,它包含了一系列的文档类型定义( d o c u m e n tt y p e d e f i n i t i o n ,d t d ) ,d i d 中定义了标记的含义,因而s g m l 的语法是可以扩展的。s g m l 卜分 庞大,它既不容易学,又不容易使用,在计算机e 实现也十分困难。鉴于这些因素,w e b 的发明 者们根据当时( 1 9 8 9 年) 计算机技术的能力,提出了h t m l 语言。 h t m l 只使用s g m l 中的很小一部分标记,为了便于在计算机上实现,h t m l 规定的标 记是固定的,即h t m l 语法是不可扩展的,它不需包含d t d 。这种固定的语法使它易学易用, 在计算机上开发h t m l 的浏览器也十分容易。正是由于h t m l 的简单性,使w e b 技术从计算 机界走向全社会,走进千家万户,w e b 的发展如日中天。 近年来,随着的w e b 应用越来越,“泛和深入,人们渐渐觉得h t i v i l 不够用了,h t m l 过 于简单的语法严重地阻碍了用它来表现复杂的形式。另方面,这几年来计算机技术的发展也 十分迅速,已经可以使用比当初发明创造h t m l 时复杂得多的浏览器,所以开发一种新的 w e b 页面语言既是必要的,也是可能的。有人建议直接使用s g m l 作为w e b 语言,这固然 能解决h t m l 遇到的困难。但是s g m l 太庞大了,f f j 户学、用不方便尚且不说,要全面使用 s g m l 的浏览器就非常困难,于是自然会想到仅使用s g m l 的子集,使新的语言既方便使用 又容易实现。正是在这种形势f ,w e b 标准化组织w 3 cy - 1 9 9 8 年2 月批准了精简的s g m l 版本_ x m l 的1 0 版本,一个崭新而大有前途的语言诞生了”1 。 1 1x m l 的特点 相对于h t m l 而言,x m l 具有狠多优点: ( 1 ) x m l 是自描述的。x m l 的最大能量来源于它不仅允许定义自己的套标记,而且 这些标记不必局限于对显示格式的描述。x m l 允许根据各种不同的规则来制定标记,比如根 据商业规则,根据数据描述甚至根据关系来制定标记。x m l 实现了用定义它们自己的标记集 来说明文档内容的功能,这些、观明的精确度是实现者自己制定的。 ( 2 ) x m l 支持对文档内容的验证。x m l 文档的结构和内容是由其语法定义的。文档类 型定义( d o c u m e n tt y p ed e f i n i t i o n ,d t d ) ,就是这类语法的一种,正在形成的还有x m l 模式。 有了模式,就可以方便地验证文档的有效性。 ( 3 ) x m l 允许开发各种不同专业的特定领域的标记语言。有了这些语言,这个领域的 实践者们可以互相自由地交换短文、数据和信息,而不必担心对方是否利用特殊的、专门的 软件来创建数据。事实上,目前已经开发出了一些特定领域的标记语言,如m a t h m l ( 用于数 学领域的一种标记语言) 。 ( 4 ) x m l 是非专有并易于阅读和编写的。这使得它成为在不同的应用间交换数据的理 想格式。x m l 不是第一种公共文档格式,但它与已有的文档交换格式相比具有很多优点。 x m l 是源文档的最佳格式,因为它允许最佳的输出格式,例如h t m l 、p d f ( p o r t a b l ed o c u m e n t f o r m a t ) 1p o s t s c r i p t 格式,并格式化应用程序,例如电子数据交换( e l e c t r o n i cd a t ai n t e r c h a n g e , e d i ) 。 ( 5 ) x m l 是基于w 3 c 定制的开放标准,从而使得基于x m l 的应用具有,一泛性。 ( 6 ) 支持高级搜索。因为可以知晓文档内容的结构和含意( 根据它的语法规则) ,所以 很容易在x m l 文档中进行搜索。在i n t e m e t 上如果w e b 页是x m l 格式的,则搜索会更高效, 而且不仅可以搜索数据,还可以在搜索中加入与数据相关的上下文信息,这样就形成了更精 确的搜索机制。 1 2x m l 文档的定义 x m l 的定义式是以扩展的巴克斯诺尔范式( e x t e n d e db a c k u s - n a u rf o r m ,e b n f ) 来表 达的。1 。它的格式是s y m b o l := e x p r e s s i o n ,其中s y m b o l 是要定义的符号,e x p r e s s i o n 是e b n f 表达式。 x m l 孚符集由u n i c o d e ( 通用代码标准) 和i s o i e c l0 6 4 6 规定( 另外,i n t e r n e tr f c l 7 6 6 指定语言确认标记,i s 06 3 9 指定语言名称代码,i s o3 1 6 6 指定国家名称代码) 。 ( 1 ) x m l 元素 以e r n f 形式对x m l 文档定义为: d o c u m e n t := p r o l o ge l e m e n tm js c 一个x m l 文档由三个部分顺序组成。p r o l o g 可以称为文档的“序言”;l i l l i s c 是其他舟穹 西南大学硕士学位论文 第一章文献综述 杂项;e l e m e n t 是文档的核心部分。每个x m l 文档都包括一个或多个元素。元素由开始标记 和结束标记来定界,中问是内容,内容可以为空。其定义为: e l a m e n t :2 e m p t y e i e m t a g ls t a gc o n t e n te t a g 起始标记s t a g 和结束标记e t a g 是x m l 文档中重要的元素。它们将数据进行结构化绢 织,并确定了元素的范围和相互关系。 s t a g := e t a g := n a m e 是元素的名称,a t t r i b u t e 是元素的属性项,它只在开始标记中出现。s 表示空白 符,包括一个或多个空格、回车、换行或制表符。 ( 2 ) 字符数据 元素的内容可能包括个或多个子元素、字符数据、引用、c d a t a 段、处理指令和注释: c o n t e n t := ( e l e m e n tc h a r d a t ar e f e r e n c ec d s e c tp i c o m m e n t ) x m l 文档中除去标记的部分就是字符数据,其定义如下: c h a r d a t a := 一( ( ) 一般的字符用它本身来表示,但这不适用于x m l 中的保留字符。像和 p i t a x g e t := n a m e - ( ( x x ) ( m 1 m ) ( l l 1 ) ) 处理指令并不是文档中的字符数据,它的作用是为解析器和其他应崩程序提供信息,处 理指令目标( p i t a r g e t ) 指示该指令用于哪个应用程序。 ( 5 ) 字符数据段 以“ ”结束的字符数据段( c d a t as e c t i o n ) 凌驾于解析器之 上,其中的内容将不被解析。其定义如下: c d s e c t := c d s t a r tc d a t ac d e n d c d s t a r t := c h a r * ) ) c d e n d := 字符数据段中处理除不能有结束标志“ ”外,可以是任何的字符序列。比如标记化的 文本可以直接放在字符数据段中而不会被解释为结构化的标记。字符数据段还为后面进行 x m l 的后续处理提供了编程的接口。 i 3x m l 规范 x m l 规范作为w 3 c 创建的一种设计文档标记语言的标准,根据应用的需要和依据x m l 规范可以设计各种各样的标记来描述文档的内容和结构。x m l 规范“1 由一系列标准和协议绸 成,x m l l 0 规范是x m l 的最核心的规范,是x m l 语言的语法。此外,还有d o m ,x s l ,x l i n k x p a t h x p o i n t e r , x m ls c h e m a ,x q u e r y 等数_ 卜种相关的规范和草案。这套规范以x m l1 0 为 核心,目的就是为文档数据提供表示的方法。x m l 系列规范自身也处于不断的发展和完善中, 4 因此其中许多规范或草案目前还没有应用支持,而仅停留在书面阶段,但也有部分规范己开 始付诸实现,如x m l1 0 和d o m 。总体上来看,这些规范可以分为数据描述和数据操纵两 类。其中数据描述规范主要是x m l l 0 ,而数据操纵规范包含如x s l ,x l i n k ,x p a t h 利x p o i n t e r 等。图卜1 给出了x m l 相关的主要规范。 巨氢 b 正j k 五 圈1 1x m l 主要规范构成图 f i g u r e1 - 1x m l s t a n d a r d ( 1 ) x m l 文档内容:包括标记和字符数据等。 ( 2 ) 文档类型( 结构) 定义:d t d 或s c h e m a 。用于规定x i v l l 文件的逻辑结构,定义x m i 文件中的元素、元素的属性以及属性之间的关系。它可以帮助y d v i l 的分析程序校验x m l 文档的合法性“。 ( 3 ) x m l 文档显示格式:c s s ( c a s c a d es t y l es h e e t ,级联样式表) 或x s l ( e x t e n s i b l es t y l e l a n g u a g e ,可扩展样式语言) 。用于定义x m l 文档的显示格式,能在客户端使w e b 浏览器改 变文档的表示形式,提供x m l 文档的显示功能。 ( 4 ) x m l 文档查询语言:x q u e r y 。一种灵活的查询语言,用来从x m l 文档中抽取数据。 ( 5 ) x m l 的链接语言:x l i n k 、x p o i n t e r 。用于实现x m l 文档的链接。与h t m l 的链接相 似,但x l i n k 进一步扩展了文档之间的超媒体链接以及对链接附加处理。例如:支持双向、 多重链接、多目的地链接及允许用户对超媒体链接附加处理指令等。 ( 6 ) x m l 文档解析:在使用一个x m l 文档之前,它必须首先经过x m l 解析器的处理。 解析器从文档中提取实际的数据,然后创建新的数据模型。 两南大学硕士学位论文 第一章文献综述 1 3 1d t d 与x m ls c h e m a d t d ( d o e u m e n t t y p ed e f i n i t i o n ) 和x m ls c h e m a 都是定义x m l 文档数据模式的方法。 它们限定了文档中使用的元素标记、出现顺序、嵌套层次以及包含的属性等。语法正确且符 合d t d 或者x m ls c h e m a 的x m l 文档才是有效的。在x m l 中,文档类型定义( d t d ) 是用 来定义文档所具有的逻辑结构的,是x m l 文档的数据模型。x m l 允许文档的编写者制定基 下- 信息描述、体现数据之间逻辑关系的自定义标记,确保文档具有较强的易读性、易检索性 和清晰的语义”1 。个完全意义上的x m l 文档不仅仅是“格式良好的”( 文档必须包含一,个 或多个元素,必须包含且仅包含一个根元素) ,而且还应该是使用了一些自定义标记的“有效 的”x m l 文档。也就是说,它必须遵守文档类型定义d t d 中己声明的种种规定。 d t d 规定文档的逻辑结构。它可以定义文档的语法,而文档的语法反过来能够让x m l 语法分析程序确认某页面标记使用的合法性。d t d 定义页面的元素、元素的属性以及元素和 属性之间的关系,描述了一个标记语言的语法和词汇表。例如d t d 能够规定某个表项只能 在某个列表中使用。但d t d 不是强制性的,对于简单应用程序来说,开发商不需耍建立他 们自己的d t d ,他们可以使用预先定义的公共d t d ,或者根本就不使用。即使某个文档己 经有了d t d ,只要文档是组织良好的,语法分析程序也可以不对照d t d 来检验文档的合法 性。除了定义标记的语法外,为了明确各个标记的含义,x m l 还使用与之相连的样式表( s t y l e s h e e t ) 来响应应用程序,比如浏览器,提供如何处理显示的指示说明。 d t d 不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论