(通信与信息系统专业论文)基于xml的web数据抽取研究.pdf_第1页
(通信与信息系统专业论文)基于xml的web数据抽取研究.pdf_第2页
(通信与信息系统专业论文)基于xml的web数据抽取研究.pdf_第3页
(通信与信息系统专业论文)基于xml的web数据抽取研究.pdf_第4页
(通信与信息系统专业论文)基于xml的web数据抽取研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(通信与信息系统专业论文)基于xml的web数据抽取研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理工大学硕上学位论文 摘要 随着i n t e m e t 的快速发展,w e b 网页的数量也不断增加,尽管从网上可以查 找到几乎所有知识领域的相关资料,但是对数据的操作和控制却不尽人意。为 了更加有效地利用网络资源,从中获取有用的数据资料,研究人员开创了w e b 数据抽取这一领域。利用数据抽取技术,对网页的结构和数据特征进行分析, 可以抽取出网页中用户感兴趣的数据,以结构化的形式进行集成和保存,以供 x m l 查询语言或者s q l 语言查询,或者供其它的应用程序使用。w r a p p e r 是 从网页中抽取数据的程序,构造准确、健壮和通用的w r a p p e r 可以使网页免受结 构变化的影响,且减少人为参与,但是现有的各种w r a p p e r 有着不同的局限性, 在精度、健壮性和通用性方面难以达到很高的要求。本文利用标准的x m l 技术 来解决数据抽取问题,提出一种基于x m l 技术的w e b 数据抽取方法。 作者的主要工作如下: ( 1 ) x m l 技术的发展使得基于x m l 的w e b 数据抽取方法成为w e b 数据 抽取的趋势,本文对三种w e b 数据抽取方法进行了分析和比较。 ( 2 ) 在详细分析和比较数据抽取技术中三种常用的信息定位方法的基础 上,应用x p a t h 和x q u e r y 技术在数据转换和定位方面的优势,提出了基于树的 绝对路径和属性相结合的信息定位方法a p t a ( a b s o l u t ep a t ho ft r e e & a t t r i b u t i o n ) ,综合了基于树的绝对路径的信息定位方法和基于属性的信息定位方 法的优点,实现了对信息更加准确的定位。 ( 3 ) 利用h t m lt i d y 工具对待抽取页面进行清洗,将w e b 数据抽取过程 以及改进的定位方式放在x m l 语言编写的配置文件里定义,根据配置文档中自 定义的元素和结构编程实现基于x m l 的w e b 数据抽取。 ( 4 ) 根据s h a r e di n l i n i n g 模型将x m l 数据型的抽取结果转换为关系表型数 据,使得可以利用关系数据库已有的理论基础和应用平台最大限度地实现对w e b 信息的再利用。 武汉理工大学硕士学位论文 ( 5 ) 虽然本文的基于x m l 的w e b 数据抽取方法的f 值还未达到理想值, 但与三种基本的信息定位方法的w e b 数据抽取方法相比较,其f 值是最优的。 所以本文的基于x m l 的w e b 数据抽取方法在功能上还是令人满意的,对基于 x m l 的w e b 数据抽取技术的研究与应用具有一定的参考价值。 关键词:w e b 数据抽取;x m l ;x p a t h ;x q u e r y ;信息定位 i l 武汉理工大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m e t ,t h eq u a n t i t yo fw e bp a g e sh a sb e c o m em o r e a n dm o r e ,a l t h o u g hr e l a t i v ed a t ai na l m o s ta l lt h ef i e l d sc a nb ef o u n do nw e b ,t h e m a n i p u l a t i o na n dc o n t r o lo nd a t ai sn o ts a t i s f y i n g i no r d e rt om a k eu s eo fn e t w o r k r e s o u r c em o r ee f f e c t i v e l y , a n dg e tu s e f u l d a t ai n f o r m a t i o nf r o mw e b ,r e s e a r c h e r s o r i g i n a t e dan e w 矗e l d w e bd a t ae x t r a c t i o n a n a l y z i n gt h es t r u c t u r eo fw e bp a g e s a n dc h a r a c t e ro fd a t ab yd a t ae x t r a c t i o nt e c h n o l o g i e sc a ne x t r a c td a t aw h i c hu s e r sa r e i n t e r e s t e di nf r o mw e bp a g e s ,t h er e s u l to fe x t r a c t i o ni si n t e g r a t e da n ds a v e di n s t r u c t u r e df o r m ,s ot h er e s u l tc a nb eq u e r i e db yx m l l a n g u a g ea n ds q ll a n g u a g eo r u t i l i z e db yo t h e ra p p l i c a t i o n s w r a p p e ri sp r o g r a mw h i c he x t r a c t sd a t af r o mw e b p a g e s ,i fw r a p p e ri sc o r r e c t l yc o n f i g u r e d ,r o b u s ta n du n i v e r s a l ,i n f l u e n c eo nw e b p a g e sb yt h ec h a n g eo fs t r u c t u r ec a nb ea v o i d e da n dh u m a np a r t i c i p a t i o nc a nb e r e d u c e d ,b u te x i s t i n gw r a p p e rh a sd i f f e r e n tl i m i t a t i o na n di ti sd i f f i c u l tf o rw r a p p e rt o a c h i e v eav e r yh i 曲l e v e lo np r e c i s i o n ,r o b u s ta n dg e n e r a l u t i l i t y i nt h i sp a p e r , n o r m a t i v ex m l t e c h n o l o g i e sa r eu s e dt os e t t l et h i sp r o b l e mo nd a t ae x t r a c t i o na n da m e t h o do f x m l b a s e dw e bd a t ae x t r a c t i o ni sp u tf o r w a r d t h ef o l l o w i n ga s p e c t sa r ed i s c u s s e di nd e t a i l : ( 1 ) w i t ht h ed e v e l o p m e n to fx m lt e c h n o l o g y , x m l b a s e dw e bd a t ae x t r a c t i o n t e c h n o l o g yh a sb e c o m eat r e n d ,t h r e eb a s i cw e bd a t ae x t r a c t i o nm e t h o d s a r ea n a l y z e d a n dc o m p a r e d ( 2 ) t h r e eu s u a l - u s e dl o c a t i o n m e t h o d so fi n f o r m a t i o na r e a n a l y z e d a n d c o m p a r e d ,a c c o r d i n gt ot h ea d v a n t a g e so f x p a t ha n dx q u e r yo nd a t at r a n s f o r m a t i o n a n dd a t al o c a t i o n ,an e wi m p r o v e dl o c a t i o nm e t h o dw h i c hc o m b i n e sl o c a t i o nm e t h o d b a s e do na b s o l u t ep a t ho ft r e ew i t hl o c a t i o nm e t h o db a s e do na t t r i b u t i o ni sp u t f o r w a r d ,i tc a ni m p l e m e n tl o c a t i o nt oi n f o r m a t i o nm o l ep r e c i s e l y ( 3 ) w e bp a g e sa r et i d i e db yas o f t w a r et o o ln a m e dh t m lt i d y , t h ep r o c e s s e so f w e bd a t ae x t r a c t i o na n dt h ei m p r o v e dl o c m i o nm e t h o do fi n f o r m a t i o na r ed e f i n e di n t h ec o n f i g u r a t i o nf i l e s ,t h e n p r o g r a mi sc o m p i l e d t oi m p l e m e n td a t ae x t r a c t i o n i i i 武汉理工大学硕上学位论文 a c c o r d i n gt ot h eu s e r - d e f i n ee l e m e n t sa n d s t r u c t u r ei nt h ec o n f i g u r a t i o nf i l e s ( 4 ) t h er e s u l to fe x t r a c t i o ni nt h ex m ll a n g u a g ei sm a p p e di n t or e l a t i o n a lt a b l e a c c o r d i n gt os h a r e di n l i n i n gm o d e l ,a st h e r ea r er i p et h e o r e t i cb a s i sa n de x p e r i m e n t a l f l a tf o rr e s e a r c ho nr e l a t i o n a lt a b l e ,i n f o r m a t i o no nw e bc a nb er e u s e dt ot h em o s t e x t e n t ( 5 ) a l t h o u g ht h i s x m l b a s e dw e bd a t ae x t r a c t i o nm e t h o dd o e sn o tr e a c h p e r f e c tv a l u eo nf - v a l u e c o m p a r e dw i t hw e be x t r a c t i o nm e t h o dw i t ht h o s et h r e e b a s i ci n f o r m a t i o nl o c a t i o nm e t h o d s ,i th a st h eb e s tf v a l u e s ot h ef u n c t i o no ft h i s x m l - b a s e dw e bd a t ae x t r a c t i o nm e t h o di ss a t i s f y i n g ,i th a ss o m er e f e r e n c ev a l u ef o r t h es t u d ya n da p p l i c a t i o no nx m l b a s e dw e bd a t ae x t r a c t i o nt e c h n o l o g y k e y w o r d s :w e bd a t ae x t r a c t i o n ;x m l ;x p a t h ;x q u e r y ;i n f o r m a t i o nl o c a t i o n 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特另t j ) j n 以标注和致谢的地方外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意。 签名:堡匝n 期:幽:! :壁 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保 留、送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:盈匣导师签名 潞帐业似 武汉理工大学硕士学位论文 第1 章绪论 1 1 选题的背景和意义 互联网的飞速发展使其成为全球信息传播与共享的重要资源,w e b 上的数据 呈几何级数增长。w e b 已经成为人们获取信息的主要资源,但是随着数据量的激 增,从w e b 上获取有用信息的难度却越来越大。理想的情况是可以像查询数据 库一样查询w e b 上的数据。w e b 上信息的增长和异构数据源集成的应用,导致 了半结构( n l i - s t r u c t u r e d ) 数据i l j 的产生。目前这些数据大多是通过h t m l 语言 实现的,h t m l 语言结构隐含、不规则和不完整的特点使得w e b 上的信息处于 杂乱无序的状态,数据集成性差,应用程序无法直接解析、获取并利用w e b 上 的海量的信息,给w e b 应用的建立造成了极大的困难。然而,从w e b 上获取和 利用有用信息的要求却与日俱增。如何从w e b 数据中抽取出有用的信息成为亟 待解决的问题。 信息抽取( i n f o r m a t i o ne x t r a c t i o n ,简称i e ) 就是在这种背景之下产生的【2 1 , 信息抽取指的是从一段文本中抽取出指定的信息,并将其转换成结构化的数据 供用户查询和使用。例如,从天气预报中抽取出各城市当日的最高气温、最低 气温、湿度、舒适度、紫外线强度等。信息抽取的过程涉及到采用何种语言来 描述抽取结果中的结构化数据,这种语言必须符合公认的标准,且具有自描述 性和跨平台的特性。 随着信息技术的发展,x m l 已经成为正式的、开放的标准规范,开发人员 能够利用x m l 的格式标记在互联网异构环境的不同类型和领域交换数据。x m l 语言能描述不同复杂程度的数据,具有内容的自描述性和独立性,高效且可扩 充的特点,而且显示形式多样化。因此x m l 成为文档结构化描述语言的首选。 w e b 数据抽取技术随着需求的增加而不断丰富,近年来国内外出现了许多信 息抽取的方法。这些方法各有侧重地解决了w e b 信息抽取面l i 每的问题,总体上 取得了良好的效果,但在某些方面还存在着不同程度的局限和缺陷。 综上所述,为了更好地解决w e b 信息抽取面l 临的诸多问题和不足,有必要 对w e b 数据抽取技术作更深入的研究。 武汉理工大学硕士学位论文 1 2 国内外研究现状 目前,w e b 数据抽取技术主要采用的是网页包装( 眦p p i n g ) 的方法1 3 1 ,对w e b 数据抽取技术的研究主要集中在抽取方法1 4 】和w r a p p e r 的自动化或半自动化生成工 具两个方面。抽取方法主要包括直接解析h t m l 文档的方法p 、基于概念建模的 方法( c 0 n c 印t u a l m o d e l - b a s e d a p p r o a c h ) 1 6 7 1 和分析h t m l 层次结构的方法【8 9 1 。 ( 1 ) 直接解析h n 仉文档的方法 利用p e r l 、j a v a 等程序语言或其它自行设计的程序语言,编写可执行程序直 接对h t m l 网页进行分析和处理。主要是利用抽取规则对内容进行模式匹配, 不涉及h t m l 文档的层次结构。目前采用这种方法的典型系统有r a j p m r 、s r v 、 w h i s h 。 该方法将w e b 文档视为文本进行处理,主要适用于含有大量文本且句子完 整、适合语义分析的w e b 页面,其缺点也很明显: w e b 数据抽取的实现没有利用w e b 文档独特的、普通文本所不具有的层 次特性,抽取规则表达能力有限,缺乏健壮性;而且获得有效的抽取规则需要 大量的样本学习,速度慢,达到全自动的程度也很困难,用于操作网上海量的 数据更是效率低。 只支持记录型的语义模式结构,不支持复杂对象的抽取。 w e b 页面中的文本通常不是结构完整的句子,所以适用范围比较窄。 ( 2 ) 基于概念建模的方法( c o n c e p t u a l m o d e l b 勰e d a p p a c h ) 主要是基于o n t o l o g y 概念。按照s t a n f o r da i 专家t o mo r u b e r 的定义, o n t o l o g y 是为了帮助程序和人共享知识的概念化规范,在知识表达和共享领域, o n t o l o g y 描述了在代理之间的概念和关系【1 0 1 ( c o n c e p t sa n dr e l a t i o n s ) 。该方法先 用o n t o l o g y 建立数据模型,再把可能抽取的数据项映射到o n t o l o g y 中的元素上, 由用户作选择。o n t o l o g y 中的元素决定抽取的对象。o n t o l o g y 的引入既保证了 结构的一致性,又保证了数据的一致性,使不同来源的数据都能以统一的视图 呈现,方便了信息的继承和交换。 基于o n t o l o g y 方式的最大优点是对页面结构的依赖性比较小,只要事先创 建的应用领域的o n t o l o g y 足够强大,系统可以对这一应用领域中的各种页面实 现信息抽取。主要缺点有: 某一领域的o n t o l o g y 需要该领域的专家创建,工作量比较大。 2 武汉理工大学硕士学位论文 由于是根据数据本身实现信息抽取,在减小对页面的依赖性的同时,增 大了对网页的数据结构的要求。 不支持对超链接的处理。 ( 3 ) 分析h 刑l 层次结构的方法 主要是利用x m l 技术,因此也可以称作为基于x m l 的方法。随着x m l 技术的出现,x m l 已成为w e b 上重要的数据表示和交换的标准。因此,w e b 数 据抽取就不能不考虑到w e b 上将会出现大量的x m l 文档和利用强大且日益成熟 的x m l 技术。基于x m l 的w e b 数据抽取也已经成为一种趋势。采用这种技术 的系统很多,例如商业化的l i x t o ,非商业化的x w r a p ,另外r o a dr u 衄一1 1 l 和w 4 f 、s g w r a m 也采用了该技术。 这种方法的特点是根据w e b 页面的结构定位信息,在信息抽取之前将w e b 文档解析成语法树,通过自动或半自动的方式产生抽取规则,将信息抽取转化 为对语法树的操作从而实现信息抽取。 在w r a p p e r 生成工具方面,最初是手工编写的,主要缺点是开发和维护工作 比较困难,后来出现的自动化或半自动化的工具如r o a dr u n n e r 、w e b l 是非商 业工具,主要是由大学的研究团体开发的;商业化的w r a p p e r 生成工具有x f e t c h w r a p p e r 、w 4 f 1 1 2 垮。参考文献【1 3 ,1 4 】从各个角度对这些工具进行了分类。 当前w e b 数据抽取是基于以下的假设的: w e b 上的信息是有规律地被更新,但更新的同时数据结构保持不变; 大多数w e b 站点实际上采用一组h t m l 模板和数据库进行驱动; 在假设成立的情况下,w e b 数据抽取得到了广泛的应用,但是h t m l 网页 的内容和结构在实际运用中是会发生变化的,所以w e b 数据抽取有了新的发展 趋势: 在抽取过程中融入更多的自然语言处理和机器学习技术,并且利用图形 化工具提高抽取的自动化程度和数据抽取的效率,简化抽取过程。 利用语义网技术在网页中嵌入一些语义标签,抽取过程中根据这些语义 标签进行识别和抽取相关内容。例如,w a p 站点可以为不同型号的手机提供不 同的内容,原理就是在网页中嵌入不同的标记,这也可以看作是这种方法的一 种运用。由于需要操纵服务器端的网页,所以也可以认为是一种服务器端的抽 取模式,相对于其他需要在客户端处理网页的方法丽言,利用语义网技术是一 种理想的方式。 武汉理工大学硕士学位论文 1 3 论文的主要研究内容和组织结构 1 3 1 主要研究内容 本文主要研究如何从w e b 网页上大量的信息中抽取出自己需要的数据,实现 半结构化w e b 数据到结构化的x m l 数据的转换以及x m l 数据到关系型数据的转 换,从而实现了w e b 数据的抽取。 文章讨论了w e b 数据抽取的相关技术和x m l 、x p a t h 以及x q u e r y 的相关知 识,在分析w e b 数据抽取方法的基础上,提出了一种改进的信息定位方法的w e b 数据抽取方法,完成 佃皮档的清洗及h t m l 文档到儿文档的转换,对w e b 上的信息进行抽取,并将抽取结果以关系表形式存放,最大限度地实现- j w e b 信 息的再利用。 其中,分析和比较了数据抽取技术中三种常用的信息定位方法:基于树的 绝对路径的定位方式、基于关键词的定位方式和基于属性的定位方式,并应用 x p a t h 和x q u e r y 技术在数据转换和定位方面的优势,提出了一种改进的基于树 的绝对路径和属性相结合的信息定位方法a p t a ( a b s o l u t ep a t ho ft r e e & a t t r i b u t i o n ) ,综合了基于树的绝对路径的信息定位方法和基于属性的信息定位方 法的优点,在区分能力方面,比基于树的绝对路径的信息定位方法更强;在覆 盖能力方面,比基于属性的信息定位方法的覆盖范围更广,从而实现了对信息 更加准确的定位。 1 3 2 组织结构 第一章,绪论部分,介绍了w e b 数据抽取的研究背景和研究现状,并阐述 了研究的意义以及w e b 数据抽取的发展趋势。 第二章,介绍x m l 、x p a t h 以及x q u e r y 的相关知识。重点阐述:x m l 的 特点,x m l 文档的结构和语法规则;x p a t h 路径表达式和函数;x q u e c y 查询表 达式和f l w o r 语句。 第三章,基于x m l 的w e b 数据抽取方法,详细地讲解了数据抽取过程中的 数据抽取模块以及x m l 型数据到关系表型数据的转换。 第四章,针对数据抽取方法中对数据信息的定位方式,在分析和比较了数 据抽取技术中三种常用的信息定位方法的基础上,提出了一种改进的信息定位 4 武汉理工大学硕士学位论文 方法a p t a ( a b s o l u t ep a t ho f t r e e & a t t r i b u t i o n ) ,并将其性能与传统定位方法 作比较。 第五章,数据抽取试验,描述了数据抽取结果的度量指标,根据本文的基 于x m l 的w e b 数据抽取方法,完成了一次完整的基于x m l 的w e b 数据抽取过 程。并以一系列网页为数据源进行数据抽取,对本文的数据抽取方法进行验证 和评估。试验结果证明,与传统信息定位方法的w e b 数据抽取相比较,本文的 数据抽取方法具有f 值较高的特点。 第六章,总结和展望,回顾全文的内容,总结研究工作取得的成果,并对 下一步的研究方向提出了建议和展望。 由于本人水平有限,论文中难免会存在错误和不足之处,望各位老师批评 和指正。 武汉理工大学硕士学位论文 第2 章x m l 及其相关技术 x m l 代表e x t e n s i b l em a r k u pl a n g u a g e ,是e x t e n s i b l em a r k u pl a n g u a g e 的缩 写,意为可扩展的标记语言。x m l 是一套定义语义标记的规则,标记将文档分 成许多部件并对这些部件加以标识;同时它也是元标记语言,定义了与特定领 域有关的,语义的、结构化的标记。 ( 1 ) x m l 是元标记语掣”j 超文本标记语言( h y p e r t e x tm a r k u pl a n g u a g e ,h t m l ) 或是格式化的程序 定义了一套固定的标记,用来描述一定数目的元素。如果标记语言中没有所需 的标记,只有等待标记语言的下一个版本,希望在新版本中能够包括所需的标 记,这样就必须依赖于软件开发商的选择。 但x m l 是一种元标记语言,用户可以定义自己需要的标记,这些标记必须 根据通用的原理来创建,但是在标记的意义上具有很大的灵活性。新创建的标 记可在文档类型定义d t d ( d o c u m e n tv y p ed e f i n i t i o n ) 中加以描述。例如,在 p e t e rm u r r a y r u s t 的c h e m i c a lm a r k u pl a n g u a g e ( 化学标记语言,简写为c m l ) 中的m o l d t d 文件中描述了词汇表和分子科学的句法,其中包括c h e m i s t r y ( 化 学) 、c r y s l a l l o g r a p h y ( 结晶学) 、s o l i ds t a t ep h y s i c s ( 固体物理) 的词汇,还包括 用于a t o m s ( 原子) 、m o l e c u l e s ( 分子) 、b o n d s ( 化学键) 、s p e c t r a ( 光谱) 的标 记,这个d t d 可被分子科学领域中的研究者共享。其他领域也有其相应的d t d , 此外用户还可以创建自己的d t d 。 x m l 定义了一套元句法,与特定领域有关的标记语言,如m u s i c m l 、 m a t h m l 和c m l 都必须遵守。如果一个应用程序可以理解这一元句法,它也能 够理解所有的由此元语言建立起来的语言。浏览器不必事先了解多种不同的标 记语言使用的每个标记,浏览器在读入文档或它的d t d 时才了解给定文档使用 的标记。关于如何显示这些标记的内容的详细指令是附加在文档上的样式单提 供的。例如,薛定格( s c h r o d i n g e r ) 方程: 访笺塑一兰尝望+ 矿盯力 6 武汉理工大学硕士学位论文 科学论文中有很多类似的方程式,但是科学家还必须等待多年才能让浏览 器的开发商支持书写最基本的数学公式所需的标记。音乐家也有同样的局限性, 因为n e t s c a p en a v i g a t o r 和i n t e m e te x p l o r e r 还不支持乐谱。有了x m l 就意味着 不必等待浏览器的开发商来满足用户的需要,用户可以创建自己需要的标记。 ( 2 ) x m l 描述的是结构和语义,而不是格式化 x m l 标记描述的是文档的结构和意义,而不是页面元素的格式化,可用样 式单为文档增加格式化信息。而h t m l 文档包括了格式化、结构和语义的标记, 例如 就是一种格式化标记,它使其中的内容变为粗体; 是结构标记, 指明内容是表中的一个单元。事实上,某些标记可能具有所有这三种意义。 例如,在h t m l 中,一首歌可能是用定义标题、定义数据、无序的列表和 列表项来描述的。用h n 他定义的歌曲可能如下: h o tc o p b ) ,j a c q u e sm o r a l i ,h e n r ib e l o l oa n dv i c t o rw i l l i s l 】l p r o d u c e r :j a c q u e sm o r a l i p u b l i s h e r :p o l y g - r a mr e c o r d s l e n g t h :6 :2 0 w d t t e n :9 7 8 a r t i s t :v i l l a g ep e o p l e 在) 。儿中,同样的数据可以标记为: h o tc o p 棚d 9 7 8 q y e a r v i l l a g ep e o p l e q s o n g 武汉理工大学硕士学位论文 在这个清单中使用了具有意义的标记,如 和 ,顾名 思义,它们分别代表了歌曲的名称和作曲家的姓名。这种用法具有许多优点, 包括源码易于被人阅读,使人能够看出作者的含义。可以选择x m l 的元素名称, 以便使其在附加的上下文中具有额外的意义。例如,元素名称可以是数据库的 域名。 2 1 1x m l 的主要特点 x m l 的特点决定了其卓越的性能表现。x m l 作为一种标记语言【1 6 1 ,有许 多特点: ( 1 ) 内容的自描述性和独立性,高效且可扩充 x m l 是面向内容的标记语言,其语义标识限定了元素的层次结构和含义, 所以在x m l 的查询结果中根据标记就可以知道内容的意义。x m l 的自描述性 使得x m l 可以脱离具体的应用而保存在异构环境中,其它的系统应用也可以操 作x m l 文件中的数据。同时x m l 的独立的数据语义使其成为跨平台数据交换 和操作的标准模式。在x m l 中,还可以定义无限量的一组标注,使用者可以发 明和使用自己的标签,也可与他人共享,可延伸性大。 ( 2 ) x m l 能描述不同复杂程度的数据 x m l 提供了数据的结构化表示,易于操作。x m l 可以标记普通文档、结构 化记录、具有数据和方法的对象、数据库查询记录、图形显示以及所有w e b 页 面上的信息之间的链接【m 。所以x m l 可以以一种统一的数据模式描述来自不同 数据源的数据,并屏蔽数据源中应用环境和数据结构的异构性【l 司。 ( 3 ) 显示的多样性 x m l 把数据的显示格式和数据分离,这种分离可以实现不同数据源数据的 无缝连接 1 s l 。可以用c s s 文件或者x s l 文件来定义x m l 文档中数据的显示格 式,用户也可以采用不同的格式来显示数据。 ( 4 ) 粒度级的更新【l g 】 l 中的数据可以在粒度级更新,当数据的一部分发生变化的时候,不必 重新发送全部的数据,只需要将改变的内容从服务器发送到客户端。 ( 5 ) 国际化 x m l 支持世界上大多数文字。这源于它的统一代码的新编码标准,这种编 码标准支持世界上所有以主要语言编写的混合文本,所以x m l 不仅能在不同的 计算机系统之间交换信息,而且能跨国界和超越不同文化疆界交换信息。 3 武汉理工大学硕士学位论文 2 1 2x m l 的语法 x m l 文档的“有效性”是指x m l 文档要遵守d t d 文件或者s c h e m a 的规定。 一个格式良好的x m l 文档应当满足以下几点要求: ( 1 ) 具有唯一的根元素: ( 2 ) 元素必须有起始标签和相应的结束标签; ( 3 ) x m l 对字母大小写敏感,必须大小写保持一致; ( 4 ) 元素之间应当正确地嵌套,子元素应当完全包含在父辈元素中。例如 q p 吼,b 是错误的嵌套,正确嵌套方式应该是 q b 。 ( 5 ) 属性值必须用引号括起来; ( 6 ) 元素中不允许存在重复的属性。 2 2 一个完整的x m l 文档示例 为了方便后文中相关知识的介绍,引入一个完整的、良构的x m l 文档,x m l 数据存放在图2 - l 所示的文档b a s e b a l l x m l 中: a _ lm w # 。10 。t q “w = 。m 7 ) 订啊1 一,t 吐* l h e e tt e :t 性t ,x 1 1 h 扛- 西d li d 口加c t t p e 冠脚钉s 珊- b b “| ud t r f g s 。i 珏啦1 9 c j 8 。 证e 婚i j u = 。h t l 施1l l 伽s 1 0 骶= e u t ) ll a 瑚c i t z = t l 血t 。h e = 矗r 。 l| | 矗毪罗。# 嚣急善。嗍器! 憾孕嚅 s * e ;o u 。d n o i i 苗蠡v 。i i s = wm 越 助i :。l 。s i e 啦勺c t 姘口羁z a l l w 仁。0 。s 删,i nm s = 勺。s c 肛n nj i 血s = 勺。黯鼬b s :0 t l 耻2 。罚鲫嘎d 啊:2 。叮日- h t c 准勺。 ,n 埘i 黔 ll 口u m6 工v ni 胙勺i 可。瓤嘲啪:1 砒i t t 。p 0 s m 0 扛o u t 矗d d _ 嘲s = 豫。 lll懈甜 r 赴蛞。2 7 。盯b b = l “。腓。1 t 。t s = + 3 6 。加珊衅。t 1 。t g i t l ! e = o 傩_ | t 醛= m = 1 。 。 s t e 址蠡。i 。c 黼咖* 5 = 勺s c 虹n 旺j 叮s = rs n 工c u t s = 。删e 宰。t i l 置# 1 。 s t r i l = 1 ( _ o g t = 1 m 盯r i t c 舻o q n m ll 口u m 倪脚j 旺= d d - 丑啊职1 i l l i l 5 。加沈。车。嘶t “d r 融z s = 。1 2 r li i 拶 i 嚣暨蒋:器8 怒逢? 甏鬈。器嚣:罗器监箍,磷:篙罂专篡紧 靠礤日l o 耵= 。帕mb im c 肛勺。 ,玎j 矗t ) l 管器翳张鬈静l 冀劳勰落哿嚅簦节品黼强罐器r 俳麓:;一 c i 脱口一雏e u 琳- 3 。s c 缸f 工血艋r s = 1 7s 脚磁【旺s :- 8 e 拙0 e s :- 5 。i t k l i c s = 豇m a l 舢t = 筛 叮mp i l c 卑。6 。 ll 口l m 缸啪j e 仁。 丑打蜘n 肫:。钿l m 。p r 五- t t t o g :;。f i r s tt “。c , k i i f - e 1 5 3 。躺钉斌r e 缸。 l s i 盯j 了s 三5 硒。删啦。1 0 3 舡t s = 。1 6 r 加l 】b l z s = 。2 7 t l i i p 盥= 。t 啪j m 出4 4 髓i = 1 2 l s t z l s , t 4c 吲口珂 【瓣。6 。s c 舡册j 叮s = l o 。s c 缸眦j 虹e s = 乍。蜘e 鼻。1 1 t 址枣4 口础c x - 0 l r r = l 。t 且p i t c 。5 。 ( ,p - a t 口o l l0 。? q u q 目, 图2 1x m l 文档b a s e b a l l x m l 9 武汉理工大学硕士学位论文 x m l 文档显示的格式在图2 2 所示的样式单b a s e b a l l x s l 中进行说明。 a _ l l n - - 10 。7 ) q s ls t y l e s h n tx 1 n l1 1 1 ;t p :l l m 3 盯n ,h d 缸搴1t 哪l l t eh i t c h = 。) o l o 卧d _ 缸z ) 矗虹。f - d - d e e t = l s “r q l lv d u e - o fs a l e c t = 1 喇嫩y q x d :f r c h j 竹l e 扣l t s “- ns t s t i hc i “t 】n 工,艟柚 n t t lf 。r e t c hs d t c t = z r 伽 q 1 1 :t 1 fs e l e c t = 。g i l f r d l r 。, j 蚶l l u “us t l t i s t i c s q nf o r t c ht t l t e t = 。让 g 呱。 o 口 l 工6 # 。旺n r q dy 1 一o fs d t - 1 置 肛。, ( ,扼 & ,1f o r t c hs 1 c t :。v i s 工0 r 6 百= 髓耵n 。) & d ,d u e - o f d c t - 1 i 腿- ,w 瑚 o s lf o r 一出x t l e c 仁。俚墉) 日“ l 骺口1 t 珏。 & l l :v 1 , u e - e fs 3 e e t = 誓础- , 电吐:v 1 w - o - d c t 。铂眦v m a _ b l l 仰 m 订槐蚪, d a d q n d a d 钾n d c r d 岱 口研 q d d a k ) 蓝n d 口脚,玎d 口m 搬 ,n 睁a j ) z 蜘w 矗d t 口r t 吐t 1 t t - l h 吐。 a e 锄 屯- 1n l n l - o f , _ x e c t = 。缸恤n n , 矗i l ,d 耻一ft d c t 1 翻脚啪7 m a d 地dr h r o ft d l e t = 。- h 8 m o r 口d 矗1 1r d 帅fs d c t :。删嚣。, 电l l ,山_ “s e l e c t = 。 畦s l 蛆m 。, ( ,加 铀 矗1 1 1 q r o f ;e l e c t = 。0 盯j i s 。, & 17 d 川o f l e c t :。眦t s 。, ( ,t d 矗1r h r o fs e l e c t = 。0 加l j 丑t 巧,) o t d 锄 矗s lw l u , - o fs * l c t :。唧腿。,皿 锄 矗dr d o fi c t = 。e m _ e 砒口b 。, ,r d a d 矗t 1 ,d 州ft 毫l c t :4 髓i ,t d ) 锄 矗i l ,i 州fs | 1 e c t = 。虹t e 塔。, ( ,t d 铘) 伽 m 矗1 1f h r o fl d t c t = 豁 亡n 旺n t s 。, ( ,t d m 屯1 1 :v d a r o f ! e l e c t :。雌 c 舡n c i j i i e - , 矗1 1r 1 u r o fs e l e c t = 耶船。, ( ,皿) 铘 矗l lv 1 fs e l e c t = 。朋 璐, 电d r 山- “1 c t _ 。鲢t 宣唧v ,如 订d 电d :,1 u r fs d e c t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论