(计算机应用技术专业论文)面向xml文档的数据挖掘技术研究.pdf_第1页
(计算机应用技术专业论文)面向xml文档的数据挖掘技术研究.pdf_第2页
(计算机应用技术专业论文)面向xml文档的数据挖掘技术研究.pdf_第3页
(计算机应用技术专业论文)面向xml文档的数据挖掘技术研究.pdf_第4页
(计算机应用技术专业论文)面向xml文档的数据挖掘技术研究.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(计算机应用技术专业论文)面向xml文档的数据挖掘技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京化工大学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本 论文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 作者签名:煎盔蜜 日期: 型7 :五:翌 关于论文使用授权的说明 学位论文作者完全了解北京化工大学有关保留和使用学位论文 的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北 京化工大学。学校有权保留并向国家有关部门或机构送交论文的复印 件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编 学位论文。 保密论文注释:本学位论文属于保密范围,在土年解密后适用 本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授 权书。 作者签名: 掐塞霍 导师签名:j 牡 学位论文数据集 中图分类号 3 9 学科分类号 5 2 0 6 0 论文编号 1 0 0 1 0 2 0 0 4 0 9 0 7 密级无 学位授予单位代码 1 0 0 1 0 学位授予单位名称北京化工大学 作者姓名梅东霞学号 2 0 0 4 0 0 0 9 0 7 获学位专业名称计算机应用技术获学位专业代码 0 8 1 2 0 3 课题来源省、市、自治区项目研究方向 数据挖掘 论文题目面向x m l 文档的数据挖掘技术研究 关键词数据挖掘,x m l ,标记路径,概念层次树 论文答辩日期2 0 0 7 年6 月7 日论文类型应用研究 学位论文评阅及答辩委员会情况 姓名 职称 工作单位学科专长 指导教师张晓明副教授北京石油化工学院数据挖掘、信息隐藏 评阅人1赵国庆副教授北京石油化工学院计算机网络 评阅人2赵英教授北京化工大学计算机网络 评阅人3 评阅人4 评阅人5 答辩委员会主席赵英教授 北京化工大学 计算机网络 答辩委员1林小竹教授北京石油化工学院图像处理 答辩委员2张宁教授北京石油化工学院光纤通信 答辩委员3 余有明 副教授北京石油化工学院计算机网络 答辩委员4 答辩委员5 注:一论文类型:1 基础研究2 应用研究3 开发研究4 其它 二中图分类号在中国图书资料分类法查询 三学科分类号在中华人民共和国国家标准( g b t1 3 7 4 5 - 9 ) 学科分类与代码中 查询 四论文编号由单位代码和年份及学号的后四位组成。 l a - t - 0 , 摘要 面向x m l 文档的数据挖掘技术研究 摘要 随着越来越多的数据以x m l 文档进行存储,在这些数据中隐含着 大量的知识信息与各类模式,因此,人们基于x m l 的数据挖掘应运而 生。面向x m l 的数据挖掘包括对x m l 结构上的挖掘和对x m l 内 容上的挖掘两种,对x m l 结构上的数据挖掘是文章的研究重点。 在基于单个x m l 文档结构的关联规则挖掘中,通过对x m l 文 档进行分析研究发现,具有挖掘价值的数据通常是那些出现频度较高 的数据或数据类型,因此找出在文档中频繁出现的数据是挖掘的根本 任务。由于x m l 文档可以看作是一个层次树形结构,具体数据也就 是树的叶结点,数据的存储必须由根结点沿着某条路径到叶结点而取 得,因此,对x m l 文档的挖掘首先可以考虑通过挖掘其路径而得到。 在基于概念层次树和x m l 的数据挖掘研究中,最终的目的是发 现x m l 文档的频繁子树及频繁子树上结点的有趣关系。因此,必须 满足两个条件:一是它的出现必须超过某个预设的阈值;二是该路径 上的结点是与挖掘任务相关的。如何判断某些频繁出现的路径是有挖 掘价值的,可以为感兴趣的数据引入概念层次树。若某路径上对应的 数据不能在概念层次树上找到更为抽象的定义,无法对该数据进行概 化操作,则认为其是与挖掘任务关系不大的,执行剪枝操作。使用概 念层次树的基本思想是:首先,一个属性的较具体的值被该属性和概 念层次树中的父概念所代替;然后,对x m l 中出现的相同子树进行 t 北京化工大学硕士学位论文 合并,如果x m l 中生成的子树数目仍然很大,那么用这个属性的概 念层次树中更一般的父概念去替代。 关键词:数据挖掘,x m l ,标记路径,概念层次树 j - a b s t ra c t r e s e a r c ho fd a t am i n i n gt e c h n i q u e sf o r x m ld o c u m e n t s a bs t r a c t d a t ai ss t o r e da sx m ls t y l e ,al o to fk n o w l e d g ea n da l lk i n d so f p a t t e r n sc a nb ee x t r a c t e df r o mt h ed a t a s ox m l d a t am i n i n gc o m ei n t o b e i n g r e s e a r c h o fd a t am i n i n gt e c h n o l o g yf o rx m ld o c u m e n t s i n c l u d e sd a t am i n i n go ns t r u c t u r e sa n dc o n t e n t so fx m l i nt h ea s s o c i a t i o nr u l e m i n i n gb a s e do ns i n g l ex m ld o c u m e n t , t h r o u g ha n a l y z i n gt h ex m ld o c u m e n t ,t h ev a l u a b l ed a t ai su s u a l l yt h o s e d a t ao rd a t at y p eo fh i g hf r e q u e n c y s ot h ep r i m a r yt a s ki st of i n dt h e s e d a t a b e c a u s ex m lc a nb es e e na sah i e r a r c h yt r e e ,t h ed a t ai sl e a fn o d e o ft r e e t h ed a t am u s tb eg o tf r o mar o o tt oal e a fa l o n gap a t h h e n c ew e c a nc o n s i d e rm i n i n gd a t af r o mt h ep a t ho fx m l i nt h er e s e a r c ho fd a t am i n i n gb a s e do nh i e r a r c h yt r e ea n dx m l , p r i m a r yp u r p o s ei st of i n do u tt h ef r e q u e n ts u b - t r e ea n dt h ei n t e r e s t i n g r e l a t i o n s h i p sa m o n gt h en o d e s o fs u b - t r e e s o ,i tm u s t s a t i s f yt w o c o n d i t i o n s o n ei st h a ti tm u s te x c e e dat h r e s h o l d ;t h eo t h e ri st h a tt h e p a t h i sa s s o c i a t i o nw i t ht h et a s ko fm i n i n g t h eh i e r a r c h yt r e eo f i n t e r e s t i n gd a t am u s tb eu s e di nd e c i d i n gt h ef r e q u e n ti n t e r e s t i n gp a t h i f 。thed a t ao fap a t hc a nn o tb e e nf o u n di nt h ea b s t r a c t o rd e f i n i t i o n ,t h e ni ti s n o tg e n e r a l i z e da n di sp r u n e d t h eb a s i cp r i n c i p a lo fh i e r a r c h yt r e eh a s 北京化工大学硕士学位论文 t w os t e p s f i r s t l yt h ev a l u eo fa t t r i b u t em u s tb er e p l a c e db yt h ef a r t h e r c o n c e p t i o no ft h eh i e r a r c h yt r e e s e c o n d l y , t h es a m es u b t r e em u s tb e e n l m e r g e d i ft h en u m b e ro fs u b - t r e eo fx m l i sm o r ea n dm o r e ,t h ev a l u e m u s tb er e p l a c e db yt h ea b s t r a c t e rc o n c e p t i o n k e yw o r d s :d a t a m i n i n g ,x m l ,l a b e lp a t h ,c o n c e p t i o nh i e r a r c h y i v t r e e 目录 目录 第一章绪论。1 1 1 研究背景及意义1 1 2 国内国外研究状况和进展2 1 2 1x m l 的提出及研究发展状况2 1 2 2 数据挖掘技术的研究发展状况2 1 3 本文研究内容及组织结构3 第二章x m l 与数据挖掘5 2 1x m l 技术概述5 2 1 1x m l 的简介5 2 1 2 ) ( m l 语法7 2 1 3x m l 应用技术9 2 2 数据挖掘技术概述1 0 2 2 1 数据挖掘的定义1 0 2 2 2 数据挖掘的功能和常用技术1 0 2 2 3 数据挖掘的流程1 2 2 2 4 数据挖掘的应用1 3 2 3 面向x m l 的数据挖掘1 4 2 3 1x m l 结构上的挖掘1 4 2 3 2x m l 内容上的挖掘1 6 第三章a p r i o r i 算法的分析和改进1 7 3 1 基本概念与定义1 7 3 2 算法描述1 9 3 3 算法改进2 0 3 3 1 基于数据分割( p a r t i t i o n ) 的方法2 0 3 3 2 基于散列( h a s h ) 的方法2 1 3 3 3 基于采样( s a m p l i n g ) 的方法2 1 3 3 4 基于事务压缩的方法2 2 v 北京化工大学硕士学位论文 3 3 5 动态项集计数2 2 3 3 6 频繁模式增长方法2 2 3 4 小结2 2 第四章基于单个x m l 文档的数据挖掘研究。2 5 4 1 基于单个x m l 文档的关联规则挖掘方案设计2 5 4 1 1x m l 文档的挖掘过程2 5 4 1 2 收集x m l 文档的频繁路径2 7 4 1 3 特殊结构的x m l 文档2 8 4 2 算法设计2 8 4 2 1 算法流程2 8 4 2 2 算法描述2 9 4 3 实验设计与结果分析“3 1 4 3 1 实验方案设计3 1 4 3 2 实验结果及其分析3 1 4 4 由频繁集产生关联规则3 3 4 5 小结3 5 第五章一种基于概念层次树和x m l 的数据挖掘算法研究3 7 5 1 基于x m l 的数据挖掘算法3 7 5 2 引入概念层次树的基于x m l 的数据挖掘算法3 8 5 2 1 概念层次及概念层次树3 8 5 2 2 算法的基本思想3 9 5 3 算法流程4 1 5 4 实验及结果分析4 3 5 5 小结4 6 第六章总结与展望4 7 6 1 本文总结4 7 6 2 工作展望4 7 参考文献 4 9 目录 致 射。5 3 攻读学位期间发表的学术论文目录。5 5 作者和导师简介5 7 v n 膺 c o n t e n t s c o n t e n t s c h a p t e r 1i n t r o d u c t i o n 1 1 1b a c k g r o u n da n dr e l a t e dw o r k 1 1 2s t a t eo ft h ea r t 2 1 2 1s t a t eo ft h ea r ti nx m l 2 1 2 2s t a t eo ft h ea r ti nd a t am i n i n g 2 1 3c o n t e n t so fr e s e a r c ha n dl a y o u to fp a p e r 3 c h a p t e r 2x m la n dd a t am i n i n g 2 1i n t r o d u c t i o no fx m l 5 2 1 1s u m m a r yo fx m l 5 2 1 2s y n t a xo fx m l 7 2 1 3a p p l i c a t i o nt e c h n i q u e so fx m l 9 2 2i n t r o d u c t i o no fd a t am i n i n g 1 0 2 2 1d e f i n i t i o no fd a t am i n i n g 1 0 2 2 2f u n c t i o na n dt e c h n i q u e so fd a t am i n i n g 1 0 2 2 3f l o wo f d a t am i n i n g 1 2 2 2 4a p p l i c a t i o no fd a t am i n i n g 1 3 2 3d a t am i n i n gf o rx m l 1 4 2 3 1m e t h o d so fx m ls t r u c t u r em i n i n g 1 4 2 3 2m e t h o d so fx m lc o n t e n tm i n i n g 1 6 c h a p t e r 3a n a l y s i sa n di m p r o v e m e n t o f a p r i o r i 1 7 3 1b a s i cd e f i n i t i o n 1 7 3 2d e s c r i p t i o no f a l g o r i t h m 1 9 3 3o p t i m i z a t i o no f a l g o r i t h m 2 0 3 3 1a l g o r i t h mb a s e do np a r t i t i o n 2 0 3 3 2a l g o r i t h mb a s e do nh a s h 2 1 3 3 3a l g o r i t h mb a s e do ns a m p l i n g 2 1 3 3 4a l g o r i t h mb a s e do nr e d u c e dd a t a b a s e 2 2 i x 北京化工大学硕士学位论文 3 3 5a l g o r i t h mb a s e do nd y n a m i cd a t as e t 2 2 3 3 6a l g o r i t h mb a s e do nf r e q u e n tp a t t e r nt r e e 2 2 3 4c o n c l u s i o n s :1 2 。 c h a p t e r 4r e s e a r c hf o rd a t am i n i n gb a s e do ns i n g l ex m l 2 5 4 1d e s i g no f a s s o c i a t i o nr u l em i n i n gf o rx m l 2 5 4 1 1p r o c e s so fd a t am i n i n gf o rx m l 2 5 4 1 2f r e q u e n tp a t h so fx m l 2 7 4 1 3x m lo fs p e c i a ls t r u c t u r e 2 8 4 2d e s i g no fa l g o r i t h m 2 8 4 2 1h o wo fa l g o r i t h m 2 8 4 2 2d e s c r i p t i o no fa l g o r i t h m 2 9 4 3e x p e r i m e n t sa n de v a l u a t i o n 3 1 4 3 1d e s i g ne x p e r i m e n t 3 1 4 3 2e x p e r i m e n t a lr e s u l t sa n de v a l u a t i o n 3 1 4 4a s s o c i a t i o nr u l e sf r o mf r e q u e n ti t e m s 3 3 4 5c o n c l u s i o n s 3 1 ; c h a p t e r5r e s e a r c ho fd a t am i n i n gf o rt e c h n i q u e sb a s e do nx m l a n dc o n c e p t i o nh i e r a r c h yt r e e 3 7 5 1a l g o r i t h mo fd a t am i n i n gf o rx m l 3 7 5 2a l g o r i t h mb a s e do nx m la n dc o n c e p t i o nh i e r a r c h yt r e e 3 8 5 2 1c o n c e p t i o nh i e r a r c h yt r e e 3 8 5 2 2b a s i ci d e ao f a l g o r i t h m 3 9 5 3h o wo fa l g o r i t h m 4 1 5 4e x p e r i m e n t a lr e s u l t sa n de v a l u a t i o n 4 3 5 5c o n c l u s i o n s 4 6 c h a p t e r 6c o n c l u d i n gr e m a r k sa n df u t u r ew o r k 4 7 6 1c o n c l u d i n gr e m a r k s 4 7 “ 6 2f u t u r ew o r k 4 7 x c o n t e n t s r e f e r e n c e s 4 9 a c k n o w l e d g m e n t s t 5 3 s c i e n t i f i cp a p e r sp u b l i s h e d 5 5 a u t h o r sp r o f i l e 5 7 x i 第一章绪论 1 1 研究背景及意义 第一章绪论 随着数据库和计算机网络的广泛应用,数据库中存储的数据量急剧增大,激 增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层的分析,以 便更好的利用这些数据。但传统的数据分析方法,很难对数据进行深层次的处理, 无法发现数据中存在的内在关系和隐含信息,无法根据现有数据预测未来的发展 趋势。以指数级增长的数据与人们从中获取的知识之间形成强烈的反差,导致了 “数据爆炸但知识贫乏的现象,这需要新的技术来“智能地 和“自动地 分 析海量的原始数据,以使消耗大量财力和物力收集与整理的宝贵资源一数据,能 够得以充分利用。数据挖掘( d a t am i n i n g ) 的理论和技术研究就是满足这种要求 而产生并迅速发展的新的研究方向i 。 x m l 的全称是可扩展标记语言( e x t e n s i b l em a r k u pl a n g u a g e ) ,是s g m l ( 标 准通同标记语言,s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ) 的一个子集。总的来 说,x m l 是一种中介标示语言,可提供描述结构化资料的格式;详细来说,x m l 是一种类似于h t m l ,被设计用来描述数据的语言。x m l 已经成为数据表示的 一种开放标准,独立于机器平台、提供综合编程语言,从而在不同的系统、不同 的数据库、不同的语言之间搭起沟通的桥梁。 x m l 和数据挖掘都是近几年兴起的新技术,在网络与数据库等方面发挥了 重大作用,而两者的结合能够应用到更多领域,例如:w e b 服务、电子商务、图 书馆和医学等。x m l 促进了信息间的交流,为数据挖掘提供了更广阔的信息平 厶 口。 由于x m l 是一类半结构化的文本数据,与生具有文本文档和半结构化数据的 诸多弱点,如解析文档时必须采用顺序读取的方式,访问效率不高;对信息的组 织不规则,或者其结构可能经常变化,甚至可能不完整等。而传统的数据挖掘技 术主要面对的是以结构化数据为主的关系数据库、事务数据库和数据仓库,这样, 不能直接将传统的基于关系数据库的挖掘方法,如a p r i o d ,应用到半结构化数 据挖掘中。因此,开发出有效的针对x m l 的挖掘方法成为数据挖掘领域和x m l 技术领域的一项重要课题。 北京化工大学硕士学位论文 1 2 国内国外研究状况和进展 1 2 1x m l 的提出及研究发展状况 1 9 9 8 年2 月万维网协会( w 3 c ) 设计了x m l ,它是s g m l 的一个子集,是针 对s g m l 和h t m l 的局限性而创立的。它既具有s g m l 的强大功能和可扩展性, 同时又具有h t m l 的简单性。s g m l 中所有非核心的、未被使用的和含义模糊 的部分都被删除,剩下的就成为短小精悍的标记工具x m l 。x m l 保留了s g m l 8 0 的功能,而其复杂程度则降低到原来的2 0 ( x m l 的规范只有2 6 页,而当 初s g m l 的规范却长达5 0 0 页之多) 。 x m l 不像h t m l 那样仅仅应用于w e b 站点,它在电子商务、数据库、知 识管理、数据交流与共享、自然语言转换等方面都有广泛应用。2 0 0 0 年以后x m l 在计算机科学外的科技领域也得到了应用。例如m a t h x m l ( 数学x m l ) 、c m l ( 化学x m l ) 、a m l ( 天文x m l ) 等语言f 2 】【3 1 ,它们使得专业语言的表示不再 困难。 1 2 2 数据挖掘技术的研究发展状况 1 9 8 9 年举行的第十一届国际联合人工只能学术会议上首次提出了从数据库 中发现知识( k d d ) 一词。到1 9 9 9 年为止,由美国人工智能协会主办的k d d 国际研讨会已经召开了8 次,规模由原来的专题讨论会发展到国际学术大会,研 究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及 多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议 题之一,成为当前计算机科学的一大热点。 此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷 纷开辟了k d d 专题或专刊。i e e e 的k n o w l e d g ea n dd a t ae n g i n e e r i n g 会刊领先 在1 9 9 3 年出版了k d d 技术专刊,所发表的几篇论文代表了当时k d d 研究的最 新成果和动态,较全面地论述了k d d 系统方法论、发现结果地评价、k d d 系统 设计地逻辑方法,集中讨论了鉴于数据库的动态冗余、高噪声和不确定性、空值 等问题,k d d 系统与其它传统的机器学习、专家系统、人工神经网络、数理统 计分析系统的联系和区别,以及相应的基本对策1 4 1 。 不仅如此,在i n t e m e t 上还有不少k d d 电子出版物,其中以半月刊k n o w l e d g e d i s c o v e r yn u g g e t s 最为权威,另一份在线周刊为d s * ,1 9 9 7 年1 0 月7 日开始出 版。在网上还有一个自由论坛d me m a i l c l u b ,人们通过电子邮件相互讨论 d m k d 4 l 的热点问题。而领导整个潮流的d m k d 开发和研究中心,当数设在美 2 第一章绪论 国e m d e n 的m m 公司开发部。 与国外相比,国内对数据挖掘的研究稍晚,没有形成整体力量。1 9 9 3 年国 家自然科学基金首次支持对该领域研究的项目。目前,国内的许多可以单位和高 等院校竟相开展数据挖掘的基础理论及其应用研究,这些单位包括清华大学、中 科院技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程 研究所对模糊方法在知识发现中的应用进行了较深入的研究;北京大学在开展对 数据立方体代数的研究;南京大学、四川大学和上海交通大学等单位探讨和研究 了非结构化数据的知识发现以及w e b 数据挖掘。 2 0 0 0 年以后,国内外把x m l 和数据挖掘结合起来的研究逐渐增多。根据 x m l 文档的特点及的挖掘目标,当前x m l 挖掘的研究可分为结构挖掘和内容 挖掘两类。所谓结构挖掘,是指将每一个x m l 的结构看作是一棵有限、有序的 标记树,在此基础上对树的挖掘。树的挖掘作为频繁结构挖掘的一种,与关联规 则挖掘和序列挖掘由明显的联系,也牵涉到了树的同构和树的模式匹配。此外, 一些学者根据x m l 文档的结构特征,对其分类、关联、聚类等挖掘方法进行了 探索。 x m l 的内容指的是文档中每个开始标记和结束标记之间的文本部分,对其 内容的挖掘其实也是对标记的值的挖掘。目前,x m l 的内容挖掘主要有三种途 径【5 】:第一种是通过一些专门为x m l 数据或半结构化数据开发的查询语言,如 x m l - q l 、x m l - g l 、x q u e r y 等,利用其查询功能,嵌入到其他应用程序中, 从而获得数据集进行挖掘。这种方法的优点是能够将x m l 技术与数据挖掘技术 紧密结合起来,但不足也是显而易见的,比如修改困难、查询开销巨大等。第二 种是将x m l 文档的数据结构化,映射到现有的关系模型或对象模型中,从而可 以使用较成熟的数据挖掘方法对其进行挖掘。 但是x m l 本身的一些半结构化特点可能会导致在映射过程中产生一些问 题。最后一种解决方法是将x m l 文档看作是一个文本,进而使用传统文本挖掘 技术进行挖掘。如使用矢量空间模型( v s m ) 将文档空间看作是由一组正交词条矢 量所组成的矢量空间,通过统计词频、缩减维数等步骤,达到机器学习、获得知 识的目的。但这种方法并没有考虑到x m l 文档仍存在一些结构化的特征。此外, 数据量大、数据过于详细也会导致文档的特征向量巨大,造成挖掘困难。 1 3 本文研究内容及组织结构 本文立足于文档领域,以x m l 挖掘为应用背景,研究、探讨了面向x m l 文档的挖掘技术。基本出发点是充分发挥传统数据挖掘中成熟丰富的技术优势, 兼顾x m l 文档的结构特点,实现二者的紧密结合,最终达到能够对x m l 文档 3 北京化工大学硕士学位论文 进行简便、有效的挖掘这一目的。 课题主要研究了面向x m l 文档结构的数据挖掘,把关联规则应用于针对 x m l 的挖掘领域。 论文的组织结构如下: 第一章为绪论部分,简介了基于x m l 的数据挖掘技术在国内外的发展现 状,及其最新成果。 第二章简要概述了x m l 和数据挖掘技术,以及基于x m l 的数据挖掘技术。 第三章数据挖掘经典算法的研究和改进,介绍了a p r i o r i 算法的基本概念和 定义,以及算法的改进,包括基于数据分割的方法、基于散列的方法、基于事务 压缩方法、动态项集计数法、频繁模式增长方法。 第四章基于单个x m l 文档的数据挖掘研究。包括基于单个x m l 文档的关 联规则挖掘方案设计、算法设计、实验设计与结果分析。 第五章一种基于概念层次树和x m l 的数据挖掘算法。包括基于x m l 的数 据挖掘算法、引入概念层次树的基于x m l 的数据挖掘算法、算法流程、实验及 结果分析。 第六章对研究的算法进行了总结。 4 第二章x m l 与数据挖掘 2 1x m l 技术概述 第二章x m l 与数据挖掘 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记性语言) 是由w 3 c ( w o r l d w i d ew e b c o n s o r t i u m ,互联网联合组织) 于1 9 9 8 年2 月发布的一种标准,同h t m l 一样是特别为w e b 应用服务的s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u p l a n g u a g e ,标准 通用标记性语言) 的一个简化子集。总的来说,x m l 是一种中介标记语言 ( m e t a m a r k u pl a n g u a g e ) ,可提供描述结构化数据的格式,详细来说,x m l 是一 种类似于h t m l ,被设计用来描述数据的语言。 2 1 1x m l 的简介 h t m l ( 超文本标记语言) 是s g m l 的一个实例化的子集,是一种简单的 标记性语言,它对w e b 的发展起到了至关重要的作用,但是随着新型领域的兴 起,用户发现h t m l 过于简化s g m l ,它只能显示内容而不能很好地表达数据 内容;而且它不能描述矢量图形、数学公式、化学符号等特殊对象,在数据显示 方面的描述能力也存在不足;另外最重要的是:它是一个实例化的子集,可扩展 性差,用户不能灵活自定义有意义的标签【6 1 1 7 1 1 引。w e b 需要一种在数据交换上具 有更通用性的手段,x m l 正是为解决这些需求而应运而生。 x m l 将s g m l 的丰富功能与h t m l 的易用性结合到了w e b 的应用中,以 一种开放的自我描述方式定义了数据结构,在描述数据内容的同时能突出对结构 的描述,从而体现出数据之间的关系。x m l 解决额h t m l 不能解决的两个w e b 问题,即i n t e r a c t 发展速度快而接入速度慢的问题;以及可利用的信息多,但难 以找到自己需要的那部分信息的问题。x m l 自描述的能力能增加数据结构和语 义信息,可以使x m l 文档成为机器可读的结构化文档1 9 j ,这样计算机和服务器 可以即时处理多种形式的信息。因此,运用x m l 的扩展功能不仅能从w e b 服务 器下载大量的信息,还能大大减少网络业务量。s g m l 、h t m l 、x m l 的进化关 系【9 】【1 0 】【l l l 见图2 - 1 。 5 北京化工大学硕士学位论文 图2 - 1s g m l 、h t m l 和x m l 的进化关系 f i g 2 1r e l a t i o n s h i po fs g m l 、h t m l a n dx m l f 翳9 垂妻,2 ( 孽3 c ) 联瓣整装貉忍 锹缀矗成 x m l 提供了一种独立的运行程序的方法来共享数据,它能使计算机通信把 i n t e m e t 的功能由信息传递扩大到人类其他多种多样的活动中去。 ( 1 )简单。x m l 经过精心设计,整个规范简单明了,它由若干规则组成, 这些规则可用于创建标记语言,并能用一种常常称作分析程序的简明 程序处理所有新创建的标记语言。x m l 创建了一种人类和机器都能读 出和写入的“世界语 ,使人类和机器都能容易地理解文档。 ( 2 )开放。x m l 是s g m l 地一个简化子集,在市场上有许多成熟地软件 可用来帮助编写、管理等,开放式标准x m l 的基础是经过验证的标 准技术,并针对网络做最佳化。众多业界项尖公司,与w 3 c 的工作 群组并肩合作,协助确保交互作业,支持各种系统和浏览器上的开发 人员、作者和使用者,以及改进x m l 标准。x m l 文档自身也较为开 放,任何人都可以对一个结构良好的x m l 文档进行语法分析。 ( 3 )高效且可扩充。x m l 支持复用文档片断,使用者可以发明和使用自己 的标记,也可与他人共享,可延伸性大,在x m l 中,可以定义无限 量的一组标记。使用几个附加的标准,用户可以对x m l 进行扩展, 这些附加标准可以向核心的x m l 功能集增加样式、链接和参照能力。 ( 4 )国际化。x m l 标准国际化,且支持世界上大多数文字。这源于它的统 一代码的新编码标准,这种编码标准支持世界上所有以主要语言编写 的混合文本。因此,x m l 不仅能再不同的计算机系统之间交换信息, 而且能够跨越国界交换信息。 ( 5 )互操作性。由于x m l 是一种平台无关的标准,所以可以在多种平台 6 第二章x m l 与数据挖掘 上使用,而且可以用多种工具进行解释。因为文档的结构是相容的, 所以解释它们的语法分析器就可以以较低的费用建立。x m l 支持用于 字符编码的许多主要标准,允许它在全世界许多不同的计算环境中使 用。 2 1 2x m l 语法 每一个x m l 都有逻辑结构和物理结构。物理上,x m l 由称为实体的单元 组成。一个实体可以引用( r e f e r ) 其他实体,将它们包含在文件中。x m l 开始于“根 ( r o o t ) 或文件实体。逻辑上,x m l 由声明、元素、注释、字符引用和处理指令 组成,所有这些都在x m l 中用显示标记指明。 文档的逻辑结构包括元素和属性。它还包括交叉引用,这是指向文档其他部 分或外部对象的链接。这种链接植根于基本x m l 语言,但不依赖于x m l 链接 语言。当想在某处插入一张图、一个脚注或参考文献时,这种链接非常有用。 每个x m l 文档,不管是否具有一个d t d 、模式还是仅仅是良构的,都具有 某种预先定义的结构或模型。结构部件称为元素。元素包含信息或内容并且可能 包含其他元素( 它们可能既包含信息,又包含其他元素,也可能是空的) 。其中 有一个元素称为根元素,它包含所有其他元素。 有些元素具有利用属性添加的额外信息。属性可与标签或形容词相比,它们 还可能提供元数据一关于数据的数据。例如,如果你正在撰写关于各种型号的小 汽车,属性可能定义颜色、引擎动力,等等。根据文档的d

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论