(计算机软件与理论专业论文)本体在xml关联规则挖掘中的应用研究.pdf_第1页
(计算机软件与理论专业论文)本体在xml关联规则挖掘中的应用研究.pdf_第2页
(计算机软件与理论专业论文)本体在xml关联规则挖掘中的应用研究.pdf_第3页
(计算机软件与理论专业论文)本体在xml关联规则挖掘中的应用研究.pdf_第4页
(计算机软件与理论专业论文)本体在xml关联规则挖掘中的应用研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机软件与理论专业论文)本体在xml关联规则挖掘中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨工程大学硕士学位论文 摘要 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们拥有 和积累的数据越来越多。数据挖掘在最近几年里已被数据库界广泛研究和应 用,而关联规则的挖掘在其中占有很重要的地位,其在商务决策的制定方面 的应用很有前景,而由于x m l 文档结构上的特殊性,对x 2 m l 文档的关联 规则挖掘的研究还存在很多问题,而且想要产生多层次的挖掘结果也很难。 因此,本文提出一种将领域本体引入到x m l 文档挖掘过程中的算法基 于本体的x m l 关联规则挖掘算法。 首先,本文介绍了数据挖掘、x m l 和本体论的基本知识及相关技术。其 次,分析了x m l 在数据挖掘中的应用,介绍了面向x m l 文档的数据挖掘技 术,提出了将领域本体知识引入到数据挖掘中以得到更多层次的数据挖掘结 果,给出了基于本体的x m l 关联规则挖掘算法。该算法的优点在于:引入 领域本体知识,使关联规则的挖掘可以在更多层次上进行;将x m l 文档解 析后存入哈希表,可以提高扫描x m l 文档的速度;根据用户的要求将领域 本体解析后存入哈希表,不需要在每次查找领域知识时都到读取硬盘。最后, 对算法进行了理论上的分析,并且通过对给定数据的实验,验证了算法的挖 掘效果,论述了该算法的优点和不足。 关键词:数据挖掘;关联规则;本体:x m l 氅玺鎏三堡盔耋堡圭兰垡鎏兰 a b s t r a c t w i mt h e r a p i dd e v e l o p m e n to fd a t a b a s et e c h n o l o g y a sw e l l 嬲t h e w i d e s p r e a da p p l i c a t i o no f d a t a b a s em a n a g e m e n ts y s t e m ,t h ed a t ap e o p l eh a v ea n d a c c u m u l a t ei sm o r ea n dm o r e d a t am i n i n gi nr e c e n ts e v e r a ly e a r sh a sa l r e a d y b e e nw i d e l yr e s e a r c h e da n da p p l i e di nd a t a b a s ef i e l d , a n dm i n i n ga s s o c i a t i o nr u l e s i sp l a y i n gav e r yi m p o r t a n tr o l ei ni t a s s o c i a t i o nr u l e sh a v eag o o dp r o s p e c ti n t h ea p p l i c a t i o no f c o m m e r c i a ld e c i s i o n - m a k i n g b u td u et ot h ep a r t i c u l a rs t r u c t u r e o fx m ld o c u m e n t s ,t h e r es t i l lh a v em a n yp r o b l e m si nm i n i n ga s s o c i a t i nr u l e s f r o mx m ld o c u m e n t s 。m o r e o v e r i ti sa l s od i 伍c u l tt om i n em u l t i l e v e la s s o c i a t i o n r u l e s t h e r e f o r e ,a na l g o r i t h mw h i c hi n t r o d u c e sd o m a i no n t o l o g yi n t ot h ep r o c e s s o fm i n i n gx m ld o c u m e n t si sp r o p o s e di nt h i st h e s i s i ti sc a l l e do n t o l o g y - b a s e d a s s o c i a t i o nr u l e sm i n i n ga l g o r i t h mf r o mx m ld o c u m e n t s f i r s t t h ec o r r e l a t i o nt e c h n o l o g i e sa sw e l la se l e m e n t a r yk n o w l e d g eo fd a t a m i n i n g ,x m la n do n t o l o g ya l ei n t r o d u c e d s e c o n d l y , t h ea p p l i c a t i o no fx m l i n d a t am i n i n gi sa n a l y z e d a n dt e c h n o l o g i e sf o rm i n i n gx m ld o c u m e n t sa 托a l s o i n t r o d u c e d t h e nt h ea u t h o rp r o p o s e st h a tt h eo n t o l o g yk n o w l e d g es h o u l db e i n t r o d u c e di n t od a t am i n i n gt oo b t a i nm u l t i l e v e lr e s u l t s ,a n dp u t sf o r w a r d o n t o l o g y - b a s e da s s o c i a t i o nr u l e sm i n i n ga l g o r i t h mf i o mx m ld o c u m e n t s t h e m e r i t so ft h i sa l g o r i t h ma r ca sf o l l o w :t h ei n t r o d u c t i o no fd o m a i no n t o l o g y k n o w l e d g ee n a b l e st h ea s s o c i a t i o nr u l e sm i n i n gt ob ed o n eo nm u l t il e v e l s , a n d a f t e rt h ex m ld o c u m e n t si sp a r s e da n ds t o r e dt ot h eh a s c h et a b l e ,i tc o u l d g l t h a n c ct h es p e e do fs e a n i n gx m ld o c u m e n t s d o m a i no n t o l o g yi sp a r s e da n d s t o r e dt ot h eh a s ht a b l eb a s e do nt t s e r $ r e q u e s t s oi ti sd i s p e n s a b l et os e a r c h d o m a i nk n o w l e d g eo nh a r dd i s ke v e r yt i m e a tl a s t t h ea l g o r i t h mi sa n a l y z e d t h e o r e t i c a l l y , a n de x p e r i m e n t s a r cc a r r i e do nt ot e s tt h ee f f e c t so fm i n i n g a l g o r i t h mb a s e d0 1 1g t v e nd a t a , t h es t r e n g t h sa n dw e a k n e s s e so f t h ea l g o r i t h ma g e d i s c u s s e d k e y w o r d s :d a mm i n i n g ,o n t o l o g y , a s s o c i a t i o nr u l e s , x m l 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其它个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 作者( 签字) : 日期:沙刁年z 月2 1 e t 哈尔滨- i = 程大学硕士学位论文 1 1 课题来源概述 第1 章绪论 近年来,随着数据库技术的迅速发展以及数据库管理系统的广泛应用, 人们拥有和积累的数据越来越多。面对庞大的数据量,人们迫切希望将这些 数据转换成有用的信息和知识,从中找出规律和模式,以便更好地利用这些 数据,帮助人们进行决策和研究。传统的以数据库为中心,进行事务处理、 批处理及决策分析等各种类型的数据处理模式,已远远不能满足用户的需求。 数据挖掘( d a t am i n i n g ) 又被称为“数据库中的知识发现”( k n o w l e d g e d i s c o v e r yi nd a t a b a s e ,k d d ) m 作为新一代的、智能的辅助人类从海量数据 中发现有用知识的技术正是在这种背景下产生并迅速发展起来的。它已被越 来越多的领域所采用,并取得了较好的效果。目前,数据挖掘已经成为一个 国际前沿的研究领域,是数据库研究、开发和应用最活跃的分支之一。 w e b 技术自上个世纪9 0 年代出现以来,极大地改变了人们发布、获取 和使用信息的方式,尤其是近年来,以x m u 为基础的新一代w e b 环境的出 现,很好地兼容了原有的w e b 应用,而且可以更好地实现w e b 中的信息共 享与交换。其基于文本的方便性和半结构化特征使得x m l 在信息管理、电 子商务、个性化出版、移动通信、网络教育、电子文档交换等诸多领域得到 了广泛应用,而且其应用范围还在不断扩展。咀,已经开始成为i n t e m e t 上 数据描述和交换的事实标准。对于这些越来越多的采用x m l 文档格式进行 存储、交换和表现的数据,除了已有的信息抽取、w e b 搜索等信息处理方法 之外,人们越来越需要获取更进一步的、深层次的知识,这就需要对其进行 数据挖掘。 但是,正由于x m l 是一类半结构化的文本数据,与生具有文本文档和 半结构化数据的诸多弱点,如解析文档时必须采用顺序读取的方式,访问效 率不高;对信息的组织不规则,或者其结构可能经常变化,甚至可能不完整 等。而传统的数据挖掘技术主要面对的是以结构化数据为主的关系数据库、 l 哈尔滨工程大学硕士学位论文 事务数据库和数据仓库,这样,就不能直接将传统的基于关系数据库的挖掘 方法,如a p r i o r i ,应用到半结构化数据挖掘中。因此。开发出有效的针对 ) 口咀。的数据挖掘方法成为数据挖掘领域和x m l 技术领域的一项重要课题。 1 2 课题发展现状 基于本体的x m l 关联规则挖掘主要涉及到两方面的知识:x m l 数据 挖掘和本体,下面从这两个方面介绍目前的研究情况。 1 关于x 眦数据挖掘的研究 根据x m l 文档的特点及本文的挖掘目标,当前x m l 挖掘的研究可以 分为结构挖掘和内容挖掘两类。所谓结构挖掘,是指将每一个x m l 文档的 结构看作是一棵有根、有序的标记树,在此基础上对树的挖掘。由予对树的 研究起步较早,所以在这方面的研究成果比较多。树的挖掘作为频繁结构挖 掘的一种,与关联规则挖掘和序列挖掘有明显的联系,也牵涉到了树的同构 和树的模式匹配。对于频繁子树的挖掘,m j z a k i 采用了新的数据结构 s c o p e 1 i s t 和t r e e m i n e p ”算法来挖掘一个森林中的所有频繁子树,经过修改还 可以对未排序的树进行挖掘。a s a i 提出了f r e q t t - 算法用类似a p r i o r i 的方 法对树进行挖掘,其中产生待选子树的方法与z a k i 的方法比较相近“ a l e x a n d r e 等人研究出了2 步t r e e f i n d e r 方法m ,它首先识别树中的频繁标记 树,然后基于s u b s u m p t i o n i n c l u s i o n 理论检测最大频繁树。 此外,一些学者根据x m l 文档的结构特征,对其分类、关联、聚类等 挖掘方法进行了探索。m j z a k i 等人考虑了x m l 文档中结构化的信息,并 将其用于构造结构化规则来实现分类,提出了一种有效的结构化分类器 x r u l e s ,w a n gl i a n 等人根据数据的结构信息,利用距离矩阵的方法提出了 对多个x m l 文档进行聚类的方法”,。j a d q , ,a i r r o n 等人利用x q u e r y 和 ) 口甜l i 】l ”技术,结合传统挖掘方法,从结构与内容上对关联规则提取进行探 索。 x m l 的内容指的是文档中每个开始标记和结束标记之间的文本部分,对 其内容的挖掘其实也就是对标记的值的挖掘。日前,x m l 的内容挖掘主要有 三种途径:第一种是通过一些专门为x m l 数据或半结构化数据开发的查询 2 哈尔滨工程大学硕士学位论文 语言,如x m l - q l 、x m i 针对目前算法效果方面的不足,提出基于本体论的x m l 关联规则 挖掘算法 对传统算法进行分析后,发现它们存在的缺点是仅仅在数据内容上产生 规则,缺乏领域知识,产生大量无用的结论。为了解决这个问题,本次研究 的重点是在关联规则挖掘的过程中引入专家的领域知识。本体是知识表示的 一种形式,可以很好的将领域知识和关联规则挖掘算法结合起来,从而尽量 多的发现典型结构。基于本体的x m l 关联规则挖掘的优点还在于,它可以 在高层次和层次之间上迸行数据挖掘,产生多层次的规则,所以基于本体的 关联规则挖掘是多层关联规则挖掘的有效工具。最后用实例对算法进行了性 能分析和实验。 1 5 本文结构和组织 全文共分5 章,具体的结构为: 第l 章绪论 介绍本文的研究背景、意义、主要内容和结构组织。 第2 章相关技术概述 对数据挖掘、x m l 、本体论的概念和相关技术进行概述。 第3 章x m l 与数据挖掘 在第二章的基础上,分别介绍x m l 在数据挖掘中的应用、x m l 与关系 哈尔滨工程大学硕士学位论文 数据的转换技术及其难点,最后介绍面向x m l 的数据挖掘技术的概念、分 类等。 第4 章领域本体在x m l 关联规则挖掘中的应用 首先介绍本体构建的方法和本体的表示形式,其次,介绍领域本体的构 建步骤,介绍采用美国斯坦福大学的p r o t e g e3 2 本体构建工具来构建领域本 体,最后介绍基于本体的x m l 关联规则挖掘算法。 第5 章实验与性能分析 先从理论上对算法相对于其他x m l 关联规则算法的优点进行分析,运用 支持多平台的j a v a 开发语言实现基于本体的x m l 关联规则挖掘算法,然后 在相同的系统环境下,对算法进行实验加以验证,最后得出结论。 6 哈尔滨工程大学硕士学位论文 第2 章相关技术概述 随着数据库技术的迅速发展,人们对挖掘数据背后隐藏知识的需求日益 增长,因而推动了数据挖掘技术的快速发展。本章就数据挖掘的基本概念、 x m l 技术和本体论的基本理论进行了简要的介绍。 2 1 数据挖掘及相关技术 2 1 1 数据挖掘定义 随着数据库技术的迅速发展,数据快速堆积,但是挖掘海量数据背后隐 藏知识的方法却往往不如人意,从而导致了“数据爆炸但知识贫乏”的现象。 用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大 量数据背后的知识,这两者的结合促成了数据挖掘的产生。数据挖掘又被称 为数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) ,可以理解为是从 大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含 在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。而从 商业角度来看,其又可以描述为按企业既定业务目标,对大量的企业数据进 行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模 型化的先进有效的方法。 数据挖掘是一门交叉学科,涉及至4 机器学习、模式识别、统计学、智能 数据库、知识获取、数据可视化、高性能计算,专家系统等多个领域。数据 挖掘的成果可以用在信息管理、过程控制、科学研究、决策支持等许多方面, 从而达到提高市场决策能力、检测异常模式,或在过去的经验基础上预言未 来趋势等的目的。 2 1 2 数据挖掘的过程 数据挖掘过程大致可以分为三步:数据准备、数据挖掘、结果表述和解 7 哈尔滨工程大学硕士学位论文 释,如图2 1 所示。 圈2 1 数据挖掘的过程 1 数据准备 这个阶段又可进一步分成3 个子步骤:数据集成、数据选择和数据预处 理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语 义模糊性、处理数据中的遗漏和清洗脏数据等。数据选择的目的是辨别出需 要分析的数据集合,缩小处理范围,提高数据挖掘的质量。预处理是为了克 服目前数据挖掘工具的局限性。 2 数据挖掘 这个阶段进行实际的挖掘操作,包括的要点有: ( 1 ) 选择产生假设的方式; ( 2 ) 选择合适的工具; ( 3 ) 挖掘知识的操作; ( 4 ) 证实发现的知识。 矗 il。, 一一 一 r。 一一 r 一一 r。 哈尔滨工程大学硕士学位论文 3 结果表述和解释 根据最终用户的决策目的对提出的信息进行分析,把最有价值的信息区 分出来,并且通过决策支持工具提交给决策者。因此,这一步骤的任务不仅 是把结果表达出来( 例如采用信息可视化方法) ,还要对信息进行过滤处理。 如果不能令决策者满意,需要重复以上数据挖掘的过程。 2 1 3 数据挖掘的分类 数据挖掘可以从不同的角度进行分类,大致有以下四种分法: 根据挖掘的数据库类型分为:关系的、空间的、时间的、文本的和多媒 体的。 根据挖掘的知识类型分为;关联、聚类和特征化等。 根据所用的技术分为:神经网络、机器学习和统计学等。 根据应用分为:电信、金融、股票和超市等。 2 2x m l 及相关技术 2 2 1x m l 概述 x m l 的全称是可扩展标识语言。所谓标识,就是为了处理的目的,在数 据中加入的附加信息。应用标识法描述结构化数据的形式语言称为标识语言。 首先回顾一下x m l 的发展历史。x m l 有两个先驱s g m l ( 标准通用标 记语言,s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ) 和h t m l ( 超文本标记语言, h y p e r t e x tm a r k u pl a n g u a g e ) 。s g m l 的前身是m m 公司为解决公司内部大 量文档的交换和存储,于1 9 6 9 年发明的通用标识语言g m l 。经过十年的改 进,由g m l 发展为s g m l ,并在1 9 8 6 年被国际标准化组织公布为国际标准 i s 0 8 8 7 9 。s g 咖l 可用于创建各种不同的标识语言,为语法标识提供了最强大 的工具,同时具有良好的可扩展性,因此在分类和索引数据中非常有用。但 是,s g m l 非常复杂,其复杂程度不适合互联网上的应用。为此,在1 9 9 0 年产生了h t m l 语言。h t m l 是一个非常简单的s g m l 语言,句法简明紧 凑,功能强大,最早应用于网络信息传输,为推动互联网的发展以及信息和 9 哈尔浜工程大学硕士学位论文 知识在互联网上的交流发挥了不可替代的作用,目前i n t e r n e t 上大多数的w e b 页面仍然是用h t m l 语言书写的。但h t m l 自身的缺点限制了它的进一步 发展:h t m l 难以描述信息语义及其内部结构,不能适应日益增长的信息检 索要求和存档要求;h t m l 对表现形式的描述能力也不足无法描述矢量图 形、科技符号和一些特殊的显示效果;h t m l 松散的语法规范使得文档结构 混乱而缺乏条理;h t m l 的超级链接是单向的,只能在它的某一端( 源端) 定 义,并确定了它的另一端( 目的端) ,用户只能从源端起到目的端,等等。在 这种情况下,全球信息网协会w 3 c 于1 9 9 6 年组建了一个以来自s u n 的j o n b o s a k 为主席的工作组,希望创建新规范为软件开发人员和内容创作者提供 在网上组织信息的新工具,并希望能够确保在通过网络进行交互合作时,具 有良好的可靠性和互操作性,所以在1 9 9 8 年2 月,w 3 c 正式通过了x m l i 0 版本,2 0 0 0 年l o 月6 日公布了x m l l 0 第二版。 x m l 虽然起源于s g m l ,但是它摒弃了s g m l 复杂的特性,以一种开 放的自我描述方式定义数据结构,在描述数据内容的同时突出对结构的描述, 从而体现出数据之间的关系,具有可扩展性、简单性、开放性、互操作性。 支持多国语言等优点,从而能较好地解决h t m l 语言的缺陷,更适合在网络 环境下使用。另外,由于x m l 是一种元标记语言,可以用于定义其它与特 定领域有关的的标记语言,由它可以产生出许多种应用,如c m l ( c h e m i c a l m a r k u pl a n g u a g e ,化学标记语言1 、m a t h m l ( m a t h e m a t i c a lm a r k u pl a n g u a g e , 数学标记语言) 、s m i l ( s y n c h r o n i z e dm u l t i m e d i al a n g u a g e ,同步的多媒体集 成语言) 等等。 值得说明的是,x m l 并不是h t m l 的扩展,而是一种用于定义标记语 言的类似于s g m l 的语言。虽然它们都是s g m l 的子集。但它们之间有着 很明显的区别:h t m l 是为了页面中的内容显示而设计的,而x m l 是为了 表示页面中的内容的结构和语言来设计的;h t m l 是格式化语言,对要表示 的内容进行格式信息定义,对数据本身是没有理解的,而x m l 是结构化语 言,是对要表示的内容进行结构信息的定义,揭示文本的涵义;h t m l 文档 主要是供浏览器使用的,而x m l 文档可以允许任何的应用来进行读写、交 换、处理等操作;h t m l 是由一组固定的标记组成的,是不支持扩展性的, 而x m l 继承了s g m l 的可扩展性,允许用户根据自己的需要自定义标记: 1 0 哈尔滨工程大学硕士学位论文 h t m l 不要求结构完整性,而x m l 是必须要求文档的结构完整性,等等。 x m l 文件必须经过x m l 解释器( 也称为x m l 处理器) 的解释,才能 产生出所需要的数据,然后再对这些数据进行其它操作:包括显示、执行计 算或传送数据给其它系统实现数据交换等。许多软件供应商都开发了自己的 x m l 解释器,其中微软公司的i n t e m e te x p l o r e r 5 提供了内置的x m l 解释器 ( 即m s x m l ) ,从而提供了将x m l 信息集成到各类w e b 文件的方法。当然, x m l 本身并不能满足全部要求,建立在x m l 基础上的相关技术提供了更加 强大的功能,如x m l 链接语言( m i n k ) 、x m l 指针语言( x p o i n t e r ) 、可扩展样 式语言( ) 【s l ) 、x m l 查询语言及x m ls c h e m a 等。 2 2 2x m l 的主要特点 x m l 克服了h t m l 的种种不足,将互联网上的文档规范化,赋予标记 一定的含义,并保留了h t m l 所具有的简洁、适于传输和浏览的优点,集 s o m l 和h t m l 的优势于一身,成为下一代互联网发展的核心。具体地说, x m l 具备以下一些优点: ( 1 ) 可扩展性:x m l 提供了一个表示信息的框架。它允许信息提供者 根据自己的需求和意愿定义任意的标记,数据经过x m l 的处理之后,表达 方式简单易读,同时也易于由其它应用进行进一步的加工和处理。比如描述 与出版的书有关的信息时,需要描述书的书名、作者、译者、出版社等等, 就可以创建用于每一项的标记,对于不同的领域还可以根据不同需要来定义。 ( 2 ) 结构性:数据存储格式不受显示格式的制约,一般包括三个要素: 数据、结构以及显示方式。x m l 使用d t d ( 或x m ls c h e m a ) 规定一套关于标 记符号的语法、语义规则,比较准确地描述文件资料的内容、含义、结构、 特征和关系等信息,而把资料的外观表现形式交给样式表( 如c s s ,x s l 等) 处理,这样就把信息的内容和其表现形式合理地隔开,从而大大提高x m l 信息的可理解性、可交换性和重用性。 ( 3 ) 平台独立性:x m l 使用普通文本,而不是二进制的数据格式,具 有跨平台的优点,运用x m l 可以有效地解决新旧系统平台、不同应用系统 平台之间或者不同数据源之间的数据共享与交互问题。 哈尔滨工程大学硕士学位论文 ( 4 ) 自描述性:x m l 以显示语句和隐式嵌套结构描述结构化信息,任 何应用都可以方便访问其中的数据并清楚地了解到标记内容的含义,自描述 性使其非常适用于不同应用问的数据交换,而且这种交换是不以预先规定一 组数据结构定义为前提,因此,具备很强的开放性。 ( 5 ) 灵活性:x m l 文档中,数据、数据结构与文档的表现方式是分离 的,它与h t m l 的组织方式完全不同,结构化的数据通过可扩展的样式表 x s l 将数据呈现在不同的终端设备上,通过使用不同的x s l 模板可以将数 据方便地呈现在各种不同系统的羲| j 览器上,而在这些不同的应用上,数据本 身是一样的。 ( 6 ) 规范、简单性:x m l 与h t m l 一样,x m l 也是源于标准通用标 记语言s g m l ,它保留了s g m l 的8 0 的功能,而复杂性只有它的2 0 ,此 外,x m l 文档有一套严谨而简洁的语法结构,这为) ( 1 沮。解析器获取文档所 含信息提供了前提。 2 2 3d o m 与8 a x x m l 的实际应用有两个方面:对基于x m l 数据的处理以及具体行业的 x m l 标准化。文档对象模型( d o c u m e n to b j e c tm o d e l “d o m ”) 与x m l 简单应用编程接i ;3 ( s i m p l e a p if o r x m i “s a x ”) 是独立于具体实现语言 的接口定义标准,是x m l 编程的基石。 s a x 即简单应用编程接口,是基于事件的方式来处理x m l 文档。基于 事件是指s a x 为应用开发者提供了处理感兴趣的特定元素的方法,而不必要 求在应用层次处理之前预建元素。s a x 不必建立所有的元素,处理过程实时 进行。 使用s a x 首先需要使用s a x 的a p i 定义感兴趣的特定元素,当x m l 解析器遍历x m l 文档时,遇到该特定元素标记,则产生事件( 如s t a r t e l e m e n t ,e n de l e m e n t 等) ,该事件会驱动应用程序调用相应的程序, 开始处理该特定的元素。 d o m 即文档对象模型,是一种平台无关、语言无关的应用程序接口 ( a p i ) ,用对象模型来描述文档的结构。允许程序和脚本动态访问和更新文档 1 2 哈尔滨工程大学硕士学位论文 的内容、结构和风格。它提供了一套标准的对象来表示h t m l 和x m l 文档, 一个组合这些对象的标准模型,以及访问和处理它们的一个标准接口。 w 3 c 的d o m l c v e l l 定义了两组d o m 编程按口:基本接口与扩展接口。 基本接口包括写x m l 文档的操作,扩展接口为开发人员提供了更便利的编 程接口。 d o ml e v e ll 主要描述了三部分内容,它们分别是 ( 1 ) 定义表示和操作x m l 文档的接i :1 ( i n t f a c e ) 和对象( 0 b j 耐) ; ( 2 ) 接口和对象的语法,包括其方法和属性; ( 3 ) 接口和对象之间的关系与协同关系 d o ml e v e l 2 在l e v e l l 的基础上增加了以下内客:文档的抽象视图、对 象树的遍历、文档范围、普通样式单、层合式样式单等内容。另外,更重要 的是,i z v e l 2 增加了对结构化文档内部所定义的事件机制的支持。 x m ld o m 将x m l 文档解析成一个非常类似于树的逻辑结构,编程人 员可以使用d o m a p i 为x m l 文档建立树结构然后遍历树来控制元素、提取 信息或者进行任何类型的处理。 每个树结点有特定的结点类型,大多数x m l 文档中最普通的结点类型 是元素( e l e m e n t ) 、属性( a t t r i b u t e ) 及文本( t e x 0 。由于属性不是孩子结点,属 性在模型中是特殊的,x m l d o m n a m e n o d e m a p 是专为属性提供的编程接 口。 x m ld o m 提供四个主要的对象d o m d o c u m e n t ,x m l d o m n o d e , x m l d o m n o d e l i s t ,x m l d o m n a m e d n o d e m a p 。可以通过这些对象的方法 和属性来访问对象的实例,操纵对象的结构和数据,也能访阃树中其它对象。 ( 1 ) d o m d o e u m e n t 对象表示x m l 文档树的根结点; ( 2 ) ) 洲l d o m n o d e 对象表示树中的一个缩点,是x m l 对象模型访问 数据得基本接口; ( 3 ) ) a “l d o m n o d e l i s t 对象支持x m l d o m n o d e 对象的重复及索引操 作; ( 4 ) x n i l d o m n a m e d n o d e m a p 对象提供按属性名字访问的重复及索引 操作。 哈尔滨工程大学硕士学位论文 2 3 本体论及相关技术 起源于哲学的本体论( o n t o l o g y ) 近年来受到信息科学领域的广泛关注,其 重要性也己在许多方面表现出来并得到广泛认同。到目前为止本体还没有一 个明确的定义,但是学术界认为本体作为概念化( c o n c e p t u a l i z a t i o n ) 知识形式 化表达的基础,是所关心领域中的对象、概念和其它实体,以及它们之间的 关系。 本体描述语言起源于历史上人工智能领域对知识表示的研究,人工智能 领域主要有:k i f 与o n t o l i n g u a ,o k b c ( o p e nk n o w l e d g eb a s ec o n n e c t i v i t y ) , o c m l ( o p e r a t i o n a lc o n c e p t u a lm o d e l i n gl a n g u a g e ) ,f r a m el o g i c ,l o o m 等。 目前本体主要应用于知识共享、系统集成以及软件工程等领域。 概念分类是本体表示的常用形式,表示概念与概念之间的关系为泛化和 特化关系,可以抽象的看作一棵树,其中节点表示概念,边表示概念与概念 之间的关系,通常表示为“s u b c l a s s o f 。例如“b e e ”“s u b c l a s s o f “i n s e c t ”, 通过传递性可以得到“b e e ”“s u b c l a s s o f “i n s e c t ”。利用概念分类进行推理, 可以在多个层次上对数据进行抽象和挖掘。 正如前文提到的本体的表示有不同形式,前面介绍的几种开发使用的比 较早,目前本体语言的正向网络化发展,例如w 3 c 为了构建下一代互联网 语义w e b n “,设计了几种本体语言,r d f “m 和o w l 是目前比较完整的规 范。 ( 1 ) r d f 与r d f s r d f 是w 3 c 组织推荐使用的用来描述资源及其之间关系的语言规范, 具有简单、易扩展、开放性、易交换和易综合等特点n n 。值得注意的是,r d f 只定义了资源的描述方式,却没有定义用哪些数据描述资源。r d f 由3 个部 分组成:r d fd a t am o d e l ,r d fs c h e m a 和r d fs y n t a x 。r d fd a t am o d e l 提供了一个简单但功能强大的模型。通过资源、属性及其相应值来描述特定 资源。模型定义为: 它包含一系列的节点n ; 它包含一系列属性类p ; 1 4 哈尔滨工程大学硕士学位论文 每一属性都有一定的取值v ; 模型是一个三元组: 节点属性类,节点或原始值v ) ; 每一个d a t a m o d e l 可以看成是由节点和弧构成的有向图。 模型中所有被描述的资源以及用来描述资源的属性值都可以看成是“节 点”( n o d e ) 。由资源节点、属性类和属性值组成的一个三元组叫做r d f s t a t e m e n t ( 或r d f 陈述) 。在模型中,陈述既可以作为资源节点,同时也可 以作为值节点出现,所以一个模型中的节点有时不止一个。这时,用来描述 资源节点的值节点本身还具有属性类和值,并可以继续细化。 r d fs c h e m a 使用一种机器可以理解的体系来定义描述资源的词汇,其 功能就像一个字典,可以将其理解为大纲或规范”m 。r d fs c h e m a 的作用是: 定义资源以及属性的类别; 定义属性所应用的资源类以及属性值的类型; 定义上述类别声明的语法; 申明一些由其它机构或组织定义的元数据标准的属性类。 r d fs c h e m a 定义了: 3 个核心类:r d f :r e s o u r c e r d f s :p r o p e r t y , r d f s :c l a s s ; 5 个核心属性:r d f :t y p e ,t d f :s u b c l a s s o f , r d f :s e e a l s o ,r d f :s u b p r o p e r t y o f , r d f s :i s d e f i n e d b y : 4 个核心约束:r d f s :c o n s t r a n t r e s o u r c e ,r d f s :r a n g e ,r d f s :c o n s t r a i n t p r o p e r i y , r d f s :d o m a i n 。 r d fs y n t a x 构造了一个完整的语法体系以利于计算机的自动处理,它以 x m l 为其宿主语言,通过x m l 语法实现对各种元数据的集成。 r d f s :s u b c l a s s o f r d f :r e s o u r e e = ”& r d f s ;r e s o u r c e 侈 l s 哈尔滨工程大学硕七学位论文 r d f s :s u b c l a s s o f r d f r e s o u r = ”& r d f ;f o o t w e a r h r d f s :s u b c l a s s o f r d :r e s o u g c e = ”& r d fj c l o t h e s 侈 r d f :s u b c l a s s o f r d f :r e s o u r c e = ”& r d f ;c l o t h e s ”瓜 ( 2 ) o w l ( w e bo n t o l o g yl a n g u a g e ) 2 0 0 2 年7 月,w 3 c 在d a m + o i l 基础上发展了o w l ( o n t o l o g yw 曲 l a n g u a g e ) 语言以使其成为国际通用的标准语义w 曲语言。2 0 年2 月1 0 日, w 3 c 公布了“w 曲o n t o l o g yl a n g u a g e ( o w l ) g u i d ev e r s i o n1 0 ”。2 0 0 3 年 1 6 哈尔滨工程大学硕士学位论文 2 月2 1 日公布了,“w e bo n t o l o g yl a n g u a g e ( o w l ) r e f e r e n c ev e r s i o n1 0 ”1 2 1 1j 本节介绍的o w l 将以此公布资料为根据。 o w l 语言提供了三种表示能力不同的子语言,来分别满足不同组织团 体的语言实现者和使用者。 o w ll i t e 仅限于支持对概念( 类) 的层次分类和简单的约束等特性进 行描述。例如,o w ll i t e 支持基数约束( c a r d i n a l i t yc o n s t r a i n t s ) ,但仅允许基 数的取值为0 或1 。与o w l 的其它表示能力强的语言相比,o w ll i t e 更易 于获得工具的支持,并且对于词典和术语分类系统等数据资源可做快速便捷 地移植。 o w ld l 在不失掉计算的完全性( c o m p l e t e n e s s ) 和可判定性 ( d e c i d a b i l i t y ) 的条件下,支持最大的表示能力。o w ld l 包含了o w l 语言的 所有构造的同时添加了一些限制,例如类型分离( t y p es e p a r a t i o n ) :一个类 ( c l a s s ) 既不能是个体( i n d i v i d u a l ) 也不能是属性( p r o p c r t y ) :一个属性( p r o e r t y ) 也 不能是个体( i n d i v i d u a l ) 或类( c l a s s ) 。o w ld l 的名字源于描述逻辑。 o w lf u l l 具有最大的表示能力,同时具有针对r d f 语法的自由度而 没有计算特性的保证。例如,在o w l f u l l 中,一个类( c l a s s ) 能够同时被看作 是一个由多个个体( i n d i v i d u a l ) 组成的集合( c o l l e c t i o n ) 和一个拥有自己特性的 单独个体。与o w ld l 相比另一个重要的不同在于,一个d a t a t y p e p r o p e r t y 属性能够被标记为i n v e r s e f u n c t i o n a l p r o p e r t y 属性。o w lf u l l 允许一个本体 对先一前己定义( r d f ) 或( o w l ) 的词汇进行意思上的增添。日前,没有推理 软件能够对o w lf u l l 的所有特征进行支持。 无论是在合法的表示能力上还是在能够有效地包含上,这些子语言中的 每一个都是对其前面较简单语言的扩展。其具体的相互关系如下:每一个合 法的o w ll i t e 本体都是合法的o w ld l 本体:每一个合法的o w ld l 本体 都是合法的o w lf l l l l 本体;每一个有效的o w ll i t e 。推断( c o n c l u s i o n ) 都 是一个有效的0 w ld l 推断;每一个有效的o w ld l 推断都是一个有效的 o w l f l l l l 推断。 ( 3 ) r d q l r d q l 是r d fd a t aq u e r yl a n g u a g e 的缩写,是一种以模型为向导的类似 于$ q l 的专门用于检索r d f 的查询语言m ,。目前一些实际的应用已经使用 1 7 哈尔滨工程大学硕士学位论文 了r d q l 。r d q l 的发展是由多种语言演进而来,包含由v g u l m ,o r a l a s s i l a ,e r i cm i l l e r 及d a nb h c l d e y 等人于1 9 9 8 年所撰写的w 3 c 查询语言会 议报告:e n a b l i n gi n f e r e n c e 。r d q l 是由s q u i s h q l 所衍生出来,它的目的在 于成为模块层级( m o d e l 1 e v e l ) 的储存机制,高于r d fa p i 的层次。r d q l 提 供一个有效的方式让使用它的人可以一次提供很多的查询需求,然后由支持 它的系统查询数据。目前关于r d q l 的协议已经由h p 公司起草完毕,并已 经提交给w 3 c 组织。 i 国q l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论