(计算机应用技术专业论文)基于本体的xml+schema模式匹配研究.pdf_第1页
(计算机应用技术专业论文)基于本体的xml+schema模式匹配研究.pdf_第2页
(计算机应用技术专业论文)基于本体的xml+schema模式匹配研究.pdf_第3页
(计算机应用技术专业论文)基于本体的xml+schema模式匹配研究.pdf_第4页
(计算机应用技术专业论文)基于本体的xml+schema模式匹配研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机应用技术专业论文)基于本体的xml+schema模式匹配研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

d i s s e r t a t i o ns u b m i t t e dt 0z h e j i a n gu n i v e 璐i 够o ft e c h n o l o g y f 0 rt h ed e g r e eo fm a s t e r t h er e s e a r c ho fo n t o l o g y _ b a s e d 姗s c h e m a m a t c h i i l g c a n d i d a t e :p a nc h a o a d l 嘧s o r :g uh u ia a v 坞0 r :i j uh u l c o e g eo fc o m p u t e r s c i e n c ea n d r 】c h n o l o g y z h e j i a n gu n i v e 璐i 哆o fr l e c h n o l o g y a p m 2 0 1 0 浙江工业大学 学位论文原创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研 究工作所取得的研究成果。除文中已经加以标注引用的内容外,本论文不包 含其他个人或集体己经发表或撰写过的研究成果,也不含为获得浙江工业大 学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献 的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律责任。 作者签名:治毽 日期:硼口年 r 月v 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学 校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查 阅和借阅。本人授权浙江工业大学可以将本学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本 学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密眦 ( 请在以上相应方框内打“ ) 作者签名:飙 导师签名: 日期:刀年乡月w 日 日期:年月 日 浙江工业大学硕士学位论文 基于本体的矶s c h e m a 模式匹配研究 摘要 随着网络和信息技术的发展,各个应用领域的合作越来越密切,数据的互操 作性日显重要。由于不同数据源的数据模式的自治性与异构性,为实现数据共享, 模式匹配已成为数据密集型分布式应用的一项基本任务,成为学术界近年来的一 个研究热点。目前已有的模式匹配研究均不能保证能找到用户希望得到所有的模 式对应,也不能保证全部都是正确的,即模式匹配的精确度还有待提高。舭因 其自身的可扩展性以及开放性等特点,应用越来越为广泛,已经成为网络信息数 据交换的事实标准。因此本文利用领域本体技术,对ls c h e m a 模式匹配进行 了研究。 论文从模式匹配的研究入手,主要开展了以下工作: ( 1 ) 对模式匹配的研究背景及研究现状进行了系统的梳理,分析了现有模式 匹配方法的优缺点以及模式匹配存在的问题; ( 2 ) 研究帆s c h e m a 模式匹配及儿相关的技术; ( 3 ) 研究了模式匹配与本体比对之间的关系,以及在模式匹配中的应用; ( 4 ) 在上述研究的基础上,提出了一种基于本体的订ls c h e m a 模式匹配方 法,主要特点是:在提取元素信息进行语义相似度计算时,不仅提取了元素的名 称和数据类型,还利用了领域本体来辅助计算语义相似度;在计算元素相似性的 时,既考虑节点本身信息,同时考虑了有关节点结构的信息; ( 5 ) 从应用的角度,将本算法应用到l 模式集成中,并通过实验数据对比 分析,在查全率和查准率两个方面验证了算法的有效性。 关键词:模式匹配;相似度;本体;订ls c h e m a 浙江工业大学硕士学位论文 t h ei k s e a r c ho fo n t o l o 妒b a s e d 矶s c h e m a m a t c h i l l g a b s t r a c t w i t l lt 1 1 ed l w e l o p m e n to f 玳小v o r i 【sa 1 1 di i l f o m a t i o nt e c l l i l o l o g y ,c c h o i p e r a t i o ni n v a r i o u sa r e 嬲o fa p p l i c a t i o i l sa r ei n c r e 缎i i l 酉yc l o ,虹l e 触i l l t e r o p e r a b i l i t ) ,b e c o m e m o r e i i i 啪r t 锄t s i n c e l ea u t 0 i l o m y 趾d h e t e r o g e n e o u so f d a t am o d e l ,s d 犯m a m a t c l l i l 培h 嬲b e c o m ea 允n d a m e n t a lt a s ki nd a 协i 1 1 t e 璐i v ed i 妤b l l t e d 印p l i c a :t i o i 峪i i l o r d e rt 0a c l l i e v ed a t as l l a r i l l g 锄db e c o m e sar e a r c hh o t s p o ti n 也e a d e m i c c o m m u l l i t ) ,r e c e n ty e a r s a tp r e s e n t ,s t u m e so fs c h e m am a t c l l i n gc a nn o t 母玩r 锄t e et 0 f i n da l lo fm i ec o 玎e s 】印n d i i l gr e l a t i o 璐t l l a tu s e r sw 乏m t ,弱l oc 锄n o tg u a r a j l t e ea l lo ft l l a t a r ec o r r e c t ,m a ti s ,i i n p r o v i n gt h ea c c u l 锄c yo fp a t t e 】mm a t c l l i n gi sn e c e s s 越y w i mi t s 0 、 c h a r a c t e r i s t i c s ,t l l ea p p l i c a t i o 粥 o fx m li sb e c o m en l o 陀觚dm o r e i i i l p o r t 趾t ,m o r e o e v e rh 嬲b e c o m eas t a i l d a r dt 0d a 协e x c h a n g ei i ln e 铆o r ki 1 1 f 1 0 姗a t i o n t h e r e f o r e ,i 如j d i e dx n 几s c l l e i i l am a t c l l i n gu s i n gd o m a i no n 协l o g yt e c h l l o l o 移 h 1t l l i sp a p e rs t a r t 舶ms c h e m m a t c l l i i 培r e s e a r c h ,吐1 em 萄o r 、0 r l 【sa r ea sf o l l o w : ( 1 ) i i l 仃o d u c em eb a c k g r o u l l da n dr e s e a r c hs t a t u so fs c h e n l am a t c m i 略,强a y y s i sn 圮 a d v 锄t a g ea i l dd i s a d v a m a g eo fe x i s t i n gs y s t e m s 谢t ht l l ep r o b l e mo fs c h e m am a t c l l i 】呜; ( 2 ) 砷d u c e m 删a t e dt e c h n o l o 西e s ; ( 3 ) s t i k i yt h er e l a t i o n s l l i pb 咖e e ns c h e m am a t c l l i n ga i l do n t o l o g ) ra l i g 脒m t , 矾d u c eo n t o l o g ) r 锄di t sa p p l i c a t i o n 埘ms c h e m am a t c m n g ; ( 4 ) b a s e dt l l e s er e s e a r c h ,ip r o p o s eu 1 eo m o l o g ) r - b 嬲e dx m ls c h e m am a t c h i n g m e t h o d s :ie 】( 廿a c tt h ei n f o m a t i o nn o t0 1 1 1 yn a m ea i l dd a t a t y p e ,iu s eo n t o l o g yt 0 邪s i s t 枷c o m p u 痂1 9 也es h i l a r i 够;ia l s oc o m p u t et 1 1 e 鲫n l c t l l r es i m i l a r i 够; ( 5 ) f r o mt kv i e wo fa p p l i c a t i o n ,iu s e 也em a t c l l i i l ga l g o r i t l l mi i l 廿:i ex m l s c h 锄a i m e 孕眦i o n ,b yc o m p 碰n gm e t e s td a t 如iv 甜黟t l l ev a l i d i t ) ro fm ea l g o r i 协mi i lt l l e 删l a n dp r e c i s i o n k e yw b r d s : s c h e m am a t c l l i n g ;s i 血l a r i 够;o n t o l o g ) r ;儿s c h e m a n 浙江工业大学硕士学位论文 摘 第l 章 1 1 1 2 1 3 1 4 第2 章 2 1 2 2 2 3 2 4 要 目录 者 论。一1 研究背景及意义l 国内外研究现状l 本文的研究内容。3 1 3 1 论文工作目标4 1 3 2 论文的组织结构4 月、结! ; 吧及其相关技术。一一一6 沮,特点和语法规则6 儿数据模式8 x m l 解析9 d 、l 砉1 ( ) 第3 章模式匹配方法研究。一。一一一1 l 3 1 模式匹配概念1 1 3 2 模式匹配技术1 2 3 2 1 模式匹配技术分类1 3 3 2 2 基本技术1 6 3 2 3 匹配策略1 7 3 3 模式匹配系统l8 3 3 1 基于模式级的匹配系统:一1 8 3 3 2 基于实例级的匹配系统2 6 3 3 3 混合匹配系统。2 7 3 4 模式匹配中的问题2 8 3 5 模式匹配与本体比对之间的关系2 9 3 6d 、l ;! i 3 ( ) 第4 章基于本体的忸。s c h e m a 模式匹配研究一一。一。一一一。k 。3 1 4 1 本体及其在模式匹配中的应用一3 l 4 1 1 本体相关概念。:31 4 1 2 本体相关技术及在模式匹配中的应用。3 2 4 2 算法设计3 3 4 2 1 算法思想3 3 4 2 2 算法整体结构框图3 3 4 3 算法设计与实现。:3 4 4 3 1 元素语义相似度3 5 4 4 4 5 第5 章 5 1 模式匹配的应用领域4 5 5 1 1模式集成4 5 5 1 2 数据仓库4 5 5 1 3 数据集成。4 6 5 1 4 电子商务4 6 5 1 5p 2 p 系统4 6 5 1 6 代理通信4 6 5 1 7w e b 服务4 7 5 1 8 深网4 7 5 2 应用模式匹配转换x m l 文档。4 7 5 2 1x m l 文档转换过程4 8 5 2 2x s u 转换文档4 8 5 2 3 ) m 几文档转换实例。5 0 5 3d 、结5 4 第6 章 结论与展望一。一。一。一。一一5 5 6 1 结论。5 5 6 2 展望。5 5 附录 参考文献 致谢 攻读学位期间参加的科研项目和成果 5 7 6 l 硒 6 7 1 1 研究背景及意义 随着网络信息技术的发展,在i n t e m e t 上和各个应用领域中产生了大量的异构 的信息和数据,数据规模也正在以令人难以想象的速度高速增长,各自治领域的 信息数据越来越多,领域的自治性决定了信息模式的异构性,领域间的信息融合 也越来越多样化,合作越来越密切,企业内部与外部联系越来越紧密,甚至融为 一体。这就需要各个企业的业务系统相互协作,交换数据,实现业务流程的协同 和业务信息的共享。为了达到异构数据源的共享,首先要解决的就是数据集成问 题。在这些领域,一个共同的关键问题就是:如何发现两个模式成员之间语义上的 对应关系,即模式匹配( s c h e m am a t c 尬n g ) 问题。 随着网络技术的发展,特别是以帆为信息载体的数据交换体系的构建,很 多领域的数据格式都采用了x m l 数据格式。由于x m l 可以实现数据内容和数据样 式的分离,并且允许在其文档中内嵌数据的逻辑结构信息,提供结构化的数据, 同时加之) 洲l 的如可扩展性、自描述性、跨平台性等特点都使得) 洲l 在数据交换 中得到广泛的应用。x m l 标准一经制定,就得到了使用者的认可,舭的应用也 开始广泛起来,并已经成为网络上信息表达和数据交换的事实标准。 舭给数据交换带来了便捷,但是随着应用的深入也遇到很多问题。事实上, 由于x m l 对其数据的格式要求很低,加之x 】l 的开放性,不同的开发人员在使用 订l 开发应用时制定的模式结构也有相同,大量的) a l 应用面临着模式不统一的 问题,使得数据交换变得比较困难。如果信息交换方遵守相同的模式规范,那么 它们之间就比较容易实现资源共享与信息集成。但是即使模式相同的情况下,也 会出现理解和使用上的不同,从而造成语义上的差异。这就需要我们通过模式匹 配,找到元素间的匹配关系,然后输出模式中元素间的映射关系,进而可以根据 映射关系进行两个模式之间的转换,并且转换后的数据需要符合原来数据之间的 语义。目前,如何理解、识别和匹配模式成为数据交换领域的一个难点。 1 2 国内外研究现状 模式匹配的研究在二十世纪8 0 年代就已经开始,只是早期的模式匹配工作主 浙江工业大学硕士学位论文 要集中在数据集成n 2 j 1 领域。9 0 年代起,随着模式集成问题的发展和变化,模式 匹配开始应用于数据仓库领域中h 1 ,电子商务和网络技术的出现及发展,进一步推 动了模式匹配的进展。 模式匹配涉及的应用领域包括企业信息集成、电子商务、w e b 服务协同、基 于本体的代理通信、w e b 目录集成以及基于模式的p 2 p 数据库系统。在数据集成 中用于识别模式之间的相互关系;在数据仓库中用于发现数据源模式与数据仓库 模式之间的映射关系,以完成对数据源数据的抽取和转换;在电子商务中用于不 同消息模式的转换;在语义w e b 中用于建立不同本体概念之间的语义对应关系: 在僵i 数据聚类中用于确定订l 数据之间的语义相似性等等。 有关模式匹配的研究大部分集中在国外,并且研究也主要集中针对某一具体 应用领域的研究瓯6 力,文献啪10 1 1 1 中给出了几种通用的模式匹配的方法。随着x m l 数据库的提出,关系数据模式以及) m 几数据模式的匹配n 2 3 1 朗也成为一个学术 研究的热点。 关于模式匹配的研究最早起源于二十世纪8 0 年代末z t m g 和s h 嬲i 翻开究的标记 树之间的映射算法的工作n 引。从二十世纪9 0 年代初起,( 半) 自动模式匹配技术的 思想理论及技术方法开始建立起来。开始模式匹配主要是针对数据库模式进行匹 配,采用的匹配方法主要包括名称比较、属性值和域比较、字段规范比较等。然 而对于( 半) 自动模式匹配的研究大部分是从其它领域相关问题的研究中延伸而来 的,解决方案也多是以算法提出及实现为主,成熟的原型系统很少。 二十世纪9 0 年代末,大量新技术例如机器学习、图论技术等,开始在自动模 式匹配领域出现和应用,具有代表性的原型系统如l s d m l , c u p “埘, c l i o 等。 这些发展进而使得模式匹配技术开始为人们所认识和接受。模式匹配的研究也不 再仅仅局限于数据集成领域,独立的模式匹配原型系统也逐渐出现,影响力也大 大增强。 从2 0 0 2 年左右开始,模式匹配研究进入了完善期,出现了一些综合多种匹配 方法的匹配系统,这些匹配系统多是在前两个阶段的基础上进行了完善或者改进。 模式匹配研究的应用范围变得更为广泛,扩展到如x m l 模式聚类汹1 ,儿文档 转换髓妇等众多研究领域。自动模式匹配的研究也更注重方法和理论的完善,并且, 自动模式匹配问题的研究开始向大规模工业级应用层次发展啪1 。 目前己经存在许多关于关系模式或是) a l 文档的匹配系统。虽然它们具有各 2 浙江工业大学硕士学位论文 自的优越之处,然而同时,也存在某些方面的不足,关于已有的模式匹配系统及 其比较、模式匹配中出现的问题我们将在第三章中详细介绍,为本文的研究奠定 基础。下面给出大部分模式匹配存在的问题: 在实际应用中,模式本身的信息往往不能够很准确清晰的表达它们所代表的 数据实例信息的真实语义。因此,只是从名称的相似性来判断模式成员之间的匹 配关系是不够精确的,通常还需要通过对数据实例、模式的结构等信息来确定模 式成员之间的对应关系。目前同时采用模式信息和实例信息的系统还为数不多; 常常对于模式本身的信息提取也还不够,模式中往往隐含很多的信息,应尽可能 的提取模式中有用的信息;大多数情形下,领域知识以及人工交互也是保证模式 匹配质量不可缺少的重要因素。 目前,模式匹配一般仍是通过人工辅助来完成的,这是一个需要消耗巨大人 力、时间并且容易出错的过程。人工匹配通常由领域专家来完成,这就导致在遇 到数量巨大的匹配任务时,由于具体操作人员的知识背景差异,从而造成匹配结 果的不一致和错误匹配。另一方面,待匹配模式的数量越大,模式结构越复杂, 所需的人工匹配工作量也就越大,这就需要消耗很大的人力资源,费时费力。 模式匹配的研究多集中于对象、关系或者e r 图等结构化数据模型。已有的模 式匹配工具均不能保证找出用户希望得到的全部的模式对应关系,也不能确保找 出的对应关系都是正确的。由于异构模式的复杂性,以及模式匹配操作本身具有 的主观性,它们只能在一定程度上帮助用户,通过他们得到的模式匹配结果也还 需要用户的检验。 由于舭自身的一些特点和信息技术的发展,删l 的模式匹配也愈显得重 要,然而目前专门针对儿进行研究的系统也并不多,也还存在不足有待改进, 比如模式信息挖掘不足,不能够很好的处理大规模数据,缺乏对本体技术的使用 等等。 基于以上这些原因,对帆模式匹配技术进行研究,找到一种通用的、精 确度较高以及自动化程度高的综合的匹配方法,还需要继续研究和努力。 1 3 本文的研究内容 基于前面的研究背景与目前模式匹配的研究状况,本文主要的研究内容是:研 究已有模式匹配方法,分析现有模式匹配方法的优缺点,在研究已有典型模式匹 3 浙江工业大学硕士学位论文 配方法的基础上,结合订ls c h e i m 的特点,针对ls c h e m a 的匹配进行研究, 提出了一种基于本体的x m ls c h e m a 的模式匹配方法。根据ls c h e m a 的特点, 解析) a ls c l 煳a 文档,获取文档蕴含的信息,在研究已有模式匹配方法的基础 上,采用本体技术来辅助进行模式匹配,通过执行算法得到沮。s c h e m a 元素间 的语义映射。主要目标是提高匹配的精确度。 1 3 1 论文工作目标 本文的主要目标是对ls c h e m a 模式匹配的方法进行研究,在此研究基础 上,提出了一种基于本体的舭s c h e m a 模式匹配的算法,提高匹配的精确度, 并将该匹配算法应用于实际的x m l 文档转换中。 主要研究工作包括以下几个方面: ( 1 ) 对模式匹配相关理论、典型的模式匹配方法和匹配系统以及存在的问 题系统进行研究。分析已有的模式匹配技术和方法,总结各自的实现方法,应用 范围及他们的优缺点。 ( 2 ) 设计了一种基于本体的咀。s c h 锄a 模式匹配算法,不仅仅考虑元素本 身的语义信息,还考虑元素间的结构信息,通过计算元素间的相似度来找出肌 s c h e m a 中元素的语义对应关系。 ( 3 ) 综合研究成果,将本算法应用于儿文档转换中。 1 3 2 论文的组织结构 文章共分六章,主要内容如下: 第一章为绪论部分,首先阐述了问题的研究背景和目前相关工作的研究状况, 以及已存在的一些系统原型;然后指出了本文的研究内容和研究方法,最后概括 了论文的工作。 第二章为l 及其相关技术,简单描述了x m l 的基本知识、特点以及语法规 则,还包括龇的一些相关技术,为本文的研究奠定了基础。 第三章深入研究了当前的模式匹配方法,阐述了已有的匹配系统及特点,并 指出模式匹配中存在的问题以及模式匹配和本体比对之间的关系,最后总结了本 章的内容。 第四章对龇模式匹配算法进行了研究,首先给出了本体的相关只是,然后 4 浙江工业大学硕士学位论文 给出了本文的算法设计以及实现,为后面的研究提供了理论基础。然后深入分析 了算法各个模块,最后给出了模式匹配的过程。 第五章是对前面的算法进行应用,在本文中,我们将模式匹配算法应用到) m l 文档转化中,并举了简单的例子进行说明。 第六章是对文章的总结和展望,指出论文工作的不足之处以及进一步的工作。 1 4 小结 本章主要介绍了x m l 模式匹配的研究背景和研究意义,阐述了模式匹配的研 究状况,以及现有模式匹配方法存在的问题,然后给出了本文的研究内容和方法, 最后概括叙述了论文内容的整体安排。 浙江工业大学硕士学位论文 第2 章矶及其相关技术 2 1 匝特点和语法规则 儿瞄1 ( e x t e n s i b l em a r k u pl a l l g u a g e ,可扩展标记语言) 是w 3 c 于1 9 9 8 年推出 的一种用于数据描述的元标记语言的国际标准。x m l 是一套定义语义标记的规则, 这些标记将文档分成许多部件,并对这些部件加以标识。它是s g m l ( s 切n d a r d g e n e r a l i z e dm 矾呻l a i l g u a g e ,标准通用标记语言) 的一个简化子集,帆继承了 s g m l 的许多优秀特性,可用来弥补h n 血作为网络标准语言的不足。 帆主要关注怎样描述数据内容的组织和结构。帆是一种元标记语言 ( m 她m 咖l a i l g u a g e ) ,舭主要用来自动描述信息,它提供了共享数据,独立 于运行程序,是一种新的标准语言。帆能增加结构和语义信息,可使计算机即 时处理多种形式的信息。 舭中的标签并不是预先统一定义的,用户可以根据自己的需要来定义标签。 因此,l 是能够进行自描述的一种语言。x m l 主要采用两种模式来规范数据模 式:d t d ( d o c u m e n tt y p ed e f i n i t i o n 文档类型定义) 和m ls c h e i m 。 l 可看做是一种半结构化的数据模型,l 继承了s g m l 的许多优秀特性, 也有着自己的一些特点,具体如下: ( 1 ) 可扩展性 舭是设计标记语言的元语言,和h n 儿相比,h n 儿只有一些固定标记集的 特定的标记语言,而儿就如使用面向对象语言编写程序一样,用户声明它们自 己的类,舭也允许用户创造和使用自己的标记,而不是使用有限词汇表。之所 以说l 是可扩展的,有两个方面:( 1 ) 它允许开发者创建自己的数据模式:( 2 ) 使用与l 相关的标准也是对l 的一种扩展,不仅仅说这些扩展给儿添加了 查询、转换、链接的能力,舭作为一个核心标准,也为创建其它标准提供了一 个坚实的基础。 可扩展性是至关重要的,企业可以用x m l 为电子商务等应用定义自己的标记 语言,甚至可以在特定的领域定义该领域特殊的标记语言,为创建在该领域内的 信息共享与交换打下基础。 6 浙江工业大学硕士学位论文 ( 2 ) 灵活性 提供了一种结构化的数据表示方式,使用户界面的显示信息与结构化数 据信息可以分离开来,在) n 缸牛,可以使用样式表x s l ( e 灿e n s i b l es t y l es h e e t l 锄g u a g e ,可扩展样式表语言) 和c s s ( c a s c a d i i l gs 够l e s h 。e t s ,层叠样式表) ,将数 据呈现到浏览器中。 ( 3 ) 自描述性 ) a l 允许各个组织、个人建立适合自己需要的标记集合,这一特征使得l 可以在电子商务和中介组织信息交换等众多领域中得到广泛应用,针对不同系统、 厂商可以提供自己独特的解决方案,并且使得数据能重用。 l 文档通常包含一个文档类型声明,从而使得l 文档是自描述的,使得 人和计算机都能处理。x m l 文档中的数据可以被任何能够对订l 数据格式进行解 析的应用程序所提取、分析、处理,并以所需要的格式显示。 ( 4 ) 开放性和跨平台性 x m l 是w 3 c 正式批准的,l 的相关标准也是完全开放的,可以免费获得, 并且m 。自身也是开放的,并且x m l 还提供数据模式的验证。同时l 俱有跨平 台特性,可以在各种平台上使用,并且支持多种字符编码,可以用多种工具进行 解释,因而可以在不同地点不同的计算机环境中使用。只要系统中装有相应的m l 解析工具,便可以很好的理解其它系统传递来的以舳做为媒介的信息,并加以 利用。 近来不同平台相互交换信息的要求为删l 的发展带来契机。除上述特征外, x m l 还具有简明性,易学、易用、易实现的特点。同时,) 晰l 的诞生吸收了人们 多年来在w e b 上使用h t m i 胸经验,为未来的数据交换带来新的机遇。 x m l 文档由实体组成,实体不仅包含解析数据,还包含未解析数据。解析数 据由字符组成,字符可以组成字符数据和标记。标记描述了文档存储格式和逻辑 结构。x m i 文档遵守儿语法的一般规则,简单规则如下所示: ( 1 ) x m l 文档可以包含多个元素,但只能有一个根元素,并且它不出现在 其它任何元素的内容中; ( 2 ) 每个元素都要有起始标记和结束标记; ( 3 ) 空元素需要正确地格式化; ( 4 ) 开始标记和结束标记必须配对,大小写均可以; 浙江工业大学硕士学位论文 ( 5 ) 元素地嵌套必须正确,也即起始标签和结束标签要在同一元素的内容中; ( 6 ) 属性值必须用引号。 2 2x m l 数据模式 由于讧l 自身的特点,l 文档的使用者可以自由定义文档的数据结构以及 元素的名称和属性,这给文档的制作带来了一定程度的灵活性,但是不同应用的 数据交换却因此变得困难起来,因为即使标记标记相同,不同组织的应用程序可 能会有不同的理解,为了确保舭文档的有效性,l 模式被提出,并且为数据 交换建立一个标准。 目前应用最为广泛的两种l 数据模式是d t d ( 文档类型定义d o c u m e n t 聊e d e f i i l i t i o n ) 和v 匝s c h e m 心皿模式大纲) 。 d t d 是一种订l 模式语言,它随着咀。1 o 标准提出的,它可以准确地定义 删l 文档实例的词汇表、订l 文档实例的结构以及文档的元素、元素的数目及属 性等,并由此形成一种有效的验证机制,用于保证舭文档能够符合一定的模式。 d t d 模式通过描述标记语言的语法和词汇表,形成正则表达式,x m l 相应的解析 器将这些正则表达式与v i l 文档内部的数据模式进行匹配,以此来判定儿文档 是否有效。d t d 模式可以做为舭文档的一部分,也可以做为单独的文档。 儿s c h 锄a 在2 0 0 1 年5 月正式成为w 3 c 的推荐标准,它提供了创建儿文 档的框架,详细说明了x m l 文档的元素和属性的有效结构、出现次数限制和数据 类型等。s c b e m a 就是用l 语法来写的,并且ls c h e m a 提供了更为丰富 的数据类型,功能更是强大,并且使用灵活。与d t d 模式相比较,它比较复杂, 具有更强的描述能力,x m ls c h e m a 具有很多优点口们: ( 1 ) 一致性:) a 帆s c h e m a 采用帆的基本语法规则来定义它本身的文档结 构,使儿模式和文档定义达到统一。 ( 2 ) 扩展性:v i ls c h e m 耐d t d 进行了扩充,引入了比较丰富的数据类型, 支持由简单数据类型派生得到的复杂类型和用户自定义的数据类型,同时还支持 命名空间以及对其它ls c h e m a 的引用,v l ls c h e m a 具备较强的可扩展性。 ( 3 ) 互换性:不同的x m ls c h e m 芘间可以通过映射机制进行模式转换,进 而实现数据交换。 ( 4 ) 规范性和准确性:x m ls c h e m a 提供了更加规范和完备的机制来约束 x m l 文档,语义上也更加准确。 8 浙江工业大学硕士学位论文 ( 5 ) 数据类型多样性:舭s c h e m a 支持更为丰富的数据类型。 2 3 舰解析 在处理x 池文档数据时,应用程序并不能直接对其进行操作的,而是利用各 种解析器首先对x m l 文档进行解析,进而,应用程序通过该解析器所提供的接口, 通过访问接口进而实现对缸文档的访问。该如何进行解析煳l 文档,w 3 c 标准 给出了解析规范,给出了对文档操作时所要遵循的a p i ( a p p l i c a t i o np r o 蓼锄m i n g i n t e 慨e ) ,可以使用不同的技术实现这些接口。常用的四种实现的x m la p i 如下。 ( 1 ) d o m ( d o c 啪e n t o b j e c tm o d e l 文档对象模型) :是公认的w 3 c 标准,它 提供了一套a p i ,为操作订l 文档提供了灵活而有效的方法。d o m 是基于树型结 构的解析技术,它首先在内存中构建起一棵完整的解析树。它可以实现对整个l 文档的全面的动态访问。使用d o m 解析删l 模型的优点是编程容易,用户只需要 调用各种指令,然后利用a p i s 访问所需的树节点来完成任务。d o m 的缺点是在使 用d o m 进行v 【l 文档解析时需要处理整个l 文档,对系统性能和内存的要求都 比较高,尤其是遇到大型的儿文件。 ( 2 ) s a x ( s i i n p l ea p if o rx 】l ) :s a x 是基于事件的解析器,在解析的时候 首先扫描整个文档,然后数据分解为几个有用部分。s a x 解析器不仅提供了一个 可用的框架,还定义了解析过程中用于监视的事件。 与d o m 相比,s a x 解析技术提供更佳的性能优势。s a x 模型最大的优点是内 存消耗小,另外,由于整个文档无需一次加载到内存中,它可以在某个条件得到 满足时停止解析,这使s a x 可以解析大于系统内存的文档。一般来说,s a x 比d o m 要快许多。 s a x 的缺点就是在解析时,用户必须实现处理所有到来事件处理,并且必须 在其应用程序代码中维护这个事件的状态。 ( 3 ) j d o m :m o m 是基于j a v a 技术的开源技术,它试图遵循8 0 2 0 规则, 用d o m 和s a x2 0 的功能来满足用户的8 0 需求。m o m 与d o m 主要的不同点在 于j d o m 使用具体类,在某些方面简化了a p i ,但是也在一定程度上限制了灵活性。 ( 4 ) d o m 4 j :d o m 4 j 是j d o m 的一个智能分支,它合并了许多功能,支持 集成的x p a m 、支持x m ls c h e m a ,并且可以用于大型文档的基于事件的处理;同 时它还提供了构建文档表示的选项。d o m 4 j 是一个非常优秀的j a v a 订la p i ,具 9 浙江工业大学硕士学位论文 有性能优异、功能强大和极端易用使用的特点,同时它也是一个开放源代码的软 件。 2 4 小结 订l 及其相关技术规范十分庞大而又比较复杂。学习l 并不一定要详细了 解龇所有的技术规范,但是了解帆技术规范的整体结构的是十分必要的。本 章主要简单介绍了x 池的基础知识和相关应用的一些技术,为本文内容的研究奠 定基础。 l o 浙江工业大学硕士学位论文 第3 章模式匹配方法研究 3 1 模式匹配概念 模式( s c h e m a ) 是指具有某种结构的元素的集合,用于表示数据的组织结构。 通常所说的模式有:数据库模式( 关系模式、面向对象模式) 、儿模式、本体 ( o n t o l o 盱) 等。 映射( m a p p 是两个模式中有特定关系的规则集合,表示一个模式中某些特 定的元素与另一个模式中某些特定的元素的对应关系。一个映射关系包含两个部 分:映射的元素和元素之间的关系的描述。e u z e n a t 【2 5 l 把一个映射元素m 定义成一 个5 元组: m = ( e i d ,e ,e ,c ,r ) , 其中e i d 是给定映射元素唯一标识符;e 和e 分别是第一个和第二个模式本体 中的实体,如可以是表、订l 元素、特性、类等;c 是e 和e 之间对应程度的一个 数学置信度;r 表示e 和e 之间存在的关系( 如相等、泛化、不相交、相交) 【2 6 】。 模式匹配是指给定的两个模式,利用一些相关信息,找到分布在两个模式中 的元素之间的某种映射关系( 语义对应关系) 。模式匹配将两个模式作为输入参 数,其输出结果是它们之间的映射关系,即匹配结果;匹配结果中的每个元素都 表示一个输入模式中的某些元素和另外一个输入模式中的某些元素存在的逻辑上 的对应关系。模式匹配过程可以用一个函数f 来表示: f ( s ,s ,a ,p ,r ) _ a 或写为a = 坟s ,s ,a ,p ,r ) ,其输入参数是;( 1 ) 待 匹配比对( a l i 鄹t m e m ) 的两个模式本体s 、s ;( 2 ) 一个待完成的匹配比对a ; ( 3 ) 匹配比对算法中用到的需要人为设置的参数集p ,如权重系数、阈值等;( 4 ) 需要用到的外部资源r :a = 坟s ,s ,a ,p ,r ) 。如图3 1 所示。 s a s 图3 1 模式匹配过程的函数表示 a 浙江工业大学硕士学位论文 模式匹配的关键是寻找匹配方法。理想的匹配方法是能够自动、精确、广泛 适应地匹配不同的模式。然而,匹配方法难以用数学公式或者数学方法来对两个 模式之间的对应关系进行准确计算,只能利用模式本身具有的结构、所蕴涵的语 义以及该模式的实例数据等信息来寻找二者之间的对应关系。 3 2 模式匹配技术 据前述,模式匹配的任务是寻找两个模式的元素之间映射关系( 语义对应关 系) 。由于模式匹配的复杂性,模式匹配需要使用各种技术来弥补信息的不足, 如利用名字相似性、字典、公共模式结构、相交的实例数据、公共值分布、重用 过去的映射结果、约束、与标准模式的相似性、常识推理。迄今,已提出了许多 匹配方法和模式匹配系统。例如,c u p i d ,s i i l l i l a r i 锣f 1 0 0 d i n 甙s f ) 脚1 ,c o m c o m a + + ,川。l s d ,o n t o b u i l d e r 3 副,s m a t c h 鲫,s p i c y 1 等。 大部分模式匹配系统采用基于规则的方法和基于机器学习的方法。基于规则 的方法一般采用数据模型来表示模式,例如模式树或者模式图,利用成员的名称、 数据类型、结构等模式信息来指导匹配过程,该方法通常要对模式树或者模式图 进行多次遍历。如,c u p i d 系统中使用基于名称、数据类型和值域进行成员分类。 基于规则的模式匹配过程主要包括三个部分:预处理,相似度计算,映射生成。 预处理是用数据模型来表示模式的过程;在相似度计算中,通过计算成员之间的 相似度进而计算两个模式之间的相似度;最后根据匹配算法来进行模式匹配并生 成映射关系。基于规则的模式匹配过程如图3 2 所示: 图3 2 基于规则的模式匹配过程 1 2 浙江工业大学硕士学位论文 基于学习的实现方式采用机器学习的方法进行匹配。例如,s e m i n t 系统提出 了一种基于神经网络的模式匹配方法;a u t o m a t c h 系统提出了基于贝叶斯学习和特 征选择的模式匹配方法;l s d 、c o m a p 和g l u e 等设计了一种三层结构的多策略 学习( i 肌h i s t r a t e g ) rl e a n l i i l g ) 框架。 3 2 1 模式匹配技术分类 目前模式匹配方法很多,不同的研究人员对匹配方法的分类有不同的分法 啪,翦柚4 1 m 删。r 矗l l m 与b e n l s t e i i l 在嘲中把匹配方法分为简单匹配方法和复杂匹配方 法,如图3 3 。 揍 奁 配 塞 ,我们首先计算路径元素列表中每个元素对的腑斛沏l ,然后 根据该结果来计算元素语境的相似度,得到的结果为三元组集( t r i p l e ts e t ) 勃 船毙惋m ( 钆劲) l i = l ,i n + 2 ,j = 1 ,l + 2 ) ,储存在相似度矩阵鼢,“坳护抚中。然后通过反复 迭代寻找元素对的最大相似度值,找到路径中的最佳匹配对。下面给出算法2 来说 明如何寻找最佳匹配对以及如何计算语境相似

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论