the_语义web环境下xml的发展及其应用guide_download_第1页
the_语义web环境下xml的发展及其应用guide_download_第2页
the_语义web环境下xml的发展及其应用guide_download_第3页
the_语义web环境下xml的发展及其应用guide_download_第4页
the_语义web环境下xml的发展及其应用guide_download_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

图书情报工作网刊 研究论文 2010 年 9 月 1 语义Web环境下XML的发展及其应用 张 兴 河北大学管理学院 保定 071002 摘要 语义Web是Web未来的发展方向。在语义Web上,信息都带有显式的含义,使其易于机器自动处理和Web信息集成。而 W3C提出的与语义Web相关的XML语言,着实存在一些困惑。鉴于此,文章展开论述并梳理其发展历程。最后论述XTM、Xlink、 Xpath、Xquery等的应用前景。 关键词 语义 Web XML Schema RDF Schema DAML+OIL OWL XTM 语义Web是互联网研究者对下一代互联网的称谓,通过扩展现有互联网,在信息中加入表示其含义的内容,使计算机可以 自动与人协同工作。语义Web中的各种资源不再只是各种相连的信息,还包括其信息的真正含义,从而提高计算机处理信息 的自动化和智能化。 而计算机并不具有真正的智能,语义Web的建立需要研究者们对信息进行有效的表示, 制定统一的标准, 使计算机可以对信息进行有效的自动处理。 目前互联网实现了对各种资源的聚类, 大型门户网站还拥有自己的分类和列类体 系,然而几乎还没有实现网络庞杂信息资源之间的关系体系,即语义网络或者知识本体的形成。因此语义Web环境下,一个 重要的目标就是语义网络的形成,即能够对无比庞杂的网络信息资源进行元素、结构、关系以及构造规则的定义、标记和解 析,而且还能够对分布的资源元素进行链接、解释、过滤、推理、组合、集成和检索。因此曾作为新一代网络置标语言 XML(extensible markup language)的优越性已经受到威胁和颠覆,其必须继承自身优越性的同时,力求与时俱进。鉴于此, 本文论述了XML所面临的困惑,并试图梳理其在语义web环境下的发展轨迹和部分应用。 1 XML的发展困惑 XML 可扩展标记语言是 W3C 于 1998 年提出来的,其具有可扩展性、灵活性、高度结构化和良好的数据组织能力,能够有 效地表达各种数据,为信息的交换、信息查询和处理提供了新的便利,帮助人们获得需要信息,发掘 web 上的财富。然而语 义 Web 环境下,XML 却显得有些无奈。 1.1灵活性和可扩展性有限 文档类型定义(Document type Definition, DTD)在XML文档中扮演着重要的角色,定义了XML文件的元素架构、元素 标记和属性。然而通常应用过程中只能用DTD已经设计好的XML词汇, DTD几乎不支持数据类型,仅仅支持包括文档类型在内 的少数几种数据类型,这意味着在实际使用过程中经常需要进行类型的转换才能达到预想的效果,显然与XML灵活性和可扩 展性的特征相悖。加之DTD不支持命名空间(Namespaces),由于必须把所有的元数据放在一个DTD文件中,如果需要对已有的 DTD进行扩充则只能在原文件的基础上进行重写,对于元数据的维护和扩充都十分不便。 1.2解析文档时间较长 XML 文档解析包括结构良好的 XML 语法验证和有效性 XML 文档检验。 结构良好的 XML 语法验证是检查 XML 文档结构完整 性的软件程序,保证一个 XML 文档包含的一个或者多个元素都有正确的嵌套并且正确地使用属性和实体参考。进行有效性 XML 文档检验是检查文档有效性的软件程序,它根据 DTD 来检查文档,检查 XML 是否存在,校验 XML 文档是否与 DTD 各种规 则一致。XML 解析过程的复杂,注定其响应时间滞后,又由于 XML 文档自标记的缘故,数据量庞大,那么解析 XML 文档,特 别是处理巨大文档系统和一次性处理多个 XML 文档就会花费较长的时间。并且 DTD 使用了不同于 XML 的名为 EBNF 的特殊语 法 1 来定义各种 XML 文件标记规范,由于使用 EBNF 语法,这给 DTD 的自动处理带来了麻烦,难以使用程序进行元数据的自 动处理,解析效率再次面临难题。 1.3没有解决语义问题 XML 对本体的描述,就是利用 DTD 或 XML Schema 对本体所表达的领域知识进行结构化定义,然后再利用 XML 文档结构 与 XML 内容之间的关系对本体知识进行描述,从而提供对数据内容的语义描述,然而通过 DTD 和 XML schema 可以解决对数 据的词汇和用途的说明,词汇与词汇之间关系如何、如何和其他词汇关联以及其他推理机制等“发现”信息没有说明,其语 义仍然是隐含的。就是说 XML 所表示的本体是轻量级的本体, 只能保证人们使用相同的词汇,是一种较低层次的本体应用, 研究论文 图书情报工作网刊 2010 年 9 月 2 本体中不包含有用的语义信息 2 ,因此 XML 并没有解决语义 Web 重要特征的语义问题。 环境的更变以及技术的发展,XML 所暴露的缺陷的确使其“力不从心” , 因此 W3C 在看到 XML 的问题之后,提出了一系 列改进建议。主要包括用来代替 DTD 的建议,包括 XML-Data、XML Schema、RDF、RDF Schema、OIL、DAML+OIL、OWL 等,它 们都用来校验自己的 XML 数据,其中 XML Schema、RDF Schema、DAML+OIL、OWL 的影响较大。 2 XML的发展历程 XML Schema标准是一种描述信息结构的模型,用来定义XML文档的文本结构和数据类型等XML文件描述规则,且规范了文 档中的标记和文本可能的组合形式。XML Schema本身就是一份XML文件,使用标记语法定义其他的XML文件,克服了DTD中使 用EBNF引起的不一致问题。而且XML Schema支持数据类型,能够定义元素的内容,并且多个Schema可以复合使用XML名称空 间,可以详细定义元素的内容及属性值的数据类型。也就说XML Schema基本解决了DTD所带来的由于缺乏数据类型和命名空 间以及解析费时的困惑。但是XML Schema只是约束XML文档结构的语言,还未出现类和属性的概念等缺陷,因此它对文档的 含义基本未施加任何语义上的限制。为此,W3C推荐以RDF标准来解决XML的语义局限。 资源定义框架(Resource D Resource Description Framework,RDF)是W3C于1999年颁布的一个因特网建议。它的功能 是利用当前存在着的多种元数据标准来描述各种网络资源,形成人机可读并可以由计算机自动处理的文件。 RDF框架由三个部分组成:RDF Data Model、RDF Schema和RDF Syntax。RDF Syntax是把形式描述通过其宿主语言XML转 换成机器可以理解和处理的文件。RDF Data Model是一个三元组:属性类 节点 节点或者原始值(字符串或数值等)V; 每个Data Model可以看成一个实体关系图。模型中所有被描述的资源以及用来描述资源的属性值都被看成是“节点” (Node)。由资源节点、属性类和属性值组成的一个三元组叫做RDF陈述(Statement)。陈述可以理解为“资源R具有值为V的属 性P”。 RDF Schema的定义和宣布使用XML Namespace(命名空间)机制,其作用是用来避免不同元素被命名为相同的控制标 记而给应用带来的困扰。 但是RDF Schema只能表达泛化层次的语义:RDFS按照典型的层次结构来组织和构造语义本体(Ontology), 例如按子 类(subClassOf)和子属性(subPropertyOf)关系来反映资源之间的关系。但除了层次关系之外, 类和属性之间还可能存在 其它的逻辑关系,例如等同关系, 不交互关系等 3 ;不能对类的复杂定义进行描述。例如, 对于某一个新的类,只可以说 明这个类是某个类的子类,但有些情况下,需要能够更明确地说明这个类是某些类逻辑运算的结果(如某些类的逻辑并集或 交集等);不支持基数限制,如不可以指出一个国家有且只有一个首都等关系;不支持更多的属性特点。例如, 属性之 间可以有传递关系,如ABC,就会有AC的推理,而RDF Schema则不能够表达出来。因此则需要一种比RDF Schema表达能力 更强的语言。 DAML+OIL由早期的DAML本体语言DAML-ONT 与一种描述逻辑本体推理层OIL合并而成。DAML+OIL扩展了RDF Schema,语义DAML+OIL本体由标题、类元素、属性元素和实例组成,标题中往往包括版本信息与输入元素。DAML + OIL 把 总体分为两部分:由属于XML Schema数据类型的值组成数据类型域和由被看作是DAML+OIL类的成员对象组成对象域。然而 DAML+OIL是建立在RDF三元组结构之上的,模型理论语义严密地说明了哪个三元组被赋予了某种特殊的含义及这种含义是什 么,因此DAML+OIL只是为能够说明DAML+OIL以及DAML定义模式的RDF图表部分提供语义解释 4 。 OWL (Ontology Web Language) 是一种在 DAML+OIL 基础上进行改进的 Ontology 描述语言, 在其设计过程中吸取了 DAML 与 OIL 经验。它作为计算机可处理的形式化 Ontology 描述语言,能够更清晰地表达词汇表中词条的语义以及词条之间的语 义关系。OWL 按照不同约束要求可分为三种子语言:OWL Lite, OWL DL 和 OWL Full 5 。其中 OWL Lite 适用于只需要一个概念 分类层次和简单属性约束的情况,它除了具有 RDFS 特征外,还具有描述属性特征(传递性、对称性等)以及对属性基数进行 约束的能力;OWL DL 支持既需要丰富表达能力又需要较强推理功能的情况,它在 OWL Lite 的基础上引入类型分割,要求一 个属性要么为对象属性(Object Property 表示两对象之间的关系),要么为数值属性(Data Type Property 表示对象与 XMl DataType 之间的关系), 其语义描述能力基于描述逻辑且包含 OWL 语言中所有的语言约束, 在保证推理系统的计算完整性(保 证所有结果均可计算)和可判定性(所有计算都能在有效时间内结束)基础上,支持最强的语义表达能力;OWL Full 不仅包含 所有 OWL、RDFS 词汇,而且还允许 Ontology 在预定的 RDF 和 OWL 词汇表以外增加词汇。因此能让用户最大限度地表达知识。 从多个选定的特性比较这些语言不同的表达能力,以助于明晰 XML 的发展过程以及各种语言的缺陷和特征,如表 1 所示: 图书情报工作网刊 研究论文 2010 年 9 月 3 表1 XMLSchema、RDF Schema、DAML+OIL、OWL语言比较 特性 详情 XML Schema RDF Schema DAML + OIL OWL 对象类与属 性 没有类和属性 的概念 rdfs :Class、 rdfs :Property daml:Class daml:ObjectProperty daml:DatatypeProperty owl:Class owl:ObjectProperty owl:DatatypeProperty 类 继承性 否 rdfs :subClassOf、 rdfs :subPropertyO f rdfs :subClassOf rdfs :subPropertyOf rdfs:subClassOf rdfs:subPropertyOf 属性/元素 范围 可以声明为全 局的, 也可以声 明为局部 rdfs :range rdfs:range daml:Restriction daml:onProperty daml:toClass Rdfs:range owl:Restriction owl:onProperty 属性/元素 领域 否 rdfs :domain rdfs :domain Rdfs:domain 属性/元 素约束 属性/元素 基数 否 否 daml:minCardinality daml:maxCardinality daml:cardinality daml:UniqueProperty Owl:minCardinality owl:maxCardinality owl:cardinality owl:FunctionalPropert y owl:InverseFunctional Property 基本数据类 型 支持数字、 字符 利用XML Schema 数 据类型 利用XML Schema 数据类型 利用XML Schema 数据类 型 属性/元素 值详表 否 否 daml :one of 可指向XML Schema 列举数据类型 owl :one of 可指向XML Sche2ma 列举数据类型 数据类 型与实 例 实例 否 rdf:ID rdf:ID rdf :ID 有限列表 否 rdf :parseType=“C ollection” rdf :parseType=“daml :coll ection” rdf:parseType=“Colle ction” 数据集 有序列表 否 rdf :List daml :List rdf :List 交集 否 否 daml :intersectionOf owl:intersectionOf 补集 否 否 daml :complementOf owl:complementOf 交集、 补 集、和集 和集 “和集(Union) 可以使用包(Bag)表 示无序集合。 daml :disjointUnionOf daml :unionOf owl:unionOf owl:disjointWith 定义 类成员关系 所必需和足 够的条件 否 否 daml :sameClassAs daml :UnambigousProperty owl:sameAs owl:different From owl:AllDifferent owl :equivalentClass 反向的 否 否 daml:inverseOf owl:inverseOf 属性类 型 传递的 否 否 daml:TransitiveProperty owl:TransitivePropert y 命名空 间 标准化提高 有 有 有 有 研究论文 图书情报工作网刊 2010 年 9 月 4 3 XML的应用研究 3.1 XTM XTM (XML Topic Maps) 称做主题地图或者概念图, 定义用XML描述和标记主题图的方式。 2001年, XML主题地图成为ISO13250 标准的一部分(ISO/IEC13250)。XTM的目的是通过map表达资源的知识,XTM通过主题( topic) 、出现(occurrence) 以及关 系( association) 组织起支持复杂数据集导航的网状知识结构。主题就是主题subjects一个主题,是一个或多个主题类型 (topic type)的示例;出现(occurrence)是被指定为与给定主题相关的信息;关系是一个链接元素,表明在两个或多个主题 之间的一种关系。主题、出现和关系三者将信息资源与主题紧密联系起来, 并可以表示主题与资源之间的关系,主题、出 现和关系就如同是三度空间中的“点、线、面” ,将一定领域的知识具体化 6 。可见通过XTM,用户能够组织信息资源、建立 索引、描述主题间的关系、建立起语义关系网络,从而方便地定位到用户感兴趣的知识点及其相关的信息资源。 因此,XTM在语义Web环境下有着广泛的应用前景。利用XTM能够完成在语义和知识层面上描述知识的模型,以便以一种 通用、直观的方式对知识进行获取、组织、呈现和检索,即知识地图的构建,如图1所示: 图1 XTM构建知识地图 XTM知识地图的构建行为: XTM组织。 采用XTM进行数据的描述和接口格式的定义 , 并进行概念等信息的交换和自动更 新(XML能获得真正独立的、跨平台的数据传送), 以实现自动分类处理,可以较好地解决网络信息组织管理问题。XTM 挖掘。XTM把知识撷取和知识推理技术应用于网络信息里所记载的各个主题间的关系上,将可以发现更多的隐性知识。XTM 整合。 XTM标准规范是用在建构网站资源的知识管理整合的技术, 网络上经过筛选整理的网络资源及每个主题图之间的链接, 可以建构成整合的知识库, 从而集成网络各类信息资源。XTM过滤。主题图能够对信息内容进行分析,即能够对主题以及 关系进行把握,提供信息之间的语义联系,容易发现相关主题的内容,因此便于进行过滤。 3.2 XLink XLink 是 XML 链接语言(XML Linking Language) 的简称,是一种用 XML 元素向 XML 文档中加入链接的机制,大致类 似一个超链接。在超链接中,不管是源还是目标都可以抽象为资源。从这个意义上讲,XLink 是描述在资源间进行链接的语 言。简单 XML 链接与 HTML 链接非常相似,它以单方向链接两个位置,在两个资源之间建立关联。这两个资源分别是文档中 的链接元素和 XLink 全局属性 href 所指向的资源, 其中链接元素为本地资源或起始资源, href 所指向的资源为远程资源或 目标资源。 简单 XML 链接的功能是比较有限的。为了满足复杂的需要,XML 链接出现了各种复杂 Xlink,可以与 OpenURL 以及 SFX 的链接功能相媲美,既达到了一个动态的信息浏览或定位的功能,也针对用户对信息资源的可获得性给出了合适的链接。如 支持多目标链接,即可以实现多个资源的链接,而且可以实现链接的资源可以是一处或多处的多源链接,这些资源的存在形 式也可以是各种各样的,可以是一个给定类型的节点集、也可以是一个给定属性的节点集,可以是与给定字符串相匹配的文 本,还可以是上述三者的各种组合。这就加大了资源-知识的发现、获取,进而组织知识以提供知识的管理与服务。 3.3 XPath XPath 是 XML 路径语言(XML Path Language)的简称,是 W3C 关于查询部分 XML 文档的通用语言标准。当 W3C 首次开始 开发 XML 查询语言时,他们意识到 XPointer 和 XSLT 正在尝试完成一种类似的功能:访问一个 XML 文档的特定段。因此, XTM 挖掘 XTM 组织 XTM 整合 XTM 过滤 知识地图 Web 资源 用 户 图书情报工作网刊 研究论文 2010 年 9 月 5 XPointer、XSLT 和 XPath 进行了合作,指定为 XML 使用一种查询语言 7 ,XPath 的目标是定义一种定位 XML 文档各个部分的 语言,其功能是在数据存储区中查询某一节点或节点集。为了实现这个目标,XPath 规范定义了两个主要部分:一部分是表 达式语法;另一部分是一组名为 XPath 核心库的基本函数。XPath 树模式对不同 XML 文档结构下冗余度进行评估,并在算法 中权衡网络流量和 XPath 查询复杂度 8 ,既减少网络流量,也提高了信息用户的检索效率和利用效率。 3.4 XQuery XML 查询语言XQuery是导航语言XPath的扩展,它是一种语法简单灵活且表现力强大的功能性语言。并且能较好的满足 目前XML对查询语言的要求,能够实现对基于数据的、基于文档、元素节点以及混合型的XML数据源的查询,提高用户查询效 率。XQue

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论