基于XML技术标准的主题图构建及应用.doc_第1页
基于XML技术标准的主题图构建及应用.doc_第2页
基于XML技术标准的主题图构建及应用.doc_第3页
基于XML技术标准的主题图构建及应用.doc_第4页
基于XML技术标准的主题图构建及应用.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于XML技术标准的主题图构建及应用【 摘 要 】 文章主要讨论了xml技术在信息组织领域的某一个方面应用,即xml用于主题图的实现,或称为xtm技术。它是使用xml语法来处理主题图中数据的一种方法。围绕该主题,文章介绍了xtm标准、使用xtm代码或使用集成开发工具这两种方法构建基于xml技术主题图,并列举了国内外使用基于xml技术实现主题图的应用案例。【 关键词 】 xml;主题图;xtm;信息组织【 abstract 】 xml being applied to topic maps, a way of information organization, is generally called xtm. in the content, we introduce xtm standard, two ways of using xtm to construct topic maps and some examples of using topic maps based on xml to organize information.【 keywords 】 xml; topic maps; xtm; information organization1 引言21世纪是信息时代,人们对信息的需求越来越多。但是,信息的量大质杂,与人们有限的时间精力、特定的信息需求存在极大的矛盾冲突。因此,对信息进行合理的组织,以方便用户获取信息的需求越来越迫切。数据是信息的载体,对信息的组织实质上是对数据的组织。主题图结构清晰并能够有效地反映数据间关联,因此主题图常被认为是信息组织的理想方法。如今有多种实现主题图的技术方法,如hytm等。但是,上述实现主题图的方法有一个难题:利用主题图组织的数据如何实现跨平台的数据交换?xml是现在流行的internet环境下跨平台的数据组织、数据存储工具,能较好地解决主题图数据跨平台交换的问题,因此,基于xml技术标准构建的主题图(xml topic map、xtm)有着极大的发展空间。2 xml技术与主题图概述2.1 xml概述xml(extensible makeup language,可扩展的标记语言)由万维网联盟(world wide web consortium,w3c)提出,希望能方便internet网络上的数据间交流,方便计算机处理文档内容以及文档结构。xml是一种元标记语言,是一套定义语义标记的规则。相比较其他元标记语言而言,xml更加灵活。用户可根据处理的文档中的信息内容自定义符合一定规范的标记,从而更有助于用户理解文档内容结构,并方便计算机处理文档结构。但是,xml语法更加严格。因此xml更具有结构化,是处理结构化文档的有力工具。xml规范了格式,使用统一的编码,当所有平台遵守xml的格式规定,也就实现了跨平台,使不同来源、结构化的数据很容易地集成在一起。简言之,xml允许用户自定义符合一定规范的标记,从而方便计算机处理结构化文档,同时,它能在internet环境下实现跨平台的数据交换。这些特点使xml成为实现主题图的主要技术。2.2 主题图概述主题图(topic map)的概念最初是由w3c提出,用来实现索引和辞典构建过程的形式化。主题图是一种用于描述信息资源的知识结构的元数据格式,它可以定位某一知识概念所在的资源位置,也可以表示知识概念间的相互联系。简单说,主题图就是一种组织、表达信息,或者说数据的方式。现实世界中的事物都是一个对象,一个对象都有着自己的状态(如名字、存在地点)以及行为(与他人发生联系的方式)。这个对象在主题图中的反映就是一组主题,这些主题同样也包含自身状态以及行为,如主题的名称,资源出处,以及它与其他主题间的关联。因此,一个主题图就是一个由主题、联系、资源组成,主题、联系、资源构成了主题图概念中的三要素。构建主题图的思想是将信息归为二类:主题、资源地址或者相关信息,然后再建立各种信息内容之间的联系,从而实现对信息的组织。以英语单词abundant为例,可以构建主题图。与abundant相关词汇有abundance、abound、redundant,因此可以共建立四个主题。其中,abundance是abundant的名词形式,abound是abundant的动词形式,redundant与abundant有相同的词根und,以上为他们之间的联系。每一个词存在于某一个例句中,例句为对应资源。3 基于xml的主题图构建标准xtmxml是当前处理结构化文档、跨平台的有力工具。利用主题图组织的信息十分具有固定的结构,即有三个元素:t、a、o。因此,xml技术可以较好地描述于主题图的组织的信息。将xml思想运用于主题图的实现,从而形成一种新的技术,即xtm,有时也称为tm/xml(topic map/xml)。xtm从本质而言,它是一种xml语言,只是其处理文档的对象为特定的、已知的结构文档。在xml文档中,所有文档以作为根标记,以标识该文件使用xml语法处理;在xtm文档中,所有文档以作为根标记,以标识该文件使用xtm语法处理。在xml文档中,用户可以根据文档内容自定义标记来使文档更具有结构化,以方便计算机处理;而在xtm文档中,所有内容都是根据主题图思想构建,它们结构相似,都具有t、a、o 三个要素,使用标识文档结构的标记基本相同,如 等。因此,为了统一主题图的各种生成代码,方便主题图之间集成,xtm相关标准,规定了xtm基本字段。xtm标准由制定,其基础是iso/ief 13250模型。iso 13250的初版包括了基于sgml的相互交换语法和以hytime著称超媒体连接语言。第二版是在2002年发行的,在其中添加了基于xmlt和xlink的相互交换语法。如今,xtm有两种标准:official international industry standards以及community standards。最新的版本为xtm 2.0,但xtm 2.0并非iso发布的官方版本。因此,下文主要介绍和使用的为官方标准xtm 1.0。在xtm 1.0中,以下需要对主题图进行描述的标签已经在xtm的dtd文档中定义好了。xtm作为一种特殊的xml语言,其基本语法规则与xml语言的语法类似,只是标签的标准不同。xtm文档中标签的基本结构如上。下包含、三个子标签。显示的标签结构中涉及到很多、标签,这两个标签通过链接的形式,将xtm文档中涉及到的主题(topic)有组织有规律的联系起来,形成图状的知识网络结构图,从而达到主题图的目的。4 利用xml技术实现主题图方法主题图只能建立信息组织的概念模型,要是计算机能够读懂该概念模型,则需要借助xtm技术将概念模型转变为计算机能处理的形式。事实上,转变后的xtm只是一大堆符合xml语法规范的代码,只有经过可视化工具后才可以变成直观、易懂的图形形式。利用xtm技术实现主题图的方法有两种:编写符合xtm规范的代码或者利用集成开发生成工具。当然,使用集成开发工具生成xtm,其基本思想也是编写符合xtm规范的代码,只是将纯xtm代码的编写变为可视化窗口下的编写,更具直观性。下文将会介绍这两种生成xtm的方法。3.2 程序代码转化xtm下面,就针对标签,进行一下xtm语法说明。主要描述某主题所属的主题类型,与“主题类型”概念相对应,表示主题与主题类型之间的层次关系。在它的下面包含着有、两个子标签。若该主题的类型在本文档中已定义为主题了(主题类型也是一种主题),则使用标签的xlink:href属性将主题与主题类型相链接(链接的是该主题类型的id号)。若该主题的类型没有能有效在本xtm文档中定义为主题,则需要使用中的xlink:href属性将主题与主题类型相链接。而此时的链接值只能是uri。在本例中,一共有三个主题,分别为001、002、003。从主题002的定义中,我们可以知道002是001的一个实例,即主题002是主题类型001的具体化。对于主题003,是“/example/#number”这个uri所标识的主题类型的具体化。由上述代码可以知道,使用纯xtm代码实现主题图的过程不仅繁琐而且容易出错,可读性不高。因此,此方法不推荐,如今实现主题图常采用集成开发工具。3.3 软件工具转换xtm主题图构建的开源工具有很多种。比如,protg、美国电话电报公司的dute、德国ontoprise公司的ontoedit、英国公开大学的webonto、南加州大学的ontosaurus、斯坦福ai实验室的ontolingua server、曼彻斯特大学的oiled等。用户常使用的软件的是ontopia公司的oks。oks(ontopia knowledge suite)是ontopia公司的知识管理工具套装,它包括很多个组件。ontopia 引擎从xtm 文件中读取主题图,在net.ontopia.topicmaps.xml 包中用xtmtopicmapreader 类来实现,输出xtm 文件在net.ontopia.topicmaps.xml 包中利用xtmtopicmapwriter 类实现。5 基于xml技术标准的主题图应用案例作为一套信息组织的方法,主题图能有效地组织信息,并在一定程度上展现信息间联系。因此,国内外学者都积极将主题图实践到各个领域,如知识管理领域、web应用领域以及语义挖掘领域等,并有不少成果。(1)brainbank learning(http:/brainbank.no/ brainbank/app/):brainbank learning是一个适合所有年龄学生的学习系统。这个系统的主题图由ontopia工具生成,同时需要数据库管理软件来存储已构建好的主题图。brainbank learning让每一位使用该系统学习的学生去构建属于自己的知识结构主题图。这些主题图有助于帮助学生了解自己的知识结构体系,从而采取更好的适合自己的学习方式。同时,教师也能看到学生构造的知识结构主题图,根据该主题图结果,因材施教。(2)卑尔根市知识门户(https:/www.bergen.kommune.no/):卑尔根市是挪威的第二大城市,2007年早期在主题图的基础上建立城市门户网站。门户网站包括了政治、服务、旅游、商业、文化、出版业、国际关系七个主题。(3)意大利歌剧主题图( /operamap/index.jsp):由挪威ontopia公司开发,目前虽然已经成型,但尚未全部完成和公开。意大利歌剧主题图总体上包含七个主题:歌剧、作曲家、歌词作者、歌剧作者、剧院、城市和地区、国家。6 结束语随着社会进步,用户对于信息的要求也更高。主题图能有效对信息进行组织,并能提供信息导航功能。同时,xml具有跨平台、有效处理结构化文档的特点,利用xml为核心技术的主题图成为实现主题图的主流。国外较多门户网站建设采用了主题图形式,真正将主题图投入到实例中,但是,国内真正应用主题图来组织信息的实例并不多,仅停留在理论研究阶段。参考文献1 何建新主题图及其应用j中国索引,2005,3(1):14,26-29.2 /zh-cn/library/aa480048(d=loband).aspx.3 http:/www.topicmaps.or

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论