




免费预览已结束,剩余6页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SGML、HTML与XML之比较Comparison of SGML, HTML and XML陈嵩荣Sung-Jung Chen辅仁大学图书信息学系硕士班学生Graduate student, Dept. of Library & Information Science,Fu-Jen Catholic UniversityE-mail: .tw摘要本文将依发展的时间顺序介绍三种值得电子图书馆领域注意的电子文件格式:标准通用标示语言(Standard Generalized Markup Language;简称SGML)、超文件标示语言(Hypertext Markup Language;简称HTML)与最新崛起的可扩展标示语言(Extensible Markup Language,简称XML),并作简单的比较。AbstractThis article is to introduce three formats of electronic document in order of development which are worth watching closely by digital library community. They are SGML(Standard Generalized Markup Language), HTML(Hypertext Markup Language) and XML(Extensible Markup Language), which is the new markup wave. Then have a simple comparison of them.关键词:标准通用标示语言;超文件标示语言;可扩展标示语言;标示Keywords:SGML (Standard Generalized Markup Language); HTML (Hypertext Markup Language); XML (Extensible Markup Language); Markup壹、前言 计算机是处理信息的工具,硬件是处理信息的实体资源,软件则是为了处理特定信息设计出来的流程。计算机之所以能对我们的生活带来很大的效益,是因为计算机具有处理信息的强大能力,硬件与软件的不断进步代表着计算机处理信息的能力愈来愈强,但计算机要能够发挥效益,除了要有硬件和软件之外,还要输入数据,数据经过计算机的处理,输出有价值的信息,这才是我们使用计算机的主要目的。平常计算机硬件与软件的进步总会引起较大的注意,例如:Intel发表新一代的微处理器、Microsoft发表新的操作系统或应用软件总是信息界的盛事,但一般人较少注意到数据格式(data format)的发展事实上对信息的处理、管理与利用所带来的影响并不逊于软硬件的革新,尤其对电子图书馆等保存大量公共信息的组织而言,所采用的数据格式必须确保所有的文件信息能妥善地长期保存,并能以最有效率的方式被存取与传布,因为这些信息是社会重要的资产,而且通常是对社会较有价值的信息(注1)。本文将依发展的时间顺序介绍三种值得电子图书馆领域注意的电子文件格式:标准通用标示语言(Standard Generalized Markup Language;简称SGML)、超文件标示语言(Hypertext Markup Language;简称HTML)与最新崛起的可扩展标示语言(Extensible Markup Language,简称XML),并作简单的比较。SGML是ISO在1986年所颁布的国际标准(ISO 8879),在电子图书馆相关计划中,目前有TEI(Text Encoding Initiative)、EAD(Encoded Archival Description)、CIMI(Consortium for the Interchange of Museum Information)、DIAP(Digital Image Access Project)与美国国会图书馆的American Memory Project等采用SGML作为文件格式(注2,3,4);HTML是SGML的一个应用,是一种用以创造超文件(hypertext)的简易资料格式,目前在全球信息网(World Wide Web;简称WWW或Web)获得普遍的采用,是写作网页(webpages)的标准语言;XML是全球信息网联盟(World Wide Web Consortium;简称W3C)在1996年底所提出的标准,1998年2月公布XML 1.0 Recommendation,相关标准目前仍在发展之中。这个新一代的标示语言被期许能具有SGML的弹性,但又不像SGML般复杂,并能如HTML般能在Web上传送。贰、何谓标示(markup)?SGML、HTML、XML都是标示语言(Markup Language)。最早,标示是文件在排版时,用来指示文字如何编排的指令,包括控制字体的大小、字型的选择(如楷体、细明体等)、字形的处理(如粗体、斜体、加底线等)、页面的大小(如A4、B5等)、天地左右的留白宽度、标题、段落、脚注、表格等,这些标示并不处理文件的内容,主要用来处理文件实际的呈现外观,这类的标示称为程序性标示(Procedural Markup)(注5)。大部分的电子出版或文字处理软件都使用专属性的程序性标示,也就是说这些系统都使用专属的句柄来执行文件的处理,如字体的加粗、放大等,这些专属的句柄大都只能在特定平台的特定的系统或相关软件中执行,如果所使用的硬件或系统软件换了,这些标示过的文件往往必须进行重新标示的工作,这种数据转换所花费的代价通常相当的大;同样的,使用程序性标示的文件在交换时,文件交换的双方通常必须使用相同的系统。一般而言,程序性标示的作用都只针对单一文件,例如控制某一份文件以特定的格式输出,如果同一份文件内容希望以不同的呈现外观再利用,必须移除先前的标示,加入符合新的呈现外观的标示;或者将同样的文件内容复制一份,为新的呈现外观进行标示。另一类的标示称为描述性标示(Descriptive Markup),也称为通用标示(Generic Markup或Generalized Markup),所描述的是文件的内容(content)或结构(structure),而不是文件的呈现外观。描述文件结构的方式是以标示指定结构中的元素(elements),以文章为例,其结构可能有标题、章、节、参考书目等;以书信为例,结构可能有寄件人、收件人、书信内容等。通用标示的基本概念是文件的内容必须和文件的呈现信息(即所谓的样式)分开(注6),由于内容、结构与呈现信息分开,所以同一份文件内容可以有多种呈现方式,例如同一个档案可能以纸本、在线、CD-ROM与Web版本发行。以图一(注7)为例,Content是文件的本文信息,Structure是标示的结构,这两部份是通用标示所要描述的,Presentation是文件的呈现外观,在Content、Structure与Presentation之间的Formatter主要是用来设定文件的输出格式,样式表单(Style Sheet)的角色就是属于这个部分。由于内容、结构与呈现信息分开,如果同一份文件内容希望以不同的呈现外观再利用,只须修改样式表单或产生一份新的样式表单即可,文件内容与结构的标示完全不须更动,因此通用标示在文件的再利用方面要比程序性标示有弹性的多。XML、SGML都是典型的通用标示语言,HTML就比较特殊了,HTML的标签集(tag set)中大部分是用来设定文件在Web上的呈现外观,少部分描述文件的结构(如:, , )。由于HTML是SGML的一种应用,所以HTML并非程序性标示语言,而是以描述性标示的方式来控制文件的呈现外观;HTML的样式是内建的,并不像XML、SGML有分离的样式,所以HTML标示的作用与程序性标示类似是针对单一文件,并不像XML、SGML有较高的再利用弹性。图一参、SGMLSGML是ISO在1986年所订定的标准,编号是ISO 8879。SGML 是一种元语言(meta-language),元语言是一套可以用来定义其他更专门性的标示语言的通用规则,HTML就是由SGML所定义出来,专门使用在WWW上的标示语言(注8)。SGML主要应用在文字数据的交换,但也适用于其他的数据型态,SGML是很好的数据单元格式,适用于任何复杂的文件结构,但缺点是在网络传输(network delivery)方面较为不便。由于介绍SGML的中文文献已有一些(书目请参考注9,10,11,12,13),本文不再对SGML作全面性的介绍,只介绍SGML的优点与限制。一、SGML的优点(注14):1. 有弹性(flexibility):SGML能描述任何的信息结构与任何复杂的文件,其应用可以简单如HTML,也可复杂如TEI、EAD、CIMI;SGML是完全可扩展的(extensible),可以针对各种类型的文件结构订定出合适的标签集(tag set);SGML是理想的资料单元格式,提供了相当多的选项功能,可以适用于最复杂的信息处理。2. 非专属性(non-proprietary)、平台独立(platform-independent)与系统独立(system-independent):SGML并不专属于特定的平台与特定的应用系统,因此SGML文件可以在彼此不兼容的系统间交换,不会造成信息遗失(information loss),这个特性使得SGML文件可以长久保存。3. 信息再利用性(re-usability):透过SGML文件内容模块(content module)的再利用,使得文件的产生更有效率、更经济,SGML文件的内容可以重复利用,或者被其他的SGML文件使用,不须重新产生内容。同一份文件内容也可以透过样式表单(style sheet)以多种呈现方式出版。 二、SGML的限制(注15,16,17):1. SGML应用程序不易开发:SGML庞大且复杂的选项功能虽然使得SGML具有较高的弹性,但也增加了应用程序开发上的难度,即使SGML工具的主要供应厂商ArborText所发表的产品,也没有百分之百支持SGML标准。事实上,SGML有许多选项很少被应用,如果把这些不常用的选项去掉,将使得应用程序的开发变得更容易。2. SGML文件不易在Web上传布:要能够浏览SGML文件,必须要有文件型别定义(Document Type Definition;简称DTD)及样式表单(Style Sheet)。DTD定义了文件结构间的关系,样式表单定义了这些结构的呈现格式,如果少了DTD与样式表单就只能看SGML文件的原始码了。由于目前Web上的主流浏览器只支持HTML,HTML文件并不需要DTD与分离的样式表单,因此SGML文件在Web上只能透过特定了浏览器(如Panorama)才能阅读,不过这类的浏览器并不普及。如果希望SGML信息能在Web上被大多数人浏览,只好透过转换程序将SGML转成HTML,但这样的转换往往会造成信息遗失(Information Loss),原本SGML文件中所标示的结构在转换成HTML文件后并无法继续存在。3. 缺法厂商的支持:Web上的主流浏览器厂商Microsoft与Netscape支持HTML的发展,但并没有支持SGML的意愿;由于SGML过于复杂,也只有少数厂商愿意投资开发SGML的相关应用程序,这使得SGML在普及上造成很大的障碍。肆、HTMLHTML是SGML最著名的应用,是一种专为WWW网页显示及浏览而设计的简易标示语言,目前是WWW上制作网页的标准语言格式。WWW的开山祖师Tim Berners-Lee对HTML所下的定义是:HTML是一种用以创造超文件的简易数据格式,其所创造出来的文件可在不同的作业平台间移动。由此可知,可移植性(portable)与简易性(simple)是HTML的两大特征。(注18)HTML文件除了包含文字信息外,尚可包括声音、影像等多媒体信息,而HTML的超链结除了网页内的链结,也包括网页之间的链结。以下介绍HTML的特色与限制。一、HTML的特色(注19):1. HTML DTD的设计主要是满足在线显示的需求。许多标签纯粹是用来指定网页的呈现细节,例如:l br 是换行(line break)。l hr 是画一并行线(horizontal rule)。l b 表示粗体字(bold)。l i 表示斜体字(italic)。2. HTML有内建的样式(style)。HTML希望直接使用SGML标示来控制网页呈现的样式,亦即HTML不需要有分离的样式表单,这使得HTML更为简单易用,但缺点是较没有弹性,同样的文件内容只能设定一种呈现样式。3. HTML引用SGML的标示最简化特征(markup minimization feature)。这是为了尽量减少HTML文件标示的数量,使HTML的标示更简单,最明显的例子是结束标签(end-tag)的省略。例如在HTML 2.0 DTD中,p(paragraph)的结束标签是可以省略的,其元素型别(element type)的宣告如下: 其中 “-” 表示起始标签(start-tag)是必备的,大写字母 ”O” 表示结束标签是可省略的(”O” 是 “omissible” 的意思)(注20);倘若结束卷标是必备的,则元素类型声明应该如下:结束标签的省略虽然使得HTML的标示更为简单,但也成为描述文件结构时的限制,HTML文件中所有的段落标示 在地位上都是平行的,省略了结束标签就无法描述段落中又有段落的结构。4. HTML没有采用SGML的超链结(hyperlinking)机制。HTML的超链结是利用标签 (a是anchor的意思)的 “href” 属性来指向Web上的任意文件,例如: 是一个外部链结(external link) 是内部链结(internal link)而内部链结的目标点是利用卷标 的 “name” 属性来指定,例如: SGML则是利用ENTITY或ENTITIES属性型态及 ID IDREF机制来达到超链结的效果(注21)。二、HTML的限制(注22):1. 结构上的限制:HTML最大的限制就是它的标签集是固定的,而这些卷标大都属于呈现导向(presentation-oriented)的卷标,主要用来指定网页的显示格式,这个特性使得HTML只能支持固定且简单的文件结构,而且在信息再利用、数据交换与自动文件处理方面都造成很大的限制。2. 信息再利用的限制:许多企业组织都有需要将相同的信息以不同的形式来出版,例如印刷版本、CD-ROM版本、Web版本等,尤其随着电子出版时代来临,数字化数据不管在复制、编辑、传布上皆较传统出版来得便利,将同样的信息以各种不同的形式出版也变得更可行。如果以HTML作为电子出版的数据格式,设定不同的呈现格式,如标题字体的大小、条列(lists)与表格的使用等,就能产生不同的Web版本,如果打印出来就是相对应的印刷版本,但由于HTML文件的数据内容与呈现外观是结合在一起,如果原始文件的内容有所改变的话,所有不同形式的版本全部都要跟着转换,这道转换的程序必须耗费不少的人力与时间。如果采用SGML作为电子出版的数据格式,由于数据内容与呈现外观是分开处理,因此可以避免掉因原始文件内容改变而造成所有的版本都必须转换的问题。3. 数据交换的限制:由于Web的普及,上网人口不断增加,使得Web成为许多企业组织交换数据最理想的场所,但由于HTML的标签集是固定的,且这些卷标大都属于呈现导向的卷标,利用HTML作为数据交换的格式,很难对每一项所要交换的数据作清楚的描述。例如:有一家网络书店想要透过Web从出版商那里取得一些新出版书籍的书目资料,并希望把这些数据自动转入自己的数据库中,再动态地把新书信息呈现在网站上,书目数据报括了作者、书名、出版社、ISBN.等字段,以HTML标签来标示这些书目数据,并没有办法逐一标示每个字段,通常是把它包装成表格的形式,以利于浏览,但如此一来却没有办法利用程序将HTML中的书目数据转入数据库中,因为程序没法分辨HTML文件中哪一段信息是作者、哪一段信息是书名.,就算出版商以SGML来储存书目数据,清楚地描述每一个书目数据的字段,但一旦要透过Web传送,将SGML转成HTML后,这些书目数据的字段结构就无法存在了。4. 自动文件处理的限制:自动文件处理可节省人力操作的成本,降低人工输入的错误,改善整体作业流程的质量,并提高文件传递的速度。透过Web有许多的文件处理流程事实上可以被自动化,尤其在Intranet或Extranet若能将数据库中的数据转出后作自动处理,或文件经过自动处理后直接转入数据库,将能大幅提高效率。目前在Web上一些窗体应用程序就是自动文件处理简单应用,如有些在线问卷系统或在线投票系统,用户将填完的问卷数据直接传入伺服端的数据库后,可以直接实时读取数据库的统计结果。由于HTML的标签集是固定的,而这些卷标大都属于呈现导向的卷标,因此HTML文件所能做的自动化处理事实上有很大的限制。所有文件处理高度自动化的流程,都必须透过统一的数据格式,而且这个数据格式必须能携带丰富的内容语义,从这个角度来说HTML并不是一种适合作自动文件处理的数据格式。5. 无法支持较精确的查询:目前在Web上使用者可以透过搜索引擎(search engine)所提供的关键词查询(keyword search)来寻找相关的信息,但由于目前Web上的信息不断增加,使得搜索引擎的查询结果往往会找到太多的信息,而这些信息又不一定能符合自己的信息需求,往往用户花在过滤出所需信息的时间,会超过真正去看这些信息的时间。搜索引擎的准确率(precision rate)不高是因为的所用的查询模式是对网页进行全文检索,虽然也可以将搜寻的目标限制在HTML文件的Title部分来提高准确率,但这样又会降低查询的回收率(recall rate)。一个较好的办法是提供可以指定内容(content-specific)的标签,例如: 庄子 与 庄子 便有所区分,如此一来查询时便可做较精确的限定,其效果有如字段化查询一般,不过HTML并无法让网页制作者自行定义可以指定内容语义的标签,XML将能解决这个问题。6. HTML的不断修订造成了许多网站维护的额外工作:由于HTML是一个演进中的标准,每当HTML的标签集不能满足需求时,W3C就会为HTML加入新的标签,推出新的HTML版本。从HTML 2.0到HTML 3.2,再到HTML 4.0,每当新的HTML版本推出,一些必须维护大量HTML文件的单位就得重新回头检视这些旧版的HTML文件,看看有没有需要重新标示文件。除了W3C会以官方立场身分修订HTML外,浏览器大厂Microsoft以及Netscape也会伴随着新版的浏览器推出自己的HTML延伸标准,而两家厂商推出的延伸标准又不完全兼容,对于许多网站维护人员来说,每当有新版的浏览器问世,就代表着可能又要对部分的网页重新标示。有些组织为了彻底避免重新标示文件的困扰,干脆决定采用SGML来标示文件,再把SGML转换成HTML,因为将SGML转成HTML只要透过转换程序批次进行并不需花费大多资源,但若要重新标示成千上万的HTML网页就工程浩大了。伍、XML XML是W3C在1996年底提出的标准,它是从SGML衍生出来的简化格式,也是一种元语言(meta-language),可以用来定义任何一种新的标示语言。XML的制定是为了补足HTML的不完美,使得在Web上能够传输、处理各类复杂的文件,它去除了SGML复杂不常用及不利于在Web传送的选项功能,让用户可以很容易地定义属于自己的文件型态,程序设计师也能在更短的时间开发XML相关应用程序(注23)。XML1.0 Recommendation已于1998年2月公布,相关标准目前仍在发展之中,XML的发展获得了各界的支持,其中包括了Sun Microsystems, Microsoft, Netscape, Adobe, ArborText.等软件大厂的背书(注24)。一、 XML的发展背景: XML的发展背景主要是因为HTML的诸多限制已经影响了WWW的发展,HTML的限制在前面已经介绍过了,XML的发展成员大都对SGML及结构化的信息(structured information)有相当丰富的应用经验,他们相信引进SGML技术,能够弥补HTML的不足,对WWW的发展能有以下几个方面的贡献(注25):1. 电子数据交换(EDI):结构化信息的一个主要应用是数据交换,不同的领域可以针对领域的特性制定共同的信息内容模型(content model),并以这个共同的内容模型来标示信息,如此可以促使同领域的信息可以更容易且更有效率地交换,这个共同的内容模型,我们称之为DTD。无疑地,Web是理想的电子数据交换的媒介,但HTML并非理想的数据交换格式,也难以充分地表现各种信息内容模型与语意结构,而XML所要提供的正是一套可以在Web上承载各种结构化信息的框架。2. 与Java技术更紧密结合:Java技术的出现使得浏览器能成为通用的应用系统平台,但HTML固定的标签集及不擅长描述语义的特性,使得Java程序没有太大的发挥空间,而XML正好可以给予Java程序大显身手的环境,以XML作为各种结构化信息的标准格式,搭配上Java程序,可以使得应用程序大部分的运算得以在客户端执行,这和目前大部分的Web-based应用程序主要透过伺服端的CGI scripts来完成大部分的运算是相反的模式。借着XML与Java技术的结合,将应用程序的运算从伺服端移到客户端来,有助于降低网络的流量与增加网络的速度。3. 携带平台独立(platform-independent)信息:HTML与XML的始祖SGML提供了一套能够指定信息的结构与语义的语法规则,而且具备了平台独立性。不像Microsoft的RTF、Adobe的PostScript以及其他专属性的文件格式,SGML所提供的是一套具备平台独立性与系统独立性的语法规则。二、 XML的设计目标 根据XML 1.0 Recommendation(注26),XML的设计目标如下:1. XML将能直接在Internet上使用。2. XML将支持各种不同的应用。3. XML将与SGML相容。4. 处理XML文件的程序能很容易被开发。5. XML的选项功能将保持最少,最好是零。6. XML文件应该是易读且清晰的。7. XML的设计应该很快就绪。8. XML的设计将是正式且简洁的。9. XML文件将很容易被产生。10. 精简对于XML标示来说是最不重要的。(HTML的标示便尽求精简)三、XML与SGML主要的不同(注27):1. DTD不是必备的:要处理SGML文件必须要有DTD,而对于XML文件而言,DTD不是必要的。为了要使XML文件在处理上不需透过DTD,XML文件必须遵守更严谨的语法规则。对于XML应用程序而言,没有DTD的好处之一是可以节省下载DTD所用掉的带宽,以及应用程序在开发时可以不必考虑解译DTD的模块。2. 必须符合特定的语法规则(Well-formedness):虽然XML文件可以不需要有DTD,但每一个XML文件都必须是Well-formed的形式,所谓Well-formed的意思是必须遵从XML所定义的几条语法规则。例如:一份XML文件至少要有一对标签;所有的元素(elements)必须是巢状的(nested)结构,而且卷标必须是成对的,也就是每个元素都要有起始卷标(start tag)与结束标签(end tag);任何被引用的实体(entities)一定都要先宣告。这些强制性的语法规则使得开发XML的相关应用程序能够更简单,不须像SGML的应用程序一般,必须参照DTD进行文件结构的确认(validation)。3. 不支持例外处理(Exceptions):SGML的使用者可以使用包含(Inclusion)与除外(Exclusion)这两种语法规则来指定内容模式(content model)的例外处理,例如:可以利用除外(Exclusion)规则来控制附录的文字中不能有附录参照。例外处理的功能对于一些无法处理不可预期结构的应用程序很重要,由于XML并不支持例外处理,这使得现存许多包含例外处理的SGML DTD一时还不能以XML来取代。4. 不支持AND内容模式(content model):XML并不支持AND(&)内容模式。AND内容模式主要用来控制一群指定的元素必须同时出现,而出现的顺序是任意的。例如:(A&B&C)的意思是A, B, C必须同时出现,但可以是任意的顺序,这种内容模式主要是要求一群元素的完整性。XML不支持AND内容模式,对于一些必须使用AND内容模式来控制特定元素群的完整性的SGML DTD,也无法很快被XML取代。XML可提供两种是较接近(A&B&C)的简单内容模式:一种是结构较松散的 (A|B|C)+),另一种是严格限制出现顺序的 (A,B,C)。其实AND内容模式可以用其他的内容模式组合成相同意义的结构,只是表示法可能会相当复杂。5. 不支持SDATA内部实体(internal entities):SGML允许用户利用SDATA内部实体来定义特定系统(system-specific)的符号,如一些数学符号。XML并不支持这种机制。四、XML与HTML主要的不同:1. 信息提供者能任意定义新的卷标与属性名称。2. 文件结构可以是任意阶层或复杂的巢状结构(nested structure)3. XML文件可以包含文法(grammar)的选择描述,让必须执行结构确认(structural validation)应用程序使用(注28)。4. XML不像HTML只有内建的样式,XML提供了样式表单标准,称为可扩展样式语言(Extensible Style Language;简称XSL)(注29)。5. XML除了支持像HTML的简单链结(simple link),也提供了几种功能更强大的超链结机制。XML的超链结机制被制定为XML链结语言(XML Linking Language;简称XLink)(注30)与XML指针语言(XML Pointer Language;简称XPointer)(注31)。五、XML的样式表单 XML提供的样式表单标准,称为XSL,1998年12月发布1.0版草案,简介如下(注32):1. 以DSSSL(Document Style Semantics and Specification Language)为基础:SGML成为国际标准之后,支持SGML的样式表单(Style Sheet)标准就开始被发展,这些标准的制定主要是为了促进样式表单的交换与改善处理文件的软件之间的互操作性(interoperability)。这些样式表单标准中最著名的就是DSSSL,后来DSSSL也被建议成为ISO的标准,不过DSSSL一直没有得到商业软件的支持。2. 与CSS(Cascading Style Sheets)相容:CSS是Microsoft与Netscape所支持的样式表单标准,作为HTML默认样式的替代机制。由于HTML的样式是内建的,并没有提供样式表单,透过CSS就能使得HTML在显示格式上有较大得弹性。XSL将在功能上涵盖CSS的功能,并且使能从CSS透过程序自动转换到XSL,如此一来现有以CSS所设定的格式不至于从新来过。3. 具备重新排序(Reordering)的能力:借着XSL样式表单,不需透过伺服端程序的重新处理,在客户端的浏览器上就能改变数据呈现的顺序,这个特色对于一些借着将数据以任意的顺序呈现来达成互动性的应用程序特别有用,而且由于重新排序的动作全部在客户端就可实现,不需透过伺服端与客户端的来回通讯,有助于节省网络带宽与避免因网络速度太慢影响了应用程序执行的反应速度。4. 对于文件中元素(elements)的前后文关系(context)更加灵敏:CSS支持对每一个元素的父元素(parent)设定样式;XSL更进一步允许对每一个元素的祖先元素(ancestors)、后代元素(descendants)、兄弟元素(siblings)设定不同的样式,这对于以文件中元素的位置及前后文关系来设定样式提供了更大的弹性。5. 同时支持在线显示与打印的格式:CSS只有支持在线显示,XSL除了支持在线显示的格式外,也支持文件打印能有更丰富、更复杂的格式。六、XML的超链结机制: XML的超链结机制被制定为XLink与Xpointer两个标准,1998年3月各发布了1.0版草案,简介如下(注33):1. 基于HyTime(Hypermedia/Time-based Structuring Language)与TEI(Text Encoding Initiative)的链结概念:XLink与XPointer的链结概念引用自HyTime与TEI,这些标准目前尚未被软件厂商所普遍支持。XML将提供几种比目前HTML的超链结机制更强大、更有弹性的链结机制。2. 与现有的URL链结机制相容:XLink将完全支持现有的Web的URL链结格式。3. 支援双向链结(Bi-directional Links):双向链结允许使用者能在链结的两端自由来回跳跃。目前HTML的单向链结在使用时,有时经过几次的超链结跳跃后会有迷路或找不到回家的路的情况发生,透过双向链结的机制,这些情况可以改善一些。4. 支持寻址(Addressing):XPointer允许链结到目标文档的阶层结构的某个精确位置,也就是可以利用文件的结构来寻址,这是比较有弹性的链结方式。HTML的文件内部超链结必须指定文件中的绝对位置,一旦文件内容有所改变,通常必须更新链结;利用文件结构来寻址所指定的是相对位置,只要文件结构没有改变,就算文字内容改变了也不需更新链结。5. 支援间接链结(Indirect Links):间接链结可以改善目前Web上很普遍的断裂链结(broken links)问题,现在Web所使用上URL(Uniform Resource Locator)是属于绝对地址,只要主机位置或路径改变,所有包含这个URL的档案都必须更新,否则就会造成断裂链结,这对使用者与网站管理者都造成一些困扰,就算能利用程序自动侦测每个链结的状况,产生断裂链结的清单,但要处理这些断裂链结也需耗费不少人力,尤其是一些大的网站,可能定时得处理断裂链结问题,否则便会遭来使用者的抱怨。XLink的间接链结所采用的地址是间接地址,再透过一个分离的中介档(intermediate file)来储存间接地址与实际地址的对应,如果某个档案改变了在网络的位置,只需更新这个中介档的对应,至于链结的源文件与目标文件都不需更动,这使得链结的管理更有效率。陆、结语 对于电子图书馆等必须大量收集、组织、储存、传布大量数字数据的单位而言,选择适当的数据格式是极为重要的,除了必须考虑到长期保存、交换的需求外,这个数据格式应该能支持更精确的检索及各种不同的再利用,SGML已被几个知名的电子图书馆相关计划采用作为电子文件格式,如TEI、EAD、CIMI、DIAP与American Memory Project等。但无法在Web上广泛传布一直是SGML最大的限制,透过XML的制定,将突破这个限制,使得电子图书馆所典藏的各种结构化信息也能透过Web广泛地传播出去,信息唯有被广泛利用才能成就它的价值。此外在文献传递、分布式查询、信息过滤等方面,XML也将分别带来效益,且让我们拭目以待。注 释 注1:Yves Marcoux and Martin Sevigny, Why SGML? Why Now?, Journal of American Society for Information Science, 48:7 (July 1997), p.584.注2:Lou Burnard and Richard Light, Three SGML metadata formats: TEI, EAD, and CIMI - A study for BIBLINK Work Package 1.1 (Dec. 1996) 注3:Edward Gaynor, From MARC to Markup: SGML an
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 职场达人必 备:面试题公布时间及答案深度解析实战技巧
- 2025年职业技能鉴定考务管理考试试题及答案
- 医药行业人才选拔实战指南:桂林药厂面试题及答案深度解析
- 非法集资考试题库及答案
- 感染科岗位招聘面试题示例解析
- 鹤煤公司技术工人(瓦斯抽放工)安全培训考试题库及答案
- 求职必 备:事业编招聘面试题及答案深度解析
- 2025应聘巡检员考试题及答案
- 邮政创新岗位面试实战模拟题库:提升面试技巧赢在职场
- 护理课件抢救车
- 2025年中国农业银行宁夏回族自治区分行春季招聘58人笔试模拟试题参考答案详解
- 2025年珠海市金湾区农业农村和水务局招聘下属事业单位工作人员公笔试备考试题及答案详解(有一套)
- 【高朋律师事务所】RWA发展研究报告:法律、监管和前瞻(2025年)
- 大疆80分钟在线测评题
- DZ∕T 0148-2014 水文水井地质钻探规程(正式版)
- 中铁XXXX局城轨道交通工程劳务分包指导价2017版
- 德国申克振动筛
- 钻机电气控制系统操作手册
- 现浇剪力墙结构模板安装与拆除技术交底
- 电力服务收费项目及标准
- 最新农贸综合市场项目可行性报告
评论
0/150
提交评论