基于XML Web技术及其在电子出版之应用.doc_第1页
基于XML Web技术及其在电子出版之应用.doc_第2页
基于XML Web技术及其在电子出版之应用.doc_第3页
基于XML Web技术及其在电子出版之应用.doc_第4页
基于XML Web技术及其在电子出版之应用.doc_第5页
免费预览已结束,剩余3页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于XML Web技术及其在电子出版之应用(计算机08-2 08032232 张雪)【摘要】:一般预料,XML将继HTML之后,成为新一代Web的整合技术,为网路带来第二波革命性的改变,促使网路从资讯处理阶段跨越到知识管理阶段,并将在电子出版、电子商务、电子图书馆、电子资料交换、远距教学等领域展现其强大的应用潜能。本文旨在探讨XML如何有效的表达网路上各种知识,为资料的交换和处理提供新的机制;并试图从电子出版的角度着眼,说明电子文件组成要素,分析目前Web出版的现况,从而深入了解现今Web所遭遇的困境与瓶颈;接着基于文件存取、整合、传递、操纵、显示等议题,提出一个整合式XML文件管理系统架构,并探讨XML相关技术,诸如DTD、XMLSchema、XML Namespaces、RDF、XLink、DOM、CCS、XSL等,在此一架构中所扮演的角色及功能,进而描绘出Web未来发展之趋势与轮廓。关键词:XML;HTML;XHTML;Web出版;电子文件;电子出版绪论随着网路的发展,图书与出版技术逐渐由传统印刷形式,朝向全面电子化的方向迈进,藉由网路,人类的文化得以采用数位化型态即时传播;透过网路,全球的使用者皆可共享资讯、共用资源。如今,经由Web产生的电子文件,已经如同蜘蛛网一样,密密麻麻的组成了一个全球性的系统(DistributedHypertextSystem)。在此一系统中,HTML(HyperTextMarkupLanguage,超文件标示语言)无疑是扮演了一个关键性的角色。但是随着资讯科技的发展,Web应用愈来愈广泛,HTML的弱点也愈来愈明显。其中最严重的,便是HTML擅长版面编排而欠缺内容语意,所以虽然适合人类阅览但却不利于电脑理解;其次,HTML的标签集是固定的、不可扩展的,无法应付多样化的应用。这些缺点在电子出版、电子商务、远距教学、电子图书馆等全新领域急速发展,并期望Web朝向自动化、智慧化目标迈进的同时,遂成了Web发展的一大隐忧。有鉴于此,人们开始着手研究改进HTML的方法,XML(eXtensibleMarkupLanguage,可扩展标注语言)便是在这样的背景下产生的。XML具有可扩展性、高度结构化和良好的资料组织能力,能够有效的表达网路上各种知识,为资料的交换和处理提供新的机制,一般预料,XML将成为新一代Web的整合技术。若将HTML比拟为网路的第一波革命,则XML极可能继HTML之后为网路带来第二波革命性的改变,促使网路从资讯处理阶段跨越到知识管理阶段,并将在电子出版、电子商务、电子图书馆、电子资料交换、远距教学等领域展现其强大的应用潜能。众多的特点使得XML成为一个强势语言,并迅速获得各界的支持及响应。 本文从电子出版的角度着眼,说明电子文件组成要素,分析目前Web出版的现况,从而深入了解HTML所遭遇的困境与瓶颈,接着基于文件存取、整合、传递、操纵、显示等议题,规画一个整合式XML文件管理系统架构,并探讨XML相关技术在此一架构中所扮演的角色及功能,进而描绘出Web未来发展之趋势与轮廓。一、电子文件与Web出版 电子文件所必备的要素众多,其中最重要的当属资料(Data)、结构(Structure)和表现(Presentation)三者:1.资料:指文件的内容(Content),也就是文字、图表等内涵部分。2.结构:指文件中有关资料的描述部分,如题名、作者、章节、段落等。3.表现:指文件所呈现出来的外观、样式、版面编排等。 若将文件与人体作一类比,则结构就如同人的骨架,资料则相当于肉体,而表现就形同外貌,三者相辅相成,形成一个完整的资讯描述体系,因此在本文中特将此三者合称为电子文件三要素。一般而言,如果电子出版的目的仅在于如何将电子文件顺利呈现在读者面前供其阅览,则只要使用适当的表现方式来展现出文件的资料即可,不太需要考虑到文件的结构问题,就此一层次而言,HTML已经相当足够。但是,如果要更有效的管理、检索、交换Web上呈现指数成长的电子文件,则非得加强其结构性不可。二、XML与新一代Web(一)XML缘起与目标 1996年7月XML工作小组(XMLWorkingGroup)在W3C(WorldWideWebConsortium,全球资讯网协会)的赞助下成立),当年11月提交XML初稿,并于1998年1月10日正式通过XML1.0规范,成为W3C的一个建议标准(Recommendation)。由于XML具有可扩展性、结构性、自我描述性,并采用资料和样式分离原则,使其在资料的管理、交换上拥有极为卓越之性能。XML和HTML一样都是从SGML演变而来的,只不过HTML是SGML的一个应用语言(Application),而XML却是SGML的一个精简子集(Subset)。XML将SGML去芜存菁,舍弃约百分之二十复杂罕用的部分,承袭了其他百分之八十的特点,是以具备了SGML所没有的简易性与灵活性,又有着HTML所欠缺的扩展性与结构性。因此,称XML为主导第二代Web(Second-GenerationWeb)的重要技术实不为过。XML的发展将使得许多理想得以实现:1.促进国际化媒体独立(Media-Independent)的电子出版。2.允许产业间定义平台独立(Platform-Independent)的协定来进行资料交换,尤其是在电子商务方面。3.以某种形式传送资讯给使用者代理程式(UserAgents),使其能在接收之后自动处理。4.让人们很容易的便能使用平价软体来处理资料。5.允许人们以自己想要的方式显示资讯。6.提供Metadata,不但能帮助人们找到所需的资讯,更能帮助资讯生产者与消费者找到对方。 不过,XML并不是被发展出来取代HTML的,而是用以弥补其不足之处。XML相较于HTML至少有以下几个重要的差异:1.XML文件的作者可以自订标签(Tags)和属性(Attribute),HTML则否。2.XML是属于一般用途(GeneralPurpose)的标注语言,而HTML则是一种特殊用途(SpecialPurpose)的标注语言。换言之,XML是一种元语言(Meta-Language),可以用以生成其他语言,HTML则否。3.XML着重于文件的结构,而HTML则擅长于文件的表现。4.XML文件的作者可以选择性的利用DTD或XML纲要(XMLSchema)来确认文件的有效性,HTML则否。(二)新一代Web出版之特色与趋势依据XML的特性,可归纳出以XML为核心技术的新一代Web出版将具备如下之特色:电子文件具备自我描述性电子文件更能有效整合电子文件更具结构性电子文件具备内容和外观分离原则标注语言具备多样性及可扩展性兹分述如下。1电子文件具备自我描述性 XML的标签可根据不同的用途来定义,因此在语意层次上具备一定程度的自我描述(Self-Description)特性,这对于提升处理程式解读文件内容的能力与进行自动处理的效率有着莫大的帮助。2电子文件更能有效整合透过不同的协定转换,各种不同格式的资料可以转成XML格式,使得XML在文件整合(DocumentIntegration)方面,扮演了一个通用集成器(UniversalHub)的角色,而XML的名称领域、XLink等正是文件整合不可或缺的重要技术。1.整合功臣:名称领域 网路上的电子文件可透过XML定义不同的词汇集(Vocabulary)加以整合。然而,当分散的资源透过不同的词汇集,在同一份XML文件中被引用或参照时,若是不同词汇集中使用了相同的元素名称,此时便产生冲突了。因此,XML进行资源整合时必须注意元素名称的唯一性问题,XML的名称领域(XMLNamespaces)便是为了解决元素的命名冲突所发展出来的。根据W3C的定义:一个XML Namespace是使用URI(UniversalResourceIdentifier,一致性资源识别码)识别的名称集,用于XML文件中作为元素型别和属性名称。由于URI是唯一的,所以Namespace可以保证文件中所使用的名称是独一无二的。(三)电子文件更具结构性 XML具有严格的规范以适应广泛的应用,因而造就了XML文件强烈的结构性,在资料处理和机器理解方面具备了先天的优势,这也是促使XML迅速成为重要机读格式的主因之一。XML文件可根据其结构性概分为两类:1.完构的(Well-Formed)XML文件。2.有效的(Valid)XML文件。一个XML文件只要合于XML规范中所制订的语法规则,便可以很容易的具备完构性(Well-Formedness);不过,要达到有效性(Validity),则除了满足语法规则外,尚必须遵循某些额外定义的语意才行。XML处理器会根据XML规范中所定义的完构性和有效性来查核文件内容,一旦发现不合规定的文件便会拒绝处理并告知使用者,这对于在网路上进行资料交换与资讯共享是非常必要的不符合公认标准的资料可以不被接受。三、XML在电子出版之应用(一)电子文件与Metadata:RDF资源描述架构 文件整合为资源整合的一环,而资源整合的重大议题之一是:如何使得所有被整合的事物不但是机器可读的(Machine-readable),而且更进一步是机器可理解的(Machine-understandable),这和人工智慧(ArtificialIntelligent)领域长久以来致力于提升机器智能的宗旨不谋而合。人类的思维过程不外乎藉由各种管道获取知识(Knowledge),然后进行推理(Reasoning),最后做出决策(Decision),由此可见,知识乃是人类智慧中极重要的一环。然而,知识的获得则需要经过资料处理及资讯管理的过程才能萃取出来,大量的资料经过组织、整理后成为有用的资讯;而众多的资讯经过归纳、演绎之后,才能构成知识;有了足够的知识,才能做出正确的推理与决策,此乃人类思维的基本体系。因此,要让机器如同人类一样能理解事物,就必须发展能够具体表达知识的方式。于是,知识表达(KnowledgeRepresentation)这一门探讨如何利用不同模式有效描述人类知识的学问,遂逐渐成为人工智慧一个极重要的研究领域。(二)同步多媒体整合语言SMIL 虽然Web已经成为多媒体文件的重要发行管道之一,但由于先天的限制,HTML在同步性、互动性和即时性方面一直存在着若干限制。为了提升Web处理多媒体文件的能力,使独立的多媒体文件能被整合成为媲美电视的同步多媒体节目,W3C遂于1997年3月成立了同步多媒体工作小组,基于XML规范制订了适合Web展示的同步多媒体整合语言SMIL(SynchronizedMultimediaIntegrationLanguage),并于1998年6月正式成为W3C的建议标准。SMIL(念作smile)语言是一个非常容易学习的语言,它也是XML的一个应用,如同HTML文件一样,SMIL文件同样可以利用一般简易文书编辑器来制作。SMIL文件可内含串流语音(streamingaudio)、串流视讯(streamingvideo)、影像(images)、文字(text)或任何其他的媒体类型。SMIL最重要的特性在于作者不但可以描述多媒体文件的时序行为,精确规划萤幕上的布局,将多媒体物件与超连结相关连,更能设定各种多媒体互动情境,适合在网路上进行即时互动的出版、广播、教学、娱乐等。 (三)数学标注语言MathML 在科技文献中,数学公式是非常重要的表现元素,非常可惜的是HTML虽然拥有无数好用的标签群,然而对于数学公式的支援却明显不足,以致于科技文献的作者只好另谋他法来呈现数学公式,例如利用图形方式来展现。这造成了三个主要问题:其一,图形资料量庞大,占用网路频宽,影响传输效率;其二,图形化的公式无法重复利用,例如无法编辑或修改公式内容;其三,图形化公式只适合人类阅读,机器无法理解公式内涵。这些都使得目前要在Web上传递公式内涵或显示公式画面都极其麻烦,以致于在Web上进行科技文献的线上出版困难度增加。有鉴于此,W3C遂于1998年4月提出专为出版数学公式的标注语言MathML(MathematicalMarkupLanguage),并于1999年7月修订。MathML的标签群可概分为展示标签(PresentationTags)和内容标签(Content Tags)两大类:展示标签主要用途在将数学公式外观以高解析度的方式呈现出来供人类阅读;而内容标签则用来将公式内涵以语意化的方式标注,作为不同应用程式之间的传输介面,进行分散式科学运算及处理。(四)Web子系统(WebSubsystem) Web子系统严格说起来,应可独立于整合性XML文件管理系统之外,因为它是针对读者设计的,而不是给文件作者、管理者或出版者使用的。它的主要任务是提供Web式的使用者介面,让读者可以透过检视介面来阅读文章;透过查询介面来检索文件内容。综上所述,本系统充分运用XML的特性,将文件的结构、内容、表现三要素分开处理,除了可以让终端使用者顺利地浏览到文件资料,也可以方便电脑对文件进行查询比对,更重要的是它可以提供描述文件的metadata,例如:文件分类、作者姓名、文件标题、摘要、关键字、编制日期.等项目,这些讯息或许并不是读者阅读时的重点,但对于机器在进行资讯检索的过程,却具有重大的意义,在工程效率上以及精确率上都将远高于对全文进行检索。此外,同一份文件资料更可以随意加工处理,以各种不同型式呈现出来,创造各种不同的附加价值。(四)结论与建议 XML能够有效的表达网路上各种知识,为资料的交换和处理提供新的机制,因此XML将促使网路从资讯处理阶段跨越到知识管理阶段。从电子出版的角度来看,目前Web上为数众多的网站及互相纠结的HTML文件,在写作之初由于缺乏有效的资料著录,造成资料杂乱、不易检索的问题,因此亟需资讯检索技术与方法来解决;此外,除了致力于技术的发展,在写作及出版的过程中加强Metadata的著录,亦不失为另一个解决网路上电子文件乱象并提升检索精确率的有效方案。XML与生俱来的结构化及自我描述特性,能有效的组织资料、描述资料,以进行语意层次的有意义检索;而其无限扩展的能力,更使其跳脱既定的框架,而在版面编排、多媒体出版、文件共享.等方面发展出独特的应用,在在使XML成为网路出版内、外兼顾的有效方案。 从资讯传播的角度而言,传播的目的在于建立收送彼此双方的共同性Commonness),亦即设法共享资讯(Information)、观念(Idea)、态度(Attitude)或知识(Knowledge)。传播的双方可能是人对人,也可能是人对电脑或甚至是电脑对电脑。当网路上两部电脑透过通讯协定(Protocol)进行通讯时,只不过具备讯息传递能力。至于讯息的涵义以及如何把这些讯息转换成另一种形式呈现给人们,则正是XML的专长。在未来几年,为因应资讯需求从大众化到个人化的趋势,网路上预料将出现更智慧型的搜索引擎,能根据讯息意涵和使用者需求,提供资讯过滤、资讯撷取、智慧型代理等功能,XML技术能够使这样的目标早日实现。从电子商务的角度观之,不同商业系统采用相同的XML词汇集,便能随时自动更新来自各供应商的商品目录和价格资讯,并根据商品类别为客户提供最直观的购物环境。商家之间更可透过金融机构共通的资料交换格式(如以XML制订的OFX)来交换金融资讯,如电子支付、财务分析、咨询文件等;图书馆更可利用XM

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论