复合数字对象管理技术研究.ppt_第1页
复合数字对象管理技术研究.ppt_第2页
复合数字对象管理技术研究.ppt_第3页
复合数字对象管理技术研究.ppt_第4页
复合数字对象管理技术研究.ppt_第5页
免费预览已结束,剩余26页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

科技部科技基础性工作专项资金重大项目,研究成果,项目名称:我国数字图书馆标准规范建设,子项目名称:高层元数据标准规范,项目编号:2003dea4t035,研究成果类型:研究报告,成果名称:复合数字对象管理技术研究,成果编号:cdls-s10-001,成果版本:总项目组推荐稿,成果提交日期:2005 年 7 月,撰写人:何朝晖、王波、朱强(北京大学图书馆),项目版权声明,本报告研究工作属于科技部科技基础条件平台工作重大项目数字图书馆标准 与规范建设的一部分,得到科技部科技基础条件平台专项资金资助,项目编号 为 2003dea4t035。按照有关规定,国家和我国数字图书馆标准规范建设课题 组拥有本报告的版权,依照中华人民共和国著作权法享有著作权。 为了学习、研究和应用推广等目的,可以复制、转载、或在电子信息系统上 镜像本报告。但在复制、转载或镜像时,必须在明显地方标明“科技部科技基础 条件平台工作重大项目数字图书馆标准与规范建设项目资助”的字样,必须 保证本报告的完整性,必须注明总项目组、子项目组和作者的真实名称。任何人 不得以商业赢利的目的复制、转载、镜像、或以其他形式传递和发布本报告。 报告版权人不承担用户在使用本作品内容时可能造成的任何实际或预计的损,失。,作者声明,本报告作者谨保证本作品中出现的文字、图片、声音、剪辑和文后参考文献等 内容的真实性和可靠性,愿按照中华人民共和国著作权法,承担本作品发布过 程中的责任和义务。科技部有关管理机构对于本作品内容所引发的版权、署名权 的异议、纠纷不承担任何责任。,数字图书馆标准与规范建设课题组网站()作 为本报告的第一发表单位,并可向其他媒体推荐此作品。在不发生重复授权的前 提下,报告撰写人保留将经过修改的项目成果向正式学术媒体直接投稿的权利。,-i,1.,2.,2.1,2.2,2.3,2.4,2.5,2.6,2.7,2.8,2.9,3.,3.1,3.2,3.3,3.4,3.5,4.,4.1,4.2,4.3,4.4,5.,5.1,5.2,5.3,5.4,复合数字对象管理技术研究,目 录,fedora 1,1.1 fedora及其特点 . 1 1.2 fedora中的数字对象及其分发机制 . 2 1.3 fedora的数字仓储 . 5,bucket 7 桶如何工作 7 桶的操作 9 桶的通讯空间 10 文件格式转换 .11 元数据转换 .11 桶消息处理 .11 桶匹配 12 聪明的对象,无言的文档 12 开放文档计划 13,multivalent documents 13,mvd概述. 13 mvd的结构. 14 mvd系统的特征. 14 独特的批注功能 15 集联文档 17,scorm . 18 背景:何为scorm? 18,scorm的目标 19 scorm的内容整合模型 20 scorm的运行环境 21,dspace . 22,dspace概要 22 dspace的技术特点 23 dspace在mit的应用 24 dspace联盟 26 结语 26 参考文献 27,-ii,(4),“复合数字对象”顾名思义,是一种复合型的数字对象,即包括文本、图像、 音频、视频等类型数字对象的复合体。其中,每一种类型的数据又可能含有多种 不同的格式。如文本数据的格式可能是.txt、.doc、.pdf 等,图像数据的格式 有.jpg、.bmp、.tif 等。此外,网络环境下的数字对象还可能是分布的和动态的, 同一个对象可能存在不同的版本和内容形态。在数字图书馆时代,信息日益变得 丰富而多样化,同一个内容内核可以以各种不同的形式立体地、动态地体现出来。 在以往的信息组织实践中,系统的开发多是针对某种单一的载体类型,数据的结 构是平面化的、静态的,显然这样的系统难以处理符合数字对象。而同一个内容 内核的多种类型数据如果不能有机地加以组织,则难以向用户提供统一的服务。 因而,如何对复合数字对象进行有效的管理和服务,成为当下数字图书馆研究的 热点问题之一。 本文在参阅大量国内外相关文献的基础上,对国外(主要是美国)复合数字 对象研究的现状进行了调研,详细介绍了其中几种典型的解决方案,以期对国内 这方面的研究和实践提供借鉴。,1,fedora,1.1 fedora 及其特点 fedora 的全称是“灵活可扩展的数字对象存储架”(flexible extensible digital object and repository architecture)。最早由康奈尔大学数字图书馆研究组在国家科 学 基 金 的 资 助 下 , 与 国 家 研 究 合 作 计 划 ( corporation for national research initiatives,cnri)合作研制,是近年来开发的应用于数字图书馆的若干存储架构 之一。多层服务架构源自 dienst architecture ,它是 networked computer science technical report library ( ncstrl ) 的 基 础 。 fedora 的 理 论 基 础 则 是 kahn/wilensky framework 和 warwick framework。fedora 以数字对象(data objects) 为基础,包括数字资源及其元数据,以及其所链接的软件工具和服务。 fedora 的特点是:(1)支持多种数据类型;(2)能容纳新出现的数据类型;(3) 把混合的、分布的数据整合成复杂对象; 能实现这些对象的多重内容分发;(5) 可对这些分发实施版权管理。它包含以下核心服务:(1)仓储服务:提供存储、 获取数字对象的机制;(2)索引服务:提供发现数字对象的机制;(3)集合服务: 提供整合若干数字对象和服务为有意义的集合的方法;(4)命名服务:注册和解 析数字对象的全球唯一的永久性名址;(5)用户界面服务:提供进入其他服务的 人性化入口。 -1,1.2 fedora 中的数字对象及其分发机制,在 fedora 看来,一个数字对象的基本特征是:(1)有一个结构化内核,以不 透明的比特流包的形式包装内容;(2)一个界面、行为或层给予数字对象中的数 据以语境意义。可以将之喻为一个细胞,中心是包含实质性数据的核,包裹这个 结构化核的是一个包含内容分发器的功能层,分发器能将核心数据包转化为可识 别的信息实体,如书、多媒体百科全书等。比如,一个简单的数字对象可以是一 个包含若干 gif 图像数据流包的结构化内核,及另一个包含 dc 元数据的比特流。 在这个结构化层上可以有一个界面层赋予数字对象类似书本的行为特征,允许用 户访问目次或某一页。这个数字对象可能还包括描述性元数据行为,允许用户访 问书目字段,比如作者或标题。通过将结构与界面分离,fedora 使得结构多样化 的数字对象在面向用户时呈现出“标准化”的样式。fedora 与其他项目的不同之 处在于,它在架构上将数字对象的结构、内容类型界面、执行内容类型行为的机 制 相 分 离 。 与 之 相 比 较 的 是 加 州 大 学 berkeley 分 校 数 字 图 书 馆 计 划 研 制 的 “multivalent document model”,其中的文件被视为由动态加载行为支持的多个内 容层。,数据通过分发器(disseminator)与软件工具和相关服务链接,实现对用户的服 务,用户对数据的操作称为“行为”。这些行为可以被用来向 web 浏览器直接传递 不同类型的经过处理的内容,也可以用来加工和配置数据内容以用于外部应用程 序 。 分 发 器 分 为 原 始 分 发 器 ( primitive disseminator ) 与 内 容 类 型 分 发 器 (content-type disseminator),前者是基本和必需的,后者是可添加的。原始分发 器的功能包括:(1)数字对象的合成和操作;(2)数字对象结构和内在数据流的 访问;(3)添加、发现和调用特定内容行为的普遍机制。fedora 用“内容类型” (content type)来区分不同的媒体类型,并通过内容类型分发器实现对不同媒体类 型数据的访问。,-2,因此 fedora 数字对象分为两层结构:结构层(the structural layer),为数字 对象结构内核 (digital object structural kernel);界面层(the interface layer), 为数字对象内容类型分发器 (digital object content-type disseminators)。数字对 象结构和内容分发机制对用户不透明,直接面对用户的是内容类型。内容类型在 界面层被内容类型分发器激活。,内容类型用标记(signature)来表达,包含该类型的特定服务请求。内容类型 标记(contenttypesignature)定义对内容类型每项服务请求的名称和句法,也表 现为一个数字对象分发器的形式。如nextpage()、nextchapter() 可能是book 类 型的简单标记。用于支持内容类型的分发机制的有标记分发器 (signaturedisseminator)和servlet分发器(servletdisseminator)。内容类型servlet (contenttypeservlet)是一个执行由特定内容类型标记定义的内容类型服务请求 的机制,使用特殊的数据流为参数,也以一个数字对象分发器的形式体现。每个 内容类型servlet(contenttypeservlet)可以在附件规范(attachmentspecification) 内定义它自己的深层数据结构。附件规范由一系列附件结构(attachmentstructure) 组成。每个附件结构指定:(1)结构标识符(structure identifier),用来描述一个数 据流承担的角色;(2)为数据流指定一个mime类型;(3)一个序数指示器用来指 定每种类型数据流需要的数目。,-3,-4,。,。,fedora用行为定义对象(behavior definition (bdef) object)来约束多个行为 机制对象(behavior mechanism (bmech) objects),以确保施于相同类型、不同 格式的内容单元的行为的标准化。一个数字对象模型通过链接到一个bdef对象与一 系列行为挂接,同时与一个合适的bmech对象建立链接。这一对链接定义一个分发 器,一个对象模型可以包含任意数量的分发器。从应用层面看,这意味着模型中 的一个特定数字对象可包含一系列不同目的的行为,或目的相同但格式不同的行 为。简言之,一个数字对象模型指定了数据流的数量和类型,也指定了其中每个 数字对象的一整套分发器。,1.3 fedora 的数字仓储,除了数字对象的结构层和界面层之外,fedora 还包括一个管理层(the management layer),这就是数字对象仓储(digitalobject repository)。仓储提供对 数字对象的管理和访问,同时提供内容类型 servlet(contenttypeservlets)和存取 管理 servlet(accessmanagerservlets)执行的环境,包括创建、存储、访问、移动、 复制、删除等操作。,fedora的数据包括由数字仓储(repository)直接控制的内部数据(internal,content),和通过http服务器传输的外部数据(external content)。数字资源和其元 数据构成数据流(datastream) 数据流是一种包含了数字对象内在格式和类型编码 的比特流,可以是文本、图像、声音、视频等多种类型的数据,也可以是元数据。 数据流的内容用一个url来识别,并通过应用cnri的句柄系统(handle system) 为数字对象建立唯一的标识码。当一个对象被一个fedora 仓储吸收时,仓储系统 用一个管理数据流url来检索其内容并将其存储在文件空间中,赋予一个内部地 址(internal address)。当一个对象包含一个定义为“外部”(external)的数据流时, 其 url被储存在数据流中,以便于数据仓储在需要时用它存取数据。,fedora 的数字仓储系统的层级结构为:存储层(storage layer),核心子系统 层(core subsystem layer),及网络服务揭示层(web services exposure layer),-5,(3),存储层包括若干存储子系统,负责从仓储中读、写和转移数据。数字对象以 符合 mets(metadata encoding and transmission standard)规范的 xml 编码文件 形式存储。,核心子系统层分为管理子系统和存取子系统,是由网络服务层定义的一组相 互联系的子系统。管理子系统实现创建、修改、删除、输入、输出和维护数字对 象所需的各种操作。管理子系统还包括确认和对象完整性模块,以确保输入、新 创建和修改过的对象对于 xml 格式和 fedora 规则是有效的。pid 发放模块负责为 每个数字对象提供一个唯一的永久标识(pid)。存取子系统实现分发数字对象内 容和映像所需的各种操作。,网络服务揭示层由用网页服务定义语言(web services definition language, wsdl)描述的三个相关网络服务组成:(1)管理服务(management service) (api-m)。定义一个开放界面用以管理仓储。包含用户创制和维护数字对象及其 部件所需的各种操作。(2)存取服务(access service) (api-a)。定义一个开放 界面用以存取仓储中的数字对象。包括用户分发仓储中的对象(如存取一个对象 的内容)或使用对象映像发现一个对象的信息所需的各种操作。 access-lite 服 务 (api-a-lite) 。定义一个可通过 http 进行网络服务的 fedora 存取服务的 流线版本。,fedora 还可以对数字对象进行版权管理。存取管理器(accessmanager)是捆,-6,绑于分发器的版权管理机制。包括原始分发器在内的每个分发器都可以包含存取 管理器。存取管理器对分发器定义的每种服务请求提供不同层级的访问控制。 fedora 系统目前已在美国印第安纳大学、纽约大学、西北大学、塔夫脱大学、 弗吉尼亚大学以及澳大利亚 monash 大学等得到测试和应用,其对象包括图片、 视频、图书、教学资料等等,成为数字图书馆一种较为理想的、可靠而安全地存 储和访问数字内容的开放式架构。,2,bucket,美国航空航天局(nasa)通过大量实验,提出了一种称之为“桶”(bucket) 的复合数字对象的集成方案和技术标准。“桶”因为具有集成、智能以及对象层构 化和定位的优点,而成为复合数字对象集成方面的一个范例。“桶”是和一个称之 为“聪明的对象,无言的文档” (smart objects, dumb archives,soda)的数字 图书馆模式相伴而生的,或者说“桶”是 soda 模式的一部分。 关于桶的灵感产生于 nasa 科学技术信息数字图书馆的实现和维护的实践 中,这包括 1994 的兰利技术报告服务(ltrs)、1995 和 1998 的美国航空航天局 技术报告服务(ntrs)。在这些早期的数字图书馆用户服务中,有一个经常发生 的问题不能不引起注意,那就是当检索到想要的技术报告(或者预印本)后,用 户还特别想得到实验中获得的原始数据和还原这些数据的软件,以及这些印刷型 报告形成过程中的辅助信息。为了满足用户的这种需求,就不能只是针对某一种 信息类型创建数字图书馆,而必须对传统报告的内容加以延伸,以多媒体格式提 供更丰富的信息,因而就需要设计一种专门的数字对象来捕获和保存这些潜在地 具有复杂关系的多种信息格式。 除了达到上述目的,nasa 还希望通过桶的应用更新数字图书馆,使其能够 通过其他数字图书馆和网络爬虫智能地检索到信息对象;希望最大程度地揭示对 象,不让其困囿在数字图书馆内,通过界面能方便地找到它们。指望数字图书馆 能够发现和检索到桶,前提是桶必须是自我完善的,在需要它们的时候能执行任 何任务,不是仅仅在某个专门数字图书馆中才表现出色。 桶是智能对象的实现。一个桶是一个存储单元,数据、元数据及检索它们的 方法都包含其中。桶对数字图书馆而言,是一种架构上的转变和优化。桶设计的 目标是:集合、智能、自我满足、机动、异构和文档独立。 2.1 桶如何工作 要实现信息集成,首先需要考虑的就是怎样把各种各样的数据类型集成在一 起。基于兰利技术报告服务和美国航空航天局技术报告服务的经验,设计了一种 包含两个层次结构的桶: -7,桶,包括 0 个或更多的包; 包,包括 0 个或更多的元素。,在实践中,数字对象被作为元素存储起来,元素又被集成在桶的包里边。在 兰利技术报告服务和美国航空航天局技术报告服务中,上述两层结构对大多数应 用来说已经足够了。但在桶的实现中,这只是一个简单的设计,在将来的工作中, 肯定还要用到更复杂的、更多层次的数字对象。一个元素可能是一个“指针”,指 向另外的桶或任何网络对象。通过元素指向另外的桶,这样,每个桶就可以逻辑 地包含其他的桶。,尽管桶为内部和外部存储提供了机制,但桶很少控制那些物理上位于外部的 桶。桶对外部的桶的控制表现在,桶留给用户去考虑包括指针在内的一个文档单 元的适用性。桶不根据存储的能力或者是包和元素的数量预先限制其大小。 这里描述的桶是 1.6.2.版,是用 perl 5 代码编写的,以 http 作为传输协议,发 送桶在应用设计界面上所定义的信息。实际上,桶可以用任何语言编写,只要能 够存储就可以了。,除了 perl 5、http 和 cgi 以外,桶对其运行环境没有其他的预设。从理论上讲, 只要在 http 服务中“合理”安装,桶不会在安装中发生改变。这里的“合理”指 的是遵从公共网关接口的索引惯例。一旦这些前提已经具备了,桶就会在没有服 务器干涉的情况下,自动处理所有自身事务,包括定义多用途的网际邮件扩充协 议的类型、术语和条件,并支持图书馆。,元素和桶有不同的预先设定的语用。作者可以利用桶和元素的基本架构,建 模任意的应用范围。数字图书馆所定义的桶,其中的包表现为语义类型(手稿、 软件、测试数据等),元素是包中语用的表示(.ps 版本, .pdf 版本, .dvi 版本等), 如同技术出版物的类型多种多样,桶表现为其他模式也是可以的,在科研项目和 大学课堂上经常会应用到类似于桶的东西。,另外一个需要考虑的重点是怎样把元数据和数据整合到一块。根据以前的经 验,发现元数据倾向于一直在“漂浮”,导致与其描述或“锁定”的特定数字图书 馆的数据分离,而难以被别的系统抽取或共享。对诸如报告这样的一些信息类型, 可以自动地或手动地重新生成丢失的元数据。而对于像实验数据这样的其他信息 类型,元数据是不能从数据中恢复的。一旦元数据丢失,数据本身也就变成无用 的了。当然,也不该对元数据采取排斥的态度。尽管出于结构的目的桶最终必须 选择一种元数据格式,但是桶可以容纳多种元数据格式。桶通过在一个指定的包 里存储元数据和读取并上载新元数据格式作为该元数据包的元素的方法来实现这 个目标。这样,桶可以容纳许多过去的、当前的或未来的元数据格式。 整合最后需要考虑的是桶的服务定义和服务的效果。在面向对象的潮流中, 我们也希望把方法源码安置在桶中。虽然它们可以委托给代理,但缺省地,桶所 需要来显示、分发和管理其内容的一切都是包含在桶里的,包括方法源码、用户,-8,身份和口令、存取控制表、桶中发生的行为日志、多用途网际邮件扩展协议定义, 以及其他所有用于桶的功能的支持技术。这种自足的灵活的设计目标决定了桶不 能够对其环境有许多要求,在功能上也不需要进行服务器层面的改动。虽然可以 通过减少灵活性和自足性来节省存储空间,这种自足还是会导致每个桶最多 100k 的额外存储。 2.2 桶的操作 方法(methods)是桶发挥功能所进行的操作。一般不让用户直接调用方法, 因为存取桶的内容的应用方法是自动地建在桶的 html 输出里的。其它面向创建 和管理的方法通过桶的各种工具都能获取。如果没有指定方法,则按默认的“显 示”方法来显示。如此生成一个人类可读的桶的内容的显示。 一个数字图书馆可以通过参数选择改变桶的外貌。例如,在人类可读的界面 上,集中了各类显示形式,如果用户希望检索文件,他们点击 pdf 链接,在 html 输出上就会自动生成 pdf 格式的显示。类似地,如果用户希望显示扫描页面,选 择了自动创建链接,那么发送相应的建议给显示方法,则会生成标记页码的扫描 图片显示。元数据方法则返回一个结构化的元数据。假如需要 marc 元数据格式, 发出相应的元数据方法请求,如果桶有 marc 格式的元数据或者可以将元数据其 转化 marc 格式,结果就会有一个 marc 记录被返回来。 桶的所有修改方法列于表 1。 表 1. 桶的修改方法,方法 添加元素(add_element) 添加方法(add_method) 添加包(add_package) 添加规则(add_principle) 添加类型分析(add_tc) 删除桶(delete_bucket),描述 向一个包里添加一个元素 向桶里添加一种方法 向桶里添加一个包 向桶里添加一个用户标识 向桶里添加一个类型分析文件 删除整个桶,删除元素,(delete_element),从一个包里删除一个元素,删除日志(delete_log) 删除方法(delete_method) 删除包(delete_package) 删除规则(delete_principle) 删除类型分析(delete_tc) 显示(display),从桶里删除一个日志文件 从桶里删除一种方法 从桶里删除一个包 从桶里删除一个用户标识 从桶里删除一种类型分析 显示和发布桶的内容 -9,。,续 表 1,方法 获得日志(get_log),描述 从桶里找回一个日志文件,获得偏爱选择(get_preference) 从桶里获得一种偏爱选择,获得状态,(get_state),从桶里获得一种状态,标识,显示(id),显示桶的唯一标识,绑定(lint) 列出日志(list_log) 列出方法(list_method) 列出责任人(list_principals) 列出来源(list_source) 列出类型分析(list_tc) 元数据(metadata) 打包(pack) 设置元数据(set_metadata),检查桶的内部一致性 列出桶内的所有日志文件 列出桶内的所有方法 列出桶内的所有用户标识 列出桶内的方法来源 列出桶内的所有类型分析文件 显示桶的元数据 返回一个“桶流” 向桶上载一个元数据文件,设置优先选择(set_preference) 设置状态(set_state) 设置版本(set_version) 开包(unpack),改变一个桶的优先选择 改变一个桶的状态变量 改变桶的版本 把一个“桶流”装进桶里,版本,(version),显示桶的版本,2.3 桶的通讯空间 桶的通讯空间(bcs)是从叫做“linda”的并行通讯图书馆得到的灵感。在 linda 中,通过创建存在于“tuple”空间的“tuples”来处理消息。数字对象是用 “eval”本原创建的,通过“out”本原处理把数据填充进去。分别用“rd”和“in” 来进行阅读和阅读消除操作。这些本原允许处理通过 tuple 空间进行通讯,而不必 知道处理的细节(如客户名、端口数字等) 采用了某种与上述相似的东西应用于桶:桶与桶之间传递信息,但不必知道 彼此的具体位置。假如桶是移动的,而且某个桶的位置不能保证是静态的,这一 点就特别重要。对于那些由于效率的考虑(作为结果的桶会过于臃肿)或应用的 限制(一种服务仅在选择的结构中才可获得)而无法在单个桶中复现的功能,桶 -10,的通讯空间也提供了一种功能集中的方法。桶只需要知道如何与一个能够为它们 处理请求的桶空间服务器进行通讯。该服务器的地址作为一种优先选择被存储在 桶里。这种桶空间定义的方法列在表 2 中。其中包含了 4 种服务:文档格式转换、 元数据转换、桶通讯和桶匹配。 表 2. 桶的通讯方法,方法 桶通讯空间转换图像 桶通讯空间转换元数据 桶通讯空间列表 桶通讯空间匹配 桶通讯空间消息 桶通讯空间注册 取消注册,描述 把图像转换和上载为一种专门的格式 把一种格式的元数据文件转换和上载为 另一种格式的元数据文件 列出所有在桶通讯空间已经注册的桶 发现和创造所有“类似”的桶之间的联接 识别那些符合一种专门标准的桶,并向 它们发送一个消息 将桶注册进桶通讯空间 把桶从 bcs 中取消注册,2.4 文件格式转换 文件格式转换提供了图像格式(e.g., gif, jpeg)和页面描述格式之间的双向 转换(e.g., postscript, pdf)。在以桶方法整合信息对象的出版物产生之后,格式转 换是一种常见的应用,在信息迁移的时候,多余的格式也是有用的。格式转换的 功能要么嵌入在桶中,要么在需要的时候再动态地创建。 2.5 元数据转换 元数据转换近似于文件格式转换。元数据转换非常重要,因为尽管让所有的桶 必须选择同样的元数据格式是不合理的,但是桶最终不得不选择一种单一的格式 来操作。如果能够详细说明希望从桶收到哪一种格式,并且使桶能够在未来自由 地转换规范的元数据格式就可以了。 2.6 桶消息处理 消息处理允许多个桶收到同一个消息,如果它们符合特定的标准的话。点对点 的传播在桶之间总是存在的,而这一功能则为发现并发送信息给桶提供了一种方 -11,法,可以用作“桶多点传送”服务的核心,即把预定义的消息发给一个注册 过的桶子集。,2.7 桶匹配,匹配提供在相似的桶之间创造链接的能力。比如某个大学计算机科学系的技术 报告已经发布在该系数字图书馆和出版权威部门的网站上,此后又被传递到一个 会议上。倘若这篇论文得到了会议的认可,最后将会被会议的发起者出版。假设 会议的发起者是计算机协会,出版机构是 ncstrl.acm,尽管会议论文将以修改后的 格式(编辑和压缩的)出现,甚至会被出版机构分割成两个部分,确定出版日期 和编辑版面后发表,但该报告和简单发布在网站上的报告显然是有关系的。这种 重复发表的现象是经常存在的,怎样在多个对象之间创建最佳的链接?假设 ncstrl.acm 既没有资源也没有兴趣花费时间寻找手稿以前的版本。同样地,原始发 表报告的网站也不可能连接到会议的桶,因为当时这个会议的桶还不存在。那么 让相关的需要报告的当事人在六个月或一年之后,再把原始文档和会议发布的文 档创建链接,显然是不现实的。然而,如果两个桶注册在同一个桶通讯空间(通 过发送元数据或全文的方式),它们可以不经人类的干预自动地发现“彼此”。当 一个匹配,或者近似匹配(对端口来说,匹配是一个可配置的参数)被发现,桶 就可以自动地彼此链接,或者给人工管理者发送一个消息,告知一个潜在的匹配 已经被发现,询问是否建立链接。这种技术也能够被用于发现彼此相关的不同作,者、不同的文稿副本。在测试国家航空咨询委员会的将近 3000 个桶时,大部分技,术报告被发现和匹配。,2.8 聪明的对象,无言的文档,“聪明的对象,无言的文档”(smart objects, dumb archives;简称为 soda) 是比桶规模更大的数字图书馆模型。soda 是对垂直集成(非互操作的)数字图 书馆(肇始于草率建立的许多流行数字图书馆)的一种反作用,其文档的功能不 同于那些允许更大的互操作性和联合的数字图书馆的功能。这种文档的目的是向 数字图书馆提供桶的位置(数字图书馆可以自行从桶中提取它们的元数据),而这 些数字图书馆则建立自己的索引。nasa 数字图书馆打算登记 nasa 文档来得知 前一周发表的桶的位置,然后就可以与这些桶建立联系,获取它们的元数据。其 他的数字图书馆也能够采用类似的办法对 nasa 的数字资源建立索引:登记 nasa 文档,并与适当的桶建立联系。桶仍然存储在 nasa,但是能够被任何数量的数 字图书馆索引,而每个数字图书馆都可以用自己新颖独特的方法进行检索或浏览。 另一种可能的做法是数字图书馆收集所有的元数据,然后加以过滤,将那些适用 的吸收进来。这样,一方面,一个数字文档的所有内容被索引在许多数字图书馆,-12,3,里,另一方面,一个数字图书馆又可以容纳许多数字文档的内容。如果把所有的 可数字化获取的出版物看作一个包罗万象的文集,那么这个文集就能够被 n 个文 档和 m 个数字图书馆所表达,而每个数字图书馆又可以根据用户的需求进行功能 和资源的定制。,2.9 开放文档计划,就像桶打破了信息对象对文档的依赖,开放文档计划(open archives initiative, 简称 oai)打破了文档对数字图书馆的依赖。“da”是一个孤立的协议,早期被 定义和应用于数字文档,但后来终止发展了。目前 da 的功能被欣欣向荣的开放 文档计划及其元数据收割协议所替代。开放文档计划不是针对聪明的对象的,但 是该计划中的文档与 soda 模式中描述的文档相类似,它们只有最小限度的功能。 开放文档的目的在于通过执行不太复杂的功能来提高互操作性(例如,未定义关 键词搜索功能,t&c 不在协议层处理)把精简指令计算机(risc)的思想应 用到了数字文档的处理上。,开放文档元数据收割协议要解决的问题是元数据往往被“锁”在数字图书馆 里而不易被输出。该协议定义了六种“动词”,使数字图书馆的创建者(即开放文 档中的“服务提供者”)去查询文档(数据提供者)以确定该文档的性质,并产生 文档的完整的全面的的或局部的控制。,六种动词绝大多数采用不同的变量,诸如日期章或者文档定义集,以便允许 进行局部收割,并有一些可选择的流控制规则来协调繁忙的或大型文档的收割。 尽管一个数据提供者可以提供任何元数据格式,为了减轻创建服务提供者的负担,,把未加修饰的 dublin core 定义为最低限度需要的元数据格式。,multivalent documents,3.1 mvd 概述,multivalent documents(多价文档,mvd)系统是一种开放式、可扩展、分布,式的文件模型。由加州大学伯克利分校开发,主要研制人员为 tom phelps 博士与,robert wilensky 教授。mvd 是一个 java 应用程序,mvd 文档可以在任何兼容 java 的平台上可视和操作。,多价文档与传统文档的关系,就如同全息影像与传统照片的关系一样。多价 文档集合了文档的各种属性的载体,如图像、文本、翻译、批注等,使文档体现,出全方位的特征。multivalent documents 通过不同的层和行为将不同类型的数据整,合为一体。,-13,3.2 mvd 的结构,在 mvd 中,层(layers)是数据类型的载体,每种类型的数据即为一层。以 一份传世的中世纪手稿为例,该文档可以包括以下几层:一层为原始手稿的扫描 图像;一层为手稿原文种的文本文档;一层为该手稿某语种的翻译文档。 行为(behaviours)是访问和操作数据内容的手段,通过行为实现对各个内容 层的操作。mvd 的行为,有创建、存储、还原、格式化、描绘、选择、检索、打 印等等跨媒体类型进行一般数据操作的;还有一种行为专门负责识别数据的媒体 类型和进行格式转换,称为“媒体适配器”。不同的媒体类型被媒体适配器的整合,到 mvd 行为中。,mvd 文档的每一层都有三个区:第一个区包含文件信息。多数 mvd 文档都 有一个“基本层”,文档的主要内容都从中提取。比如,一个 mvd 文档可能指定 一个读取 html 的行为,伴随着一个 html 层的地址;或一个 pdf 识别行为, 伴随一个 pdf 文档层。另外两个区分别在层与层之间、用户与计算机之间提供交 互界面。这些界面区即被 phelps 称为“行为”的。多数行为执行一般的文档操作 功能,也有一些能够执行特定的功能。,不同于其他系统,mvd 没有初始的文档格式,也没有内置功能。整合一种文 档格式,创造一个新文档类型,提供新的操作功能,都通过加入新的行为来实现。 行为和层可以随时添加、更新。任何类型的文档均可加入框架,现存的行为可对 所有类型进行操作。行为用来在框架中加入新的文件格式,并使之具备一般的文 档功能。mvd 将多个不同的行为很好地整合在一起,使之成为一个一体的文档系,统。这使得 mvd 成为一种可扩展性很强的文档框架。,3.3 mvd 系统的特征,mvd 架构的主要设计目标是使系统无缝地整合这些多样化的行为,为达到这,一目的,mvd 具有如下一些关键特征: (1)一套精心设计的行为应遵守的协议。,mvd 协议集包括:恢复协议(the “restore“ protocol), 装配文档组件;构造协 议(the “build“ protocol),使用层中的信息创建代表文档的内部数据结构;格式协 议(the “format“ protocol);描绘协议(the “paint“ protocol)使文档显示于屏幕上, 或转换为适于打印的格式;事件协议(the “events“ protocol),等待键盘、鼠标或其 他输入设备的输入;保存协议(the “save“ protocol);剪贴板协议(the “clipboard“ protocol);等等。,(2)结构文件内容与媒体依赖元素分离。,(3)单一的一致的抽象树形文档形式,所有内容都合并其中,所有行为都在,-14,其上实现;,在构建阶段,媒体适配器支持构建一个内部文档树。该文档树在其内部节点 中对独立于媒体的结构进行编码,并在其末端节点中对媒体特定数据进行编码。 行为在独立于媒体的内部节点上操作,通过协议与特定媒体类型在末端节点通信。 这样,这些行为可以不依赖于任何特定媒体而写成,并可操作于所有媒体类型。 (4)支持强力锚定(robust anchoring)的分布式的层,这样它们就能被置于,异步变化的环境中。,mvd 文档由多个层组成,它们可能有不同的权限。mvd 没有采取严格同步 的要求,而是支持内部地址跨层的冗余描述。这种描述包括三种不同类型的地址 描述器:在文档内部树中的结构位置,参照特定媒体类型末端节点的分支;根据 周边内容(上下文)定位;使用唯一的标识符。如果文件以后被重新复原,mvd 将在合适的位置重新下锚。,(5)一个可扩展的用户界面;,(6)一套为永久保存多价文档精心设计的格式。,3.4 独特的批注功能,在层与行为架构的基础上,mvd 衍生了独特的批注(notes)功能。批注功能 允许使用者在现存内容上附上新增的内容。批注本身即是行为的一种。mvd 批注 是分布式的,它们可以在被批注的地方分开存贮,但形式上却像是一个文档的内 在整体。经过批注的文件可与其他使用者共享,而无需特殊服务器支持。,mvd 批注行为可分为几种类型:,(1) 跨度(span):一般是指文本文档某点与某点之间的内容,比如可将文,档的一部分下划线,建立超级链接。,(2)几何透镜(lense):在文档上划一个几何区域的窗口,在窗口中如同透,镜一样可以局部改变内容显示结果。如可以在窗口中显示 ocr 识别结果和文本翻,译结果。,-15,-16,(3)结构(structure):在文件树的结构层面上的批注。可以理解为对文档进,行整体批注。,(4)地理批注:可对指定的区域进行 gis 查看。,mvd 的分布式批注具有一些引人注目的特性: (1)高度的表达性:兼容不同的意义和功能;,(2)平台和格式独立性:允许用户使用不同的本地系统; (3)可扩展性:兼容不同用户风格,可无缝集成; (4)分布并开放:凡所见皆可批注,共享结果。,支持分布式标注,支持协作写作,可以说是 mvd 在诸多符合数字对象模型中,最显著的特色。,3.5 集联文档,mvd 文档的多个层和行为组合在一起,形成了集联文档(hub document) 同一个概念文档下的一连串层和行为。当一个 mvd 文档被存储时,文档中的行为,和层的信息同时被记录,以便文档可以被正确地恢复。要打开一个文档,框架先 引出集联文档中的行为,把它们放入适宜的协议,然后访问文档的各个内容层。 mvd 通过“ideg”(integrated document element graph) 集成各层和行为间的 通讯。,总体来看,mvd 文档模型的特点是:,-17,(1)高度分布。一个集联文档指定的层和行为,可以分布在任何地方,而被 mvd 强有力地结合在一起。 (2)高度开放。层可以是不同的数据类型,通过媒体适配器转换,行为可施 于各种类型。文件格式、平台的无关性。 (3)高度可扩展。所有的功能都可根据协议扩展。,4,scorm,随着计算机和互联网的广泛应用,人们的生活日益走向数码化、网络化,一 种新的教学和学习手段数字化学习(e-learning),逐渐以其声色并茂、直观 生动、存取方便等特点,为教学者和学习者所普遍接受。数字化学习的浪潮产生 了大量的以数字课件为主体的数字化对象,这些数字化对象通常是多媒体的复合 数字对象。 这些以教学课件为主体的复合数字对象开发于众人之手,采用的软件和技术 方法不同,存储的格式也不相同,由此产生的问题是,这些数字对象在本单位的 网站或平台上还能够运行,但是换了一个网站或平台或许就不能运行,这样就影 响了这些数字对象的解读和交流,即便是内容雷同的课程,同行之间因为不能利 用本单位提供的平台打开对方的课件,所以也只能弃而不用,重新制作。这样就 大大降低了资源共享的效率,增加了教学课件制作的时间和成本,背离了互联网 资源共享的精神。因此解决教学复合数字对象之间、教学复合数字对象平台之间 的欠兼容性就成为数字图书馆建设的一个重要而迫切的问题。必须建立一个技术 标准,来规范课件的制作和发布,使所有合乎标准的课件在所有合乎标准的平台 上都能够正常地发布和交流。美国是数字图书馆建设的领跑者,在这方面又先行 了一步,其推出的 scorm 就是为解决教学数字复合对象的重复使用和共享问题 而提出的一个技术标准。 4.1 背景:何为 scorm? scorm 是美国政府在 1997 年底,由白宫科技办公室与国防部共同推动的高 级分布式学习启动计划(advanced distributed learning initiative)的成果。该计划 联 合 教 材 开 发 商 与 使 用 者 、 教 学 管 理 系 统 环 球 学 习 联 盟 ( ims, instructional management system global learning consortium)、航空工业基于计算机训练委员 会(aicc, aviation industry cbt committee)、电气和电子工程师协会(ieee) 等标准化推动单位,整合美国各界过去在教材标准上的成果,共同研究、制定了 一个针对教学课件复合数字对象的技术指南性质的标准,这就是共享型课程对象 参考模型(sharable course object reference model),简称 scorm。scorm 中 又主要包括两方面的内容:内容整合模型(content aggregation model,简称为 cam) -18,和运行环境(run-time environment,简称为 rte)。该模型的结构和构成见下图。 图 1 scorm 1.2 版示意图(资料来源:adl 官方网站) scorm 实施中综合了参与该计划的多家单位的标准,通过 java 和 xml 加以 整合,如下图所示。,图 2,e-learning 标准发展演进,4.2 scorm 的目标 scorm 主要解决教学课件无法跨平台共享的问题,目标是:(1)复用性 (reusability),即所有的教学资源能在不同的平台呈现并重组;(2)互操作性 ( interoperability ) , 即 教 学 资 源 可 由 不 同 的 平 台 间 流 通 ; ( 3 ) 易 获 得 性 -19,、,(accessibility),即可方便地在本地或远程使用;(4)耐久性(durability),即 确保可长久地使用。其理想目标如下图所示。 图 3 scrom 的最终目标 4.3 scorm 的内容整合模型(cam) scorm 内容整合模型其主要建构由三项内容组成:内容模型(content model) 元数据(metadata)和内容封装(content packaging),如图 4。,图 4,内容整合模型 -20,内容整合模型的作用是把组成课件可共享的内容对象(sharable content,object,简称 sco)的素材(asset)分解成图表(graph)、文本(text)、源代码,(如 javascript)、程序(如 java applet)等各种类型,各归其类。,元数据的作用是利用 xml 语言来提取、揭示课件的各种性质和特征,以利于,对课件进行管理和检索。,内容封装的作用是用 manifest 档案软件赋予各种元素以层次分明的统一的有,规则的文件名,并利用 xml 语言对课件的素材和编排建构进行封装。内容封装的,结构见下图。,图 5 scorm 内容封装结构,内容整合模型遵循的标准是教学管理系统(ims) xml schema,只要将课件 按照 scorm 规定的方法进行封装,采用共同的标准的课件就可以在不同的平台 间互相转换,达到共享的目的。,4.4 scorm 的运行环境(rte),在非标准化的情况下,由于教学平台对数字教材的要求不同,所以编写数字课 件所使用的软件和编程语言五花八门,各个应用程序接口的功能定义不同,更不 用说应用程序接口的功能参数所采用的数据模式了。scorm 的运行环境就是要规 范课件的编写软件和应用程序接口及其参数,使其遵循统一的标准。,scorm 的运行环境以 javascript 沟通教学平台与教材。在应用程序接口功能 方面,制定了八个名称和参数一致的应用程序接口功能,例如:初始化 lmsinitialize ( )、传递参数 lmsgetvalue( )、结束 lmsfinish( ),以及错误情况 lmsgeterrorstring( )等。对各个应用程序接口功能传递参数所用的数据模式, scorm 也有详细的规定。如 1.2 版所采用的数据模式为 aicc 所制定的 cmi 模式, cmi.core.student_id 为学生学号,cmi.core.session_time 为学生停留的时间等。有了,-21,这些统一的要求,各种网络教学平台和各种网络教材的沟通方式就可以统一起来, 实现彼此的兼容。见下图。 图 6 scorm 运行模型,5,dspace,5.1 dspace 概要 dspace 是一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论