LOCKSS数字资源长期保存策略.pdf_第1页
LOCKSS数字资源长期保存策略.pdf_第2页
LOCKSS数字资源长期保存策略.pdf_第3页
LOCKSS数字资源长期保存策略.pdf_第4页
免费预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

LOCKSS数字资源长期保存策略 吴振新 李春旺 郭家义 中国科学院文献情报中心 北京100080 摘要 介绍了斯坦福大学图书馆发起的数字资源持久保存研究项目 LOCKSS系统 讨论了LOCKSS 项目的体系结构 系统运行原理 系统技术概况和合作机制等 关键词 电子出版物 长期保存 LOCKSS 分类号 G253 Long term Preservation ProjectLOCKSS Research W u Zhenxin L iChunwang Guo Jiayi L ibrary of Chinese Academ y of Sciences B eijing 100080 China Abstract This article introducesLOCKSS a long ter m preservation project of electric publication developed by the library of Stanford university This article also discusses its system architecture system functions technologies and cooperation mechanis m etc Keywords Electric publication Long term preservation LOCKSS 收稿日期 2005 10 14 数字资源长期保存问题已经受到越来越多的重视 国内外有很多研究项目 提出了多种解决方案 其中美国 斯坦福大学的LOCKSS项目以其Peer to Peer分布式 保存策略在欧美引起了广泛关注 目前国内部分图书馆 也对该项目产生了浓厚兴趣 作为 数字资源持久保存 国际合作项目 的参与人 我们曾与LOCKSS项目组在系 统测试以及中文期刊Plug in开发等方面进行了合作 本文对LOCKSS系统进行全面介绍和分析 以期推动 LOCKSS系统在国内的研究与应用 1 LOCKSS长期保存思想 LOCKSS Lots of Copies Keep Stuff Safe 1 意为通 过建立多个副本保证数据的安全 即通过建立出版商与 图书馆之间的协作关系 允许图书馆在本地收藏 管理电 子期刊 图书馆订阅期刊的电子版 并提供用户服务的信 息系统 它是由美国Stanford大学图书馆发起并组织实 施的 受美国国家自然基金 Sun Microsystems Inc以及 Andrew W Mellon基金支持 LOCKSS主要致力于解决 电子期刊的永久保存与利用问题 它通过建立出版商与 图书馆 图书馆与图书馆之间的协作平台 提出了从电子 资源出版 发布到永久性保存与利用等一整套解决方案 图书馆获得出版商授权后 可以利用LOCKSS工具 在本地创建一个低费用 永久保存的数字化信息缓存站 点 实现对订购电子信息的采集 本地存储 管理以及用 户服务等功能 LOCKSS还包括图书馆之间的协作 即建 立联盟图书馆间资源共享与协作机制 实现本地资源的 动态更新 损坏修复 丢失补遗等功能 保证资源的完整 性及永久有效性 在这种管理模式下 图书馆的电子信 息收藏不会受到出版商变化 恶意攻击 自然灾害 政府 法令以及丢失等问题的影响 以电子期刊取代印刷本期 刊的安全性得到了有力的保证 由于图书馆可以为读者 提供持续的 永久性电子信息存取服务 从而也保证了图 书馆的社会利益 基于LOCKSS协作模式 出版商将以最小的经营模 式及出版平台改变风险实现电子期刊的发布 通过 LOCKSS联盟不断扩大发行范围与访问数量 同时拥有更 高的数据访问与交流控制能力 另外 在LOCKSS模式 下 出版商不再承担信息永久保存的责任 将永久性保存 以及读者服务功能归还给图书馆 使出版商仍然专注于 自己传统的出版发行工作 当前 LOCKSS系统保存的数字对象主要是通过网络 传递的 内容具有权威性的连续出版物 包括电子期刊 报纸 政府文件等类型的资源 这也是目前图书馆使用比 较多的数字资源类型 并迫切希望实现对这类电子资源 的永久性保存与利用 LOCKSS系统可以实现商业电子 资源以及开放资源的收集与保存 对于商业电子资源 LOCKSS要求保存单位必须已经获得相关资源的使用权 53 现代图书情报技术 2006年 第2期数字图书馆 总第133期 即保存单位已经订阅或购买了相关资源 LOCKSS系统 支持出版商在线权限认证 利用图书馆从出版商处获得 的授权信息 通过出版商网站认证后 才可以采集授权范 围内的资源 越权采集将被拒绝 这不但实现了图书馆 本地保存已订购电子资源副本的需求 而且 出版商的利 益也得到了保证 LOCKSS系统支持开放资源的采集及本地保存 学 术资源开放使用在国外发展很快 过去图书馆对此重视 不够 没有对开放获取资源进行采集 保存 编目以及有 组织的利用 随着科研环境的变化以及人们使用学术信 息习惯的改变 开放存取资源的组织与利用将成为图书 馆的一项重要工作 LOCKSS已经注意到这种发展趋势 并在系统结构设计及功能实现上支持对开放存取资源的 采集 保存与使用 2004年初 LOCKSS项目发布了LOCKSS正式版 作为一个开放源码的工具系统 2 LOCKSS可以方便 快 捷地建立出版商与图书馆 图书馆与图书馆之间的关系 实现分布式信息发布 永久性保存以及用户服务等功能 目前 LOCKSS在继续完善软件系统的同时 积极发展联 盟成员 希望能吸引更多的图书馆及出版商参加进来 实 现全球图书馆和出版商之间的协作 现在全球有80多 个图书馆和50多个出版商参加了LOCKSS项目 出版商 提供的数据内容目前已逐渐加入到系统中 亚洲地区的 香港理工大学 印度甘地原子能研究中心 Indira Gandhi Centre forAtomic Research 新加坡国立大学和中国科学 院文献情报中心等参加了LOCKSS项目的测试与研究 2 LOCKSS体系结构 3 1 LOCKSS系统层次模型 LOCKSS系统包含一个重要名词 Caches 一个Caches就 是本地图书馆内的一台存储电子出版物的计算机 一个图书 馆可以拥有多个Caches 一个完整的LOCKSS系统包括三部分内容 顶层的出版 商数据库 中间的图书馆Caches点 底层的用户群 Caches 与出版商网站之间实现初始电子资源的采集 即图书馆根据 授权从出版商网站采集电子资源 中间层Caches既包括同 一图书馆内部的多个Caches 也包括不同图书馆间的Caches 各个Caches之间彼此互连 呈网状结构分布 这种结构实现 了Caches间互相备份支持的目标 底层是用户 每个Caches 都提供本地服务 也可以将多个Caches集成后为特定的用户 群提供服务 如图1所示 在技术实现上 LOCKSS采取灵活的 可扩展的3层结构 基础平台 后台程序和Plug in 基础平台是一个分布式操 作系统环境 用户安装非常简单 后台 Daemon 是LOCKSS 图1 LOCKSS系统Cashes网状分布示意图 系统运行管理 调度层 在操作系统的支持下 实现采集任务 调度 资源本地存储 信息损坏检测与修补 用户服务代理以 及管理员界面等全部功能 Plug in是LOCKSS系统采集期 刊资源的基本配件 针对不同的出版商及电子期刊 LOCKSS 开发不同的Plug in 以实现对特定网站电子资源的搜索与 采集 2 LOCKSS系统工作流程 LOCKSS系统的基本工作流程是 出版商在Web上发布一个Manifest页 包括允许LOCKSS系统 爬行网站内容的声明 可选择的元数据标准以及资源内容链接 图书馆的Caches保存并验证此页内容 然后将资源内容链接 作为爬行起点 LOCKSS爬行器开始在网络中漫游并按用户指定策略 收集相关信息 Caches将爬行下来的内容进行保存 通过Web浏览器为本地用户提供浏览服务 利用出版商数据库及联盟Caches 定期进行资源审核和修补服 务 以保证信息的完整性 LOCKSS支持多种文件格式的采集与本地保存 如html jpg gif wav pdf等 出版者最新出版的内容可以及时被 LOCKSS Caches收集 一旦一个图书馆激活了对某一电子期 刊的保存 那么它的新发布内容就会被不断地收集和保存 只 有图书馆改变目录集合或出版者改变许可时 这个过程才中 断 出版商只对自己授权的Caches提供信息访问和修补服 务 互相提供修补服务的Caches也应该是数据库出版商授权 用户 这样既保证信息的可访问性 又解决了信息服务的授权 问题 3 LOCKSS长期保存策略 3 1 LOCKSS基本技术策略 LOCKSS采取点 Caches 到点 Caches 的通信方式 Caches预先爬行Web获取相关新出版的信息 和普通 Caches不同的是其内容不会被冲消 Flushed Caches协 同工作 自动检测修复任何被损坏的内容 Cache资源被 永久性审核 无须人的干预 其内容可以是HTTP传递 的任何格式的信息 Caches之间起到内容互相备份的作 用 Caches越多 整个系统的安全系数就越高 1 安全策略 LOCKSS系统开发过程充分考虑可能遇到的安全性问 题 并尽可能采用系统特定的技术方法和解决方案将系统的 63 现代图书情报技术 2006年 第2期数字图书馆 总第133期 风险降低到最小 从而建立具有良好安全性的分布式长期保 存系统 首先 采取存储与操作系统分离策略 LOCKSS系统作 为一个完全的网络应用 操作系统可能受到的安全威胁最大 因此 LOCKSS系统在设计过程中 将操作系统和存储系统分 离 防止非法用户对操作系统的攻击 具体措施是LOCKSS 系统使用OpenBSD作为操作系统 通过光盘引导运行 利用 PC机存储缓存内容 配置信息存储在一张软盘上 LOCKSS 系统会有规律地进行自我检测 并通过重新启动完成更新 同时系统也充分考虑了主机网络安全问题 对攻击的解决办 法等 其次 采用轮询和投票策略 为了保证系统缓存内容 的安全性和完整性 LOCKSS系统采用Peer to Peer的轮询 和评价机制 定期检查存储内容的完整性 一旦发现问题 可 以通过其他LOCKSS系统修复内容 LOCKSS Caches之间通 过合作检验并修复损坏的内容 使得这个系统既精力充沛又 安全 最后 采用权利分离策略 LOCKSS使用无特权child 处理程序错误 如果在无特权的Child中发生Bug不会导致系 统瘫痪 2 成本效益策略 LOCKSS项目在开发 运作过程非常注意成本投入与产 出的合理性 在系统工作过程中试图以最小的成本 获得数字 资源持久保存的最佳效果 首先是系统开发的成本分担 LOCKSS系统是由多方基 金支持的合作项目 并通过合作机制确保开发费用的均摊 尽 可能降低开发成本 LOCKSS开发组通过开放系统源代码的 方式 鼓励项目合作者参与到软件开发过程中 并在合作者软 件开发过程给予技术支持 从而一方面保证开发成本的分享 另一方面可能避免合作开发者成本的提高 例如 LOCKSS 系统鼓励合作者中国科学院文献情报中心开发中文期刊的相 关软件 并通过各种途径给予了技术上的支持 其次 系统采 用低投入硬件降低成本 LOCKSS运行在低档硬件 即个人 电脑上 所以硬件成本很低 由于系统的安全性和易用性 系 统管理的投入很少 所以管理的费用也很低 同时系统开发 者考虑到硬件产品价格下降等因素 预测保存数字资源的成 本将从2004年的0 35美元下降到2007年的0 07美元 而每 个LOCKSS系统中存储的期刊数则从2004年的2880上升到 2007年的23000 4 第三 LOCKSS系统开发组考虑在系统研 发成熟后 建立联盟机制 通过图书馆 出版社的广泛参与 做 到成本 风险 利益均摊 从而兼顾成本和效益 3 标准化策略 LOCKSS是一个开放系统 充分考虑了系统的通用性 先 进性 可扩展性和互操作 遵循OA IS标准 ISO 14721 2003 草案 支持它的信息模型 满足了OA IS模型的基本要求 实 现了一个OA IS应用系统的基本功能 LOCKSS系统的输入输 出部分遵循OA I PMH协议 后台程序之间的通信使用一种 UDP协议即LCAP 4 分布式储藏库策略 LOCKSS系统采用了分布式储藏库策略 图书馆在自己 的Cache中保存自己的授权数据 虽然使用了许多 不可靠的 储藏库 个人电脑 作为存储器 但由于拥有足够多的复本 和有效的审核与修补机制 所以不必担心数据的损害 同时破 坏者很难找到全部副本实施破坏 因而LOCKSS系统是一个 稳固的保存系统 3 2 LOCKSS用户服务策略 LOCKSS系统采用灵活的方式为用户提供服务 系 统本身既是一个代理服务器 同时也是数字资源存储器 它根据不同的情况基于最低成本原则选择服务方式 1 出版商可以提供服务时的服务选择 当出版商可以提供信息服务时 LOCKSS系统本身同时 作为代理服务器和数字资源存储器存在 具体服务流程如图 2 图2 出版商可以提供服务时的服务机制 首先 LOCKSS系统接收来自用户浏览器的服务请求 如 果被请求的数据单元不在本地Cache中 它将把请求传递到 出版商网站 接收结果保存在本地Cache中 同时返回给用 户 其次 如果被请求的数据单元与本地系统中保存的数据匹 配 则审核被请求的数据单元自上次爬行后是否已更改 并根 据出版商网站返回的信息而决定重新爬行数据单元还是把已 保存的数据单元内容返回给用户 无论上述何种情况 系统返回的都是出版商网站提供的 原始页面 包括原始页面的广告等非稳定链接 2 出版商无法提供服务时的服务选择 当出版商无法提供信息服务时 LOCKSS系统本身就成 为一个信息服务主体 为用户提供信息服务 见图 3 图3 出版商无法提供服务时的服务机制 LOCKSS系统在保存出版商提供的期刊内容时 只保存原始 页面的稳定链接 将去除广告 声明项等非稳定链接 用户使 用时不会感到太大的变化 但是 需要指出的是 LOCKSS系 统并不保存出版商提供的原始服务 因此 当出版商无法提供 服务时 用户只能利用LOCKSS系统浏览已经保存的期刊内 容 无法进行检索 随着数字长期保存技术的发展 以及人们 73 现代图书情报技术 2006年 第2期数字图书馆 总第133期 对数字资源长期需求的不断增高 数字资源长期保存已经从 简单的资源保存向资源与服务同时保存的方向发展 这是 LOCKSS系统需要解决的问题之一 3 3 LOCKSS组织运作方式 理论上LOCKSS系统无中心 不需要协调 而实际 上 为保证可持续发展 必须指定一些关于软件开发与技 术支持以及收藏管理方面的协调框架 这种协调框架将 由LOCKSS联盟提供 LOCKSS联盟计划作为一个非营 利的为图书馆和出版商服务的组织 服务内容包括 开 发软件 修复漏洞 进行版本管理 安装与使用的支持 培训当地技术人员 发展开放组织 协调成员的合作 扩 展资源集合和数据类型 确保足够的Caches运转和期刊 数据 共享开发成果 元数据标准及执行 在联盟的协调下 出版社和图书馆将共同努力规范 相关的政策 开展最佳实践活动 发展和共享先进的技术 成果 共同分担核心团队费用 参加联盟不要求捐款 但 是联盟的每个成员需要为系统提供必要的支持 目前 LOCKSS计划正处于一个初期发展阶段 需要社会的支持 以进一步发展 事实上 它已经吸引了越来越多的关注目 光 在数字资源保存领域显示出了很好的应用前景 值得注意的是 LOCKSS联盟由三种来自不同领域 又相互关联的三类成员组成 即LOCKSS系统 图书馆和 出版社 为了使这个分布式的合作系统正常运行 需要 正确解决这三者之间的相互关系 即LOCKSS系统与图 书馆的关系 LOCKSS系统与出版社的关系 出版社与图 书馆的关系以及图书馆与图书馆的关系 1 LOCKSS系统与图书馆 传统图书馆的数字资源建设采用的是只购买使用权 检 索 的方式 即图书馆用户通过网络 或光盘等其他载体 利 用出版商提供的信息资源 图书馆本身并不具有保存权利和 保存功能 近年来 随着网络化 数字化建设的深入 大多数 图书馆认识到这种数字资源建设方式存在很多问题 不但会 影响到图书馆的服务 甚至可能危及国家数字资源宝贵遗产 的生存等问题 图书馆已经认识到数字资源的保存权和长期 保存问题 并在数字资源建设中提出保存权的要求 相关图书 馆为此制定了新的购买策略 如国家科学数字图书馆提出了 新的数字资源购买策略 5 然而随着数字资源保存权的获 取 图书馆需要面对数字资源长期保存的挑战 LOCKSS系 统为图书馆应对这种挑战提供了系统 运行机制 合作机制 为图书馆进行数字资源长期保存提供了一种可行的解决方 法 利用LOCKSS系统使图书馆得以方便地担负得起建立电 子资源馆藏 保存重要资料的责任 为国家保存数字资源资 产 为未来用户提供今天的信息 非常重要的是 可以在出版 社没有参与的情况下向目前和未来的用户提供其所要的文献 资源 如果出版商停止服务 图书馆仍可以利用保存的资源 为用户提供信息 保障图书馆和用户的相关权利 利用LOCKSS系统 采用新的具有保存要求的采购策略 图书馆可以从真正意义上拥有数字资源 而不是单纯地租借 或使用数字资源 2 LOCKSS系统与出版社 如上所述 随着越来越多的图书馆对于保存权的要求 出 版商不得不为图书馆提供数字资源保存的权利 但是 出版 商希望能够在提供数字资源保存的同时 能够尽可能对其商 业模式造成最小的危害 对出版平台造成最小的危害 从而 在知识产权的保护下 提供对数字资源的保存和存档 保证图 书馆对已经购买资源的使用 保存 建立出版商和图书馆间的 良好使用关系 LOCKSS使出版商得以方便地赋予图书馆对数字资源的 保存权 同时可以对自身利益造成最小的伤害 3 出版社与图书馆 当图书馆从出版商购买数字资源时 出版商赋予图书馆 相应的数字资源保存权利 指定图书馆数字资源下载方式 这需要出版社给予图书馆相应的许可 包括允许图书馆收集 已出版的资料以进行保存 图书馆可以按许可条款规定使用 资料 图书馆需要承诺数字资源的合理使用 保护数字资源 的知识产权 保证避免数字资源滥用等 同时 出版社出于商业利益 需要继续保持与图书馆的良 好合作关系 因此 出版社可以通过LOCKSS系统与图书馆 在许多方面保持合作和共同努力 如制定共同的规范政策和 探索最佳的实践模式 共同发展和共享相关技术等 LOCKSS 系统为出版社与图书馆更好地合作建立了系统基础和运行保 障机制 4 图书馆与图书馆 传统的图书馆为其上级机构或服务对象存储资源 并为 用户提供服务 在本馆资源无法满足用户需求时 利用馆际互 借机制 尽可能满足本馆用户的信息需求 LOCKSS系统为 网络环境下图书馆之间的合作提供了新的基础 利用 LOCKSS系统 图书馆之间不仅可以互相利用资源 实现网络 环境下的馆际互借 同时 可以方便地发现和修复数字资源的 损害 可以方便地从其他图书馆发现数字资源的复本 可以最 大限度地避免 不良用户 对数字资源的攻击 4 结 语 电子资源的保存已经成为当前国内图书馆急待解决 的问题 图书馆投入大量的资金只能租借电子资源 无法 拥有 无法保存 也无法保证未来用户的使用 通过对 LOCKSS的深入剖析 我们认为 LOCKSS无论在理论框 架上还是技术实现策略上都是一个比较成熟的资源保存 83 现代图书情报技术 2006年 第2期数字图书馆 总第133期 方案 它不仅是图书馆电子资源长期保存的首选方案 也 是出版商实现电子资源发布与服务的重要平台 图书馆 通过参加LOCKSS工程 借助它的工具很容易在本地建 立一个电子资源存储系统 不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论