已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浅谈网页长期保存的策略与方法探讨摘要:网页作为网络信息的重要表现形式,承载了海量的信息资源,有着非常大的价值。但是网页自身却非常容易变更或者消失,给网络信息资源的安全造成了威胁。有必要对网页进行长期保存,以保护网络信息资源。笔者通过对国内外众多网页长期保存项目的对比分析,提出了我国在网页长期保存上的策略以及评估、选择、收集、整理、存储和利用的方法,以期对我国的网页长期保存项目提供建设性意见。 关键词:网页;长期保存;策略;方法 网络信息作为数字信息的一种,随着互联网技术的应用和发展而飞速地增长。网页对于网络信息而言,具有非常重要的作用。如何妥善地保存和维护这些网页,使这些含有海量信息的网页能够长久地存在,并能被人们获取利用,是摆在我们面前的一道难题。 1网页长期保存的必要性 1.1网页数量骤增 据中国互联网络信息中心(CNNIC)的统计,自2003年开始,中国的网页规模基本保持翻番增长,2009年网页数量达到336亿个,年增长率超过100(见图1)。而Google在2008年宣称,其索引的网页数量已经突破1万亿,并且其数量还在以每天数以亿计的速度在增长,“互联网上的网页已经多得无法计算了”。大量网页的背后是海量的信息资源,它们不仅是人类知识的宝库,也是人类记忆的财富。我们有必要将其妥善保存。 br 1.2网页信息变化快 网页信息的变化体现在两个方面: 一是网页内容的变更,通常是管理员定期或不定期地更新网页,以便增加新信息或修改之前的信息。这并不会引起网页数量的变化,但是一定程度上更新了网页的信息,因此原网页的部分信息可以认为是丢失了。 二是网页的新增或删除,通常由网站管理者新增某些网页或者删除某些网页。一旦删除,该网页便从互联网上消失,其他用户无法再访问。网页的增删会引起网页数量的变动。 相关学者研究发现,在6个月内近50的网页会发生变化,68的网页1年内将被从网上移除。 而Wallace Koehler的观察结果更为显著,他发现98.3的网页6个月内会发生变化,如观察时间为1年,则比例上升为99.1。此外,有20.5的网页6个月后不能再被访问到,1年后上升到31.8。 不管是网页的更新还是网页的增删,都预示着网页信息处于不断变动的状态中,若我们不能及时高效地将当前的网页收集保存起来,很有可能下一秒钟该网页就变得面目全非甚至完全消失了。 1.3网页的寿命较短 相关研究提出,网络信息资源的寿命可以用其自身的生命周期或者利用价值情况来衡量。因此我们用“半衰期”来作为网页寿命的指标。“半衰期”源于物理学领域,原指放射性元素的原子核有半数发生衰变所需的时间,这里是指网页的本身会发生衰变或者其价值发生衰变所需的时间。 简历大全 在网页的生命周期中,网页的半衰期是指一定数量的网页内有半数的网页消失或者被删除所需要的时间,根据Wallace Koehler通过观察得出的结论,1年后有31.8的网页无法访问到,因此他得到网页的半衰期为1.6年。也就是说,网页在互联网上存活1.6年之后,其消失的几率会大大增加。 在网页的价值周期中,网页的半衰期是指网页吸引一半读者所用的时间。一般而言,质量越高或者价值越大的网页,其吸引的读者会越多,其存活周期越长,半衰期也就越长。而像网络新闻这样具有时效性的网页,其半衰期则非常短,通常为36个小时左右。这意味着一条新闻在互联网上张贴36个小时之后,读者数量就会大为减少。 2国外关于网页长期保存的实践 该如何管理这些有着海量信息但随时都会被更改或删除的网页,让宝贵的知识财富世代留存,供后人研究和使用?世界上很多国家包括美国、澳大利亚、英国、法国等都进行了相关的尝试。 2.1澳大利亚的PANDORA项目:开始于1996年,由澳大利亚国家图书馆领导,收集并保存澳大利亚范围内的在线出版物和网站并提供长期的利用。收集澳大利亚范围内,具有长期保存价值的在线出版物和其他有用的网络资源。主要方法是开发数字归档系统(PANDAS)来自动收集、描述、提供档案的利用。到2003年2月,已经收集了3300个专题,144万个文件,约405GB。 2.2美国的MINERVA项目:始于2000年,由国会图书馆负责,其目的是评价、选择、收集、编目以及保存数字材料,为将来的研究者提供利用。项目主要收集互联网上重要的政治事件、重特大事件,采集工作由网络机器人完成,并将结果分专题进行收集和存储,目前国会图书馆已经完成13个专题的收集。 2.3美国的IA项目:开始于1996年,由非营利组织Internet Archive发起,其目的是建成“网络图书馆”,存储历史上曾经存在过的数字资源,使现在和以后的学者和研究人员能够永久访问。其收集的内容涉及音频、视频、软件、文本以及Web等领域,采用网页快照的方式,通过网络机器人程序自动抓取或接收Alexa公司和其他机构的捐赠。到目前共收集了自1996年以来的1500亿个网页、470709个音频记录以及1859523个文本等。 2.4英国的UKWA项目:开始于2004年,大英图书馆和其他法定送存图书馆共同合作,主要收集英国范围内的网站。其目标是收集、保存重要的英国网站并提供长期利用,采取定期回访网页并保存快照的方式。自2004年以来已收集了上千个网站。 2.5奥地利的AOLA项目:开始于1999年,由奥地利国家图书馆与维也纳科技大学软件学院合作,主要收集奥地利地域范围内和关系到本国利益并且是公开的网站,其目标是保存奥地利本国网络空间中的资源。使用网络机器人自动获取并对网站进行定期快照的方式。到2005年,共采集了来自45000个网站的280万网页,约488GB的数据。 2.6芬兰的EVA项目:开始于1997年,由芬兰国家图书馆领导,主要采集芬兰地域内的、当前公开的静态网页和在线材料。其目标是规范筛选电子文件的标准,建立一个长期可读取的档案馆。采用地域收集的方法,定期扫描并存储全芬兰的网络空间。1998年第一次怏照,从约7500个芬兰网站上获取约180万个文件。 2.7法国的BnF项目:开始于2001年,法国国家图书馆对法国范围内的所有网站进行收集,采用自动获取和手工方法相结合的采集策略。其目标是存储和管理网络文献,为未来提供特定历史时期具有代表性的网络资源。到2002年,该项目收集了法国的1900个网站数据。 2.8瑞典的Kulturarw项目:开始于1996年,由瑞典国家图书馆领导,使用非选择性采集网站所有信息的方法,对瑞典全国的网络信息资源进 行了采集。其目的是测试瑞典在线文献的收集、保存和提供读取的方法。到目前共收集了34TB的数据,包括1.3亿的文件。 2.9挪威的Paradigma项目:2001年开始,挪威国家图书馆对挪威网站上所有可公开获取的数字文件及其他网络资源,使用软件以半人工的方式进行采集。以便选择、采集、描述、标志、存储各类数字文件。预计第一轮全采集能达到1000万的URL,达TB的容量。 2.10日本的WARP项目:开始于2002年,日本国立国会图书馆针对日本国内的政策信息和学术信息,开始了收集网页快照并对该部分资源进行存储方案的测试,其目的在于收集与归档网络资源,为未来日本保存网络文化遗产。2004年6月,该项目对600个网站和1100多个电子期刊进行了收集。 3网页长期保存的策略 通过借鉴国外关于网页保存的实践探索,笔者认为需要制定网页长期保存的策略来合理有效地保存网页。 3.1多方合作共同参与实践项目 综观国外的相关实践,极少项目是由单独主体参与并完成的,往往是在行政部门的支持下,由国家图书馆联合国家档案馆、高校、网络中心或者信息中心以及商业部门和公益性机构,共同参与到项目之中。如澳大利亚的PANDORA项目,就是由澳大利亚国家图书馆与其他九家澳大利亚图书馆和文化收集机构合作,奥地利的AOLA项目,是由奥地利国家图书馆与维也纳科技大学软件学院合作多方合作的好处是可以达到强强联合、优势互补,提高网页收集、保存和利用的效率。因此,在进行网页长期保存的实践活动中,有必要联合各方资源,共同参与到项目之中。如可以由国家图书馆或国家档案馆进行领导协调,由院校科研机构或软件公司提供网页收集分析工具,由网站、网络出版商或其他网络服务器托管商提供资源支持,由图书馆和档案馆提供存储场所并对外提供利用。 3.2获取政府支持保证项目顺利实施 包括争取政府的资金支持和政策支持。由于网页增长的速度非常快,网页长期保存项目也需要进行长期不懈的努力,这需要先进的网页收集工具、完善的信息传输系统、海量的数字存储空间以及便捷的检索利用系统,因此网页长期保存项目必须得到不间断的资金支持。但是目前国际上很多项目都是用图书馆的预算资金,如法国的BnF项目、瑞典的Kulturarw项目等。这些资金相当有限而且无法保证其连续性,一定程度上限制了项目的开展。政府的持续投入变得相当有必要。在英国的UKWA(UK Web Archive)项目中,由于很多网站所有者并未积极响应,该项目对征求网站所有者的归档许可不仅花费巨大,而且困难重重。因此项目组不得不转而游说相关的管理部门,使其能自动收集所有境内的网站。从这个案例中可以看出,在法律许可之外,政府管理部门的支持对保证项目的顺利进行起着非常重要的作用。政府管理部门应该设立专项资金,并积极制定相关政策或提供授权,方便网页长期保存项目的开展。 3.3促进立法为项目提供法律保障 在网页的收集与保存过程中会产生很多法律问题,最主要的便是知识产权问题,如网页资源的下载、复制、编辑、转换、保存、利用等活动按法律要求都应有相关著作权人的授权。但事实上,由于网页数量多且内容复杂,在项目的进行中往往无法保证不对著作权人的权利造成损害。目前国际的通行做法是制定法律或者发布免责声明。如丹麦Net Archive项目中,其国家法律规定允许皇家图书馆使用网络机器人(网页收集软件)直接收集网页材料,而无需征得发布人的同意。又如美国IA项目,其采集互联网中有研究价值的全部网页,但是严格遵守机器人排除协议,即网络机器人对于被robot.txt文件保护的网页不予采集。国外的做法给我们的启示是,国家应该加强网络信息资源或者是国家数字遗产以及存储方面的立法,对于为了公共的利益,出于保护国家网络信息资源或者是数字遗产方面的行为,应该积极鼓励和支持,享有法定豁免权。 3.4加深有关网页长期保存的理论研究 国外有关网页长期保存的理论研究和实践研究开始得较早,实践活动在1996年便开展起来了,而我国最早的实践研究开始于2003年国家图书馆的WICP和ODBN项目。而相关的理论研究起步也较晚。研究网页长期保存,不仅需要研究网页的生命周期、网页的变化,还要针对网页的价值评估、选择范围、收集手段、整理方法、安全存储和高效利用方面进行深入研究。对我国学者来说,这项工作任重而道远。可喜的是,近年越来越多的人认识到了网页长期保存的价值,正逐渐加入到研究的队伍中来。 简历大全 4网页长期保存的方法 网页的长期保存按照其过程,可分为评估、选择、收集、整理、存储、利用等六个步骤。 4.1网页评估阶段 所谓“评估”,就是对网页的价值进行评价分析,以便确认该网页是否有价值以及价值大小,从而为长期保管提供建议。评估的标准为是否具有重大的社会经济、历史人文及科学研究价值。从各国的实践来看,一般首选的是本国范围内具有重要研究价值的网页,包括重大的政治事件、重要的社会活动、大型网站或者一些在线出版物等网页信息。 4.2网页选择阶段 网页选择是指确定长期保管的网页范围。由于大型网站或者某一事件的相关网页数量众多,有时可能无法全部收集,而只能选择性收集一些有重大价值的、不可替代的网页。一般而言,网页的采集范围有两种: 4.2.1全采集:把网站上的所有网页信息全部收集起来。采用此方式的有瑞典的Kulturarw网络信息资源收集项目,该项目是世界上最早的网络信息资源收集项目之一,以瑞典全国的网络信息资源为对象,制定了“一揽子收集”的策略,通过网络机器人无限收集数据。还有如芬兰的EVA计划、奥地利的AOLA项目等。 4.2.2选择性采集:强调不把有限的存储空间用来保存垃圾信息,而是有选择性地将网页进行归档保存,一般都是具有历史文化或者社会经济价值的网页信息。采用此方式的有澳大利亚国家图书馆的PANDORA项目,提出了保存网上出版物的选择方针并确定了15个大的归档主题。还有美国国会图书馆的MINERVA项目等。 4.3网页收集阶段 网页收集是指利用软件工具自动获取或者人工的方式收集网络上的网页信息。自动检索和获取网页的软件一般称为“网络爬行器”或“网络收割机”,这种软件功能非常强大,能在预定的时间和范围内收集所有网页并记录下网页基本信息。网页收集一般有两种方式: 4.3.1保存网页。就是将需要归档的网页复制一份完全一样的,包括文字、图片、声音、视频等,这种方式花费的时间较多,用来保存网页的存储空间 要求也很高,但无疑这是最完善的保存网页的方法。 4.3.2保留快照。网页快照也是网页的一个备份,但大多是文本形式的,或者是只保留了网页的html部分,因此使用这种方法比较便捷,同时也很经济。但缺点是可能无法保存网页的全部内容。美国IA项目和英国的UKWA项目都是采用保存网页快照的方式来收集网页。 4.4网页整理阶段 网页整理就如同档案整理归档一样,需要对收集到的网页进行分析、索引和归档。开发一套高效和便捷的整理系统对于网页的保存和利用都会起到极大的促进作用。美国国会图书馆在MINERVA项目中研发了适用于网页资源存储与访问的元数据描述框架MODS(Metadata Object Description Schema)。澳大利亚在PANDORA项目中,开发了PANDAS(PANDORA数字归档系统)用来登记所收集的网页资料,并记录管理元数据、划分保管期限表以及加工、提供阅览等,此外,该系统也管理访问权限并提供管理报告。 4.5网页存储阶段 网页存储是指对收集整理后的网页进行安全存储。目前来说,网页的安全存储还是个难题,因为大量的网页需要巨大的存储空间。同时,还要保证网页信息的安全一一存储载体的破坏或者存取技术的落后都有可能对网页信息造成不可挽回的损害。为了让网页信息得到安全存储并长久可读,除了采取更为先进的存储介质和压缩方法外,还有四种比较安全的存储方法可供选择。 4.5.1迁移:将网页信息从一种技术环境转换到另一种技术环境,来保证存取网页信息的技术“永不过时”。 4.5.2仿真:制造一个能运行过时软硬件的计算机软件,来模仿原软硬件运行环境来支持网页信息的存取,以防止过时的技术导致网页信息无法读取的尴尬。 4.5.3更新:是针对载体磨损或老化而采用的方法,将网页信息转移
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 文化纸扩建项目实施方案
- 公路桥梁建设技术与施工组织方案
- 食品卫生学练习题库及参考答案
- 文化纸扩建项目可行性研究报告
- 磷酸酯生产线项目投资计划书
- 2025年芝士片项目发展计划
- 幼儿评估指南试题及答案
- 2025年期刊出版项目合作计划书
- 2025年及未来5年中国金化合物行业发展趋势预测及投资战略咨询报告
- 2025年新发传染病或流行病的防控知识试题及参考答案
- 【阅读题训练】文言文阅读分类训练:书信类-浙江省高考语文一轮复习
- 流转土地合同(2篇)
- 全面质量管理考试复习题库(第四版)
- 建筑竣工测绘方案
- 继电保护现场巡视检查作业指导书
- 保安服务项目投标方案(技术标)
- GB/T 8492-2024一般用途耐热钢及合金铸件
- 中日钓鱼岛问题
- Unit-6-Animal-Intelligence市公开课一等奖省赛课微课金奖课件
- GB/T 15843.4-2024信息技术安全技术实体鉴别第4部分:采用密码校验函数的机制
- 风电场反违章培训课件
评论
0/150
提交评论