版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
7.8数字资源长期保存一、为什么要保存数字资源二、谁来保存数字资源三、如何保存数字资源2026/2/272主要内容:
数字资源长期保存是指:为保证数字比特流可长期维护和其内容可长期获取的必要管理活动,有两层含意,一是长期存储(storage),一是长期可获取(access)。
2026/2/273信息技术是双刃剑:获取便利
VS易损易失2026/2/274一、为什么要保存1、数字资源非常脆弱从物理存储方面数字资源及其所依赖的网络、存储媒体非常不稳定;信息技术变化太快,硬件和软件都在不可预测地老化。从使用方面多数情况下信息机构仅购买了数字资源的使用权;由于多种原因,数据库商或其委托的镜像服务商有可能终止经营或者停止向用户提供服务。数字资源一旦无法使用会带来不估量问题2026/2/275一、为什么要保存有的数据已无法再读
Example:1960美国人口调查统计数据1960人口调查统计数据存储在只有用UNIVACtypeII-Atapedrive才能读的磁带上全世界只有两台机器可以读,一台在日本,一台在Smithsonian博物馆
很多类似的信息已经永远无法获取了,实例举不胜举Source:CPA&RLG,1996,p.2早期因特网的很多数字物件已不复存在从1995到1999年在IEEEComputer
和CommunicationsoftheACM上被引用的文献在2000年时就有28%不再可获,到2012年增加到41%
Source:Spinellis,D.(2002).&LC&NSFAnnouncement,5/4/2005目前科研单位面临着管理海量的各式类型数据的挑战有些每天就有成百上千个GB.laboratoryexperiments,life-sizeexperimentsobservationsfromvariousinstruments(satellites,radar,telescopes,probes,sensors,microscopiccameras,etc.),其中有些包括永远不可能重复的历史性事件数字技术发展太快,人类还没有相应的完善的应对计划和方法万维网网站电子出版物多媒体产品文化或科技数据库...天生的数字资源若把全部国会图书馆馆藏数字化,将产生10到136TB数据(因分辨度可能不同)网上产生的资源,一年就比国会馆的百年收藏多几倍到几十倍Source:UCBerkeleySIMS“HowmuchInformation”.(2000,2002)NASA每天收回的数据都上terabytes人类基因组计划
TheHumanGenomeProject人类基因组计划(1990-2003)支持的数据库含有全球合作的结果(美国、英国、日本、法国、德国、中国等国家的科学家)阐明人类基因组30亿个碱基对(chemicalbasepairs)的序列,发现所有人类基因
(20,000-25,000)并搞清其在染色体上的位置将这些信息存放在数据库中,不断更新改善数据分析的各种工具为30亿个碱基对构成的人类基因组精确测序,从而最终弄清楚每种基因制造的蛋白质及其作用
Sources:HumanGenomeProjectwebsite,2004;Hughes,2003&/bjkpzc/kjqy/smkx/7108.shtml24对人类染色体humanchromosomes与某个染色体相关的特性和异常制造业更多依赖于软件系统来设计、生产、维护产品。有关一种飞机模型的信息必须在该种飞机服役的期间保留。医药品也是如此…还有电子政府、电子银行…作为信息载体的巨石已经存在了几千年书本--几百年
声像产品--几十年因特网–-才十年左右预测英特网上有1亿多网页的寿命只有44天到2年
生存下来的有很大一部分在一年内都会有变不稳定性被废弃的媒体
在数字环境中,要保留下来的不是酒瓶,而是瓶中之酒.
电子文献采用的新媒体比以前的更脆弱易损,使用年限更短.无固定住所的记忆信息与载体分离内容&容器
信息的这两个因素被彻底分开昙花一现的文件格式看看现在的各种图像格式:容易受到外来攻击病毒VirusCodeRedvirus,--12,000WebsitesintheU.S蠕虫WormNimdaworm,2001--150,000computers特洛伊木马TrojanHorseBackdoor/Trapdoor黑客Hackers……Nimdaworm,whichtookdown150,0002、法律和组织机构等问题
用数字化形式来将知识产权”移民”牵涉多个方面:知识产权的创造者知识产权的拥有者数字档案的管理者公众兴趣的代言人知识财产的实际和潜在的用户获取数字文件所需要的软件的版权问题为了保存而拷贝的权利数字黑洞Source:JonasPalm,2006.
TheDigitalBlackHole.3、商业性数字资源的社会责任缺失期刊——国内的如清华同方;国外的如WSN,NSTL购买的图书——方正,超星其他自建的研究生论文库特色数据库机构网站信息…….其他免费获取的2026/2/2722利润VS社会责任图书馆的社会责任保存数字资源的责任2026/2/2723二、谁来保存数字资源长久持续地提供数字资源的责任1、国外图书馆界的行动澳大利亚国家图书馆启动PANDORA项美国国会图书馆开展的“美国记忆”英国几所大学联合开展了CEDARS项目,世界各国很多高校图书馆开展了机构库更多的研究型项目:英国的DCC,德国的NESTOR,欧洲的ERPANET等2、出版届的行动美国地球物理学联合会AUG2026/2/2724二、谁来保存数字资源3、图书馆与出版商合作的行动欧洲七个国家图书馆及三个主要出版社以合作项目形式启动了基于网络的欧洲存储图书馆NEDLIB美国斯坦福大学图书馆牵头开展了由图书馆和出版商共同参加的LOCKSS项目荷兰国家图书馆与出版商合作开展了保存电子出版物的国家保存行动等…….4、政府的行动呈缴制度的建立美国国会批准实施国家数字信息基础结构和保存规划NDIIPP项目等……5、民间的行动有收费的也有免费的2026/2/27256、国内的进展国家图书馆的网络信息资源保存试验项目CALIS开展了教参和博士论文文摘保存计划,开展对采购的数据库的保存活动中国科学院国家科学图书馆开展了多种保存活动北京大学开展了中国WEB博物馆……2026/2/2726总体来讲:各国政府越来越重视参与的行业越来越多国家间的合作成为趋势涌现出许多技术方案教育培训工作被加强2026/2/27272026/2/2728三、如何开展保存活动1、保存系统框架OAIS功能模型2、保存什么保存什么资源资源本身的当前和长期使用价值资源本身的长期战略意义资源的不可替代性资源使用渠道的不可替代性资源保存的合法保障程度2026/2/2729三、如何开展保存活动保存什么元素保存数字比特流-即只保存纯粹的数据保存数据内容-如文档类文件的文本保存保存数字格式与处理信息(元数据)保存数字信息处理环境保存数字信息的内容校验、身份认证、版本演变、知识产权管理机制部分或者全部保存数字信息的知识组织体系信息、组织利用环境。2026/2/2730三、如何开展保存活动3、谁来保存呈缴制度:自愿性\强制性国家保存与出版商授权结合联合建立并做为出版商委托的第三方保存机构图书馆之间形成保存联盟基于集团采购的合作保存形式商业性质的保存机构(Portico,OCLC)民间网络信息资源的保存(InternetArchive)
2026/2/2731三、如何开展保存活动/是由非图书馆的非营利机构实施保存,在缺乏严密的授权机制下,自行收集和存档全球的公开网页,目前也在积极和各方合作研究授权问题。
2026/2/2732
因特网归档项目(InternetArchive)InternetArchive,IA由美国会图书馆和Smithsonian组织共同构成,以为后代保存稍纵即逝的、具有历史性重大意义的“原生”互联网资源为目的。澳大利亚、加加拿大、丹麦、芬兰、法国、冰岛、意大利、挪威、瑞典等国的国家图书馆,英国不列颠图书馆,美国国会图书馆和IA等机构共同建立了国际网络资源保存社团(InternationalInternetPreservationConsortium,IIPC),鼓励和支持利用通用工具、技术和标准建设国际档案馆(internationalarchives),并资助相关研究项目。2026/2/2733IA与
IIPC丹麦于2000年出台的第340号法案规定了公共图书馆收割、保存和提供包括因特网和多媒体在内的电子信息的职能。澳大利亚联邦于2006年修正的著作权法案第40和41条,对图书馆的数字收割和保存活动给予了重视和支持。英国国家图书馆正建议国家立法,不限制数字资源的自动获取,支持以保存为目的缴送和复制,并涵盖有可能增加的各种介质出版物。德国的国家存档项目Nestor正建议修改《呈缴本法》,要求法律支持数字资源副本的创建和修改权,取消由DRM提出的限制。2026/2/2734呈缴制度挪威于1990年生效的《保存本法》所规定的国家图书馆收割和保存范围涵盖了网络电子出版物,并提供了具体实施规章。新加坡于1995年通过了“新加坡国家图书馆管理局法案(NLBAct)”,规定在法定的呈缴框架下,电子或联机形式传播的出版物不论是否已通过网页内容收割和存档,都需向管理局呈缴两份复本。2026/2/2735呈缴制度4、用什么技术复制:从现有存储媒体上将数据拷贝到同类型或不同类型的新存储媒体上迁移:将数字资源迁移到不同的软件或硬件环境下,从而保证数字资源可以在发展的环境中被识别、使用和检索。仿真:通过详细描述数字信息利用的各种技术参数和环境条件,使未来计算机系统可以模仿原始系统环境来读取和使用数字信息内容。
2026/2/2736三、如何开展保存活动5、有什么保存策略按需迁移策略风干保存策略技术保存策略格式管理策略2026/2/2738三、如何开展保存活动迁移(旧移新)Migration硬件迁移将数据转到新的容器中软件迁移转移到同样格式的新版本转移到新格式在使用时才做迁移迁移(旧移新)Migration(续)优点由软件提供的转换功能结果形式是用户所熟悉的可能带新功能缺点可能面目全非有错误发生如果在预计的过期时采用这种方法,一切都必须被迁移,通常作重复劳动在使用时才做旧移新,可能已经太晚规范化Normalization把所有的物件转换成:一种或多种选定的格式一种限定的保存格式,e.g.,XML一种更通用的格式Example:NationalArchiveofAustralia,storeseverythinginXMLformat.规范化Normalization(续)优点只需要维护有限的格式被选的格式可能有较长的生存机会采用逻辑的描述可以增强应付未来复杂性的机会缺点(见旧移新)不灵活有可能选错格式硬件模仿软件模仿模仿另一种操作系统通过一层中介或虚拟机器来模仿模仿Emulation仿真/模拟Emulation(续)优点可以获得原始文件适用于每一种数字物体,包括程序一次投资就使得大批数字物件得益缺点还没有在数字保存方面有过可行的操作技术上面临挑战结果可能并不是读者所要的封装Encapsulation将内容‘塞进’一个描述中例如:在XML文件中装进原文件在描述中与文件一起装进与软件的链接复杂的数据类型,如records,class,objects常常很依赖包装Example:ArchivalInformationPackages(AIP)thatcontainmetadataandcontentfiles封装Encapsulation(续)优点通过更深入的描述,总可以有新的选择缺点元数据的更新很困难事实上,还没有先例,封装的策略还未成型装进对软件的链接并不能担保可获取性技术保存
TechnologyPreservation常被称为硬件博物馆保留所有的东西:files,hardwareandsoftware,andkeepthemalive几乎不可能做到维护当数量太大时不可能做到重整/数据恢复/数据考古
Re-engineering
保存原码,然后恢复其可读性和可用性很费工,技术上很大难度因为原件不一定还能找到,无法判断到底应恢复成什么样风干Dessication补充措施:现在最简单的技术对数字信息进行保存,将来才有可能通过最简单的操作来读取和理解被保存的信息。
对于类似文档(如网页)的数字对象,在保存原始格式的同时,应该同时派生出一个低技术含量的版本进行保存。“如有紧急情况,可到174公里处打紧急电话”6、对保存者的要求(保存系统的认证)遵从OAISModel可承担起行政管理责任组织机构具有生存能力具有持续的财政支持拥有合适的技术和程序系统具有安全性通过程序承担了责任2026/2/2751三、如何开展保存活动7、具体一个图书馆如何做针对集团采购的数据库:选择实力强的经费分担针对自己单独采购的数据库:永久使用权本地镜像保存:必要的数据和技术参数,必要的授权针对自建数字资源网页保存:InternetArchive,我国国家图书馆等数据库:文件格式最好采用PDF或开放格式,保存数据为主无论保存什么,最好能参加至少一个保存联盟,同时要注意首先要自我先做好保存前期工作。2026/2/2752三、如何开展保存活动1、荷兰国家图书馆的国家保存1999年荷兰国家图书馆与出版协会签订了“电子出版物自愿呈缴协议”。自2002年以后荷兰国家图书馆与ELSEVIER等公司签订了国家保存协议:市场失效前的限制性保存使用市场失效后的国家保存使用2026/2/27537.9各国的数字资源长期保存项目2、澳大利亚网络信息资源保存PANDORA主要收集本国出版或记录本国事件的出版物。包括网上免费开放资源,也包括商业型电子出版物。以文本文件和图像文件为主。由于技术上的原因,没有收录数据库。
2026/2/27542026/2/2755澳大利亚网络信息资源保存PANDORA3、美国的数字资源长期保存项目
2026/2/2756美国记忆--100多个数字馆藏参与,联合目录查找AmericanMemory/ammem/collections/finder.html数字米开朗琪罗项目
DigitalMichelangeloProjectheightofgantry:7.5metersweightofgantry:800kilograms目的:采用先进的3维扫描技术让技术为人文科学服务为一些最重要的文化遗产建立有长期保存价值的数字档案Source:MarcLevoy,etal.,2000480个专门定位的扫描2亿个多边形建模7,000彩色图像32gigabytes30个通宵扫描22位老师和学生1998.9-1999.6扫描大卫(20cmtall)用1百多万个多边形建模制作的小模型:基础网格上有8百万个多边形建模展现、拼接、运作这些数据需要特别的软件和硬件,成为该项目的长期任务展览馆的三维显示美国俄亥俄州历史数字馆藏“俄亥俄记忆”美国 俄亥俄州沃兴屯市历史数字馆藏哈佛福大学法学院图书馆的《纽伦堡庭审项目》数字文献馆藏TheNurembergTrialscollectionWordSpotting:IndexingHandwrittenManuscripts
(手稿检索数字图书馆项目)历史之声HistoricalVoices/美国面向教育的数字图书馆项目
独立的数字图书馆例:Perseus人文科学数字图书馆硕士博士学位论文数字图书馆综合了100多个项目成果的数字图书馆和元数据投放库国家科学数字图书馆(NSDL)在已建数字图书馆基础上建成的数字化学习环境加州大学圣芭芭拉分校亚历山大数字地球模型系统(ADEPT)数字化的学习环境(DLE)
Perseus人文科学数字图书馆9millionpages/month浏览经典电子馆藏包括:经典·古代写在纸莎草纸上的文稿·文艺复新·伦敦·加州·上中西部·莎士比亚·波义耳作品·Tufts历史语言统计地图年代同样数据,多种看的方法,多种探索开发的方向经典文献的地域分布图波义耳作品的时间分布图(1)硕士博士学位论文图书馆从计算机科学开始,组建推广到其它学科和国家学生学会‘出版’自己的成果上交时必须填写元数据记录(现在很多学术会议录也要求这样)作者和读者/用人者的更好接触由用户团体参与、不断扩充资源的数字图书馆,成功的可持续模式NationalSMETEDigitalLibrary
ScienceMathematicsEngineeringEducationTechnology国家科学数字图书馆NSDL科学教育数字图书馆(NSDL)收藏collections服务设施services特殊问题研究Targetedresearch专业化的路径Pathways一体化核心CoreIntegration这是与各个国家(包括美国)DL项目不同之处,是综合的关键。NSDL数字馆藏一览地理学科:数学:NSDL一体化核心项目元数据库
CollectionCollectionCollectionOAIProtocolFTPxferautomaticgatheringSearch&DiscoveryAdvancedDiscoveryuserprofilesAccessManagementUsers门户网站Portals数字馆藏CollectionsNSDL信息结构4、日本国会图书馆WARP项目
WebArchivingProject日本国会图书馆于2006年在WebArchivingProject中开发了一个须版权人授权的网页爬行机器人进行网络资源收割。主要收割对象是网站,其次是在线期刊和城镇农村信息资源。2026/2/27785、
韩国国家图书馆在OASIS计划
OnlineArchiving&SearchingInternetSources2008年韩国国家图书馆在OASIS计划中进行网络数字资源的收割和保存。目前的收割对象主要为两类:网站和其他单独网页数字资源本国2026/2/27796、新加坡国家图书馆管理局收割互联网计划新加坡国家图书馆管理局从2006年开始启动了收割互联网中所有与新加坡有关的网页内容的计划。2007年该局建设并使用了一个自助提交系统,出版者可以在网络上直接提交数字出版物2026/2/27807、
美国国会图书馆国家数字信息基础设施和保存计划(NDIIPP)2006年美国国会图书馆开通了直接隶属于国家数字信息基础设施和保存计划(NDIIPP)的网页抓取项目,使用IA专门设计的开发源代码爬虫软件Heritrix进行网页收割2026/2/27818、《新西兰国家图书馆法》2003年进行了补充和修订,对国家图书馆对数字资源进行收割和保存的职责和权利予以了法律支持新西兰国家图书馆和英国不列颠图书馆在IIPC资助下,共同研发了面向互联网内容长期保存的数字资源收割工具WebCuratorTool(WCT)功能包括:资源选择、收割、收割结果质量评价2026/2/27822026/2/27832026/2/2784数字资源持久保存国际合作试验项目LOCKSS构建长期保存系统(由NSTL和NSL联合资助)保存对象:电子出版物Nature(60),Springer(1250),维普(7953)2026/2/2785
中国科学院国家科学图书馆争取国家政策上的支持和公众意识的提高数字报纸数据库2119种报纸1800个报纸网站80个网站上的PDF文件网络信息资源保存项目2026/2/2786
中国国家图书馆的保存活动
“中国Web信息博物馆”是在国家973和985项目支持下,北京大学网络实验室开发建设的中国网页历史信息存储与展示系统。目前已经维护有30亿以中文为主的网页,并以平均每月四千五百万网页的速度扩大规模。2026/2/2787
中国WEB信息博物馆2026/2/27881、经济问题需要巨额投资需要可持续的投资需要多少投资不清楚因此:国家统筹规划和建设合作保存选择性保存在保存前减小保存负担:如利用开放数据格式2026/2/2789面临的问题2、知识产权问题永久使用权保存权利呼吁国家相关法律和政策的制定授权责任体系呼吁国家出台相应政策,要求出版商在放弃保存前,数据移交给图书馆呼吁建立相应机制,当民间或机构放弃保存责任前,移交数据和保存权利给其他机构,或国家指定机构。2026/2/2790面临的主要问题3、技术问题选择哪种技术方法选择哪种技术策略保存时机的选择2026/2/2791面临的主要问题新西兰国家图书馆和英国不列颠图书馆在IIPC资助下,共同研发了面向互联网内容长期保存的数字资源收割工具WebCuratorTool(WCT)。功能包括:资源选择、收割、收割结果质量评价
。WCT是免费开源软件,可以从
站点下载。新西兰国家图书馆使用WCT的硬件系统是SunSPARCservers,操作系统是Solaris,数据库管理系统是Oracle,网络服务系统是ApacheHTTPServerandTomcat,用户识别系统是Novelle-Directory。整个软件系统被布署在两个服务器上,一个服务器用作核心指令舱(coremodule),另一个用作收割器(harvester)。2026/2/2792数字资源长期保存工具
WebCuratorTool2026/2/2793WCT工作系统的主菜单上共包括9个功能模块InTray:总览模块。HarvestAuthorisations:收割授权模块。Targets:收割对象管理模块,负责管理收割任务时间表。TargetInstances:收割对象列表模块。Groups:收割对象分组模块,通过比较元数据信息、对同类资源进行成批收割。PermissionRequestTemplates:收割许可请求生成模块。Reports:报告生成模块。HarvestConfiguration:收割设置模块,负责依据时间带宽设置任务时序及下载细节,包括是否压缩、是否延迟响应服务器主机等。Users,Roles&Agencies:用户、角色及代理管理模块。2026/2/2794WCT工作系统的主菜单上共包括9个功能模块
初选收割对象→获得版权许可→描述对象→确定对象范围及边界→制定收割时间表→收割→评价收割质量→认可或拒绝收割结果→保存被认可的收割结果(保存到数字仓储或数字档案馆)2026/2/2795WCT工作系统的收割流程2026/2/2796WCT工作系统的“获取版权许可”授权者搜索界面发送授权请求信界面a.搜索授权者:利用HarvestAuthorisations模块中的Search功能,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025 八年级生物上册基因多样性意义探讨课件
- 实施指南(2026)《QBT 4442-2012 摆件 术语》
- 策马扬鞭启新程:2026大学新学期成长规划
- 中医护理低血压的原理与方法
- 循证医学:精神分析治疗课件
- 2025年成都电视台事业单位考试及答案
- 2025年考录党支部书记面试题库及答案
- 2025年大学专职教师笔试真题及答案
- 2025年南阳市事业单位招聘考试及答案
- 2025年重庆交巡警辅警笔试及答案
- GB/T 27664.3-2026无损检测仪器超声检测设备的性能与检验第3部分:组合设备
- 2026年银行从业资格信用卡业务基础知识练习(含答案)
- 2025年浙江温州市城市建设发展集团有限公司面向社会招聘工作人员24人告笔试参考题库附带答案详解
- (2025年)焊工(初级)考试题库及答案
- 督查督办工作管理办法
- 北京市丰台区2025-2026学年上学期八年级期末英语试卷(原卷+解析)
- (2025年)新复产复工开工第一课安全教育培训考试试题附答案
- 2026 年民政局制式离婚协议书正式范本
- 第25讲-理解为王:化学反应原理综合题解法策略
- (正式版)DB44∕T 2742-2025 《国土变更调查技术规程》
- 常用急救药品知识宣讲
评论
0/150
提交评论