数字图书馆原理与技术(全).doc_第1页
数字图书馆原理与技术(全).doc_第2页
数字图书馆原理与技术(全).doc_第3页
数字图书馆原理与技术(全).doc_第4页
数字图书馆原理与技术(全).doc_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数字图书馆原理与技术数字图书馆的定义:所谓数字图书馆,就是对有价值的图像、文本、语音、影视、软件和科学数据等多媒体信息进行收集、组织和规范再加工,通过网络提供高速横向跨库连接的多媒体信息存取服务,促进社会各类信息高效、经济地传递,从而极大地方便人们的学习、交流和生活。数字图书馆不是一个单一的实体;数字图书馆需要链接许多信息资源的技术;多个数字图书馆及信息机构之间的链接对最终用户透明;全球范围存取数字图书馆与信息服务是一个目标;数字图书馆的收藏不仅限于文献的数字替代品,它们还扩展到不能以印刷形式代替和传播的数字化人造物。美国数字图书馆联盟1998年:数字图书馆是一个拥有专业人员等相关资源的组织,该组织对数字资源进行挑选、组织、提供智能化存取、解译、传播、保持其完整性和永存性等工作,从而使得这些数字资源能够快速且经济地被特定的用户或群体所利用。 将数字图书馆规定为一种具有特定功能的组织机构,同时强调了数字资源是数字图书馆的核心。 美国著名数字图书馆专家William Arms :数字图书馆是具有服务功能的整理过的信息收藏,其中信息以数字化格式存储并可通过网络存取。该定义的关键在于信息是整理过的。 将数字图书馆界定为一种信息收藏,兼顾了数字资源和网络服务,并强调了数字图书馆的信息管理,简洁性和综合性较好。 数字图书馆与传统图书馆有着不可分割的联系传统图书馆是数千年人类社会知识文化的结晶,是数字图书的源泉;数字图书馆虽然可以把传统图书馆中各种载体的文献信息内容数字化,但却不能替代文献载体本身,也不能提供传统图书馆特有的阅览环境等;数字图书馆不仅要选择性地对已有的文献资源进行数字化,而且要处理新生的数字信息资源并开辟利用图书馆的新渠道、新方式和新技术。没有必要摆脱传统图书馆去另建新的数字图书馆,传统图书馆是数字图书馆的基础,数字图书馆是传统图书馆的发展,二者相互结合,构成复合图书馆(Hybrid Library)。 传统图书馆以印刷文献为对象,重视物理形态的图书和期刊的收藏与保存,实行集中式管理,使用受地域限制。通过款目(以分类号或主题词为核心)对文献进行描述,相关书籍都按类排放在一起,读者阅读时以类索取。数字图书馆收藏以数字化资料为主体,通过数字化减少物理形态资料的储藏和保存,分散式管理,使用不受地域限制;通过元数据对资源进行描述,内容比书目体系更加全面和复杂;存储突破空间的限定,相同主题的资料呈分布式状态,在物理意义上不必存放在一起。传统图书馆以印刷本资源为中心,提供固定模式的信息服务,用户获取信息是被动的,必须知道资料被哪个图书馆收藏,以及图书馆的位置与如何获取、利用等问题。数字图书馆以用户为中心,为具体用户提供个性化的信息服务。分布式存储技术的运用,使用户不再受时间和空间的限制,无论在家、学校或办公室甚至在汽车里都能访问世界任何地方的数字图书馆。阅读基于超链接、关键词或任意经过定义的方式。图书馆自动化系统概念:利用自动或半自动的数据处理机器来完成诸如图书采购、编目、目录查询、流通等图书馆业务工作。图书馆实现自动化的三个目的:它可以让读者以最快的速度查找到所需要的文献、资料;图书馆之间能真正实现资源共享;提高图书馆自身的管理水平,把工作人员从繁重的、重复的手工劳动中解放出来。图书馆自动化强调图书馆业务管理的计算机化,而数字图书馆侧重于信息资源的数字化,突出信息的计算机存储处理、网络传输特点。从某种意义上说,图书馆自动化只是数字图书馆实现的前提,或者说数字图书馆是图书馆自动化的高级阶段。数字图书馆与数据库数据库是相互关联的数据集合,是知识与信息的数字化集合。数据库方式将某一主题的知识资源以固定的记录格式存储,并提供检索入口,用户通过检索入口,可以方便地找到所需的信息线索,进而通过信息线索直接链接到相应的网站。能高速处理大量结构化和非结构化的数据。数据库组织信息资源可极大地提高信息的有序性、完整性、可理解性和安全性数字图书馆的书目数据、全文数据、特色数据等都以数据库的形式存在着。对于数据库的利用是数字图书馆所提供的众多服务之一。数字图书馆与网络信息检索系统网络信息检索系统是指在因特网上提供信息检索服务的计算机系统,其检索的对象是存在于因特网信息空间中各种类型的网络信息资源。网络信息检索系统一般由自动索引程序(Robot) 、数据库和搜索引擎三部分组成。第一,在资源的组成方面,数字图书馆的资源是按用户需求挑选的、高价值的知识内容,且经过编辑、整理和加工形成增值有序的知识库。网络信息检索系统的信息不是针对某一特定用户群体加以组织的,未经挑选,内容良莠不齐第二,在检索效果方面,数字图书馆对内容进行了深层标引,能够实现无缝连接与跨库检索。网络信息检索系统采用的标引、搜索策略不尽相同,而且目前 还无法实现信息的准确分类,用户也只能从主页面逐层检索。电子图书馆:收藏品多为光盘、磁盘等有形载体,一般通过单一计算机阅读或存取,不强调提供网上信息或网络服务。网上图书馆:将一定量的信息通过网页组织起来,供用户查阅和检索。可以没有对应的图书馆实体,内容可以作为数字图书馆的组成部分。虚拟图书馆:是网上图书馆的集合。在网上才能存在,不拥有实体性的数字资源,一般采用通用网络技术就能构造而不必采用特色技术。可作为数字图书馆的延伸。将传统的图书馆服务搬到网上去并不就是数字图书馆,而将馆藏资源进行大规模数字化后也不一定是数字图书馆。在传统图书馆基础上可以发展出数字图书馆,数字图书馆往往具有传统实体图书馆作为后盾,但数字图书馆并不是要取代传统图书馆。 数字图书馆特征:抓住数字图书馆的特征也就掌握了数字图书馆的本质,进而可能更加全面和准确理解数字图书馆。信息资源数字化、存取网络化和信息服务增值化是数字图书馆最主要的三大特征。 1、信息资源数字化(用数字表示)指图书馆中所有数字形式的信息资源,包括经过数字化转换的文献或本来就是以数字形式出版的信息(电子出版物)。这些数字资源是数字图书馆的“物质”基础,也是数字图书馆有别于传统图书馆的一大特征。 数字资源类型包括期刊、图书、工具书、视频资料、声频资料等;文件格式包括从位图形式的页面到经SGML编码的特殊文本文件,甚至CD-ROM中的信息或本地局域网中的资源等等。数字图书馆的目的是直接提供读者所需的最终信息,而不只是二次文献,但数字图书馆也需要书目数据、索引文摘等二次文献,二次文献也是数字图书馆的数字资源的一种类型。数字图书馆中的数字资源有两大来源:一、印刷资源的数字化对于版权已过期的图书、文献、资料,可以采用扫描、光学字符识别等处理技术进行数字化,形成数字资源的基础部分,这类资源以经典著作和古代文献为主。二、原生数字资源现在原生数字信息资源已经越来越多,尤其是学位论文、技术报告、会议录等。出版业已经实现数字技术处理,图书、期刊的出版都是先有数字化版本,再生成印刷本,作为信息资源主体的传统图书、期刊正在被数字图书、数字期刊所覆盖,原生数字资源正逐步成为数字资源的主体。 2、信息存取网络化高速数字通信网络是数字图书馆存在的基础,数字图书馆的对内业务组织和对外服务都是通过网络进行,网络是数字图书馆的生命线。数字图书馆只有通过网络才能提供服务。没有网络,就没有数字图书馆;网络中断,数字图书馆的服务也会随之中止。保证网络通畅是数字图书馆运行的关键。数字化资源之于网络如同“车”跟“路”的关系第一,信息存取自由化:用户打破时、空、语言、数量等限制,随时随地以自己喜欢的方式任意获取大量的信息。第二,信息资源共享化:全球数字图书馆作为网上数字图书馆的虚拟联合体向全世界的公众开放,突破了时空(包括国界和语言)的限制,表现出了跨地域、 甚至跨国界资源共建的协作化与资源共享的快速化。第三,信息资源分布化3、信息服务增值化通过对信息的甄别、加工、提纯和挖掘从海量的信息中发现真正的知识,带来价值的提升。 通过创造一种信息环境来提供获取分散存储着的信息的智能途径,为用户提供知识服务。数字图书馆的作用:1、数字图书馆是图书馆发展的必由之路2、数字图书馆是用户的电子学习空间3、数字图书馆保存和弘扬传统文化遗产4、是国家信息基础设施的重要组成部分5、数字图书馆能加快全球信息化进程1、图书馆发展的必由之路1、信息科技和因特网的发展,使用者的需求逐渐发生改变:“拥有馆藏” -“取得”。信息的收藏不局限于本馆文献的数字化,还包括具有使用权的数字馆藏。2、网络环境下信息数量巨大,且更新周期缩短。3、新类型信息资源的产生4、社会信息基础设施中不可缺少的组成部分,数字图书馆的建设是各国国家信息基础设施建设的重要策略之一。2、用户的电子学习空间数字图书馆的出现对普通人而言不仅是“阅读的革命”,也是一场“学习的革命”;通过个人数字图书馆,学习者可将数字化学习资料进行集中、整合和组织,实现个性化自主学习的内容集成。还可以对这些数字化信息资源进行统一的科学的组织、管理和维护,并能方便而快捷地查找和利用自己所采集到的数字化信息资源;支持用户进行个性化定制,对用户进行信息推送,联系相同兴趣的用户交流,为用户创造数字化的信息资源存储与服务空间。3、保存和弘扬传统文化遗产数字图书馆的出现正在引发一场全球范围内的文化媒介迁移运动;运用最新的科学技术开发我国的文化资源,使中华传统文化重塑辉煌,重新焕发生机;数字图书馆是通过文化资源数字化建立的一个国家和民族的“文化基因库”;4、是国家信息基础设施的重要组成部分信息基础设施要求建成通达全国各地的信息高速公路,也即一个由通信网、计算机、信息资源、用户信息设备与人构成互联互通、无所不在的信息网络;把人、家庭、学校、图书馆、医院、政府与企业都关联起来;获得各种各样公用和专用的信息资源;传送音频、数据、图文、视频和多媒体等各种形式的信息;满足不同类型用户所需的不同应用和不同性能要求,提供随时随地随意的信息服务;内容:网络通讯设施和高质量的网上信息资源。5、加快全球信息化进程社会全体公众能在任何时间、地点,通过声音、数据、图像等各种信息媒体,高度共享和相互传递高质量的信息,以发掘社会智能潜力,提高文化素质与生活质量,增强综合国力和国际竞争力, 促进经济发展和社会的进步。有利于促进世界各国人民的相互了解和沟通,将对消除世界各国及本国地区之间的“数字鸿沟”,促进全球信息化的协调发展,作出积极的贡献。网络服务 :数字图书馆的网络服务模式可以分成被动服务和主动服务两类 被动服务:是数字图书馆网络服务的基础方式,特点是不考虑用户的个别要求,具体实现形式一般是采用无交互Web网站模式。系统处于主动地位,用户处于被动地位,信息从资源到用户单向流动。主动服务:是数字图书馆网络服务的高级方式,特点是考虑用户的个别要求,具体实现形式一般是通过交互式Web网站形式。 交互式Web网站形式具体可分为双向交互问答模式和个性化信息推送模式,其中MyLibrary技术正在成为主流。双向交互问答模式数字图书馆根据用户的请求组织资源,服务形式根据用户需求变化,系统和用户处于同等地位,信息在系统和用户之间双向交流。该模式在技术上可以通过Chat形式实现。个性化信息推送模式用户根据自己的需求和爱好自行设计数字图书馆界面并定制数字图书馆资源,用户处于主动地位,数字图书馆系统居于从属地位,数字图书馆只是在技术上按照用户的个性化需求定制并主动推送信息。从单向信息传递模式到个性化信息推送模式。一方面体现了技术的进步;另一方面也越来越多地将控制权和主动权交给用户;用户技术水平和应用水平越高,使用效果就越好;同时,资源管理方也应重视对数字资源的整合和对操作方法的优化,使数字图书馆的网络服务具有保障。 数字图书馆的组织模式 :1、以传统图书馆为基础组织的数字图书馆2、以信息资源服务为内容组织的数字图书馆3、以软件系统为平台组织的数字图书馆4、以重点突破方式组织的数字图书馆5、以参与建设方式组织的数字图书馆数字图书馆的组织与实施是通过管理、运行和控制,使参与建设的人力资源、数字资源、技术资源平衡运作,实现信息资源的生产、共享、应用以及创新的价值链的过程。1、以传统图书馆为基础组织的数字图书馆核心思想:数字图书馆建设应该不单是传统图书馆的任务,而是国家的信息基础设施;数字图书馆可以成为传统物理图书馆的必然发展方向;通过数字图书馆的研究和实践,可以促进传统图书馆向现代图书馆转变,促进数字图书馆理论和技术的发展和完善,再利用新的理论和技术指导数字图书馆的实践;这种理论与实践相互促进和相互作用的模式,正是以传统图书馆为基础的数字图书馆模式的核心思想所在。优势:以传统图书馆为基础组织的数字图书馆的优势是不用重起炉灶,建设投入较小,服务见效快,有利于改造传统信息产业,符合信息资源发展的客观规律。劣势:以传统图书馆为基础的数字图书馆模式的劣势是难以摆脱传统图书馆根深蒂固的管理意识,图书馆的基础设施落后,人员素质偏低。遵循的原则:选择原则,即选择信息环境有基础的图书馆;分布原则,即在数字图书馆系统设计和开发中坚持分布式原则;定位原则,即明确数字图书馆的类型、范围和边界,坚持以用户为中心,促进知识网络的建设。2、以信息资源服务为内容组织的数字图书馆部分提供电子邮件服务、网络聊天服务、呼叫中心服务、公共信息服务的信息资源服务商进入学术数字资源服务领域,推出许多数字图书馆系统。突出的特征:这种组织模式的基点是自我发展、自生自灭,靠市场生存,总是处于激烈竞争之中;这种数字图书馆经营方式是以市场为导向,多元化发展,多种经营并存。 在数字图书馆建设与发展过程中,创造出许多鲜活的数字图书馆组织理念和信息市场的经营机制。优势:是不用国家建设经费投入,信息基础设施先进,信息资源加工集成化,信息资源服务见效快,市场运行可持续发展,有利于形成新兴信息产业,符合信息资源开发与利用的客观规律;是一种快速发展模式,可以在较短时间内实现较好的服务效益。劣势:是数字图书馆的管理难以控制,而且,信息资源重复建设和侵犯知识产权的现象在我国比较严重。3、以软件系统为平台组织的数字图书馆模式数字图书馆的发展不单纯是一个技术问题,而是一个复杂的“社会技术”系统工程。但数字图书馆的组织建设又离不开技术支持,所以数字图书馆研究从一开始就是以信息技术和信息基础设施为起点。在数字图书馆建设发展中,许多软件系统公司纷纷 推出数字图书馆的软件系统优势:不用国家建设经费投入,技术支撑先进,技术服务见效快,市场运行可持续发展,有利于形成新兴信息技术产业,符合信息资源发展的客观规律。劣势:单一数字图书馆的技术平台,需要进行信息资源建设,特殊功能需要系统二次开发 ,购买费用是中小型组织机构无法承受的。以软件系统为平台组织的数字图书馆模式,在较短时间内实现较好的服务效益,避免了建设数字图书馆机构多头忙碌,避免了低水平技术的重复,迫使建设数字图书馆的机构走合作的道路。4、以重点突破方式组织的数字图书馆突出特征:重点突破的数字图书馆纳入了国家信息基础规划之中。一般由国家投资,保障数字图书馆项目顺利实施。重点突破模式基点放在重要的研究项目和重大的数字图书馆实体建设。重点突破模式具有强烈的推动性。重点研究的数字图书馆的管理模式、建设模式、技术模式和数字资源标准等成果将影响和推动整个国家乃至世界数字图书馆系统的建设。重点突破模式具有明显的标志性。国家重点数字图书馆项目代表着一个国家的信息化水平,服务着全国乃至全世界的用户,能接受国家和国际信息组织的考查和测评。5、以参与建设方式组织的数字图书馆出现了很多不同形式建设的图书馆数字系统,称其为一种参与建设的数字图书馆组织模式。组织形态:参与型:主要指参加国家重点突破数字图书馆项目,一般按照项目的规划、资源标准、划定的资源范围、规定的时间,组织数字资源建设活动;地区投资型:主要指经济较发达的地区,主动投资建设地区信息基础设施,将地区数字图书馆建设列入地区发展规划,公共基金资助型突出的特征参与建设数字图书馆模式的基点是数字资源的建设,几乎不进行数字图书馆技术平台的研究;建设的数字图书馆内容具有强烈的地方特色;数字图书馆建设的成果基本是提供基于网络的免费使用。数字图书馆的实施:数字图书馆建设涉及多个层面:包括社会、政治、经济、法律、技术等问题;涉及多种因素:包括信息内容、信息服务、信息技术,1、建设模型:数字图书馆建设涉及多个阶段,包括引进、探索、融合、推广、开发、利用、评估。数字图书馆的建设过程划分为几个阶段:引进、探索、融合、推广、开发利用将这几个阶段遇到的问题归纳为:信息资源问题、系统技术问题和社会服务三个方面问题,并贯穿数字图书馆的整个生命周期。系统领域基础 是数字图书馆技术平台信息领域核心 信息和知识的收集、标引、组织和传递的全过程;社会领域用户层 涉及到信息政策、信息法律、信息经济、信息素质教育、信息管理等诸多影响问题。数字图书馆系统建设内涵:数字信息资源;数字信息系统 ;数字图书馆管理机制建设系统数字图书馆系统建设外延:信息基础设施;信息政策和法规;信息经济;信息文化整个数字图书馆系统建设: 一个自身系统基础结构相互联系的有机整体2、实施内容:策略:给定数字图书馆管理的大方向,明确目标、范围和模式组织:组织是推进系统实施的重要保证经费:经费提供了资金上的支持合作:合作是增加数字资源和提高数字信息服务效率的运行方式技术:技术为系统提供支撑工具 包括数字加工技术、互操作问题、快速检索与智能检索、大规模分布数据库技术、智能用户界面、海量存储和维护、公共服务平台和知识管理技术等。服务:服务提供信息利用的基本环境, 包括公共查询、数字参考服务、定制服务、跟踪服务等网络交流社区,实现检索与浏览、内容访问、智能服务和个性服务等功能。评估:评估是系统实施效果并形成反馈的重要举措。知识产权:处理涉及实体和数字资源获取、拷贝和传播的法律问题。3、实施流程:实施流程包括:项目计划制定,项目选题,项目组织建立,素材的选择、整理和编辑,数字内容的创建和获取,元数据格式及元素字段的确定,资源内容的标识,资源集的组织,信息存储与管理,内容发布方案的设定,资源服务机制实现,用户信息管理,项目质量控制,项目评估。项目计划的制定:就是把各具体计划的成果变成连贯的、一致的文件资料。项目计划内容:项目目标说明,项目可交付成果,项目管理过程,项目组织机构,项目分工和职责,项目实现风险,项目日程安排,项目进度、质量的监督和控制机制,项目使用的方法、工具和技巧,项目工作文件,项目经费预算,资源配置,工作场所选择。项目选题:规划所要开发的信息内容目标。要按照社会需求选题,统一规划,分步实施,先易后难地建设数字图书馆。素材的选择、整理和编辑。数字图书馆多种资源:政府机构、学术组织发布的公共信息资源; 数据开发商和网络内容提供商开发的专用信息;传统图书馆的文献资源;数字图书馆开发的信息资源。要筛选具有高价值的资源,首先确定资源对象,兼顾多种媒体形式, 优先采取用户易于接受的超媒体形式,对素材进行去伪存真、去粗取精,编写解说词,认真比较筛选图片、影像等。资源内容创建的三种形式 纸介质数字加工:图书资料整理扫描图像处理版面分析文字识别校对修改版面还原生成格式文件。 多媒体资源的转换和编辑加工:通过声卡、和帧捕获器音频视频捕捉数字方式转换形成规范的数字文件。 网络资源下载和转换:网络资源采集批量下载专题整理转换规范格式。元数据格式及元素字段的确定:数字对象概念:是数字图书馆体系结构中存储信息的基本逻辑单位和实体,是以一定结构的数字形式来表达信息内容的一种方法,是网络环境下的数字资料。数字对象的组成:元数据、数字资料、句柄或调度码。句柄或调度码:是数字对象和其它因特网资源在全局范围内的永久的唯一标志符,是URN的一种形式。URN (Uniform Resource Names)统一资源名称也叫永久名称,其名称应该全球唯一和持久的,且独立于具体的存储位置。句柄可按名称识别对象库中的数字对象或因特网上的资源。句柄的作用:引用由URL列表所定义对象的一个或多个拷贝;提供EMAIL地址。句柄实际上是使用具有唯一性的字符串给数字对象提供一个具有唯一性的名称。句柄组成:类型、命名权威代码(或前缀、项目标识符或后缀。数字对象集:是同类数字对象的组合,可用来表示一组有关联的对象。如不同版本的程序、不同格式的文本或不同演奏的音乐作品。数字对象集包括组合对象和元对象两种;组合对象的内容包含一组对象;元对象的内容包含一组对象的句柄。元数据:或称属性、关键元数据,关于数字资料的数据,是存储在数字对象中的信息,包含一些识别对象的条件、条款和调度码;功能:管理网络环境下的数字对象,如数字对象的存储、复制和传输等权限的管理。元数据类型:描述性元数据,用于发现和标识一个对象;结构性元数据,为用户显示和导航一个对象,包括该对象的内部组织信息;管理性元数据,描述该对象的管理信息,如创建日期、文件的格式、访问权限、知识产权问题等。 由于信息资源广泛性,要根据信息类型不同而确定不同的元数据描述格式。元数据抽取可以由人工标引或由相关软件自动完成。资源内容的标识:标引人员进行内容标引;工作包括:分析内容,给出主题词和分类号。资源集的组织资源集:多种资源的集合体;是一种资源与另一种资源发生关系的组织。资源集组织要注意以下关系: 元数据与数字对象的关系;不同数字内容之间的关系;不同类型媒体之间的关系;多种存储格式相互转换和链接内容发布方案的设定:使用户可以自定义界面,选择发布资源内容,自动定期进行内容更新。对准备发布的信息进行必要的描述,包括:信息的格式、内容、详细程度、信息的来源、获得信息的方式等方面的说明。资源服务机制实现服务方式包括:查询、浏览、检索服务;定制个性服务;实时交互服务;推荐服务;指南服务;培训服务;用户信息管理;实施用户关系管理。收集用户需求信息,调整数字资源建设和服务政策;统计用户利用的信息,激活潜在用户需求和潜在信息价值;合理设定资源收费标准,建立网上结算系统,规范用户使用权限。项目质量控制:质量管理部分致力于提供满足质量要求的信息;质量保证可分为内部质量保证和外部质量保证;内部质量保证:确信按照项目计划、项目标准进行活动;外部质量保证:向用户或第三方认证机构提供可信的产品和服务。质量控制应该采取事前控制、过程控制、闭环控制和主动控制。项目评估:对系统的目的、执行过程、效益、作用和影响进行系统、客观的分析,通过项目活动实践的检查总结,确定项目预期的目标是否达到,项目是否合理有效,项目的主要效益指标是否实现通过分析评价找出成败的原因,总结经验教训,通过及时有效的信息反馈,为提高未来新项目的决策水平和管理水平提供基础,为项目实施原型提出改进建议,从而达到提高投资效益的目的。项目评估方式:自评、专家评、同行互评和用户评价等方式进行。第二部分 数字图书馆的组织模式一、数字图书馆的体系结构1、体系结构研究的重点(1)解决分布性和异构性的问题实现数字图书馆间的互操作 将这些异构的、分布的数字图书馆联合起来,向用户提供跨仓储的统一的检索和服务是数字图书馆要解决的一个核心问题。(2)便利、优质的服务除了查询和浏览外,数字图书馆提供深层的、增值的信息服务,如语义检索、智能检索、信息分析、信息关联等。便利的、高质量的信息服务将是数字图书馆区别于传统图书馆的一个鲜明特征。2、不同类型的体系结构数字图书馆可以根据不同角度划分,形成不同类型的数字图书馆体系结构。按涉及数字信息资源建设某一方面的不同,一般都根据自己的目的和覆盖范围,将数字资源或系统涉及的标准规范分为多个层次,形成整体结构体系。(1)从数字资源建设角度分按照数字信息生命周期分为数字对象生产、 管理、资源建设、使用和复用5个层次;从数字资源建设角度分为资源集合、资源对象、元数据和资源建设项目4个层次。内容生产、编目与元数据、词表与词汇控制、数据库结构、项目网站以及长期保存与记录管理6个方面。分为数字资源加工、元数据、法律问题、资源政策和项目建设等方面。(2)从数字技术实现角度分集成式:集成式是把数字图书馆视为一个互联的信息空间的集合,每个成员信息空间包含了一个社区或一个领域的知识,又是一个互联的信息对象的集合。每个信息对象包括索引器、搜索器、数据转换器、数据仓储器等,并提供一系列的工具支持复杂的应用,包括:对象互联、远程执行、对象缓存、复合对象、知识产权等。总线式:总线式是把在网络环境中不同的信息仓储和服务组合起来,构成一个数字图书馆。其中的关键是设计一个互操作协议:一方面,分布的、互异的仓储和服务只要遵循共同的协议就能相互交互,合作起来向用户提供一致的接口,屏蔽各仓储和服务间的差别,实现联合检索与服务;另一方面,各仓储仍由本地自治地维护,各种服务亦无需改变,各显特色。代理式:代理式是采用分布式代理技术实现一个数字图书馆构架。所有的数字图书馆构件,包括信息仓储、信息服务和用户接口都实现为分布的、自治的代理,各代理能自动组合,互相协作地完成各种任务。任何一个成员都可以随时进入或撤出,不会影响整个系统的工作。代理是一个自治的、可重用的软件模块,完成一项专门的任务。所有的代理具有一致的通信接口,各代理通过协商组成协作小组共同完成任务。分布式:是指整个数字图书馆就由一些服务构件组成,包括四类核心服务:用户接口服务是一个Web界面,是用户访问系统的接口,系统中的其他功能构件对用户是透明的;仓储服务按照的文档模型存取和管理文档;索引服务提供查询功能,接受用户的查询并返回命中的文档标识列表;收藏服务定义数字图书馆的收藏(包括服务和文档)。开放式:美国提出的数字图书馆体系:美国提出的数字图书馆体系数字图书馆体系的构成包含两个含义:一是数字对象的组织结构。数字对象是数字仓储中表示信息的基本逻辑单位,数字对象的信息结构决定着进一步的信息组织、处理和利用方式。二是分布式信息仓储的组织结构。二、数字图书馆的功能设计1、数字图书馆的功能框架组成:数字图书馆基础设施、数字图书馆的基础应用平台,组织资源建设、资源管理、资源服务和数字资源集等模块功能:实现印刷文献数字转换、数字资源标准格式编辑与加工、异构数字资源整合、数据标引和组织、数字资源描述与表达、资源管理与存储、资源调度、资源发布、资源服务系统、用户管理系统、数字版权保护和用户服务界面等。信息基础设施是数字图书馆的依托基础,系统由元数据库与对象库构成数字资源集,由数字资源管理系统、资源存储系统、资源调度系统、资源服务系统、用户管理系统和数字版权管理系统控制。每个子系统相对独立,又互相连接,互相作用,共同实现数字图书馆的目标。2、数字图书馆的主要功能模块包括:基础设施、基础应用平台、文献数字加工系统、网络资源加工系统、元数据标引系统、异构资源整合、资源存储系统、资源管理系统、资源调度系统、资源发布系统、资源服务系统、用户管理系统、数字版权管理系统13个功能模块。基础应用平台:提供一个通用和高效的开发环境和运行环境;采用XML为基础应用开发平台;提供XML计算引擎,对数字资源进行加工、存储、维护、检索的控制。文献数字加工系统:实现纸质信息的数字化加工所需的技术与工作流程,主要功能:印刷版信息素材采集、转换、编辑、生成副本。数据录入与接受、图像扫描、字符识别、视/音频捕捉。网络资源加工系统:集成了实现网络数字资源加工所需的技术与工作流程,主要功能包括网络资源、其他电子载体的信息资源素材采集、转换、编辑、生成副本,并加以分门别类,整理链接。元数据标引系统:按照不同数字对象的特征,根据元数据标准和使用规范,对数字资源的外表特征、内容特征和其他相关特征进行描述和组织,并连接对象文件。系统还提供各种按属性进行自动切分、自动抽词、自动分类和建立索引的功能。异构资源整合:对分布、同构和异构系统进行整合;对数字图书馆系统与其他信息系统进行统一;对本地和异地系统进行链接。分层实现(在完成核心公共模块的前提下)从核心元数据整合开始,向元数据集、数字对象扩展;先整合内部系统资源,然后整合其他系统资源;先整合规则数据库资源,再整合其他不规则资源。资源存储系统:数字资源的长期保存问题;按照规范存储格式和协议 对元数据库和数字对象库进行日常维护和更新,保证数字资源的完整性、一致性和安全性;为实现分布的快速检索和发布,将元数据和对象数据分开存储;资源管理系统:负责整个数字图书馆的运行监控、资源调度、信息发布、版权管理、费用结算管理和数据统计管理等事务管理。用户管理系统:提供用户登记、注册,用户信息管理,用户身份认证,用户费用管理,用户利用统计,用户需求信息记录等。资源调度系统:分布环境下管理动态变化数字资源以及数字资源;提供最新数字资源分布情况;支持基于控制的数字资源交换;通过调度码体系和资源统一命名规则,以唯一标识确定数字资源,对分布数字资源的管理;利用管理元数据,为用户进行资源定位和导航。资源发布系统:根据用户的信息需求,从资源库中选择最新内容信息向外界宣传和推荐;包括:资源发布管理机制;Web界面的发布模板;底层资源更新。资源服务系统:包含对内和对外服务对内服务:资源采集、资源标引、资源发布、资源导入/导出等;对外服务:信息查询、音/视频点播、检索门户、参考服务、馆际互借、定制服务等。查询和访问面向不同类型数字资源;提供简单和高级检索;提供跨库和异构系统访问。数字版权管理系统:保证顺利组织和协调数字资源的合理利用;建立数字版权保护和安全认证系统(用数字水印技术与加密技术控制数字资源使用范围);提供权限管理,包括数据加密和权限认证。数据加密可采用水印技术、数字签名技术和自动加密技术等。权限认证包括用户认证、计算机认证和图书馆资料认证。三、数字图书馆的开发平台数字图书馆开发平台:开发和利用数字图书馆的管理系统。数字图书馆建设的基本要素:包括数字化资源、分布式管理以及智能化服务等方面数字图书馆开发平台解决的问题:如何通过计算机、网络以及软件系统来构建这些基本的要素,从而开发出一个合理高效的数字图书馆。1、 数字图书馆的开发平台的基本功能:数字资源的创建与获取:获取已经数字化的文章、图片、录音、录像等多种来源的信息;支持通过扫描、识别、压缩和转化等多种技术来创建数字信息;支持通过开放的内容创建应用程序接口和其他厂商的相关技术产品来完成上述不同种类信息的数字化及内容的提取。提供工具和软件包:支持内容创建图像校正,图像转置、协调、编辑和色彩校正,以及压缩等特殊功能。采集网上的信息资源和建立特色数据库等功能。数字资源的存储与管理:自动索引、建档、特性抽取和翻译;用户能够用中文语言进行特定信息的查询;使用全文数据库来存储数字资源,并进行数字资源的索引和查询;综合利用全文数据库技术、面向对象的技术和多媒体技术等提供实用性强、完整性较好和安全性高的数字图书馆解决方案;提供独立于内容之外的数据管理工具,使其能够具有对多种系统的操作能力。用户权限管理:根据完整的用户权限管理方案来提供一系列全面的管理工具,包括:对数字资源建设过程中的用户权限管理;对用户访问和使用数字资源进行许可、控制和监督;保护资源拥有者和最终用户相关利益;通过加密技术保证数字信息在网上传递过程中的安全性、完整性。数字资源的访问与查询:文本和图像分析工具;数字化音、视频信息查询工具;全文检索;基于声音和图像的检索以及自然语言检索等多种检索方式;用户可以根据自己的喜好和用途来自主地选择一种或多种检索手段;检索的响应要及时,结果要准确。2、数字图书馆的开发平台的现状(1)支持非结构化文件的管理;(2)支持全文检索;(3)支持元数据管理; 在资源标引和整合过程中采用元数据来进行封装,这样有利于不同系统之间的数据共享,可以减少重复建设和资源浪费。(4)支持异构数据库检索;提供对异构数据库检索的支持,对多个不同结构、不同使用规范的数据库进行统一、并发的检索,(5)支持出版发行业务清华同方数字图书馆平台七大功能模块:1数数据库制作管理与发布系统;2异构统一检索平台;3个性化信息服务系统;4参考咨询系统;5互联网信息资源整合系统;6辅助教学;7其他的专项工具3、数字图书馆的开发平台的发展趋势标准化:指开发平台在所采用的数字资源建设和服务规范的标准化,具体而言就是在数字资源加工、组织上的标准化;在元数据方案上的标准化;资源的标识符以及指示系统的标准化;在数字资源检索与应用上的标准化;开放接口的标准化。功能的整合化:数字图书馆既需要开放集成各种分布、 异构、多样化的数字信息资源和数字信息资源服务系统,又需要动态构建满足各种用户群和业务流程需要的信息服务系统。包括对分布和多样化的资源和服务系统进行搜寻、调用和集成,可以搜寻、解析和转换数据资源,可以支持和其他信息系统的互操作和集成管理。开放源码软件和商业软件并举:商业软件:(购买费用、二次开发费用; 使用许可的限制)开放源代码: 用户自行修改、复制以及再开发;不仅开放软件的源代码,还包括应用软件 开发工具、数据和文档的开放。 开放源码软件的发展改变了商业软件一统天下的单一局面,通过竞争和协作,开放源码软件和服务的总体质量得以改年正式接善,并逐渐获得认可。完善的用户权限控制机制:用户访问权限的控制一般都采取IP地址段过滤来作为身份认证和使用授权方式。有效地保护了数字资源的知识产权,随着研究者活动范围和交流空间的扩大,一旦用户离开了规定的地址段后就不能使用原本能利用的资源。用户名+密码的认证 E_key+用户名+密码认证更强的信息服务能力:系统提供个性化信息服务;根据用户的需求过滤、筛选和推荐有关信息,主动发送用户需要的信息;提供多种形式的数字参考服务,可以实现离线或实时的基于文字或视/音频的咨询服务;提供基于网络实时交互技术的远程教学服务;提供功能齐全的个人数字图书馆服务等。数字信息资源的来源:数字图书馆信息资源来源于三个方面:馆藏资源数字化、网络资源下载和电子资源库采购。馆藏资源数字化:指首先通过键盘输入、扫描等手段将原有的馆藏资源数字化,并经过加工后形成的资源;1、馆藏资源数字化:A、键盘输入B、扫描 (扫描设备、 扫描资料的选择、 自动识别技术)C、全息加工技术)扫描资料的选择:资源的选择可采取三个步骤:1资料范围的界定 学科、地域、时间、语种、类型等;2根据标准在界定的文献范围中筛选出符合要求者;3根据文献的价值、使用程度和数字化的风险程度对文献的优先程度排序,以决定文献数字化的先后次序。)自动识别技术:利用计算机软件把扫描的文献转换成字符文本的技术。它的工作原理是通过扫描仪(或数码相机)等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出文字的标准编码,并按通用格式存储为计算机的文本文件。识别软件的要求:(识别速度;分栏、分段处理;纠错的处理;对图像、表格、公式的有效处理;成熟的校对策略;不断的技术升级;全息加工技术)全息加工技术:是指在纸介质信息数字化时,将扫描识别的文字信息和人工标注的版式信息(如字体、字号)相结合,连同图像和其他版面信息用页面描述语言生成版面文件,版面文件还包括用户自定义汉字,再将导航、自动导读等增值信息与之结合起来,构成可供数字阅读的原版信息。简而言之,将纸质文本低成本、高效率地转换成保留全部信息的数字化文档。网络资源下载:指通过互联网获取的能满足人们信息需求的有效信息,主要取材于互联网;A、电子资源收集策略:工作人员把内容丰富、格式多样、大多免费下载、分布零散、不能系统地供读者使用网上电子资源下载到数字图书馆本地,按照图书馆的分类体系将电子资源归入不同类别,以方便读者取用;获取可动员、鼓励用户参与;B、网络电子资源的整理:格式不统一、格式转换后内容发生变化、处理软件复杂多样电子资源库采购:电子资源库的采购主要指购买各种商业数据库(包括综合性数据库与专业性数据库);数据库购买注意的问题:A、深入了解各种类型的数据库;B、正确认识数字图书馆自身的情况;C、合理利用资金;D、数据库服务商的选择。正确认识数字图书馆自身的情况:数字图书馆自身的性质和发展趋势的定位。采购要结合图书馆的馆情,明确自己的性质和发展导向,即自身的定位是综合性图书馆还是专业性图书馆,是面向大众、学术社区还是面向政府。公共图书馆与高校图书馆选择信息资源库导向区别读者群的定位要满足读者的需求,必须订购符合本馆读者群文化层次、兴趣爱好的资源库,必须从历史角度来研究读者群的变化情况,才能真正订购到合适的资源库。数据库服务商的选择步骤:确定项目的目标和内容;初步确定潜在的多个服务商;公布项目的目标,寻找对项目感兴趣且基本符合项目要求的服务商;制定一套项目操作方法和质量控制手段;列出一系列的服务商名单;撰写RFP给选好的服务商;服务商准备方案时,和服务商多交流;评价不同服务商的方案并选出佳方案;签订协议;与服务商协同工作。数字信息资源的描述和处理:1、数字信息资源描述和处理语言A、超媒体文档结构语言HyTimeHyTime标准:是关于超媒体文献标记方面的超媒体语言, 它定义了超媒体和多媒体系统,尤其是超链接、对象的定位和文摘表示空间等方面编码的体系结构,并提供了在SGML文献中表示链接的标准方法,而最有用的概念之一就是体系结构格式的标准化;使用SGML 管理数据的基本编码语法。B、文献式样语义和规格说明语言DSSSLDSSSL基本目标:处理与SGML文献标记相关联的信息提供一种标准化的框架和方法;主要用途:实现SGML文献向其他格式文献,促进信息资源的交换与共享;C、文献式样语义和规格说明语言XML可扩展的置标语言XML强大的可扩展性:允许用户定义自己的标记系统或字段集灵活高效的数据表达能力:提供专用的与用户关注的信息相配的一些标记,可以更快地导向用户所需要的信息数据;当客户端发出请求时,服务器只需发出一个文件,用户就可根据自己的需要选择和制作不同的应用程序来处理数据,从而将大量运算负荷分布于客户端。开放性强:XML标准自身及其文档在上都是完全开放的,任何人都能够自由地阅读其规范和所采用的标记及文本。并且它具有描述虚拟不定对象的能力,而不仅仅是针对文本文件。XML在数字图书馆的应用:用XML写成的书目,可以以不同的形式出版,既可以在浏览器中浏览,又可以添加到搜索引擎中;书目数据可以被XML及MARC交换,数据信息量不会损失;使图书馆的工作变得更为便利,整合图书馆的各类资源;XML机构化、标准化的文件模式使数字图书馆整理、组织与保存信息资源变得十分方便,同时也为信息检索技术的提高提供了一个坚实的基础,创造了良好的外部环境。2、数字信息资源描述和处理的标准与规范:标准与规范是数字图书馆建设与服务优化的技术保障与管理基础,技术标准着重从技术方面规定与规范数字图书馆实现的技术机制与功能指标要求;管理规范则从改革、组织、人力与资源方面对数字图书馆的实施进行规划。数字信息资源建设涉及的标准规范可分为内容创建、描述、组织、管理、服务、长期保存和项目建设等。数字内容创建的标准规范:数字内容的创建规范主要包括内容编码、数据格式与内容标识。内容编码:是数据内容的计算机编码形式和标记形式,是制约数字信息可使用性和可持续性的最基本条件。包括基本编码和特殊信息编码。基本编码标准:ISO/IEC 10464(通用多八位编码字符集UCS)、 ISO/IEC 10646(汉字扩展内码规范CJK);特殊信息编码:涉及数学符号和公式、化学符号、矢量信息、地理坐标等的编码;数据格式:1文本格式:文本文件或图像文件;2图像格式:BMP、JIF、JPEG;3视频格式:视频分为视频和视频流(即流媒体),也就是网上下载后观看和在线观看;4音频格式:MP3;5矢量图形格式:矢量图形文件是在计算机上借助数学方法生成、处理和显示的图形;)内容标识:内容标识方面的标准与规范主要涉及数字对象唯一标识符,这些数字对象可能是单个文件,如数字图像(扫描或原生的);也可能是集合体的,如由多个文本、图像、音频、视频等数据对象组成的多媒体数据集合等。数字资源组织描述的标准规范组织描述的标准规范主要是把数据对象按照一定的主题、资源类型、用户范围、生成过程、使用管理范围等因素被组织在一起,形成实际使用的资源集合,数字资源的组织描述有一定层次;第一层对资源集合本身描述,形成关于资源集合的元数据记录。第二层对资源集合的组织机制进行描述(组织机制形式多样,或是简单的类别组合,或是复杂的知识组织系统), 这个层次的描述也是元数据,有利于资源集合的检索和集成。第三层可对资源集合的管理机制进行描述, 这些描述对用户发现、选择和利用相应的资源集合是很有利的。第四层可以对资源组织建设的过程、原则、方法及相应的标准规范进行描述,形成资源建设规范,指导资源建设。数字资源系统服务的标准规范:数据信息系统服务的规范有很多,大致分五个层次:接入条件规范:用户接入条件的规范属计算机信息网络服务的范围;数据传输条件规范:主要涉及所传输的数据内容是否能用标准语言和格式封装,封装后的数据文件是否通过标准网络协议传输,传输的数据文件是否能被通用浏览器解读;数据检索条件规范:Z39.50数据应用条件的标准规范:解决的是用户检索结果的使用分布式数字对象机制的标准规:遵循统一的访问协议之后,数字图书馆可以实现“联邦检索”,把全球的数字化资源联为一体,连接为一个巨大的图书馆。关于数字资源长期保护的标准规:开放档案信息系统参考模型(OAIS);参考模型致力于长期保护和维护数字信息可存取档案系统的一个基本概念框架。数字信息的长期保存与维护问题:1、数字信息资源长期保存的特性数字信息对存储介质的依赖性:数字信息依托一定的存储介质存在,存储介质既是数字信息驻留的物理媒介,也是数字信息的保护伞和提供利用的工具。对数字信息起到的主要作用:保存数字信息;利用备份保存数字信息;以自

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论