第五章 数字图书馆的构建.ppt_第1页
第五章 数字图书馆的构建.ppt_第2页
第五章 数字图书馆的构建.ppt_第3页
第五章 数字图书馆的构建.ppt_第4页
第五章 数字图书馆的构建.ppt_第5页
已阅读5页,还剩111页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章数字图书馆的构建 主讲人 第一节数字图书馆的计算机技术第二节数字图书馆的体系结构第三节数字对象唯一标识符系统第四节数字图书馆开发平台 第一节数字图书馆的计算机技术 一 Web技术及应用 什么是Web WorldWideWeb WWW 万维网Web是建立在客户机 服务器结构之上 以HTML语言和HTTP协议为基础 能够提供面向各种Internet服务的 一致用户界面的信息系统 一 Web技术及应用 Web起源1991年 WWW创始人 欧洲核物理实验室 CERN 的贝纳斯 李 TimBerners Lee 完成了世界上第一个Web的开发1993年2月 美国国家超级计算应用中心 NCSA 推出了Mosaic软件 解决了文字显示 连接和图像显示问题 使WWW技术得到了空前的发展和应用网景公司 IE 一 Web技术及应用 Web服务的特点 超文本 多媒体与平台无关性直观 易于使用的用户界面Web是分布式的Web是动态的 交互的p 76 一 Web技术及应用 Web的体系结构客户机 服务器结构统一资源定位符 URLHTTP协议Web与数据库技术CGIASPPHPJSPODBCJDBCADOp 79 一 Web技术及应用 统一资源定位器 UniformResourceLocator 是全球万维网系统服务器资源的标准寻址定位编码 用于确定资源相应的位置及所需要检索的文档 件 URL的结构所使用的因特网文档传送协议 如 http ftp telnet file等 标识要检索的主机代号 域名或IP地址 检索文档在主机中的路径及文件名 一 Web技术及应用 常见的URL网页 网页 一 Web技术及应用 IP地址 166 111 4 100域名 一 Web技术及应用 http工作原理 假设用户点击一个指向 一 Web技术及应用 Web数据库访问技术 一 Web技术及应用 Web开发技术 客户端脚本script JavaScript VBScript组件JavaBeans ActiveXDHTML CSS 脚本 HTML4 0 JavaAppletWeb开发技术 服务器端CGI 公共网关接口 服务器端脚本ASP PHP JSPServlet技术 一 Web技术及应用 ASP工作模型 JSP运行模式 二 软件计算模式 网络计算经历四个发展阶段 终端 主机模式 网络 文件服务器模式 客户 浏览器 服务器模式 peer to peer模式 二 软件计算模式 两层客户 服务器结构B S结构多层客户 服务器结构几个要点表示层 业务逻辑层与数据层开放与标准通用客户端与专用客户端客户端管理与维护 二 软件计算模式 展现层 数据 资源 层 应用逻辑层 应用分层体系架构 二 软件计算模式 两层客户机 服务器架构 二 软件计算模式 中间件基本概念 IDC 中间件是一种独立的系统软件或服务程序 分布式应用软件借助这种软件在不同的技术之间共享资源 中间件位于客户机服务器的操作系统之上 管理计算资源和网络通信 二 软件计算模式 中间件分类 1 数据库中间件 DM DatabaseMiddleware 2 远程过程调用中间件 RPC RemoteProcedureCall 3 面向消息的中间件 MOM MessageOrientedMiddleware 4 基于对象请求代理 ORB ObjectRequestBroker 的中间件5 事务处理中间件 TPM TransactionProcessingMonitor 二 软件计算模式 应用服务器 特殊的中间件从概念上讲 应用服务器可以归于对象中间件的范畴 实际上 可以把应用服务器软件看成是中间件的21世纪版本 或者称做n层计算 之所以说它是一种特殊的中间件 是因为应用服务器的作用除了管理客户端请求与数据库之间的通信之外 同时具有跨系统平台 数据库 操作系统 的能力 二 软件计算模式 三层客户机 服务器架构 二 软件计算模式 多层客户机 服务器架构 二 软件计算模式 多层 客户机 服务器架构 三 数据仓库与数据挖掘技术 数据仓库概念 Inmon 支持管理决策过程的 面向主题的 集成的 随时间变化的 但信息本身相对稳定的数据集合 特征主题与面向主题数据的集成性数据是随时间不断变化的数据的相对稳定性关键技术数据抽取存储和管理数据表现 三 数据仓库与数据挖掘技术 数据仓库 数据方块 OverallsalesofTV sintheUSin3rdquarter 数据仓库 三 数据仓库与数据挖掘技术 数据挖掘的概念从数据中抽取有价值的信息 其目的是帮助决策者寻找数据间潜在的关联 发现被忽略的要素 而这些信息对于预测趋势及决策行为是十分有用的数据挖掘的模式 P97 分类模式回归模式时间序列模式聚类模式关联模式序列模式 三 数据仓库与数据挖掘技术 三 数据仓库与数据挖掘技术 数据仓库与数据挖掘之间的关系数据仓库是数据挖掘的基础数据挖掘促进并指导数据仓库的建设 三 数据仓库与数据挖掘技术 数据仓库 数据挖掘技术对数字图书馆提供以下方面的支持 数据收集 存储和组织数据分析和知识挖掘决策支持 基于数字图书馆的领导决策信息咨询服务系统构成 第二节数字图书馆的体系结构 数字图书馆的体系结构是数字图书馆建设过程中应首先考虑和解决的问题 是数字图书馆建设的基础和难点之一 体系结构主要解决的问题是数字对象的信息组织结构和分布式信息仓储的组织结构 数字对象决定着信息组织 处理和利用方式 资源库组织结构的核心在于建立一个统一的 互操作的 可伸缩的组织框架 将分布互联的信息仓储集成为一个整体 数字图书馆的建设到目前为止 并不存在一个通用的数字图书馆体系结构 原因在于数字图书馆收藏内容 规模大小 服务对象 知识产权等技术和非技术因素使数字图书馆体系结构设计多样化 此外数字图书馆所采用的现代信息技术和相关标准也在不断发展 一 数字图书馆体系结构设计原则 1 开放性 基本体系结构简单化 功能模块化 选取成熟的通用的标准和协议 2 互操作性 DL要向用户屏蔽分布的 异构的各个DL间的差别 提供一致化的检索和服务 3 扩展性 DL的体系结构应该是灵活的和可扩展的 能随时接纳新的仓储和服务 而不需要大的改动 4 可伸缩性 一个好的数字图书馆体系结构的设计必须能够适应不同规模的系统 使不同规模的系统都能够获取最佳的效率 K W体系结构 kahn Wilensky结构 该数字图书馆的体系结构是由罗伯特 卡恩 RobertE Kahn 和罗伯特 威兰斯基 RobertWilensky 在1995年发表的 分布式数字对象的框架 AFrameworkforDistributedDigitalObjectServices 一文中提出的 用户界面 用户 句柄系统资源调度系统唯一标识符系统名录服务系统 数据仓储 元数据库 仓储存取协议 资源加工系统 元数据检索系统 解析句柄 数据仓储 提取元数据 查询 数字对象 数字对象 数字图书馆体系结构中的内容是以数字对象形式存储的 数字对象是用全局唯一的持久名字 句柄标识的 句柄用命名服务器注册 用名录服务器解析出句柄标识的数字对象的位置 数字对象的存储和访问是由仓储服务系统来实现 检索服务提供发现数字对象的机制 使用户易于从馆藏中寻找和发现所需的对象 用户接口网关提供以人为中心的数字图书馆的功能入口 二 数字对象 DigitalObject 数字对象是数字图书馆体系结构中存储信息的基本逻辑单位和实体 是以一定结构的数字形式来表达信息内容的一种方法 是网络环境下的数字资料 可以说数字图书馆是由数字对象构筑而成的 数字图书馆中的信息以数字对象形式存储 访问 传播和管理 数字对象存放于仓储中 数字对象由数字资料 元数据和唯一标识符组成 数字资料元数据 或称属性 关键元数据 唯一标识符 是数字对象和其它因特网资源在全局范围内的永久的唯一标志符 在 W体系结构中唯一标识符被称为Handle 抓柄 句柄 但实际上存在多种唯一标识符体系 例如 等 三 句柄和句柄系统 数字图书馆是由各种各样的成分组成的 这些成分包括人 计算机 网络 仓储 数据库 搜索系统 Web服务器 数字对象 数字对象的元素 书目记录等 记录这些组成成分需要一种进行识别的系统化的方法 CNRI CorporationforNationalResearchInitiatives 美国国家研究推进机构 开发了一组通用的标识符 叫做句柄 以及一个用于管理Internet上句柄的计算机系统 叫做句柄系统 一 句柄 句柄 handle 也称为调度码 是数字对象和其他因特网资源在全局范围内的永久的惟一标志符 是URN 统一资源名称 的一种形式 该名称独立于具体的存储位置 句柄的定义如下 Handle HandleNamingAuthority HandleLocalName hdl cnri dblib magazine 指出该字符串是hdl 类型 前缀 命名授权 NA 命名权威代码 命名机构 后缀 项目标识符 句柄由命名授权创建 其管理设备被授权创建和编辑句柄 命名授权的名称由一个或多个用句点分隔的字符串组成 例如 cnri dblibloc ndlp amrlp10 12345创建命名授权是按层次授权的 例如 全球句柄注册中心 CNRI管理全球句柄注册中心 创建高层命名机构 loc 供国会图书馆使用 loc 的管理者所创建的 loc ndlp 供国家数字图书馆项目NDLP使用 loc ndlp 的管理者所创建的命名授权 loc ndlp amrlp 供 热阴极射线管消费汇编 一书使用 二 句柄系统 也叫名录服务系统 命名系统 调度系统 是针对长期标识符即数字对象名字的分配 管理及解析的综合系统 系统在整个因特网范围内为用户提供安全的名录解析和分布式的句柄管理服务 提供手段使句柄与数字对象关联 使地址与数字对象关联 并对系统中的人员 计算机资源 网络 数据仓库 数字对象 Web服务器等进行识别 监控和调度等 在这个例子中 句柄是 cnri dlib july95 arms 它确认D Lib杂志中一篇文章 每个数据字段由两部分组成 第一部分是数据类型 第二部分是数据 cnri dlib july95 arms URL http www dlib olg dlib july95 07armo hlrm RAP repository dlib olg 四 数据仓储 仓储也叫数据仓库或资源库 仓储是一种专门类别的仓库 特别适于保存包含有价值信息的材料 仓储是一个可通过网络访问的存储系统 数字对象存入于该系统中 供访问和检索 一个数字对象可储存于几个仓储里 仓储负责安全存储 仓储具有的机制支持往它的收藏中添加新的数字对象 使用仓储访问协议 RepositoryAccessProtocol 进行访问 仓储有正式 唯一的名字 由一个全局命名授权分配和批准 1 仓储实现的三层结构 仓储外层 它是仓储与外界的接口部分 它实现了仓储访问协议 实现了数字对象的内外格式转换 并管理用户权限和访问许可 永久存储层 仓储中的信息保存在永久存储层 永久存储层的实现对外界是完全透明的 对象管理层 它在永久存储层所提供的服务和仓储外壳层所要求的面向对象功能之间提供一种接口 并提供数字对象及其所在位置之间的映射 2 仓储访问协议 在K W结构中仓储通过仓储访问协议RAP与外界交互 也就是说所有访问仓储的操作活动 都须先执行RAP协议 RAP支持存放数字对象 通过句柄访问数字对象和有关的仓储服务 确认句柄已在句柄系统中注册 VerifyHandle 访问仓储元数据 AccessRepoMeta 确认仓储中已存有一个指定句柄的数字对象 Verify DO 访问一个指定数字对象的元数据 AccessMeta 访问数字对象 Access DO 在一个仓储中存入一个数字对象 Deposit DO 从一个仓储中删除一个数字对象 Delete DO 编辑一个数字对象的元数据 MutateMeta 编辑一个数字对象 Mutate DO 五 元数据检索系统 元数据检索系统 作为元数据组织和检索体系 支持通过一定搜寻协议从各个仓储备搜集 标引和组织数字对象元数据及句柄 支持对这些元数据的基本检索 向用户界面提供符合检索要求的数字对象元数据记录及句柄 六 用户界面 用户界面作为用户检索和存取数字对象的界面系统 支持对元数据的检索和对数字对象的存取 往往直接利用通用界面系统 例如标准浏览器 第三节数字对象唯一标识符系统 一 数字对象唯一标识符 数字对象唯一标识符性能要求 一 1 唯一性 即标识符在指定名字域内必须是唯一和明确的 定义且只定义一个数字对象 但一个数字对象可拥有多个标识符 2 国际性 即标识符必须在国际范围内或整个因特网上有效 3 应用独立性 即标识符必须作为一种公共标识符 独立于任何具体的应用和应用系统 4 永久性 即标识符的生存周期必须是无限的 尽管它所定义的数字对象的生命周期可能是有限的 数字对象唯一标识符性能要求 二 5 可计算性 即标识符可由计算机处理 最好是数字表示或可转换成数字表示 最好内含校验码 6 标识能力强 即标识符的设计应保证标识系统可唯一地和永久地标识所有需要标识的数字对象 7 支持现有系统 即标识符的设计应支持现有的命名系统 8 可读性 即标识符应能被人直接释读 数字对象唯一标识符类型 从唯一标识符的形式上看 可以简单将其划分为数字性 字符性和数字字符混合性 从功能上看可以将其分为 掩码 opaquestring 纯粹是为了唯一标识一个人或事物 号码本身无法分解为任何有意义的信息 意码 meaningfulcode 对号码中每个数字或字符赋予了具体的含义 这些含义由制定标准的机构事先确定 混合号码则是上述两种号码的结合 这种混合号码的某一部分具有明确的含义和内容 可以方便地被机器和人识别 唯一标识符范例 URL PURL URN URI等 URL UniformResourseLocator URL又称为统一资源定位符 用于在万维网上指定信息的位置 网页的URL地址由模式 Web服务器的名字 网页在Web服务器上的路径三部分组成 其中 模式指明了访问网页时所用的语言和协议 Web服务器的名字 或叫做域名 指明了存储网页的计算机服务器的名称 网页在Web服务器上的路径指明了网页在Web服务器的具体位置 模式 域名 网页在Web服务器上的路径 PURL PersistentUniversalResourceLocator PURL称为永久通用资源地址http purl org net intercat协议主机名称用户定义字符串 PURL URL 由在PURL服务器登记的用户生成 PURL一旦生成 便不可更改 一个URL总是与一个PURL相对应 如果URL改变 新的URL仍与原来的PURL联系在一起 客户端 PURL服务器 资源服务器 服务器将PURL与唯一的URL联系在一起 维护实用程序推动PURL的生成和相应URL的修改 客户利用PURL服务器返回的URL协商与远端资源的链接 1PURL 2URL 3URL 4RESOURCE http purl org net intercat URN UniformResourceNames URN称为统一资源名称 URN作为逻辑化的资源名称 可以是某个机构或联盟对资源的统一命名 如PURL 也可以是采用某种命名大纲制订的持久 独立于地址的资源标识符 通常由命名规范 Namingauthority 斜线 和模糊字符串 Opaquestring OS 如OCLC 1234 组成 URI UniformResourceIdentifier URI称为统一资源标识符 作为Internet资源的统一的标识符体系 其中 资源 是能够被标识的任何对象 标识符 是一个对象可以引用的名称 实际定义为符合某种语法规范的字符串 而 统一 则保证了现有不同类型的资源标识符可以采用统一的方式使用 并为新的资源类型提供统一的标识框架 实际上 URI成为所有标识Internet资源的地址和名称的通用集合 URI由三部分组成 URN 统一资源名 UniversalResourceName 作为数字对象的逻辑名称 URC 统一资源属性 UniversalResourceCharacteristics 作为描述数字对象的元数据 URL 统一资源定位符 UniversalResourceLocator 作为物理上对数字对象定位和获取的机制 URI机制被重新定义为包括URN和URL的集合 二 数字对象唯一标识符系统构成 一 1 命名域 Namespace 代表一定的标识系统 在该系统内遵循统一的命名规则和程序 2 唯一标识符 在特定命名域内按一定规则给予数字对象的唯一和永久名字 3 命名机构 NamingAuthority 按照一定规则和权限管理命名过程的机构 数字对象唯一标识符系统构成 二 4 命名登记机构 Registry 存储命名登记数据的系统 具体存储内容可以是标识符 元数据 或标识符 地址 或标识符 地址 元数据 可能辅助进行数字对象检索或地址解析 5 地址解析系统 ResolutioSystem 负责将数字对象的唯一标识符转换成相应的物理存放地址 三 数字对象唯一标识符解析系统 数字对象唯一标识符的解析 Resolution 指的是计算机按照某种协议向某个网络服务递交数字对象的唯一标识符 发出解析请求 该网络服务接收该请求后按照某种约定来调出与该唯一标识符所标识对象相关的一个或多个相关信息 之后将这些相关信息返回给请求者的整个过程 GlobalHandleRegistry GHR LHSA LHSB LHSC LocalHandleServices ServiceSiteA ServiceSiteB LHSB HandleService HandleService HandleSystem cnri dlib july95 arms URL http www dlib olg dlib july95 07armo hlrm RAP repository dlib olg handle解析过程 解析 cnri dlib july95 rms 四 DOI系统 DOI DigitalObjectIdentifier 数字对象标识符 DOI系统是CNRI根据美国出版协会 TheAssociationofAmericanPublishers AAP 的要求定制开发的系统 它是Handle系统在出版行业的应用 现由国际数字对象标识符基金会 InternationalDOIFoundation IDF 管理 10 1006被赋予Academic出版社doi 10 1006 012158328 Anempiricalstudyontheutilizationofwebacademicresourcesinhumanitiesandsocialsciencesbasedonwebcitations yourarticle spersonalDOI10 1007 s11192 009 0142 7 YourarticleinScientometricsisnowonlineatSpringerLink CrossRef是由多个出版机构联合建立的开放式参考文献链接系统 最早于1999年11月由世界著名的12个商业和非商业出版商发起并宣布成立 参加的成员组成了一个非赢利组织PublishersInternationalLinkingAssociation PILA 负责CrossRef的运作及提供服务 DOI系统典型应用 CrossRef 跨出版商的开放的知识链接体系 CrossRef利用DOI形成跨出版商的链接服务 15bilateralrelationships 6networkrelationships 1 2 3 出版商实现持久链接 通过DOI系统实现引文到全文的链接 实现一站式服务 提高整个行业的服务数量和服务质量 提升整个行业的产品竞争力 DOI的作用 二次文献数据库实现二次文献数据库与全文数据库的链接 SCI EI CSA CABI等都通过DOI建立了与全文的链接 图书馆通过DOI 为用户提供访问更多全文文献的机会 DOI的作用 4 搜索服务 在学术搜索中引入DOI可以提高搜索质量 CrossRef与Google合作的CrossRefSearch 仅在成员所提供的学术内容中进行搜索 通过DOI保证了检索结果到全文的链接有效性和持久性 政府机构 相关政府机构通过DOI的推广和应用更有效地管理学术信息资源 从标识体系的建立和应用上实现包括科技文献和科学数据在内的资源整合 从而有助于建立一个基于分布环境下的一站式的科技基础信息服务平台 5 1 分布式数字图书馆机制 张晓林著 情报学报 2002 2 数字资源唯一标识符 方面论文 现代图书情报技术 2005年第2期 参考文献 第四节数字图书馆开发平台 数字图书馆开发平台是以各种类型数字资源和因特网上的各种资源为中心 以为用户提供方便 快捷的信息服务机制为目的 围绕数字资源的加工建设存储和管理 访问和服务提供的一整套先进 实用 高效的工具 是开发和利用数字图书馆的管理系统 一 数字图书馆开发平台的基本功能二 数字图书馆开发平台的现状三 中文数字图书馆开发平台的选择四 数字图书馆开发平台的发展趋势 内容提纲 资源加工系统 元数据标引系统 异构资源整合 数字资源加工 资源管理系统 资源存储系统 资源调度系统 数字资源发布 资源服务系统 用户管理系统 数字版权系统 数字资源服务 对象库 元数据库 一 数字图书馆开发平台的基本功能 二 数字图书馆开发平台的现状三 中文数字图书馆开发平台的选择四 数字图书馆开发平台的发展趋势 内容提纲 图书馆开发平台的来源主要有三种途径 自己开发 这需要一定的人力 物力和技术条件 但可根据自己要求设计 联合开发 包括多个DL以及和其它单位厂商合作 购买现成的软件或连同数字资源一起购买 这是一种最主要的方式 也是一种趋势 据统计 在市场上以DL命名的DLS产品多达几十种 数字图书馆开发平台的基本情况 1 支持非结构化文件 包括音频 视频等多媒体文件的管理数字图书馆在资源上是多种多样的 不仅有文本 还有音频 视频等多媒体资源 如何对这些资源进行有效的整合和管理 是数字图书馆开发平台需要解决的一个重要问题 TRS全文数据库服务器 TRSDatabaseServer5 非结构化 结构化数据的统一管理系统支持包括TEXT HTML RTF MSOFFICE Word Excel Powerpoint PDF等多种格式文件的存储 索引和检索 支持多媒体数据的存储管理 支持结构化数据类型 支持XML数据管理 实现XML的全息索引XML作为一种完整数据类型 支持XML的全息索引 即 任何标记及标记的任何属性都可以用来作为检索目标 多语种 多编码管理系统支持中文 英文 法文 德文 俄文 阿拉伯文等十多种语种的存储 索引和检索 数字图书馆开发平台的基本情况 2 支持全文检索如何对海量数据进行快速准确的检索 一直是各个数字图书馆软件开发商所面临和需要解决的问题 目前各个数字图书馆开发平台都宣称自己支持全文检索 TRS全文数据库服务器 TRSDatabaseServer5 高效 智能的全文检索允许使用文中的任意字 词 短语 句和片段进行检索 支持中英文或其它语种的混合检索以及结构化 非结构化数据的混合检索 精确计算 检索速度和准确性共达最优 数字图书馆开发平台的基本情况 3 支持元数据管理目前各个开发平台均支持元数据管理 在资源标引和整合过程中采用元数据来进行封装 这样有利于不同系统之间的数据共享 可以减少重复建设和资源浪费 用户 中心DL 本地元数据 DL1 搜索 DL2 DLn 元数据 元数据 元数据 查询 结果 用户界面 用户 句柄系统 数据仓储 元数据库 仓储存取协议 资源加工系统 元数据检索系统 解析句柄 数据仓储 提取元数据 OAI MHP 查询 数字对象 数字对象 数字图书馆开发平台的基本情况 4 支持异构数据库检索通过提供对异构数据库检索的支持 对多个不同结构 不同使用规范的数据库进行统一 并发的检索 可以免除用户在不同的数据库之间来回穿梭的不便 减轻用户要熟悉各个不同数据库操作和使用规范的压力 节约用户时间 更好地为用户服务 清华同方异构数据库统一检索平台 USP UnionSearchPlatform 工作原理 用户提出检索请求后 其请求被交给服务器端的一个称为 智能搜索器 的程序 智能搜索器 针对不同的数据库 将用户请求转化为符合其规定的格式 然后将请求发送到各数据库 在得到数据库的返回结果后 智能搜索器 再将不同数据库的结果转化为统一的格式 并发送到浏览器端显示给用户 统一检索平台系统结构图 请求提交代理 结果显示代理 检索接口代理 智能搜索器 检索请求 检索结果 检索参数 返回结果 外购数据库1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论