数字化图书馆解决的方案V1_第1页
数字化图书馆解决的方案V1_第2页
数字化图书馆解决的方案V1_第3页
数字化图书馆解决的方案V1_第4页
数字化图书馆解决的方案V1_第5页
免费预览已结束,剩余9页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数字化图书馆解决方案数字化图书馆解决方案 1 图书馆信息化概述图书馆信息化概述 目前在 Internet 和信息技术的不断发展时代 对高等院校的教学与管理带 来了深远的影响 网络远程教学 多媒体应用 数据查阅 信息管理等应用已 经成为高校教学与科研重要的一环 并逐步与学校的教学 服务与科研融为一 体 高校校园网建设 网络中心的规模与数字图书馆已经成为全面衡量高等学 校信息化水平的三项重要的指标 图书馆除向全校师生提供教学 科研以及数 字化信息服务外 还面向社会为众多单位提供培训及咨询服务 随着计算机应 用的发展 图书馆服务器和数据量急速增加 管理的复杂程度越来越大 数字化图书馆是一种运行在高速宽带网络上的 可跨库检索的海量数字化 信息资源库群 对有价值的图像 文本 语音 影像 影视 软件和科学数据 等多媒体信息进行收集 进行数字化加工 存储和管理 实施知识增值 并提 供基于网络的电子存取服务 数字图书馆在本质上就是一个集数据库应用平台 信息资源电子商务平台 与资源数字化加工服务平台于一体的巨大数据仓库 以互联网为平台 面向高 校内部广大师生和外部互联网用户提供基于内容的服务 作为图书馆发展的方 向 数字图书馆应以统一的标准和规范为基础 以数字化的各种信息为底层 以分布式海量资源库群为支撑 以智能检索技术为手段 以电子商务为管理方 式 以宽带高速网络为传输通道 将丰富多彩的多媒体信息及时的传递给用户 2 图书馆系统概述图书馆系统概述 数字图书馆系统是一个基于 Internet Intranet 分布式环境 能够针对用 户的需要提供信息服务的分布式海量信息系统 其基本功能包括 1 提供用户交互式信息浏览 查询 具有基于内容和知识的检索引擎 2 支持连续媒体的网络传输 数字化图书馆所支持的数据类型包括具有 时间基的连续媒体信息 支持多媒体信息流的同步和集成 建立先进 的同步模型和同步机制保证静态信息流的空间同步和动态信息流间的 时间同步 3 建立通用 标准和规范的数字化图书馆系统结构模型 提供数字化图 书馆系统有效的资源管理和控制功能 4 支持动态服务质量 QoS 管理机制 系统可以根据用户请求 系统 检测和资源均衡需求 动态地调整用户端的 QoS 参数 5 数字化图书馆系统的中心服务器和媒体服务器应该具有可伸缩的体系 结构 根据资源的使用情况 采用适当的负载平衡策略 把信息存取 和网络传输的负载均衡到相应的机群中 同时 系统具有信息存储和 网络带宽的可扩展性 6 系统具有透明性 信息的重组在一定条件下是可见的 但是对用户是 透明的 7 系统具有可移植性 具有可运行特征的媒体信息在不同的运行环境下 都可以再现 图书馆的主要组成部分 图书馆的主要组成部分 1 图书馆管理系统 2 数据库 3 电子期刊库 4 电子图书库 5 硕博论文库 6 自建数据库 论文 期刊 图书 声像 教参等等 7 音视频资源管理系统 8 网络接入认证系统 9 门户网站 10 博客服务 11 论坛服务 12 FTP 系统 13 等等 因此 可以说建设数字图书馆的关键技术在于存储系统 一个良好的存储 系统解决方案应能适应图书数据的海量存储和不断增长 同时能够满足当今网 络环境复杂性和扩展性的不断提高 这样的目标无疑对存储系统的要求很高 既要求高可用性 高可靠度和大 容量 还需要低成本和易安装管理 3 图书馆信息系统需求分析图书馆信息系统需求分析 数字化图书馆就是将图书馆文献信息数字化 并利用计算机技术储存 查 询和发布 以满足当地或远程读者对文本 图像 声音等不同种类的信息需求 数字图书馆的显著特点就是 各种信息 文献 期刊 图书 报纸 论文 音乐 视频等 的数字化 海量数据的存储和管理 对数据的有效访问和查询 数字化资料在网上发布和传递 数字化图书馆的开发与建立是计算机 通 信和网络技术 海量存储技术以及多媒体技术有机结合的产物 并且还引进了 大量数据库技术及概念 图书馆存储系统需要存储以下内容的数据信息 图书馆存储系统需要存储以下内容的数据信息 1 数据库 数据库 一般采用 MS SQL 和 Oracle 数据库 数据量不大 一般 在几 GB 以内 且数据增量不大 2 电子图书 电子图书 以文本文件存储和读取为主 文件大小一般为 32KB 64MB 存在形式为静态 容量增长小于 5 每年 3 视频资料信息 视频资料信息 包括电影资料的 VCD DVD 形式 MPEG2 4 形式 以 大文件形式存储 流媒体读取为主 文件大小一般为 80MB 5GB 4 电子期刊 电子期刊 以文本文件存储和读取为主 文件大小一般为 32KB 64MB 存在形式为动态增长 增长速度为线性定值 5 其他电子信息资料 其他电子信息资料 包括音频资料 硕博论文 自建资源库 教参 等等 以文件方式存储 以流媒体或文件方式读取 文件大小一 般为 32KB 40MB 在图书馆中 数据库的管理和操作是最核心的问题 所有的电子图书 期 刊和多媒体数据全部存放在大容量存储系统中 存储系统是整个数字图书馆的 支撑点 根据图书馆中数据的特点来分析数字图书馆的数据应用特点 数字图书馆 大致可划分为以下两种类型的数据 1 1 数据库类型数据 数据库类型数据 图书馆管理系统和外购商用软件系统以及自建系统的数据库 需要提供高速数据检索和查询服务 数据访问速度要求高 需要提供 7 24 小时高可靠运行 2 2 文件型数据 文件型数据 包括电子图书 期刊 论文 自建数据资源 影视频资料文件 等等 需要提供大容量数据存储空间 大量数据处于静止状态 少部分数据在相应时间内处于活跃状 态 数据访问速度一般没有严格要求 随着图书馆数字化进程的逐步深入 图书馆的应用系统越来越多 环境也 变得越来越复杂 这无形中增加了图书馆管理人员管理系统的难度 同时 随 着应用系统的不断增加 数据也相应大量增长 这就给原有的存储系统提出了 更高的要求 平滑的提供更大的存储空间 提供更快的响应速度 提供更大的数据吞吐能力 总体来讲 图书馆信息化的关注点在于 如何满足业务连续性要求如何满足业务连续性要求 关键系统高性能 关键服务不停顿 关键数据不丢失 如何解决数据容量迅速增长带来的成本 管理等问题如何解决数据容量迅速增长带来的成本 管理等问题 3 图书馆信息系统推荐方案图书馆信息系统推荐方案 3 1 设备选型原则设备选型原则 存储系统是数字图书馆的核心基础 其性能的优劣 质量的好坏 对全局 的影响关系重大 在存储系统平台的选型上应充分考虑系统应用的水平和数据 处理数据量的大小 综合总体系统设计的方针 予以慎重选择 在选择存储平台时 要考虑的因素很多 需要根据实际情况决定 一般来 讲 以下特性是必须要考虑的 存储系统的 IO 性能 系统未来的可扩展性 存储系统的高可用性 存储系统对各种服务器操作系统的兼容性与标准 系统管理员的可维护性 3 2 方案综述方案综述 数字图书馆中需要存储的数字资源大致分为以下几类 数字图书馆中需要存储的数字资源大致分为以下几类 图书馆管理系统数据库 图书馆购买的各类商业软件的数据库 图书馆购买的各类电子化的图书和期刊数据 图书馆自建资源库 根据对图书馆信息化系统的需求分析 可以总结出图书馆核心应用的特点如下 根据对图书馆信息化系统的需求分析 可以总结出图书馆核心应用的特点如下 数据库 是整个图书馆业务系统的核心数据库 是整个图书馆业务系统的核心 数据类型 数据库 SQL Oracle 等 性能要求 同时访问人数较多 并发性能要求较高 可用性要求 不能停机 数据量 几百 MB 到几个 GB 图书馆应用系统数据 图书馆应用系统数据 数据类型 文件 文本 图像 音视频 性能要求 同时访问人数较少 但传输数据量大 带宽要求高 可用性要求 不能停机 数据量 很大且增长很快 从几 TB 到几十 TB 根据性能和可用性的分析 可以得出相应推荐的存储系统架构如下 根据性能和可用性的分析 可以得出相应推荐的存储系统架构如下 典型存储架构典型存储架构 应用应用数据类型数据类型性能性能容量容量数据保护数据保护FC SAN iSCSI 数字化图书馆管理系统 采 编 流 数据库高低高优选优选 自建资源系统 数据库 文件 中高高推荐推荐可选 硕博论文文件中高高推荐推荐可选 期刊文件中高低推荐推荐可选 电子图书文件中高低推荐推荐可选 影视频资料文件中高低推荐推荐可选 以下我们分别阐述 DCN 面向高校数字化图书馆的信息基础架构 数据集中存储方案 备份与恢复解决方案 3 2 1 数据集中存储方案数据集中存储方案 针对高校图书馆信息化应用系统的存储需求 建议采用 FC SAN IP SAN 的 存储架构 将图书馆的图书馆管理系统数据库 各类外购商业软件数据库系统以及 自建资源数据库等核心数据库应用通过 FC SAN 进行连接 实现高性能 高可用的存储 同时将一些应用如门户网站 FTP 等通过 IP SAN 进行连接 实现低成 本 高效率的存储 整体架构从以下几方面综合设计 以满足业务连续性的要求 存储系统的高可用性 经过用户验证达到 5 个 9 可用的存储系统 DCN CS4 系列 存储网络 SAN 的高可用性 采用双光纤交换机组成冗余 SAN 网络 配合 主机上的双 HBA 卡和多路径管理软件 DCN PowerPath 实现数据访问 通道的高可用 图书馆信息化系统集中存储结构图 图书馆信息化系统集中存储结构图 本次系统建设的最终目标是为高校图书馆提供一套具有国际先进水平的电 子化图书馆信息平台 提供具有全球最新科技水平的 SAN 存储区域网络存储平 台 DCN CS4 为高校图书馆未来的高速发展提供坚实的技术保障平台 为保证服务器到 SAN 网络的全冗余性连接 每台服务器均配置 2 块 8Gbps FC 光纤通道卡 分别连接到 SAN 网络中的 2 台光纤通道交换机上 即使其中的 一条链路发生故障 服务器仍然可以通过冗余的光纤链路访问磁盘阵列上的数 据 从而达到系统的 7 24 小时不间断运行 本次存储系统建设采用 Open SAN 体系结构搭建高校图书馆数据存储网络 在整个 SAN 网络中 所有设备之间的网络链接均采用全冗余链接 确保整个存 储系统系统具有良好的链路冗余能力 为高校图书馆信息系统提供不间断运行 的存储网络交换平台 由于电子化图书馆中的数据绝大部分都是文本文件和图片及音视频资料文 件 少部分数据是数据库数据 则在进行图书馆存储体统磁盘规划时 应充分 考虑磁盘分级存储管理 提高了磁盘利用率 同时也为图书馆节省了大量的资 金投入 将访问性能要求高的数据库文件保存在 FC 磁盘上 将访问性能要求不高的文件类型的数据保存在 SATA 磁盘上 本方案具有以下特点 本方案具有以下特点 DCNDCN CS4CS4 99 999 99 999 的高可用性的高可用性 DCN CS4 结构提供最高的可用性 所有组件都实现全面冗余并可热交换 全 光纤通道技术允许客户随时随地扩展其存储容量 可以在不关闭应用或者现有存 储能力的情况下 添加其它驱动器或者驱动器架 DAE 磁盘阵列机箱 DCN CS4 系统拥有各种先进的数据保护功能 全局热备用 全面冗余的组件 通向光纤通道磁盘驱动器的双重冗余路径 磁盘扇区嗅探校错技术 Sniffer 断电高速缓存数据写入硬盘 端 端数据奇偶校验以及一致性操作环境所提供的 其它独特功能 所有这一切都是 DCN CS4 享有盛名的原因所在 这种层次的数 据保护应该是所有客户的要求 也是任何其它供应商所无法满足的 中端存储配置发展很快 且变得日益复杂 这是因为较大的系统具有更多 的驱动器 并且磁盘驱动器的密度越来越大 UltraPoint 是新一代的 DCN CS4 技术 随着客户将系统向新级别的扩展 它可确保 CLARiiON 继续提供最高级别 的可靠性和可用性 UltraPoint 技术将新的点对点光纤通道 DAE 设计与 FLARE 操作环境中新 的故障检测和隔离功能结合在一起 UltraPoint 将后端故障探测和隔离的精确 度具体到了单个驱动器的级别 这一技术将使 DCN CS4 系列能够 在单个磁盘驱动器级别执行故障检测和隔离操作 因此可以采取纠错措 施 在驱动器进入联机状态之前检验驱动器 在加电时 在更换驱动器时 以及在增加容量时 一体式分层存储一体式分层存储 使用 DCN CS4 存储系统 高校图书馆可以整合大量不同类型和业务价值级 别的数据 通过选择满足特定需要的驱动器选项 实现在一个系统中提供多种 性能 成本级别的灵活性 存储层次驱动器类型适用环境 第 1 层 146GB 300GB 450GB 15kRPM 光纤磁盘 并发访问量大的图书馆管理系统 第 2 层400GB 10kRPM 光纤磁盘 检索系统 经常访问的文件类型数据 如近 期的电子期刊等 第 3 层1TB 7200RPM SATA 磁盘图书馆文件类型数据文件 不经常访问的 第 4 层1TB 5400RPM SATA 磁盘 图书馆文件类型数据文件 长期保存 归档 DCNDCN PowerPathPowerPath 软件软件 DCN CS4 网络存储提供 PowerPath 软件 它提供了连续的数据可用性 并 针对主机环境实现性能优化 PowerPath 是一种常驻服务器的 性能和信息可用性增强路径管理解决方 案 PowerPath 面向开放式服务器平台集成了自动故障切换 动态负载均衡和 信息存取优化能力 PowerPath 采用后台工作方式 确保各种应用保持连续可 用 PowerPath 的自动故障切换和动态恢复特性允许在服务器和存储间数据路 径发生故障时 将数据存取分散至备用数据路径中 这样应用程序就绝对不会 因为适配器 电缆或通道控制器的单点故障而出现中断 PowerPath 运用自动负载均衡特性 对多条 I O 流开展智能化管理 并通 过在多条路径之间自动调整工作负荷的方式实现性能优化 这种特性确保不会 出现某条路径负载过重 而其它路径带宽又没有得到充分利用的情形 避免 I O 瓶颈的出现 PowerPath 确保图书馆关键业务数应用随时处于运行状态 赋予它们以最 高可用性和最高性能 确保它们获得业界领先性能存储系统 DCN CS4 的所有优 势 3 2 2 备份与恢复方案备份与恢复方案 作为数据访问量巨大的图书馆系统 无论是现在还是将来 数据和应用安 全和可靠对于它来说都是第一重要的 为此 在图书馆需求中把这些应用系统在提供服务方面分为三个级别 第一级 要求接近零停机时间 如书目数据库以及多校使用的网络数据库 应采用热备的方式保证 第二级 出现故障 恢复期可在 1 天的服务 如部分自建数据库以及使用 量较小的数据库 数据备份应尽可能采用在线方式 至少要近线存储 第三级 可忍受较长恢复期的应用 该类数据备份可采用近线或离线方式 备份 引起数据丢失的原因很多 备份系统解决的问题主要在 引起数据丢失的原因很多 备份系统解决的问题主要在 硬件故障造成的数据丢失 应用程序 数据库损坏造成的数据丢失 人为错误造成的数据丢失 黑客攻击 病毒感染造成的数据丢失 软硬件系统升级与维护前的数据备份 为避免以上问题造成的数据丢失 建议对图书馆的核心应用系统进行定期 备份 并定期进行数据恢复验证测试 确保备份数据的可恢复性 需要备份的 系统如下 数字化图书馆管理系统 自建资源系统数据库及自建数据资源 建议采用 DCN Networker 集中备份管理软件 实现关键应用系统的在线备 份 采用基于磁盘介质

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论