




已阅读5页,还剩27页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
经营分析系统数据仓库分库方式研究 项目报告 2 研究背景 技术体系 研究结论 目录 调研情况 3 对技术和产品提出了高要求 原本数据仓库平台并未预见到如此快速的数据 膨胀 部分数据仓库产品无法线性扩张满足需 求 例如 XX公司ORACLE分库案例 数据仓库数据的检查 清晰 加载等技术有待 升级以改善性能 背景1 数据仓库规模加速膨胀 WinterCorp 研究结果数据仓库近10年间 每 2年规模增长3倍 超过摩根定律 一经TD仓库总磁盘容量从03年的24TB增长到 2010年的247TB 超过10倍 省经到2010年总裸磁盘容量已达17PB TPMC 值达到7 15亿 成本增长太快 扩容压力加大 数据仓库采用小型机 磁盘阵列的方式构建 构建在高端硬件平台上 且软件费用也较贵 高性能同时带来了高成本 未将数据处理功能和数据存储功能分散考虑 导致架构单一 扩容需要综合考虑处理性能和 磁盘容量的时候要取最大值 快速扩张的数据规模加大了管理难度 无法在限定的时间窗口内对数据仓库进行有效 备份 即使备份后也无法有效进行恢复测试 例如 XX公司BCV备份的案例 同样在安全审计 数据库优化方面的管理难度 都相应加大 0 5000 10000 15000 20000 4 背景2 数据仓库中不同的数据有不同特点 汇总表占据了大量的磁盘访问 例如 tf fact rept base day仅占0 21 的磁盘空 间 但是却占了25 61 访问比例 XX公司 80 的数据访问 集中在21 的磁 盘空间上 80 08 的数据访 问集中在9 07 的 磁盘空间上 ST REPORT MARKET SHARE MM 仅占用 了0 1 的磁盘空间 但却占了20 29 访问 比例 XX公司 纵轴是存储空间 横轴是访问量 其中访问量为 访问次数 数据块大小 纵轴是存储空间 横轴是读写的记录数 两种数据仓库产品由于数据分布的具体技术不同 记录的数据情况有所不一样 所以不能进行对比 但它们都 显示了相同的统计规律 5 背景3 产品的限制导致被迫分库 超强数据处理 能力的Oracle 最优秀负载 均衡的 Teradata 几乎可以无限 扩展的DB2 期望 Oracle的 性能瓶颈 DB2的高可 用性存疑 现实 数据膨胀 Teradata 扩容的高 成本 新旧设备 兼容问题 如何进行 有效备份 6 研究目标 经分数据仓库的高速膨胀带来无 休止的扩容 经分数据仓库中 不同特点的数 据需要分级存储 现有的数据仓库技术在经分的超 大数据量面前遇到了种种限制 分级存储是解决这个难题的一 个思路 分库是解决这个问题的另一个 思路 并且已经得到实践的验 证 本研究主要针对分级存储和分 库这两项技术 进行研究 7 研究内容 1 分级存储相关技术研究 主要研究现阶段各个层面的数据分级存储技术 针对移动的数据服务特 点 对这些技术进行详细的调研和比较 为分级存储技术的选型提供技术 支持 2 分级存储和分库省公司调研 在相关技术研究的基础上 对移动各省公司经营分析系统的建设中 如何 运用分库和分级存储技术解决现实问题 做一个全面细致的调研 得出全面 的调研报告 总结其中的规律 分析出现的问题 为分级存储和分库在移动 经营分析系统中的应用积累经验 为最终指导意见的形成积累素材 3 分级存储和分库软课题研究报告 结合技术调研和省公司调研 得出分级存储和分库技术选择的指导意见 为移动经营分析系统数据仓库的未来发展和规划提供支持 8 研究历程 结题 开题 技术交流 开题报告 项目汇报报告 省公司调研 报告 2011 4 5 6 7 8 9 10 1112 技术交流 汇报 省公司调研 省公司调研 完成开题报告 完成项目报告 厂商集成商技术交流 7月到8月 整理厂商和集成商交流资料 进行归类 分析 比较和研究 7月底 完成全部省份问卷调研 7月到8月 完成重点省份XX XX XX XX的现场调研 8月 利用小汤山培训 进行现场交流 9月到10月 利用经分规范评审的机会 在XX 太原 杭州 福州 石家庄与参会各集成商和省公司代表进行进行交流 技术研究 6月到7月 完成与XX XX XX XX等交流 7月到8月 完成与EMC Teradata IBM Oracle Sybase Symantec等交流 7月到10月 整理各省调研结果 进行归类 分析 比较和研究 分库现状研究 研究 9 研究背景 技术体系 研究结论 目录 调研情况 10 分库类型 为了解决各省的实际问题 很多省都对数据仓库进行了拆分 主要的拆分方式 有如下四种 按照数据的生命周期拆分成生产库和 历史库 比如3 1的数据存放在生产 库 12 1的数据存放在历史库 这 周方式最为普遍 有些省历史库还包 含部分生产库的数据 按照数据的粒度拆分成汇总库和明细 库 汇总之后的数据存放在汇总库 明细数据存放在明细库 按照地市拆分成若干地市库 通常会根 据用户数均分成几个地市库 使用该方 式的省较少 这种拆分跟面向地市应用 的地市数据集市不同 存放的全部的数 据仓库数据 按照应用拆分成若干应用库 通常会 根据各个应用的负载均衡分库 有些 省拆分出单独的一经库 挖掘库 也 属于这种方式 很多省并非只有一种分库方式 很多省同时存在多种分库 经分数据仓库主 库 生产库历史库 地市库 1 地市库 2 地市库 N 应用库 1 应用库 2 应用库 N 汇总库明细库 11 分库现状 Oracle的分库主要是因为其性能瓶颈 DB2的分库主要是因为对其高可用性 担忧 Teradata的分库主要是因为成本 截止8月底 已经实施的有XX XX XX 正在实施的有XX XX A 已经实施 10 B 正在实施 5 C 正在调研论证 8 D 尚无打算 8 4 7 11 2 0 1 2 3 4 5 6 7 8 OracleDB2TeradataOracle Teardata DB2 Teardata XX XX XX XX XX XX XX XX XX XX XX XX XX XX XX 调研时间为2011年8月 下同 12 分库的方式和效果 18 20 3 18 9 2 0510152025 A 扩容成本压力 B 性能压力 C 管理复杂度 D 高可用和数据安全 E 软硬件平台限制 F 其他 采用或计划采用按照生命周期分库和按照应用 分库两种方案的省最多 其他的分库方法较 少 一些省建议这两种方式可以结合实施 其 中按照应用分库包括一经库 挖掘库的拆分 该问题是多选 很多省同时采用了多种分库方式 16 1 7 3 1 05101520 A 按照数据生命周期 B 按照地市 C 按照应用 D 按照汇总粒度 E 其他 几种分库方式都能提升性能 也都能 降低扩容成本压力 按照生命周期分 库的方式对高可用和数据安全提升较 大 尤其是那种历史库包含生产库数 据的方式 该方式也是大家突破软硬 件平台限制的优先选择 该问题是多选 XX 安徽 XX XX XX XX XX XX XX XX XX 黑龙江XX 云南 XX XX 安徽 XX XX XX XX XX XX XX 北京 XX XX XX 13 按照生命周期分库 XX公司 XX 由于成本的原因 XX公司按照数据生命周期对数据仓库做分库 于2008 2010年完 成了分库工作 将数据仓库一分为二 生产库 存放1 1个月数 据 使用Teradata 历史库 存放12 1数据 使用Oracle 说明 XX历史库存放全量数 据 承担部分应用 并且可 以作为生产库的备份库 未 来的目标是异构双中心数据 仓库 最新规划 后续计划按照地市进行历史库的分库 而生产库准备采购ExtData来进行按照应用的分库 生产数据 ETL 迁移 在线应用历史应用 访问 访问 应急访问 按照生命周期分库数据比较 简单 能很好的处理异构数 据库的问题 XX方案还可 以提高数据的安全性 但是 这种方案负载均衡的效果不 好 这种分库方式最大的问题是 生产库和历史库的数据同步 同步为两个库都带来了沉重 的压力 如果两个库是异构 数据库 复杂的数据同步带 来了繁重的维护工作 14 按照生命周期分库的汇总 历史库和生产库有无数据重叠的各有7 个省 有重叠的历史库可以起到备份 库 全冗余 和应急库 部分冗余 的作用 由于异构会带来各种运维管理问题 13个省 都采用同构的分库 主要是DB2的 由于采用了同构数据库 数据一致性容易保证 因此多数 省份都没进行一致性检测 有重叠 7 没重叠 7 暂无考虑 2 异构 3 同构 13 有不一致检测 6 无不一致检测 10 15 按照汇总粒度分库 XX公司 XX XX公司为了解决前端访问的性能和数据的安全性 2010年到2011年开始对数据仓 库做分库 将数据仓库分为前段库 汇总库 和明细库 并构建了Teradata双中心 的数据安全机制 明细库 使用Teradata 生产数据 汇总库 使用Teradata 在线应用 说明 XX公司在此基础上 还设 计了数据双中心的机制 明细库和 汇总库互有数据副本保存 明细库 在应急情况下可以充当应急前端 库 前段库在应急情况下可以为明 细库恢复数据 按照数据汇总粒度分库能够很好的 提升前端应用访问数据的性能 但 是这种分库方式对于缓解生产库的 扩容压力没有效果 在大数据量的 背景下 这种分库方式通常都跟其 他分库方式配合 在解决生产库数 据压力的同时 提升前端应用的性 能 实时 定期 应急 正常 16 按照应用分库 XX公司 XX XX公司很早就遇到了ORACLE数据仓库的瓶颈 从2005年开始对数据仓库做分库 经过半年的时间 完成了分库工作 将数据仓库一分为二 后来分为三个 应用库1 主要存放客服 渠道 等应用数据 使用 Oracle 应用库2 主要存放集团 家 庭 深度运营等应用数 据 使用Oracle 应用库3 主要存放应用数据集 市等应用数据 使用 Oracle 生产数据 汇总库 在线应用 最新规划 XX目前的三个应用 库 均接近Oracle单库性能瓶 颈 因此计划建立历史库 按照应用分库能够较好的处理负载 均衡 但是存在公用数据的存放冗 余 互相同步和数据一致性保证问 题 对应用设计的要求较高 这种分库方式最难满 足的是跨多个应用领 域的统计需求 需要 设计非常复杂的数据 汇总过程 随着数据 源的多样化 这种方 式变得越来越难以维 护 17 按照应用分库 XX公司 XX 由于提高关键业务性能 并实现充分利旧 XX公司单独设立了一经库和挖掘库 中央库 使用DB2 一经库 使用DB2 最新规划 XX正在规划实现按照数据生命周期的分库 挖掘库 使用Teradata 生产数据 一经应用 省经应用 挖掘应用 XX的分库方式中 几 个分库之间重叠很小 数据和应用的分割比较 简单 但是这种方式无 法分担中央库压力 这种分库方式对缓解 数据膨胀无效 通常 情况下 为了不浪费 分库的资源 分库还 会承担一部分主库的 应用 比如XX的挖掘 库就会承担一部分临 时统计功能 但是这 种分担很随意 缺乏 统一规划 18 按照地市分库 XX公司 XX 由于性能和容量限制等原因 XX实施了几种分库方式的混合 其地市 应用 生命 周对数据仓库做分库 于2004年到2011年实施了该方案 将主库一分为多个 其 中最有特点的就是按照地市进行分库 应用库1 主要存放结算 漫来等应用数据 使用Oracle 应用库2 主要存放WAP日 志等应用数据 使 用Oracle 历史库 存放近6个月数 据 使用Oracle 地市库1 主要存放苏州等3 地市的数据 使用 Oracle 地市库2 主要存放南通等4 地市的数据 使用 Oracle 地市库3 主要存放南京等3 地市的数据 使用 Oracle 地市库4 主要存放无锡等3 地市的数据 使用 Oracle 汇总库 使用Oracle 生产数据 按照地市分库能够较好的处理负载均 衡 但是跨应用和跨地市的访问比较复 杂 通常需要配套建设汇总库 这种分库方式最难满足的是跨多 个地市的统计需求 需要设计非 常复杂的数据汇总过程 19 分级存储的尝试 一些省公司正在尝试利用分级存储解决目前的性能和扩容瓶颈 同时降低存储成 本 XX历史库 DB2 XX历史库只存放部分历史数据 主要 针对话单等几个大表 正在尝试使用 异构存储存放所有历史数据 目前的尝试遇到了性能方面的问题 Symantec Storage Foundations 管理的异构存储 XX生产库 DB2 Symantec Storage Foundations 管理的异构存储 XX生产库 正在尝试使用异构存储存 放数据 并自行设计了数据迁移的算 法的策略 目前的尝试遇到了单点故障 20 调研结论 分库 虽然分库会带来种种问题 多数省还是选择了分 库作为解决当前性能 扩容等瓶颈的优先方案 分级 存储 分级存储有几个省份在尝试 但是尚无法大规模 应用 仍然存在一些问题 至于动态的分级存储 目前产品支持还不够 21 研究背景 技术体系 研究结论 目录 调研情况 22 实现分级存储的技术体系 存储 存储网络 操作系统 文件系统 数据库 应用 在存储设备 磁盘阵 列等 层面解决 在虚拟存储交换机层 面解决分级存储 在设备或文件 虚拟 设备或文件等 层面 解决 在数据库层面 表空 间 数据块等 解决 分级存储 在应用层面 分库 等 解决分级存储 23 基于存储设备的存储分级 主要用途 存储厂商通过管理外部异 构存储进行存储整合 支持数据的分 级存储 实现方式 在存储控制器上添加虚拟 化功能 对不同级别的磁盘存储进行 分级管理 优点 与主机无关 不占用主机资源 对应用透明 管理员不必再关心后端存储 只 需专注于管理存储空间和层级 缺点 消耗存储控制器的资源 受特定厂商的限制 选择受到一 定的局限 数据分级管理工作量较大 缺乏 动态措施 需要人工制定 物理存储 含虚拟化引擎 存储网络 主机 24 基于存储网络的存储分级 主要用途 异构存储系统整合 进行 统一数据管理 实现存储的分级管理 实现方式 通过在存储局域网中添加 虚拟化引擎实现 进行不同级别存储 卷的动态迁移 优点 支持异构主机 异构存储 与主机无关 不占用主机资源 使不同存储设备的数据管理功能 统一 统一管理平台 可扩展性好 缺点 占用交换机资源 存储阵列的兼容性需要严格验证 原有盘阵的高级功能将不能使用 数据分级管理工作量较大 缺乏 动态措施 物理存储 存储网络 虚拟 化引擎 主机 25 基于主机文件系统 逻辑卷的存储分级 主要用途 使服务器的存储空间可 以跨越多个异构的磁盘阵列或同一 磁盘阵列中的不同级别存储 实现方式 一般在操作系统下的逻 辑卷管理软件完成 不同操作系统 的逻辑卷管理软件也不相同 配合 使用多卷文件系统和分级策略管理 等技术 优点 支持异构的存储系统 不占用磁盘控制器资源 对应用透明 缺点 占用主机资源 存在操作系统和应用的兼容性 问题 主机数量越多 实施 管理成本 越高 同样缺乏动态措施 物理存储 存储网络 主机 虚拟文件系统 逻辑卷 26 基于数据库的存储分级 主要用途 数据库 数据仓库软件可 以管理多种存储 跨越多个异构的 磁盘阵列或同一磁盘阵列中的不同 级别存储 实现方式 数据库软件支持多种不 同级别存储的统一管理 根据某种 迁移策略 在不同粒度 数据块 表 表空间等 上实现分级存储 优点 可以针对数据特点进行分级 对应用透明 缺点 存在存储设备的兼容性问题 即必须能将不同的设备连接到 主机上 这在很多情况不可能 依赖于数据库的实现 目前的 产品鲜有支持分级存储或甚至 动态分级存储较好的 物理存储 存储网络 数据库 数据仓库 主机 27 主流数据库厂商均不赞同分库 均主张在单库的基础上通过技 术突破瓶颈 但是实际应用中 很多情况下不得不分库 单库多库 开发简单复杂 跨库访问时 需要 考虑数据路由和应用层汇 总 数据库维 护和管理 方便复杂 性能实际的大数据量 应用中 往往会 有各种问题 可以灵活配置 总有一种 方案可以满足需求 数据冗余 和一致性 没有冗余 保证 数据一致性 可能需要数据库中存储公 共数据 数据冗余度高 资源利用 率 高容易出现各种资源浪费 硬件多数数据库不支 持异构设备 可以灵活配置设备 应用层面的存储分级 也就是分库 物理存储 存储网络 数据库 数据仓库 主机 应用 分库 28 其他角度的比较 分级存储调整粒度 粒度越细 精细化控制的能力越好 我们认为按照数据块进行分级存储是最合适的 并且这种 数据块最好是通过数据库来自行管理和记录热度 自行移动 跟用户和应用无关 对上层透明 粒度说明使用方式及特点使用厂家 LUN在不同级别存储上定义 LUN 数据可以在不同的 LUN之间迁移 各个厂商对LUN基本大小的规 定 并不相同 EMC存储厂商 等 数据块数据块是数据库中最小的分 配单位 数据库软件根据数 据块的热度进行迁移 利用率最高 调整迅速 完全自动 易于使用 无法人工干预迁移过程 Terad
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新解读《CB-T 3930 - 1999船用收信多路耦合器技术条件》新解读
- 新解读《CB-T 569-1999船用PN160外螺纹青铜空气截止阀》新解读
- 隧道监控量测管理措施
- 电缆沟开挖及电缆保护管敷设措施
- 中国自由贸易试验区发展报告2024
- 贵州省毕节市七星关区第五教育集团2022-2023学年四年级下学期数学期末联考试卷(含答案)
- 山东省烟台市2022-2023学年高二下学期7月期末考试化学试题(含答案)
- 汽车传感器与检测技术电子教案:汽车GPS导航转角传感器
- 服用药物的禁忌
- 《汽车传感器与检测技术》课程整体教学设计
- 桥梁除锈施工方案
- 粒子加速器用30-4000 MHz级固态功率源系统 征求意见稿
- GB/T 6418.1-2025铜基钎料第1部分:实心钎料
- 软件外包团队管理制度
- 2025年中考历史专题复习七大热点专题知识复习宝典
- 麻醉科理论知识培训课件
- 江苏省南京市2024年中考物理试卷(含答案)
- 拉萨市“一考三评”学习考试题库
- DB44-T 2591-2024 供气企业诚信计量管理规范
- 北宋的政治教案++2024-2025学年统编版七年级历史下册
- 化工厂化验岗位的述职报告
评论
0/150
提交评论