版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据技术大数据技术应用实施方案建议应用实施方案建议 信息技术管理部 2013年6月 1 目录 我行新一代数据集成平台能力要求 业内大数据技术的特性及应用研究 我行大数据技术的应用策略 2 新一代管理分析类应用需求 3 运营与信息安全 运行日志存储与分析 安全日志存储与分析 营销支持 加强客户洞察分析, 实现灵活深入的客 户细分; 科学的客户行为及 渠道经营分析 报告与决策 全面的计划预算管理 价值导向的管理会计; 流程化的财务会计体系 集成高效的财务运作 及时、准确的财务报告 风险管理 满足新协议合规和内部管 理需要的全面风险管理体 系 市场风险、信用风险、操 作风险等全面的风险计量; 风险
2、建模 监管合规支持 全面整合的反洗钱和欺诈 风险管理; 监管合规长时间保存数据 需求; 审计供数; 非结构化数据保存 数据管控支持 数据完整、全面(广度、 深度); 数据可信; 数据易用; 数据生命周期管理 应用需求 新一代管理分析类应用对于大数据处理分析技术提出了高要求 新一代数据集成平台数据特点与挑战 4 Volume 数量大 数据内容丰富(账户信息、账户明细、流水信息等) 数据存储周期长(监管要求保存20年) PB级的海量数据 Variety 种类多 数据类型多样,包括结构化、半结构化、非结构化数据,如交易数据、日志数据、 影像视频数据等等 Velocity 速度快 近实时数据处理(即席
3、数据分析) 实时访问(如历史数据查询) 流式数据计算(如反欺诈) 大数据时代,技术面临着Volume、Variety、Velocity 3V的挑战 目录 我行新一代数据集成平台能力要求 业内大数据技术的特性及应用研究 技术特性研究 技术应用研究 我行大数据技术的应用策略 5 大数据技术一览图 6 大数据技术主要包含应用领域(如商务智能)、基础设施领 域(结构化数据库技术、分析型数据技术等)和基础技术领 域的各种相关技术。 重点调研的相关大数据存储技术产品调研 基于商用硬件的分布式数据库技术 HADOOP技术 对于大数据技术、产品的调研分两类进行,即关系型数据库与非关系型技术,前 者以基于X86
4、的MPP技术为代表,后者以HADOOP技术为代表 大数据技术特性研究结论 8 分析维度X86 MPPHADOOP 数据特性仅支持结构化数据 支持非结构化、半结构化、 结构化数据 扩展性可扩展至数百节点可扩展至数千个节点 数据可靠性每份数据只有一个备份每份数据可有多个备份 产品成熟度 介于传统关系型数据库与 HADOOP之间 新技术,产品与技术均不成 熟 易开发性相对容易 与传统数据库差异较大,开 发复杂 运维管理缺少统一的运维管理工具 复杂,缺少统一的运维管理 工具 人员技能要求 一般,仅需熟悉传统关系型数据 库 高,需要对产品、技术及程 序设计有深入理解 基于X86的MPP技术与传统分析型数
5、据库的差异不大,但是提供了良好的扩 展性,适合替代现有技术进行关系型数据的分析 HADOOP技术支持的数据类型多,扩展性强,适合海量非结构化的数据分析, 但技术不成熟,需逐步试点 目录 我行新一代数据集成平台能力要求 业内大数据技术的特性及应用研究 技术特性研究 技术应用研究 我行大数据技术的应用策略 9 美国银行大数据技术应用情况 10 技术类型产品 系统/机 柜数 集群容量 (PB) 数据量 (PB) 应用领域使用案例 专有一体 机 Teradata2453.1数据仓库企业/集中式数据仓库 Netezza80+2.81.1数据集市OLAP Exadata10+10.08 数据集市(OLAP
6、 和 OLTP混合) 全球人力资源部、CRC (客户报告中心: 22TB)、AMT 基于商用硬 件的分布式 数据库 Vertica20.570.34数据集市OLAP Hadoop技 术 Cloudera Hadoop 若干1.61.6 ETL 集团DW 、电子商务、信 用风险 数据暂存与归档 银行卡系统过期数据归 档; 集团数据仓库数据归档 信息安全 数据库、防火墙、应用 程序等日志存储与分析 风险分析 定量风险技术 (最大的 Hadoop应用集群,173台 机器,1.6PB未压缩数据)、 欺诈检测 沙箱分析 美国银行在数据集市领域大量使用X86 MPP技术,HADOOP主要用于ETL、数 据
7、归档、日志分析及风险分析等应用 美国银行未来大数据技术应用 11 产品美国银行的最佳定位 战略性产 品 IBM Netezza 纯分析性的工作量的首选解决方案。高性能和高扩展性。费用较低,比 Exadata 或 Teradata 更容易 进行管理。并发性方面的局限,使其适用于数据市场,或可能适合小型部门的数据仓库。 是 Oracle Exadata 适用于 I/O 要求极为严苛并需要 20 TB 以上的交易/分析混合工作量。能够处理同一系统中的多种工 作量。也可视为适用于 20 TB 以上的分析数据库(目前运行的是标准 Oracle 数据库),因为它比 Netezza 更容易移植 是 Vert
8、ica (HP) 作为一种新兴的主要候选方案,可替代 Netezza 和 Exadata,为大型数据市场或部门数据仓库(20 TB 以上)提供基于商品的列式数据库。通过创新的写优存储和读优存储以及经验证的 PB 级别,扩展 架构。在美国银行进行了两项重大且成功的实施。 是 Sybase IQ (SAP) 列存储的首个商业实施。稳定、成熟的产品。许可交易使部署不受任何限制。通过标准的 x86 服务 器和 SAN 运行。以前不属于扩展解决方案,且在这方面仍未经过验证。计划作为 5-20 TB 数据市场 的首选商品方案。 是 Teradata 行业标准,适用于大型、要求高和复杂的企业数据仓库,此类数
9、据仓库需要复杂的工作量管理和其 他高级功能。高度专有化、昂贵且不易获得支持。美国银行的使用应仅限于 W 数据仓库,以及可能 需要与 W 进行极高水平集成的某些数据市场。 是 SAP HANA 最佳用途是为运行 SAP 软件的应用程序实现加速。对于一般的非 SAP 工作量,不必采用此解决方案。 亦没有证据证明,HANA 在 SAP 前端之外的市场广受欢迎。 否 ParAccel 产品的发展速度非常快。供应商声称自己在 POC 方面无人可及。创新的架构和光纤通信。这是此表 中唯一一个仍归小型独立供应商所有的解决方案。需要考虑供应商的规模、稳定性和长期生存能力。 尽管技术令人印象深刻,但目前没有计划
10、将 ParAccel 作为战略性产品。 否 结构化数据分析领域,Netezza、Exadata、Vertica、Teradata及Sybase IQ 是美国银行未来的战略产品 国内银行同业 中国银行 采用HADOOP实现系统日志的分析 中国农业银行 进行历史数据的归档 中国银联 历史数据归档 12 目前中行、农行、银联等都已经开始了基于HADOOP技术的应用 探索及规划 淘宝大数据技术应用情况 13 应用领域 n 批处理: ETL数据分析,OLAP大数据量分析主要使用Hive 点击流日志分析; 搜索排行榜和其他搜索相关的业务 机器学习 n 数据生命周期管理: 归档存储: n 历史订单明细查询
11、n 应用规模 3000多个节点,36PB数据,20多个事业群,150多用户组,3000多用户。 Hadoop应用发展历程淘宝数据服务平台架构 淘宝采用HADOOP技术构建了完整的数据仓库及处理分析平台 大数据技术应用研究结论 14 关系型数据领域 非关系型数据领域 Teradata主要用于数据仓库 X86 MPP技术在数据集市中得到广泛应用 HADOOP技术在如下领域得到广泛应用 数据归档存储 ELT 半结构化数据分析 随着HADOOP技术快速发展,其对关系型数据的处理支持也越来越强,关 系型与非关系型数据的处理技术边界已经日渐模糊,后续应用HADOOP技 术可能实现统一的数据处理分析平台 目
12、录 我行新一代数据集成平台能力要求 业内大数据技术的发展及应用研究 我行大数据技术的应用策略 15 我行大数据技术应用规划建议我行大数据技术应用规划建议 技术应用领域建议技术应用领域建议 ORACLE满足OLTP类应用需求X86 MPP 在某些非关键应用领域作为TERADATA 的替代技术,降低应用成本; 复杂的历史数据查询(如:多表关联,查 询条件可自由组合的查询) Teradata 核心数据仓库应用 海量、多维度的复杂数 据分析 HADOOP技 术 历史数据归档; 简单历史数据查询(查询 条件固定的单表查询); 半结构化数据分析; RDW区 (ORACLE Exadata) SOR区 (X
13、86 MPP) ADW &CM区 (TERADATA) LDS区 (X86 MPP+HADOOP) HDS-归档区 (HADOOP) HDS-访问区 (HADOOP+X86 MPP) Staging区 第三阶段 引入基于X86平台的 商用硬件的分布什 数据库产品,以较 合理的性价比,提 高海量数据的计算 能力 与时俱进、积极应用 总体规划、分步实施 制定计划、稳步推进 第二阶段第一阶段 引入遵行HADOOP技 术标准的HADOOP技 术产品,实现: 海量结构化历史 数据的归档保存 信息安全日志的 存储与分析 扩展HADOOP技术的 应用范围: 电商数据分析 其他场景 我行大数据技术应用实施路径
14、建议 不断丰富大数据 技术上的应用功 能,形成我行完 善的大数据技术 应用体系。 17 HADOOP技术选择方案比较 18 详细见: 比较项 方案 方案一:采用 免费开源发行 版Cloudera Hadoop 方案二:采用商 业开源发行版(如 Cloudera、 Hortonworks) 方案三:采用闭源的 HADOOP技术产品(如 Intel Hadoop、IBM BigInsights、EMC Pivotal HD) 是否关键指 标 成熟度与稳定性高高中是 应用案例与规模多多少是 产品和服务成本低中高是 运行维护成本高中中是 行内技术储备要求高中中是 国内支持力量弱一般稍强是 服务支持响应时间长较长一般是 运行风险高中中是 厂商依赖程度低中高否 开放程度高高低否 产品按需定制的灵 活度 高中低否 大数据技术应用初步实施计划 19 阶段主题开始时间结束时间 第一阶段 引入X86分布式数据库,分担 Teradata批量数据处理压力,合理 降低成本 已完成 第二阶
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 三踝骨折术后步态训练指导
- 转化膜工安全风险评优考核试卷含答案
- 机制砂石骨料生产工安全文化竞赛考核试卷含答案
- 生活垃圾处理工班组安全考核试卷含答案
- 非织造布制造工岗前内部考核试卷含答案
- 乙烯-醋酸乙烯共聚乳液(VAE)装置操作工班组评比水平考核试卷含答案
- 标本保管员岗前变更管理考核试卷含答案
- 柠檬酸微生物菌种工岗前竞赛考核试卷含答案
- 草地监护员操作规程模拟考核试卷含答案
- 印染助剂生产工持续改进水平考核试卷含答案
- 第16课 智能种植初探秘 课件 2025-2026学年人教版信息科技六年级全一册
- (2026年春季新版本)人教版三年级数学下册全册教案
- 深度解析(2026)《YDT 6231-2024 数据中心智能化运维综合管控技术要求》
- 病历与医疗质量提升的关键举措
- 适老化居家环境设计与改造(第二版) 课件全套
- 客服语音语调培训课件
- 2026年春大象版新教材小学科学二年级下册(全册)教学设计(附目录P130)
- 培训专员月报
- 2026年江苏省高职单招数学考试题库(附含答案)
- 湖北省2026届高三上学期元月调考英语+答案
- 《渔业法》2025修订解读:新制度亮点及职责条例强化
评论
0/150
提交评论