大数据实时分析与应用案例分享_第1页
大数据实时分析与应用案例分享_第2页
大数据实时分析与应用案例分享_第3页
大数据实时分析与应用案例分享_第4页
大数据实时分析与应用案例分享_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据的实时分析与应用案例分享 上海云人信息科技有限公司上海云人信息科技有限公司 个人简介个人简介 吴朱华,专注于云计算和大数据这两个方向,之前曾在 IBM 中国研究院参与过多款云计算操作系统的开发工作, 包括 PureSystem 的原型机,同济本科,并曾在北京大学 读过硕士,在 2010 年底组建上海云人科技团队,在 2011 年中发表业界最好的两本云计算书之一云计算核心技术剖 析,在 2013 年的 3 月被福布斯评为中国 30 岁以下 30 位创业者。 云计算核心技术剖析云计算核心技术剖析 大数据的时代大数据的时代 来自麦肯锡的报告,未来的 10 年里,数据和内容将增长 44 倍,并且这些数据有无法估量的价值; 对于很多以数据为资产的行业, BI 决定公司的核心竞争力。 比如互联网广告,金融机构,大数据实时分析工具对他们而 言,就等同于竞争武器,快或慢一秒钟,往往就意味着财富 的得与失。 对传统行业来说,大数据的冲击来自三个方面:数据终端数 量的增长,例如智能电网和物联网;数据维度的变化,例如 消费行为与社交网络的关联;商业模式和管理模式的变化: 例如从产品消费到信用营销,从经验和直觉决策到数据智能 决策。三个因素组织在一起,使大数据发生了几何级数的增 长。 大数据需求大数据需求 新兴 行业行业 业务业务 传统 新兴 传统 快快 例如电信账单分例如电信账单分 拣:拣:从两周到一天 大大 例如智能电网:例如智能电网: 一个业务系统每 天 20 亿条记录 快快 阿里巴巴阿里巴巴:从商品销 售到保险信贷转型 大大 快快 社交网络社交网络 电商实时电商实时 数据挖掘数据挖掘 ,广告跟,广告跟 踪踪 部署部署 简单简单 商业模式转变 终端数量激增 竞争格局改变 BI决定核心竞争 力 大数据的阶段大数据的阶段 第一个阶段:自身业务需求产生大量数据,利用这些数据, 通过深入证析,优化相关业务; 第二个阶段:搜集与目标业务直接或间接关联的大量异质数 据,建立复杂的分析和预测模型,产生针对目标业务的输出 ; 第三个阶段:随着整体数据相关的法律不断补充,以及技术 不断成熟,形成一个完善的数据生态,包括数据市场,数据 运营商和数据商店等。 从技术角度而言,趋势是更实时,越快越好,更全面数据分 析需求,包括 SQL 、挖掘算法,以及以 Deep Learning 为代表机器学习技术。 大数据实时分析的目的大数据实时分析的目的 实时决策能力; 提高业务效率; 快速智能发现新观点和商业机会; 提供业务产出; 提升 IT 效率; 大数据实时分析所需的技术支大数据实时分析所需的技术支 撑撑 大数据秒级,甚至毫秒级的处理; 上千人的并发访问; 支持 SQL 标准,特别是 OLAP 相关的语句; 数据的安全和集群的稳定型; 大数据实时分析的技术选型大数据实时分析的技术选型 Hadoop 系列: Hive , Impala ; NoSQL 类别: MongoDB , HBase ; 传统关系型数据库: Oracle , DB2 , MySQL ; 传统列式数据库: Infobright , Monet DB ; 新一代基于内存计算的数据库? 技术选型的对比图技术选型的对比图 秒级处理秒级处理并发并发SQL 支持支持安全和稳安全和稳 定定 HadoopNoDependsDependsYes NoSQLYesYesDependsDepends 传统关系型数据 库 DependsYesYesYes 传统列式数据库YesDependsYesDepends 基于内存技术的 新一代数据库 ? YunTable 是在从分布式数据库的基础上发展而来,同时加 入一些 NoSQL 的基因的新一代大数据实时分析数据库,并 且支持内存计算,比较接近 SAP HANA 。 系统架构系统架构 核心特性核心特性 大数据,秒级内存计算; 采用廉价的 x86 硬件; 自动线性动态扩展至数百台集群; 每秒 GB 级别吞吐量, PB 级别存储量; SQL92 特性覆盖,并提供多平台的 SQL 驱动,还支持 R ; 核心技术核心技术 并行处理 行列混合存储 压缩 内存计算内存计算 并行处理:数据复制分布存储在不同的节点上并行处理 内存本地化:把大数据量和计算量分散到不同处理器 高可用性:任何节点宕机将不影响数据完整和业务连续性 核心技术(一):并行处理核心技术(一):并行处理 数据源 C1 C2 C3 C4 C1 压缩 C2 压缩 C3 压缩 C4 压缩 C1 复制 C2 复制 C3 复制 C4 复制 节点 1节点 2节点 3 行分区 保留数据关联 列式数据组织 高效的数据压缩 快速的数据聚合 优化的数据上载到中央处理器 专利的索引结构 核心技术(二):行列混合存储核心技术(二):行列混合存储 核心技术(三):高效压缩核心技术(三):高效压缩 多种无损压缩算法; 列式数据组织,整体压缩率高达 1020 倍以上 核心技术(四):内存计算核心技术(四):内存计算 硬件性能提升结合硬件性能提升结合 YunTable 软件技术创新,使原来通过大量磁盘读写处软件技术创新,使原来通过大量磁盘读写处 理的海量数据,可以在服务器的主内存中实时处理,提供实时统计分析理的海量数据,可以在服务器的主内存中实时处理,提供实时统计分析 结果!结果! 硬件性能的提升 X86 多核技术 64 位地址空间 单台服务器内存容量可达 2 TB 软件技术创新 行列混合存储 高效压缩 数据分片 高效索引 增量插入 具体实时分析场景具体实时分析场景 目标市场 金融证券金融证券 高频交易高频交易 量化交易量化交易 互联网与电商互联网与电商 用户行为分析 用户行为分析 商品模型分析商品模型分析 信用分析信用分析 电信电信 业务支撑系统 业务支撑系统 统一营帐统一营帐 能源能源 电厂电网监控电厂电网监控 用电信息采集分析用电信息采集分析 其他行业其他行业 智慧城市 智慧城市 物联网物联网 大数据资产大数据资产 实时分析案例:互联网实时分析案例:互联网 主要业务应用:主要业务应用:电商交易分析,社交网络,位置信息服务,广告交易 、跟踪分析等 典型用户:典型用户:某互联网广告公司广告投放效果实时监测 数据规模:数据规模: 100 亿条记录 关系型数据库的问题:关系型数据库的问题:不能满足 10 亿条以上记录的存储和查询要求 Hadoop 的问题:的问题:不能满足结构化数据的存储和实时查询要求 解决方案:解决方案: 1 、技术团队自行开发(例如淘宝,腾讯,新浪微博),优点:可以根据业务流 程进行模型优化,获得良好性能;缺点:对技术团队开发水平和人员数量要求 高,总体维护成本很高; 2 、选用 Yuntable 和 Exadata 、 Hana 、 Greenplum ,优点:使用和管理 简单;缺点:后三家购置成本高,性价比不高 导入操作的性能比较导入操作的性能比较 查询操作的性能比较查询操作的性能比较 项目项目YunTable 指标(秒)指标(秒) 频次分析9.492 重合度分析16.625 多维度分析11.408 具体的性能测试结果具体的性能测试结果 测试环境: YunTable 3 台 4 核 64G 内存 Dell 服务器 数据场景: 2.3 亿条互联网用户访问记录数据 实时分析案例:物联网实时分析案例:物联网 主要业务应用:主要业务应用:海量数据终端信息采集与用户行为分析 典型应用场景:典型应用场景:智能电网用电信息采集(子系统) InternetInternet 数据采集 服务器集群 传感网络 YunTable 实时分析数据库实时分析数据库 实时数据 RTDB ETL 工具 SQL (ODBC/JDBC) SG168ERP计费系统采集业务 无线采集器 数据集中器 商业建设的案例商业建设的案例 - 某物联网企某物联网企 业业 2012 年底,我们团队参与了某核心企业大数据实验室的 建设,并且建设过程中,我们在性能方面与 Oracle 数据 库进行了正面的 PK 。在本次 PK 中,我们无论在导入和 分析等性能方面,都远胜都远胜 Oracle。 导入操作的性能比较导入操作的性能比较 分析操作的性能比较分析操作的性能比较 实时分析案例:金融实时分析案例:金融 主要业务应用:主要业务应用:量化交易,高频交易 典型场景:典型场景:证券公司量化交易平台及各子系统 第三方行情数据库第三方行情数据库 第三方分析数据库第三方分析数据库 Level2 实时行情源实时行情源 Level2 实时行情源实时行情源 量化交易执行系统量化交易执行系统 CEP 引擎 ( Apama,Sybase Aleri) 行情计算服务行情计算服务 日内 K 线计算 分钟 RSI 计算 计算平台 计算 接口 量化 交易 策略 行情数据中心行情数据中心 分析数 据 历史行 情数据 YunTable 数据接 收接口 数据转 换工具 策略执行 结果评估 回测仿真 快速交易系统成交回报推送系统 模拟盘实盘 交易所 历史高频行情 数据回放 高频实 时数据 具体性能表现具体性能表现 查询时间查询时间 单日业务数据统计0.36 秒 单周业务数据统计0.58 秒 单月业务数据统计1.25 秒 单日股票代码汇总分析2.27 秒 单日多列汇总分析2.71 秒 单日账户汇总分析4.43 秒 单月股票代码汇总分析3.86 秒 单月多列汇总分析5.09 秒 单月账户汇总分析8.12 秒 实时分析案例:电信运营商实时分析案例:电信运营商 主要业务应用:主要业务应用: BOSS/NGBOSS 系统及各子系统 典型应用场景:典型应用场景: NGBOSS 业务运营支撑系统及各子系统 交换中心 CSC 业务管理业务管理 YunTable 运营数据 存储与提供 商业智能商业智能 运营管理运营管理 订单 枢纽 帐务 枢纽 客服 枢纽 鉴权 枢纽 决策 支持 YunTable 分析数据服务、 数据集市、数据仓库

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论