




已阅读5页,还剩65页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
运用Hadoop分布式架构补充传统架构 IOE 迎战大数据 2013年3月 提纲 Hadoop补充传统架构应对大数据Hadoop云计算架构解析Hadoop应用案例和云平台EasyHadoop RedHadoop介绍 Hadoop是什么 RedHadoop海量数据处理操作系统 存储 计算 HDFS MapReduce 数据仓库 Hive 数据库 Hbase 批处理 Pig 搜索 Solr 挖掘算法 Mahout BSP模型 Hama 分布式锁 Zoomkeeper 大规模搜索 Nutch Sqoop Flume 处理框架 分布式OS 生态系统 更多 Hadoop在云计算的位置 InfrastructureasaService以服务的形式提供虚拟硬件资源 如虚拟主机 存储 网络等资源 用户无需购买服务器 网络设备 存储设备 只需通过互联网租赁即可搭建自己的应用系统典型应用 AmazonWebService AWS PlatformasaService提供应用服务引擎 如互联网应用编程接口 运行平台等 用户基于该应用服务引擎 可以构建该类应用 典型应用 GoogleAppEngine F MicrosoftAzure服务平台 SoftwareasaService用户通过Internet 如浏览器 来使用软件 用户不必购买软件 只需按需租用软件典型应用 GoogleDoc S OracleCRMOnDemand OfficeLiveWorkspace 面向外部用户需求 通过开放网络提供云计算服务IDC GoogleApp Saleforce在线CRM 大型企业按照云计算的架构搭建平台 面向企业内部需求提供云计算服务企业内部数据中心等 兼顾以上两种情况的云计算服务AmazonWebServer等既为企业内部又为外部用户提供云计算服务 按提供的服务类型 按云服务的对象 IAAS PAAS SAAS IAAS 分布存储 分布计算 云计算核心技术有两极 3200台主机 传统架构 IOE 和云计算 虚拟化 的主要瓶颈 服务器 服务器 服务器 VPS VPS VPS VPS VPS VPS 存储阵列 数据移动 EMC存储 Oracle IBM 磁盘IO瓶颈 带宽瓶颈 计算瓶颈 传统架构 IOE 和云计算 虚拟化 的主要瓶颈 服务器 服务器 服务器 VPS VPS VPS VPS VPS VPS 存储阵列 数据移动 EMC存储 Oracle IBM 磁盘IO瓶颈 带宽瓶颈 计算瓶颈 cpu cpu cpu 基于共享存储和高性能计算的架构 IO能力和机器数量成非正比 计算能力和机器数量成正比 传统架构 IOE 和云计算 虚拟化 的主要瓶颈 数据移动 磁盘IO瓶颈 带宽瓶颈 计算瓶颈 移动计算而非移动数据 化整为零 128m 分片处理 本地化计算 并行IO 降低网络通信 交换机 HDFS MAP Reduce IO能力和机器数量成正比 计算能力和机器数量成正比 Hadoop补充IOE存储架构应对大数据 Hbase 使用Hadoop补充传统架构 IOE Hive Hadoop处于群雄逐鹿的春秋战国时代 Apache Cloudera MapR HotonWorks Intel 发行版本 IBM HP Dell 浪潮 曙光 云创存储 一体机 天云系 天云趋势 天云科技 友友 云创存储 解决方案 亚马逊 百度云 腾讯云 移动打云 云服务 为何Intel会大力扶植Hadoop 服务硬件体系的混战 X86 Power PCServer 小型机 提纲 Hadoop补充传统架构应对大数据Hadoop云计算架构解析Hadoop应用案例和云平台EasyHadoop RedHadoop介绍 Google云计算平台体系结构 2003 2006年在多篇学术论文公开 后端系统 Google数据分析平台 Google集群管理系统 存储 计算 HDFS MapReduce 数据仓库 Hive 数据库 Hbase 批处理 Pig BSP模型 Hama 分布式锁 Zoomkeeper Hadoop是Google三架马车的基础 HadoopHDFS GoogleGFS分布式文件系统 HDFS2的模块NameNode计算DataNode存储 HadoopMapReduce GoogleMapReduce面向大规模数据处理的并行编程系统 14 32 JobTracker TaskTracker MapTask TaskTracker MapTask TaskTracker MapTask TaskTracker ReduceTask TaskTracker ReduceTask 用户程序 JobClient 中间结果 中间结果 中间结果 输出数据 输出数据 提交作业 任务调度 任务调度 状态监控 状态监控 MapReduce的目标自动并行化 开发者不必关心底层并行处理系统的系统自动可靠性处理 开发者不必关心设备 网络的临时 永久的故障编程接口Java语言编程接口 C 语言编程接口 Pipes 其他语言编程接口 Streaming 可以采用Python Ruby Shell等 用户自定义map函数接收一个输入对 产生一个中间对 用户自定义reduce函数接收一个中间K 和对应的V 集 合并V 集 形成一个较小的Value集 HBase GoogleBigTable海量结构化数据实时存储访问系统 基于HDFS的主备Master 多个RegionSvr通过ZK构成集群数据按照三级索引组织 三次访问可以定位数据数据写操作在内存完成 但是需要对文件实施合并操作 提纲 Hadoop补充传统架构应对大数据Hadoop云计算架构解析Hadoop应用案例和云平台EasyHadoop RedHadoop介绍 Hadoop HiveCluster aliyun User phpHiveAdmin HiveServer Hadoop HDCluster 80Core 180GHZ 10TB 4GRAM 4Core 2 26GHz500GB 启动100个Map生成100亿数据 通过100个Map用Perl随机生成数据准备 1kw 1亿 10亿 100亿 100GB数据集通过Hive创建测试库表结构使用phpHiveadmin HQL查询返回结果 SELECTidFROMTablewhereidlike JA sq 模糊匹配查询出ID带JA sq的车牌号 1亿数据 并行5Map进程 144w s扫描速度 69s返回10亿数据 并行46Map进程 800w s扫描速度 117s返回100亿数据 并行453Map进程 5400w s扫描速度 3分钟返回 基本满足需求 SELECTid COUNT FROMTableGROUPBYid 对每个车牌号分组归并 并求出现次数 1亿数据 并行5Map进程 2Reduce进程 104w s处理速度 96s返回10亿数据 并行46Map进程 13Reduce进程 230w s处理速度 7分钟返回100亿数据 并行453Map进程 121Reduce进程 500w s处理速度 54分钟返回 Hadoop预算 其他方案的成本对比 投入成本 10TB预算 IOE IBM Oracle EMC 时代 x kw 自建Hadoop集群 20 4w 4w 80w 使用云主机构建Hadoop 20 7970 15 94w 年 千万时代 百万时代 十几万时代 初创型公司 中型技术型公司 政府 银行 电信 年成本 1 5w T 我们还有那些成本压缩空间 实施周期 IBM Oracle EMC时代 月 自建Hadoop集群 1年 半年 学习和培训 阿里云Hadoop时代 星期 月 季度 月 1年 半年 月 星期 个人 初创公司 中型公司 政府 银行 电信 月 1年 半年 中型公司 政府 银行 电信 维护成本 IBM Oracle EMC时代 规划 实施 维护 管理 厂商专业人员配合 每次按小时收费 自建Hadoop集群 学习 经验 人才培育 Hadoop云时代 统一专人管理和维护 统一维护 个人 初创公司 厂商专业支持 自己培养 中型公司 政府 银行 电信 使用开放的技术还是封闭的技术 Hadoop应用案例和云平台 UserCase1 智慧交通 用户 最大城市 交通领域 Citytraffic 场景 车牌记录 CarLicencePlate 100亿 10Billion 年需求 小时级别 优化到分钟级 Minute 未来优化到秒级 Seconds 查询 IntelligentTransportation SmarterCities 场景 车辆异常快速识别 VehicleAbnormal 交通安全问题 培训目录 移动 联通公司大数据平台 云计算案例分析 上海公司基于云计算平台的移动用户行为特征分析 移动用户行为特征分析模型 渠道偏好分析 客户细分 新业务关联 时间性能 数据处理性能增加约30倍 数据挖掘性能增加约9倍 整个应用性能提高约3 7倍 成本优势 成本降低6倍 运维耗电相当 占用机房面积更少 更高的处理能力 正确度 符合商业标准 云计算案例分析 江苏公司基于云计算平台的信令监测系统 基于云计算平台的信令监测系统实验 基于BC PDM的ETL进行API级别的二次开发 形成信令信息分析系统功能包括SMS信令信息分析SP提交短信过程分析SP提交短信成功率分析GPRS的GN接口信令分析GN接口通信过程分析GN接口信令过程分析 正确性100 数据查询 统计性能提高7 15倍 成本降低4倍 数据范围 一个月数据查询案例查询 返回以上功能的某个时段结果组合查询 满足4个复杂条件的查询 实验条件 单位秒 联通电信详单查询系统 业务问题提供所有手机用户的详单在线查询系统提供七大种类信息套餐及固定费 通话 短 彩信 上网 增值业务 代收费用业务扣费 其他扣费高峰时期提供千万并发用户在线查询请求已有方案使用两台IBMP5570小型机作为数据库服务器使用某关系数据库只存放3个月数据最多提供100查询 秒查询需要限制每个用户每天查询次数来保证系统稳定服务 联通电信详单查询系统 续 新方案数据规模可容纳360TB原始数据存放半年七大种类详单数据平均每天2TB新增数据导入新方案构建80台双路IA服务器集群 安装英特尔Hadoop发行版构建分布式数据库集群共提供400TB详单数据存储容量集群提供每秒80万条详单数据插入集群可以保证每秒2万条月详单查询请求 满足在线用户需要 成功案例二 联通电信详单查询系统 续 阿里淘宝的案例 每日新增数据20T累积数据14P3200 服务器的云计算平台每天处理100 000 作业任务 包括100 新增作业任务每天处理1P 数据 包括0 5 新增数据 总体数据规模 阿里金融通过大数据整合掘金 阿里金融的信用评估系统会自动分析小微企业的数据 例如企业通过支付宝 淘宝进行的支付数据 最终算出信用评估和放贷额度 截止2011年底 阿里金融对近30万家小微企业进行信用评估 累计投放96800家 投放贷款154亿 坏账率为交易额的0 76 阿里金融的实时业务墙 阿里金融的数据模型任务 局部 每个模型任务都是面向海量数据的大规模运算任务 天猫 淘宝双十一191亿背后的开源技术 dbatools 双十一一天时间 支付宝核心数据库集群处理了41亿个事务 执行285亿次SQL 访问1931亿次内存数据块 13亿个物理读 生成15TB日志 数据应用开发平台 数据工场 DataIntegration DBsync TT Hive HadoopMapReduce HadoopHDFS Datax 报表需求 淘数据 Hbase 即席查询 adhoc 数据分析 数据挖掘 数据产品 淘宝数据平台 产品架构 实时计算 底层平台 数据开发平台 数据应用 成功案例四 暴风影音 从最早3个试验节点 到8个线上节点 到现在的30个节点 每天处理日志1 2T 20亿行 存储设计容量200TB对外提供产品分析 广告分析 用户分析服务 每天处理任务上千个jobs 数据系统的进化 一代 数据系统的进化 二代 数据系统的进化 三代 Hadoop技术其他应用领域 电信医疗交通公安 航空电力金融 搜索社交游戏视频 民生 核心 大数据时代需要跨越的巨大障碍 大数据 TB 大需求 大集群 3台 原有系统的改造和迁移 运维方式转变 编程方式转变 平台的数据迁移 人才的匮乏 工具的缺乏 厂商 版本 数据安全 商业模式和模型的转变 大量资金的投入 无法的看到产出 大数据思维方式和模式转变 海量用户 大规模批量服务 服务1 0 决策逻辑 数据库 用户1 逻辑1 逻辑N 数据集 编辑人员 用户N 编辑 逻辑 信息生产者 信息消费者 Mysql Oracle 大数据仓库 海量用户 大规模个性化服务 服务2 0 决策逻辑 大数据库 用户1 逻辑1 服务数据1 用户N 逻辑N 服务数据N 原始数据N 挖掘逻辑N Hive Hbase Storm Hadoop 原始数据1 原始数据2 信息生产者 消费者 规则制定 上帝之手 本质 智能组织 智能群体 实时 由被动的IT支撑向主动的以数据为核心的IT服务转型 深度拥抱互联网 提纲 Hadoop补充传统架构应对大数据Hadoop云计算架构解析Hadoop应用案例和云平台EasyHadoop RedHadoop介绍 52 市场需求 开源Hadoop之路那些难点 为什么推出EasyHadoop版产品 开源hadoop的开发困难之处 1 难安装 部署 配置2 难管理 监控3 难学习 算法开发4 应用少 难使用5 找人才难6 托管难 管理网络难 EasyHadoop立志将Hadoop的 易用性 可用性 做到极致 Hadoop类似DOS Linux 命令行操作 界面化提升Hadoop管理 1 HAProxy用作Hive负载均衡2 编写Daemon程序用作进程监控 防止进程挂起3 编写任务监控脚本 失败任务自动重试4 编写集群快速安装部署软件EasyHadoop5 编写Hive查询界面phpHiveAdmin 做开放数据平台6 监控工具Cacti Ganglia Nagios一个都不能少 监控越详细越好 56 Easyhadoop RedHadoop产品和社区 ChinaBigData社区 Easyhadoop社区 RedHadoop 培训 讲座 开源软件 开源社区 技术出版物 聚会沙龙 RedHadoop一体机 RedHadoopCloud RedHadoop发行版 聚合和培养客户 用户 合作伙伴 品牌 渠道 打造高价值产品 产品 举办大会 咨询 Hadoop核心 Apps管理器 Apps应用程序 理念 大数据驱动智慧地球 智慧城市 57 行业解决方案 电信 医疗 交通 互联网 Apps应用层 AppsStore phpHiveAdmin Rhadoop EasyPig CronHub ETL Report RedHadoop发行版方案 AppsManager管理层 用户 权限 核心算法图像 视频 文本 挖掘 Hadoop Hbase核心存储和计算 虚拟化系统管理 NOVA 海量数据分布式文件系统HDFS RedHadoopBigDataCloud技术架构 搜索引擎 开源的Linux Windows操作系统基于Xen的虚拟机 分布式并发控制 Zoomkeeper 结构化海量数据管理Hbase 并行程序MapReduce 数据挖掘工具库OS Mahout pig 搜索引擎核OS SolrCloud 云计算应用层 各类新型IT支撑系统搜索引擎邮件系统等互联网应用 云计算服务层 数据挖掘 挖掘应用的算法工具数据仓库 提供海量对象存储能力搜索引擎 提供基本的搜索引擎能力 云计算平台层 MapReduce2 BSP 并行程序框架Hbase 结构化数据存储HDFS 海量数据的分布式文件系统CloudFoundry 多语言应用部署平台openstrack Swift 海量对象存储系统openstrack NOVA 云计算平台系统管理 虚拟化资源层 构建在海量同质化的PC与不可靠硬盘上使用开源的openstrack Xen提供计算资源的虚拟化运行于开源的CentOSLinux系统之上 对象存储系统Swift 并行程序BSD Hama MPI 数据仓库 ETL ReportOS Hive MRQL CloudFoundry 应用部署 广告引擎 存储 搜索 语音API IOS Android本地APP 桌面 移动浏览器 RedHadoop国产安全Hadoop发行版本 1 优先解决数据和平台安全问题 20 03 2020 RedHadoop存储计算一体机 交换机 DataNode JobTracker HiveServer RedHadoop核心节点 NameNode JobTracker Apps管理器 Apps应用程序 DataNode JobTracker DataNode JobTracker DataNode JobTracker 产品特性 集成RedHadoop正式发行版集成Habase数据库发行版集成phpHiveAdmin EasyHbase工具集具备最高上百T存储容量 DataNode JobTracker 4U45个磁盘180T存储 5w 实现高性价比集群 命名节点 NameNode 高密度计算 高密度存储 DataNode10T DataNode10T DataNode10T DataNode10T DataNode180T DataNode180T data back 集群内迁移 20 03 2020 Easy Red Hadoop社区产品线 Hive平台化 EasyHaoop版和Hadoop开源版的区别 EasyHadoopappsManager Hadoopapp安装管理平台 解决Hadoopapps管理问题 集成软件有 EasyHad
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业对外合同评审与签批表
- 农业互助资金借款与收益分配协议
- 企业财务代理记账及报税服务合同
- 土地流转价格确定合作协议
- 企业培训项目定制开发合同
- 品牌代言与推广合作合同
- 品牌营销策划执行协议书
- 环境监测与分析服务协议
- 经典版房屋分割离婚协议书3篇
- 生产专利技术实施许可协议4篇
- 5G-Advanced通感融合网络架构研究报告(第二版)
- 五倍子提取物对临床分离鸡源大肠杆菌的抑制作用研究
- 2025年反洗钱知识竞赛多选题库及答案(共70题)
- 2025时事政治考试题库及参考答案(公职考试)
- 2025年秋苏教版小学科学四年级上册教学计划
- DB32 T538-2002 江苏省住宅物业管理服务标准
- 农业可持续发展指标体系
- 2024年危险化学品经营单位主要负责人试题题库
- 2024届贵州省贵阳市高三下学期适应性考试(二)物理试题
- 癌因性疲乏治疗指南
- 大象版(2024)小学科学一年级上册教学设计(附教材目录)
评论
0/150
提交评论