




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据平台基础介绍Page 1目录1. 大数据概念与hadoop简介2. 大数据行业应用3. 大数据架构简介Page 2Big Data名词由来2011年5 月,在“云计算相遇大数据” 为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big DataPage 3大数据市场趋向稳定Page 4大量数据存储海量计算数据分析大数据定义-不同的声音大量数据管理Page 5统一监控分析精准营销深入洞察另外IBM有大数据5V特征定义,增加了一个Veracity(真实性)什么是大数据维基百科:“大数据是指无法在一定
2、时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”IDC:一般会涉及2种以上数据形式,数据量100T以上,且是高速、实时数据流;或者从小数据开始,但数据每年增长60%Gartner:大数据的四个V:Volume、Variety、Velocity、ValueVolume:数据量巨大 集中储存/集中计算已经无法处理巨大的数据量Variety:种类和来源多样化 日志/图片/视频/文档/地理位置 Velocity:分析处理速度快 海量数据的及时有效分析Value:价值密度低,商业价值高 大量的不相关信息的进行复杂深度分析,深挖价值Page 6海量数据从哪里来人在web 2.0的时代,人们从信
3、息的被动接受者变成了主动创造者全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年每天亚马逊上将产生 6.3 百万笔订单每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EBGoogle 上每天需要处理24PB 的数据Page 7海量数据从哪里来机器Boeing:飞机每个引擎3分钟产生1TB数据,波音787 6小时飞行产生24
4、0TB数据CERN:大型强子对撞产生1PB/s的数据SKA:2015年存储需要1EB云化IDC建设催生了数据大集中Facebook:每天产生50TB的日志数据,衍生分析数据超过100TB“机器制造”和“人工制造”共同贡献了海量数据,集中式的数据中心建设加速数据集中User Profile结信化营主Page 8大数据的结构特征平均1个P数据中(例非互结联构网化公为司主)互联网:Google, 百度Facebook ,Twitter ,新浪.数据以非结构化处理为主在企业大数据中, 仍然是以结构化数据处理为主结构化半结构化非结构化35% 23%27%内容(ITEM,图像、视频、文本)数据用户行为轨迹
5、(个体)10 %5 %社交网络数据(群体) 21个历史详单查询Web Page & Log(例电构运为商)15%网络XDR (探针俘获后,含历史)计费CDR(含历史)CUBE和统一视图7%18%25 %互联网 Web Page & Log(含历史) 13%社交网络数据 3%内容(图像、视频、文本)数据 7%12%主数据(三户 + 订购+ 接触 等 含历史)分析汇总数据(含历史)Page 9传统的数据处理系统面临的问题,呼唤新的技术 海量数据的高存储成本 大数据量下的数据处理性能不足 流式数据处理缺失 有限的扩展能力 单一数据源 数据资产对外增值数据扩展性需求和硬件性能之间存在差距新的业务需求,
6、需要新的大数据处理平台Page 10数据处理技术分布式演进趋势:Hadoop成为开放的事实标准SMP+MPP混合特点:集群、ShareEverything 结构化、关系型 FlashCache+分布式块存储+IBHadoop特点:集群、ShareNothing 开放,、全球生态 结构化、半结构化、非结构化 高性能、实时MPP特点:集群、ShareNothing 结构化、关系型 通用的硬件SMP特点:单机、Scaleup 性能存在瓶颈 扩展性差Page 11揭开Hadoop神秘的面纱Hadoop是Apache基金会的一个项目总称,主要由HDFS、MapReduce和HBase等组成。HDFS是对
7、Google GFS的开源实现,MapReduce是对Google MapReduce的开源实现,HBase是Google BigTable的开源实现。Hadoop 来源于其创始人Doug Cutting的儿子给一头黄色大象取的名字。Hadoop最初只与网页索引有关,迅速发展成为分析大数据的领先平台。BookKeeperZooKeeperAVROPage 12HDFS原理简介分布式文件系统HDFS主要特点:存储大文件将大文件分割成很多小块存储流式数据读取,“write one read many”本身是分布式的,具备良好的可扩展性通过放开POSIX要求,极大改善数据读写性能HDFS不适合于:存
8、储大量小文件(1MB)实时数据读取需经常修改数据的场景YARNHDFSHiveMap ReduceHBasePigSqoop文件被切分成大小相同的块(最末尾的块可能小于块大小),并存储在不同的数据节点上。为确保文件块的容错性,同时提供更快的数据读取,默认每个数据块有3个副本,且分布在不同的数据节点DN上。File AFile BFile CDataNode,文件就放它上了。A CANameNode,元数据信息都在这。B BCDN #1DN #2DN #3NN #1BDN #4CDN #5ADN #6File DDDDPage 20原生HDFS的真实存储结构1Page 20原生HDFS的真实存储
9、结构2Page 20原生HDFS的真实存储结构3Page 13HBase原理简介分布式数据库HRegionServer内部管理了一系列HRegion对象,每个HRegion对应Table中的一个Region。HRegion由多个Store组成。每个Store对应Table中的一个Column Family的存储,即一个Store管理一个Region上的一个列族(CF)。每个Store包含一个MemStore和0到多个StoreFile。Store是HBase的存储核心,由MemStore 和 StoreFile组成。Page 14MapReduce原理简介分布式计算架构Apache MapRe
10、duce是google MapReduce的开源实现。是对并行计算的封装,使用户通过一些简单的逻辑即可完成复杂的并行计算。其核心理念是将一个大的运算任务分解到集群每个节点上,充分运用集群资源,缩短运行时间。Page 15Spark 迭代计算框架:重构M-R,优于HadoopSpark是UC Berkeley AMP 实验室基于map reduce算法实现的分布式计算框架,输出和结果保存在内存中,不需要频繁读写HDFS,数据处理效率更高Spark适用于近线或准实时、数据挖掘与机器学习应用场景Page 17Storm:流式数据处理框架,实时的HadoopStorm 广泛应用于实时分析,在线机器学习
11、,持续计算、分布式远程调用等领域。Page 18Storm处理原理特征匹配bolt统计bolt异常行为检测bolt输出拦截模块spout拦截数据不存储,先计算事件驱动实时响应,低延迟连续查询光纤MQ输入scribe旁路EventDataAlertsActionsNo waiting; Results delivered in-flightQueriesPage 19ZooKeeper简介 提供分布式锁的服务。例如,多个Master进程竞争主Master角色时,怎么样保证仅有一个Active角色存在?这就需要一个分布式的锁机制来保证。多个Master进程都尝试着去ZooKeeper中写入一个对应
12、的节点,该节点只能被一个Master进程创建成功,创建成功的Master进程就是Active角色。提供了事件侦听机制。例如,主Master进程宕掉之后,其它的备Master如何能够快速的接管?这个过程中,备Master在侦听那个对应的ZooKeeper节点。主Master进程宕掉之后,该节点会被删除,那么,其它的备Master就可以收到相应的消息。个别场景,可充当一个微型数据库角色。例如,在ZooKeeper中存放了Root Region的地址(Root Region原来是存在ZooKeeper中的!),此时,可以将它理解成一个微型数据库。“Master-1, Congratulations!
13、 Youare the active one!”“Sorry, Master-2. The activeseat has been taken by others.Please be patient!”Page 20第三方impala计算框架Page 20原生与第三方整体回顾与对比Page 20目录1. 大数据概念与hadoop简介2. 大数据行业应用3. 大数据架构简介Page 21大数据应用的行业分类经营分析电信信令金融细账金融票据电力调度智能电网经营类绩效报表文件社保分析纳税分析决策支持和预测管理类公安网监国安技侦舆情监控银监会稽查食品溯源环保监测监管类音视频地震勘探气象云图卫星遥感雷达
14、数据物联网专业类10%结构化30%半结构化60%非结构化互联网非结构化为主,价值密度低电信、金融结构化+非结构化金融结构化+半结构化政府结构化+半结构化政府非结构化“在大数据领域,不能充分形成大数据使用能力的竞争者将被淘汰”-McKinsey Global Institute电信、金融、政府等行业数据分析的诉求强烈,互联网已开始应用新技术处理价值密度低的大数据Page 22实时征信、精准营销、在线明细、精准小微贷、金融:大数据让银行更了解客户与识别潜在风险王五作为某银行客户,需要申请一张新的信用卡24周大数据平台客户信息系统交易系统信用系统Page 23电信:大数据支撑运营商向Digital
15、Telco转型2G2.5G3GB3G/4G语音封闭、垄断SPCP窄带数据有限程度开放SPCP宽带数据防御与竞合超宽带数字经济使能管道运营能力运营跨界运营商业架构企业架构网络架构网络资源为中心客户体验及生态圈为中心封闭开放、用户驱动、实时知识Silo云化, 业务感知, 自编排大数据平台数字经济驱动运营商彻底进行数字化重构M域O域B域一份数据,一次采集个人客户精准营销家庭客户辅助决策政企客户数据开放互联网客户. 一份存储,全局共享,全量分析Page 24公安:大数据实现在海量数据中快速检索出价值信息3000+万条记录, 1+亿张照片,约100TB12天检索信息耗时:大数据平台国内某大城市1天的卡口
16、数据:传统数据库平台模糊检索耗时:2分钟Page 25电商:亚马逊“预判发货”,顾客未动包裹先行顾客此前订单顾客搜索记录顾客心愿单顾客购物车顾客浏览行为大数据平台Page 26400万影视评分媒资:大数据让Netflix在纸牌屋开播前就知道会火3300万订阅用户行为300万搜索请求上线20天,点播400+万次大数据平台Page 27目录1. 大数据概念与hadoop简介2. 大数据行业应用3. 大数据架构简介11Page 28企业大数据平台架构主数据仓库基于高性能平台流数据处理CEP及流处理引擎Hadoop云基于低成本X86平台统一ETL层,数据采集和预处理结构化数据实时流数据互联网数据101
17、111多渠道访问门户开放支撑平台:基础服务、算法模型、自助分析、自助报表电脑智能手机PAD监控中心云化ETL、云化DW、实时挖掘、自助分析、跨域模型、并发查询、实时规则、知识自学习、内容语义分析等能力最终将在应用平台及多个数据平台中体现。包含关系型的主存储,也包含非关系型的HADOOP及流处理引擎DMZooKeeper(Coordination)OoziePage 29构建大数据平台技术组件(示意)结构化计算平台数据治理配置数据管理PortalERP-EBSNon-EBS DB仪表盘订阅发布即席查询分析维度管理主数据管理公共数据模型ScoreCard报表展现层Portal层调度文本挖掘社交媒体
18、结构化数据生命周期管理(数据/应用)数据质量管理技术元数据ROLAP DMMCAOffice 集成展现服务Mobile BI互动可视数据提取In-Mem DM元数据管理元数据管理应用批量抽取CDC&ETL服务转换加载分发实时获取平台监控管理ETL&调度计算平台非结构化化计算平台(Hadoop)Spark作业流管理:DWRDWRDW-I DW-I DW-ISqoop公共基础数据模型MapReduce资源管理:YARNHBASE分布式文件系统:HDFS电商论坛第一方数据数据收集&集成Flume/chukwa计算层存储层HIVE/PIGMAHOUT分析挖掘分析服务挖掘和预测Access For Ha
19、doop数据数据整合画像应用第一方数据第二方数据第三方数据产品推荐360度CRM标准报告特征分析Dashboard海量查询hive运维管理日常管理日常监控作业调度安全管理权限管理协同管理备份监控报警查询迁移大V 淘小米社区DP标签消费者微博 竞品Page 30 宝、京东标签服务配置(面向业务)标签配置(面向特征)特征配置(面向消费者)数据探针数据爬取 文件传输 数据库导入导出 数据同步数据拉通规则配置(面向数据)潜在客户预测竞品API运营支持数据应用数据服务大数据应用本身采集的数据非结构化数据数据交换爬取第三方标签DP标签库百度百科前端展现宏观画像基于业务场景微观画像营销领域投放人群特征营销人
20、群特征传播人群特征.人口属性营销特征微信营销DSP投放用户体验用户流失预警微博营销营销效果评估内容推荐活动效果评估消费者数据拉通和用户脸谱项目 - 应用架构营销 用户经营服务购买产品配置管理数据流用户归一化、数据清洗、标注化、结构化离线处理短期用户标签增量用户建模 增量业务建模实时计算引擎即时标签预测增量数据挖掘用户标签 用户长期特征用户建模 全量数据挖掘 全量业务建模批量计算引擎 长文本分析群体特征挖掘用户分群即时群体特征挖掘即时用户拓扑动态上网特征实时处理潜在需求社交图谱移动应用人群分发 数据分发用户经营领域花粉特征群细分影响力用户发现内容特征倾向.购物偏好当前需求投放效果评估服务领域满意度人群特征投诉/咨询特征主动服务群特征媒介决策购买购买价格特征活动购买特征官网场景特征兴趣/爱好内容偏好建议领袖发现用户动态关注产品领域用户需求特征APP应用特征竞品人群特征热点关注产品情感HBASEDataBridgePage 31Scaleout BlockScaleout Object分布式存储应用适配, Programmable接口通用服务器网络(交换机,路由器)存储节点分布式处理和分析实时处理和内存计算流处理内存数据库批处理(Hadoop)Hive,Pig,MashoutHcatalogMapReduce分布式数据库(MPPDB)SQLQue
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学三年级下册译林版英语第六单元测试卷+参考答案
- 西安电子科技大学毕业论文答辩专用模板
- 乡镇妇幼保健试题及答案
- 妈妈滑梯测试题及答案
- XX项目财政资金验收报告
- 突破传统纺织界限的思考试题及答案
- 常见化工面试题目及答案
- 冰雪旅游面试题目及答案
- 2024年纺织品设计师的创新能力试题及答案
- 广告设计师2024年考试核心概念试题及答案
- 《危险化学品企业安全生产标准化规范》专业深度解读与应用培训指导材料之7:5管理要求-5.7 操作安全(雷泽佳编制-2025A0)
- 发行碳中和债券对股价的影响分析:市场反应与策略考量
- 2025年统计学期末考试题库:综合案例分析题解题技巧试卷
- 城投企业面试题库及答案
- 2025高级铁路车辆钳工核心备考试题库及答案(浓缩300题)
- 2024年大学生就业力调研报告-智联招聘-202405
- 腰椎间盘突出症护理讲课
- 体检中心知识试题及答案
- 项目一废旧物品变折扇(教案)-2024-2025学年皖教版(2023)劳动四年级上册
- 乳腺结节健康教育课件
- 学校食堂副食品配送服务投标方案(技术方案)
评论
0/150
提交评论