版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
前言绪论一、纵观大数据发展前景1.人们不再止步于大数据的谈论
2014年,大数据止于说的情况将发生改变,人们将致力于从中获益,所有大数据的炒作也将“烟消云散”。从Gainsight了解到,大数据本身也将成为桌面上的筹码,Gainsight在其IaaS平台中利用大数据分析被其称之为“customersuccessmanagement”的服务。Gainsight认为,在2014年,每家云应用程序提供商都将会让其后端基础设施支持大数据。2.Hadoop在大中型企业普及应用将成为企业的关键组件
Hadoop将普及,大数据也不会再继续止步于云服务。Alteryx认为,2014年,Hadoop的适用场景将超越批处理和存储,将成为企业数据架构中通用的核心组件,这意味着数据分析将继续成为大数据的首要用例。3.企业将更加钟情于用户数据
从Gainsight了解到,各个机构将对用户数据充满热情,企业将充分利用客户与其在线产品或服务交互产生的数据,并从中获取价值。为了实现这点,数据分析能力将比BI团队更受重视,为企业提供更多的价值。
4.大数据为王的时刻将要玩转市场决策
Alteryx认为,在2014年,大数据将首次正式登陆市场营销,用于市场营销的大数据技术将在这一年扮演重要角色——影响着广告、产品推销和消费者行为,WorldCup及WinterOlympics将是其最大的舞台。5.海量的数据将超越数据科学家的意识
Alteryx认为,新型的数据分析需求将超越人力可为,有些情况下大数据技术将堪比成千上万的数据科学家。该公司预测,这将会毫无疑问的拉低数据科学家薪酬。6.物联网将进军网络
IEEE的专业协会认为,2014年,可识别事物将无缝的连接到信息网络,实现真正意义上的WebofThings。TheWebofThings将会充分利用移动设备和传感器的监控能力,增强现实世界中的物体与Web副本之间的协同性。
TheWebofThings将会生成大量与现实世界相关的数据,因而会需求智能化的解决方案在现实世界与相对应的数字世界资源之间赋予连接性、网际互连和相关性。7.从大数据到海量数据
数据的体积、速度和类型(volume、velocity和variety)在2014年将会继续呈指数级增长,因此需要更简单的分析工具来驾驭这些“数据洪流”。
IEEE称,“不止是3个V让大数据成了非常难以制服的老虎,数据科学家及行业所需简单工具也是个难题,许多行业尚无独立提取数据价值的能力。当前已出现的海量数据时代更需求数据管理和分析上新的范式和实践。2014年,这个领域将上演群雄争霸。”8.R语言将取代传统SAS解决方案
Alteryx认为,基于R编程语言的分析将数据科学家“御用”模式,这种分析在2014年将成为主流,将替代传统的SAS及SPSS模式。Alteryx说道:“超过200万用户和300万的分析师都在寻找更好的解决方案,R恰逢其时。”9.Hadoop将增加实时特性
SQL-on-Hadoop供应商SpliceMachine共同创始人兼CEOMonteZweben指出,未来1年建立在Hadoop平台上的交互式应用程序将呈爆发式增长,其中包括Web应用、移动应用和社交应用,人们可以与之进行实时的交互。
Zweben说道:“2014将带来实时大数据应用程序平台,企业将不会只能像当下一样分析历史数据,你将有能力分析5分钟,甚至是1分钟之内的数据;企业将拥有交互式应用程序,以便实时的制定决策。”10.Hadoop将得到企业级强化
SpliceMachine的Zweben说:“毋庸置疑,Hadoop是个了不起的平台,但是仍然有许多工作要做。”他认为,在2014,你将看到Hadoop向安全、运营管理、资源管理及多站点响应方向发展。Zweben补充道:“你将看到所有的企业级需求,我认为这些将是未来主要的焦点。”
11.2014年底,至少有一家NoSQL
IPO
大数据及云环境安全解决方案Gazzang董事长兼CEOLarryWarnock预测,在2014,至少有一家Hadoop或者NoSQL供应商会IPO,这标志着大数据平台已被广泛认可。
Warnock说道:“我不会去预测哪家会IPO,但是至少会有一家Hadoop或NoSQL供应商IPO。通过Wikibon了解到,在2012年,NoSQL软件和服务创造了2.86亿美元的税收,而在2017年,这个数据被预测为18.25亿。商场被不断增长的企业需求推动,他们需要灵活、可扩展及负担得起的数据管理解决方案,为新时代的云及大数据设计。”
12.一个新的分析堆栈将诞生
Alteryx预测,2014年,将出现一个新的数据及分析堆栈,为数据库、分析、可视化提供新的解决方案,这将直接威胁到传统的供应商巨头,而这些供应商也会在匆忙中推出新的解决方案。二、大数据基础概论简介2.1大数据(BigData)是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高,或者其结构不适合原本的数据库系统。为了获取大数据中的价值,我们必须选择另一种方式来处理它。
数据中隐藏着有价值的模式和信息,在以往需要相当的时间和成本才能提取这些信息。如沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数据中挖掘信息。而当今的各种资源,如硬件、云架构和开源软件使得大数据的处理更为方便和廉价。即使是在车库中创业的公司也可以用较低的价格租用云服务时间了。
对于企业组织来讲,大数据的价值体现在两个方面:分析使用和二次开发。通过大数据创造出新产品和服务的商业行为并非巧合,谷歌、雅虎、亚马逊和Facebook,它们都是大数据时代的创新者。
2.2大数据的特征
作为一个包罗万象的术语,“大数据”相当的含糊不清。同样的,“云”这个概念也涵盖了不同的技术。大数据系统的输入端可以列一个极长的表,包括了社会网络、Web服务器日志、流量传感器、卫星图像、广播音频流、银行交易、摇滚音乐MP3、网页的内容、政府文件扫描、GPS路线、金融市场数据等等。而这些数据本质上并非是相同的东西。
IBM公司把大数据的特征概括成三个“V”,也就是规模(Volume),快速(Velocity)和多样(Variety)。这三个方面是观察数据本质和软件处理平台的有用视角。
几家典型公司的大数据:95%的中国网民,日均响应80%,百度联盟,60万联盟合作伙伴每天有50基础。变现模式:榜;百度数据中心,广告站长和开发组提供的百度(移动)统计以及相关的开发者服务工具腾讯则超过亿QQ活跃账户,4.69亿微博用户和超过1亿的视频用户、亿QQ空间用户,微信、手机管家等带来的移动用户也超过了4亿,海外用户快超过1除却海量用户,庞大服务矩阵,化、碎片化、海量化。变现工具只有:腾讯分析和腾讯罗盘马云宣称平台、阿里未来本质上是一个数据公司,电商越来越离不开数据,金融的核心也是、KPI系统、数据门户、活动直播间、卖家云图、页面点击、黄金策;给客户提供的数据魔方、无量神针和类目360、淘宝指数最具备划时代意义的2012年阿里又推出了聚石塔产品可处理的订单超过天猫总量的20%,比平时增长20倍。应用上走得是最远的。
2.3规模(Volume)
能处理大数据所获得的好处在于能对大数据进行分析。更多的数据强于更好的模型,如果你的预测模型可以考虑到300个变量而非仅仅6个变量,其预测能力多半能更为准确。
大数据的规模是传统IT架构所面临的直接挑战。它要求可扩展的存储和分布式的方法来完成查询。许多公司已经拥有大量的存档数据,但却没有能力来处理它。传统的关系数据库无法处理大数据的规模,目前可选择的方法包括大规模并行处理架构、数据仓库、或类似Greenplum的数据库、以及ApacheHadoop解决方案。其中,数据仓库比较适合于预先确定的数据结构和变化缓慢的数据。而ApacheHadoop则没有这些限制。
Hadoop的核心是一个分布在多个服务器上的计算平台。它作为开放源码首先由雅虎开发并发布,它是谷歌所提出的MapReduce方法的实现。Hadoop的MapReduce包括了两个阶段:向多个服务器和操作系统分发数据,即map阶段,然后重组并行计算结果,即reduce阶段。
Hadoop利用自身的分布式文件系统(HDFS)来存储数据,这使得多个计算节点能获取数据。一个典型的Hadoop使用模式包括三个阶段:加载数据到HDFS、MapReduce操作、从HDFS检索结果。这个过程本质上是一个批处理,适合于分析或者是非交互式的计算任务。正因为如此,Hadoop本身不是一个数据库或数据仓库的解决方案,而是分析的辅助。最知名的Hadoop的用户之一是Facebook。它的MySQL数据库存储核心数据。然后再反映到Hadoop系统进行计算。计算结果会再次转移到MySQL,以提供给用户的页面使用。三、大数据七点总结:一种思维:数据思维 三大趋势:泛互联网、垂直一体化、数据是资产。四大步骤:入口、流量、数据、变现五大标准:活性、颗粒度、维度时空、情绪七字心决:专注、极致、口碑、快四、大数据进修学习内容模块及发展方向 4.1 Linux学习知识概要(安装)Linux简介Linux与Unix区别Linux安装Linux常用命令与Unix异同Linux文件系统Linux用户及用户组管理 实验:1)安装,2)常用命令的使用3)常用服务配置4)用户配置5)网络管理(管理) Linux系统性能分析Linux网络管理及配置Linux安全控制Linux存储管理Linux系统服务 目标:掌握Linux基本操作和管理知识 4.2Hadoop分布式计算学习目标:掌握MapReduce程序开发及Hadoop集群运维知识(架构原理)大数据时代及Hadoop简介Hadoop集群安装部署HDFS部分HDFS原理和体系结构访问HDFSHDFS常用JavaAPI详解HDFS中的重要文件存储结构HDFS数据读写原理 (实验):部署Hadoop集群编写简单和复杂的MapReduce程序元数据备份及管理使用Ganglia、Nagios对Hadoop进行监控使用dfsadmin和fsck对Hadoop集群进行管理掌握Hadoop集群日常维护1、datanode节点磁盘损坏故障恢复2、datanode节点硬件升级替换3、datanode节点故障宕机恢复4、datanode节点磁盘损坏处理5、namenode高可用方案实战 6、namenode故障宕机后的metadata数据恢复7、namenode主备节点热切换要求具备基本的Hadoop知识(开发维护) HDFS数据压缩机制HDFS元数据管理方法与技术HDFS数据块存储管理方法与技术HDFSHAMapReduce部分MapRedcue工作原理MapReduce组件详解MapReduceJob执行流程介绍Streaming编程MapReduce任务调度 (Hadoop的最新框架原理) 什么是Hadoop2.0Hadoop2.0与1.0对比YARN原理和基本架构YARN安装部署运作机制 (Hadoop运维监控) Hadoop运维Hadoop运维管理,常见故障openTSDB实战MapReduce作业调优案例讨论 4.3大数据存储(Hbase)学习目标:掌握HBase主要功能,熟练使用API开发应用程序,掌握集群运维方法(HBase简介和架构) NoSql数据库与关系数据库的对比HBase基本概念HBase应用场景HBase架构和核心模块介绍HBase存储逻辑结构介绍集群下安装部署HBase启动HBase,启动顺序测试启动多种方法实验:部署HBase集群通过Java程序管理表通过Java程序增删改查数据编写过滤器精细控制数据编写2种协处理器程序HBase表管理HBaseRegion转移和备份Split&Compact策略regionserver日常维护master日常维护 (HBase核心知识点) 基本方法:Get/Put/Scan/Delete列式存储核心:LSM日志系统:WAL底层存储:HFile复制、备份:Replication过渡期:RIT分裂、合并:Split/Compact负载均衡:LoadBalance批量记载:bulkload监控系统:OpenTSDB主键设计:keydesign二级索引:secondaryindex协处理器:Coprocessors过滤器:bloomfilter版本:version (Hbase管理与案例) 集群管理和监控性能优化nativejava接口shellclientthrift接口案例(需求剖析、架构设计) (Nosql技术发展) 主流NoSql产品简介:Cassandra、MongoDB、CouchDB、RedisNoSql产品优缺点比较、性能比较 4.4大数据存储(Hive数据库)学习(原理)Hive概念Hive架构原理如何利用Hive用户接口提交作业Hive主要配置详解 目标:掌握HQL语法及调优方法实验:使用HQL语句和自定义函数实现简单和复杂的数据统计 (使用) HiveQL语法讲解及使用编写UDF及UDAF、UDTF函数Hive与HBase的整合HiveQL优化与执行计划Hive日志管理hive输入lzo文件格式时会产生中文乱码•分隔符入库问题(如何定制分隔符入库,比如€)(管理和优化) •多级存储迁移(数据生命周期)•如何找出低效的hive任务•使用Hive分区策略HIVE查询中分区剪裁失效案例分析•使用Lzo压缩优化数据存储容量•CPU与IO配比•编写Hive自定义MapReduce脚本优化查询•Hive数据倾斜和查询性能优化解决hive数据倾斜的多个案例分析Mapjoin解决数据倾斜优化小文件过多的sql介绍一下大表之间join或groupby或distinct产生倾斜解决的案例•使用Sqoop工作原理和进行数据分析•使用oozie配置工作流编写程序注意规范 4.5大数据相关技术Pig学习 Pig简介安装和运行PigPigLatin详解 命令行使用以及配置选项介绍目标:掌握PigLatin使用方法 4.6ZooKeeper协调管理学习目标:了解ZooKeeper在Hadoop系统中的作用,掌握基本运维知识 概念介绍和基本原理集群安装部署ZookeeperServer角色 实验:搭建ZooKeeper集群 ZookeeperServer选举、同步和工作流程Leader的工作流程Follower的工作流程 Zookeeper的扩展Zookeeper的应用场景Zookeeper性能调优 Zookeeper性能调优数据一致性与Paxos算法案例相关技术 4.7 日志采集系统Flume 学习目标:掌握FlumeAgent和Collector配置 2天 具备Hadoop基础Flume简介Flume架构设计Flume原理及常见配置 Flume部署、安装、配置Flume常用Source、Sink、DecoratorFlume常用命令 Flume与Hadoop、HBase集成编写Source、Sink、Decorator插件 主要日志采集产品简介:Chukwa、Scribe、Kafka各产品之间优缺点比较 4.8Storm实时处理 学习Storm简介Storm安装部署Storm架构及工
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年阿克苏职业技术学院单招职业倾向性测试题库附答案详解(夺分金卷)
- 2026年陕西铁路工程职业技术学院单招职业倾向性测试题库含答案详解(预热题)
- 2026年长治幼儿师范高等专科学校单招职业技能测试题库带答案详解(基础题)
- 2026年青海交通职业技术学院单招职业技能测试题库及1套完整答案详解
- 环境影响评估与减排技术方案
- 施工现场临时用电管理方案
- 2026年工程风险征信服务合同
- 桥梁墩台施工技术培训
- 室内足球活动策划方案(3篇)
- 低端白酒-营销方案(3篇)
- 《数学课程标准》义务教育2022年修订版(原版)
- 解读2024年《学纪、知纪、明纪、守纪》全文课件
- 数字电子技术 第六版 课件全套 杨志忠 第1-10章 绪论、逻辑代数基础-可编程逻辑器件
- HG+20231-2014化学工业建设项目试车规范
- 2024年湖南高速铁路职业技术学院单招职业适应性测试题库附答案
- 中国肢端肥大症诊治共识(2021版)
- 《1.2种植凤仙花》说课稿、教案、教学设计和同步练习
- MOOC 数据库系统(上):模型与语言-哈尔滨工业大学 中国大学慕课答案
- 中间人提成合同
- 春季过敏性疾病医学课件
- 智慧供水方案
评论
0/150
提交评论