一文读懂大数据Hadoop大数据技术及相关应用1237_第1页
一文读懂大数据Hadoop大数据技术及相关应用1237_第2页
一文读懂大数据Hadoop大数据技术及相关应用1237_第3页
一文读懂大数据Hadoop大数据技术及相关应用1237_第4页
一文读懂大数据Hadoop大数据技术及相关应用1237_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一文读懂大数据:Hadoop,大数据技术及相关应用发布时间:2014-4-3010:25:47相关应用的门外汉,变成一个熟知其概念和意义的内行人主要内容1Wikibon2344.1Hadoop4.2NoSQL4.3大规模并行分析数据库56789Wikibon社区的大数据宣言解,这解化为行动,公司来的效和能。CRM统的数据库的务数据。k和和以及为大商业而的实时分析的这些为大数据。式行数据处理、分析和应用。这新方法包括开Hadoop,NoSQL数据库a和C的的a和a对待业务分析的方式。够快的做出数据驱动业务的决策,从而比竞争对手有效。从及支持大数据处理的务端技术为终端用来鲜活的新解的前端数据务供应商提供了显的变为现实的技术和服务,都将得到茁壮成长。的可能性几乎是无止境的。数据处理和分析:传统方式ERP和清洗过的数据被加载到企业级数据仓库。这个过会周期性发生,如每天或每周,有时会更频繁。1–传统的数据处理/分析资料来源:Wikibon2011(SAP的us和M的传统数据仓库的数据量很少超过几TB,因为大容量的数据会占用数据仓库资源并且降低性能。大数据性质的变化Web、移动设备和其他技术的出现导致数据性质的根本性变化。大数据具有重要而独“”并且体积越越大。具体说:-WebIT基础设施和其他源产生内部和防火墙外量每年都在成倍增加。-基于位置和日志文件)。-速度以及实时析需求正在增加。广义地说大由多个源产生包括:7亿k5亿r6公众放博客Facebook上Tweet和博客上文章发布及评论都会创建多”。50亿正在用移动电话而社会媒体用会产生大量移动设备也收和送位置网上交易:十亿网上购物、股票交易等每天都在发生包括无自动交易每IT度感器)都会创建半结构日志记录每一个动作。图2–从时间或成本效益上看仓库等管理工具都无法实现大处理和分PB技术采型储半对运高视技术向终端户达见解。已经确定了三改变务管市场HadoopHadoop雅ggpee年代初期开发网页索引户定义函它被设计来布并节PBEBHadoop集群运廉价商样压Hadoop现Apache软联盟(TheApacheSoftwareFoundation)项目百名贡献者断p部样每部被Hadoop如何p如半为它型各储集群什么地及哪节失效。旦被集群中它MapReduce框架进客户提交一“匹配通常Java该跟踪器引名称节确定完访问哪及所集群所集中位置Hadoop质征。p”集群另节中客户访问入环境进果了。MapReduce完了。旦MapReduce阶段完科学家高技巧后进步建模从Hadoop集群转移现型、等IT进进步Hadoop“。包括:pp;Hadoop集群中,提供数据存储位置以及节点失效信息节点。效。MapReduce作业或数据处理任务节点。除了上述以外,Hadoop生态系统还包括许NoSQL数据存储系统(如CassandraHBase)HadoopMapReduce??JavaMapReduceHadoopPig语言写是专门Hadoop设计HiveFacebook开发开源数据仓库,可以在Hadoop中建立分析模型。Hadoop和子项目指导手册:HBase,Sqoop,Flume:ApacheHadoop(/wiki/v/HBase,_Sqoop,_Flume_and_More:_Apache_Hadoop_Defined)Hadoop:优点和缺点Hadoop本并高效方式处理和分析大量非结Hadoop集群可以扩展到PB级甚至EBHadoopApacheHadoopHadoop。Hadoop、原技术样实施Hadoop集群对大量非结构化高级量专业Hadoop缺乏得众多企业维持复杂Hadoop集群利优势变得实此外Hadoop众多组p好消息些聪明IT人士ApacheHadoop项目做出贡献Hadoop实施管理供应商(HadoopClouderaHortonworks)ITIBM微软)正努力企业Hadoop、工具服务让部署管理这项技术为传统企业实际实初创企业正努力NoSQL(仅仅SQL)系统Hadoop提供近实决案。NoSQLNoSQLHadoop理大量多结构化但Hadoop擅长支持大规模、批量历史L大大规模维持基性能水LpeL,e(p为提供低延迟快速找功能。库包括:HBaseCassandraMarkLogicAerospikeMongoDBAccumuloRiakCouchDBDynamoDBNoSQL库缺点为了性能扩性原子性,NoSQL缺点源NoSQL社区少厂商努力都克服过程中这些厂商包括e商业化各种L。大规模库取大量结构化向外扩TBPB级SQLHadoop和相传统仓具有更快传统仓运单会受到个单瓶颈点限制。种架构每百计算偶尔出现或败不可避免列存储构关系型以构存储和列存储环境中由含必列决定语句答案”,不由整决定从导致瞬间可以得出意味不需传统关系那构造成整齐格。量且与传统数10110TB字节1TB编码(压缩以及相关技术)有效扩展到海量数关键。商硬件Hadoop群(肯定不全部)运戴IBM等厂商现成商硬件使他们够以具有成效益方向外扩展。内存中进有(肯定不全部使动态RAM或闪存进有SAPHANAAerospike)完全内存中运他则混合方即较便宜但低磁盘内存冷”RAM或闪存热”存储、和量半构化和非构化方法补LnHadoop擅长和量分布非构化以批方进历史NoSQL擅长为Web程序提供接p企可无缝地共享和见解。很预建连接Hadoop开发者和管员现种成有很多l原C和a将Hadoop最小调tSQLHadoop/MapReduceClouderaImpalaHortonworks项目通过开源倡议推策略。括S和uPlatforaDatameer)应用程序允许非核心用户与大数据直接交互。图3–现代数据架构 资料来源:Wikibon2013底层的大数据方法(Hadoop,NoSQL和大规模并行分析数据库)不仅是互补的,与大分大型企业现有的数据理技术互WikibonCIO们为了大数据方法“并企业现有的的数据库、数据集成和其他数据理技术。(3大数据供应商发展状况大数据供应商正在迅速发展。参见图4对一个细分市场的概述,对于大数据市场的详细分析,包括市场规模(现状及到2017年的五年预测)和供应商之间的大数据收入数字,详情参考大数据供应商收入和市场预测2012-2017。4–nHadoopFacebookLinkedInHadoopLinkedIn增强你认识该上消费相关p的wsk。析既以专于宏观层面情绪以细情绪。风险建模等公司Hadoop下代仓库析量交易“”户测欺诈信卡公司识别被盗卡交易大销团队拥量越越精细点击流呼叫详情记录以提高析准性。客流失析Hadoop析客并析模型,该模型指哪客最流向存竞争关系服务就采取最措施挽留欲流失客p确总那购买最花最钱那最够影响购买客面向消费Hadoop将单客体验。网络监控:Hadoop和其他大数据技术被用来获取,分析和显示来自服务器,存储设备和其他IT硬件的数据,使管理员能够监视网络活动,诊断瓶颈等问题。这种类型的分析,也可应用到交通网络,以提高燃料效率,当然也可以应用到其他网络。研究与发展:有些企业(如制药商)使用Hadoop技术进行大量文本及历史数据的研究,以协助新产品的开发。用例可能尚未被发现。这就是大数据的希望。大数据技能差距企业运用大数据的最大障碍是缺Hadoop重要了。这需要从两条战线进行攻击:和技术,为传统的IT和商业智能专业人士降低进入的门槛。这些工具和技术,必须从底层日常任务自动化的组合方式实现。其次,社会必须开发更多的教育资源,培养现有的IT和商业智能专业人士以及高中生和大学生成为我们未来所需要的大数据从业者。201814万~19万具备专业分析技能的万经理和分析师的短缺。造成短缺的部分原因是数据科学本身的规律导致的,因为数据科学要求各种综合技能。同事讲故事的能力。正如本报告中提到的,一些大数据厂商开始提供大数据培训课程。IT从业者具

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论