大数据分析与处理_第1页
大数据分析与处理_第2页
大数据分析与处理_第3页
大数据分析与处理_第4页
免费预览已结束,剩余1页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据分析与处理一、大数据分析与处理1. 文件批处理以 MapReduce 、Hive 为典型代表,批处理模式解决了传统的数据仓库无法处理海量 数据的难题。通过批处理计算引擎,使得海量数据分析成为可能。没有批处理引擎的诞生, 也就没有今天风风火火的大数据。数据通常积累到达一个周期后定期运行,也就是所谓的 T+1 数据,即典型的 T 为一天,即数据延退一天。批处理的业务通常一次可以计算很大量的数据,但对计算的时效性要求不高,通常来说一个 HiveSQL 可以轻松处理几 T 的数据,运行时间从几分钟到几小时不等,如果是百亿规 模的数据分析时间可能会到达数个小时。2. 内存批处理以 Spark 与

2、Impala 为典型代表,内存批处理与基于文件批处理很类似,只不过由于数据的处理过程中数据放在内存里甚至原始数据也在内存里,由于内存的读写速度远远高于磁盘的读写速度,所以一般内存批处理系统的查询计算速度远远高于文件批处理系统的计 算速度。但是内存系统的缺点也是不言而喻的,内存在当今的硬件时代还是比拟昂贵,而大数据领域的数据又都是比拟庞大的,所以本钱还是比拟高昂的。3. 流计算全量数据处理使用的大多是鼎鼎大名的Hadoop 或者 Hive ,作为一个批处理系统,hadoop 以其吞吐量大、自动容错等优点,在海量数据处理上得到了广泛的使用。但是, Hadoop 不擅长实时计算,因为它天然就是为批处

3、理而生的,这也就是流计算系统实时处理系统诞生的意义,实时系统以Storm 与 SparkStreaming为代表。Apache Storm最为知名,阿里也在 Storm 的根底上重新用 java 重写了 Storm,命名为 Jstorm ,并且又 重新奉献了给 Apache社区。流计算系统的特点低延退。既然是是实时计算系统了, 延退是一定要低的。时效性非常好,一般采用 Kafka 消息队列的方式导入,时效性可达几秒可见。高性能。指标预计算:预先将需要查询的数据计算好,查询的时候直接使用预计算好的结果,性能非常高。分布式。系统都是为应用场景而生的,如果你的应用场景、你的数据和计算单机就能搞定,那

4、么不用考虑这些复杂的问题了。大数据所说的是单机搞不定的情况。可扩展。伴随着业务的开展,我们的数据量、计算量可能会越来越大,所以希望这个系统是可扩展的。容错。这是分布式系统中通用问题。一个节点挂了不能影响我的应用。缺点:无法查看明细数据:只能看特定粒度的汇总结果,而过车记录是无法先计算出来的,即无法预知那个车有可能会犯罪,那个车会出事故,故无法预计算。4.预计算分析全量数据处理系统,存在的主要问题就是查询性能太差,也无并发性而言。为了解决查询延退问题,很多离线系统的做法就是预先将每天要分析统计的指标计算好,可以高速访问的系统里面如HBase 或者传统数据里面,供报表系统进行展示,供常规多维分析使

5、用。随后发现这类需求有一共性,企业针对每种业务都单独写一遍Hive SQL ,再导入到传统数据库里面,再供报表系统查询。很麻烦,而且这类的需求很多,所以业界出现了很多预计存储在一个算系统,主要目的就是将业务进行预先计算,供业务进行访问,主要特点是使用非常便捷,极大的缩短的程序开发的时间,提升了开发效率,有的甚至将离线计算与流计算进行了结合,提供了更加实时的报表功能。业界典型的产品代表,莫过于 Apache Kylin。Kylin 是为减少在 Hadoop 上百亿规模数据查询延退而设计lHadoop ANSI SQL 接口 :Kylin 为 Hadoop 提供标准 SQL 支持大局部查询功能l

6、交互式查询能力:通过 Kylin ,用户可以与 Hadoop 数据进行亚秒级交互,在同样的数据集上提供比 Hive 更好的性能l 多维立方体(MOLAP Cube ):用户能够在 Kylin 里为百亿以上数据集定义数据模型并构建立方体l 与 BI 工具无缝整合:Kylin 提供与 BI 工具,如 Tableau ,的整合能力,即将提供对其他工具的整合5.即席分析预计算系统可以有效的解决数据查询的响应时间问题,但是现实中有很多数据是无法实现预计算的,或者预计算的代价是非常昂贵的,一个几万列的大宽表,各种维度笛卡尔组合后的结果集甚至比原生数据都多好多倍,如果用户在来个模糊检索,预计算的指标值多的简

7、 直是不可想象的。只有那些预先知道的场景可以使用预计算,有些场景是无法预先知道的, 也就无法进行预计算的。即席Ad Hoc 查询与分析是用户根据自己的需求,灵活的选择查询条件,系统能够 根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条件的。在一个即席分析系统里面,用户的查询条件不再像预计算系统那样受限,检索、统计、 排序等都根据用户的意愿去查询,查询的列数也不受任何限制,可以是一个维度也可以是任意维度的组合。“即席分析源于互联网公司对海量数据的即时性分析, 后台系统和数据分析师通过不 断地对海量数据进行探索性的查询与

8、分析, 挖掘大数据潜在价值,是互联网公司将数据变现 的重要手段。随着大数据在各行各业的应用,越来越多的行业客户对即席分析有着强烈的需求,要求能够对千亿甚至万亿规模数据进行高时效性地分析挖掘,这也是衡量各行业大数据应用水平的关键尺度。事实上,我们已经看到,即席分析必将成为大数据生态中的最为典型的需求场景之一, 而延云的目标就是成为大数据即席分析领域的标准。一个典型的即席分析系统应该具备如下特征1. 数据实时导入,秒级可见2. 任意维度组合的多维分析,维度组合不受限。3. 即席查询:想查什么就查什么,秒级响应,不应该受束缚。4. 模糊检索:可以像 百度那样快速的搜索,匹配。6.探索性、验证型分析知

9、道怎么做,那就先进行探索性分析吧。探索性分析,实现我们并不知道需要查什么?那就是探索性先查一下,看到数据后,有可能会激发下一步的想法,再进一步的查询,直到分析出问题所在。探索性分析最直观的场景的就是通过日志分析BUG,一开始我们并不知道 BUG 在什么地方,而是先搜索下日志,了解下程序运行的一个概况, 可能会意外的发现某个节点有异常, 然后在深入的了解这个有异常的节点的日志,直到追查到BUG 所在。探索性分析在公安破案检索场景也是十分有效的,很多时候公安行业破一个案子,但是并不知道谁是嫌疑人,那么可能就会先搜索出与案件相关的时间、地点、人物等进行碰撞, 如果碰撞到一些有价值的线索,就会在碰撞的结果上进一步追踪,根据各种线索与规律匹配到犯罪嫌疑人。设想一个使用场景,我们的美女数据分析师,她有一个新的想法要验证。要验证她的想 法,需要在一个上亿条数据上面,跑一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论