分析:天天在做大数据你的时间都花在哪了_第1页
分析:天天在做大数据你的时间都花在哪了_第2页
分析:天天在做大数据你的时间都花在哪了_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

【计算机论文】分析:天天在做大数据,你的时间都花在哪了

我们从出生开始如果没思考过人生本身这件事情,一切按照社会的习惯前行,那人生是没有意义的。因为你连人生都没有想过。那么延生出来,我们有没有想过大数据本身?大数据到底是在做什么,为什么我做了这么多年的大数据,总是做不完呢?大数据本质是:随着科学技术发展,更多的数据能够被存储了,能被分析了。所以有了大数据的概念。机器学习的本质是:随着数据变多了,量变导致质变,数据足够大后其内部的隐含的规律会越来越精确和完整。机器学习则是将数据内存存在的这种隐含关联给挖掘出来的一项技术。大数据最消耗工作量的地方是哪里呢?目前百分之八十的工作量都在于数据收集清理和校验。这个工作本身并不难,但是真的很繁琐,很费力。我们天天感叹:数据在哪里?如何收集数据要怎么进行清洗无效数据太多,如何去除而让我们心灰意冷的是当一个新的需求来临时,现有的数据形态似乎不能满足需求,我们又要在现有的数据堆里,重新走数据收集,清理,校验的流程。这似乎是一种诅咒,如同可怜的西西弗斯,被判要将大石推上陡峭的高山,每次用尽全力,大石快要到顶时,石头就会从其手中滑脱,又得重新推回去,幹著无止境的劳动。大数据目前遇到的最大技术难点是什么?是海量数据的ad-hoc查询。当Hadoop刚刚兴起,我们可以通过它来操控越来越廉价的PC服务器价格,于是一种暴力弥漫了整个生态:我们因为突然有了强大的算力,这就好比一个穷人突然有了一笔很大的钱。我们开始让强大的算力驾着最低效的程序去跑数据,这是批处理时代的悲哀。但是随着查询效率要求越来越高,我们不得不被迫做出改变。还记得我们以前的日志都是简单的Raw文本吗?现在各种存储的格式慢慢开花结果:Parquet,数砖公司大力发展的一个存储技术ORC,Hive常见的一种存储格式CarbonData,华为推出的一套可支持PB级别的数据格式总之,我们似乎没有找到一个奇妙的技术解决查询的问题,只能做某种折中:为了加快查询速度,数据存储慢慢从早期的raw文本转为具备向量化,带索引,支持特定编码和压缩的列式存储结构,当然这种通过调整存储结构的方式必然以消耗数据进入时的时间和资源为代价。也就是我们在存储和查询之间做了妥协。如何让苦力干的更少前面我们提及了,我们可能80%的工作都花在了数据的采集,清洗和校验上了。但是我们该如何压缩这部分的工作呢?答案是:流式计算流式计算上层建筑让所有的计算流动起来,就会让下面的事情变得简单:我们可以在已经流动的数据中的任何一个环节引入一个新的支流。当我要获取数据时,我做的本质其实就是连接两个或者多个节点,并且在其中对数据进行转换。就如同河水,我们可以很方便的开一个支流,将水引入灌溉新的额农田。而且我们希望流式计算的实现是结合了流式和批量语义的。为什么呢?看看华为在Storm上做的StreamCQL,就知道,很多情况实时流式是很有局限的,因为未来我们在流式上能做的事情会非常多:数据处理Ad-Hoc查询机器学习报表存储输出这就需要一定的灵活性,因为只有在数据集上,才会有譬如Ad-Hoc查询,才能高效的进行存储,才能适应一些机器学习算法。单条数据很多情况下,是没有太大意义的。这块我一直是SparkStreaming的支持者。那为啥我们需要一个流式计算上层建筑?我们回顾下问题,数据的ETL过程是个苦力活,消耗掉大量程序员的工作时间,那么为了减少这种时间,我们有两个办法:将做些任务分散出去,使得每个人都可做,那么在总量不变的情况

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论