大数据技术和应用_第1页
大数据技术和应用_第2页
大数据技术和应用_第3页
大数据技术和应用_第4页
大数据技术和应用_第5页
已阅读5页,还剩18页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据时代大数据技术和应用一.什么是大数据?大数据的概念大数据(bigdata,megadata),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的4V特点Volume(大量)Velocity(高速)Variety(多样)Value(价值)大数据的4V特性大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;位、bit(比特,Binary

Digits):存放以为二进制数,即

0或

1,最小的存储单位。字节byte:8个二进制位为一个字节(B)。(1KB=1024B1MB=1024KB1GB=1024MB1TB=1024GB1PB=1024TB1EB=1024PB1ZB=1024EB1YB=1024ZB1BB=1024YB)第二,数据类型繁多。网络上提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。大数据的收集方式物联网云计算移动互联网车联网手机、平板电脑、PC遍布地球各个角落的各种各样的传感器大数据的收集方式物联网、云计算、移动互联网、车联网、手机、车联网、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。大数据领域的技术HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对Hadoop失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理PB级数据。此外,Hadoop依赖于社区服务器,因此它的成本比较低,任何人都可以使用。Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。它主要有以下几个优点:⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。⒊高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。⒋高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

Storm什么是Storm?如果只用一句话来描述storm的话,可能会是这样:分布式实时计算系统。按照storm作者的说法,storm对于实时计算的意义类似于hadoop对于批处理的意义。在淘宝,storm被广泛用来进行实时日志处理,出现在实时统计、实时风控、实时推荐等场景中。一般来说,我们从类kafka的metaQ或者基于hbase的timetunnel中读取实时日志消息,经过一系列处理,最终将处理结果写入到一个分布式存储中,提供给应用程序访问。我们每天的实时消息量从几百万到几十亿不等,数据总量达到TB级。对于我们来说,storm往往会配合分布式存储服务一起使用。在我们正在进行的个性化搜索实时分析项目中,就使用了timetunnel+hbase+storm+ups的架构,每天处理几十亿的用户日志信息,从用户行为发生到完成分析延迟在秒级。其他大数据技术ApacheDrill为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会近日发起了一项名为“Drill”的开源项目。ApacheDrill实现了Google'sDremel.RapidMinerRapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。PentahoBIPentahoBI平台不同于传统的BI产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发。HPCCHPCC,HighPerformanceComputingandCommunications(高性能计算与通信)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题大数据的应应用大数据在风风电领域的的应用首先,结合了大大数据分析析和天气建建模技术的的能源电力力系统能够够提高风电电的可靠性性。以往对对风资源的的预测不够够精准,在在风能无法法贡献预期期功力时,,火电就要要作为后备备电力。这这样,电网网对风电的的依赖程度度越高,需需要建设后后备电站的的成本就越越高。另外外,启用火火电站的就就等于向环环境中释放放碳排。然然而,在大大数据分析析的帮助下下,温度、、气压、湿湿度、降雨雨量、风向向和风力等等变量都得得到充分考考虑,对风风电的预测测更加精准准。电网调调度人员可可以提前做做好调度安安排,也有有助于电网网消纳更多多风电。除了做到更精准准的预测,,检测和采采集风机的的运转数据据、风场的的运营数据据还有利于于风机制造造商更好地地改善风机机的性能,,风电场业业主在追求求风场效益益最大化时时也离不开开大数据。。大数据的核核心价值大数据的核核心价值是是什么?无论是大数据在在农业的应应用也好,,工业的应应用也好,,抑或是在在金融行业业的应用也也好,最终终都是通过过大数据技技术来获知知事情发展展的真相,,最终利用用这个“真真相”来更更加合理的的配置资源源。也就是说大大数据的核核心价值就就是:优化化资源配配置大数据的核核心价值网上相关研研究表明::要实现大数据据的核心价价值,还需需要前两个个重要的步骤第一步是通过““众包”的形式收收集海量数数据,第二步是通过大大数据的技技术途径进进行“全量数据挖挖掘”,最后后利用分分析结果果进行““资源优化化配置”。通过“众众包”产产生和收收集数据高德地图、、百度地地图都有有实时路路况的功功能,但但大家有有没有想想过实时时路况的的数据是是怎么收收集的??实际上上经过了了三个阶阶段,开开始是跟跟交通口口的一些些公司合合作,获获取交通通流量监监测设备备的数据据,这个个方法缺缺陷很明明显,一一个是受受制于人人,一个个是想扩扩大监测测范围就就要部署署大量设设备,费费时费力力,而且且还受法法律制约约。于是是一些专专门做路路况的公公司开始始用出租租车当浮浮动车收收集数据据。但这这种办法法还是无无法覆盖盖大量的的大小路路段,随随着移动动互联网网的普及及,高德德地图的的APP能够实时时上传大大量机动动车的速速度和位位置信息息,经过过去噪和和综合分分析,就就形成了了覆盖率率极高的的实时路路况信息息。这就就是一个个典型的的“众包包”过程程。通过““全量量数据据挖掘掘”获获知“真相相”这些数据不不是通通过采采样得得来的的,就就是真真真切切切的的“全全量数数据””。我我们再再也不不用通通过““管中中窥豹豹”的的形式式来推推测全全局,,而是是直接接通过过“上上帝视视角””来窥窥视真真相。。这就就是大大数据据的魅魅力,,我们们获得得了前前所未未有的的获取取真相相的能能力,,而且且对于于大型型互联联网公公司来来说,,即使使是PB级别的的数据据分析析也是是准实实时的的,我我们下下一个个小时时就能能够得得知上上一个个小时时的全全量数数据分分析结结果,,这样样的能能力是是前所所未有有的。。大数据据的核核心价价值——““资源优优化配配置”前段时间,,滴滴滴打车车曾通通过投投票和和订单单分析析的方方式得得出了了北上上广深深四地地的加加班大大楼排排行榜。但但事实真真的是是即使使加班班很晚晚也很很难打打到车车啊啊啊!所所以滴滴滴打打车更更名为为“滴滴滴出出行””之后后,也也抛出出了他他们伟伟大的的愿景景,那那就是是利用用大数数据分分析实实时综综合调调度““快车车”、、“专专车””、““出租租车””、““顺风风车””甚至至是滴滴滴巴巴士的的资源源,实实现全全局的的交通通资源源优化化。事事实也也是如如此,,滴滴滴的司司机们们越来来越多多的需需要完完成““指派派任务务”,,而不不是集集中去去抢高高净值值客户户。也也许对对于个个别单单体来来说他他们的的利益益降低低了,,但全全局的的资源源配置置却避避免了了全局局的资资源浪浪费和和过度度竞争争,无无疑大大大提提高了了交通通资源源的使使用效效率。所以我我们说说,基于大大数据据分析析的结结果,,进行行资源源优化化配置置,才才是大大数据据应用用的落落地点点和真真正价价值。。谢谢观观看!!MapReduce是一种种编程程模型型,用用于大大规模模数据据集(大于1TB)的并行行运算算。概概念"Map(映射)"和"Reduce(归约)",和它它们的的主要要思想想,都都是从从函数数式编编程语语言里里借来来的,,还有有从矢矢量编编程语语言里里借来来的特特性。。它极极大地地方便便了编编程人人员在在不会会分布布式并并行编编程的的情况况下,,将自自己的的程序序运行行在分布式式系统统上。当当前前的软软件实实现是是指定定一个个Map(映射)函数,,用来来把一一组键键值对对映射射

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论