电力大数据处理、存储与分析的调研报告_第1页
电力大数据处理、存储与分析的调研报告_第2页
电力大数据处理、存储与分析的调研报告_第3页
电力大数据处理、存储与分析的调研报告_第4页
电力大数据处理、存储与分析的调研报告_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.:.;编号:SY-.密级:受控电力大数据处置、存储与分析的调研报告2021年12月PAGE PAGE 58目 录 TOC o 1-3 h z u HYPERLINK l _Toc436920259 1、什么是大数据 PAGEREF _Toc436920259 h 4 HYPERLINK l _Toc436920260 1.1、Volume体积 PAGEREF _Toc436920260 h 4 HYPERLINK l _Toc436920261 1.2、Variety多样 PAGEREF _Toc436920261 h 4 HYPERLINK l _Toc436920262 1.3、Velo

2、city效率 PAGEREF _Toc436920262 h 5 HYPERLINK l _Toc436920263 1.4、Veracity价值 PAGEREF _Toc436920263 h 5 HYPERLINK l _Toc436920264 2、大数据关键技术 PAGEREF _Toc436920264 h 5 HYPERLINK l _Toc436920265 2.1、大数据采集技术 PAGEREF _Toc436920265 h 6 HYPERLINK l _Toc436920266 2.2、大数据预处置技术 PAGEREF _Toc436920266 h 6 HYPERLINK

3、 l _Toc436920267 2.3、大数据存储及管理技术 PAGEREF _Toc436920267 h 7 HYPERLINK l _Toc436920268 2.4、大数据分析及发掘技术 PAGEREF _Toc436920268 h 7 HYPERLINK l _Toc436920269 2.5、大数据展现与运用技术 PAGEREF _Toc436920269 h 8 HYPERLINK l _Toc436920270 3、数据处置与分析 PAGEREF _Toc436920270 h 8 HYPERLINK l _Toc436920271 3.1、传统方式 PAGEREF _To

4、c436920271 h 9 HYPERLINK l _Toc436920272 3.2、Hadoop大数据新方法 PAGEREF _Toc436920272 h 10 HYPERLINK l _Toc436920273 3.3、大规模并行分析数据库 PAGEREF _Toc436920273 h 11 HYPERLINK l _Toc436920274 3.4、大数据方法的互补 PAGEREF _Toc436920274 h 12 HYPERLINK l _Toc436920275 3.5、大数据运用案例 PAGEREF _Toc436920275 h 13 HYPERLINK l _Toc

5、436920276 4、展望电力大数据时代 PAGEREF _Toc436920276 h 14 HYPERLINK l _Toc436920277 4.1、电力大数据价值分析 PAGEREF _Toc436920277 h 14 HYPERLINK l _Toc436920278 4.2、电力大数据运用前景 PAGEREF _Toc436920278 h 14 HYPERLINK l _Toc436920279 4.3、电力大数据开展与挑战 PAGEREF _Toc436920279 h 15 HYPERLINK l _Toc436920280 5、迈向电力大数据时代 PAGEREF _To

6、c436920280 h 15 HYPERLINK l _Toc436920281 5.1、电力大数据关健技术 PAGEREF _Toc436920281 h 16 HYPERLINK l _Toc436920282 5.2、电力大数据开展战略 PAGEREF _Toc436920282 h 16 HYPERLINK l _Toc436920283 6、电力大数据实际 PAGEREF _Toc436920283 h 16 HYPERLINK l _Toc436920284 6.1、实时海量数据是坚强智能电网的重要资产 PAGEREF _Toc436920284 h 17 HYPERLINK l

7、 _Toc436920285 6.2、对实时数据的接入、存储与处置、监测与智能分析 PAGEREF _Toc436920285 h 17 HYPERLINK l _Toc436920286 6.3、电网实时数据调研现状 PAGEREF _Toc436920286 h 17 HYPERLINK l _Toc436920287 6.4、大数据效力IT创新、提高消费效率 PAGEREF _Toc436920287 h 19 HYPERLINK l _Toc436920288 7、大数据技术实现 PAGEREF _Toc436920288 h 19 HYPERLINK l _Toc436920289

8、7.1、物理架构图 PAGEREF _Toc436920289 h 19 HYPERLINK l _Toc436920290 7.2、数据处置向大数据处置的过渡 PAGEREF _Toc436920290 h 20 HYPERLINK l _Toc436920291 7.3、大数据中心技术Hadoop PAGEREF _Toc436920291 h 20 HYPERLINK l _Toc436920292 8、Hadoop引见与案例分析 PAGEREF _Toc436920292 h 20 HYPERLINK l _Toc436920293 8.1、Hadoop引见 PAGEREF _Toc4

9、36920293 h 21 HYPERLINK l _Toc436920294 8.2、Hadoop中心技术 PAGEREF _Toc436920294 h 21 HYPERLINK l _Toc436920295 8.2.1、HDFS PAGEREF _Toc436920295 h 21 HYPERLINK l _Toc436920296 8.2.2、MapReduce PAGEREF _Toc436920296 h 23 HYPERLINK l _Toc436920297 8.3、Hadoop优点和缺陷 PAGEREF _Toc436920297 h 30 HYPERLINK l _Toc

10、436920298 8.4、NoSQL数据库引见 PAGEREF _Toc436920298 h 31 HYPERLINK l _Toc436920299 8.4.1、MongoDB PAGEREF _Toc436920299 h 32 HYPERLINK l _Toc436920300 8.4.2、CouchDB PAGEREF _Toc436920300 h 33 HYPERLINK l _Toc436920301 8.4.3、HBase PAGEREF _Toc436920301 h 34 HYPERLINK l _Toc436920302 8.4.4、Redis PAGEREF _To

11、c436920302 h 35 HYPERLINK l _Toc436920303 8.4.5、BaseX PAGEREF _Toc436920303 h 35 HYPERLINK l _Toc436920304 9、Hadoop数据存储HBase PAGEREF _Toc436920304 h 36 HYPERLINK l _Toc436920305 9.1、HBase简介 PAGEREF _Toc436920305 h 36 HYPERLINK l _Toc436920306 9.2、逻辑视图 PAGEREF _Toc436920306 h 37 HYPERLINK l _Toc43692

12、0307 9.3、物理存储 PAGEREF _Toc436920307 h 37 HYPERLINK l _Toc436920308 9.4、系统架构 PAGEREF _Toc436920308 h 41 HYPERLINK l _Toc436920309 9.5、关键算法流程 PAGEREF _Toc436920309 h 44 HYPERLINK l _Toc436920310 9.6、访问接口 PAGEREF _Toc436920310 h 48 HYPERLINK l _Toc436920311 10、Hadoop查询与分析工具 PAGEREF _Toc436920311 h 48 H

13、YPERLINK l _Toc436920312 10.1、Hive PAGEREF _Toc436920312 h 48 HYPERLINK l _Toc436920313 10.2、Mahout PAGEREF _Toc436920313 h 561、什么是大数据大数据几乎已成为一切商业领域共有的最新趋势,然而大数据终究是什么?现实上,大数据是个非常简单的术语就像它所说的一样,是非常大的数据集。那么终究有大多?真实的答案就是“如他所想的那么大!那么为什么会产生如此之大的数据集?由于当今的数据曾经无所不在并且存在着宏大的报答:搜集通讯数据的RFID传感器,搜集天气信息的传感器,挪动设备给社交

14、网站发送的GPRS数据包,图片视频,在线购物产生的买卖记录,应有尽有!大数据是一个宏大的数据集,包含了任何数据源产生的信息,当然前提是这些信息是我们感兴趣的。然而大数据的含义绝不只与体积相关,由于大数据还可以用于寻觅新的真知、构成新的数据和内容;我们可以运用从大数据中提取的真知、数据和内容去使商业更加灵敏,以及回答那些之前被以为远超当前范畴的问题。这也是大数据被从以下4个方面定义的缘由:Volume体积、Variety多样、Velocity效率以及VeracityValue,价值,也就是大数据的4V。下面将简述每个特性以及所面临的挑战:1.1、Volume体积Volume说的是一个业务必需捕获

15、、存储及访问的数据量,仅仅在过去两年内就消费了世界上一切数据的90%。现今的机构已完全被数据的体积所淹没,随便的就会产生TB甚至是PB级不同类型的数据,并且其中有些数据需求被组织、防护窃取以及分析。1.2、Variety多样世界上产生的数据有80%都是半构造化的,传感器、智能设备和社交媒体都是经过Web页面、网络日志文件、社交媒体论坛、音频、视频、点击流、电子邮件、文档、传感系统等生成这些数据。传统的分析方案往往只适宜构造化数据,举个例子:存储在关系型数据库中的数据就有完好的构造模型。数据类型的多样化同样意味着为支持当下的决策制定及真知处置,我们需求在数据储存和分析上面进展根本的改动。Vari

16、ety代表了在传统关系数据库中无法随便捕获和管理的数据类型,运用大数据技术却可以轻松的储存和分析。1.3、Velocity效率Velocity那么需求对数据进展近实时的分析,亦称“sometimes 2 minutes is too late!。获取竞争优势意味着他需求在几分钟,甚至是几秒内识别一个新的趋势或机遇,同样还需求尽能够的快于他竞争对手。另外一个例子是时间敏感性数据的处置,比如说捕捉罪犯,在这里数据必需被搜集后就完成被分析,这样才干获取最大价值。对时间敏感的数据保质期往往都很短,这就需求组织或机构运用近实时的方式对其分析。1.4、Veracity价值经过分析数据我们得出如何的抓住机遇

17、及收获价值,数据的重要性就在于对决策的支持;当他着眼于一个能够会对他企业产生重要影响的决策,他希望获得尽能够多的信息与用例相关。单单数据的体积并不能决议其能否对决策产生协助 ,数据的真实性和质量才是获得真知和思绪最重要的要素,因此这才是制定胜利决策最坚实的根底。2、大数据关键技术大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域曾经涌现出了大量新的技术,它们成为大数据采集、存储、处置和呈现的有力武器。大数据处置关键技术普通包括:大数据采集、大数据预处置、大数据存储及管理、大数据分析及发掘、大数据展现和运用大数据检索、大数据可视化、大数据运用、大数据平安等。2.1、大数据采集

18、技术数据是指经过RFID射频数据、传感器数据、社交网络交互数据及挪动互联网数据等方式获得的各种类型的构造化、半构造化或称之为弱构造化及非构造化的海量数据,是大数据知识效力模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据搜集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评价模型,开发数据质量技术。大数据采集普通分为大数据智能感知层:主要包括数据传感体系、网络通讯体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对构造化、半构造化、非构造化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处置和管理等。必需着重攻克针对大数据源的智

19、能识别、感知、适配、传输、接入等技术。根底支撑层:提供大数据效力平台所需的虚拟效力器,构造化、半构造化及非构造化数据的数据库及物联网络资源等根底支撑环境。重点攻克分布式虚拟存储技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,大数据的网络传输与紧缩技术,大数据隐私维护技术等。2.2、大数据预处置技术主要完成对已接纳数据的辨析、抽取、清洗等操作。1抽取:因获取的数据能够具有多种构造和类型,数据抽取过程可以协助 我们将这些复杂的数据转化为单一的或者便于处置的构型,以到达快速分析处置的目的。2清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关怀的内容,而另一些数据那么是完全错误的

20、干扰项,因此要对数据经过过滤“去噪从而提取出有效数据。2.3、大数据存储及管理技术大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进展管理和调用。重点处理复杂构造化、半构造化和非构造化大数据管理与处置技术。主要处理大数据的可存储、可表示、可处置、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统DFS、能效优化的存储、计算融入存储、大数据的去冗余及高效低本钱的大数据存储技术;突破分布式非关系型大数据管理与处置技术,异构数据的数据交融技术,数据组织技术,研讨大数据建模技术;突破大数据索引技术;突破大数据挪动、备份、复制等技术;开发大数据可视化技术。开发新型数据库技术,

21、数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中,非关系型数据库主要指的是NoSQL数据库,分为:键值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数据库包含了传统关系数据库系统以及NewSQL数据库。开发大数据平安技术。改良数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私维护和推理控制、数据真伪识别和取证、数据持有完好性验证等技术。2.4、大数据分析及发掘技术大数据分析技术。改良已有数据发掘和机器学习技术;开发数据网络发掘、特异群组发掘、图发掘等新型数据发掘技术;突破基于对象的数据衔接、类似性衔接等大数据交融技术;突破用户兴趣分析、网络行为分析、情感语

22、义分析等面向领域的大数据发掘技术。数据发掘就是从大量的、不完全的、有噪声的、模糊的、随机的实践运用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据发掘涉及的技术方法很多,有多种分类法。根据发掘义务可分为分类或预测模型发现、数据总结、聚类、关联规那么发现、序列方式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据发掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据发掘方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树

23、、规那么归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探求性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。从发掘义务和发掘方法的角度,着重突破:1.可视化分析。数据可视化无论对于普通用户或是数据分析专家,都是最根本的功能。数据图像化可以让数据本人说话,让用户直观的感遭到结果。2.数据发掘算法。图像化是将机器

24、言语翻译给人看,而数据发掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据,发掘价值。这些算法一定要可以应付大数据的量,同时还具有很高的处置速度。3.预测性分析。预测性分析可以让分析师根据图像化分析和数据发掘的结果做出一些前瞻性判别。4.语义引擎。语义引擎需求设计到有足够的人工智能以足以从数据中自动地提取信息。言语处置技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。5.数据质量和数据管理。数据质量与管理是管理的最正确实际,透过规范化流程和机器对数据进展处置可以确保获得一个预设质量的分析结果。2.5、大数据展现与运用技术大数据技术可以将隐藏于海量数据中的

25、信息和知识发掘出来,为人类的社会经济活动提供根据,从而提高各个领域的运转效率,大大提高整个社会经济的集约化程度。在我国,大数据将重点运用于以下三大领域:商业智能、政府决策、公共效力。例如:商业智能技术,政府决策技术,电信数据信息处置与发掘技术,电网数据信息处置与发掘技术,气候信息分析技术,环境监测技术,警务云运用系统道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统,大规模基因序列分析比对技术,Web信息发掘技术,多媒体数据并行化处置技术,影视制造渲染技术,其他各种行业的云计算和海量数据处置运用技术等。3、数据处置与分析3.1、传统方式传统上,为了特定分析目的进展的数据

26、处置都是基于相当静态的蓝图。经过常规的业务流程,企业经过CRM、ERP和财务系统等运用程序,创建基于稳定数据模型的构造化数据。数据集成工具用于从企业运用程序和事务型数据库中提取、转换和加载数据到一个暂时区域,在这个暂时区域进展数据质量检查和数据规范化,数据最终被方式化到整齐的行和表。这种模型化和清洗过的数据被加载到企业级数据仓库。这个过程会周期性发生,如每天或每周,有时会更频繁。ETL,是英文 Extract-Transform-Load 的缩写,用来描画将数据从来源端经过抽取extract、转换transform、加载load至目的端的过程。ETL是构建数据仓库的重要一环,用户从数据源抽取出

27、所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。在传统数据仓库中,数据仓库管理员创建方案,定期计算仓库中的规范化数据,并将产生的报告分配到各业务部门。他们还为管理人员创建仪表板和其他功能有限的可视化工具。同时,业务分析师利用数据分析工具在数据仓库进展高级分析,或者通常情况下,由于数据量的限制,将样本数据导入到本地数据库中。非专业用户经过前端的商业智能工具对数据仓库进展根底的数据可视化和有限的分析。传统数据仓库的数据量很少超越几TB,由于大容量的数据会占用数据仓库资源并且降低性能。从时间或本钱效益上看,传统的数据仓库等数据管理工具都无法实现大数据的处置和分析

28、任务。也就是说,必需将数据组织成关系表整齐的行和列数据,传统的企业级数据仓库才可以处置。由于需求的时间和人力本钱,对海量的非构造化数据运用这种构造是不真实践的。此外,扩展传统的企业级数据仓库使其顺应潜在的PB级数据需求在新的公用硬件上投资巨额资金。而由于数据加载这一个瓶颈,传统数据仓库性能也会遭到影响。1ZB=1024EB ,1EB = 1024PB,1PB = 1024TB ,1TB = 1024GB3.2、Hadoop大数据新方法在Hadoop 出现之前,高性能计算和网格计算不断是处置大数据问题主要的运用方法和工具,它们主要采用音讯传送接口Message Passing Interface

29、,MPI提供的API 来处置大数据。高性能计算的思想是将计算作业分散到集群机器上,集群计算节点访问存储区域网络SAN 构成的共享文件系统获取数据,这种设计比较适宜计算密集型作业。当需求访问像PB 级别的数据的时候,由于存储设备网络带宽的限制,很多集群计算节点只能空闲等待数据。而Hadoop却不存在这种问题,由于Hadoop 运用专门为分布式计算设计的文件系统HDFS,计算的时候只需求将计算代码推送到存储节点上,即可在存储节点上完成数据本地化计算,Hadoop 中的集群存储节点也是计算节点。在分布式编程方面,MPI 是属于比较底层的开发库,它赋予了程序员极大的控制才干,但是却要程序员本人控制程序

30、的执行流程,容错功能,甚至底层的套接字通讯、数据分析算法等底层细节都需求本人编程实现。这种要求无疑对开发分布式程序的程序员提出了较高的要求。相反,Hadoop 的MapReduce 却是一个高度笼统的并行编程模型,它将分布式并行编程笼统为两个原语操作,即map 操作和reduce 操作,开发人员只需求简单地实现相应的接口即可,完全不用思索底层数据流、容错、程序的并行执行等细节。这种设计无疑大大降低了开发分布式并行程序的难度。Hadoop得以在大数据处置运用中广泛运用得益于其本身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处置引擎尽能够的接近存储,对例如像

31、ETLExtract-Transform-Load这样的批处置操作相对适宜,由于类似这样操作的批处置结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个义务打碎,并将碎片义务(Map)发送到多个节点上,之后再以单个数据集的方式加载(Reduce)到数据仓库里。3.3、大规模并行分析数据库不同于传统的数据仓库,大规模并行分析数据库可以以必需的最小的数据建模,快速获取大量的构造化数据,可以向外扩展以包容TB甚至PB级数据。对最终用户而言最重要的是,大规模并行分析数据库支持近乎实时的复杂SQL查询结果,也叫交互式查询功能 ,而这正是Hadoop显著缺失的才干。大规模并行分析数据库在

32、某些情况下支持近实时的大数据运用。大规模并行分析数据库的根本特性包括:大规模并行处置的才干: 就像其名字阐明的一样,大规模并行分析数据库采用大规模并行处置同时支持多台机器上的数据采集、处置和查询。相对传统的数据仓库具有更快的性能,传统数据仓库运转在单一机器上,会遭到数据采集这个单一瓶颈点的限制。无共享架构:无共享架构可确保分析数据库环境中没有单点缺点。在这种架构下,每个节点独立于其他节点,所以假设一台机器出现缺点,其他机器可以继续运转。对大规模并行处置环境而言,这点尤其重要,数百台计算机并行处置数据,偶尔出现一台或多台机器失败是不可防止的。列存储构造:大多数大规模并行分析数据库采用列存储构造,

33、而大多数关系型数据库以行构造存储和处置数据。在列存储环境中,由包含必要数据的列决议查询语句的“答案,而不是由整行的数据决议,从而导致查询结果瞬间可以得出。这也意味着数据不需求像传统的关系数据库那样构呵斥整齐的表格。强大的数据紧缩功能:它们允许分析数据库搜集和存储更大量的数据,而且与传统数据库相比占用更少的硬件资源。例如,具有10比1的紧缩功能的数据库,可以将10 TB字节的数据紧缩到1 TB。数据编码包括数据紧缩以及相关的技术是有效的扩展到海量数据的关键。商用硬件: 像Hadoop集群一样,大多数一定不是全部大规模并行分析数据库运转在戴尔、IBM等厂商现成的商用硬件上,这使他们可以以具有本钱效

34、益的方式向外扩展。在内存中进展数据处置:有些一定不是全部大规模并行分析数据库运用动态RAM或闪存进展实时数据处置。有些(如SAP HANA)完全在内存中运转数据,而其他那么采用混合的方式,即用较廉价但低性能的磁盘内存处置“冷数据,用动态RAM或闪存处置“热数据。然而,大规模并行分析数据库确实有一些盲点。最值得留意的是,他们并非被设计用来存储、处置和分析大量的半构造化和非构造化数据。3.4、大数据方法的互补Hadoop,NoSQL 和大规模并行分析数据库不是相互排斥的。相反的这三种方法是互补的,彼此可以而且应该共存于许多企业。Hadoop擅优点理和分析大量分布式的非构造化数据,以分批的方式进展历

35、史分析。NoSQL 数据库擅长为基于Web的大数据运用程序提供近实时地多构造化数据存储和处置。而大规模并行分析数据库最擅长对大容量的主流构造化数据提供接近实时的分析。例如,Hadoop完成的历史分析可以移植到分析数据库供进一步分析,或者与传统的企业数据仓库的构造化数据进展集成。从大数据分析得到的见解可以而且应该经过大数据运用实现产品化。企业的目的应该是实现一个灵敏的大数据架构,在该架构中,三种技术可以尽能够无缝地共享数据和见解。很多预建的衔接器可以协助 Hadoop开发者和管理员实现这种数据集成,同时也有很多厂商提供大数据运用。这些大数据运用将Hadoop、分析数据库和预配置的硬件进展捆绑,可

36、以到达以最小的调整实现快速部署的目的。另外一种情况,Hadapt提供了一个单一平台,这个平台在一样的集群上同时提供SQL和Hadoop/MapReduce的处置功能。Cloudera也在Impala和Hortonworks工程上经过开源倡议推行这一战略。但是,为了充分利用大数据,企业必需采取进一步措施。也就是说,他们必需运用高级分析技术处置数据,并以此得出有意义的见解。数据科学家经过屈指可数的言语或方法执行这项复杂的任务。分析的结果可以经过工具可视化,也可以经过大数据运用程序进展操作,这些大数据运用程序包括本人开发的运用程序和现成的运用程序。3.5、大数据运用案例让Hadoop和其他大数据技术

37、如此引人注目的部分缘由是,他们让企业找到问题的答案,而在此之前他们甚至不知道问题是什么。这能够会产生引出新产品的想法,或者协助 确定改善运营效率的方法。不过,也有一些曾经明确的大数据用例,无论是互联网巨头如谷歌,Facebook和阿里巴巴还是更多的传统企业。它们包括:引荐引擎:网络资源和在线零售商运用Hadoop根据用户的个人资料和行为数据匹配和引荐用户、产品和效力。LinkedIn运用此方法加强其“他能够认识的人这一功能,而亚马逊利用该方法为网上消费者引荐相关产品。情感分析:Hadoop与先进的文本分析工具结合,分析社会化媒体和社交网络发布的非构造化的文本,包括Tweets和Facebook

38、,以确定用户对特定公司,品牌或产品的心情。分析既可以专注于宏观层面的心情,也可以细分到个人用户的心情。风险建模:财务公司、银行等公司运用Hadoop和下一代数据仓库分析大量买卖数据,以确定金融资产的风险,模拟市场行为为潜在的“假设方案做预备,并根据风险为潜在客户打分。欺诈检测:金融公司、零售商等运用大数据技术将客户行为与历史买卖数据结合来检测欺诈行为。例如,信誉卡公司运用大数据技术识别能够的被盗卡的买卖行为。营销活动分析:各行业的营销部门长期运用技术手段监测和确定营销活动的有效性。大数据让营销团队拥有更大量的越来越精细的数据,如点击流数据和呼叫概略记录数据,以提高分析的准确性。客户流失分析:企

39、业运用Hadoop和大数据技术分析客户行为数据并确定分析模型,该模型指出哪些客户最有能够流向存在竞争关系的供应商或效力商。企业就能采取最有效的措施挽留欲流失客户。社交图谱分析:Hadoop和下一代数据仓库相结合,经过发掘社交网络数据,可以确定社交网络中哪些客户对其他客户产生最大的影响力。这有助于企业确定其“最重要的客户,不总是那些购买最多产品或花最多钱的,而是那些最可以影响他人购买行为的客户。用户体验分析: 面向消费者的企业运用Hadoop和其他大数据技术将之前单一 客户互动渠道如呼叫中心,网上聊天,微博等数据整合在一同, ,以获得对客户体验的完好视图。这使企业可以了解客户交互渠道之间的相互影

40、响,从而优化整个客户生命周期的用户体验。网络监控:Hadoop 和其他大数据技术被用来获取,分析和显示效力器,存储设备和其他IT硬件的数据,使管理员可以监视网络活动,诊断瓶颈等问题。这种类型的分析,也可运用到交通网络,以提高燃料效率,当然也可以运用到其他网络。研讨与开展: 有些企业如制药商运用Hadoop技术进展大量文本及历史数据的研讨,以协助新产品的开发。当然,上述这些都只是大数据用例的举例。现实上,在一切企业中大数据最引人注目的用例能够尚未被发现。这就是大数据的希望。4、展望电力大数据时代4.1、电力大数据价值分析电力系统作为经济开展和人类生活依赖的能量供应系统,也具有大数据的典型特征。电

41、力系统是最复杂的人造系统之一,其具有地理位置分布广泛、发电用电实时平衡、传输能量数量庞大、电能传输光速可达、通讯调度高度可靠、实时运转从不停顿、艰苦缺点瞬间扩展等特点,这些特点决议了电力系统运转时产生的数据数量庞大、增长快速、类型丰富,完全符合大数据的一切特征,是典型的大数据。在智能电网深化推进的情势下,电力系统的数字化、信息化、智能化不断开展,带来了更多的数据源,例如智能电表从数以亿计的家庭和企业终端带来的数据,电力设备形状监测系统从数以万计的发电机、变压器、开关设备、架空线路、高压电缆等设备中获取的高速增长的监测数据,光伏和风电功率预测所需的大量的历史运转数据、气候观测数据等。因此在电力系

42、统数据爆炸式增长的新情势下,传统的数据处置技术遇到瓶颈,不能满足电力行业从海量数据中快速获取知识与信息的分析需求,电力大数据技术的运用是电力行业信息化、智能化开展的必然要求。中国电机工程学会信息化专委会在2021 年3 月发布了,将2021 年定为“中国大数据元年,掀起了电力大数据的研讨热潮。根据白皮书描画,电力大数据的特征可概括为3V 和3E。3V 为体量大(Volume)、速度快(Velocity) 和类型多(Variety) ; 3E 为数据即能量(Energy) 、数据即交互(Exchange) 和数据即共情(Empathy)。其3V 的描画和其他行业的描画比较接近,3E 的描画具有典

43、型的电力行业特征,表达了大数据在电力系统运用中的宏大价值。数据即能量简而言之,就是指经过大数据分析到达节能的目的,电力大数据运用的过程,就是电力数据能量释放的过程;数据即交互是指电力大数据与国民经济其他领域数据进展交互交融,才干发扬其更大价值;数据即共情是指电力大数据严密联络千家万户、厂矿企业,只需情系用电户,满足客户需求,电力企业方能以数据取胜。电力大数据贯穿发、输、变、配、用等电力消费及管理的各个环节,是能源变革中电力工业技术革新的必然过程,不仅是技术上的提高,更是涉及电力系统管理体制、开展理念和技术道路等方面的艰苦变革,是下一代电力系统在大数据时代下价值形状的跃升。对建立坚强智能电网而言

44、,亟需开展大数据相关技术研讨,为电力大数据时代的到来奠定实际根底和技术积累。4.2、电力大数据运用前景4.3、电力大数据开展与挑战5、迈向电力大数据时代5.1、电力大数据关健技术5.2、电力大数据开展战略6、电力大数据实际6.1、实时海量数据是坚强智能电网的重要资产6.2、对实时数据的接入、存储与处置、监测与智能分析6.3、电网实时数据调研现状1某省实时数据分布12某省实时数据分布23某市实时数据分布6.4、大数据效力IT创新、提高消费效率7、大数据技术实现7.1、物理架构图7.2、数据处置向大数据处置的过渡7.3、大数据中心技术Hadoop8、Hadoop引见与案例分析8.1、Hadoop引

45、见Hadoop是一个处置、存储和分析海量的分布式、非构造化数据的开源框架。最初由雅虎的Doug Cutting创建,Hadoop的灵感于 MapReduce ,MapReduce是谷歌在2000年代初期开发的用于网页索引的用户定义函数。它被设计用来处置分布在多个并行节点的PB级和EB级数据。Hadoop集群运转在廉价的商用硬件上,这样硬件扩展就不存在资金压力。Hadoop如今是Apache软件联盟(The Apache Software Foundation)的一个工程,数百名奉献者不断改良其中心技术。根本概念:与将海量数据限定在一台机器运转的方式不同,Hadoop将大数据分成多个部分,这样每

46、个部分都可以被同时处置和分析。8.2、Hadoop中心技术Hadoop的中心就是HDFS和MapReduce,而两者只是实际根底,不是详细可运用的高级运用,Hadoop旗下有很多经典子工程,比如HBase、Hive等,这些都是基于HDFS和MapReduce开展出来的。要想了解Hadoop,就必需知道HDFS和MapReduce是什么。8.2.1、HDFSHDFSHadoop Distributed File System,Hadoop分布式文件系统,它是一个高度容错性的系统,适宜部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适宜那些有着超大数据集large data set的运用程序

47、。HDFS的设计特点:1、大数据文件,非常适宜上T级别的大文件或者一堆大数据文件的存储,假设文件只需几个G甚至更小就没啥意思了。2、文件分块存储,HDFS会将一个完好的大文件平均分块存储到不同计算器上,它的意义在于读取文件时可以同时从多个主机取不同区块的文件,多主机读取比单主机读取效率要高得多得都。3、流式数据访问,一次写入多次读写,这种方式跟传统文件不同,它不支持动态改动文件内容,而是要求让文件一次写入就不做变化,要变化也只能在文件末添加内容。4、廉价硬件,HDFS可以运用在普通PC机上,这种机制可以让给一些公司用几十台廉价的计算机就可以撑起一个大数据集群。5、硬件缺点,HDFS以为一切计算

48、机都能够会出问题,为了防止某个主机失效读取不到该主机的块文件,它将同一个文件块副本分配到其它某几个主机上,假设其中一台主机失效,可以迅速找另一块副本取文件。HDFS关键元素:Hadoop运用主/从Master/Slave架构,主要角色有NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成。NameNode节点作为Master效力器,有三部分功能。第一:处置客户端的文件访问。第二:管理文件系统的命名空间操作,如翻开、封锁、重命名等。第三:担任数据块到数据节点之间的映射。从这个意义上说,它扮演中心效力器的角色。DataNode节

49、点作为Slave效力器,同样有三部分功能。第一:管理挂载在节点上的存储设备。第二:呼应客户端的读写恳求。第三:从内部看,每个文件被分成一个或多个数据块,被存放到一组DataNode,在Namenode的一致调度下进展数据块的创建、删除和复制。1NameNodeNameNode是HDFS的守护程序,是 Hadoop 中的主效力器,它管理文件系统称号空间和对集群中存储的文件的访问2DataNode集群中每个从效力器都运转一个DataNode后台程序,后台程序担任把HDFS数据块读写到本地文件系统。需求读写数据时,由NameNode通知客户端去哪个DataNode进展详细的读写操作。3Block将一

50、个文件进展分块,通常是64M4Secondary NameNodeSecondary NameNode是一个用来监控HDFS形状的辅助后台程序,假设NameNode发生问题,可以运用Secondary NameNode作为备用的NameNode。5JobTrackerJobTracker后台程序用来衔接运用程序与Hadoop,用户运用提交到集群后,由JobTracker决议哪个文件处置哪个task执行,一旦某个task失败,JobTracker会自动开启这个task。6TaskTrackerTaskTracker担任存储数据的DataNode相结合,位于从节点,担任各自的task。在Hadoo

51、p的系统中,会有一台Master,主要担任NameNode的任务以及JobTracker的任务。JobTracker的主要职责就是启动、跟踪和调度各个Slave的义务执行。还会有多台Slave,每一台Slave通常具有DataNode的功能并担任TaskTracker的任务。TaskTracker根据运用要求来结合本地数据执行Map义务以及Reduce义务。8.2.2、MapReduceMapReduce引见:MapReduce是一种编程模型,用于大规模数据集的并行运算。MapReduce的设计目的是方便编程人员在不熟习分布式并行编程的情况下,将本人的程序运转在分布式系统上。MapReduce

52、的命名规那么由两个术语组成,分别是Map(映射)与Reduce(化简),是它们的主要思想,都是从函数式编程言语里借来的。当前的软件实现是指定一个Map映射函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce化简函数,用来保证一切映射的键值对中的每一个共享一样的键组。MapReduce处置过程:1 Input输入从文件中读取原始数据原始数据 2Map映射将原始数据映射成用于Reduce的数据 List3Reduce合并将一样Key值的中间数据合并成最终数据MapKey, List 4Output输出将最终处置结果输出到文件 结果文件上述就是MapReduce大致处置过程,在Map前

53、还能够会对输入的数据有Split(分割)的过程,保证义务并行效率,在Map之后还会有Shuffle(混合)的过程,对于提高Reduce的效率以及减小数据传输的压力有很大的协助 。后面会详细提及这些部分的细节。MapReduce简单案例1:通俗说MapReduce是一套从海量源数据提取分析元素最后前往结果集的编程模型,将文件分布式存储到硬盘是第一步,而从海量数据中提取分析我们需求的内容就是MapReduce做的事了。下面以一个计算海量数据最大值为例:一个银行有上亿储户,银行希望找到存储金额最高的金额是多少,按照传统的计算方式,我们会这样:Java代码:Longmoneys.Longmax=0L;

54、for(inti=0;imax)max=moneysi;假设计算的数组长度少的话,这样实现是不会有问题的,还是面对海量数据的时候就会有问题。MapReduce会这样做:首先数字是分布存储在不同块中的,以某几个块为一个Map,计算出Map中最大的值,然后将每个Map中的最大值做Reduce操作,Reduce再取最大值给用户。MapReduce的根本原理就是:将大的数据分析分成小块逐个分析,最后再将提取出来的数据汇总分析,最终获得我们想要的内容。当然怎样分块分析,怎样做Reduce操作非常复杂,Hadoop曾经提供了数据分析的实现,我们只需求编写简单的需求命令即可达成我们想要的数据。MapRedu

55、ce简单案例2:1从实际部分来进展讲解MapReduce下面是一个关于一个程序员是如何给妻子讲解什么是MapReduce.我问妻子:“他真的想要弄懂什么是MapReduce? 她很坚决的回答说“是的。 因此我问道:我: 他是如何预备洋葱辣椒酱的?以下并非准确食谱,请勿在家尝试妻子: 我会取一个洋葱,把它切碎,然后拌入盐和水,最后放进混合研磨机里研磨。这样就能得到洋葱辣椒酱了。妻子: 但这和MapReduce有什么关系?我: 他等一下。让我来编一个完好的情节,这样他一定可以在15分钟内弄懂MapReduce.妻子: 好吧。我:如今,假设他想用薄荷、洋葱、番茄、辣椒、大蒜弄一瓶混合辣椒酱。他会怎样

56、做呢?妻子: 我会取薄荷叶一撮,洋葱一个,番茄一个,辣椒一根,大蒜一根,切碎后参与适量的盐和水,再放入混合研磨机里研磨,这样他就可以得到一瓶混合辣椒酱了。我: 没错,让我们把MapReduce的概念运用到食谱上。Map和Reduce其实是两种操作,我来给他详细讲解下。Map映射: 把洋葱、番茄、辣椒和大蒜切碎,是各自作用在这些物体上的一个Map操作。所以他给Map一个洋葱,Map就会把洋葱切碎。 同样的,他把辣椒,大蒜和番茄一一地拿给Map,他也会得到各种碎块。 所以,当他在切像洋葱这样的蔬菜时,他执行就是一个Map操作。 Map操作适用于每一种蔬菜,它会相应地消费出一种或多种碎块,在我们的例

57、子中消费的是蔬菜块。在Map操作中能够会出现有个洋葱坏掉了的情况,他只需把坏洋葱丢了就行了。所以,假设出现坏洋葱了,Map操作就会过滤掉坏洋葱而不会消费出任何的坏洋葱块。Reduce化简:在这一阶段,他将各种蔬菜碎都放入研磨机里进展研磨,他就可以得到一瓶辣椒酱了。这意味要制成一瓶辣椒酱,他得研磨一切的原料。因此,研磨机通常将map操作的蔬菜碎聚集在了一同。妻子: 所以,这就是MapReduce?我: 他可以说是,也可以说不是。 其实这只是MapReduce的一部分,MapReduce的强大在于分布式计算。妻子: 分布式计算? 那是什么?请给我解释下吧。我: 没问题。我: 假设他参与了一个辣椒酱

58、竞赛并且他的食谱博得了最正确辣椒酱奖。得奖之后,辣椒酱食谱大受欢迎,于是他想要开场出卖自制品牌的辣椒酱。假设他每天需求消费10000瓶辣椒酱,他会怎样办呢?妻子: 我会找一个能为我大量提供原料的供应商。我:是的.就是那样的。那他能否单独完成制造呢?也就是说,单独将原料都切碎? 仅仅一部研磨机又能否能满足需求?而且如今,我们还需求供应不同种类的辣椒酱,像洋葱辣椒酱、青椒辣椒酱、番茄辣椒酱等等。妻子: 当然不能了,我会雇佣更多的工人来切蔬菜。我还需求更多的研磨机,这样我就可以更快地消费辣椒酱了。我:没错,所以如今他就不得不分配任务了,他将需求几个人一同切蔬菜。每个人都要处置满满一袋的蔬菜,而每一个

59、人都相当于在执行一个简单的Map操作。每一个人都将不断的从袋子里拿出蔬菜来,并且每次只对一种蔬菜进展处置,也就是将它们切碎,直到袋子空了为止。这样,当一切的工人都切完以后,任务台每个人任务的地方上就有了洋葱块、番茄块、和蒜蓉等等。妻子:但是我怎样会制造出不同种类的番茄酱呢?我:如今他会看到MapReduce脱漏的阶段搅拌阶段。MapReduce将一切输出的蔬菜碎都搅拌在了一同,这些蔬菜碎都是在以key为根底的 map操作下产生的。搅拌将自动完成,他可以假设key是一种原料的名字,就像洋葱一样。 所以全部的洋葱keys都会搅拌在一同,并转移到研磨洋葱的研磨器里。这样,他就能得到洋葱辣椒酱了。同样

60、地,一切的番茄也会被转移到标志着番茄的研磨器里,并制造出番茄辣椒酱。2从MapReduce产生过程和代码的角度来讲解假设想统计过去10年计算机论文出现最多的几个单词,看看大家都在研讨些什么,那搜集好论文后,该怎样办呢?方法一:我可以写一个小程序,把一切论文按顺序遍历一遍,统计每一个遇到的单词的出现次数,最后就可以知道哪几个单词最抢手了。这种方法在数据集比较小时,是非常有效的,而且实现最简单,用来处理这个问题很适宜。方法二:写一个多线程程序,并发遍历论文。这个问题实际上是可以高度并发的,由于统计一个文件时不会影响统计另一个文件。当我们的机器是多核或者多处置器,方法二一定比如法一高效。但是写一个多

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论