大数据的技术环节与平台建设2.0_第1页
大数据的技术环节与平台建设2.0_第2页
大数据的技术环节与平台建设2.0_第3页
大数据的技术环节与平台建设2.0_第4页
大数据的技术环节与平台建设2.0_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,大数据的技术环节与平台建设,大数据产业链,目录,一、大数据的技术环节,二、大数据的平台建设,三、参考学习培训,大数据的技术环节,第一,数据特征,简单来说就是数据库。比如企业ERP、财务系统。,结构化数据,它是结构化的数据,但是结构变化很大。因为我们要了解数据的细节所以不能将数据简单的组织成一个文件按照非结构化数据处理,由于结构变化很大也不能够简单的建立一个表和他对应。,半结构化数据,像图片、声音、视频等等。这类信息无法直接知道他的内容,数据库也只能将它保存在一个BLOB字段中。一般的做法是,建立一个包含三个字段的表(编号number、内容描述varchar(1024)、内容blob)。引用通过编号,检索通过内容描述。,非结构化数据,点击此处添加标题,大数据的技术环节,数据采集,信息化技术的发展使得数据被物联网及互联网记录并应用,物联网数据多指通过连接网络的传感器所采集的环境数据。互联网数据则多指由用户使用电脑、智能手机、平板电脑等不同联网终端所产生的基本信息与行为数据。,传感器是物联网数据的重要采集方法,安装在物联网上的传感器是大数据时代获取环境数据的重要采集方法之一,拥有数据来源范围广、数据准确度高、传输稳定等特点。,App数据抓取成为互联网数据主要采集方式之一,随着智能终端的不断普及,App成为继网站之后了解用户在互联网上的信息与行为的又一重要数据来源。目前国内外通过App抓取用户在互联网上行为数据的采集商主要有AppAnnie、TalkingData、友盟等。AppAnnie是一家移动应用数据采集服务商,通过从AppStore抓取数据,为企业用户提供涵盖iOS、Android、Windows等系统下各类App数据下载排名、用户使用行为及应用平台数据等相关服务。,PC端的网站流量及点击轨迹抓取是互联网数据的另一种采集方式,互联网时代除了抓取移动终端上各App的用户数据,还有在PC端通过API接口等工具抓取企业官网及其他网站上数据的方法。目前国内主要有友盟、聚合数据、发源地等企业提供网站数据抓取。,数据预处理数据抽取,ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。,数据预处理数据清洗,数据预处理数据整合,数据存储与管理三种典型的数据存储技术,采用MPP架构的新型数据库集群,重点面向行业大数据,采用SharedNothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,运行环境多为低成本PCServer,具有高性能和高扩展性的特点,在企业分析类应用领域获得极其广泛的应用。这类MPP产品可以有效支撑PB级别的结构化数据分析,这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和结构化数据分析,目前最佳选择是MPP数据库。,MPP架构图,数据存储与管理三种典型的数据存储技术,基于Hadoop的技术扩展和封装,围绕Hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景。NoSQL(NotOnlySQL)数据库泛指非关系型数据库,能够解决大规模数据集合的处理问题,特别是针对非关联性数据。NoSQL数据库包括Key-Value存储、列存储、文档型等多种类型,适用于多种场景。,数据存储与管理三种典型的数据存储技术,第三种是大数据一体机,这是一种专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性。,大数据分析系统软件:MPP数据库应用场景:数据仓库应用/OLAP多维分析,数据分析,即席查询Ad-HocQuery,批量处理BatchProcessingMap/Reduce,流式计算StreamComputing,数据承载,响应时间,适用场景,磁盘,秒级(准实时),自然人交互式经营分析,磁盘,分钟级至小时级(准实时),事前/事后大批量数据处理,内存(事件窗口非全量数据),秒级(实时),实时事件分析实时风险干预,针对不同的业务领域,需要采用不同的数据计算分析方式,快速发现数据价值。,数据分析即席查询,即席查询(AdHoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是用户自定义查询条件。,Storage,DistributeFileSystem,ColumnDatabase,ResourceManagement,ParallelComputeFramework,SQLSyntax+ComputeFramework,SQLSyntax,MetaData,BatchProcessing,Ad-HocQuery,实时性:高,数据分析批处理,Storage,DistributeFileSystem,ColumnDatabase,ResourceManagement,ParallelComputeFramework,SQLSyntax+ComputeFramework,SQLSyntax,MetaData,BatchProcessing,Ad-HocQuery,MapReduce是一种编程模型,用于大规模数据集的并行批量计算。概念Map和Reduce当前的主流实现是指定一个Map函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce函数,用来保证所有映射的键值对中的每一个共享相同的键组。形成这种模型的原因是:数据的分布式存储、计算资源的分布式、并行计算减少计算时长。,实时性:低,数据分析流式计算,流数据的实时计算注重对流数据的快速高效处理、计算和分析。其特点是计算过程数据不落地,所有数据在内存中完成。其计算模型是根据规则生成容器,当数据流经过容器时,实时产生分析结果。,InputAdapter,OutputAdapter,EngineCluster,ClusterManagement,RuleRepository,NoSQL,实时性:高,数据挖掘常用技术和算法,人工神经网络决策树遗传算法近邻算法规则推导算法:分类、回归、分割、关联、顺序分析,数据挖掘常用方法,数据挖掘常用方法,数据挖掘功能,数据挖掘的流程,(1).确定业务对象(2).数据准备1)、数据的选择2)、数据的预处理3)、数据的转换(3).数据挖掘(4).结果分析(5).知识的同化数据挖掘需要的人员业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求.数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术.数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据.,数据挖掘工作量分配,数据结果的可视化,综合运用计算机图形学、图像、人机交互等技术,将采集或模拟的数据映射为可识别的图形、图像、视频或动画,并允许用户对数据进行交互分析的理论、方法和技术,什么是数据可视化?,图形能将不可见现象转化为可见的图形符号,并直截了当和清晰直观的表达出来,加深人对于数据的理解和记忆。,为什么要进行数据可视化?,Datameer、Tableau等,怎样实现数据可视化?,点击此处添加标题,图例:Tableau可视化产品案例-互联网信息传播速度分析,Datameer是一家数据分析工具提供商,通过对Hadoop分布式计算框架的易用性处理降低了客户使用Hadoop的门槛,类似电子表格的可视化数据分析界面能够帮助客户快速理解数据处理结果。Tableau主要向客户提供数据可视化服务及数据分析功能。客户无需编写代码,只需简单的鼠标操作即可实现数据的可视化。,大数据商业智能加可视化服务为企业提供商业决策服务,通过对产品、企业、用户及市场等多个维度的数据进行分析,企业能够准确把握用户喜好及市场脉络,及时调整产品规划与企业发展方向,并进行市场营销等经营活动。目前国外提供通用型商业智能服务的企业有QlikTech、GoodData、Domo、PowerBI等,国内有国云数据、拓尔思等企业提供大数据解决方案。其中部分企业在提供商业智能服务的同时还提供数据可视化软件。,数据管理,数据管控,是为解决数据标准管理、元数据管理、数据质量管理、数据服务管理、数据安全管理等问题。,存储、安全防护与交易是数据管理的重要环节,目前,大数据行业的存储多依托于云存储技术,将海量数据保存在云端,既能够降低数据存储成本,又能够提高数据处理效率。但目前我国网络安全形势严峻,存储于云端的数据还需进行安全防护。此外,随着数据的爆发式增长及数据价值越来越得到凸显,行业内逐渐产生了一种新的商业模式,即数据分享与交易平台,通过搭建数据共享、交换、交易平台,为数据资源供给方和需求方提供便捷的交易环节和服务。,存储与安全两项服务相辅相成,通用型与数据专业型企业并存,传统的线下存储方式因其高昂的成本渐渐转向云存储。目前国外提供数据存储服务的企业有NimbleStorage、Qumulo等,还有同时提供存储与安全两项服务的企业如Cloudera等。NimbleStorage是一家数据存储解决方案供应商,其自适应闪存平台能够提供广泛的应用场景支持,同时还能够根据用户需求用户调整闪存策略,选择全闪存方式或者混合式存储服务。,大数据平台的建设,第二,农业大数据HADOOP基础平台,运用HADOOP2.0和Spark技术,搭建农业大数据HADOOP基础平台,支撑分布式内存分析引擎、分布式机器学习引擎、分布式实时在线数据引擎和流处理引擎的功能实现。,分布式内存分析引擎,在语法上,兼容HiveQL、SQL,支持控制流、函数、存储过程;在存储上,支持堆外列存、支持索引、支持在SSD上建列存、支持对Hyperbase/HBase进行高效SQL运算;在访问上,支持JDBC/ODBC接口、支持R语言,同时提供多种常用的数据挖掘和机器学习的并行算法;同时,支持安全认证、授权和访问控制,稳定支持100GB以上到数十TB的数据,支持IBMCognos,SAS,OBIEE,SAPBO等BT工具。,分布式机器学习引擎,统计库,是一个并行化的高性能算法库,可以用于对数据进行去噪、去缺省/异常值、归一化、统计分布等,是及其学习或数据挖掘的基础工具包;机器学习库,是一个并行化的高性能机器学习算法库,包含分类、聚类、预测、推荐等机器学习算法;R语言/RStudio,强大的主流数据统计和绘图语言R以及Web图形化开发界面R;完整的解决方案支持,提供文本分析、风险分析、故障检测等行业解决方案。,分布式实时在线数据引擎,建立在ApacheHBase基础之上,融合了多种索引技术、分布式事务处理、全文实时搜索、图形数据库在内的实时NoSQL数据库;高效地支持在线OLTP应用、高并发OLAP应用、批处理应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论