《大数据导论》第1章 大数据概述_第1页
《大数据导论》第1章 大数据概述_第2页
《大数据导论》第1章 大数据概述_第3页
《大数据导论》第1章 大数据概述_第4页
《大数据导论》第1章 大数据概述_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据概述第一章随着信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,其所产生的数据呈指数型增长。达到PB(1024TB)级规模的海量数据已远远超出了传统的计算技术和信息系统的处理能力,从而促进了大数据(BigData)的产生。LOGO大数据概述什么是大数据01大数据的数据特征及对科学研究的影响02大数据的数据类型03大数据的价值及相关技术04大数据的发展趋势05什么是大数据目前,我们已经进入大数据时代,但对很多人来说,什么是大数据,大数据是怎么产生的,它有什么用?从计算机的角度认识从信息时代怎么进入大数据时代的,这些东西并不清楚,所以本节主要解决以上问题,让我们能够从科学的角度认识大数据。PART01大数据的人才培养大数据的人才培养大数据的人才培养数据分析师能力数据分析概念与统计学SQL数据库基础数据采集与处理数据建模分析具有数据分析的概念及方法论;可以分析描述性统计分析和推断性统计分析;方差分析;回归分析等能力具有SQL关系型数据库基本概念;熟练使用增删改查SQL语言;熟练使用SQL函数;对事务和多用户并发有处理办法等掌握数据采集的方法;做过市场调研;掌握数据预处理方法;可以将数据可视化等掌握主成分分析法;因子分析法;多元回归分析法;聚类分析法;时间序列等大数据的人才培养大数据的人才培养大数据分析师能力大数据基础理论Hadoop理论数据库理论及工具数据挖掘具有大数据分析基础;Python基础;Linux&Ubuntu操作系统基础等具有Hadoop相关知识;了解HDFS分布式文件系统;MapReduce理论实战等Hadoop其他组件具有数据库理论基础;熟练掌握MySQL或Oracle数据库或其他关系型数据库;Hbase,Hive,Sqoop使用;具有数据挖掘基本思想;掌握有监督和无监督学习算法Spark工具及实战大数据可视化大数据分析实战掌握Spark理论;SparkRDD基本概念及操作;Spark流式计算框架SparkStreaming、StructuredStreaming;Spark机器学习算法库SparkMLlib基本使用方法掌握数据可视化基础;Python数据可视化;Python高级数据可视化方法可以利用HDFSShell操作HDFS文件系统;利用HiveSQL进行数据清洗;;利用Sqoop进行数据传输;利用SparkSQL进行数据读取;利用SparkMLlib进行机器学习建模;利用Python进行建模结果数据可视化生产数据的三个阶段1.被动式生成数据是由于数据库技术的产生2.主动式生成数据是由于万维网的发明与发展3.感知生成数据是由于物联网的飞速发展“”1.1.1大数据的来源数据库技术使数据的保存和管理变得简单,业务系统在运行时产生的数据直接保存数据库中,这个时候数据的产生是被动的,数据是随着业务系统的运行产生的,并且更多地依赖人工收集数据。.被动式生成数据是由于数据库技术的产生Web2.0的发展大大加速了数据的产生,人们可以通过手机、电脑等终端随时随地生成数据。据统计,在1分钟内,新浪平均有2万条微博产生,苹果商店平均有4.7万次应用下载,淘宝平均有6万件商品交易记录,百度大约产生了90万次的搜索查询,数据的生成相比之前大大加速。主动式生成数据是由于万维网的发明与发展感知技术尤其是物联网的发展促进了数据生成方式发生了根本性的变化。各种智能传感设备、智能仪表、监控探头和GPS(GlobalPositioningSystem,全球定位系统)定位等数据采集设备源源不断地自动采集、生成数据。感知生成数据是由于物联网的飞速发展1.1.1大数据的来源利用大数据1.1.1大数据的来源以2018年双11期间,淘宝和天猫共实现2135亿的交易额为例,其服务所支撑的用户点击所产生的数据量是海量并且是非结构化数据,用户所产生的数据是一项宝贵的资源,若能从这类海量数据中快速地分析出数据的价值,便可以用于分析并理解客户的市场需求,积极改善公司的市场设施配置策略和服务模式,还可以极大地提高服务的用户体验。大数据的产生首先源于互联网企业对于日益增长的网络数据分析的需求,如图所示。利用大数据-问题的产生1.1.1大数据的来源

有效地为如此巨大的用户群体服务,让他们参与时能够享受方便、快捷的服务,成为网站不得不解决的一个问题。为了解决大型网站的访问量大、并发量高、海量数据的问题,一般会考虑业务拆分和分布式部署。由于海量非结构化、半结构化数据的出现,数据已没有办法在可容忍的时间内,使用常规软件方法完成存储、管理和处理任务。快速增长的数据量要求数据处理的速度也要紧跟其步伐,才能使得获取到大量的数据被有效利用,否则,快速增长的数据量会成为解决问题的负担。在获取数据的过程中,数据不是一成不变的,而是随着互联网在时时发生变化,通常这样的数据价值会随着时间的推移而呈现降低的趋势,如果数据在获取时间内没有得到有效的处理,就会导致其失去价值。各个机构对大数据的描述1.1.2大数据的定义维基百科将大数据描述为:大数据又称为巨量数据、海量数据,指的是传统数据处理应用软件不足以处理它们大或复杂的数据集的术语。麦肯锡全球研究所对大数据的解释:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。研究机构Gartner(第一家信息技术研究和分析的公司)对大数据的解释:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。简而言之,大数据是现有数据库管理工具和传统数据处理应用方法很难处理的大型、复杂的数据集,大数据技术的范畴包括大数据的采集、存储、搜索、共享、传输、分析和可视化等。从某种程度上说,大数据是数据分析的前沿技术,即从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。1.1.3从信息技术(IT)转向数据技术(DT)

李国杰院士认为:信息系统需要从数据围绕着处理器转改为处理能力围绕着数据转,将计算用于数据,而不是将数据用于计算。回顾计算机技术的发展历程,可以清晰地看到计算机技术从面向计算逐步转变到面向数据的过程,面向数据也可以更准确地称为“面向数据的计算”。面向数据要求系统的设计和架构以围绕数据为核心开展。这一过程的描述如图所示,该图从硬件、网络和云计算的演进过程等方面以时间为顺序进行了纵向和横向的对比。大数据的数据特征及对科学研究的影响大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。所以要对大数据进行处理,首先应该先了解大数据的数据特征,进行针对性处理。下面主要讲解大数据的4V特征及其对科学研究有哪些影响。PART021.2.1大数据的数据4V特征

第一个特征是数据量大(Volume),或者叫大量化、规模性。需要采集、处理、传输的数据量大,数据的大小决定所考虑的数据的价值和潜在的信息。处理PB级的数据是比较常态的情况。企业内部的经营交易信息,网络世界中的商品、物流信息,人与人的交互信息、位置信息等都是大数据的主要来源。第二个特征是数据类型繁多(Variety),也叫多样性。包括网络日志、音频、视频、图片、地理位置信息等,数据的种类多、复杂性高。大数据有不同格式,有结构化的关系型数据,有半结构化的网页数据,还有非结构化的视频音频数据。这些非结构化数据广泛存在于社交网络、物联网、电子商务之中,其增长速度比结构化数据快10倍到50倍。多类型的数据对数据的处理能力提出了更高的要求。1.2.1大数据的数据4V特征

第三个特征是处理速度快,时效性高(Velocity),也叫高速性。获得数据的速度快速增长,数据需要频繁地采集、处理并输出;因为数据会存在时效性,需要快速处理,并得到结果。如一些电商数据,如果当天的信息不处理,就将会影响到很多需要立即做出的商业决策。要达到立竿见影而非事后见效,实现实时获取需要的信息,1秒是临界点,即对于很多实时大数据应用而言,必须要在1秒钟内进行处理,否则处理结果就是过时和无效的。这也是大数据区分于传统数据挖掘最显著的特征。

第四个特征是数据价值密度低(Value)。如随着物联网的广泛应用,信息感知无处不在,大量的不相关信息不经过处理则价值较低,挖掘大数据的价值类似于沙里淘金。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据要解决的问题,即合理运用大数据,以低成本创造高价值。。1.促进了科学研究的第四范式产生1.2.1大数据的数据4V特征

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

大数据的产生和信息技术领域提出的面向数据的概念同时也开始深刻地改变了科学研究的模式,2007年,已故的图灵奖得主吉姆·格雷(JimGray,数据库基本理论的奠基人,如图所示)提出了数据密集型科研“第四范式(TheFourthParadigm)”。他将大数据科研从第三范式中分离出来单独作为一种科研范式,他认为利用海量的数据可以为科学研究和知识发现提供除经验、理论、计算外的第四种重要方法。1.促进了科学研究的第四范式产生1.2.1大数据的数据4V特征

第一范式——实验,人类早期知识的发现主要依赖于经验、观察和实验,需要的计算和产生的数据很少。当人类知识积累到一定的程度后,知识逐渐形成了理论体系,这时进入第二范式——理论,通过理论研究发现知识。计算机的出现为人类发现新的知识提供了重要的工具,这时进入第三范式——计算,通过计算发现知识。现在人类在一年内所产生的数据已经超过人类过去几千年产生的数据的总和,目前的数据处理方法在面对庞大的数据时显得力不从心,人类逐步进入面向数据的时代,这时进入第四范式——数据,通过数据发现知识,利用海量数据加上高速计算发现新的知识是数据密集型的科学发现。2.促进了交叉学科的发展1.2.1大数据的数据4V特征目前,社会科学、自然科学和人文科学只是学术建制意义上的区分,它们之间已经有着密切的联系,不再像以前是孤立的存在。自然科学的根本目的在于发现自然现象背后的规律。20世纪50年代之前,社会科学与自然科学相对独立,跨学科交叉研究基本没有。继物理计算和生物计算之后,社会计算(SocialComputing)可能成为科学计算研发的新焦点,并产生新的方向和领域。大数据的数据类型PART031.3大数据的数据类型

大数据包括结构化、半结构化和非结构化数据,半结构化和非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:半结构化和非结构化数据快速增长,企业中80%~90%的数据都是半结构化和非结构化数据,这些数据每年都按指数增长60%,如图所示。1.3大数据的数据类型结构化数据也称作行数据,是指可以用二维表结构来逻辑表达实现的数据(如学生成绩表),严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。如MySQL、Oracle、SQLServer等可以存储表现二维形式的数据。结构化数据的一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。但它的扩展性不好,如增加一个字段。结构化数据通常按照特定的应用对事物进行相应的抽象,数据最终以表格的形式保存在数据库中,数据格式统一,呈现大众化、标准化的特点。结合到典型场景中更容易理解,如企业ERP(EnterpriseResourcePlanning,企业资源计划)、财务系统、医疗HIS(HospitalInformationSystem)数据库、教育一卡通、政府行政审批和其他核心数据库等。1.结构化数据1.3大数据的数据类型与结构化数据相对的是不适于用数据库二维表来表现的数据,可以说都是非结构化数据。非结构化数据没有统一的数据结构属性,一般直接整体进行存储,并且一般存储为二进制数据格式。包含全部格式的办公文档(如Word、PPT)、文本、日志、图片、音频、视频、地形等数据。除了存储在关系数据库和存储在一个关系数据库之外的明显区别之外,结构化数据和非结构化数据最大的区别在于分析结构化数据与非结构化数据的便利性。相对于特定场景的应用,大数据关注非结构化数据的价值密度较低。整体而言,非结构化数据的增长速度比结构化数据的增长速度快10倍到50倍,但这并不意味着结构化数据或者半结构化数据将面临淘汰的局面,具体的使用情况以实际的应用场景为准。但有了海量的非结构化数据,必须想办法存储和分析,从中挖掘出有价值的信息,为社会提供更好的服务。2.非结构化数据1.3大数据的数据类型半结构化数据是介于结构化数据和非结构化数据之间的数据,如标记语言XML、HTML文档、电子邮件等属于半结构化数据。电子邮件的本地元数据可以实现分类和关键字搜索,不需要任何其他工具,所以半结构化数据一般是自描述的,数据的结构和内容混在一起,没有明显的区分。目前,对于半结构化的数据的存储多采用NoSQL数据库,NoSQL泛指非关系型的数据库。Google的BigTable和Amazon的Dynamo使用的就是NoSQL型数据库。NoSQL不会将组织(模式)与数据分开,这使得NoSQL成为存储半结构化数据更好的选择。但NoSQL数据库正处于探索阶段。无论企业的业务具体是什么,其目标都是挖掘业务价值,无论数据是结构化数据、半结构化数据还是非结构化数据,它们都可能具有很高的价值。需要创新工具,实现汇总、查询、分析和利用所有数据类型,以便在整个企业数据范围内获得更加深入的业务洞察力。3.半结构化数据大数据的价值及相关技术PART041.4大数据的可用性及衍生价值

进入大数据时代以来,全人类积累了海量的数据,这些数据仍在不断急速增加,这带来两个方面的巨变:一方面,在过去没有海量数据积累的时代无法实现的应用现在终于可以实现;另一方面,从数据匮乏时代到数据泛滥时代的转变,给数据的处理和应用带来新的挑战与困扰,即如何从海量数据中高效地获取数据,有效地深加工并最终得到有价值意义的数据。大数据的一个重要方面是数据的可用性。大数据的另一个重要方面是数据的复杂性。

大数据可以在众多领域创造巨大的衍生价值,使得未来企业投资重点不再是以建系统为核心,而是以大数据为核心,处理大数据的效率逐渐成为企业的生命力。1.4大数据的存储及处理技术大数据系统里面都有什么东西呢?1.4大数据的可用性及衍生价值大数据涵盖了计算和数据两大主题在存储上,HDFS的分布式存储可以任意水平扩展,可以解决数据存储的难题。在计算上,从最初的MapReduce,把任务水平拆分,多台机器并行计算,再汇总结果,到基于Spark的内存计算,改造MapReduce每次数据存盘以及编程方式的痛点。有了存储和计算框架,周边就衍生出了很多管理、缓存相关的技术,如Yarn解决多租户资源调度的难题,Flume解决数据传输的难题,Sqoop解决分布式存储数据与传统DB数据之间的转换,Oozie解决了大数据计算任务的调度,Kafka提供了发布订阅机制的消息队列,ZooKeeper可以帮助用户完成主备的选举,Hive在HDFS的基础上提供了数据仓库的功能,Hbase是基于HDFS实现的列式数据库等。大数据的发展趋势PART051.5大数据的发展趋势从目前发展形势可以看出,大数据主要有以下八种发展趋势(1)数据的资源化是指大数据成为企业和社会关注的重要战略资源,已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。(2)与云计算的深度结合大数据离不开云计算,云计算为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据技术,让大数据发挥出更大的影响力。(3)科学理论的突破随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。(4)数据科学和数据联盟的成立未来,数据科学将成为一门专门的学科被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。1.5大数据的发展趋势(5)数据泄露泛滥未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补。(6)数据管理成为核

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论