交通基础设施智能化基础课件 第三章 大数据概述_第1页
交通基础设施智能化基础课件 第三章 大数据概述_第2页
交通基础设施智能化基础课件 第三章 大数据概述_第3页
交通基础设施智能化基础课件 第三章 大数据概述_第4页
交通基础设施智能化基础课件 第三章 大数据概述_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章大数据概述本章重点大数据基本概念大数据的发展与意义大数据应用大数据关键技术本章重点大数据基本概念大数据的发展与意义大数据应用大数据关键技术什么是“大数据”

大数据概念形成的标志性事件《科学》(Science)杂志专刊——Dealingwithdata第一次综合分析了大数据对人们生活的影响,详细描述了人类面临的“数据困境”麦肯锡研究院发布报告《BigData:Thenextfrontierforinnovation,competition,andproductivity》,第一次清晰地定义了大数据2008.092011.022011.05

大数据是指大小超过经典数据库系统收集、存储、管理和分析能力的数据集,是基于经典数据库的处理能力进行的定义。

大数据是规模庞大,结构复杂,难以通过现有商业工具和技术在可容忍的时间内获取、管理和处理的数据集。

大数据是具有规模巨大、种类繁多、增长速度快和变化频繁的特征,且需要一个可扩展体系结构来有效存储、处理和分析的广泛的数据集。

给出了大数据“4V特征”的定义强调了大数据的数量、多样性、速度和真实性等方面,后来也引进数据价值,成为大数据的“5V特性”。美国《自然》(Nature)杂志专刊——TheNextGoogle第一次正式提出“大数据”概念大数据基本概念大数据(BigData):是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。互联网每天产生的全部内容可以刻满6.4亿张DVD网民每天在Facbook上要花费234亿分钟,所产生的数据量高达44PB每天会有2.88万小时的视频上传到YouTube,够一个人昼夜不停地看3.3年Google每天要处理24PB的数据全球每秒发送290万封电子邮件,以1篇/min的速度够一个人昼夜不停地读5.5年Twitter上每天发布5000万条消息,以10s/条的速度够一个人昼夜不停地浏览16年世界每天产生大数据大数据基本概念大数据(BigData):是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。符号名称容量符号名称容量B字节8BitPB拍字节1024TBKB千字节1024BEB艾字节1024PBMB兆字节1024KBZB泽字节1024EBGB吉字节1024MBYB尧字节1024ZBTB太字节1024GBBB-1024YB大数据分类按数据来源分机器产生的数据人类活动产生的数据按数据格式分结构化数据半结构化数据非结构化数据感知设备、计算机等网络日志、聊天记录等传统的关系型数据库等XML、HTML类,自描述,数据结构与内容混杂的数据文档、图片、视频、音频等数据的计量单位大数据发展历程萌芽期成熟期大规模应用

上世纪90年代至本世纪初2010年以后

大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高。本世纪前十年

Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动大数据技术走向成熟,形成了并行计算与分布式系统两大核心技术。随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。大数据的基本特征Veracity数据体量大5V

特征VolumeVelocityValueVariety真实有效性传输速度快数据种类多潜在价值高采集量大存储量大计算量大增长速度快处理速度快时效性要求高来源广维度多类型杂隐含知识价值高但价值密度低需要数据挖掘本章重点大数据基本概念大数据的发展与意义大数据应用大数据关键技术大数据的发展动力需求的驱动数据量剧增储存成本下降运行计算能力提高人工智能发展新经济时代...需求数据资源数据处理和存储使机器理解数据数据资源分析应用数据来源计算方法应用空间“用数据说话”,“让数据发声”已然成为一种新的方法论(一)大数据成为推动经济转型发展的新动力(二)大数据成为重塑国家竞争优势的新机遇(三)大数据成为提升政府治理能力的新途径2015年9月,国务院印发《促进大数据发展行动纲要》系统部署大数据发展工作,指出数据已成为国家基础性战略资源,要坚持创新驱动发展,加快大数据部署,深化大数据应用。同时,也指出大数据的发展形势和重要意义。以国家战略应对大数据时代大数据的发展动力国家的发展战略大数据的价值核心价值在各应用领域价值1发现客户需求规律2解释现象发生原因3预测未来发展态势4提高科学决策水平5优化社会资源配置,激发商业模式创新天气实时预测医疗精准诊断改善生物基因量化农牧生产优化商业布局了解社会舆论改进社会服务...大数据的发展趋势大数据发展趋势可总结为“融合、跨界、基础、突破”。1.大力发展跨学科、跨领域交叉的数据分析应用;2.建立系统全面的大数据治理体系,如隐私保护、数据安全与共享管理机制等3.以开源为基础构建自主可控的大数据产业生态4.积极推动国际合作并筹划布局跨国数据共享机制互联网+物联网通信网车联网电视网连接泛在化......计算多元化机器学习数据挖掘流式计算批量计算量子计算......数据产业化工业大数据政府大数据商业大数据教育大数据科学大数据......应用智能化智慧城市智能家居智能制造智慧医疗智慧交通......创新生态化跨界融合创新产业协同创新技术集成创新......本章重点大数据基本概念大数据的发展与意义大数据应用大数据关键技术数据采集从现实世界中采集的(非)结构化海量数据,对其进行清洗、过滤、校验、转换、集成,最后输入到数据仓库或数据集市数据存储与管理利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库等,实现对结构化、半结构化和非结构化海量数据的读取、分类、编码、存储、索引和查询数据处理与分析利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理与分析数据可视化与应用基于海量数据建立多维可视化图形,并进行交互处理与应用,深入洞察海量数据中隐藏的关键信息和规律大数据的关键技术大数据采集大数据采集与预处理是获取有效数据的重要途径,也是大数据应用的重要支撑。数据采集方法采集物理世界信息的传感器采集设备运行状态的日志文件采集互联网信息的网络爬虫外包和众包系统日志状态用户交互行为诊断系统错误发现用户偏好优化运行效率WEB初始化URL下载网页网页URL初始URL待访问URL已访问URL数据库数据采集工具ChukwaFlumeScribleKafkaCrowdsourcing-众包

一大群不固定的志愿者参与

Outsouring-外包

已知的雇员大数据管理Hadoop系统由Apache基金会所开发的,一种利用集群的方式进行高效数据存储、处理的一种分布式系统基础框架。数据采集数据储存与管理数据处理与分析数据应用Hadoop核心分布式存储HDFS分布式处理MapReduceHDFS分布式文件系统MapReduce分布式计算框架Hive数据仓库Pig数据流处理Mahout数据挖掘库Ambari(安装、部署、配置和管理工具)Zookeeper分布式协作服务HBase实时分布数据库SqoopETL工具Flume日志收集大数据管理分布式文件系统(DistributedFileSystem,DFS)文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点(可简单的理解为一台计算机)相连;或是若干不同的逻辑磁盘分区或卷标组合在一起而形成的完整的有层次的文件系统。网络文件系统NetworkFileSystem,NFS通用并行文件系统GeneralParallelFileSystem,GPFSGoogle文件系统GoogleFileSystem,GFSHadoop分布式文件系统HadoopDistributedFileSystem,HDFS

HDFS特性:主从体系结构支持大文件储存容错能力强分块并行性流式数据访问可扩展性一致模型大数据管理HDFS分布式文件系统被设计成适合运行在通用硬件上的分布式文件系统,适合部署在廉价的机器上及超大数据集的应用程序,以提供高吞吐量访问应用程序的数据。

HDFS架构大数据管理关系数据库一种基于关系模型的数据库,常以行和列的二维表形式存储数据,具有易于读取、结构性好、独立性高、共享性好、冗余度小等特点。NoSQL数据库泛指非关系型的数据库,具有高扩展性、高读写性能、数据模型灵活及较好的容灾能力。关系数据库NoSQL键值数据库图数据库文档数据库CouchDBMongoDBRavenDBCouchbaseCloudant列式数据库BigTableHypertableHBaseCassandraRiakRedisBekeleyDBMembrainVoldemortInfinitedGraphNeo4JGraphDBOrientDBOldSQLTeradataNetezzaParAccelEMCCalpontSOLServerMySQLOracleIBMInfoSphere云数据库DatastoreAPPEngineSimpleDBNewSQLHandlerSocketMySQLClustrixAmazonRDSSQLAzureFathomDBXeroundDAkibanScaleBaseCodeFuturesSchoonerMySQL大数据分析大数据分析包括描述性分析、预测性分析和规范性分析。大数据计算模式包括批处理计算流计算图计算查询分析计算针对大规模数据的批量、离线处理针对流数据的实时计算针对大规模图结构数据的处理针对大规模数据的储存管理与查询分析图、表、数值等描述性分析预测未来事件发展趋势提供具体的应对措施MapReduce工作原理图大数据分析批量计算系统

一种面向大规模数据集(>1TB)并行处理的计算模型,具有可靠性、可扩展性、高容错等特点,适用于大规模、离线的算法图形处理、文字处理。数据切片Map计算产生中间结果Reduce计算产生最终结果数据应用中间结果交换大数据分析流式计算系统

一种针对具有实时性、易失性、突发性、无序性、无限性等特征的数据流进行实时处理及反馈的计算模型,适用于对信息时效性要求较高的场景。常见流式框架包括Storm,SparkStreaming,S4,Samza,Flink,Timestream。Storm基本概念:计算流程:大数据分析数据挖掘

从大量的数据中通过算法搜索隐藏于其中信息的过程,通常被视为数据库知识发现(KnowledgeDiscoveryInDatabase,KDD),后者包括从数据的预处理到数据挖掘结果的后处理等一系列过程。数据输入数据预处理结果分析展示数据挖掘实施过程数据挖掘流程数据挖掘算法:神经网络法分类决策树法遗传算法粗糙算法模糊算法关联规则法大数据可视化运用计算机图形学和图像处理技术,将大型数据集中的数据转换为图形或图像显示,并进行交互处理的理论、方法和技术。文本可视化时空数据可视化网络数据可视化高维数据可视化层次化数据可视化本章重点大数据基本概念大数据的发展与意义大数据应用大数据关键技术大数据应用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论