信息技术 课件 第11章 大数据_第1页
信息技术 课件 第11章 大数据_第2页
信息技术 课件 第11章 大数据_第3页
信息技术 课件 第11章 大数据_第4页
信息技术 课件 第11章 大数据_第5页
已阅读5页,还剩26页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据信息技术010203大数据概述

大数据关键技术大数据分析算法04大数据安全风险与安全挑战内容纲要01大数据概述PARTONE大数据概况大数据的概况大数据的发展历程大数据的结构类型大数据的主要数据来源大数据的主要数据来源01大数据概述01大数据概述2019年全球信息化资料量达到41ZB,中国的数据产生量约占23%,美国约为21%。2012年全球信息化资料量只有2.8ZB,美国约占全球数据量的32%,西欧占19%,中国只占13%。数据生产量衡量是国家综合实力的一个重要指标大数据的发展历程最早出现在1980年托夫勒所著《第三次浪潮》书中“大数据”术语首次使用在1997年由研究员迈克尔·考克斯和大卫·埃尔斯沃斯使用的。大数据技术,起源于2004年前后发表的关于分布式文件系统的三篇论文。2008年9月,《自然》杂志推出了名为“大数据”的封面专栏2009年“大数据”在信息技术行业中兴起。2013年被称之为“大数据元年”01大数据概述大数据数据类型结构化非结构化半结构化01大数据概述足够的数据体量是大数据的基础多样的混杂数据是大数据的核心数据来源管理信息系统Web信息系统物理信息系统科学实验系统01大数据概述数据库及数据仓库的应用场景数据库关系型数据库OLTP操作增删改查“事务”型操作速度快、数据一致性高、数据量小数据仓库OLAP操作面向主题经过集成定期更新非易失性复杂的分析、查询操作、多维度分析处理01大数据概述02大数据关键技术PARTTWO大数据关键技术取传洗存管查算挖画02大数据关键技术取数据爬虫技术传感器网络融合技术Sqoop技术flume技术ELK技术02大数据关键技术传数据kafkaInfiniBand02大数据关键技术洗数据数据清洗噪声数据遗漏数据不一致数据ETL数据集成不同数据源模式匹配数据冗余数据冲突数据转换格式变换维度变换数据离散化数据规范化数据规约数据方聚集维规约数值规约概念分层02大数据关键技术存数据1)基于MPP架构的新型数据库集群,通过列存储、粗粒度索引等多项大数据处理技术,重点面向行业大数据所展开的数据存储方式。2)基于Hadoop的技术扩展和封装,是利用Hadoop开源优势及相关特性,衍生出的相关大数据存储技术。3)大数据一体机是专为大数据的分析处理而设计的软、硬件结合的产品。02大数据关键技术大数据存储的主要类型02大数据关键技术Hadoop分布式平台系统架构管数据大数据管制大数据治理02大数据关键技术DAMA数据管理知识体系职能框架查数据1)基于HBase做预聚合如

Opentsdb,Kylin等,均需指定预聚合的指标,在数据接入的时候进行聚合运算,适合相对固定,维度较多的业务报表类需求。2)基于Parquet做列式存储如

Presto,Drill,Impala

等,基本是完全基于内存的并行计算,能降低存储空间,提高IO效率。3)基于Lucene做外部索引如

ElasticSearch,Solr

等。02大数据关键技术大数据查询技术框架算数据批处理MapReduceHadoopSpark图计算PregelGiraphTrinityGraphXPowerGraph流计算ScribeFlumeStormS4SparkStreaming迭代计算Twisterspark内存计算SparkHANADremelRedis02大数据关键技术大数据计算模式及典型系统挖数据互联网+时代,企业的发展产生的数据更多,数据的类型更多,数据数量更大为了从体量巨大、类型繁多、生成快速的大数据集中寻找出更高的价值,需要大数据分析与挖掘技术大数据挖掘就是将数据分析与挖掘的概念应用于大数据环境02大数据关键技术画数据多维数据可视化基于几何面向像素基于图标基于层次基于图形文本可视化基于文本内容基于文本关系网络可视化基于节点和边基于空间填充时空数据可视化流式地图(FlowMap)时空立方体(Space-timeCube)02大数据关键技术可视化分析技术分类03大数据分析算法PARTTHREE大数据分析算法数据分析的基本类型数据分析的基本流程数据挖掘的基本算法03大数据分析算法03大数据分析算法数据分析的分类数据分析的基本流程03大数据分析算法数据挖掘跨行业标准流程(CRISP)(1)业务理解(2)数据理解(3)资料准备(4)数据建模(5)结果评价(6)上线部署数据挖掘的基本算法分类问题(Classification)朴素贝叶斯分类算法决策树算法支持向量机算法、人工神经网络算法聚类问题(Clustering)K-Means(K均值)聚类DBSCAN最大期望(EM)层次聚类算法关联分析(associationanalysis)Apriori算法FP-G算法FreeSpan算法Prefixspan算法回归预测(regressionanalysis)逻辑回归多项式回归岭回归套索回归推荐系统(Recommendation)协同过滤推荐(CollaborativeFilteringRecommendation)基于内容推荐(Content-basedRecommendation)混合推荐03大数据分析算法04PARTFOUR大数据安全风险与安全挑战大数据的安全风险分布式存储大数据泄露大数据传输04大数据安全风险与挑战大数据的安全挑战侵犯隐私权跨境

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论