版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章走进大数据世界第1章走进大数据世界1【学习目标】1.理解数据与信息的基本概念2.了解数据产业的发展和大数据市场前景3.理解大数据的基本概念、特性、产生的原因及应用的领域4.理解大数据处理和分析流程5.了解大数据的技术架构和常用技术工具【学习目标】1.理解数据与信息的基本概念2思维导图思维导图3【开篇故事】人机大战20年进化史(1)1997年5月11日,国际象棋世界冠军加里·卡斯帕罗夫以2.5:3.5(1胜2负3平)输给IBM的计算机程序“深蓝”。1997年6月,深蓝在世界超级电脑中排名第259位,计算能力为每秒113.8亿次浮点运算。2013年6月17日中国国防科技大学研制的天河二号超级计算机,以每秒33.86千万亿次的浮点运算速度夺得头筹,中国“天河二号”成为全球最快超级计算机。个人电脑i8处理器【开篇故事】人机大战20年进化史(1)1997年5月11日,4【开篇故事】人机大战20年进化史(2)AlphaGoVS李世石2016年3月,阿尔法AlphaGo挑战世界围棋冠军李世石,比赛采用中国围棋规则,最终AlphaGo以4比1的总比分取得了胜利。AlphaGo涉及哪些技术关键词?思考与启示大数据和人工智能的关系?人工智能会取代人类大脑工作吗?【开篇故事】人机大战20年进化史(2)AlphaGoVS5目录6数据产业的发展大数据的技术框架和常用工具大数据的内涵数据、信息与商业信息目录6数据产业的发展大数据的技术框架和常用工具大数据的1.1数据、信息与商业信息数据在传统的汉语词典中,数据解释为是算科学研究或技术设进行各种统计、算科学研究或技术设计等所依据的数值。《辞海》中数据的解释是“电子计算机加工处理的对象。广义的数据不仅仅是数值,而是人类社会活动中各种各样的记录。随着人类文明发展,数据记录越来越多,呈现了多样性和复杂性。信息信息在《辞海》中定义为音信或消息。在现在数据时代,我们把通过数据发现的包含有事物运动状态变化和特征的反映叫做信息。数据是信息的载体,而信息可以采用数据表示。数据与信息之间最明显的区别在于,数据只是纯粹的记录,而信息是具有实际商业意义的,是分析的结果和事物规律的反映。1.1数据、信息与商业信息数据71.1数据、信息与商业信息商业信息商业信息则是指市场主体的特征、要求、意图、竞争部署、行为、方法等在市场上的反映。企业要将自然、社会、经济等商业信息以及企业自身积累的商业数据转化为知识,以确保企业做出正确、明智的经营决策。商业信息分为:竞争信息、市场信息、和环境信息。商业信息的生成过程竞争信息市场信息环境信息1.1数据、信息与商业信息商业信息竞争信息市场信息环境信息81.1数据、信息与商业信息商业信息的特点生成过程实质上就是社会生产、交换、消费等经济活动的过程。除了一般信息共有的可传递性、可复制性、可共享性等特点,还具有多样性、零散性和实用性的特点。商业信息的搜集渠道商品价格信息瞬息万变商品的供求关系处在不断变动之中商品的更新换代周期越来越短多变性商品生产多以分散的企业为单位商品信息经过各种社会传播渠道传播传播存有片面、无序、虚假宣传等现象零散性沟通社会生产、流通、消费等环节贴近大众生活,有广泛的共享性。服务于不同用户的需求。实用性日常工作公众媒体调查研究非正式渠道信息网络1.1数据、信息与商业信息商业信息的特点商品价格信息瞬息万变9目录10数据产业的发展大数据的技术框架和常用工具大数据的内涵数据、信息与商业信息目录10数据产业的发展大数据的技术框架和常用工具大数据1.2数据产业的发展数据产业的发展历史1.2数据产业的发展数据产业的发展历史111.2数据产业的发展
数据单位1KB=1024B1MB=1024KB1GB=1024MB1TB=1024GB1PB=1024TB1EB=1024PB1ZB=1024EB1YB=1024ZB1BB=1024YB(ZB:十万亿亿字节)大数据时代的开始1.2数据产业的发展
数据单位大数据时代的开始12数据极速膨胀目前全球约有50亿部手机,其中20亿台为智能手机Ebay每天处理的数据高达100PB一架波音737飞机横跨大陆飞行过程中会产生240TB的数据某大型强子对撞机一年内积累的数据量就达到15PB左右微信、微博、抖音。。。。。每时每刻都在产生大量的数据1.2数据产业的发展数据极速膨胀1.2数据产业的发展13目录14数据产业的发展大数据的技术框架和常用工具大数据的内涵数据、信息与商业信息目录14数据产业的发展大数据的技术框架和常用工具大数据1.3大数据的内涵大数据的定义“大数据”英文翻译“BigData”,源于未来学家阿尔文·托夫勒的《第三次浪潮》Wiki:大数据是指利用常用软件工具捕获管理和处理数据所耗时间超过可容忍时间限制的数据集。麦肯锡:数据规模超出传统数据库管理软件的获取存储管理,以及分析能力的数据集称为大数据。Gartnet:不能够集中存储并且难以在可接受时间内分析处理,其中个体或部分数据呈现低价值性而数据整体呈现高价值的海量复杂数据集。1.3大数据的内涵大数据的定义151.3大数据的内涵大数据的特征特性:Volume、Velocity、Velcity、Value1.3大数据的内涵大数据的特征161.3大数据的内涵·产生大数据的三个阶段被动式产生数据主动式产生数据感知式产生数据1.数据的产生方式变得自动化2.数据产生融入每个人的日常生活3.图像和音频数据占比越来越大4.网络和音频视频数据所占比例越来越大5.云计算概念的出现进一步促进了大数据发展1.3大数据的内涵·产生大数据的三个阶段被动式产生数据主动式17结构化、半结构化和非结构化三种1.3大数据的内涵数据主要来源:信息管理系统网络信息系统物联网系统科学实验系统结构化、半结构化和非结构化三种1.3大数据的内涵数据主要来源181.3大数据的内涵大数据的应用领域及处理流程1.3大数据的内涵大数据的应用领域及处理流程19目录20数据产业的发展大数据的技术框架和常用工具大数据的内涵数据、信息与商业信息目录20数据产业的发展大数据的技术框架和常用工具大数据1.4大数据的技术框架和常用工具大数据的技术框架1.4大数据的技术框架和常用工具大数据的技术框架211.4大数据的技术框架和常用工具大数据的整体技术数据采集数据存取基础架构数据处理统计分析数据挖掘模型预测结果呈现大数据的关键技术大数据采集大数据预处理大数据存储及管理大数据安全技术大数据分析与挖掘大数据展现与应用1.4大数据的技术框架和常用工具大数据的整体技术数据采集数据22Hadoop是什么?由Apache基金会所开发的分布式系统基础架构用户可以在不了解分布式底层细节的情况下,开发分布式程序。Hadoop核心构成分布式文件系统HDFS资源管理系统YARN分布式计算框架MapReduce1.4大数据的技术框架和常用工具Hadoop是什么?1.4大数据的技术框架和常用工具231.4大数据的技术框架和常用工具Hadoop生态圈1.4大数据的技术框架和常用工具Hadoop生态圈24Spark是什么?ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎
。Spark特点轻量级快速处理:着眼大数据处理,速度往往被置于第一位。易于使用:Spark支持多语言,包括Java、Scala及Python等语言支持复杂查询:在简单的map及reduce操作之外,Spark还支持SQL查询、流式查询及复杂查询。实时的流处理:MapReduce只能处理离线数据,Spark支持实时的流计算。可以与Hadoop和已存Hadoop数据整合。活跃和无限壮大的社区1.4大数据的技术框架和常用工具Spark是什么?1.4大数据的技术框架和常用工具251.4大数据的技术框架和常用工具Spark生态圈1.4大数据的技术框架和常用工具Spark生态圈261.4大数据的技术框架和常用工具市场分析师的大数据分析工具R语言R语言正是目前应用最为广泛的数据挖掘与分析工具。R是统计学家使用最广泛的平台,统计专业人士提出的最新方法首先用R实现。R是用户建立的动态系统,关于R总有新的东西要学习。R代码是开放的,可以选择相信函数背后的代码,也可以随时核实。R是免费的。1.4大数据的技术框架和常用工具市场分析师的大数据分析工具R27本章小结数据产业的发展大数据的产生大数据的概念与特性大数据的处理大数据的流程分析大数据的应用与前景本章小结数据产业的发展28【实验与思考】1.实验目的(1)深刻理解大数据技术的基本内涵。(2)熟悉大数据基本分析工具——R语言。2.工具/准备工作开始本实验之前,请认真阅读课程的相关内容。准备一台可以上网的计算机或者移动设备。【实验与思考】1.实验目的29【实验与思考】3.实验内容与步骤1)概念理解(1)大数据技术包括什么?(2)大数据处理的业务流程是什么?2)实验内容(1)下载并安装R语言及RStudio(2)基础散点图和直方图练习【实验与思考】3.实验内容与步骤30第1章走进大数据世界第1章走进大数据世界31【学习目标】1.理解数据与信息的基本概念2.了解数据产业的发展和大数据市场前景3.理解大数据的基本概念、特性、产生的原因及应用的领域4.理解大数据处理和分析流程5.了解大数据的技术架构和常用技术工具【学习目标】1.理解数据与信息的基本概念32思维导图思维导图33【开篇故事】人机大战20年进化史(1)1997年5月11日,国际象棋世界冠军加里·卡斯帕罗夫以2.5:3.5(1胜2负3平)输给IBM的计算机程序“深蓝”。1997年6月,深蓝在世界超级电脑中排名第259位,计算能力为每秒113.8亿次浮点运算。2013年6月17日中国国防科技大学研制的天河二号超级计算机,以每秒33.86千万亿次的浮点运算速度夺得头筹,中国“天河二号”成为全球最快超级计算机。个人电脑i8处理器【开篇故事】人机大战20年进化史(1)1997年5月11日,34【开篇故事】人机大战20年进化史(2)AlphaGoVS李世石2016年3月,阿尔法AlphaGo挑战世界围棋冠军李世石,比赛采用中国围棋规则,最终AlphaGo以4比1的总比分取得了胜利。AlphaGo涉及哪些技术关键词?思考与启示大数据和人工智能的关系?人工智能会取代人类大脑工作吗?【开篇故事】人机大战20年进化史(2)AlphaGoVS35目录36数据产业的发展大数据的技术框架和常用工具大数据的内涵数据、信息与商业信息目录6数据产业的发展大数据的技术框架和常用工具大数据的1.1数据、信息与商业信息数据在传统的汉语词典中,数据解释为是算科学研究或技术设进行各种统计、算科学研究或技术设计等所依据的数值。《辞海》中数据的解释是“电子计算机加工处理的对象。广义的数据不仅仅是数值,而是人类社会活动中各种各样的记录。随着人类文明发展,数据记录越来越多,呈现了多样性和复杂性。信息信息在《辞海》中定义为音信或消息。在现在数据时代,我们把通过数据发现的包含有事物运动状态变化和特征的反映叫做信息。数据是信息的载体,而信息可以采用数据表示。数据与信息之间最明显的区别在于,数据只是纯粹的记录,而信息是具有实际商业意义的,是分析的结果和事物规律的反映。1.1数据、信息与商业信息数据371.1数据、信息与商业信息商业信息商业信息则是指市场主体的特征、要求、意图、竞争部署、行为、方法等在市场上的反映。企业要将自然、社会、经济等商业信息以及企业自身积累的商业数据转化为知识,以确保企业做出正确、明智的经营决策。商业信息分为:竞争信息、市场信息、和环境信息。商业信息的生成过程竞争信息市场信息环境信息1.1数据、信息与商业信息商业信息竞争信息市场信息环境信息381.1数据、信息与商业信息商业信息的特点生成过程实质上就是社会生产、交换、消费等经济活动的过程。除了一般信息共有的可传递性、可复制性、可共享性等特点,还具有多样性、零散性和实用性的特点。商业信息的搜集渠道商品价格信息瞬息万变商品的供求关系处在不断变动之中商品的更新换代周期越来越短多变性商品生产多以分散的企业为单位商品信息经过各种社会传播渠道传播传播存有片面、无序、虚假宣传等现象零散性沟通社会生产、流通、消费等环节贴近大众生活,有广泛的共享性。服务于不同用户的需求。实用性日常工作公众媒体调查研究非正式渠道信息网络1.1数据、信息与商业信息商业信息的特点商品价格信息瞬息万变39目录40数据产业的发展大数据的技术框架和常用工具大数据的内涵数据、信息与商业信息目录10数据产业的发展大数据的技术框架和常用工具大数据1.2数据产业的发展数据产业的发展历史1.2数据产业的发展数据产业的发展历史411.2数据产业的发展
数据单位1KB=1024B1MB=1024KB1GB=1024MB1TB=1024GB1PB=1024TB1EB=1024PB1ZB=1024EB1YB=1024ZB1BB=1024YB(ZB:十万亿亿字节)大数据时代的开始1.2数据产业的发展
数据单位大数据时代的开始42数据极速膨胀目前全球约有50亿部手机,其中20亿台为智能手机Ebay每天处理的数据高达100PB一架波音737飞机横跨大陆飞行过程中会产生240TB的数据某大型强子对撞机一年内积累的数据量就达到15PB左右微信、微博、抖音。。。。。每时每刻都在产生大量的数据1.2数据产业的发展数据极速膨胀1.2数据产业的发展43目录44数据产业的发展大数据的技术框架和常用工具大数据的内涵数据、信息与商业信息目录14数据产业的发展大数据的技术框架和常用工具大数据1.3大数据的内涵大数据的定义“大数据”英文翻译“BigData”,源于未来学家阿尔文·托夫勒的《第三次浪潮》Wiki:大数据是指利用常用软件工具捕获管理和处理数据所耗时间超过可容忍时间限制的数据集。麦肯锡:数据规模超出传统数据库管理软件的获取存储管理,以及分析能力的数据集称为大数据。Gartnet:不能够集中存储并且难以在可接受时间内分析处理,其中个体或部分数据呈现低价值性而数据整体呈现高价值的海量复杂数据集。1.3大数据的内涵大数据的定义451.3大数据的内涵大数据的特征特性:Volume、Velocity、Velcity、Value1.3大数据的内涵大数据的特征461.3大数据的内涵·产生大数据的三个阶段被动式产生数据主动式产生数据感知式产生数据1.数据的产生方式变得自动化2.数据产生融入每个人的日常生活3.图像和音频数据占比越来越大4.网络和音频视频数据所占比例越来越大5.云计算概念的出现进一步促进了大数据发展1.3大数据的内涵·产生大数据的三个阶段被动式产生数据主动式47结构化、半结构化和非结构化三种1.3大数据的内涵数据主要来源:信息管理系统网络信息系统物联网系统科学实验系统结构化、半结构化和非结构化三种1.3大数据的内涵数据主要来源481.3大数据的内涵大数据的应用领域及处理流程1.3大数据的内涵大数据的应用领域及处理流程49目录50数据产业的发展大数据的技术框架和常用工具大数据的内涵数据、信息与商业信息目录20数据产业的发展大数据的技术框架和常用工具大数据1.4大数据的技术框架和常用工具大数据的技术框架1.4大数据的技术框架和常用工具大数据的技术框架511.4大数据的技术框架和常用工具大数据的整体技术数据采集数据存取基础架构数据处理统计分析数据挖掘模型预测结果呈现大数据的关键技术大数据采集大数据预处理大数据存储及管理大数据安全技术大数据分析与挖掘大数据展现与应用1.4大数据的技术框架和常用工具大数据的整体技术数据采集数据52Hadoop是什么?由Apache基金会所开发的分布式系统基础架构用户可以在不了解分布式底层细节的情况下,开发分布式程序。Hadoop核心构成分布式文件系统HDFS资源管理系统YARN分布式计算框架MapReduce1.4大数据的技术框架和常用工具Hadoop是什么?1.4大数据的技术框架和常用工具531.4大数据的技术框架和常用工具Hadoop生态圈1.4大数据的技术框架和常用工具Hadoop生态圈54Spark是什么?ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎
。Spark特点轻量级快速处理:着眼大数据处理,速度往往
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医院环境清洁消毒策略
- 护理安全中的康复治疗安全管理
- 护理纠纷预防的沟通技巧训练
- 口腔疾病的自我诊断
- 动脉粥样硬化药物治疗优化
- 护理投诉管理中的文化因素分析
- 河北邯郸市2026届高三第一次模拟检测数学试卷(含答案)
- 护理查房、护理会诊和护理病历讨论制度
- 离退休职工思想动态分析与对策
- 道孚县农文旅融合发展综合体验中心项目水土保持方案报告表
- 抢救落水救人方法
- 国企素质测评考试题及答案
- 矿山车队维修管理办法
- 南京六校联合体2026届高三8月份学情调研考试 地理试卷(含答案)
- 全国2025年10月全国自考中国近代史纲要真题及答案
- 家禽孵化技术详解
- (标准)茶楼股份转让合同协议书
- 医院drg付费培训课件
- 中建土木-基础设施工程安全生产管理标准化图册(试行)
- 消防监控室移交协议书
- 散瞳课件教学课件
评论
0/150
提交评论