版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
认识大数据第五章
数据处理和可视化表达12场景一:当我们打开淘宝、拼多多等购物软件时,首页会显示出推荐的商品。为什么购物软件推荐的商品总是很合我们心意?场景二:当我们打开抖音、哔哩哔哩等视频软件时,首页会显示出推荐的视频。为什么打开视频软件就刷到停不下来了?用户网络购物行为分析大数据分析播放时长点赞视频类型评论教育程度性别年龄地域职业搜索记录用户观看视频行为分析身边的大数据3数据大数据大范围、长时间、多对象4
大数据的产生:大范围:地球各个角落长时间:每时每刻都在产生多对象:物联网、移动互联网、手机、电脑、传感器大数据的概念:
大数据:是指无法在可承受的时间范围内用常规软件工具
进行高校捕捉,管理和处理的数据集合一、大数据5大数据的产生和意义大数据的产生是与人类日益普及的网络行为所伴生的。互联网生成的数据量,不仅远超此前一切人类所生成的数据量的总和,而且在以大爆发性的速度不断增长。在天气预报、大气监测、地球物理探矿和天体运动观测等科学实验和科学观察等活动中,各种各样的传感器每时每刻都在产生大量的数据。大数据已成为人们提取信息、做出决策的重要依据,是推动信息社会发展的重要资源。交通大数据购物大数据新冠肺炎大数据气象大数据6二、大数据的特征7二、大数据的特征(从互联网产生大数据的角度)大量(volume)多样(variety)价值密度低(value)高速(velocity)8①大量(volume):数据体量巨大。大数据到底有多大?表情包:35.3KB一首音乐:2.7MB手机内存128GB256GB512GB硬盘1TB2TB4TB1KB1024B1MB1024KB1GB1024MB1TB1024GB8b(位)1B(字节)二、大数据的特征(从互联网产生大数据的角度)9大数据级别的单位:PBEB1PB=1024TB(PB-petabyte)1EB=1024PB(EB-exabyte)二、大数据的特征(从互联网产生大数据的角度)10有多大?存储2亿张照片2亿首MP3音乐
1PB2个服务器1PB约相当于1024*200个王者荣耀5GB二、大数据的特征(从互联网产生大数据的角度)111EB2000个服务器果并排放这些服务器,可以连绵1.2公里那么长。如果摆放在机房里,需要21个标准篮球场那么大的机房阿里、腾讯、百度阿里数据中心的内景
EB级别21个二、大数据的特征(从互联网产生大数据的角度)121ZB1ZB=1024EB服务器需要用42个鸟巢才能容纳二、大数据的特征(从互联网产生大数据的角度)13②多样(variety):网络日志、音频、视频、图片、地理位置….网络日志
音频
视频
图片
地理位置二、大数据的特征(从互联网产生大数据的角度)14③价值密度低(value):在大量的监控视频里找犯罪分子,只有几秒钟有用二、大数据的特征(从互联网产生大数据的角度)15④高速(velocity):数据来自世界各地,每时每刻都在变化大数据刚刚过去的一分钟数据世界里发生了什么?Twitter:98000条推送被发出Facebook:69.5万条状态被更新12306:5000+车票被卖出Google:200万次搜索请求被提交email:Email:2.04亿封被发出二、大数据的特征(从互联网产生大数据的角度)16①
样本渐趋于总体:在大数据时代强调数据要全量而不是抽样,即强调数据规模全量,而不是强调数量巨大。大数据时代有了更好的数据采集手段,让获取全量数据成为可能。二、大数据的特征(从互联网思维角度来看)案例:搜索引擎公司通过跟踪网民对“感冒症状”以及“治疗”等关键词的搜索,发现某个时段在某个区域内搜索数量急剧增长,从而成功预测了甲型H1N1流感的暴发时间、地域。电子问卷、面向所有人、各种联网信息系统数据全面,省时省力现在采集数据纸质问卷、抽取样本、人工整理和分析数据数据不全,耗时耗力以前采集数据17②
精确让位于模糊:在大数据时代,只要掌握了大体的发展方向即可,适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力。二、大数据的特征(从互联网思维角度来看)案例:搜索引擎公司通过跟踪网民对“感冒症状”以及“治疗”等关键词的搜索,发现某个时段在某个区域内搜索数量急剧增长,从而成功预测了甲型H1N1流感的暴发时间、地域。18②
相关性重于因果:在大数据时代,无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系;相关关系也许不能准确地告诉我们某件事情为何会发生,但是会提醒我们这件事情正在发生。二、大数据的特征(从互联网思维角度来看)案例:搜索引擎公司通过跟踪网民对“感冒症状”以及“治疗”等关键词的搜索,发现某个时段在某个区域内搜索数量急剧增长,从而成功预测了甲型H1N1流感的暴发时间、地域。甲型H1N1流感的爆发时间、地域某个时段在某个区域内搜索数量结果数据数据与结果之间直接存在相关关系,但不存在因果关系相关关系是指A变时B也变,A与B之间存在一定的联系,但A变并不是导致B变的原因。因果关系是指A变时B也变,并且A变是导致B变的原因。二、大数据的特征(从大数据存储与计算的角度看)案例:目前,某基于大数据的网约车平台已覆盖全国400多个城市,涵盖出租车、快车、顺风车、代驾、专车、试驾以及租车等多项业务,为人们的出行带来极大的便利。我们只需在网约车APP上输入或者说出目的地,强大的智能系统就立刻分配订单,即时通知附近司机;借助定时定位系统,我们可以看到司机的大致位置以及预计到达时间。分布式处理:将不同地点的,或具有不同功能的,或拥有不同数据的多台计算机,通过网络连接起来,在控制系统的统一管理控制下,协调地完成大规模信息处理任务的计算机系统。包括分布式存储(云存储)和分布式并行计算(云计算)。20传统数据大数据数据量小数据体量巨大数据类型少数据类型繁多价值密度高价值密度低更新速度慢更新速度快追求数据精确性追求数据模糊性本地存储分布式存储三、大数据与传统数据的区别21
大数据使人们日常生活更加便捷四、大数据对日常生活的影响1、方便支付。中国是全球最大的移动支付市场。医院、餐厅、菜市场、加油站,甚至路边摊,都在使用移动支付。中国人今天的生活,已经越来越有科技含量。2、方便出行。应用交通系统的大数据,网络约车出行,智能导航行车避免堵车,无人驾驶,智能地图方便寻路,等等。22
大数据使人们日常生活更加便捷四、大数据对日常生活的影响3、方便购物与产品推介。网络购物不但节省人们出行购物的时间,而且帮助企业有效判断用户的信息需求和消费需求,对客户进行产品推介,方便人们选购产品。4、方便看病与诊病。应用网络预约挂号,减轻与节省患者排队挂号看病的辛劳与时间;同时,又方便医生提前分析患者的病史数据,以便更科学诊病。……淘宝抖音电商拼多多京东23国内1.微博5.38亿用户数据在暗网出售2.青岛市胶州中心医院6千余人个人信息被泄露3.B站知名UP主“党妹”数百G视频素材丢失损失惨重4.浙江一家银行泄露客户信息被罚30万5.江苏南通5000多万条个人信息在“暗网”倒卖6.建设银行员工贩卖5万多条客户信息国外1.近50万台服务器、路由器和IoT设备密码被泄露2.万豪,美高梅酒店1580万客人信息泄露3.化妆品巨头雅思兰黛因不安全服务器泄露4.4亿用户敏感信息4.以色列640万选民数据遭泄露5.2.67亿个Facebook帐户信息在暗网出售6.泰国最大的移动运营商泄露83亿条用户数据记录7.易捷航空遭遇网络攻击,900万客户数据被泄露8.成人网站泄露超百亿条用户敏感记录9.多所美国大学遭到勒索软件攻击10.谷歌浏览器造成大规模用户安全信息泄露人脸识别第一案个人信息成为“商品”被贩卖快递运单号泄露个人信息“脸书facebook”泄露用户信息1.个人信息泄露四、大数据对日常生活的影响
大数据对人们日常产生的负面影响242.信息诈骗。在大数据时代,我们的网络信息随时都可能被不法分子窃取,并对我们及身边的亲人造成伤害。四、大数据对日常生活的影响
大数据对人们日常产生的负面影响25课堂练习1.从互联网产生大数据的角度来看,大数据具有的特征是()。A.‘4V”特征:大量(Volume)、多样(Variety)、低价值密度(Value)、高速(Velocity)B.样本渐趋于总体,精确让位于模糊,相关性重于因果C.分布式存储,分布式并行计算D.没有特征2.下列关于大数据的特征,说法正确的是()。A.数据价值密度高 B.数据类型少C.数据基本无变化 D.数据体量巨大AD26课堂练习3.电子警察采用拍照的方式来约束车辆的行为,其拍照的过程属于()A.数据分析B.数据采集C.数据分类D.数据可视化表达B4.(
)是指无法在可承受的时间范围内用常规软件工具进行高校捕捉,管理和处理的数据集合5.1GB=()MB大数据102427课堂练习1.大数据的特点是数据量超大,起始计量单位至少是PB(1024个T)、EB(220T)或ZB(230T)。(_____)2.微信支付、支付宝支付、滴滴打车等都包含着大数据在生活中的应用。(______)3.疫情期间,国家有关部门可以通过大数据筛选、查找到和感染者有过密切接触的人,大数据一方面方便人们看病问诊,另一方面也存在个人信息泄露的风险。
(______)√√√28课堂练习4.高德地图根据用户实时上报的交通信息,通过大数据平台整合各种信息,给出相应的路线。
(_____)5.大数据是指无法在可承受时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合。
(_____)√√29场景一:当我们打开淘宝、拼多多等购物软件时,首页会显示出推荐的商品。为什么购物软件推荐的商品总是很合我们心意?场景二:当我们打开抖音、哔哩哔哩等视频软件时,首页会显示出推荐的视频。为什么打开视频软件就刷到停不下来了?用户网络购物行为分析大数据分析播放时长点赞视
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 桥梁结构试验试题及答案
- 广东省清远市英德市2024-2025学年八年级上学期期末地理试题(含答案)
- 《GAT 1329-2016法庭科学吸毒人员尿液中氯胺酮气相色谱和气相色谱-质谱检验方法》专题研究报告
- 2026年深圳中考语文论述类文本阅读试卷(附答案可下载)
- 2026年大学大二(口腔医学)口腔颌面外科学基础综合测试题及答案
- 2026年深圳中考数学三角形专项突破试卷(附答案可下载)
- 防灾减灾救灾题库及答案
- 电击伤的急救护理流程
- 2026年人教版英语九年级下册期中质量检测卷(附答案解析)
- 2026年人教版道德与法治七年级下册期末质量检测卷(附答案解析)
- 酒店消防安全应急预案范本
- 链式输送机传动系统设计
- 疲劳骨折课件
- 2025分布式数据库 OceanBase 架构演进与业务场景实践
- 2025年军工企业招聘考试面试流程与注意事项详解
- 《昆虫记》中的昆虫图片
- 铁路施工安全检查日志范本
- 矿山安全培训模拟场景描述课件
- 五层外架施工方案
- 供应链中断应急预案(商品断供、物流中断)
- 山东省青岛市李沧、平度、西海岸、胶州2026届九年级数学第一学期期末综合测试试题含解析
评论
0/150
提交评论