Chapter2-第2章 大数据-厦门大学-林子雨-数字素养通识教程(第2版高职版)(2026年1月)_第1页
Chapter2-第2章 大数据-厦门大学-林子雨-数字素养通识教程(第2版高职版)(2026年1月)_第2页
Chapter2-第2章 大数据-厦门大学-林子雨-数字素养通识教程(第2版高职版)(2026年1月)_第3页
Chapter2-第2章 大数据-厦门大学-林子雨-数字素养通识教程(第2版高职版)(2026年1月)_第4页
Chapter2-第2章 大数据-厦门大学-林子雨-数字素养通识教程(第2版高职版)(2026年1月)_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

林子雨副教授数字素养通识教程(高职版)厦门大学教材简介本PPT是以下教材的配套讲义林子雨编著《数字素养通识教程——大数据与人工智能时代的计算机通识教育(第2版)》人民邮电出版社,2026年6月ISBN:978-7-115-69622-9

定价:59.8元教材官网:/post/digital-literacy-hve/教材官网提供讲义PPT、MOOC视频、案例视频、上机实验、教学大纲、课程思政案例、开学第一课讲座PPT等丰富的教学资源扫一扫访问教材官网主讲教师和作者林子雨简介厦门大学计算机科学与技术系副教授以第一作者编著出版20本大数据系列教材被国内1000余所高校采用3本教材入选教育部“十四五”普通高等教育本科国家级规划教材荣获“2022年福建省高等教育教学成果奖特等奖(个人排名第一)”入选“2021年高校计算机专业优秀教师奖励计划”2018年国家精品在线开放课程(独立主讲)2020年国家级线上一流本科课程(独立主讲)2021年国家级线上一流本科课程(独立主讲)入选“2023年教育部国家智慧教育公共服务平台应用典型案例”第2章大数据01大数据目录02大数据时代03大数据的发展历程04世界各国的大数据发展战略05大数据的概念06大数据的影响07大数据的应用08大数据产业01数据Partone数据——“未来的石油”记录可识别的、抽象的符号客观事物的性质状态相互关系数据数据则是构成信息的基本单位,离散的数据没有任何实用价值信息由数据的有序排列组合而成,传达给读者某个概念方法等2.1.1数据的概念文本图片视频音频2.1.2数据类型文件数据库2.1.3数据组织形式2.1.4数据生命周期对数据进行自动分类,分离出有效的数据,对不同类型数据制定不同的管理策略,并及时清理无用的数据构建分层的存储系统,满足不同类型的数据对不同生命周期阶段的存储要求,对关键数据进行数据备份保护,对处于生命周期末期的数据进行归档并保存到适合长期保存数据的存储设备中根据不同的数据管理策略,实施自动分层数据管理,即自动把不同生命周期阶段的数据存放在最合适的存储设备上,提高数据可用性和管理效率2.1.5数据的使用第一步:数据清洗第二步:数据管理第三步:数据分析数据的基本用途实现数据删除行为原因过去的存储技术落后没有认识到数据潜在价值数据的价值不会因为不断被使用而削减,反而会因为不断重组而产生更大的价值2.1.6数据的价值性人类进入信息社会数据以自然方式增长其产生不以人的意志为转移“数据爆炸”时代2.1.7数据爆炸什么是数商搜集数据、分析数据、用数据来指导决策的能力高低的衡量衡量数据优势大小高低的一个体系智能时代的一个新的“商”数商包括:记录数据整理数据组织数据保存数据搜索数据洞察数据控制数据......2.1.8数商善于分析收集数据,寻找真正的因果关系实“数”求是用概率来辅助个人决策勤于记录,善于记录,敢于记录高数商的十大原则2.1.8数商学会用幸存者偏差分析社会现象掌握SQL、Python等数据新世界的金刚钻用数据破解生活中的隐性知识掌握聪明搜索的一系列技巧反对混沌、差不多以及神秘主义的文化高数商的十大原则2.1.8数商02大数据时代Parttwo“IT领域每隔十五年就会迎来一次重大变革。”——IBM前首席执行官郭士纳信息化浪潮发生时间标志解决问题代表企业第一次浪潮1980年前后个人计算机信息处理Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等第二次浪潮1995年前后互联网信息传输雅虎、谷歌、阿里巴巴、百度、腾讯等第三次浪潮2010年前后物联网、云计算和大数据信息爆炸涌现出了亚马逊、字节跳动等一批新的市场标杆企业2.2.1第三次信息化浪潮2.2.2信息科技为大数据时代提供技术支撑存储设备容量CPU计算能力网络带宽技术支撑2.2.2信息科技为大数据时代提供技术支撑存储价格随时间变化情况存储设备容量不断增加2.2.2信息科技为大数据时代提供技术支撑存储设备容量不断增加早期的存储设备容量小、价格高、体积大,例如IBM在1956年生产一个早期的商业硬盘,容量只有5MB,不仅价格昂贵,而且体积有一个冰箱那么大2.2.2信息科技为大数据时代提供技术支撑存储设备容量不断增加配备电脑1TB硬盘价格仅为300元左右2.2.2信息科技为大数据时代提供技术支撑存储设备容量不断增加闪存具有体积小、质量轻、能耗低、抗震性好等优良特性以闪存为代表的新型存储介质也开始得到大规模的普及和应用2.2.2信息科技为大数据时代提供技术支撑存储设备容量不断增加数据量和存储设备容量一方面,随着数据不断产生,需要存储数据量不断增加,对存储设备的容量提出了更高的要求,促使存储设备生产商制造更大容量的产品满足市场需求另一方面,更大容量的存储设备,进一步加快了数据量增长的速度2.2.2信息科技为大数据时代提供技术支撑存储设备容量不断增加企业更多资金2.2.2信息科技为大数据时代提供技术支撑CPU处理能力大幅提升CPU晶体管数目随时间变化情况“摩尔定律”2.2.2信息科技为大数据时代提供技术支撑(百万)1000010001001010.10.01197019751980198519901995200020052010网络带宽不断增加网络带宽随时间变化情况我国4G网络的规模全球第一(截至2025年9月)12.42亿个互联网宽带接入端口数量96.7%光纤接入端口占互联网接入端口的比重7444万千米光缆线路总长度全球第一移动通信4G基站数量我国正全面加速5G网络建设(截至2025年7月)459.8万个全国建设开通5G基站全球第一5G基站规模在大数据时代,数据传输不再受网络发展初期的瓶颈的制约2.2.2信息科技为大数据时代提供技术支撑2.2.3数据产生方式的变革促成大数据时代的来临运营式系统阶段用户原创内容阶段感知式系统阶段第一阶段第二阶段第三阶段2.2.3数据产生方式的变革促成大数据时代的来临运营式系统阶段实例——超市购物,在数据库系统中生成购物信息企业零售系统数据库2.2.3数据产生方式的变革促成大数据时代的来临用户原创内容阶段2.2.3数据产生方式的变革促成大数据时代的来临物联网(IOT)实现万物互联感知式系统阶段03大数据的发展历程Partthree3.3.3大数据的发展历程阶段时间内容第一阶段萌芽期上世纪90年代至本世纪初随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等第二阶段成熟期本世纪前十年Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道第三阶段大规模应用期2010年以后大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高2.3

大数据的发展历程04世界各国的大数据发展战略Partfour3.3.3大数据的发展历程国家战略美国稳步实施“三步走”战略,打造面向未来的大数据创新生态英国紧抓大数据产业机遇,应对脱欧后的经济挑战欧盟注重加强成员国之间的数据共享,平衡数据的流通与使用韩国以大数据等技术为核心应对第四次工业革命日本开放公共数据,夯实应用开发中国实施国家大数据战略,加快建设数字中国2.4世界各国的大数据发展战略05大数据的概念Partfive大量化快速化多样化价值密度低2.5大数据的概念根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)人类在最近两年产生的数据量相当于之前产生的全部数据量TERABYTE10的12次方一块1TB硬盘200,000照片或mp3歌曲PETABYTE10的15次方两个数据中心机柜16个Blackblazepod存储单元EXABYTE10的18次方2,000个机柜占据一个街区的4层数据中心ZETTABYTE10的21次方1000个数据中心纽约曼哈顿的1/5区域YOTTABYTE10的24次方一百万个数据中心特拉华州和罗德岛州2.5.1数据量大数据量大全球数据总量到2020年,全球总共拥有50.5ZB的数据量据IDC预测,2030年全球数据存储量将达到2500ZB2.5.1数据量大数据量大2.5.1数据量大数据量大人在骑马照片电影2.5.1数据量大数据量大数据量达到一定的临界规模,产生了”大模型“科学研究企业应用Web1.0数据Web2.0数据基因组LHC加速器地球与空间探测Email、文档、文件应用日志交易记录文本图像视频查询日志/点击流Twitter/Blog/SNSWiki2.5.2数据类型繁多数据类型繁多2.5.2数据类型繁多数据类型繁多生物大数据、交通大数据、医疗大数据、电信大数据、电力大数据、金融大数据等都呈现出“井喷式”增长,所涉及的数量十分巨大,已经从TB级别跃升到PB级别2.5.2数据类型繁多数据类型繁多消费者大数据2.5.2数据类型繁多数据类型繁多金

据2.5.2数据类型繁多数据类型繁多医

据2.5.2数据类型繁多数据类型繁多城

据2.5.2数据类型繁多数据类型繁多工

据数据是由结构化和非结构化数据组成结构化数据-存储在数据库中非结构化数据与人类信息密切相关2.5.2数据类型繁多数据类型繁多2.5.2数据类型繁多数据类型繁多类似Web2.0等应用数据传统数据存储于NoSQL数据库中存储于关系型数据库中大数据传统的OLAP(On-LineAnalyticalProcessing)分析和商务智能工具大都面向结构化数据,而在大数据时代,用户友好的、支持非结构化数据分析的商业软件也将迎来广阔的市场空间从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同一分钟时间可以新浪可以发送2万条微博苹果可以下载4.7万次应用淘宝可以卖出6万件商品百度可以产生90万次搜索人人网可以发生30万次访问2.5.3处理速度快处理速度快价值密度低,商业价值高以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的商业价值2.5.4价值密度低价值密度低06大数据的影响Partsix图灵奖获得者、著名数据库专家JimGray博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式实验理论计算数据2.6.1大数据对科学研究的影响科学研究第一种范式:实验伽利略伽利略在比萨斜塔做两个铁球同时落地实验2.6.1大数据对科学研究的影响科学研究第二种范式:理论几何理论牛顿三大定律2.6.1大数据对科学研究的影响科学研究第三种范式:计算2.6.1大数据对科学研究的影响科学研究第四种范式:数据大数据时代,以数据为中心2.6.1大数据对科学研究的影响新决策方式新途径深度融合新技术和新应用大数据决策逐渐成为一种新的决策方式大数据成为提升国家治理能力的新途径大数据应用有力促进信息技术与各行业的深度融合大数据开发大大推动了新技术和新应用的不断涌现2.6.2大数据对社会发展的影响大数据对社会发展的影响大数据的兴起使得数据科学家成为热门职业2010年的时候,在高科技劳动力市场上还很难见到数据科学家的头衔,但此后,数据科学家逐渐发展成为市场上最热门的职位之一,具有广阔发展前景,并代表着未来的发展方向数据科学家成为大数据时代最紧缺的人才互联网企业和零售、金融类企业都在积极争夺大数据人才,数据科学家成为大数据时代最紧缺的人才。国内有大数据专家估算过,目前国内的大数据人才缺口达到130万,以大数据应用较多的互联网金融为例,这一行业每年增速达到4倍,仅互联网金融需要的大数据人才就在迅速增长2.6.3大数据对就业市场的影响大数据对就业市场的影响大数据产业是战略新型产业和知识密集型产业大数据企业对大数据高端人才和复合人才需求旺盛追求大数据人才数量、质量高层次大数据人才市场供不应求专业技能数据架构数据挖掘与分析产品设计......2.6.3大数据对就业市场的影响大数据对就业市场的影响大数据架构师成为大数据相关企业需求最大的岗位大数据工程师数据产品经理数据产品经理系统研发人员以上需求企业数均超过一半大数据人才需求岗位TOP10中的其他岗位数据分析师应用开发人员数据科学家机器学习工程师数据挖掘分析师数据建模师2.6.3大数据对就业市场的影响大数据对就业市场的影响2.6.4大数据对人才培养的影响2016年,北京大学、对外经济贸易大学、中南大学成为国内首批设立“数据科学与大数据技术专业”的高校,到2023年,全国累计有1000余所高校设立大数据相关专业。教育部《普通高等学校本科专业备案和审批结果》数据显示,数据科学与大数据技术是2016—2020年高校新增数量最多的专业。2017—2020年,大数据相关专业新增数量在新增专业数量排行榜中均位居前列,数据科学、智能化应用等专业受到高校普遍重视高校培养数据科学家人才需要采取“两条腿”走路的策略,即“引进来”和“走出去”在课程体系的设计上,高校应该打破学科界限,设置跨院系跨学科的“组合课程”,由来自计算机、数学、统计等不同院系的教师构建联合教学师资力量,多方合作,共同培养具备大数据分析基础能力的数据科学家07大数据的应用Partseven大数据无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹2.7.1大数据在各个领域的应用

领域大数据的应用制造业利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺、优化生产过程能耗、工业供应链分析与优化、生产计划与排程金融行业大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重要作用汽车行业利用大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活互联网行业借助于大数据技术,可以分析客户行为,进行商品推荐和有针对性广告投放餐饮行业利用大数据实现餐饮O20模式,彻底改变传统餐饮经营方式电信行业利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施能源行业随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理地设计电力需求响应系统,确保电网运行安全物流行业利用大数据优化物流网络,提高物流效率,降低物流成本城市管理可以利用大数据实现智能交通、环保监测、城市规划和智能安防生物医学大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘体育和娱乐大数据可以帮助我们训练球队,决定投拍哪种题材的影视作品,以及预测比赛结果安全领域政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪个人生活大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务2.7.1大数据在各个领域的应用按照数据开发应用深入程度的不同,可将众多的大数据应用分为三个层次描述性分析应用预测性分析应用指导性分析应用从大数据中总结、抽取相关的信息和知识,帮助人们分析发生了什么,并呈现事物的发展历程从大数据中分析事物之间的关联关系、发展模式等,并据此对事物发展的趋势进行预测在前两个层次的基础上,分析不同决策将导致的后果,并对决策进行指导和优化2.7.2大数据应用的三个层次大数据应用的三个层次08大数据产业Parteight大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合产业链环节包含内容IT基础设施层包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如,提供数据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化管理软件的微软、思杰、SUN、Redhat等数据源层大数据生态圈里的数据提供者,是生物大数据(生物信息学领域的各类研究机构)、交通大数据(交通主管部门)、医疗大数据(各大医院、体检机构)、政务大数据(政府部门)、电商大数据(淘宝、天猫、苏宁云商、京东等电商)、社交网络大数据(微博、微信、人人网等)、搜索引擎大数据(百度、谷歌等)等各种数据的来源数据管理层包括数据抽取、转换、存储和管理等服务的各类企业或产品,比如分布式文件系统(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、数据库和数据仓库(Oracle、MySQL、SQLServer、HBase、GreenPlum等)数据分析层包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,比如,分布式计算框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等等数据平台层包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,比如阿里巴巴、谷歌、中国电信、百度等数据应用层提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,比如交通主管部门、各大医疗机构、菜鸟网络、国家电网等2.8大数据产业2.8大数据产业中西部地区环渤海地区珠三角地区长三角地区东北地区2.8大数据产业一些地方政府在积极尝试以“大数据产业园”为依托,加快发展本地的大数据产业。大数据产业园是大数据产业的聚集区或大数据技术的产业化项目孵化区,是大数据企业的孵化平台以及大数据企业走向产业化道路的集中区域2.8大数据产业比如位于福建省泉州市安溪县龙门镇的中国国际信息技术(福建)产业园,于2015年5月建成投入运营,是福建省第一个大数据产业园区,致力于以国际最高等级第三方数据中心为核心,构建以信息技术服务外包为主的绿色生态产业链,打造集数据中心、云服务、数字金融、信息技术教育、国际交流、投融资环境等功能为一体,覆盖福建、辐射海西的国际一流高科技信息技术产业园区本章小结人类已经步入大数据时代,我们的生活被数据所“环绕”,并被数据深刻变革。作为大数据时代的公民,我们应该接近数据,了解数据,并利用好数据本章首先从数据入手,讲解了数据的概念、类型、组织形式、生命周期等内容,然后,把视角切入到大数据时代,介绍了大数据时代到来的背景及其发展历程,同时总结了世界各国的大数据发展战略讨论了大数据的“4V”特性以及大数据对科学研究、社会发展、就业市场和人才培养的影响。最后,简要介绍了大数据在不同领域的应用和大数据产业林子雨副教授谢谢观看!厦门大学附录A:主讲教师林子雨简介单位:厦门大学计算机科学与技术系E-mail:ziyulin@个人网页:/post/linziyu数据库实验室网站:主讲教师:林子雨林子雨,男,1978年出生,博士(毕业于北京大学),全国高校知名大数据教师,入选“2021年高校计算机专业优秀教师奖励计划”。现为厦门大学计算机科学与技术系副教授,厦门大学信息学院实验教学中心主任,曾任厦门大学信息科学与技术学院院长助理、晋江市发展和改革局副局长。中国计算机学会数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论