第6章 大数据基础与应用_第1页
第6章 大数据基础与应用_第2页
第6章 大数据基础与应用_第3页
第6章 大数据基础与应用_第4页
第6章 大数据基础与应用_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

教案第6次课2学时课题大数据基础与应用教学目的与要求1.知识目标:让学生了理解大数据的基本概念,大数据处理的过程。2.能力目标:帮助学生掌握目前大数据技术的应用,掌握简单的数据可视化工具,并完成实践项目。3.素养目标:将思政元素融入课程,鼓励学生作为数字时代的公民,提高自我保护意识,学习相关的知识和技能,保护自己的数据安全。引导学生认识到在数字化时代,维护个人隐私和社会公共利益的重要性。强调每个人都是信息社会的参与者和建设者,我们的行为应当体现出对他人和社会的尊重和负责。重点难点重点:掌握大数据处理的流程,能够完成简单的数据可视化界面。难点:理解大数据处理的关键技术,了解目前大数据的应用场景。课前复习教学进程安排一、实施本次课教学内容【课堂教学】阶段目标1:大数据的定义及发展历程(10分钟)引入:通过假设是一家大型超市的经理。每天要处理成千上万顾客的购物数据。这些数据包括顾客买了什么、什么时候买的、花了多少钱等等。这时候如何完成处理任务?提问:你们对大数据有什么了解?生活中经历或使用过那些大数据技术?讲解:大数据的定义和发展历程,以及大数据具体作用是什么?大数据与人工智能之间又有怎样的关系。阶段目标2:大数据的特性(25分钟)Volume(大量):(5分钟)案例:中国交通银行信用卡中心实施了一个电子渠道实时反欺诈监控交易系统。该系统通过实时接收电子渠道交易数据,并整合银行内系统业务数据,以实现快速建模、实时告警与在线智能监控报表等功能。Velocity(高速):(5分钟)案例:在加拿大多伦多的一家医院,大数据技术被应用于实时监测早产儿的健康状况。该医院每秒钟读取超过3000次数据,这些数据包括早产儿的体温、心率、血氧饱和度等关键生命体征。Variety(多样):(5分钟)案例:ValenceHealth使用MapR公司的数据融合平台(ConvergedDataPlatform)来建立一个数据湖并作为公司主要的数据仓库。Valence每天从3000个数据输入源接收45种不同类型的数据,这些关键数据包括实验室测试结果、患者健康记录、处方、疫苗记录、药店优惠、账单和付款,以及医生和医院的账单。Veracity(真实):(5分钟)案例:浙江移动将数据业务融合化,实现数据跨系统前后融通,业务数据化提升数据质量,以主数据治理为抓手,开展源端数据质量治理,解决跨系统共享数据的一致性问题,实现数据真正能用、好用、快用。Value(价值):(5分钟)案例:沃尔玛早在1969年就开始使用计算机来跟踪存货,1974年将其分销中心与各家商场运用计算机进行库存控制。1983年,沃尔玛所有门店都开始采用条形码扫描系统。1987年,沃尔玛完成了公司内部的卫星系统的安装,通过这些数据,沃尔玛能够分析顾客的购买行为,从而供应最佳的销售服务。阶段目标3:讲解大数据架构的定义与关键技术(5分钟)大数据架构的定义:(2分钟)大数据架构是是一个多层次的系统设计,是一种分布式并行架构,它将数据分散存储在多个服务器上,用于处理和分析海量数据,极大提高了数据处理速度。大数据架构的关键技术:(3分钟)数据采集技术框架:将分散在不同来源的海量数据汇集到一起。数据存储技术框架:将数据分片存储在多个节点上,确保可靠性和可用性。数据处理框架:对存储的数据进行处理和分析。数据分析技术框架:将处理后的数据转化为实际的应用结果。数据集成与转换技术:确保来自不同来源的数据兼容并以统一的方式构建。数据安全和隐私技术:实施访问控制、加密敏感数据并遵循法规遵从准则。阶段目标4:大数据的关键技术与处理流程(5分钟)大数据的关键技术通常包括Hadoop,Spark,NoSQL数据库等,并且涵盖了数据采集、存储、处理和分析的完整流程。数据采集:大数据采集技术涉及到从各种来源自动获取信息的过程,这些来源可能包括传感器、互联网、物联网设备等。数据类型广泛,可以是页面数据、交互数据、社交媒体数据等。数据存储:在存储方面,大数据生态系统中通常会使用分布式文件系统如Hadoop的HDFS(HadoopDistributedFileSystem)或NoSQL数据库来管理大规模数据集。这些技术能够高效地存储和处理PB级别的数据量。数据处理:处理大规模数据通常需要使用分布式计算框架,比如Hadoop和Spark。Hadoop基于MapReduce计算模型,适合进行批量数据处理。而Spark是基于内存的并行计算框架,适用于批处理和流处理等多种计算范式。数据分析:分析过程包括简单的查询分析、流分析以及更复杂的分析,如机器学习和图计算等。这一步骤建立在强大的计算处理层之上,利用各种算法和模型对数据进行深入挖掘,以获得有价值的洞察。思政引入:讨论隐私问题,以及用户对数据共享和使用的担忧。鼓励学生作为数字时代的公民,提高自我保护意识,学习相关的知识和技能,保护自己的数据安全。引导学生认识到在数字化时代,维护个人隐私和社会公共利益的重要性。强调每个人都是信息社会的参与者和建设者,我们的行为应当体现出对他人和社会的尊重和负责。阶段目标5:数据可视化技术的讲解(5分钟)讲解数据可视化定义:(2分钟)数据可视化是将复杂的数据集转换成图形或图表的过程,它利用人类视觉系统对图形和颜色的敏感性,使得数据中的信息更容易被识别和记忆。介绍数据可视化工具:(3分钟)序号名称特点1图表秀提供免费的在线图表制作工具,支持自由布局与联动交互分析,操作简单。适合具体的业务可视化分析场景,如销售额分析、库存分析等。2Plotly交互性、多样图表类型、与多种工具兼容、外观美观、在线分享。适用于数据分析、业务展示、教育与培训。3D3.js灵活性与可定制性的极致,允许开发者从头开始构建图表。适用于复杂图表、高度定制化需求、交互性强的应用。4ChartCube图表类型丰富,颜色清爽,审美在线,支持拖拽制作图表 。适合需要多种图表类型和导出格式丰富的场景。5Flourish国外知名的免费可视化在线网站,模板多样,操作简单。适合需要大量模板选择和简单操作的场景。6PowerBI由微软研发。它通过连接数百个数据源进行数据清洗、数据建模、数据可视化,生成丰富的交互式可视化仪表盘报告,发布到Web和移动设备上。适用于销售分析、市场分析、财务分析、运营分析和客户关系管理等多种业务场景。7TableauTableau是一款强大的数据可视化工具,它允许用户快速连接、准备和分析数据。Tableau提供了丰富的可视化选项,包括地图、图表和图形等。适用于业务分析、市场研究、财务规划和人力资源管理等场景。阶段目标6:云计算的定义与技术(5分钟)讲解云计算的定义:云计算是一种基于互联网的计算服务模式,它允许用户通过网络访问和使用存储在远程服务器上的数据和应用程序。介绍云计算的部署方式:公有云、私有云、混合云和社区云。云计算的数据中心搭建:基础设施层就像大楼的地基和框架,它包括了数据中心里所有的硬件设备。平台层就像大楼的公共设施层,提供了一些基本的服务和管理工具。软件层则像是大楼的办公区域,这里运行着各种应用程序。应用层就像是大楼的顶部,直接面对用户,提供最终的服务和体验。阶段目标7:项目实战(30分钟)考核方式:通过课堂限时完成项目实战内容,并计入形成性成绩。考核内容:通过项目实战考核大数据技术、数据可视化技术、大模型技术等内容。实践:天气数据处理分析项目目标采集天气数据后进行处理分析得出结论。项目步骤数据采集通过大模型问答,采集近一个月的辽宁省的10个城市天气数据,包含温度、湿度、日出时间,日落时间,空气质量、紫外线指数、风力等级、气压等数据。数据存储将所有书籍保存在“天气数据”的文本文件中。数据处理对未采集的数据、错误的数据等进行剔除。特征选取选出5种你认为最能代表当天天气的特征数据。特征存储将这5种特征数据另存为一个新的文本文件中,命名为“特征数据”。数据可视化将5种特征数据利用图表秀工具进行可视化展示,使用5种不同的图表,自行排版,构成一个完整的可视化页面。数据分析通过可视化页面能够得出什么结论?

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论