《大数据导论》电子教案

上传人：释*** IP属地：山东上传时间：2026-05-14 格式：DOC 页数：31 大小：209KB 积分：5.99 举报 版权申诉

已阅读5页，还剩26页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

PAGE课程教案（2025—2026学年第2学期）课程名称：大数据导论课程学时：40-48授课班级：任课教师：教师职称：教师所在单位：第20页

周次第1周，第1次课章节名称第一章：大数据概述授课方式理论课（√）实验课（）实习（）教学时数2教学目标及基本要求理解大数据的定义、来源与发展历程；掌握大数据的“4V”特征；了解大数据对科学研究的第四范式（数据密集型科学）的影响；认识大数据的数据类型（结构化、半结构化、非结构化）。能清晰界定大数据与传统数据的区别；能阐述大数据思维的核心转变（从IT到DT）；能初步判断不同数据的类型。教学重点、难点重点：大数据“4V”特征的内涵、数据类型的区分。难点：理解从“计算围绕着数据转”到“数据围绕着计算转”的IT到DT转变；理解第四范式的革命性。教学基本内容与教学设计（含时间分配）教学内容：1.大数据的来源（数据产生的三个发展阶段）2.大数据的定义与从IT到DT的转变3.大数据的“4V”特征4.大数据对科学研究的影响（第四范式）5.大数据的数据类型（结构化、半结构化、非结构化）教学设计：1.案例导入（15分钟）：从“双11”交易额和Web2.0用户生成内容激增切入，引出“数据爆炸”现象。展示图1-2（互联网企业对数据分析需求），讲解大数据产生的背景。2.讲授与互动（45分钟）：系统讲解大数据的定义，结合麦肯锡和Gartner的观点。采用对比法讲解IT时代（计算为核心）与DT时代（数据为核心）的思维差异。逐一解析“4V”特征，并举例说明。3.图表演示（20分钟）：利用图1-8（大数据数据构成）讲解结构化、半结构化、非结构化数据的区别与联系，并举例让学生当场分类。4.讨论与总结（10分钟）：讨论“大数据时代到来，是否意味着‘样本=全体’？”，引出科学研究的第四范式，总结本章核心概念。讨论、思考题、作业及课后参考资料思考题：1.为什么说大数据技术的战略意义不在于掌握庞大的数据信息，而在于对数据的“加工”能力？2.结合生活实例，分别举出结构化、半结构化和非结构化数据的例子。作业：用自己的话解释大数据的四个特征，并说明它们之间的关系。课后参考资料：教材第1章；课堂PPT“大数据概述”部分。教学后记

周次第1周，第2次课章节名称第一章：大数据的价值、技术与趋势授课方式理论课（√）实验课（）实习（）教学时数2教学目标及基本要求理解大数据的价值潜力；掌握大数据处理的核心技术栈（存储与计算）；了解大数据的主要发展趋势。能画出大数据核心技术栈的逻辑图；能解释大数据在具体行业中的潜在价值。教学重点、难点重点：大数据处理技术（HDFS、MapReduce、Spark等）的宏观认知，大数据价值潜力指数图的理解。难点：区分大数据存储技术与计算技术的不同定位，并理解其在生态系统中的协同关系。教学基本内容与教学设计（含时间分配）教学内容：1.大数据的可用性与衍生价值2.大数据存储与处理核心技术概览（图1-10）3.大数据的发展趋势教学设计：1.问题引导（15分钟）：提问“数据量大了，但价值一定高吗？”，引出价值密度低的概念。展示图1-9（大数据价值潜力指数），分析不同行业的大数据价值与开发难度。2.图解法讲授（40分钟）：围绕图1-10（大数据系统涉及的存储及处理技术），以“数据从何而来，存到哪里，如何计算”为线索，宏观介绍各项技术的角色（HDFS,HBase,Hive,MapReduce,Spark,YARN,Zookeeper等），构建大数据技术体系的初步认知。3.趋势研讨（20分钟）：讲解大数据的8大发展趋势，重点讨论“数据资源化”、“与云计算结合”和“数据安全”三个趋势。4.课堂小结（15分钟）：梳理本章逻辑，从数据定义、特征到技术和趋势，形成一个完整的知识闭环。讨论、思考题、作业及课后参考资料思考题：为什么说“数据管理成为核心竞争力”？请结合一个具体企业案例进行说明。作业：绘制一张本章所学的大数据技术栈思维导图。课后参考资料：教材第1章1.4、1.5节；课堂PPT。教学后记

周次第2周，第1次课章节名称第二章：大数据与云计算授课方式理论课（√）实验课（）实习（）教学时数2教学目标及基本要求掌握云计算的定义、特点和概念模型；理解云计算的三种主要部署模式（公有/私有/混合云）和三种服务模式（IaaS/PaaS/SaaS）。能区分不同的云部署和服务模式，并匹配实际应用场景。教学重点、难点重点：云计算的三种服务模式（IaaS、PaaS、SaaS）及其区别；公有云、私有云、混合云的区分。难点：对云计算“弹性”、“虚拟化”和“按需服务”等核心理念的理解；区分三种服务模式。教学基本内容与教学设计（含时间分配）教学内容：1.云计算的提出、定义与概念模型2.云计算的特点3.云计算的主要部署模式（公有云、私有云、混合云、社区云）4.云计算的主要服务模式（IaaS、PaaS、SaaS）教学设计：1.案例导入（10分钟）：以《纽约时报》租用AWS转换海量文章PDF为例，引出云计算的巨大价值和“按需付费”模式。2.讲授法（30分钟）：讲解云计算的定义和概念模型（图2-3），重点解释其“公共性、多样性、服务性、灵活性”。3.对比分析（30分钟）：结合图2-4和2-5，通过表格对比四种部署模式的优缺点和适用对象（企业、个人、政府）。用“吃披萨”的通俗比喻（自己买原料做=本地部署，买半成品做=IaaS，叫外卖=PaaS，去餐厅吃=SaaS）讲解三种服务模式。4.互动讨论（10分钟）：给出一个创业公司和一家大型银行的场景，让学生分组讨论它们应分别选择何种云部署和服务模式，并说明理由。讨论、思考题、作业及课后参考资料思考题：1.SaaS、PaaS和IaaS三者之间有何关联与区别？2.混合云为何被认为是未来云发展的主要方向？它解决了企业的哪些痛点？作业：绘制云计算的三种服务模式图，并各举出一个市面上对应的服务产品。课后参考资料：教材第2章2.1-2.3节；课堂PPT。教学后记

周次第2周，第2次课章节名称第二章：云计算架构及与大数据、物联网的关系授课方式理论课（√）实验课（）实习（）教学时数2教学目标及基本要求掌握Google和Hadoop的云计算/大数据基础架构；理解物联网、大数据、云计算三者之间的关系；了解边缘计算、雾计算、隐私计算等衍生概念。能画出Cloud/Hadoop核心架构图；能解释“物大云”的生态关系。教学重点、难点重点：Google云计算架构（GFS,MapReduce,BigTable）与Hadoop生态系统的对应关系；“物联网产生数据，云计算提供算力，大数据进行分析”的三角关系。难点：理解GFS/HDFS的设计思想（为大文件、批处理优化）；区分边缘计算、雾计算与云计算的关系。教学基本内容与教学设计（含时间分配）教学内容：1.Google平台的基础设施（GFS、MapReduce、BigTable）2.Hadoop平台的基础设施（HDFS、MapReduce）3.物联网、大数据和云计算的关系4.边缘计算、雾计算、隐私计算简介教学设计：1.架构拆解（40分钟）：使用图2-8和图2-10，逐一讲解GFS（大文件分块、副本容错）、MapReduce（分而治之思想）和BigTable（海量非关系型存储）。然后引出Hadoop，强调它是Google技术的开源实现，并讲解HDFS和MapReduce如何协同工作。2.关系图讲授（20分钟）：画出“物大云智移”关系图，逐一讲解。核心逻辑：物联网（数据源）->大数据（原料）->云计算（工厂）->人工智能（产品）。3.新知拓展（20分钟）：结合当前技术热点，简要介绍边缘计算（数据就近处理）、雾计算（去中心化）和隐私计算（数据可用不可见）的概念，并说明它们是为了解决云计算在某些场景（低延迟、带宽、安全）下的不足而诞生的。4.课堂讨论（10分钟）：提问：“自动驾驶汽车为什么必须依赖边缘计算，而不能完全依靠云端？”讨论、思考题、作业及课后参考资料思考题：1.为什么说“云计算是大数据的CPU”？2.边缘计算是否会取代云计算？为什么？作业：绘制Google和Hadoop的核心技术对应图，并写出它们各自的作用。课后参考资料：教材第2章2.4、2.5节；课堂PPT。教学后记

周次第3周，第1次课章节名称第三章：从产业结构来探索大数据技术授课方式理论课（√）实验课（）实习（）教学时数2教学目标及基本要求理解大数据的产业结构（核心、关联、融合产业）；掌握大数据处理的基本流程（采集、清洗、分析、解释）；深入理解数据采集技术（Flume、Kafka、Scrapy）。能描述大数据产业全景图；能区分不同数据采集工具的应用场景。教学重点、难点重点：大数据处理的基本流程；主流数据采集工具（Flume,Kafka,Scrapy）的原理与应用场景。难点：理解Kafka作为高吞吐量分布式消息队列的特点；理解Scrapy爬虫框架的工作流程。教学基本内容与教学设计（含时间分配）教学内容：1.大数据产业结构概述2.大数据处理的基本流程（图3-3）3.大数据采集技术：Flume、Kafka、Scrapy教学设计：1.框架图导入（15分钟）：展示图3-1（大数据产业结构图），讲解大数据产业的三个层面（核心、关联、融合），让学生建立宏观产业认知。2.流程梳理（25分钟）：围绕图3-3，详细讲解数据处理的五大步骤：源数据-数据清洗-数据分析-数据解释-用户。3.技术深潜（40分钟）：-Flume：结合图3-4原型图，讲解Source-Channel-Sink的Event驱动架构，强调其日志采集的可靠性。-Kafka：使用“生产者-篮子(队列)-消费者”的比喻讲解其消息队列机制，强调其高吞吐、可持久的特点。讨论其五大应用场景。-Scrapy：结合图3-7架构图，讲解引擎、调度器、下载器、爬虫、管道五大组件及其数据流。4.对比总结（10分钟）：通过表格对比Flume（日志采集）、Kafka（消息队列）、Scrapy（网络爬虫）的主要功能、典型应用场景和核心特点。讨论、思考题、作业及课后参考资料思考题：1.在什么情况下，一个大数据系统需要同时使用Flume和Kafka？2.网络爬虫在采集数据时可能遇到哪些法律和道德问题？作业：简述大数据处理的基本流程，并为每一步骤匹配一个你所知道的技术或工具。课后参考资料：教材第3章3.1-3.3节；课堂PPT。教学后记

周次第3周，第2次课章节名称第三章：大数据预处理与可视化技术授课方式理论课（）实验课（√）实习（）教学时数2教学目标及基本要求知识目标：掌握数据预处理的四大步骤（清洗、集成、归约、变换）；了解数据清洗中缺失值、噪声数据的处理方法；认识主流的数据可视化图表类型和工具。能力目标：能为“脏数据”制定初步的清洗方案；能根据数据分析目标选择合适的图表进行可视化。教学重点、难点重点：数据清洗中缺失值和噪声数据的处理（分箱、回归等）；数据归约的策略；常用可视化图表（散点图、柱状图、折线图等）的适用场景。难点：理解数据集成中的实体识别与冗余问题；理解数据立方体聚集和维归约的概念。教学基本内容与教学设计（含时间分配）教学内容：1.大数据预处理技术：数据清洗、集成、归约、变换2.大数据可视化技术：概念、分类、常见图表与工具教学设计：1.问题切入（10分钟）：展示一份包含“性别=男/女/未知”，“年龄=-5”，“年薪=1000万（但职业是实习生）”的Excel数据，引出“脏数据”概念及预处理的重要性。2.讲授与图解（45分钟）：逐一讲解数据清洗（处理重复值、缺失值、噪声值）、集成（实体识别、冗余分析）、归约（维归约、数值归约）和变换。结合图3-9（分箱）、图3-12（立方体聚集）等进行直观解释。3.可视化实践分析（25分钟）：讲解“字不如表，表不如图”。展示散点图（看分布）、折线图（看趋势）、柱状图（做对比）、热力图（看空间密度）等，要求学生根据给出的数据场景，抢答应选择何种图表。4.工具简介与职业引导（10分钟）：简单介绍Excel,Tableau等工具的特点，并说明数据预处理和数据可视化工程师是当前的热门职业方向。讨论、思考题、作业及课后参考资料思考题：1.数据预处理中，如何处理“不完整数据”？请至少说出三种方法。2.为什么说“数据可视化是数据生命周期管理的最后一步，也是最重要的一步”？作业：某数据集有12个数值：5,10,11,13,15,35,50,55,72,92,204,215。请使用等深分箱法（箱深为4），并使用均值平滑法对数据进行平滑。课后参考资料：教材第3章3.4-3.5节；课堂PPT。教学后记

周次第4周，第1次课章节名称第四章：大数据的硬件架构——集群授课方式理论课（√）实验课（）实习（）教学时数2教学目标及基本要求知识目标：理解集群的来源（从并行计算机到集群）；掌握集群的基本概念、分类（高性能、负载均衡、高可用）和结构模型（主/主、主/从）。能力目标：能阐述集群思想如何从高性能计算延伸至大数据领域；能根据业务需求推荐合适的集群模型。教学重点、难点重点：集群的分类及各自特点；主/主（Active/Active）与主/从（Active/Passive）两种结构模型的区别。难点：理解集群的“单一系统映像（SSI）”概念；区分负载均衡集群和高可用集群的不同设计目标。教学基本内容与教学设计（含时间分配）教学内容：1.集群的来源：并行计算机发展与“计算机食物链”2.集群的概念与分类（高性能、负载均衡、高可用、虚拟化）3.集群的结构模型（主/主、主/从、混合型）教学设计：1.历史回顾（20分钟）：从大型机、小型机到PC的发展，引出“计算机食物链”（图4-3），最终以“蚂蚁雄兵”式的集群（COW）收尾，让学生理解集群是“以量取胜、化整为零”思想的产物。2.分类教学（30分钟）：用比喻讲解四类集群：-高性能集群=一群科学家合力攻破难题-负载均衡集群=多个收银员同时服务，分担顾客-高可用集群=正式工和替补工，随时准备顶上-虚拟化集群=一套大房子隔成多个单间出租3.模型图解（25分钟）：结合图4-4和4-5，详细对比主/主模型和主/从模型的工作原理、优缺点及适用场景。4.互动辨析（15分钟）：给出场景（如12306网站、银行核心交易系统、天气预报研究中心），要求学生分组辨析应采用哪些集群类型和模型的组合。讨论、思考题、作业及课后参考资料思考题：1.为什么Google能用大量廉价、不可靠的PC构建出比超级计算机更强大的系统？2.主/主和主/从集群模型，哪一种更能保证业务连续性？哪一种性价比更高？作业：分别简述四类集群解决的核心问题是什么。课后参考资料：教材第4章4.1-4.3节；课堂PPT。教学后记

周次第4周，第2次课章节名称第四章：集群文件系统与容器化技术授课方式理论课（）实验课（√）实习（）教学时数2教学目标及基本要求知识目标：理解集群文件系统的概念、优点与分类；了解主流集群文件系统（Lustre,HDFS）；理解集群容器化技术的核心组件与优势。能力目标：能区分单机文件系统、共享存储型集群文件系统和分布式集群文件系统；能解释Kubernetes的基本价值。教学重点、难点重点：分布式集群文件系统的设计思想（分块、备份、元数据管理）；容器（Docker）与编排工具（Kubernetes）带来的变革。难点：理解“计算向数据迁移”的思想及其对大数据处理的重要性；理解容器化技术与传统虚拟化的区别。教学基本内容与教学设计（含时间分配）教学内容：1.集群文件系统：概念、优点、分类2.分布式集群文件系统的设计思想（以HDFS为例）3.集群的容器化技术（Docker,Kubernetes）教学设计：1.问题启发（15分钟）：回顾HDFS/GFS，提问“为什么要把文件切成块（Block）存储在不同机器上？”，引出本章主题。讲解其三大优点：组建大规模存储池、计算向数据迁移、数据高可靠并行读取。2.分类对比（25分钟）：讲解共享存储型（共享一个SAN/NAS）和分布式存储型（各自硬盘，统一管理）的区别，强调HDFS是分布式集群文件系统的典范。3.前沿技术讲解（35分钟）：-容器化：从“为什么你的代码在我机器上跑不起来？”这个开发痛点切入，引出Docker“一次构建，到处运行”的价值。对比容器与虚拟机的架构差异（共享宿主机内核vs.每个VM自带完整OS），解释容器为何更轻量、启动更快。-集群编排：引出管理成千上万个容器的难题，自然过渡到Kubernetes。讲解其自动化部署、弹性伸缩、服务发现等核心功能，帮助学生建立现代云原生应用的初步印象。4.总结与答疑（15分钟）：总结本章从物理集群硬件架构，到文件系统（数据面），再到容器化技术（应用面）的逻辑递进关系。讨论、思考题、作业及课后参考资料思考题：1.为什么在大数据环境下，传统的“数据向计算迁移”的模式行不通了？2.Docker容器和虚拟机（如VMware）相比，最大的优势是什么？作业：画出HDFS的主从架构简图，标明NameNode和多个DataNode，并写出它们各自的职责。课后参考资料：教材第4章4.4-4.6节；课堂PPT。教学后记

周次第5周，第1次课章节名称第五章：大数据开发与计算技术授课方式理论课（√）实验课（）实习（）教学时数2教学目标及基本要求掌握Hadoop分布式大数据系统的基本组成与工作原理，理解Hadoop在大数据处理中的基础性作用。掌握Hadoop生态系统的核心组件及其功能，理解MapReduce计算模型的基本思想。掌握Spark的体系结构及其核心特性，理解Spark相较于HadoopMapReduce在计算性能上的优势。掌握弹性分布式数据集（RDD）的基本概念及操作机制，理解Spark在大数据实时与离线计算中的应用场景。能够根据具体业务需求，初步判断Hadoop与Spark的适用场景，并理解两者在大数据处理体系中的协同关系。教学重点、难点重点：Hadoop系统架构及生态系统组成；MapReduce计算模型；Spark体系结构与RDD机制难点：MapReduce计算流程与数据分布机制；RDD的弹性与容错机制；Hadoop与Spark在计算模型上的差异教学基本内容与教学设计（含时间分配）教学内容：Hadoop分布式大数据系统概述Hadoop架构（HDFS与MapReduce）Hadoop生态系统组成Spark大数据数据实时处理系统概述Spark体系结构弹性分布式数据集（RDD）Spark扩展功能教学设计：案例导入：以“互联网平台每天产生TB级日志数据”为背景，引出传统单机处理模式的局限性，说明分布式计算框架产生的必要性，从而引出Hadoop。（15分钟）讲授法：讲解Hadoop架构，包括HDFS（分布式存储）与MapReduce（分布式计算），重点说明NameNode与DataNode的职责，以及Map与Reduce阶段的数据处理流程。（25分钟）系统分析：介绍Hadoop生态系统，如Hive、HBase、Sqoop等组件，说明其在数据存储、分析与传输中的作用，帮助学生建立完整的大数据技术体系认知。（20分钟）对比讲授：引入Spark，分析其基于内存计算的特点，对比MapReduce的磁盘I/O模式，说明Spark在迭代计算与实时计算中的优势。（10分钟）机制讲解：重点讲解RDD的基本概念、转换操作与行动操作，说明其“弹性”和“容错”的实现机制。（20分钟）讨论、思考题、作业及课后参考资料思考题：为什么Hadoop适合离线批处理，而Spark更适合实时计算？RDD的“弹性”具体体现在哪些方面？作业：绘制Hadoop与Spark主要体系结构，并说明各自的适用场景。课后参考资料：教材第5章5.1、5.2；课堂PPT“Hadoop与Spark”部分。教学后记（教师完成本教学单元教学后对教学设计、教学重难点把握、教学方法应用、教学效果、学生学习情况和出勤率等课堂教学过程的总结与分析，为以后教学提供经验和素材。应该在该章（节）教学活动结束后填写。）

周次第5周，第2次课章节名称第五章：大数据流处理技术授课方式理论课（√）实验课（）实习（）教学时数2教学目标及基本要求理解实时流处理在大数据系统中的重要作用，掌握Storm与Flink两种主流流处理框架的基本原理与体系结构。掌握Storm的拓扑结构及数据流处理机制，理解其在实时计算中的应用特点。掌握Flink的体系结构与运行机制，理解其在流批一体化处理中的优势。能够比较不同流处理框架的特点，并根据实际需求选择合适的技术方案。教学重点、难点重点：Storm拓扑结构与数据处理流程；Flink体系结构与运行机制；流处理与批处理的区别难点：流处理系统的数据一致性与容错机制；Flink流批一体化模型的理解教学基本内容与教学设计（含时间分配）教学内容：Storm基于拓扑的数据流实时计算系统Storm概述Storm的组成结构Storm-Yarn概述Flink分布式实时处理引擎Flink概述Flink的基本框架和原理教学设计：问题导入：提出“如何实现毫秒级数据处理？”“为什么传统批处理无法满足实时需求？”引出流处理技术。（10分钟）讲授法：介绍Storm的基本概念与拓扑结构，说明其数据流处理过程。（15分钟）结构分析：讲解Storm集群架构及其在Yarn上的运行方式，说明资源管理机制。（20分钟）对比讲授：引入Flink，重点分析其流批一体化处理模型，对比Storm的逐条处理方式，并总结Storm与Flink的区别。（20分钟）原理讲解：讲解Flink运行架构，包括JobManager与TaskManager的职责，以及状态管理与容错机制。（25分钟）讨论、思考题、作业及课后参考资料思考题：Storm与Flink在数据处理模式上有哪些本质区别？为什么Flink被认为是更先进的流处理框架？作业：结合实际应用场景（如实时推荐或日志监控），设计一个流处理系统方案。课后参考资料：教材第5章5.3、5.4；课堂PPT“流处理技术”部分。教学后记

周次第6周，第1次课章节名称第五章：Hadoop、Spark、Storm与Flink的比较授课方式理论课（√）实验课（）实习（）教学时数2教学目标及基本要求系统掌握主流大数据计算框架（Hadoop、Spark、Storm、Flink）的特点与差异，理解不同技术在大数据处理体系中的定位。能够从计算模式、处理速度、适用场景等维度对不同框架进行综合分析，并具备技术选型的初步能力。教学重点、难点重点：四种计算框架的核心差异；批处理与流处理的对比难点：多框架协同应用场景分析；技术选型依据教学基本内容与教学设计（含时间分配）教学内容：Hadoop、Spark、Storm、Flink的基本特点批处理与流处理对比不同框架的适用场景综合应用分析教学设计：回顾导入：回顾前两次课内容，梳理各框架核心特性。（10分钟）对比分析：

从处理模式（批处理/流处理）、计算速度、容错机制、资源利用率等方面系统对比四种框架。（30分钟）案例分析：结合“电商推荐系统”“实时日志分析”“离线数据仓库”等典型场景，分析不同技术的选型依据。（20分钟）分组讨论：学生分组讨论“某企业大数据平台技术选型方案”，并进行简要汇报。（15分钟）总结提升：构建“大数据计算技术体系框架图”，强化整体认知。（15分钟）讨论、思考题、作业及课后参考资料思考题：在什么情况下应优先选择Spark而非Hadoop？流处理与批处理是否可以融合？如何实现？作业：绘制四种大数据计算框架的对比表（不少于5个维度）课后参考资料：教材第5章5.5；课堂PPT“计算框架对比”部分。教学后记

周次第6周，第2次课章节名称第六章：数据存储概述与分布式文件系统授课方式理论课（√）实验课（）实习（）教学时数2教学目标及基本要求掌握大数据存储在大数据处理流程中的基础性作用，理解数据是企业和国家的重要核心资产。理解关系型数据库与非关系型数据库的区别，掌握列式数据库、键值数据库、图形数据库、文档数据库的基本特征与典型产品。掌握分布式文件系统的基本概念、组成结构和发展脉络，理解NFS、GFS/HDFS类系统解决海量数据存储问题的基本思路。能根据数据类型与业务需求判断适合的数据库或存储方式。能用“主服务器/元数据服务器—数据服务器—客户端”的结构解释分布式文件系统的工作过程。教学重点、难点重点：关系型数据库与NoSQL数据库的分类及适用场景；分布式文件系统的组成；大文件分块、副本冗余、并发读写等优化思路。难点：元数据与实际数据分离的设计逻辑；NFS与面向大数据的分布式文件系统在性能瓶颈、容错能力和并发访问上的差异；数据分块、副本复制与故障恢复之间的关系。教学基本内容与教学设计（含时间分配）教学内容：1.大数据存储的重要性与数据存储基础。2.关系型数据库与非关系型数据库：列式、键值、图形、文档数据库。3.大数据存储基础架构：云存储与分布式文件系统。4.分布式文件系统设计思路、发展历程、NFS工作过程。5.大数据环境下分布式文件系统的优化：大文件分块、副本机制、并发读写与容错。教学设计：案例导入：以“企业业务系统围绕数据增、删、改、查展开”和“TB/PB级数据无法依赖单机磁盘有效管理”为切入点，引出大数据时代为什么必须解决海量数据高效存储问题。（15分钟）讲授法：讲解关系型数据库和NoSQL数据库的差异，结合Oracle、MySQL、HBase、Redis、Neo4j、MongoDB等典型产品说明不同存储模型的优势与局限。（30分钟）图解法：绘制分布式文件系统结构图，说明主服务器、数据服务器和客户端的职责；对比本地文件系统、NFS与大数据场景下的分布式文件系统。（25分钟）案例分析：以大文件按64MB分块并存储到不同DataNode为例，讲解元数据服务器只负责目录与块位置管理、客户端直接与DataNode读写数据，从而缓解主节点传输瓶颈。（20分钟）课堂讨论：给出“单机存储不足、磁盘读写慢、节点故障、并发访问高”四类问题，让学生对应指出分布式文件系统的解决机制。（10分钟）讨论、思考题、作业及课后参考资料1.为什么说分布式文件系统的数据存储方案本质上是“将大问题划分为小问题”？2.在大数据环境下，如果只采用NFS式主节点转发文件数据，可能会出现哪些性能瓶颈？课后参考资料：教材第6章6.1、6.2；课堂PPT“数据存储概述”“分布式文件系统”部分。教学后记（教师完成本教学单元教学后对教学设计、教学重难点把握、教学方法应用、教学效果、学生学习情况和出勤率等课堂教学过程的总结与分析，为以后教学提供经验和素材。应该在该章（节）教学活动结束后填写。）

周次第7周，第1次课章节名称第六章：Hive数据仓库技术与HBase列式存储授课方式理论课（√）实验课（）实习（）教学时数2教学目标及基本要求理解Hive产生的背景，掌握Hive将类SQL语言与Hadoop/MapReduce结合起来降低大数据分析门槛的基本思想。掌握Hive客户端、Hive服务端、CLI、JDBC/ODBC、WebUI、ThriftServer、Driver、MetaStore、JobClient、NameNode和DataNode等组成及功能。掌握Hive内部表、外部表、分区、桶等数据模型与存储组织方式。理解HBase作为分布式、面向列、可伸缩、实时读写数据库的特点，掌握HBase表、行键、列族、列限定符、单元格、时间戳等数据模型术语。能说明Hive与HBase的区别与联系。能根据“批量分析/实时读写”“结构化/半结构化数据”等需求初步判断选用Hive还是HBase。教学重点、难点重点：Hive的产生背景、架构组成、MetaStore作用和Hive数据模型；HBase的列族存储思想、稀疏表特点、行键设计意义和WAL/HFile存储架构。难点：HiveQL转化为MapReduce作业的执行逻辑；Hive内部表与外部表删除机制的差异；HBase概念视图与物理视图的区别；时间戳版本、多列族和空值不存储的理解。教学基本内容与教学设计（含时间分配）教学内容：1.Hive产生背景：MapReduce编程不便、HDFS文件缺少Schema、传统SQL人员向Hadoop平台迁移。2.Hive简介：数据仓库服务、HiveQL/HQL、SQL解析与MapReduce作业转化。3.Hive架构：客户端与服务端；CLI、JDBC/ODBC、WebUI、ThriftServer、Driver、MetaStore、JobClient、NameNode、DataNode。4.Hive数据模型：管理表/内部表、外部表、分区、桶。5.HBase简介与特点：线性扩展、面向列、大表、稀疏、非结构化、海量数据、高读写场景。6.HBase数据模型与存储架构：Table、Row、ColumnFamily、ColumnQualifier、Cell、Timestamp、WAL/HLog、HFile。教学设计：问题导入：提出“熟悉SQL的人员如何在Hadoop平台分析海量数据？”“传统关系型数据库格式如何迁移到HDFS？”等问题，引出Hive的必要性。（10分钟）讲授法：围绕HiveQL到MapReduce作业的转换过程，讲解Hive不是独立存储系统，而是建立在Hadoop之上的数据仓库服务。（25分钟）架构拆解：用流程图拆解Hive客户端、服务端、Driver、MetaStore与HDFS/MapReduce的交互关系，重点讲解元数据为什么需要MySQL等独立元数据库支撑多用户访问。（25分钟）案例对比：通过“删除内部表”和“删除外部表”的结果差异，说明Hive元数据和HDFS实际数据之间的关系；用目录结构说明分区，用哈希拆分说明桶。（15分钟）图表讲授：以webtable概念视图为例讲解HBase行键、列族、列限定符、单元格和时间戳，说明HBase为何适合稀疏、海量、高速读写场景。（25分钟）归纳总结：用表格对比Hive与HBase：底层存储、数据模型、查询方式、实时性、事务/更新能力、适用场景。（10分钟）讨论、思考题、作业及课后参考资料思考题：1.Hive为什么适合OLAP式批量分析，而HBase为什么更适合实时Key/Value查询？2.HBase行键设计为什么会直接影响查询效率和数据分布？作业：完成一张“内部表、外部表、分区、桶”的对比表，并补充各自适用场景。课后参考资料：教材第6章6.3、6.4；课堂PPT“Hive架构”“HBase数据模型”部分。教学后记

周次第7周，第2次课章节名称第六章：云存储技术与章节综合应用授课方式理论课（√）实验课（）实习（）教学时数2教学目标及基本要求掌握云存储的概念，理解云存储由云计算、集群技术、网格技术、分布式文件系统等发展而来。掌握云存储的可靠性、安全性、管理方便、可扩展性等主要特征。理解云存储结构模型中存储层、基础管理层、应用接口层、访问层的作用。了解云存储的个人级应用和企业级应用类型。能结合网盘、文档在线编辑、网络游戏、企业云存储空间租赁、远程数据备份与容灾、视频监控等案例解释云存储价值。能综合比较分布式文件系统、Hive、HBase和云存储在大数据存储体系中的定位。教学重点、难点重点：云存储概念、结构模型、核心特性和应用分类；第6章关键技术之间的联系：分布式文件系统是底层支撑，Hive/HBase是面向不同数据处理需求的存储与管理技术，云存储是面向服务化资源供给的存储模式。难点：云存储“存储资源池化”和“服务化访问”的理解；可靠性、安全性、可扩展性在工程实现中的对应机制；如何从业务场景出发选择合适的大数据存储方案。教学基本内容与教学设计（含时间分配）教学内容：1.云存储概念：在线存储、第三方托管、多台虚拟服务器、存储资源池。2.云存储技术基础：集群技术、网络技术、分布式技术、存储虚拟化。3.云存储特性：可靠性、安全性、管理方便、可扩展性。4.云存储结构模型：存储层、基础管理层、应用接口层、访问层。5.云存储应用：个人级云存储与企业级云存储。6.第6章综合复习：数据库类型、分布式文件系统、Hive、HBase、云存储的联系与区别。教学设计：案例导入：以“个人网盘随时随地访问文件”和“企业异地备份容灾”为例，引出云存储从设备购买转向资源租赁和服务化访问的变化。（15分钟）讲授法：讲解云存储的概念及其“以大化小、化整为零”的设计思想，说明云存储如何通过集群、分布式文件系统和虚拟化整合大量异构存储设备。（25分钟）结构图解析：按存储层、基础管理层、应用接口层、访问层逐层讲解云存储结构模型，强调基础管理层在资源调度、容错、安全与负载均衡中的核心地位。（25分钟）案例研讨：将学生分组讨论个人网盘、在线文档、网络游戏、企业云存储租赁、远程备份容灾、视频监控六类应用，说明其主要数据特征、存储需求和云存储带来的价值。（25分钟）综合归纳：用矩阵对比“关系型数据库、NoSQL、分布式文件系统、Hive、HBase、云存储”的定位、典型技术、优势与局限，并串联本章课后习题进行复习。（10分钟）讨论、思考题、作业及课后参考资料思考题：1.云存储为什么能够降低企业自建存储系统的运维压力？同时会带来哪些新的安全与管理要求？2.如果某企业需要同时处理日志离线统计、用户画像实时查询和异地数据备份，应如何组合使用Hive、HBase和云存储？作业：任选一个云存储应用场景，写出其数据类型、存储规模、访问特点、可靠性要求和安全性要求。课后参考资料：教材第6章6.5；课堂PPT“云存储技术”“课后习题”部分。教学后记

周次第8周，第1次课章节名称第七章：大数据分析概述与统计基础授课方式理论课（√）实验课（）实习（）教学时数2教学目标及基本要求理解大数据分析的重要性及与普通数据分析的区别掌握数据的三大类型（计量、计数、等级资料）掌握统计数据的四种计量尺度（定类、定序、定距、定比）及适用方法理，解并能复述统计数据分析的标准步骤教学重点、难点重点：数据类型划分、统计数据的四种计量尺度难点：不同层次数据适用的统计方法差异教学基本内容与教学设计（含时间分配）教学内容：大数据分析的重要性（谷堆悖论、伦敦霍乱案例）认识数据（计量、计数、等级资料）统计数据分析（大数据时代统计学价值、数据计量尺度、定性数据分析步骤）教学设计：案例导入：引入“谷堆悖论”和“伦敦霍乱地图”，讲解数据分析从量变到质变、从归纳到预测的核心价值。（20分钟）讲授法：讲解数据的三大分类，结合“医院分娩住院单”实例区分计量与计数资料。详细剖析定类、定序、定距、定比四类数据尺度，强调方法适用的向下兼容原则。（40分钟）讨论：给出5个实际数据集字段（如性别、温度、成绩排名、体重等），让学生抢答其对应的尺度类型及适用的统计图表（20分钟）讨论、思考题、作业及课后参考资料思考题：大数据时代“样本=全体”的观点为什么是错误的？请结合统计学的不确定性原理进行阐述。教学后记（教师完成本教学单元教学后对教学设计、教学重难点把握、教学方法应用、教学效果、学生学习情况和出勤率等课堂教学过程的总结与分析，为以后教学提供经验和素材。应该在该章（节）教学活动结束后填写。）

周次第8周，第2次课章节名称第七章：基于NumPy与Pandas的数据分析授课方式理论课（）实验课（√）实习（）教学时数2教学目标及基本要求理解NumPy的ndarray与Pandas的Series、DataFrame核心数据结构掌握NumPy的数组运算与Pandas的数据加载、选择、过滤方法。能使用Python编写代码完成CSV数据的读取与缺失值处理。能运用loc/iloc进行精准的数据切片与条件过滤。教学重点、难点重点：DataFrame的数据选择与过滤（loc/iloc）难点：NumPy的广播机制、Pandas的缺失值清洗逻辑教学基本内容与教学设计（含时间分配）教学内容：库功能概述（NumPy科学计算vsPandas数据处理）核心数据结构（ndarray创建、Series与DataFrame构建）数据操作与分析（NumPy数组运算、Pandas数据加载/过滤/清洗/可视化）教学设计：演示法：对比列表与ndarray的性能差异，图解Series（带索引一维）与DataFrame（二维表格）的结构（30分钟）实操练习：使用read_csv加载数据，演示dropna删除空值、fillna填充均值、astype类型转换。（50分钟）分组练习：下发代码框架，要求学生完成特定任务：筛选Score大于80的行，并提取指定的两列数据，最后绘制简单柱状图（20分钟）讨论、思考题、作业及课后参考资料思考题：NumPy侧重数学计算，Pandas侧重数据处理，两者在实际项目中如何配合使用？教学后记

周次第9周，第1次课章节名称第七章：经典机器学习分类算法详解授课方式理论课（√）实验课（）实习（）教学时数2教学目标及基本要求掌握决策树、K-均值聚类、Apriori关联规则、朴素贝叶斯四种算法的核心思想，理解Apriori算法中支持度与置信度的计算逻辑。了解朴素贝叶斯分类的三个阶段。教学重点、难点重点：决策树分类逻辑、K-均值聚类步骤难点：Apriori算法的两步走策略（频繁项集->强规则）、贝叶斯后验概率计算教学基本内容与教学设计（含时间分配）教学内容：决策树分类算法（内部节点、叶子节点、相亲案例）均值聚类算法（迭代求解、质心计算）Apriori关联规则算法（支持度、置信度、频繁项集挖掘）朴素贝叶斯分类算法（先验概率、后验概率、三个工作阶段）教学设计：讲授法：通过坐标系上的散点图，一步步图解K-均值算法“选初始中心-算距离-分簇-更新中心”的迭代过程（30分钟）实操演示：简单介绍贝叶斯公式及“条件独立性假设”带来的朴素性。（40分钟）归纳总结：通过表格对比四种算法属于有监督还是无监督，解决的是分类、聚类还是关联问题。（15分钟）讨论、思考题、作业及课后参考资料思考题：朴素贝叶斯中的“朴素”二字体现在哪里？它会对分类结果产生什么潜在影响？教学后记

周次第9周，第2次课章节名称第八章：人工智能的概念、分类与发展史授课方式理论课（√）实验课（）实习（）教学时数2教学目标及基本要求目标：掌握人工智能的学术定义及交叉学科属性，熟练掌握AI的三种分类维度。要求：能准确区分现实中的AI产品属于弱AI还是强AI，能绘制AI发展历程时间轴并标注关键节点。教学重点、难点重点：弱AI与强AI的区别、人工智能三次浪潮的驱动力难点：欣茨教授的四分类理论（特别是意志理论与自我意识的理解）教学基本内容与教学设计（含时间分配）基本内容：人工智能的概念（尼尔逊、温斯顿定义，交叉学科属性）人工智能的分类人工智能的发展史教学设计：教师演示（20分钟）：展示Siri、自动驾驶与科幻电影《钢铁侠》中贾维斯的对比，引出弱AI与强AI的概念。讲解AI定义；讲授法（35分钟）：以“深蓝”为例讲解反应式机器，以“自动驾驶”为例讲解有限记忆；梳理认知、机器学习、深度学习的包含关系。时间轴梳理（20分钟）：从1943年图灵机到2023年AI生命科学应用，绘制发展时间轴。重点剖析第一次、第二次浪潮衰退的原因（算力、数据瓶颈），以及第三次浪潮爆发的底层逻辑（大数据+深度学习）。讨论、思考题、作业及课后参考资料总结讨论:讨论话题：“我们目前处于第三次浪潮的哪个阶段？未来会不会迎来新的AI寒冬？教学后记

周次第10周，第1次课章节名称第八章：人工智能核心技术：深度学习与卷积神经网络授课方式理论课（√）实验课（）实习（）教学时数2教学目标及基本要求知识目标：理清人工智能、机器学习、深度学习三者的从属关系理解深度学习“特征学习”取代“特征工程”的核心优势掌握卷积神经网络（CNN）的五层基本结构及功能能力目标：能用专业术语解释CNN处理图像的流程能区分传统图像处理与基于深度学习的图像识别的差异教学重点、难点重点：深度学习与机器学习的关系、CNN的五层结构难点：卷积层与池化层的工作机制（特征提取与降维）、自编码器概念教学基本内容与教学设计（含时间分配）教学内容：深度学习概述卷积神经网络图像处理技术教学设计：图表解构：利用文氏图清晰展示“AI包含ML，ML包含DL”的关系。对比传统机器学习依赖人工提取特征，讲解深度学习如何通过多层网络自动提取高层特征。（50分钟）案例教学：以“识别一张猫的图片”为例，图解CNN五层结构：数据输入层（像素矩阵）->卷积计算层（边缘、纹理特征提取）->激励层（引入非线性）->池化层（下采样压缩信息）->全连接层（分类输出）。（50分钟）讨论、思考题、作业及课后参考资料思考题：深度学习为什么能够取代传统机器学习中繁琐的“特征工程”？教学后记

周次第10周，第2次课章节名称第八章：大模型的影响与应用授课方式理论课（√）实验课（）实习（）教学时数2教学目标及基本要求目标：掌握大模型（LLM）的定义及核心特征了解Transformer架构在大模型中的关键作用熟悉代表性大模型（GPT-3、LaMDA、DeepSeek）的特点深刻理解大模型对各行业的影响及面临的伦理安全问题要求：能客观评估大模型对特定行业（如教育、医疗）的变革性影响能针对大模型的隐私和偏见问题提出初步的治理思路教学重点、难点重点：大模型的多领域应用、伦理与安全问题难点：Transformer的自注意力机制原理、大模型导致的经济与就业结构变化教学基本内容与教学设计（含时间分配）基本内容：大模型

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《大数据导论》电子教案

文档简介

温馨提示

最新文档

评论

《大数据导论》电子教案

文档简介

温馨提示

最新文档

评论

相关文档