《大数据导论》课程教学大纲_第1页
《大数据导论》课程教学大纲_第2页
《大数据导论》课程教学大纲_第3页
《大数据导论》课程教学大纲_第4页
《大数据导论》课程教学大纲_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《大数据导论》课程教学大纲一、课程基本情况课程名称大数据导论第2版IntroductiontoBigData,2ndEdition课程类别□核心■必修□任选□限选学分2.5执行学期4课程学时及其分配总学时学时分配48讲授40实验0上机8实习0考核比例平时(含期中):30%;期末:70%开课单位软件工程学院软件工程教研室适用专业软件工程学院软件工程专业先修课程操作系统原理,C语言程序设计I二、课程性质与作用《大数据导论》是软件工程专业的专业方向任选课。大数据是计算机科学、信息科学和统计学的交叉应用学科,已成为推动信息技术发展的重要力量。该课程主要讲授大数据的基本概念、数据特征、数据类型,大数据与云计算、物联网的关系,大数据处理的基本流程、采集技术、预处理技术,以及大数据硬件架构(集群)等核心知识。通过本课程学习,学生能够理解大数据的基本原理与技术体系,掌握大数据思维方法,具备初步的大数据技术选型和系统设计能力。本课程基于《操作系统原理》的基本知识(文件系统、存储管理、并行处理等)和《C语言程序设计I》的程序开发知识而开设,为后继课程《云计算技术》、《大数据分析与处理》、《人工智能导论》等奠定基础。三、课程培养标准本课程通过理论教学和实践练习相结合,使学生掌握大数据技术的基本理论和方法,具备运用大数据思维分析问题的能力,能根据实际需求选择合适的大数据技术方案。本课程具体完成培养方案中以下指标,重点完成指标1.2.2,2.1.1,2.2.1.一级指标二级指标三级指标1.技术知识和推理1.2应用核心工程基础知识和原理1.2.2掌握软件开发技术、软件设计工程、软件制造工程、软件工程项目管理等核心软件工程知识和原理。2.个人能力、职业能力和素质2.1工程推理和解决问题能力2.1.1能够准确地获得软件系统需求信息,进行需求分析和方案设计。掌握文献检索、资料查询的基本方法,具有获取信息、解决问题的能力。2.2.1能分析问题,进行实验探索,具有解决软件问题的执着、创造、批判性等思维能力;具备时间管理能力。四、理论教学内容与学时分配章标题主要内容学时教学方法备注第1章大数据概述1、大数据的来源与发展0.5讲授初步了解大数据的产生背景和定义,掌握大数据的4V特征,理解第四范式和研究方法变革。2、大数据的定义0.5★3、大数据的4v特征1★4、大数据对科学研究的影响15、大数据的数据类型0.56、大数据的价值与趋势0.5第2章大数据与云计算1、云计算的提出与定义0.5讲授掌握云计算的基本概念、部署模式和服务模式,理解云计算与大数据、物联网的关系。★2、云计算的主要部署模式0.5★3、云计算的主要服务模式14、Google云计算基础设施0.5★5、Hadoop大数据基础设施16、物联网、大数据与云计算的关系0.5第3章从产业结构探索大数据技术1、大数据产业结构概述0.5讲授掌握大数据处理基本流程、大数据采集技术、大数据预处理技术和大数据可视化技术。★2、大数据处理基本流程1★3、大数据采集技术1★4、大数据预处理技术15、大数据可视化技术0.5课程实验一Scrapy网络爬虫数据采集2上机掌握Scrapy框架的基本使用。任务:安装Scrapy并创建爬虫项目。编写爬虫爬取指定网站的新闻标题和链接。将采集数据保存为CSV文件。课程实验二Python数据清洗与分析2上机掌握Pandas数据处理方法。任务:使用read_csv加载爬虫实验采集的数据。完成缺失值处理、重复值删除、数据过滤。使用Matplotlib绘制柱状图或饼图展示统计结果。第4章大数据的硬件架构—集群1、集群的来源0.5讲授内容:并行计算与集群概念;集群分类(高性能、负载均衡、高可用、虚拟化);集群结构模型(主/主、主/从);集群文件系统(HDFS等);集群容器化技术。重点:集群分类与结构模型、HDFS架构与设计思想、Docker与Kubernetes概念。★2、集群的概念与分类0.5★3、集群的结构模型1★4、集群文件系统15、容器化技术1课程实验三Hadoop与HDFS实践2上机掌握HadoopHDFS基本操作。任务:安装配置Hadoop伪分布式环境。使用hdfs命令完成文件上传、下载、查看。体验HDFSWeb管理界面。课程实验四Docker容器部署与集群模拟2上机目标:容器化技术入门与集群模拟。任务:安装Docker并拉取Ubuntu镜像。运行3个容器节点,配置网络互通。在容器中安装Java环境,模拟一个小型计算集群。第5章大数据开发与计算技术★1、Hadoop分布式大数据系统(HDFS与MapReduce)1讲授内容:Hadoop与Spark核心架构、MapReduce计算模型、RDD机制、Storm/Flink流处理。重点:Hadoop生态系统、RDD弹性容错机制。难点:MapReduce数据分布、流批一体化模型理解。★2、Hadoop生态系统组成1★3、Spark大数据处理系统(体系结构与RDD)1★4、Storm基于拓扑的流处理系统1★5、Flink分布式实时处理引擎16、四种计算框架的对比与总结1第6章数据存储概述与大数据存储技术1、大数据存储的重要性与基础1讲授内容:关系型/NoSQL数据库、分布式文件系统(HDFS/GFS)、Hive数据仓库、HBase列式存储、云存储技术。重点:元数据分离设计逻辑、Hive/HBase区别与适用场景。难点:Hive内部/外部表差异、HBase物理视图理解。2.关系型数据库与NoSQL数据库1★3.分布式文件系统(HDFS/GFS设计思路)1★4.Hive数据仓库技术(架构与数据模型)1★5.HBase列式存储(数据模型与架构)16.云存储技术与章节综合应用1第7章大数据分析概述与算法★1、大数据分析的重要性与数据基础2内容:数据类型与计量尺度、NumPy/Pandas核心数据结构、经典机器学习算法(决策树/K-means/Apriori/朴素贝叶斯)。重点:数据计量尺度、DataFrame数据操作。难点:Apriori支持度与置信度、贝叶斯后验概率计算。★2、NumPy与Pandas数据分析2★3、经典机器学习分类算法(决策树/K-means/Apriori/朴素贝叶斯)2第8章人工智能与大模型★1、人工智能的概念、分类与发展史1内容:大数据安全挑战与CIA五原则、入侵检测/防火墙/数据备份、DGI数据治理框架与数据质量管理。重点:五项安全基本原则、全量/增量/差异备份区别。难点:状态检测防火墙机制、DGI框架10个组件协同关系。★2、深度学习与卷积神经网络(CNN)2★3、大模型(LLM)的影响与应用24、大模型的挑战与未来趋势1第9章大数据安全与治理★1、大数据安全概述与基本原则1讲授内容:大数据安全挑战与CIA五原则、入侵检测/防火墙/数据备份、DGI数据治理框架与数据质量管理。重点:五项安全基本原则、全量/增量/差异备份区别。难点:状态检测防火墙机制、DGI框架10个组件协同关系。★2、入侵检测与防御(防火墙/IDS)2★3、数据备份与恢复1.5★4、数据治理框架(DGI)与质量管理1.5五、实验教学内容与安排项目序号项目名称项目内容项目学时项目类型每组人数备注1Scrapy网络爬虫数据采集(1)安装Scrapy并创建爬虫项目。(2)编写爬虫爬取指定网站的新闻标题和链接。(3)将采集数据保存为CSV文件。2验证12Python数据清洗与分析(1)使用read_csv加载爬虫实验采集的数据。(2)完成缺失值处理、重复值删除、数据过滤。(3)使用Matplotlib绘制柱状图或饼图展示统计结果。2验证13Hadoop与HDFS实践(1)安装配置Hadoop伪分布式环境。(2)使用hdfs命令完成文件上传、下载、查看。(3)体验HDFSWeb管理界面。2验证14Docker容器部署与集群模拟(1)安装Docker并拉取Ubuntu镜像。(2)运行3个容器节点,配置网络互通。(3)在容器中安装Java环境,模拟一个小型计算集群。2验证1六、课程考核表1课程培养标准三级指标对应的考核环节考核指标考试小组讨论课后作业课堂实验1.2.2掌握软件开发技术。软件设计工程。软件制造工程。软件工程项目管理等核心软件工程知识和原理。√√√2.1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论