版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《大数据技术与应用》课程教学大纲课程代码:课程名称:大数据技术与应用英文名称:BigDataTechnologyandApplications课程性质:专业限选课总学时:64学时(其中,理论:32学时,实验:32学时)学分:3学分适用对象:本科先修课程:数据科学导引、Python程序设计、计算机网络技术、数据库概论等开课学院:一、课程简介《大数据系统分析》是是专业限选课。大数据系统目前在现代社会发展中发挥了巨大作用,是现代信息社会的核心支撑系统。大数据系统一直以来是国内外大学计算机相关专业的重要支撑课程,其知识结构贯穿大数据系统环境、体系结构和应用。本课程主要为学生搭建起通向“大数据技术与应用知识空间”的桥梁和纽带,以“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”为原则,讲述大数据系统的工作原理及构造方法,为学生在大数据技术与应用领域“深耕细作”奠定基础、指明方向,使学生掌握大数据系统的构造方法及相关的基础技术知识,了解大数据系统各架构层次的实现方法和技巧,理解各种实现技术。课程将系统讲授大数据技术与应用的基本概念、大数据处理架构、云计算平台、分布式系统Hadoop和分布式文件系统HDFS、分布式数据库Hbase和NoSQL数据库、分布式并行编程模型MapReduce、基于内存的大数据处理架构Spark、大数据在互联网各个领域的应用。在大数据基础设施、大数据的采集与预处理、大数据的存储、大数据的数据库系统、大数据的计算模式、大数据的分析与挖掘等重要章节,安排相应的实验环境及模拟系统搭建环节,让学生更好地学习和掌握大数据关键技术。可以培养学生的抽象思维、分析问题和解决问题的能力,从而为今后从事应用软件和系统软件的开发打下一定的理论和实践基础。二、课程学习成果学生通过本课程学习,可以系统掌握大数据系统的各层次架构的基本组成和技术实现的原理和方法,掌握大数据系统各类框架的基本思想和技术实现手段;通过对大数据系统的相应技术框架的学习和实验搭建,使学生具备针对实际要求设计解决方案的能力,在学习过程中注重培养创新意识,进而提高学生的实践能力和实际问题处理能力。课程目标与毕业要求如下:1.通过对大数据系统的讲解,使学生了解大数据系统的基本层次架构的组成和各个层次架构间的关联关系,对大数据系统有一个全面的认识和理解。(支撑毕业要求1.1:能够应用数学与自然科学的基本知识正确表述软件工程领域的复杂工程问题。)2.通过对大数据系统的各层次架构分析和实现方法的讲解,使学生掌握大数据系统的层次架构设计的基本思想和实现技术,了解并掌握大数据系统研究和发展主线。学生通过掌握大数据系统各层次架构设计理论和技术实现方法的基本知识,能够识别和判断大数据系统设计、研发和实施过程中复杂工程问题的关键环节,并正确表达。(支撑毕业要求2.1:能够识别和判断复杂软件工程问题的关键环节和参数。)3.通过课程中针对各类大数据系统技术框架的实验,加深学生对大数据系统课堂教学内容的理解。实验部分要求学生根据课堂讲授的大数据系统中的各层次架构中相应的技术原理,选择与使用恰当的技术框架和应用工具,自己设计实验方案,实现大数据系统各层次架构的基本功能,使学生具有设计、实现、分析和维护大数据系统等方面的初步能力,提高学生实际动手能力。(支撑毕业要求1.4:能运用程序设计的知识,对复杂软件工程问题的解决方案进行编程实现。)4.依据大数据应用系统要求,能够采集、整理、分析和展示各类系统数据,通过利用信息综合的方法,采用适当的方法对大数据系统进行合理有效的评价,培养学生的系统设计优化思维,为学习后继专业课程和进行大型大数据系统实践开发奠定基础。(支撑毕业要求2.2:能够运用数学、自然科学方法制定分析模型,认识到解决问题有多种方案可以选择。)课程目标与毕业要求关系矩阵课程目标毕业要求2.2课程目标1√课程目标2√课程目标3√课程目标4√三、课程学习成果与毕业要求的对应关系课程学习成果毕业要求指标点毕业要求11.1能够应用数学与自然科学的基本知识正确表述软件工程领域的复杂工程问题。1.工程知识:能够将数学、自然科学知识、工程基础知识、软件工程专业知识用于解决软件工程生命周期相关工程领域的复杂工程问题。31.4能运用程序设计的知识,对复杂软件工程问题的解决方案进行编程实现。22.1能够识别和判断复杂软件工程问题的关键环节和参数2.问题分析:能够应用数学、自然科学和工程科学的基本原理,识别、表达、并通过文献研究分析复杂的软件工程问题,以获得有效结论。分析、预测、模拟、设计、验证、确认、实现、应用和维护,并能够理解其局限性。42.2能够运用数学、自然科学方法制定分析模型,认识到解决问题有多种方案可以选择四、教学内容及要求理论教学:第1部分大数据的概述(4学时)教学目的与要求:了解数据与大数据的基本概念、大数据系统应用和影响。内容:什么是数据、什么是大数据、大数据的特征和大数据的应用。重点:数据的概念与类型、数据与信息、大数据概念、大数据的定义和应用、大数据的4V特征、大数据的新思维、大数据的新分析方法和技术、大数据的影响、大数据的应用、大数据关键技术、大数据计算模式、大数据产业、大数据与云计算、物联网、人工智能的关系。第2部分大数据系统的基础架构(4学时)教学目的与要求:了解和掌握大数据的基于数据全生命周期的基本层次架构。内容:大数据系统的总体层次结构,及其基础设施层、数据源层、交换服务体系、数据存储区、关键基础服务层、应用层和支撑体系七大部分构成。重点:基础设施层、数据源层、交换服务体系、数据存储区、关键基础服务层、应用层和支撑体系七大部分构成。第3部分大数据系统的基础设施(8学时)教学目的与要求:能够了解大数据基础设施发展历史、重要特性和应用现状;虚拟化、云计算技术的发展历史、重要特性和应用现状;Hadoop发展历史、重要特性和应用现状,Hadoop项目结构及其各个组件,并熟练掌握Hadoop平台的安装和使用方法;Hadoop的优化与发展、HDFS2.0新特性、新一代资源调度管理框架YARN、Hadoop生态系统中具有代表性的功能组件。内容:虚拟化、云计算技术以及Hadoop发展历程、版本演变、生态系统,Hadoop的安装和使用方法。重点:虚拟化、云计算技术以及Hadoop概述、Hadoop项目结构、Hadoop的安装与使用。难点:虚拟化的部署与使用、Hadoop集群的部署与使用。第4部分大数据的采集与预处理(8学时)教学目的与要求:在了解传统数据采集相关技术基础上,从数据发展出发,掌握大数据采集的特点、相关技术、采集架构;了解互联网数据抓取与处理技术;掌握数据预处理技术,包括数据清洗、数据集成、数据变换和数据归约等技术。内容:传统数据采集技术的简介、相关概念、体系结构,大数据采集的简介、相关概念、体系结构,互联网数据抓取与处理技术简介、相关概念、体系结构、关键技术,数据预处理技术,包括数据清洗、数据集成、数据变换和数据归约等技术。重点:传统数据采集技术的系统架构和关键技术,大数据采集发展、来源、关键技术和采集架构,互联网数据抓取与处理技术(网络爬虫)、数据预处理技术,包括数据清洗、数据集成、数据变换和数据归约等。难点:互联网数据抓取与处理技术(网络爬虫)、数据预处理技术(数据清洗、数据集成、数据变换和数据归约)。第5部分大数据存储与分布式文件系统(8学时)教学目的与要求:在了解传统数据存储相关技术基础上,从数据发展出发,掌握大数据存储的特点、相关技术;了解分布式文件系统的基本概念、结构和设计需求,掌握分布式文件系统HDFS的重要概念、体系结构、存储原理和读写过程,并熟练掌握分布式文件系统HDFS的使用方法。内容:数据存储技术的简介、相关概念、体系结构,分布式文件系统HDFS概述和HDFS编程实践。重点:数据存储技术的简介、存储设备接口分类、存储的体系结构和存储类型,分布式文件系统HDFS简介、HDFS相关概念、HDFS体系结构、HDFS存储原理、HDFS数据读写过程。难点:存储的体系结构和存储类型、HDFS编程第6部分大数据的数据库系统(8学时)教学目的与要求:能够了解分布式数据库HBase的访问接口、数据模型、实现原理和运行机制,并熟练掌握HBase的使用方法;了解NoSQL数据库与传统的关系数据库的差异、NoSQL数据库的四大类型以及NoSQL数据库的三大基石;了解Redis、MongoDB等NoSQL数据库的应用;了解数据仓库Hive系统架构和工作原理;了解云数据库的概念、基本原理和代表性产品。内容:HBase概述、访问接口、数据模型、实现原理、运行机制、HBase编程实践;NoSQL数据库发展、四大类型、三大基石、NewSQL数据库、文档数据库MongoDB使用方法;Hive系统架构、Hive工作原理、HiveHA基本原理、Impala;云数据库概念、产品、系统架构、AmazonAWS、微软云数据库SQLAzure和阿里云RDS。重点:HBase概述、HBase访问接口、HBase数据模型、HBase的实现原理、HBase运行机制、HBase应用方案;NoSQL简介、NoSQL兴起的原因、NoSQL与关系数据库的比较、NoSQL的四大类型、NoSQL的三大基石、从NoSQL到NewSQL数据库、文档数据库MongoDB;云数据库概述、云数据库产品、云数据库系统架构、AmazonAWS、微软云数据库SQLAzure、阿里云数据库第7部分大数据的计算模式与资源管理(8学时)教学目的与要求:能够掌握分布式编程框架MapReduce的基本原理和编程方法;掌握大数据处理架构Spark的基本原理和编程方法;了解流计算、图计算处理流程和实现框架。了解Hadoop等大数据系统资源管理框架和改进历程。内容:分布式编程框架MapReduce概述、工作流程、实例分析、具体应用、MapReduce和Hive编程实践;Spark概述、生态系统、运行架构、部署方式、Spark编程实践;流计算和图计算概述、处理流程、应用和开源技术框架;Hadoop等大数据系统资源管理框架。重点:分布式编程框架MapReduce概述、MapReduce体系结构、MapReduce工作流程、实例分析:WordCount、MapReduce的具体应用;Spark概述、Spark生态系统、Spark运行架构、SparkSQL、Spark的部署和应用方式;流计算和图计算概述、处理流程及应用,流计算框架Storm的基本使用;Hadoop等大数据系统资源管理框架的基本流程难点:分布式编程框架MapReduce和Hive编程,Spark编程。第8部分大数据的分析与挖掘(8学时)教学目的与要求:要求掌握数据仓库和数据挖掘的基础知识、了解并掌握数据挖掘的十大经典算法,包括C4.5算法、CART算法、K-Means算法、SVM算法、Apriori算法、EM算法、PageRank算法、Adaboost算法、KNN算法、NaiveBayes算法,涵盖分类、聚类、统计学习、关联分析和链接分析等主要数据挖掘研究和发展主线。内容:C4.5算法、CART算法、K-Means算法、SVM算法、Apriori算法、EM算法、PageRank算法、Adaboost算法、KNN算法、NaiveBayes算法等涵盖分类、聚类、统计学习、关联分析和链接分析等主要数据挖掘算法概述、编程分析实践。重点:C4.5算法、CART算法、K-Means算法、SVM算法、Apriori算法、EM算法、PageRank算法、Adaboost算法、KNN算法、NaiveBayes算法处理流程及应用。难点:C4.5算法、CART算法、K-Means算法、SVM算法、Apriori算法、EM算法、PageRank算法、Adaboost算法、KNN算法、NaiveBayes算法编程。第9部分大数据可视化、应用系统及安全(8学时)教学目的与要求:要求了解大数据可视化、应用及相关安全概述内容:大数据可视化、应用及相关安全概述,包括推荐系统概述、推荐算法及应用;协同过滤概述、协同过滤算法及应用。重点:大数据可视化、应用及相关安全概述;推荐系统概述、推荐算法;协同过滤、协同过滤实践;电影推荐系统的基本架构。实验教学:本课程大数据系统技术与应用的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、基于内存的大数据处理架构Spark、大数据的应用。本课程安排24课时课内上机,进行相关大数据基础设施、大数据的采集与预处理、大数据的存储、大数据的数据库系统、大数据的计算模式、大数据的分析与挖掘等模拟系统的搭建,并且要求学生独立进行实践和掌握,要求课后针对新的技术框架进行巩固。实验一:虚拟机和Hadoop安装与配置操作实践,支撑学习成果5.1、5.1。1.实验目的与要求:通过实验对于Vmware/VirtualBox虚拟机和Hadoop单机和集群模式安装与配置操作实践,对构建复杂分布式系统的初步认知。2.实验内容:完成Vmware/VirtualBox虚拟机软件的安装和unbantu/CentOS系统虚拟机的安装,Hadoop单机和集群模式安装与配置操作3.重点、难点:Hadoop单机和集群模式安装与配置操作4.主要仪器设备及其规格型号单台物理机,两台以上虚拟机环境[建议]实验二:通过网络爬虫获取数据和大数据的预处理(数据清洗、数据集成、数据变换和数据归约操作实践)操作实践,支撑学习成果5.1、5.1。1.实验目的与要求:通过实验了解网络爬虫获取数据和大数据的预处理系统,包括数据清洗、数据集成、数据变换和数据归约操作实践,对构建复杂分布式大数据的采集与预处理系统的初步认知。2.实验内容:能安装爬虫所需环境,创建简单的Python爬虫项目,成功完成爬虫爬取网络数据核心实现。利用Numpy和Pandas库编写Python程序对获取数据进行预处理(数据清洗、数据集成、数据变换和数据归约操作实践)实践操作3.重点、难点:网络爬虫获取数据和数据清洗、数据变换安装与配置操作4.主要仪器设备及其规格型号Python编程环境,两台以上虚拟机环境[建议]实验三:HDFS的数据读写过程操作实践以及HDFS编程实践,支撑学习成果5.1、5.1。1.实验目的与要求:通过实验了解HDFS的数据读写过程操作实践以及HDFS编程实践方面,对构建复杂分布式大数据文件系统的初步认知。2.实验内容:能安装分布式文件系统HDFS所需环境,利用Hadoop提供的关于HDFS在Linux操作系统上进行文件操作的常用Shell命令以及JavaAPI,同时还可以利用Web界面查看和管理Hadoop文件系统,成功完成分布式文件系统HDFS数据操作的实现。利用JavaAPI通过编程与HDFS进行交互实践操作。3.重点、难点:HDFS在Linux操作系统上进行文件操作的常用Shell命令以及JavaAPI编程4.主要仪器设备及其规格型号两台以上虚拟机环境[建议]实验四:分布式数据库Hbase和 Hive的使用操作实践,支撑学习成果5.1、5.1。1.实验目的与要求:通过实验了分布式数据库Hbase和 Hive的使用操作实践,对构建复杂分布式大数据的数据库系统的初步认知。2.实验内容:能安装分布式数据库Hbase和 Hive所需环境,创建简单的Hbase和 Hive数据库的数据读取查询、写入、修改和删除项目,成功完成分布式数据库Hbase和 Hive的数据库使用操作核心实现。3.重点、难点:分布式数据库Hbase和 Hive所需环境安装与配置操作、分布式数据库的增删改查操作4.主要仪器设备及其规格型号两台以上虚拟机环境[建议]实验五:Mapreduce程序操作实践;Spark的使用、配置、简单编程;Storm的使用、配置、简单编程支撑学习成果5.1、5.1。1.实验目的与要求:通过实验了解在Ubuntu/CentOS中使用Eclipse来开发MapReduce程序,对HDFS中的文件进行操作。了解单机中Spark的安装,并且在Spark环境中运行示例程序,熟悉流计算框架Storm的运行流程。了解单机中Storm的安装和在Storm中运行WordCount的例子,熟悉流计算框架Storm的运行流程。以便对大数据的分布式计算模式有初步认知。2.实验内容:能安装MapReduce所需环境,使用Eclipse创建简单的MapReduce项目,成功完成对HDFS中的文件进行操作实现。掌握Spark的安装,使用Scala进行编程实践了解和掌握Sparkshell、RDD、SparkSQL、SparkStreaming等的基本使用,了解Spark简单的RDD创建,了解各个Spark编程实现及解决过程。了解Storm的安装和基本使用,在Storm中运行WordCount的例子。3.重点、难点:使用Eclipse来开发MapReduce程序,Spark的安装配置与Scala编程实践操作。4.主要仪器设备及其规格型号Eclipse、Scala和Python编程环境,两台以上虚拟机环境[建议]实验六:大数据的分析与挖掘支撑学习成果5.1、5.1。1.实验目的与要求:熟悉掌握决策树的原理,掌握决策树的生成方法与过程;掌握KNN的原理,掌握NaiveBayes的原理,学会利用KNN与NavieBayes解决分类问题;理解Apriori算法的基本原理、理解K-means聚类算法的基本原理;对构建复杂分布式大数据的分析挖掘系统的初步认知。2.实验内容:基于Python的sklearn库编程实现对鸢尾花数据构建决策树、利用KNN对鸢尾花数据进行分类、利用NavieBayes对鸢尾花数据建模、编写Apriori算法挖掘啤酒和尿布销售数据集的频繁项集,最小支持度为30%、对鸢尾花数据进行K-means算法聚类等实践操作;独立完成基于Python编程对鸢尾花数据构建决策树、利用KNN对鸢尾花数据进行分类、利用NavieBayes对鸢尾花数据建模、编写Apriori算法挖掘啤酒和尿布销售数据集的频繁项集,最小支持度为30%、对鸢尾花数据进行K-means算法聚类等实践操作。3.重点、难点:独立完成基于Python编程的算法实现操作4.主要仪器设备及其规格型号Python编程环境,两台以上虚拟机环境[建议]五、课程学时分配课程教学学时分配表章节(或内容)学时分配支撑课程学习成果学生任务作业要求自学要求讨论讲课实践第1部分大数据概述401(中)针对大数据自我认识的小论文课前预习线上辅助视频资料学习加深对大数据系统基本知识、特征和应用的理解第2部分大数据系统架构402(中)针对大数据系统架构及发展自我认识的小论文课前预习线上辅助视频资料学习加深对大数据系统架构基本内容、特征和应用的理解第3部分大数据基础设施442(中)3(强)4(中)针对大数据基础设施及发展自我认识的小论文课前预习线上辅助视频资料学习加深对大数据系统基础设施的内容、特征和应用的理解第4部分大数据的采集与预处理262(弱)3(强)4(中)通过网络爬虫获取数据和大数据的预处理实验及实验报告课前预习线上辅助视频资料学习加深对大数据系统数据采集与预处理的内容、特征和应用的理解第5部分大数据的存储442(弱)3(强)4(中)HDFS的数据读写过程操作实践以及HDFS编程实践实验及实验报告课前预习部分内容自学线上辅助视频资料学习加深对大数据系统数据存储的内容、特征和应用的理解第6部分大数据的数据库系统262(弱)3(强)4(中)分布式数据库Hbase和 Hive的使用操作实践实验及实验报告课前预习部分内容自学线上辅助视频资料学习加深对大数据系统数据库系统的内容、特征和应用的理解第7部分大数据的计算模式262(弱)3(强)4(中)Mapreduce程序操作实践;Spark的使用、配置、简单编程;Storm的使用、配置、简单编程实验及实验报告课前预习部分内容自学线上辅助视频资料学习加深对大数据系统计算模式的内容、特征和应用的理解第8部分大数据的分析与挖掘262(弱)3(强)4(弱)大数据的分析与挖掘实验及实验报告课前预习部分内容自学线上辅助视频资料学习加深对大数据系统数据分析挖掘的内容、特征和应用的理解第9部分大数据的应用84(中)针对大数据应用及发展自我认识的课程论文课前预习部分内容自学线上辅助视频资料学习加深对大数据系统应用的理解合计3232[表格内为宋体,5号字,18磅行距。支撑的课程学习成果:填写对应支撑成果的序号,如1、2。建议标注支撑强度,如1(强)、2(中)、3(弱)。自学要求:根据课程实际安排自学任务,如:课前预习;完成线上视频及测试;……部分内容自学不讲授等。讨论:根据需要安排讨论活动,可描述讨论内容、主题及组织方式。]实验项目设置与学时分配表序号实验项目内容提要实验学时实验类型每组人数实验要求1虚拟机和Hadoop安装与配置操作实践完成Vmware/VirtualBox虚拟机软件的安装和unbantu/CentOS系统虚拟机的安装,Hadoop单机和集群模式安装与配置操作。4验证1必做2通过网络爬虫获取数据和大数据的预处理能安装爬虫所需环境,创建简单的Python爬虫项目,成功完成爬虫爬取网络数据核心实现。利用Numpy和Pandas库编写Python程序对获取数据进行预处理(数据清洗、数据集成、数据变换和数据归约操作实践)实践操作。6设计1必做3HDFS的数据读写过程操作实践以及HDFS编程实践能安装分布式文件系统HDFS所需环境,利用Hadoop提供的关于HDFS在Linux操作系统上进行文件操作的常用Shell命令以及JavaAPI,同时还可以利用Web界面查看和管理Hadoop文件系统,成功完成分布式文件系统HDFS数据操作的实现。利用JavaAPI通过编程与HDFS进行交互实践操作4设计1必做4分布式数据库Hbase和 Hive的使用操作实践能安装分布式数据库Hbase和 Hive所需环境,创建简单的Hbase和 Hive数据库的数据读取查询、写入、修改和删除项目,成功完成分布式数据库Hbase和 Hive的数据库使用操作核心实现。6设计1必做5Mapreduce程序操作实践;Spark的使用、配置、简单编程;Storm的使用、配置、简单编程能安装MapReduce所需环境,使用Eclipse创建简单的MapReduce项目,成功完成对HDFS中的文件进行操作实现。掌握Spark的安装,使用Scala进行编程实践了解和掌握Sparkshell、RDD、SparkSQL、SparkStreaming等的基本使用,了解Spark简单的RDD创建,了解各个Spark编程实现及解决过程。了解Storm的安装和基本使用,在Storm中运行WordCount的例子。6设计1必做6大数据的分析与挖掘基于Python的sklearn库和独立编程实现对鸢尾花数据构建决策树、利用KNN对鸢尾花数据进行分类、利用NavieBayes对鸢尾花数据建模、编写Apriori算法挖掘啤酒和尿布销售数据集的频繁项集,最小支持度为30%、对鸢尾花数据进行K-means算法聚类等实践操作。6设计1必做注:课程规定实验学时为16学时。必做实验项目数:6个,选做实验项目数:0个,综合性、设计性实验项目数:5个,开放实验项目数:1个。六、其他教学环节无七、考核方式及成绩评定(一)课程学习成果考核方案考核说明:《课程学习成果考核方案一览表》表达的对应关系,能够证明学生通过本课程考核成绩合格,即可达到课程学习成果的要求。课程学习成果考核方案一览表课程学习成果序号考核内容考核形式考核原始材料课程学习成果1出勤、课程论文平时作业课堂论文课程论文课程学习成果2出勤、课程论文平时作业课堂论文课程论文课程学习成果3出勤、实验完成情况上机实验实验报告实验报告课程学习成果4出勤、实验完成情况、课程论文上机实验课程论文实验报告、课程论文(二)成绩组成序号成绩组成占比1出勤及学习态度5%2课堂分组讨论5%3实验40%4课程论文50%总计100%课程学习成果支撑毕业要求指标点考核与评价方式及成绩比例(%)成绩比例(%)平时成绩10%课程实验40%课程论文50%课程目标1支撑毕业目标1.140153025课程目标2支撑毕业目标2.110401022课程目标3支撑毕业目标1.440405045课程目标4支撑毕业目标2.2105108合计100100100100(三)评分标准平时成绩考核与评价标准基本要求评价标准优良中及格不及格作业课程目标1支撑毕业目标1.1按时考勤和讨论;系统问题识别非常准确;概念完全正确;论述逻辑非常清晰、层次很分明、语言及大数据系统设计非常规范。按时考勤和讨论;系统问题识别较准确;概念较正确;论述逻辑较清晰、层次比较分明、语言及大数据系统设计比较规范。按时考勤和讨论;系统问题识别准确;概念正确;论述逻辑清晰、层次比较分明、语言及大数据系统设计规范。按时考勤和讨论;系统问题识别基本准确;概念基本正确;论述逻辑基本清晰、层次基本分明、语言及大数据系统设计基本规范。不能按时按时考勤和讨论;有抄袭现象;逻辑混乱、语言不清;运用工具和方法错误;存在随意应付现象。课程目标2支撑毕业目标2.1按时按时考勤和讨论;问题识别非常准确;概念完全正确;论述逻辑非常清晰、层次很分明、语言及相关分析设计图非常规范。按时考勤和讨论;问题识别较准确;概念较正确;论述逻辑较清晰、层次较分明、语言及相关分析设计图较规范。按时考勤和讨论;问题识别准确;概念正确;论述逻辑清晰、层次分明、语言及相关分析设计图规范。按时考勤和讨论;问题识别基本准确;概念基本正确;论述逻辑基本清晰、层次基本分明、语言及相关分析设计图基本规范。不能按时考勤和讨论;有作业抄袭现象;逻辑混乱、语言不清;运用工具和方法错误;存在随意应付现象。实验成绩评价标准基本要求评价标准优良中及格不及格实验课程目标3支撑毕业目标1.4按时完成实验并提交实验报告;大数据系统实验问题识别非常准确;深层次体现对大数据系统以及相关算法设计方案的优化和改进。按时完成实验并提交实验报告;系统实验问题识别较准确;较好体现对大数据系统以及相关算法设计方案的优化和改进。按时完成实验并提交实验报告;大数据系统实验问题识别准确;体现对大数据系统以及相关算法设计方案的优化和改进。按时完成实验并提交实验报告;大数据系统实验问题识别基本准确;能够体现对大数据系统以及相关算法设计方案的优化和改进。不能按时完成实验并提交实验报告;有实验报告抄袭现象;逻辑混乱、语言不清;运用工具和方法错误;存在随意应付现象。课程目标4支撑毕业目标2.2按时完成实验并提交实验报告;能够很好的完成实验数据采集、整理和分析工作;深层次分析大数据系统以及相关算法实验结果并获得合理的结论。按时完成实验并提交实验报告;能够较好的完成实验数据采集、整理和分析工作;较好的分析大数据系统以及相关算法实验结果并获得合理的结论。按时完成实验并提交实验报告;能够较好的完成实验数据采集、整理和分析工作;较好的分析大数据系统以及相关算法实验结果并获得合理的结论。按时完成实验并提交实验报告;能够基本的完成实验数据采集、整理和分析工作;基本能够分析大数据系统以及相关算法实验结果并获得合理的结论不能按时完成实验并提交实验报告;有实验报告抄袭现象;逻辑混乱、语言不清;运用工具和方法错误;存在随意应付现象。期末考查考核评价标准基本要求评价标准优良中及格不及格期末考试课程目标1支撑毕业目标1.1对大数据原理课程的基础知识和过程掌握的非常准确;完全能够掌握大数据过程的原理和方法。对大数据原理课程的基础知识和过程掌握较准确;能够较好地掌握大数据过程的原理和方法。对大数据原理课程的基础知识和过程掌握准确;能够掌握大数据过程的原理和方法。对大数据原理课程的基础知识和过程掌握基本准确;能够基本掌握大数据过程的原理和方法。无故不提交课程论文;对概念掌握不清;方法、过程使用混乱;论述缺乏逻辑、语言不规范课程目标2支撑毕业目标2.1对大数据各阶段的基本算法和分析方法掌握非常准确;完全能够使用课程方法识别和判断问题、建立问题模型,并正确的表达。对大数据各阶段的基本算法和分析方法掌握较准确;能够较好地使用课程方法识别和判断问题、建立问题模型,并正确的表达。对大数据各阶段的基本算法和分析方法掌握准确;能够使用课程方法识别和判断问题、建立问题模型,并正确的表达。对大数据各阶段的基本算法和分析方法掌握基本准确;能够基本使用课程方法识别和判断问题、建立问题模型,并正确的表达。无故不提交课程论文;对基础知识、概念掌握不清;不能使用大数据原理方法识别和判断问题;论述缺乏逻辑、语言不规范。课程目标3支撑毕业目标1.4能够很好地按要求进行大数据系统的问题识别和判断问题,能够很好地根据课程教授的方法设计实验方案。能够较好地按要求进行大数据系统的问题识别和判断问题,能够较好地根据课程教授的方法设计实验方案。能够按要求进行大数据系统的问题识别和判断问题,能够根据课程教授的方法设计实验方案。基本能够按要求大数据系统的问题识别和判断问题,基本能够根据课程教授的方法设计实验方案。无故不提交课程论文;不能按照基本要求进行大数据原理实验的问题识别和判断问题;不能根据课程教授的方法设计实验方案。课程目标4支撑毕业目标2.2对实验数据的整理、分析方法掌握非常扎实,能够很好地通过信息综合得到合理有效的结论。能够很好地设计并优化实验方案。对实验数据的整理、分析方法掌握较扎实,能够较好地通过信息综合得到合理有效的结论。能够较好地设计并优化实验方案。对实验数据的整理、分析方法掌握准确,能够通过信息综合得到合理有效的结论。能够设计并优化实验方案。对实验数据的整理、分析方法基本掌握,基本能够通过信息综合得到合理有效的结论。基本能够设计并优化实验方案。无故不提交课程论文;对基础知识、概念掌握不清;逻辑混乱、语言不清;运用工具和方法错误;不能通过信息综合得到合理有效的结论。八、推荐教材和教学参考书参考书目:《大数据导论思维、技术与应用》武志学编著,人民邮电出版社,2019年3月,第1版《大数据技术原理与应用——概念、存储、处理、分析与应用》.林子雨。清华大学出版社.2010年.九、说明(一)与相关课程的分工衔接先修课程包括:数据科学导引、Python程序设计、计算机网络技术、数据库概论。数据科学导引使得学生对于大数据系统的数据分析处理具有基本的认识和了解,这对于学生了解大数据系统的整体架构奠定了坚实的基础;Python程序设计、计算机网络技术、数据库概论的学习使得学生能够了解大数据系统构建中使用的相关方法和技术。(二)其他说明无。大纲制订人:大纲审定人:制订日期:年月日
至学年第学期大数据技术与应用讲授课程教案课程编码:_ 总学时/周学时:64学时(32讲课+32实验)/8学时开课时间:第2周——第17周授课年级、专业、班级:推荐教材:系别/教研室:授课教师:
本课程教学目标与要求大数据技术与应用基础课程为软件工程专业任选课,为学生搭建起通向“大数据技术与应用知识空间”的桥梁和纽带,以“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”为原则,为学生在大数据技术与应用领域“深耕细作”奠定基础、指明方向。课程将系统讲授大数据技术与应用的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、基于内存的大数据处理架构Spark、大数据在互联网、生物医学和物流等各个领域的应用。在Hadoop、HDFS、HBase、MapReduce、Spark等重要章节,安排相应的环境及真实系统搭建环节,让学生更好地学习和掌握大数据关键技术。可以培养学生的抽象思维、分析问题和解决问题的能力,从而为今后从事应用软件和系统软件的开发打下一定的理论和实践基础。本课程的教学目的是系统掌握大数据技术与应用的技术原理以及实现技术。要求学生:(1)能够建立对大数据知识体系的轮廓性认识,了解大数据发展历程、基本概念、主要影响、应用领域、关键技术、计算模式和产业发展,并了解云计算、物联网的概念及其与大数据之间的紧密关系;(2)能够了解Hadoop的发展历史、重要特性和应用现状,Hadoop项目结构及其各个组件,并熟练掌握Hadoop平台的安装和使用方法;(3)能够了解分布式文件系统的基本概念、结构和设计需求,掌握Hadoop分布式文件系统HDFS的重要概念、体系结构、存储原理和读写过程,并熟练掌握分布式文件系统HDFS的使用方法;(4)能够了解分布式数据库HBase的访问接口、数据模型、实现原理和运行机制,并熟练掌握HBase的使用方法;(5)能够了解NoSQL数据库与传统的关系数据库的差异、NoSQL数据库的四大类型以及NoSQL数据库的三大基石;基本掌握Redis、MongoDB等NoSQL数据库的使用方法;(6)能够了解云数据库的概念、基本原理和代表性产品的使用方法;(7)能够熟练掌握分布式编程框架MapReduce的基本原理和编程方法;(8)能够了解大数据处理架构Spark的基本原理和编程方法;(9)基本技术技能的培养,培养学生了解、掌握大数据在互联网等领域的典型应用;(10)培养严谨科学的工作态度和作风。培养学生的创新能力,为学习其他课程和今后从事软件开发打下坚实的基础。诱导学生发散性思维,培养学生的系统分析的素质;本课程主要教学方法及教学手段本课程采取理论教学与研讨教学相结合的方式。理论课部分采用讲授和课堂讨论的相结合的方式进行,研讨以学生算法练习、论文和研究报告为主。主要采用以下教学形式:1、启发式教学:主要采用提问启发、案例启发和答疑讲解的方式进行。2、讨论式翻转课堂教学:结合教学内容布置讨论问题,提交论文和研究报告,并进行点评等环节进行。3、研讨式教学:通过讲解算法,对算法中的难点进行演示,对学生进行指导,启发学生的手脑并用,培养学生独立获取知识和操作技能的能力,注重随堂考查,点评学生算法,不断强化学生的动手动脑能力。学情分析学生创新精神和实践能力培养方法1、注重培养学生的学习兴趣,树立学生自信心,尊重个性,安排研讨创新型应用,培养创新意识。2、注重对学生自学方法和获取知识能力的培养,使学生掌握受益终身的思维方法。3、以新技术新项目为主线,贯穿课程教学,强化学生实践技能培养。推荐教材及特点本课程教材是是大数据应用人才能力培养新形态系列规划教材,内容全面,拥有大量的实例,紧密结合当前的社会实际。通过增加大量思考与案例,由浅入深,没有对过难问题的深入分析,讲解通俗易懂,便于教学与阅读。增加了具体研究场景的应用,有利于学生将理论与应用相结合,提升学习效率。考核方式:考查报告评分方法:学习态度(出勤、课堂参与):10%;平时成绩(作业或实验报告):40%;期末小论文:50%。教学参考资料对课程的分析总结
第1次课课次第1次课授课时间第2周,周一1-4节章节名称第1部分大数据概述授课方式理论课教学时数8教学目标与要求掌握大数据的4V/5V的基本特点理解从IT时代到大数据时代十大思维变化数据产生方式的变革教学重点难点1、重点:大数据概念、应用2、难点:大数据关键技术和计算模式3、学生学习应注意的问题:区别相似概念的含义。教学方法手段选择以下方面:教师讲授(√),课堂讨论(√),多媒体教学(√),当堂测验(√),提问式教学(√)主要教学手段:教师讲授、视频、分组讨论、翻转课堂理念的混合式教学模式思政资源运用选用的思想政治教育素材,以及如何与专业知识相融合。讨论练习作业1、什么是业务数据化?什么是数据业务化?它们之间的关系是什么2、什么是数据资产化?数据资产化对企业的意义是什么?3、大数据给数据分析带来的3个颠覆性观念改变是什么?主要参考书目、资料(1)《大数据导论——思维、技术与应用》,武志学编著,人民邮电出版社,2018年6月(2)《大数据技术原理与应用——概念、存储、处理、分析与应用》林子雨编著,人民邮电出版社,2017年02月,第2版(3)《大数据技术和应用》陈建平陈志德席进爱编著,清华大学出版社,2019年12月教学后记本次课教学组织与设计一、教学过程(时间:约160分钟)
教学主题:大数据概述-大数据思维1、创设情境,导入大数据新概念教师通过大数据的时代的背景,引出本节课的主题——大数据思维。教师提问学生问题:什么是数据?计算机处理数据单位?什么单位的数据能称为大?大数据有哪些特点?然后带领大家回顾大数据的历史和现状,引出大数据的概念。明确本节课的学习目标,让学生带着目标去听课。要求学生掌握大数据的基本特点要求学生理解从IT时代到大数据时代的思维变化2、进行重点知识的讲解教师根据课件,讲述什么是大数据。(2)教师根据课件,从IT时代到大数据时代的时代背景。(3)教师通过举例,大数据的产生与作用。(4)教师根据课件,大数据时代的新理念。(5)教师根据课件,大数据技术概述。(6)教师通过举例,大数据应用实例。二、归纳总结(时间:7分钟)回顾本节课时的学习目标,并对本节课的重要知识点进行总结。回顾大数据的发展,了解它们的应用价值,强调大数据时代思维的转变。三、布置课后思考内容(时间:3分钟)布置学生课下进行相关知识的收集和学习、收集课堂反馈。1、什么是业务数据化?什么是数据业务化?它们之间的关系是什么2、什么是数据资产化?数据资产化对企业的意义是什么?3、大数据给数据分析带来的3个颠覆性观念改变是什么?
课前教师活动学生活动设计意图发布教学资源预习在课前让学生了解课程的主要学习内容课中教学环节(分钟)教学内容教师活动学生活动设计意图10学习内容介绍介绍学习内容在线学习的方式和注意事项听思考讨论了解本课程学习内容30资源库平台应用演示学生学习过程扫描签到,并学习让学生熟练掌握在线学习平台应用502019城市大数据解读解读关键点阅读提出关键点了解大数据10案例:大数据时代与疫情防控大数据管理提出内容,指出关键点学生在线学习与讨论,搜索关键知识点了解大数据时代了解疫情防控数据管理方式10大数据的概念提出内容,指出关键点学生在线学习大数据的概念,搜索关键知识点了解大数据的概念10大数据的应用与安全提出内容,指出关键点特别是数据安全和网络安全,提醒同学们注重网络安全学生在线学习网络安全法规,搜索大数据应用的知识了解大数据的应用10大数据关键技术提出内容,指出关键点学生在线学习,搜索关键知识点了解大数据关键技术10大数据产业提出内容,指出关键点学生在线搜索大数据和云计算应用产业了解大数据产业10大数据与云计算、物联网的关系提出内容,指出关键点学生搜索大智物移云相关内容和介绍了解大数据与云计算、物联网的关系10上网搜索云计算、物联网的概念及其与大数据之间的紧密关系及常见应用或案例。布置作业完成练习巩固课后教师活动学生活动设计意图作业:大数据概述,大数据基本概念完成作业举一反三,巩固所学知识点
第2次课课次第2次课授课时间第3周,周一1-4节章节名称大数据系统架构授课方式理论课教学时数8教学目标与要求了解大数据的相关技术架构掌握处理大数据的基本流程教学重点难点1、重点:大数据的基本流程2、难点:大数据的相关技术教学方法手段选择以下方面:教师讲授(√),课堂讨论(√),多媒体教学(√),当堂测验(√),提问式教学(√)主要教学手段:教师讲授和视频思政资源运用选用的思想政治教育素材,以及如何与专业知识相融合。讨论练习作业(1)大数据处理的基本流程由哪几个步骤组成?(2)大数据技术主要包括哪几个方面?各自的作用是什么?(3)大数据处理的两大模式是什么?主要参考书目、资料(1)《大数据导论——思维、技术与应用》,武志学编著,人民邮电出版社,2018年6月(2)《大数据技术原理与应用——概念、存储、处理、分析与应用》林子雨编著,人民邮电出版社,2017年02月,第2版(3)《大数据技术和应用》陈建平陈志德席进爱编著,清华大学出版社,2019年12月教学后记本次课教学组织与设计一、教学过程(时间:约160分钟)
教学主题:大数据技术概述1、回顾上一课时讲解的知识,引出本课时要讲解的知识点教师和同学讨论上一课时布置的课后思考。引出本节课的主题——大数据技术概述。明确本节课的学习目标,让学生带着目标去听课。要求学生了解大数据的相关技术要求学生掌握大数据处理的基本流程2、进行重点知识的讲解教师根据课件,讲述大数据处理的基本流程教师根据课件,大数据关键技术:大数据采集技术、大数据预处理技术、大数据存储及管理技术、大数据处理、大数据分析及挖掘技术、大数据展示技术二、归纳总结(时间:7分钟)回顾本节课时的学习目标,并对本节课的重要知识点进行总结。回顾大数据处理流程和相关技术三、布置课后思考内容(时间:3分钟)布置学生课下进行相关知识的收集和学习、收集课堂反馈。(1)大数据处理的基本流程由哪几个步骤组成?(2)大数据技术主要包括哪几个方面?各自的作用是什么?(3)大数据处理的两大模式是什么?第3次课课次第3次课授课时间第4周,周一1-4节章节名称大数据基础设施授课方式理论课教学时数8教学目标与要求根据上周介绍的内容理解大数据基础设施相关技术、云计算技术、Hadoop发展历程、版本演变、生态系统、Hadoop的安装和使用方法1.概述2.大数据基础设施相关技术、云计算技术3.Hadoop项目结构4.Hadoop及Hadoop集群的部署与使用教学重点难点表述以下方面:1、重点:.大数据基础设施相关技术、云计算技术、Hadoop相关概念和项目结构2、难点:Hadoop及Hadoop集群的部署与使用3、学生学习应注意的问题:区别相似概念的含义。教学方法手段选择以下方面:教师讲授(√),课堂讨论(√),多媒体教学(√),当堂测验(√),提问式教学(√)主要教学手段:教师讲授和视频思政资源运用选用的思想政治教育素材,以及如何与专业知识相融合。讨论练习作业1、简答题、案例分析题等方式巩固学生学习的知识。2、安排实验作业、关键术语识记主要参考书目、资料(1)《大数据导论——思维、技术与应用》,武志学编著,人民邮电出版社,2018年6月(2)《大数据技术原理与应用——概念、存储、处理、分析与应用》林子雨编著,人民邮电出版社,2017年02月,第2版(3)《大数据技术和应用》陈建平陈志德席进爱编著,清华大学出版社,2019年12月教学后记本次课教学组织与设计一、教学过程(时间:约160分钟)
教学主题:大数据基础设施相关技术、云计算技术、Hadoop相关技术
1、回顾上一课时讲解的知识,引出本课时要讲解的知识点教师和同学讨论上一课时布置的课后思考,引出本节课的主题——大数据基础设施相关技术、云计算技术、大数据处理架构Hadoop的相关技术。明确本节课的学习目标,让学生带着目标去听课。要求学生理解大数据基础设施相关技术、云计算技术、大数据处理架构Hadoop的需求、特点、技术和组件要求学生知道大数据基础设施相关技术、云计算技术、大数据处理架构Hadoop与其他大数据平台的异同2、进行重点知识的讲解教师根据课件,讲述并要求学生理解Hadoop发展历程、版本演变、生态系统、等方面教师根据课件台,讲述Hadoop及各类Hadoop集群的异同教师通过实训平台,讲解Hadoop及Hadoop集群的部署与使用过程。教师通过举例,引出Hadoop技术的发展趋势、研究方向和热点。二、归纳总结(时间:7分钟)回顾本节课时的学习目标,并对本节课的重要知识点进行总结。回顾商务智能大数据处理架构Hadoop相关技术和组件。三、布置课后思考内容(时间:3分钟)布置学生课下进行相关知识的收集和学习、收集课堂反馈。(1)Hadoop和Google的大数据系统有什么不同?(2)生活中用到Hadoop的应用例子?(3)Hadoop生态系统中重要组件的名称和功能?
第4次课课次第4次课授课时间第5周,周一1-4节章节名称大数据基础设施授课方式实验课教学时数8教学目标与要求根据上周介绍的内容了解和掌握Hadoop的安装和使用方法1.概述2.大数据基础设施相关技术、云计算技术3.Hadoop项目结构4.Hadoop及Hadoop集群的部署与使用教学重点难点表述以下方面:1、重点:.大数据基础设施相关技术、云计算技术、Hadoop相关概念和项目结构2、难点:Hadoop及Hadoop集群的部署与使用3、学生学习应注意的问题:区别相似概念的含义。教学方法手段选择以下方面:教师讲授(),课堂讨论(√),多媒体教学(√),当堂测验(√),提问式教学(√)主要教学手段:教师讲授和视频思政资源运用选用的思想政治教育素材,以及如何与专业知识相融合。讨论练习作业1、简答题、案例分析题等方式巩固学生学习的知识。2、安排实验作业、关键术语识记主要参考书目、资料(1)《大数据导论——思维、技术与应用》,武志学编著,人民邮电出版社,2018年6月(2)《大数据技术原理与应用——概念、存储、处理、分析与应用》林子雨编著,人民邮电出版社,2017年02月,第2版(3)《大数据技术和应用》陈建平陈志德席进爱编著,清华大学出版社,2019年12月教学后记本次课教学组织与设计一、教学过程(时间:约160分钟)
教学主题:Hadoop及Hadoop集群的部署与使用相关技术
1、回顾上一课时讲解的知识,引出本课时要讲解的知识点教师和同学讨论上一课时布置的课后思考,引出本节课的主题——Hadoop及Hadoop集群的部署与使用相关技术。明确本节课的学习目标,让学生带着目标去听课。要求学生理解Hadoop及Hadoop集群的部署与使用的需求、特点、技术和组件要求学生知道Hadoop及Hadoop集群的部署与使用与其他大数据平台的异同2、进行重点知识的讲解教师根据课件,讲述并要求学生理解Hadoop及Hadoop集群的部署与使用等方面教师根据课件台,讲述Hadoop及Hadoop集群的部署与使用的异同教师通过实训平台,讲解Hadoop及Hadoop集群的部署与使用的部署与使用过程。教师通过举例,引出Hadoop技术的发展趋势、研究方向和热点。二、归纳总结(时间:7分钟)回顾本节课时的学习目标,并对本节课的重要知识点进行总结。回顾商务智能大数据处理架构Hadoop相关技术和组件。三、布置课后思考内容(时间:3分钟)布置学生课下进行相关知识的收集和学习、收集课堂反馈。(1)Hadoop和Google的大数据系统有什么不同?(2)生活中用到Hadoop的应用例子?(3)Hadoop生态系统中重要组件的名称和功能?
第5次课课次第5次课授课时间第6周,周一1-4节章节名称大数据的采集与预处理授课方式理论课、实验室教学时数8教学目标与要求理解大数据采集方法分类掌握系统日志采集方法教学重点难点1、重点:大数据采集方法分类2、难点:系统日志采集方法:Flume使用方法教学方法手段选择以下方面:教师讲授(√),课堂讨论(√),多媒体教学(√),当堂测验(√),提问式教学(√)主要教学手段:教师讲授和视频思政资源运用选用的思想政治教育素材,以及如何与专业知识相融合。讨论练习作业1大数据采集方法有哪几大类?分别用业采集哪些数据?2系统日志采集方法需要具有哪些特征?3常用的系统日志采集系统有哪些?各自有什么特点?主要参考书目、资料(1)《大数据导论——思维、技术与应用》,武志学编著,人民邮电出版社,2018年6月(2)《大数据技术原理与应用——概念、存储、处理、分析与应用》林子雨编著,人民邮电出版社,2017年02月,第2版(3)《大数据技术和应用》陈建平陈志德席进爱编著,清华大学出版社,2019年12月教学后记本次课教学组织与设计一、教学过程(时间:约80分钟)
教学主题:大数据采集(1)回顾上一课时讲解的知识,引出本课时要讲解的知识点教师和同学讨论上一课时布置的课后思考,(2)引出本节课的主题——大数据采集(1)(3)明确本节课的学习目标,让学生带着目标去听课。理解大数据采集方法分类掌握系统日志采集方法进行重点知识的讲解1教师根据课件,讲述大数据采集概述,包括大数据分类、大数据采集方法分类,包括数据库采集、系统日志采集、网络数据采集、感知设备采集2教师根据课件,讲述系统日志采集方法,包括Flume的基本概念、Flume使用方法、Flume应用案例二、归纳总结(时间:7分钟)回顾本节课时的学习目标,并对本节课的重要知识点进行总结。回顾系统日志采集方法。三、布置课后思考内容(时间:3分钟)布置学生课下进行相关知识的收集和学习、收集课堂反馈。1大数据采集方法有哪几大类?分别用业采集哪些数据?2系统日志采集方法需要具有哪些特征?3常用的系统日志采集系统有哪些?各自有什么特点?
第6次课课次第6次课授课时间第7周,周一1-4节章节名称大数据的采集与预处理授课方式理论课、实验室教学时数8教学目标与要求掌握网络爬虫原理掌握网络爬虫工作流程掌握网络爬虫抓取策略掌握Scapy网络爬虫系统掌握大数据预处理整体架构掌握数据清洗方法掌握数据集成方法掌握数据转换方法掌握ETL工具Kettle教学重点难点1、重点:网络爬虫工作流程、大数据预处理整体架构2、难点:Scapy网络爬虫系统、数据清洗方法教学方法手段选择以下方面:教师讲授(√),课堂讨论(√),多媒体教学(√),当堂测验(√),提问式教学(√)主要教学手段:教师讲授和视频思政资源运用选用的思想政治教育素材,以及如何与专业知识相融合。讨论练习作业网络数据采集的主要功能是什么?常用的网络日志系统有哪些?各自有什么特点?请简述网络爬虫的工作原理和工作流程。网络爬虫的抓取策略有哪几大类?各自的主要策略是什么?数据预处理包括哪几种基本处理方法大数据预处理的主要目的是什么?数据清洗主要包括哪几种?各自主要的功能是什么?ETL工具主要包括哪些工作主要参考书目、资料(1)《大数据导论——思维、技术与应用》,武志学编著,人民邮电出版社,2018年6月(2)《大数据技术原理与应用——概念、存储、处理、分析与应用》林子雨编著,人民邮电出版社,2017年02月,第2版(3)《大数据技术和应用》陈建平陈志德席进爱编著,清华大学出版社,2019年12月教学后记
本次课教学组织与设计一、教学过程(时间:约60分钟)
教学主题:网络数据采集方法回顾上一课时讲解的知识,引出本课时要讲解的知识点1教师和同学讨论上一课时布置的课后思考。引出本节课的主题——网络数据采集方法。3明确本节课的学习目标,让学生带着目标去听课。掌握网络爬虫原理掌握网络爬虫工作流程掌握网络爬虫抓取策略进行重点知识的讲解3教师根据课件,讲述网络爬虫原理4教师根据课件,讲述网络爬虫工作流程5教师根据课件,讲述网络爬虫抓取策略。6教师通过举例,Scapy网络爬虫系统,并通过案例详细讲解二、归纳总结(时间:7分钟)回顾本节课时的学习目标,并对本节课的重要知识点进行总结,回顾网络数据采集具体方法。三、布置课后思考内容(时间:3分钟)布置学生课下进行相关知识的收集和学习、收集课堂反馈。1网络数据采集的主要功能是什么?2常用的网络日志系统有哪些?各自有什么特点?3请简述网络爬虫的工作原理和工作流程。4网络爬虫的抓取策略有哪几大类?各自的主要策略是什么?
一、教学过程(时间:约50分钟)
教学主题:大数据预处理(1)回顾上一课时讲解的知识,引出本课时要讲解的知识点1教师和同学讨论上一课时布置的课后思考。引出本节课的主题——大数据预处理(1)3明确本节课的学习目标,让学生带着目标去听课。掌握网络爬虫原理掌握网络爬虫工作流程掌握网络爬虫抓取策略进行重点知识的讲解3教师根据课件,讲述网络爬虫原理4教师根据课件,讲述网络爬虫工作流程5教师根据课件,讲述网络爬虫抓取策略。6教师通过举例,Scapy网络爬虫系统,并通过案例详细讲解二、归纳总结(时间:7分钟)回顾本节课时的学习目标,并对本节课的重要知识点进行总结,回顾预处理过程。三、布置课后思考内容(时间:3分钟)1数据预处理包括哪几种基本处理方法2大数据预处理的主要目的是什么?3数据清洗主要包括哪几种?各自主要的功能是什么?
一、教学过程(时间:约50分钟)
教学主题:大数据预处理(2)回顾上一课时讲解的知识,引出本课时要讲解的知识点教师和同学讨论上一课时布置的课后思考。2引出本节课的主题——大数据预处理(2)3明确本节课的学习目标,让学生带着目标去听课。掌握数据消减方法掌握离散化和概念层次树掌握ETL工具Kettle进行重点知识的讲解1教师根据课件,讲述数据消减方法:数据立方合计、维数消减、数据压缩、数据块消减2教师根据课件,讲述离散化和概念层次化:数值概念层次化、类别概念层次树3教师根据课件,ETL工具(1)ETL工具简介(2)安装Kettle(3)Kettle的数据流处理二、归纳总结(时间:7分钟)回顾本节课时的学习目标,并对本节课的重要知识点进行总结,回顾数据消减方法具体方法。布置课后思考内容(时间:3分钟)1数据消减的主要目的是什么?主要策略有哪几种?2离散化的主要作用是什么?3ETL工具主要包括哪些工作?
第7次课课次第7次课授课时间第8周,周一1-4节章节名称大数据存储系统授课方式理论课教学时数8教学目标与要求理解Google大数据处理系统理解Hadoop大数据处理系统教学重点难点表述以下方面:1、重点:GFS、MapReduce、BigTable等相关概念2、难点:HadoopHDFS相关概念和项目结构3、学生学习应注意的问题:区别相似概念的含义。教学方法手段选择以下方面:教师讲授(√),课堂讨论(√),多媒体教学(√),当堂测验(√),提问式教学(√)主要教学手段:教师讲授和视频思政资源运用选用的思想政治教育素材,以及如何与专业知识相融合。讨论练习作业1、Google大数据处理的三大组件是什么?2、HadoopHDFS的主要特点是什么3、试描述HadoopHDFS的系统架构主要参考书目、资料(1)《大数据导论——思维、技术与应用》,武志学编著,人民邮电出版社,2018年6月(2)《大数据技术原理与应用——概念、存储、处理、分析与应用》林子雨编著,人民邮电出版社,2017年02月,第2版(3)《大数据技术和应用》陈建平陈志德席进爱编著,清华大学出版社,2019年12月教学后记
本次课教学组织与设计一、教学过程(时间:约160分钟)
教学主题:大数据处理系统
1、回顾上一课时讲解的知识,引出本课时要讲解的知识点教师和同学讨论上一课时布置的课后思考,引出本节课的主题——大数据处理系统。明确本节课的学习目标,让学生带着目标去听课。要求学生理解Google大数据处理系统要求学生理解HadoopHDFS大数据存储系统2、进行重点知识的讲解教师根据课件,讲述并要求学生大数据技术概述,包括分布式计算、服务器集群、大数据的技术基础教师根据课件,讲述Google大数据处理系统,GFS、MapReduce、BigTable等相关技术。教师通过举例,讲述HadoopHDFS相关概念和项目结构。二、归纳总结(时间:7分钟)回顾本节课时的学习目标,并对本节课的重要知识点进行总结。回顾大数据处理架构Hadoop相关技术和组件。三、布置课后思考内容(时间:3分钟)布置学生课下进行相关知识的收集和学习、收集课堂反馈。1、Google大数据处理的三大组件是什么?2、HadoopHDFS的主要特点是什么3、试描述HadoopHDFS的系统架构
第8次课课次第8次课授课时间第9周,周一1-4节章节名称大数据处理文件系统HDFS授课方式实验课教学时数8教学目标与要求理解文件系统HDFS基本原理掌握HDFS常用命令理解HDFS的JavaAPI编程教学重点难点1、重点:HDFS相关概念、体系结构、存储原理、读写过程、了解HDFS操作实践对构建复杂分布式商务智能大数据系统的初步认知2、难点:HDFS编程实践3、学生学习应注意的问题:注意明确系统的范畴。教学方法手段选择以下方面:教师讲授(√),课堂讨论(√),多媒体教学(√),当堂测验(√),提问式教学(√)主要教学手段:教师讲授和视频思政资源运用选用的思想政治教育素材,以及如何与专业知识相融合。讨论练习作业1、简答题、案例分析题等方式巩固学生学习的知识。2、安排实验作业、关键术语识记。3、复习思考题。主要参考书目、资料(1)《大数据导论——思维、技术与应用》,武志学编著,人民邮电出版社,2018年6月(2)《大数据技术原理与应用——概念、存储、处理、分析与应用》林子雨编著,人民邮电出版社,2017年02月,第2版(3)《大数据技术和应用》陈建平陈志德席进爱编著,清华大学出版社,2019年12月教学后记
本次课教学组织与设计一、教学过程(时间:约80分钟)
教学主题:分布式文件系统HDFS概念、属性及架构描述
1、创设情境,导入分布式文件系统HDFS概念新概念通过文件系统发展历程和的历史,引出本节课的主题——分布式文件系统HDFS。然后讲解分布式文件系统HDFS表现形式、内容、属性及架构描述的发展历史和新趋势。明确本节课的学习目标,让学生带着目标去听课。要求学生理解分布式文件系统HDFS概念、表现形式、相关应用要求学生知道分布式文件系统HDFS的体系结构、存储原理要求学生掌握分布式文件系统HDFS数据数据读写过程2、进行重点知识的讲解教师根据课件和例子,讲述分布式文件系统HDFS概念、表现形式、相关应用。教师根据课件和例子,讲述分布式文件系统HDFS的体系结构。教师通过举例,分布式文件系统HDFS的存储原理概念。教师根据课件,讲述分布式文件系统HDFS数据数据读写过程。二、归纳总结(时间:7分钟)(1)回顾本节课时的学习目标,并对本节课的重要知识点进行总结。回顾分布式文件系统HDFS概念、表现形式,了解它们的应用价值。三、布置课后思考内容(时间:3分钟)分布式文件系统HDFS的体系架构设计的需求?分布式文件系统HDFS如何实现架构高扩展、数据的高可用和冗余存储?分布式文件系统HDFS中数据块和普通文件系统数据块的区别分布式文件系统HDFS中NameNode和DataNode的功能?分布式文件系统HDFS如何减轻NameNode的负担?分布式文件系统HDFS的读写策略及过程?实验教学过程(时间:约80分钟)
实验教学主题:了解HDFS的数据读写过程操作实践以及HDFS编程实践方面,对构建大数据文件系统的初步认知。1、创设情境,导入HDFS操作实践明确本节课的学习目标,让学生带着目标去实践。(1)了解HDFS操作实践对构建复杂分布式商务智能大数据系统的初步认知(2)HDFS在Linux操作系统上进行文件操作的常用Shell命令以及JavaAPI编程(3)实践应注意的问题:注意明确确HDFS分布式系统的操作编程初步认知。2、进行重点实验知识的领会教师根据课件和例子,讲述HDFS在Linux操作系统上进行文件操作的常用Shell命令使用。教师根据课件和例子,讲述HDFS在Linux操作系统上进行文件操作的JavaAPI编程。二、归纳总结(时间:7分钟)(1)回顾本节课时的学习目标,并对本节课的重要实验知识点进行检查和总结。
三、布置课后实验内容(时间:3分钟)布置学生课下进行相关知识的收集和学习、收集课堂反馈。(1)HDFS在Linux操作系统上进行文件操作的常用Shell命令以及JavaAPI编程有哪些优点和不足?有哪些常见的应用?
第9次课课次第9次课授课时间第10周,周一1-4节章节名称大数据的数据库系统-分布式数据库HBase授课方式理论课、实验课教学时数8教学目标与要求要求学生理解HBase概述、访问接口、数据模型、实现原理、教学重点难点表述以下方面:1、重点:HBase访问接口、数据模型、实现原理、运行机制2、难点:HBase的实现原理编程实践。3、学生学习应注意的问题:注意学以致用。教学方法手段选择以下方面:教师讲授(√),课堂讨论(√),多媒体教学(√),当堂测验(√),提问式教学(√)主要教学手段:教师讲授和视频思政资源运用选用的思想政治教育素材,以及如何与专业知识相融合。讨论练习作业1、简答题、案例分析题等方式巩固学生学习的知识。2、安排实验作业、关键术语识记。3、复习思考题。主要参考书目、资料(1)《大数据导论——思维、技术与应用》,武志学编著,人民邮电出版社,2018年6月(2)《大数据技术原理与应用——概念、存储、处理、分析与应用》林子雨编著,人民邮电出版社,2017年02月,第2版(3)《大数据技术和应用》陈建平陈志德席进爱编著,清华大学出版社,2019年12月教学后记
本次课教学组织与设计一、教学过程(时间:约160分钟)
教学主题:分布式数据库Hbase基本架构1、创设情境,导入分布式数据库HBase基础概念通过数据库到分布式数据库数据模型和数据处理发展历程和历史,引出本节课的主题——分布式数据库HBase基础方法的概念。然后讲解分布式数据库HBase模型构建形式、分析处理发展的新趋势。明确本节课的学习目标,让学生带着目标去听课。要求学生理解分布式数据库HBase的分层作用要求学生掌握分布式数据库HBase组成元素要求学生知道分布式数据库HBase的数据模型要求学生理解分布式数据库HBase的逻辑模型要求学生知道数据ETL(Extract-Transform-Load)的处理过程2、进行重点知识的讲解根据课件和例子,讲述分布式数据库HBase的结构、数据仓库组成元素。根据课件,讲述分布式数据库HBase的数据模型和逻辑模型分类。根据例子,讲述分布式数据库HBase的数据处理过程。教师根据课件,讲述分布式数据库分析处理发展的趋势。二、归纳总结(时间:7分钟)(1)回顾本节课时的学习目标,并对本节课的重要知识点进行总结。回顾分布式数据库HBase基础方法和发展趋势,了解它们的应用价值。
三、布置课后思考内容(时间:3分钟)HBase体系结构和传统关系数据库的区别?HBase的数据模型有何特点?如何实施分布式数据库HBase的基本操作?HBase的各组件功能及作用?数据如何分区及定位?HBase的日志和备份原理?第10次课课次第11次课授课时间第11周,周一1-4节章节名称大数据的数据库系统-分布式数据库HBase授课方式实验课教学时数8教学目标与要求要求学生理解HBase运行机制要求学生理解HBase应用方案教学重点难点表述以下方面:1、重点:HBase访问接口、数据模型、实现原理、运行机制2、难点:HBase运行机制、编程实
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数字经济政策与发展手册
- 电气产品结构与电气配合手册
- AI 应用系统监控与告警管理工作手册
- 2026 九年级下册《化学与环境保护》课件
- 第二课《给学习加点调味料》课件2025-2026学年南大版初中心理健康八年级全一册
- 数字图像处理技术及应用 课件 8-图像分割技术
- 2026年全国企业员工全面质量管理知识竞赛复习预测复习及参考答案详解(培优A卷)
- 2026年垃圾清扫与处理工测试卷及完整答案详解【必刷】
- 胃结石护理中的皮肤护理技巧
- 导管感染护理中的患者教育与沟通
- 重庆机场集团有限公司招聘考试试题及答案
- 2026上海中考语文知识点背诵清单练习含答案
- 腹股沟疝术后感染的风险与应对
- 2026广东佛山市南海区大沥镇镇属企业员工招聘9人建设笔试模拟试题及答案解析
- 2026综合版《安全员手册》
- 【《基于STM32F103的智能药盒设计》7600字(论文)】
- 2026年四川省成都市-中考英语模拟卷(含解析无听力部分)
- 教资面试协议书
- 成人术后疼痛管理临床实践指南(2025版)
- 耐热水稻品种的分子育种技术与配套栽培模式研究
- 《互联网时代知识产权保护实务和十四五数字经济发展规划解读》学习资料-题库 温州市继续教育-一般公需课
评论
0/150
提交评论