




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
【专业教学内容标准体系文件】教案课程名称:数据分析与挖掘技术课程代码:任课教师:授课班级:__大数据工程技术01-05班授课时间:2023-2024学年第1学期《数据分析与挖掘技术》课程教案(首页)课程/项目名称数据分析与挖掘技术课程总学时:64学时理论:32学时实验:32学时学分4课程课程类别:专业必修
■专业必修
□
公共必修
□公共选修
授课教师授课专业大数据工程技术授课班级2021级大数据工程技术01-05班教学目的和要求通过本课程的学习,让学生接触并了解大数据分析的工作原理和使用方法,使学生具有Python大数据分析、设计和可视化开发的能力,具备Kettle大数据清洗和存储的基本技能,并具有较强的分析问题和解决问题的能力,为将来从事大数据相关领域的工作打下坚实的基础。教学重点、难点教学重点:了解大数据的基本原理;熟悉Python语言,能够自行安装和使用Python扩展库;掌握Python连接MySQL、能熟练利用游标操纵数据库;掌握可视化的基本图表,能够设计可视化图表;掌握数据存储的基本概念;掌握数据清洗的基本概念;掌握数据标准化的基本概念;掌握数据编码的基本概念;掌握数据清洗的基本概念能够使用Pandas进行数据分析与清洗。
教学难点:如何对Python爬虫技术进行较好的应用;能熟练利用Kettle进行数据采集、抽取与转换;掌握可视化的处理步骤;熟练掌握Pandas数据分析的方法;认识并掌握其它大数据开源工具。教学资源多媒体课件习题答案其他教学资源:《大数据分析》黄源等主编,清华大学出版社教学环境多媒体教学,课堂教学与学生上机实践相结合第1次课
2学时授课内容认识大数据教学目的与要求介绍大数据的定义与特征。通过本课的学习,学生应该掌握如下知识:1)
大数据的定义2)
大数据的基本原理3)
大数据的特征4)
大数据的历程重点难点1)大数据的特征教学进程安排
教学导入:介绍介绍大数据发展与特征,举例说明大数据的重要作用,逐步引入到课程的介绍内容中来。授课内容:一、《大数据分析》课程介绍介绍本门课程的学科地位、考核方式、学习内容安排、可以参考的学习资料。二、讲授大数据的定义、原理与发展1)讲授大数据的定义2)讲授大数据的原理3)讲授大数据的发展历程4讲授大数据的特征
课后学习任务布置尝试在自己的电脑中,自己动手查找大数据的资料主要参考资料《大数据分析》黄源等主编,清华大学出版社第2次课
2学时授课内容大数据的意义教学目的与要求介绍大数据的定义与特征。通过本课的学习,学生应该掌握如下知识:1)大数据的战略2)大数据战略的国家层面3)大数据战略的企业层面
重点难点1)大数据的战略意义
教学进程安排
授课内容:一、讲授大数据的战略意义1)讲授国家层面的意义2)讲授企业层面的意义3)讲授个人层面的意义二、讲授大数据的产业链
课后学习任务布置尝试了解大数据的产业链。主要参考资料《大数据分析》黄源等主编,清华大学出版社
第3次课
2学时授课内容上机实验(一)教学目的与要求旨在介绍大数据的安装环境,学生能够实际上机动手安装。通过本课的学习,学生应该掌握如下知识:1)了解大数据的安装2)掌握数据的分类
重点难点1)掌握在Windows中通过安装虚拟机安装Linux系统的方法。2)能够识别不同的数据类型。
教学进程安排
实验内容1)确定数据的不同类型。小明所在公司要对存储的各种类型的数据进行分类,请你帮助小明对下列数据集分类,指出其中的结构化数据,非机构化数据和半结构化数据。2)编写XML与JSON程序并了解程序的不同。3)为了更好的应用大数据技术,小明公司要安装Linux操作系统,请你帮助小明按照以下步骤帮他安装Linux系统。
课后学习任务布置课后自行在机器中安装虚拟机及装Linux系统。主要参考资料《大数据分析》黄源等主编,清华大学出版社第4次课2学时授课内容爬虫基础(一)教学目的与要求介绍爬虫基本概念、爬虫的地位与作用:1)掌握爬虫的基本概念。2)掌握爬虫的作用。3)了解爬虫的运行机制。4)掌握Python的安装与开发环境重点难点1)爬虫的原理2)Python的安装与开发环境教学进程安排
授课内容:一、认识爬虫二、爬虫的地位与作用三、Python3介绍四、Python3的安装与使用五、Python3的开发环境
课后学习任务布置在机器上安装Python3,熟悉开发环境主要参考资料《大数据分析》黄源等主编,清华大学出版社第5次课
2学时授课内容爬虫基础(二)教学目的与要求旨在介绍Python3的书写与运行。通过本课的学习,学生应该掌握如下知识:1)
书写Python3程序2)
掌握Python3的书写风格
重点难点1)熟练书写并运行Python3程序
教学进程安排
知识回顾:如何安装Python3?以Python3为例,采用边讲授边练习的方法,开展以下内容的授课。授课内容:一、如何书写并运行Python3程序二、Python3程序的风格Python的语句很特别,它没有像其他很多语言那样把要执行的语句用成对的{}花括号包起来,而是把语句向右边缩进了,这就是
Python的风格,它是靠缩进语句来表示要执行的语句的。三、Python3程序的注释四、Python3程序的调试
课后学习任务布置书写并运行Python3主要参考资料《大数据分析》黄源等主编,清华大学出版社
第6次课2学时授课内容爬虫基础(三)教学目的与要求旨在介绍Python3的各种数据类型及转换方式。要求学生应该熟练掌握如下知识的运用:1)掌握Python3中的各种数据类型2)掌握Python3中的各种数据类型的转换
重点难点1)各种数据类型的掌握2)各种数据类型的相互转换教学进程安排
知识回顾:回顾上节课讲授的Python3中的程序书写。授课内容:一、介绍一些
Python常用的数据类型,包含整型、浮点型、布尔类型、字符串类型、列表类型、元组类型等各种不同的数据类型,同时介绍与数据类型相关的知识。
二、介绍几个跟数据类型紧密相关的函数:int()、float()和str()。int()的作用是将一个字符串或浮点数转换为一个整数。float()的作用是将一个字符串或整数转换成一个浮点数,也即是转换为小数。str()的作用是将一个数或任何其他类型转换成一个字符串。
课后学习任务布置书写实例将Python3中的各种数据类型进行转换,使用int()、float()和str()主要参考资料《大数据分析》黄源等主编,清华大学出版社
第7次课
2学时授课内容爬虫基础(四)教学目的与要求爬虫主要是与网页打交道的,因此了解一些Python、Web前端与爬虫的相关知识是非常有必要的。通过本课的学习,学生应该掌握如下知识:1)
掌握网页结构2)
掌握爬虫的实现方法3)
掌握Python3中爬虫模块
重点难点1)urllib模块的应用2)Requests的应用
教学进程安排
知识回顾:如何Python3程序?以Python3为例,采用边讲授边练习的方法,开展以下内容的授课。授课内容:一、了解网页结构无论我们通过浏览器打开网站、访问网页,还是通过脚本对URL网址进行访问,本质上都是对HTTP服务器的请求,浏览器上所呈现的、控制台所显示的都是HTTP服务器对我们请求的响应。
二、掌握爬虫实现
三、掌握Python3中爬虫模块urllib是URL和lib两个单词共同构成的,URL就是网页的地址,lib是library(库)的缩写。Requests
是用Python语言编写,基于urllib,采用
Apache2Licensed
开源协议的
HTTP
库。它比
urllib
更加方便,可以节约开发者大量的工作,完全满足
HTTP
测试需求。课后学习任务布置安装Requests库,并使用Requests库爬取网页内容主要参考资料《大数据分析》黄源等主编,清华大学出版社第8次课2学时授课内容爬虫基础(五)教学目的与要求旨在介绍Python3的爬虫爬取网页内容。要求学生应该熟练掌握如下知识的运用:1)掌握爬虫的运行原理2)掌握网页结构3)掌握代码的书写与调试
重点难点1)网页结构2)代码的实现
教学进程安排
知识回顾:回顾上节课讲授的爬虫库的内容。授课内容:一、根据学生-课程数据库中的数据,完成下列查询:实现对酷狗音乐网页内容的爬取
1)分析网页结构2)分析要抓取的内容3)抓取过程分析4)获取页面内容
代码见书
课后学习任务布置复习和巩固爬虫爬取网页内容的各种方法主要参考资料《大数据分析》黄源等主编,清华大学出版社
第9次课
2学时授课内容上机实验(二)教学目的与要求旨在通过本实验考查学生对网络爬虫的掌握情况。要求学生应该熟练掌握如下知识的运用:1)使用Requests库来编写爬虫。2)使用爬虫程序爬取网页壁纸
重点难点1)
PL/SQL的有效字符集的类型2)
PL/SQL程序块的组成教学进程安排
实验:(1)使用Requests库来编写爬虫爬取百度网页的数据,代码如下:>>>importrequests>>>
r=requests.get("")>>>r.status_code200>>>r.encoding='utf-8'>>>r.text二、分析爬虫目标,本实训目标网址是/weimei/index.htm,目的是通过用Python语言编写爬虫下载该网站所有的壁纸图片爬取出的图片将保存在该Python程序所存储保存的文件包中。课后学习任务布置爬取网站上的页面内容并保存。主要参考资料《大数据分析》黄源等主编,清华大学出版社
第10次课
2学时授课内容Scrapy爬虫(一)教学目的与要求旨在简要主要介绍Scrapy爬虫的原理与工作过程,要求学生应该掌握如下知识:1)了解Scrapy爬虫2)掌握Scrapy爬虫的安装3)掌握Scrapy爬虫的架构4)掌握Scrapy爬虫的工作过程
重点难点1)
Scrapy爬虫的安装2)
Scrapy爬虫的架构教学进程安排
知识回顾:回顾上节课讲授的Python3中的爬虫应用。本节课进行以下内容的授课。授课内容:一、讲授Scrapy爬虫Scrapy是一个使用Python语言编写的开源网络爬虫框架,是一个高级的Python爬虫框架。二、讲授在Windows7中安装Scrapy框架在安装Scrapy框架之前,必须依次安装twiste包、whl包、lxml包、erface包、pywin32包和pyOpenSSL包。并在上述包全部安装完成后,运行命令:pipinstallscrapy来安装Scrapy框架。三、讲授Scrapy框架原理Scrapy框架由ScrapyEngine、Scheduler、Downloader、Spiders、ItemPipeline、Downloadermiddlewares以及Spidermiddlewares等几部分组成四、讲授Scrapy框架的工作流程
课后学习任务布置在本机上安装Scrapy框架。主要参考资料《大数据分析》黄源等主编,清华大学出版社
第11次课
2学时授课内容Scrapy爬虫(二)教学目的与要求旨在简要介绍Scrapy爬虫的对象与Spider开发流程,要求学生应该掌握如下知识:1)掌握Request对象2)掌握Response对象3)掌握Select对象3)掌握Spider开发流程重点难点1)
Scrapy爬虫的对象的应用2)
Spider的开发流程教学进程安排
知识回顾:回顾上节课讲授的Scrapy爬虫的基础本节课进行以下内容的授课。授课内容:一、讲授Request对象和Response对象
Scrapy中的Request对象和Response对象通常用于爬取网站,通常,Request对象在爬虫程序中生成并传递到系统,直到它们到达下载程序,后者执行请求并返回一个Response对象,该对象返回到发出请求的爬虫程序。二、讲授Select对象
Scrapy的数组组织结构是Selector,它使用xpath选择器在Response中提取数据。在使用Selector对象的时候要先使用xpath或者css选择器选中页面中要提取的数据,然后进行提取。3)
三、讲授Spider开发流程对于大多数用户来讲,Spider是Scrapy框架中最核心的组件,Scrapy爬虫开发时通常是紧紧围绕Spider而展开的。
课后学习任务布置打开并查看Scrapy爬虫源代码,了解Spider的开发流程。主要参考资料《大数据分析》黄源等主编,清华大学出版社
第12次课2学时授课内容上机实验(三)教学目的与要求旨在通过本实验考查学生对Scrapy爬虫框架的掌握情况。要求学生应该熟练掌握如下知识的运用:1)掌握Scrapy爬虫的基本框架与工作过程。2)掌握Scrapy爬虫的运用与代码的书写。重点难点1)Scrapy爬虫的运用与代码的书写教学进程安排
知识回顾:回顾上节课讲授的Scrapy爬虫的基本基本知识。本节课引导学生进行以下内容的实验练习。实验内容:一、创建Scrapy项目并查看结构
二、创建一个最简单的Spider爬虫三、编写代码并运行爬虫四、使用Scrapy框架编写爬虫访问网页代码见书
课后学习任务布置应用Scrapy爬虫爬取网页,通过修改代码来运行主要参考资料《大数据分析》黄源等主编,清华大学出版社
第13次课2学时授课内容数据库分析(一)教学目的与要求主要介绍数据库设计原理与基本方法、MySql的基本使用方式。要求学生应该掌握如下知识:1
掌握数据库模型2)掌握MySql的安装3)掌握MySql的基本操作重点难点1)MySql的基本操作
教学进程安排
本节课进行以下内容的授课。授课内容:一、讲授数据库基本概念二、讲授数据库结构模型数据库系统在总体结构上一般都体现为三级模式,分别是:模式、外模式和内模式。三、讲授MySql的安装与使用MySql数据库的基本操作主要分为操作MySql数据库和操作MySql数据表(1)创建数据库:createdatabase
数据库名
(2)查看数据库:
showdatabases
(3)选择指定数据库:use数据库名
(4)删除数据库:dropdatabase
数据库名MySql数据表的基本操作主要有以下几种:(1)创建数据表:createtable
数据表名
(2)查看数据表:showtables
(3)查看数据表结构:describe数据表名
(4)往数据表中添加记录:insertinto
数据表名
values
(5)修改数据表中记录:update数据表名
课后学习任务布置创建数据库、创建数据表并往表中插入记录。主要参考资料《大数据分析》黄源等主编,清华大学出版社第14次课2学时授课内容数据库分析(二)教学目的与要求旨在简要介绍Python中想要连接与操作MySql数据库,要求学生应该掌握如下知识:1)Python中连接MySql数据库的基本原理。2)Python中连接与操作MySql数据库的基本方法。重点难点1)Python中操作MySql数据库的基本方法教学进程安排
知识回顾:回顾之前讲授的MySql数据库的基本操作方式。本节课引导学生进行以下内容的实验练习。授课内容::一.如何使用Python连接MySql数据库在Python中想要连接MySql数据库需要一个驱动,用于和数据库的交互。在Python3中可以使用pymysql库来实现这一功能。pymysql库是一个纯Python库,可以直接安装使用二.Python操作MySql数据库:1)
创建MySql数据库和创建数据表并使用Python查询表中记录想要使用Python连接MySql,可在命令
importpymysql后输入以下命令:
db=pymysql.connect(host="",user="
",passwd="",db="",charset="")
在该命令中db代表数据库,pymysql.connect
表示使用pymysql库来连接MySql数据库(1)建立连接(2)获取游标(3)查询记录(4)返回结果(5)打印数据课后学习任务布置使用Python往user数据表中插入新的记录主要参考资料《大数据分析》黄源等主编,清华大学出版社第15次课
2学时授课内容上机实验(四)教学目的与要求旨在通过本实验考查学生对Python中连接操作MySql数据库的掌握情况。要求学生应该熟练掌握如下知识的运用:1)Python连接MySql数据库。
2)Python操作MySql数据库。
3)查询语句的书写与应用。重点难点1)Python连接MySql数据库,建立数据表并查询结果教学进程安排
知识回顾:回顾上节课讲授Python中想要连接与操作MySql数据库的基本知识。本节课引导学生进行以下内容的实验练习。实验内容:一、新建school数据库
二、新建student数据表三、查看student数据表信息四、使用Scrapy框架编写爬虫访问网页五、查看student数据表结构六、往student数据表中添加多条数据七、将表中score的每个数据值加10八、输出并显示修改后的数据表数据值
代码见书
课后学习任务布置新建数据库,并建立数据表,使用Python进行数据库管理。主要参考资料《大数据分析》黄源等主编,清华大学出版社
第16次课
2学时授课内容数据可视化(一)教学目的与要求旨在简要介绍数据可视化的基本概念与方法的使用方法,要求学生应该掌握如下知识:1)掌握数据可视化的概念2)了解数据可视化的发展3)了解数据可视的方法与应用4)了解数据可视化的图表重点难点1)数据可视化的方法2)数据可视化的应用教学进程安排
授课内容:一、讲授数据可视化的概念1)
数据可视化系统并不是为了展示用户的已知的数据之间的规律,而是为了帮助用户通过认知数据,有新的发现,发现这些数据所反映的实质。课堂练习题:二、讲授数据可视化的发展三、讲授数据可视化的方法与应用1)
数据可视化技术包含的概念2)
数据可视化的组成3)
数据可视化的标准4)
数据可视化的应用四、数据可视化的各种图表介绍课后学习任务布置了解数据可视化的作品,了解数据可视化的发展历程主要参考资料《大数据分析》黄源等主编,清华大学出版社
第17次课2学时授课内容数据可视化(二)教学目的与要求旨在简要介绍数据可视化的实现,要求学生应该掌握如下知识:1)认识numpy基础2)认识matplotlib库3)掌握matplotlib库的实现重点难点1)numpy中的数学基础2)matplotlib库的实现教学进程安排
知识回顾:回顾之前讲授的数据可视化的基本概念。本节课引导学生进行以下内容的实验练习。授课内容:一、讲授数据可视化的numpy库
1、numpy是Python做数据处理的底层库,是高性能科学计算和数据分析的基础,比如著名的Python机器学习库SKlearn就需要numPy的支持。掌握numPy的基础数据处理能力是利用Python做数据运算及机器学习的基础。
2、在Windows中进入cmd命令后,直接运行pipinstallnumpy即可完成,安装完成后输入importnumpy,如果没报错则表示成功。二、讲授数据可视化的matplotlib库
1、
matplotlib
是一个
Python
的
2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形
2、matplotlib库装与运行。在Windows中进入cmd后,直接输入命令python-mpipinstall--usermatplotlib-2.1.0-cp36-cp36m-win32.whl
来执行matplotlib程序的安装。课后学习任务布置安装numPy库和matplotlib库主要参考资料《大数据分析》黄源等主编,清华大学出版社
第18次课
2学时授课内容上机实验(五)教学目的与要求旨在通过上机实验练习
matplotlib中的可视化应用,通过本课的学习,学生应该掌握如下知识:1)掌握matplotlib库的导入2)掌握matplotlib库的可视化方法3)掌握matplotlib库的可视化实现重点难点1)matplotlib库的可视化方法
教学进程安排
知识回顾:回顾上一节课的主要内容,包括matplotlib基础实验内容:一、使用matpotlib.pyplot绘图
二掌握matpotlib.pyplot绘图函数三、用numpy库和matplotlib库绘制图形
代码见书课后学习任务布置1、用numpy库和matplotlib库绘制图形主要参考资料《大数据分析》黄源等主编,清华大学出版社
第19次课
2学时授课内容数据可视化(三)教学目的与要求旨在简要介绍数据可视化的实现,要求学生应该掌握如下知识:1)认识numpy基础2)认识matplotlib库3)掌握matplotlib库的实现重点难点1)使用matplotlib库可以绘制各种图形教学进程安排
授课内容:一、讲授数据可视化使用matplotlib库可以绘制各种图形
1、使用matplotlib库可以绘制各种图形,其中最基本的是线性图形,主要由线条组成。
2、柱状图也叫作条形图,是一种以长方形的长度为变量的表达图形的统计报告图,由一系列高度不等的纵向条纹表示数据分布的情况,用来比较两个或以上的数值。3、直方图又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型,纵轴表示分布情况。
4、散点图在回归分析中使用较多,它将序列显示为一组点。值由点在图表中的位置表示,类别由图表中的不同标记表示,因此散点图通常用于比较跨类别的聚合数据。
5、极坐标图是指在平面内由极坐标系描述的曲线方程图。极坐标是指在平面内由极点、极轴和极径组成的坐标系。极坐标图用于对多维数组进行直接的对比,多用在企业的可视化数据模型的对比与分析中。
6、饼图用于表示不同分类的占比情况,通过弧度大小来对比各种分类,饼图通过将一个圆饼按照分类的占比划分成多个区块,整个圆饼代表数据的总量,每个区块(圆弧)表示该分类占总体的比例大小。
二、讲授代码实现代码见书课后学习任务布置进一步练习使用matplotlib库可以绘制各种图形主要参考资料《大数据分析》黄源等主编,清华大学出版社第20次课
2学时授课内容上机实验(六)教学目的与要求旨在通过上机实验练习
matplotlib中的可视化应用,通过本课的学习,学生应该掌握如下知识:1)掌握matplotlib库的导入2)掌握matplotlib库的可视化方法3)掌握matplotlib库的各种图形的可视化实现重点难点1)使用Python绘制各种图形
教学进程安排
知识回顾:回顾上一节课的主要内容,包括matplotlib基础实验内容:一、使用matpotlib绘制线性图形
二、使用matpotlib绘制柱状图形三、使用matpotlib绘制条形图形四、使用matpotlib绘制散点图形五、使用matpotlib绘制极坐标图形代码见书课后学习任务布置1、练习绘制各种绘制图形。主要参考资料《大数据分析》黄源等主编,清华大学出版社
第21次课
2学时授课内容数据可视化(四)教学目的与要求旨在简要介绍数据可视化的实现,要求学生应该掌握如下知识:1)认识pyecharts基础2)使用
pyecharts绘制图形重点难点1)pyecharts的安装2)pyecharts的实现
教学进程安排
知识回顾:回顾数据可视化的定义和使用。授课内容:一、讲授数据可视化pyecharts介绍
1、pyecharts
是一个用于生成
Echarts
图表的类库,而Echarts是一个开源的数据可视化JS库,同时也是商业级数据图表,一个纯Javascript的图表库,可以流畅的运行在PC和移动设备上。使用pyecharts可以让开发者轻松的实现大数据的可视化。2、pyecharts的安装在使用pyecharts之前,首先要安装它。使用以下命令来执行安装过程:pipinstallpyecharts二、讲授代码实现代码见书课后学习任务布置使用
pyecharts绘制图形主要参考资料《大数据分析》黄源等主编,清华大学出版社第22次课
2学时授课内容上机实验(七)教学目的与要求旨在通过上机实验练习
matplotlib中的可视化应用,通过本课的学习,学生应该掌握如下知识:1)掌握pyecharts的安装2)掌握pyecharts的可视化方法
重点难点1)pyecharts的安装2)pyecharts的可视化实现
教学进程安排
知识回顾:回顾上一节课的主要内容,包括pyecharts基础实验内容:一、使用pyecharts绘制条形图
二、使用pyecharts绘制仪表图三、使使用pyecharts绘制3D图四、使用pyecharts绘制地图代码见书课后学习任务布置综合练习,使用pyecharts绘制图形。主要参考资料《大数据分析》黄源等主编,清华大学出版社
第23次课
2学时授课内容数据存储教学目的与要求旨在介绍数据存储的基本概念,通过本课的学习,学生应该掌握如下知识:数据存储的基础概念重点难点1)数据存储的类型2)数据存储的方式3)数据存储的核心技术教学进程安排
知识回顾:回顾大数据的定义和应用。授课内容:一、讲授数据存储的概念
1、大数据存储通常是指将那些数量巨大、难于收集、处理、分析的数据集持久化到计算机中。在进行大数据分析之前,首先的步骤就是要将海量的数据存储起来,以便今后的使用。因此,大数据的存储是数据分析与应用的前提。二、讲授数据存储的类型大数据存储的类型主要有以下三种:块存储、文件存储和对象存储。三、讲述数据存储的方式大数据的存储方式主要有分布式存储、NoSQL数据库、NewSQL数据库以及云数据库四种。四、讲述数据存储中的核心技术大数据存储中的核心技术主要有基于MPP架构的新型数据库集群、基于Hadoop的技术扩展以及大数据一体机等课后学习任务布置理解数据存储主要参考资料《大数据分析》黄源等主编,清华大学出版社
第24次课
2学时授课内容数据清洗(一)教学目的与要求旨在介绍数据清洗,学生应该掌握如下知识:1)了解数据清洗的基本概念2)了解数据清洗主要工具。3)了解数据标准化技术与实现
重点难点1)数据清洗的工具
教学进程安排
知识回顾:回顾上一章数据存储,本节课将开展以下内容的讲授。授课内容:一、数据清洗概念数据清洗就是指把“脏数据”彻底洗掉,包括检查数据一致性,处理无效值和缺失值等,从而提高数据质量。在实际的工作中,数据清洗通常占开发过程的50%-70%左右的时间。二、数据清洗原理
数据清洗的原理是利用有关技术如数据仓库、数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据。三、数据清洗工具1)OpenRefine2)Kettle四、数据标准化
课后学习任务布置1、下载并安装OpenRefine与Kettle。
主要参考资料《大数据分析》黄源等主编,清华大学出版社
第25次课
2学时授课内容上机实验(八)教学目的与要求旨在介绍数据清洗的用法,学生应该掌握如下知识:1)掌握openRefine的使用2)掌握Kettle的使用3)掌握Excel的使用重点难点1)掌握OpenRefine的流程2)
掌握Excel的使用
教学进程安排
知识回顾:回顾上一节数据清洗的原理,本节课将开展以下内容的讲授。实验内容:一、运行OpenRefine数据清洗软件,对数据进行查看、清洗并导出数据二、使用Excel进行数据有效性分析三、使用Excel进行数据有效性分析,并清除重复的数据
代码见书
课后学习任务布置1、用Excel进行数据有效性分析,并清除重复的数据。主要参考资料《大数据分析》黄源等主编,清华大学出版社
第26次课
2学时授课内容数据格式与编码技术教学目的与要求旨在介绍安文件格式的基本概念和用法,学生应该掌握如下知识:1)
掌握文件格式2)
掌握数据类型3)
掌握字符编码重点难点1)字符编码
教学进程安排
知识回顾:回顾上一节数据清洗的用法;授课内容:一、文件格式文件格式是指在计算机中为了存储信息而使用的对信息的特殊编码方式,是用于识别内部储存的资料。如文本文件、视频文件、图像文件等。在这些文件中它们功能不同,有的文件用于存储文字信息,有的文件用于存储视频信息,有的文件用于存储图像信息等。二、数据类型
数据类型是指是一个值的集合和定义在这个值集上的一组操作的总称。它的出现是为了把数据分成所需内存大小不同的数据,以便于程序的运行。通常可以根据数据类型的特点将数据划分为不同的类型,如原始类型、多元组、记录单元、代数数据类型、抽象数据类型、参考类型以及函数类型等。在每种编程语言和数据库中都有不同的数据类型。三、字符编码
字符编码也叫作字集码,把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位组或者电脉冲),以便文本在计算机中存储和通过通信网络的传递。常见的例子包括将拉丁字母表编码成摩斯电码和ASCII。
课后学习任务布置理字符编码的各种用法。主要参考资料《大数据分析》黄源等主编,清华大学出版社
第27次课
2学时授课内容Kettle数据清洗与转换(一)教学目的与要求旨在介绍Kettle数据清洗与转换工具的使用,学生应该掌握如下知识:1)
掌握Kettle的工作流程2)
掌握Kettle的应用重点难点1)Kettle的各种用法
教学进程安排
授课内容:
知识回顾:回顾上一节触发器的基本的用法,本节课要求学生掌握以下内容:1)
Kettle的配置2)
Kettle的应用3)
角色管理的用法创建角色修改角色授予角色权限和收回权限删除角色课后学习任务布置练习Kettle数据清洗与转换的用法。主要参考
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 猫课件教学课件
- 绿色传播路径与环境品牌推广-洞察及研究
- 2025广东湛江高新技术产业开发区(坡头区)教育系统招聘教师49人笔试备考试题及答案解析
- 2025广东广州医科大学基础医学院办公室招聘编外人员1人笔试参考题库附答案解析
- 2025广西玉林市福绵区计量和产品质量监控中心招聘见习生5人笔试模拟试题及答案解析
- 猫咪一家人课件
- 猪蹄食品安全知识培训
- 混淆可解释性研究-洞察及研究
- 2025浙江丽水青田县教育局下属事业单位选聘工作人员2人笔试参考题库附答案解析
- 2025四川绵阳长虹美菱中国区营销总部招聘智能交易中心平台产品运维管理岗位1人考试模拟试题及答案解析
- 三基考试题库3
- 河道修防工高级工试题
- 女性生殖脏器
- 保障农民工工资支付协调机制和工资预防机制
- 流体力学的课件
- GB/T 9258.1-2000涂附磨具用磨料粒度分析第1部分:粒度组成
- GB/T 4458.3-2013机械制图轴测图
- GB/T 311.2-2013绝缘配合第2部分:使用导则
- GB/T 13912-2002金属覆盖层钢铁制件热浸镀锌层技术要求及试验方法
- 新录用公务员取消录用审批表
- 重症急性胰腺炎急性反应期液体复苏策略课件
评论
0/150
提交评论