版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ADDINCNKISM.UserStyle教案首页课序20学时2周次教学内容第11章数据可视化基础(数据可视化概述、pyplot绘图流程、常用绘图函数)教学目标知识理解数据可视化的概念、作用、应用场景;掌握matplotlib.pyplot库绘图通用流程;熟悉常用绘图函数,明确四类统计图(柱状图、直方图、饼图、散点图)的适用场景与区别。能力能够独立安装导入matplotlib库,配置中文显示、解决乱码问题;能够熟练编写基础绘图代码,修改图表标题、坐标轴、颜色、标签;能够根据数据类型,自主选择合适图表完成可视化绘制。素养培养学生数据思维,学会用图表直观表达数据规律;提升审美意识,制作规范、简洁、美观的可视化图表;培养数据分析能力,能够读懂图表、分析数据特征。教学重点pyplot通用绘图流程,图表修饰函数;柱状图、直方图、饼状图、散点图绘制函数;Python图表中文乱码解决方案。教学难点区分柱状图与直方图本质区别;根据业务数据类型,合理选择统计图类型;图表参数调优:颜色、图例、刻度、布局美化。教学方法手段讲授法+案例导入法+任务驱动法+演示教学法教学组织方式1.内容导入2.知识点讲解3.案例与纠错4.小结5.作业课后反思1. 是否大部分学生能够区分柱状图与直方图,合理选择图表类型;2. 学生对参数调优、图表美化掌握程度如何。教学环节课程引入新课讲解课堂讨论每课小结布置作业时间分配(以分钟计算)575532(以2课时为单元)教学设计一、内容导入1.情景导入教师展示两组数据:第一组为纯数字表格(枯燥、难懂、不易观察规律);第二组为可视化图表(清晰直观、高低分明、趋势明显)。对比提问学生:哪一种表达方式更容易看懂数据?2.生活案例引入列举生活可视化场景:疫情感染人数统计图、股票波动曲线图、学生成绩分布图、行业占比饼图。说明:数据可视化是数据分析最后一步,也是最直观的展示方式。3.新课引出本节课学习Python最主流可视化库matplotlib,重点掌握pyplot模块,学会绘制四类常用统计图,实现数据一键可视化。。二、知识点讲解(一)数据可视化概述1.数据可视化概念数据可视化是指将抽象、枯燥、大量的原始数据,通过图形、图表、图像的方式直观展示,使人快速读懂数据分布、大小、占比、趋势的技术手段。通俗理解:把数字变成图片。2.可视化优势直观清晰:快速分辨数据大小、高低、集中程度;便于分析:挖掘数据规律、极值、分布特征;展示美观:报告、论文、作业、企业报表通用。3.主流Python可视化库matplotlib:底层基础库,适合绘制静态基础图表,本节课主讲;seaborn:美化高级图表;pyecharts:交互式网页图表。入门优先掌握matplotlib.pyplot。(二)pyplot绘图流程1.库安装与导入安装命令:pipinstallmatplotlib。导入固定写法:importmatplotlib.pyplotasplt。讲解别名设置原因:简化代码、行业通用规范。2.中文乱码问题(本节课重点)默认matplotlib不支持中文,会出现方框乱码。课堂给出固定两行万能代码,要求学生必须背诵:设置中文字体、解决负号显示异常。plt.rcParams["font.sans-serif"]=["SimHei"]plt.rcParams["axes.unicode_minus"]=False3.通用五步绘图流程准备数据:使用列表、序列存放x轴、y轴数据;创建画布:plt.figure()设置画布大小、尺寸;绘制图表:调用绘图函数(bar、hist、pie、scatter);图表修饰:标题、坐标轴、图例、颜色、网格;展示保存:plt.show()显示图表。(三)常用绘图函数教师汇总本节课全部基础修饰函数,所有图表通用,要求学生熟记:plt.title():设置图表标题;plt.xlabel():设置x轴名称;plt.ylabel():设置y轴名称;plt.legend():显示图例;plt.grid():显示网格线;plt.figure(figsize=(a,b)):设置画布大小。(四)四类统计图专项讲解(15分钟)1.柱状图bar()适用场景:对比不同类别数据大小。例如:各班人数、不同商品销量、学生单科成绩。特点:柱子宽度固定、彼此分开,用于分类对比。2.直方图hist()适用场景:观察连续数据分布规律。例如:身高分布、成绩分布、收入分布。特点:柱子紧密相连、无间隙,用于统计区间频数。3.饼状图pie()适用场景:展示各类别占总体百分比。例如:消费占比、行业份额、男女比例。特点:圆形展示、直观体现占比关系。4.散点图scatter()适用场景:观察两组数据相关性。例如:身高与体重、温度与销量。特点:以点分布展示数据关联程度。5.重难点辨析(课堂强调)柱状图:分类数据、柱子有空隙;直方图:连续数据、柱子无空隙,这是考试、作业最易混淆考点。(五)代码演示教师选取最简单、通俗易懂、适合课堂演示的四套极简代码,分别演示四张图,学生同步抄写。1.演示一:柱状图(班级成绩对比)importmatplotlib.pyplotasplt#解决中文乱码plt.rcParams["font.sans-serif"]=["SimHei"]plt.rcParams["axes.unicode_minus"]=False#1.准备数据name=["一班","二班","三班","四班"]score=[85,92,78,88]#2.绘制柱状图plt.bar(name,score,color="skyblue")#3.修饰plt.title("各班平均成绩柱状图")plt.xlabel("班级")plt.ylabel("平均分")#4.展示plt.show()2.演示二:直方图(学生成绩分布)importmatplotlib.pyplotaspltplt.rcParams["font.sans-serif"]=["SimHei"]plt.rcParams["axes.unicode_minus"]=Falsescore=[55,66,72,80,85,91,77,65,88,95]plt.hist(score,bins=5,color="orange")plt.title("学生成绩分布直方图")plt.xlabel("分数区间")plt.ylabel("人数")plt.show()3.演示三:饼状图(消费占比)importmatplotlib.pyplotaspltplt.rcParams["font.sans-serif"]=["SimHei"]plt.rcParams["axes.unicode_minus"]=Falsedata=[200,500,300,150]label=["餐饮","购物","住宿","交通"]plt.pie(data,labels=label,autopct="%1.1f%%")plt.title("个人月度消费占比")plt.show()4.演示四:散点图(身高体重关系)importmatplotlib.pyplotaspltplt.rcParams["font.sans-serif"]=["SimHei"]plt.rcParams["axes.unicode_minus"]=Falseheight=[165,170,175,180,168]weight=[55,60,68,75,58]plt.scatter(height,weight,color="red")plt.title("身高体重散点图")plt.xlabel("身高")plt.ylabel("体重")plt.show()5.教师演示说明教师逐行讲解:中文配置、数据准备、绘图函数、修饰参数;重点对比柱状图与直方图运行效果差异,强调参数含义,演示颜色修改、标签修改实时变化效果。四、内容小结1.知识总结数据可视化:将原始数据转化为图形,直观展示数据特征;pyplot五步流程:准备数据—创建画布—绘图—修饰—展示;通用修饰函数:标题、坐标轴、图例、网格;四类图表:柱状图对比、直方图分布、饼图占比、散点相关性。2.重难点复盘重点掌握绘图流程、中文乱码代码、四种基础绘图函数;难点为柱状图与直方图区分、图表合理选型。五、布置作业1.基础作业(必做)手写背诵:四类统计图名称、函数、适用场景;独立编写柱状图代码,绘制五大商品销量对比图。2.提升作业(选做)自定义一组考试成绩数据,绘制直方图并分析成绩分布;修改饼图参数,实现图表分离突出展示效果。3.拓展思考思考:如果需要在一张画布上绘制两张图表,应当如何修改代码?课堂组织【教师活动】图片对比导入,启发学生思考图表优势;板书总结四类图表适用场景,辨析易混知识点;投屏逐行编写代码,演示中文乱码解决方案;强调通用绘图流程,固化学生编码思维;举例区分柱状图与直方图,突破教学难点。【学生活动】听课笔记:记录四类图表适用场景、通用绘图流程;实操复刻:依次抄写四段代码,成功运行生成四张图表;自主修改:修改颜色、标题、数据,观察图表变化;对比区分:自行对比柱状图、直方图视觉区别;问题整理:记录报错、乱码、弹窗问题,课堂解决。ADDINCNKISM.UserStyle教案首页课序21学时2周次教学内容第10章网络爬虫基础(xpath简介、lxml库使用、反爬解决方案)教学目标知识了解XPath概念、作用、语法特点,理解路径表达式匹配原理;掌握lxml库功能、安装方式、文档解析流程;认识网站反爬虫机制,掌握入门级反爬解决方案。能力能够熟练书写常用XPath路径语法,定位HTML标签节点;能够使用lxml库结合XPath完成网页数据精准解析;能够针对基础反爬手段,添加请求头、延时访问完成简易绕过。素养培养学生结构化数据思维,强化爬虫合规意识,培养代码优化思维,养成规范、稳定、低频率的爬虫编写习惯。教学重点XPath常用路径语法:绝对路径、相对路径、属性匹配;lxml库解析网页、转换文档、提取数据的代码流程;最常用三种简易反爬解决方案:请求头伪装、延时休眠、访问频率控制。教学难点XPath常用路径语法:绝对路径、相对路径、属性匹配;lxml库解析网页、转换文档、提取数据的代码流程;最常用三种简易反爬解决方案:请求头伪装、延时休眠、访问频率控制。教学方法手段讲授法、案例导入法、演示教学法、任务驱动法、启发提问法教学组织方式1.内容导入2.知识点讲解3.案例与纠错4.小结5.作业课后反思1.正则表达式理解难度是否偏高,是否需要增加基础案例;2.课堂实操问题汇总,优化下节课授课节奏与重难点讲解方式教学环节课程引入新课讲解课堂讨论每课小结布置作业时间分配(以分钟计算)575532(以2课时为单元)教学设计一、内容导入1.复习回顾教师提问复盘上节课知识点:如何使用requests获取网页源码?正则表达式提取数据的优缺点?引导学生回答:正则写法复杂、可读性差、嵌套标签难以精准匹配、容易匹配多余内容。2.问题导入展示复杂网页源码:多层div嵌套、大量冗余标签。提出问题:如果需要精准提取某一个区块内的文本,正则表达式难度极大,有没有专门针对HTML结构化网页的解析语法?3.新课引入引出本节课两大核心工具:XPath(网页定位语法)+lxml库(解析工具),同时讲解实际爬取中经常遇到403拦截、访问超时等问题,引入反爬基础解决方案,为后续进阶爬虫做铺垫。二、知识点讲解(一)XPath简介1.XPath基本概念XPath全称XML路径语言,专门用于定位XML、HTML文档中的节点标签。通俗解释:XPath相当于网页源码的“定位导航器”,可以通过层级路径直接找到指定标签,无需复杂模糊匹配。相较于正则表达式,XPath更适合结构化网页,语法简洁、可读性强、定位精准。2.HTML节点关系教师通俗讲解节点关系:网页所有标签构成树形结构,包含父节点、子节点、同级节点。例如html为根节点,body为html子节点,div为body子节点。XPath依靠节点层级实现精准定位。3.XPath常用语法(课堂必背)/:绝对路径,从根节点开始匹配;//:相对路径,全局搜索任意位置标签(最常用);@:根据属性定位,如@class、@id;text():获取标签内部文本内容;[]:条件筛选,限定标签属性或位置。4.基础语法示例//div:匹配页面中所有div标签;//div[@class="box"]:匹配class为box的div标签;//a/text():提取a标签内部文字。(二)lxml库使用1.lxml库介绍lxml是Python高性能网页解析库,解析速度快、容错性高,能够自动修复不规范HTML标签,是配合XPath的专用解析库。明确告知学生:lxml+XPath是爬虫行业主流搭配,比正则更适合网页解析。2.库安装与环境说明安装命令:pipinstalllxml。机房常见报错:安装编译失败,给出解决方案:更换国内镜像源、升级pip。强调lxml是第三方库,每次使用必须手动导入。3.lxml解析网页完整流程导入lxml.etree模块;将网页字符串源码转换为可解析的HTML文档对象;使用xpath()方法书写路径表达式;循环提取、保存目标数据。4.重点方法精讲etree.HTML():将网页源码转为树形结构,自动补全残缺标签;html.xpath("路径表达式"):执行定位,返回列表格式数据。5.编码问题处理讲解中文乱码原因:网页编码与程序编码不一致。解决方案:请求阶段手动设置encoding、lxml解析时忽略编码错误,养成编码调试习惯。(三)反爬解决方案1.反爬虫机制产生原因网站为保护服务器、防止恶意高频访问、避免数据被盗,设置防护机制。常见现象:访问返回403、频繁访问封禁IP、页面空白无数据。教师强调:反爬不是禁止学习爬虫,是禁止恶意爬虫。2.三大简易反爬方案(入门必掌握)请求头伪装(最基础):添加User-Agent模拟浏览器,屏蔽基础爬虫检测;延时休眠访问:导入time库,time.sleep(3),降低访问频率,模拟人浏览节奏;简单IP限制规避:单次程序运行不要循环高频请求,减少短时间访问次数。(四)代码演示(20分钟)1.演示目标使用requests获取网页、lxml+XPath精准提取网页超链接文本,同时加入反爬手段(请求头+延时),实现稳定爬虫案例。2.完整课堂演示代码importrequestsfromlxmlimportetreeimporttime#1.配置请求地址与请求头(反爬手段1:伪装浏览器)url=""headers={"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36"}#2.延时休眠(反爬手段2:降低访问频率)time.sleep(2)#3.发送网络请求response=requests.get(url=url,headers=headers)response.encoding="utf-8"#4.lxml解析网页html=etree.HTML(response.text)#5.XPath语法:精准提取页面所有超链接文字link_list=html.xpath("//a/text()")href_list=html.xpath("//a/@href")#6.遍历打印数据print("=====网页链接提取结果=====")forlink,hrefinzip(link_list,href_list):print(f"链接文字:{link},链接地址:{href}")3.对比演示教师演示:不添加请求头、不延时,短时间多次请求,观察访问卡顿、拦截现象,对比优化前后爬虫稳定性,加深学生对反爬的理解。三、内容小结(10分钟)1.知识总结XPath:网页精准定位语法,依靠节点层级、属性筛选标签,优于正则表达式;lxml库:高性能解析库,配合XPath完成结构化数据提取,自动修复网页代码;基础反爬:请求头伪装、延时休眠、控制频率,保障爬虫稳定运行。2.重难点复盘重点掌握相对路径//、文本提取text();难点为节点层级判断、自定义XPath路径编写;必须养成爬虫加请求头、加延时的编码习惯。四、布置作业(5分钟)1.基础作业(必做)默写5种常用XPath语法符号并标注含义;复刻课堂代码,更换公开网页,使用XPath提取页面图片链接。2.提升作业(选做)自主编写代码,添加3秒延时,爬取网页指定区块文本;总结本节课三种反爬手段的适用场景。3.拓展思考思考:为什么有些网页添加请求头后依旧无法访问?除了本节课反爬手段,还有哪些?课堂组织【教师活动】复习提问导入,对比正则优缺点引出XPath;板书绘制HTML节点树,通俗易懂讲解层级关系;投屏演示XPath语法、lxml代码编写,实时运行调试;展示无反爬措施报错案例,讲解拦截原理;强调爬虫合规,禁止恶意高频爬取网站数据。【学生活动】听课记录:熟记XPath基础符号、lxml使用流程;实操复刻:完整抄写课堂代码,成功运行提取链接;自主修改:改写XPath路径,尝试提取网页其他标签内容;问题总结:记录报错,整理反爬优化技巧。ADDINCNKISM.UserStyle教案首页课序19学时2周次教学内容第11章数据可视化基础(Seaborn和词云)教学目标知识了解Seaborn库特点、优势、与matplotlib区别;熟记Seaborn八大分类图表原理、特征、适用场景;掌握wordcloud词云生成原理、图片生成流程与参数设置。能力能够独立导入seaborn库,设置美化样式,绘制高级统计图表;能够根据数据特征灵活选择箱线图、热力图、回归图等专业图表;能够自主配置词云参数,生成自定义文字词云图片。素养培数据审美观,制作规范化、美观化数据分析图表;培养数据洞察能力,通过图表挖掘数据隐藏规律;教学重点Seaborn库基础语法、绘图风格设置、通用绘图流程;八大分类图表的函数语法、适用场景、核心参数;Wordcloud词云制作流程、字体、尺寸、掩码图片配置。教学难点区分箱线图、琴形图、散点图的数据表达差异;理解热力图相关性矩阵、回归图拟合原理;词云中文乱码解决、图片生成异常排查。教学方法手段讲授法+案例导入法+任务驱动法+演示教学法教学组织方式1.内容导入2.知识点讲解3.案例与纠错4.小结5.作业课后反思1. 是否大部分学生能够区分柱状图与直方图,合理选择图表类型;2. 学生对参数调优、图表美化掌握程度如何。教学环节课程引入新课讲解课堂讨论每课小结布置作业时间分配(以分钟计算)575532(以2课时为单元)教学设计一、内容导入1.复习回顾教师提问:上节课使用matplotlib绘制的图表有什么缺点?学生回答:颜色单调、样式简陋、代码繁琐、无专业配色、不适合数据分析报告。2.对比导入教师投屏展示两张图表:左侧matplotlib原生图表,右侧seaborn精美图表。直观对比:seaborn自带配色、网格、渐变、美化样式,专门用于学术数据分析、科研绘图。3.新课引入本节课学习高阶可视化工具:Seaborn专业统计图库,一次性掌握8种数据分析常用图表;最后学习趣味可视化——WordCloud词云图,实现文字艺术可视化。二、知识点讲解(一)Seaborn库基础概述1.Seaborn介绍Seaborn是基于matplotlib封装的高级可视化库,专门用于统计数据分析。通俗理解:matplotlib是草稿纸,seaborn是专业画板。其自带高级配色、美化主题、统计算法,代码简洁、图表美观。2.库安装与基础设置安装命令:pipinstallseaborn。常用固定代码:sns.set()设置美化样式,一键优化图表底色、网格、字体。3.数据要求Seaborn适配表格型结构化数据,支持列表、数组、DataFrame,本节课采用简单模拟数据,降低学生理解难度。(二)Seaborn八大分类图表精讲教师逐个讲解图表功能、适用场景、核心作用,全部通俗易懂,适合本科生记忆背诵。1.分类散点图scatterplot最基础分布图,在坐标轴中以点状展示数据分布。作用:观察两组变量之间离散分布情况。相比于matplotlib,seaborn散点图自带颜色区分、大小分层,适合多类别对比。2.箱线图boxplot(重点)数据分析高频图表,外形为矩形箱体。功能:展示数据中位数、四分位数、最大值、最小值、异常值。课堂通俗解释:专门用来找异常数据、剔除极端值,常用于成绩分析、薪资分析、检测误差数据。3.琴形图violinplot外形类似小提琴轮廓,结合箱线图+密度图。作用:不仅能看出中位数,还能看出数据集中密集区域。适合展示人群身高、体重、消费密集分布,比箱线图更加细腻。4.柱状图barplotseaborn美化版柱状图,默认自带误差线、渐变配色。用于分类数据均值对比,例如不同行业平均薪资、不同班级平均成绩。5.计数图countplot专门统计类别出现次数,无需手动统计数据。作用:自动统计某一列数据出现频次,例如统计男女人数、学历人数、商品购买次数。区别:柱状图需要手动给数值,计数图自动计数。6.分组关系图catplot多功能组合图,可自由切换柱状、散点、箱线样式,支持多维度分组对比。适合多条件数据分析,例如:不同性别、不同地区、不同年龄的数据分层展示。7.热力图heatmap(重难点)颜色深浅代表数据大小,方格矩阵样式。核心用途:分析数据相关性,常用于相关性矩阵、热度分布、销量热度。颜色越深相关性越高,是数据分析、机器学习必备图表。8.回归图regplot自动绘制散点+拟合直线,自动计算回归趋势。作用:判断变量线性相关趋势,例如身高越高体重是否一定增加,适合简单数据预测分析。(三)WordCloud词云图1.词云概念词云是将文本词汇按照出现频率生成大小不一的文字艺术图片,高频词汇字体更大、颜色更深,直观展示文本关键词。常用于文案分析、舆情分析、论文关键词提取。2.库安装与中文问题安装命令:pipinstallwordcloud。词云最大难点:默认不识别中文,需要手动导入中文字体文件,否则中文乱码成方框。课堂给出固定中文配置代码。3.核心参数font_path:设置中文字体路径;width、height:设置图片宽高;background_color:设置背景颜色;generate():加载文本生成词云;to_file():保存图片到本地。(四)代码演示教师选取最简课堂演示代码,代码简短、无复杂数据,学生一键运行,便于课堂快速上手。1.Seaborn常用图表通用演示(精简示例)importseabornassnsimportmatplotlib.pyplotasplt#中文设置plt.rcParams["font.sans-serif"]=["SimHei"]plt.rcParams["axes.unicode_minus"]=False#开启美化样式sns.set()#模拟简单数据x=[1,2,3,4,5,6]y=[12,15,18,11,20,16]#1.散点图sns.scatterplot(x=x,y=y)plt.title("散点图演示")plt.show()#2.箱线图sns.boxplot(y=y)plt.title("箱线图异常值检测")plt.show()#3.热力图(相关性矩阵)importnumpyasnpdata
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 施工方案变更怎么写(3篇)
- 暗涵改造施工方案(3篇)
- 桥梁钢围堰施工方案(3篇)
- 水果餐吧营销方案(3篇)
- 泸州赛事活动策划方案(3篇)
- 渔具助力活动方案策划(3篇)
- 特价品营销方案(3篇)
- 社区信访应急处置预案(3篇)
- 篮球社安全应急预案(3篇)
- 茶壶刻字活动策划方案(3篇)
- 2026年初级会计职称(初级会计实务)考试题及解析
- 云南省2025年普通高中学业水平选择性考试生物含答案详解及试卷分析
- 幼儿园小班语言《黑脸小白羊》课件
- 2025重庆水务环境集团校园招聘笔试历年参考题库附带答案详解
- 设备搬迁及安装方案
- 西门子MAXUM II在线色谱简易操作技术手册
- 2025年贵州省委党校在职研究生招生考试(政治经济学原理)历年参考题库含答案详解(5卷)
- 多发性脑梗死课件
- 国企房屋租赁管理办法
- 储备土地巡查管理办法
- 上海市黄浦区2025年物理高二下期末统考试题含解析
评论
0/150
提交评论