项目二教案5 爬取数据表保存在xlsx文件_第1页
项目二教案5 爬取数据表保存在xlsx文件_第2页
项目二教案5 爬取数据表保存在xlsx文件_第3页
项目二教案5 爬取数据表保存在xlsx文件_第4页
项目二教案5 爬取数据表保存在xlsx文件_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

XX学校《大数据应用技术基础》学科教案授课课题爬取数据表保存在xlsx文件授课老师授课时间周一第1、2节授课课时2课时授课班级XX班班级地址??电脑室教学目标【知识目标】

1.理解网页爬虫的基本概念和工作流程。

2.掌握使用requests库发送HTTP请求获取网页内容的方法。

3.掌握使用BeautifulSoup库解析HTML文档并提取表格数据的技巧。

4.掌握使用openpyxl库创建Excel文件并将提取的数据写入其中的方法。

【能力目标】

1.能够独立在IIS服务器上发布网站。

2.能够编写简单的Python爬虫程序,从指定网页中爬取表格数据的前10行记录。

3.能够将爬取到的数据正确保存到指定路径的xlsx文件中。

4.能够对爬虫程序进行简单修改,实现对特定列数据的提取。

【素养目标】

1.培养学生的数据分析思维和解决实际问题的能力。

2.提升学生的编程实践能力和自主学习能力。

3.培养学生严谨的代码编写习惯和调试能力。

4.树立学生的数据安全和网络伦理意识。教学重点及突破策略教学重点:

1.使用requests库获取网页内容。

2.使用BeautifulSoup库解析HTML并提取表格数据。

3.使用openpyxl库将数据写入Excel文件。

突破策略:

1.通过演示和实例讲解,使学生理解各库的基本用法和参数含义。

2.提供完整的参考代码,引导学生逐行分析代码功能,加深理解。

3.组织学生进行分组练习,针对重点内容进行反复实操,教师巡回指导,及时解决学生遇到的问题。教学难点及突破策略教学难点:

1.BeautifulSoup库中find、find_all等方法的灵活运用,准确提取所需表格数据。

2.对HTML结构的理解,特别是表格标签(table、tr、td)的层级关系。

3.程序中可能出现的异常处理(如网页请求失败、表格未找到等)。

突破策略:

1.展示网页的HTML源代码,结合浏览器开发者工具,帮助学生分析表格的结构,明确数据所在的标签位置。

2.设计不同难度的提取任务,从简单的提取所有行到提取特定行、特定列,循序渐进地引导学生掌握提取技巧。

3.在教学中引入简单的异常处理示例,如使用try-except语句捕获请求异常,增强学生的程序健壮性意识。教学方法和手段(含信息化技术)1.讲授法:讲解爬虫的基本原理、相关库的使用方法及任务实施步骤。

2.演示法:通过PyCharm集成开发环境现场演示代码编写、运行过程以及IIS发布网站的操作。

3.任务驱动法:以“爬取数据表保存在xlsx文件”为核心任务,引导学生完成从网站发布到数据爬取再到文件保存的全过程。

4.实践操作法:学生在电脑室独立完成任务实施和拓展练习,教师进行个别指导。

5.信息化技术手段:利用多媒体课件展示教学内容,使用PyCharm作为编程工具,借助浏览器开发者工具辅助分析网页结构,通过IIS服务器发布测试网站。课程思政元素1.数据安全与伦理教育:强调在进行网络爬虫时,应遵守网站的robots协议,尊重数据所有者的权益,不得爬取涉及隐私、商业机密等敏感信息,培养学生的网络道德和法律意识。

2.工匠精神:引导学生在编写代码时,追求代码的规范性、可读性和高效性,培养严谨细致、精益求精的工匠精神。

3.创新意识:通过任务拓展环节,鼓励学生尝试修改代码,实现不同的数据提取需求,激发学生的创新思维和探索精神。

4.团队协作:在分组练习时,培养学生的沟通协作能力,学会互相学习、共同解决问题。教师教学实施学生学习活动课程引入

通过提问的方式导入新课:“同学们,我们在日常生活中会接触到大量的网页数据,比如电商平台的商品信息、新闻网站的文章列表等,那么如何将这些网页上的数据提取出来并保存到本地文件中呢?”引出本节课的主题——爬取数据表并保存到xlsx文件。同时,简要介绍本任务的重要性,它是大数据采集的基础环节之一。

授课过程

1.讲解任务分析:详细介绍本次任务的三个步骤,即IIS发布网站、浏览器浏览网站首页、编写爬虫程序爬取数据并保存。

2.演示IIS发布网站:step-by-step演示如何在资源管理器中打开网站目录C:\inetpub\wwwroot,并将网站文件复制到该目录下,完成网站发布。

3.讲解爬虫相关库:介绍requests库用于发送HTTP请求、BeautifulSoup库用于解析HTML、openpyxl库用于操作Excel文件。分别说明各库的安装方法(如使用pipinstall命令)和主要功能。

课堂实操内容

1.指导学生启动PyCharm,创建Python项目,并在main.py文件中输入参考代码。逐行解释代码的作用,如发送GET请求获取网页内容、设置编码、使用BeautifulSoup解析、创建Workbook对象、查找表格及行数据、将数据写入表格并保存文件。

2.引导学生运行程序,检查D:/out.xlsx文件是否生成以及内容是否正确。若出现问题,帮助学生排查错误,如URL是否正确、文件路径是否存在、库是否安装等。

3.讲解任务拓展:展示拓展任务1和拓展任务2的代码,分析其与基础任务代码的区别,即提取数据列的范围不同(cells[0:2]和cells[0]、cells[4])。指导学生理解并运行拓展代码,观察生成的out.xlsx文件数据变化,体会如何提取特定列数据。

课堂小结

(1)知识总结

回顾本次课学习的主要内容:IIS网站发布的基本操作、requests库获取网页、BeautifulSoup库解析HTML提取表格数据、openpyxl库写入Excel文件的方法。强调各步骤的关键点和注意事项。

(2)优秀经验

邀请操作较快、完成较好的学生分享其学习经验和操作技巧,如如何快速定位HTML元素、如何高效调试代码等,供其他同学学习借鉴。课程引入

积极思考教师提出的问题,回顾已有的网页浏览经验,对数据提取产生兴趣,明确本节课的学习目标。

授课过程

1.认真听讲任务分析,了解本次任务的具体要求和实施步骤。

2.观察教师演示IIS发布网站的操作,记录关键步骤和注意事项。

3.学习爬虫相关库的知识,记录各库的功能和基本使用方法,如有疑问及时向教师提出。

课堂实操内容

1.按照教师的指导,启动PyCharm,创建Python项目,并在main.py文件中输入参考代码。在输入过程中,结合教师的讲解,理解每一行代码的含义和作用。

2.运行程序,检查D:/out.xlsx文件的生成情况和内容。若程序出错,尝试根据错误提示进行排查,或向教师、同学求助。

3.阅读并理解拓展任务的代码,运行后对比不同代码生成的Excel文件数据,思考如何根据需求修改代码来提取特定列的数据。积极动手尝试修改代码,体验编程的灵活性。

课堂小结

(1)知识总结

跟随教师一起回顾本节课的知识点,梳理知识脉络,巩固所学内容。

(2)优秀经验

认真听取同学分享的优秀经验,学习他人的优点,反思自己在学习过程中存在的不足,记录有用的学习技巧。作业:

应用本节课的例子,在本节课任务的基础上,设计一个有应用内容的页面作品,可以自选主题或升级老师给的主题,内容自行设置。

1.主题选择:可以选择爬取学校通知公告列表、某图书网站的图书信息列表、某招聘网站的职位信息列表等(确保所选网站允许爬虫且内容合法合规)。

2.网站准备:如果选择自定义主题,需自行准备或搭建一个包含表格数据的测试网站(可使用本地HTML文件模拟)。

3.爬虫实现:编写Python爬虫程序,爬取所选网页中表格的至少15行数据(或根据实际情况确定合理行数)。

4.数据处理:对爬取到的数据进行简单处理,如只提取部分关键列(至少3列),或对数据进行去重、格式转换等。

5.文件保存:将处理后的数据保存到指定路径(如D:/作业/自定义主题数据.xlsx),确保文件格式正确,数据完整。

6.文档说明:简要说明所选主题、爬取的网站URL(或本地文件路径)、数据内容及处理方式,并附上爬虫程序代码和生成的Excel文件。教学反思:

1.学生对爬虫原理的理解程度:在教学过程中,部分学生可能对HTTP请求、HTML解析等概念理解不够深入,导致在代码编写时遇到困难。后续教学中应加强对基础概念的讲解,可通过动画、流程图等更直观的方式帮助学生理解。

2.实操环节的时间分配:由于学生编程水平存在差异,部分学生在代码输入和调试环节花费时间较多,可能导致拓展任务无法充分完成。下次课可以适当调整时间分配,或提前将参考代码发给学生,让学生有更多时间专注于理解和修改代码。

3.异常情况的处理教学:本次课对程序异常处理的讲解较少,学生在遇到网页请求失败、文件路径错误等问题时,可能不知道如何解决。未来教学中应增加异常处理的内容,提高学生程序的健壮性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论