项目一教案6 编写爬虫程序爬取网站数据表

上传人：h*** IP属地：山东上传时间：2026-04-21 格式：DOCX 页数：4 大小：17.19KB 积分：15 举报 版权申诉

全文预览已结束

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

XX学校《大数据应用技术基础》学科教案授课课题编写爬虫程序爬取网站数据表授课老师授课时间周一第1、2节授课课时2课时授课班级XX班班级地址??电脑室教学目标【知识目标】1.理解爬虫程序的基本概念和工作流程。2.掌握使用requests库发送HTTPGET请求获取网页内容的方法。3.熟悉parsel库中Selector对象的使用，能够运用CSS选择器和XPath表达式提取网页中的表格数据。【能力目标】1.能够在IIS服务器上正确发布网站，并通过浏览器访问网站首页。2.能够独立使用PyCharm创建Python项目，并编写简单的爬虫程序爬取网站数据表。3.能够运行爬虫程序并分析输出结果，判断数据爬取是否成功。【素养目标】1.培养学生的自主学习能力和问题解决能力，在实践过程中主动探索解决遇到的技术问题。2.增强学生的团队协作意识，在课堂实操环节中学会与同学交流合作，共同完成任务。3.树立学生的信息安全意识和规范使用网络数据的观念，了解爬虫技术的合法应用边界。教学重点及突破策略教学重点：1.爬虫程序的核心代码编写，包括使用requests库获取网页内容和parsel库提取表格数据。2.CSS选择器和XPath表达式在提取表格数据中的具体应用。3.爬虫程序的运行及结果分析。突破策略：1.通过详细讲解爬虫程序的代码结构和各部分功能，结合实例演示，帮助学生理解核心代码的编写逻辑。2.提供多个简单的HTML表格示例，让学生练习使用不同的CSS选择器和XPath表达式提取数据，加深对两种提取方式的掌握。3.组织学生进行分组实操，教师巡回指导，及时解决学生在运行程序和分析结果过程中遇到的问题，确保学生能够顺利完成任务。教学难点及突破策略教学难点：1.CSS选择器和XPath表达式的灵活运用，尤其是针对不同结构的表格如何准确选取所需数据。2.对爬虫程序运行过程中出现的异常情况（如网页访问失败、数据提取错误等）的处理能力。3.将爬取到的数据进行合理的处理和打印输出，使其格式清晰易读。突破策略：1.系统介绍CSS选择器和XPath表达式的常用语法和规则，通过对比不同表达式的作用效果，帮助学生理解其差异和适用场景。提供复杂结构的表格案例，引导学生逐步分析并写出正确的选择器和表达式。2.在教学中引入常见的异常情况示例，讲解异常处理的基本方法，如添加try-except语句捕获请求异常等，并让学生进行模拟练习，提高应对异常的能力。3.引导学生思考如何对爬取到的原始数据进行清洗和格式化处理，例如去除多余的空格、换行符等，通过实例演示不同的打印输出方式，让学生掌握使结果清晰易读的技巧。教学方法和手段（含信息化技术）教学方法：采用任务驱动法、案例教学法、演示讲解法和分组实操法相结合的方式。首先通过任务引入激发学生的学习兴趣，然后结合具体案例进行代码演示和讲解，最后让学生分组进行实际操作，巩固所学知识。

教学手段：利用多媒体课件进行理论知识讲解；使用PyCharm集成开发环境进行代码编写和演示；借助IIS服务器发布网站供学生访问和爬取数据；通过投影仪展示教学内容和学生操作过程，方便师生互动和问题解答。课程思政元素1.培养学生的工匠精神，引导学生在编写爬虫程序时精益求精，注重代码的规范性和可读性，培养严谨的编程态度。

2.强调网络伦理和法律法规，教育学生在使用爬虫技术时要遵守相关规定，尊重网站的robots协议，不得非法爬取和使用他人数据，树立正确的信息获取和使用观念。

3.激发学生的创新意识，鼓励学生在完成基本任务的基础上，尝试对爬虫程序进行优化和功能扩展，培养创新思维和实践能力。教师教学实施学生学习活动课程引入

通过提问的方式引入本节课的主题，如“同学们在日常生活中是否遇到过需要从网站上获取大量数据的情况？如果手动复制粘贴会非常繁琐，那么有没有更高效的方法呢？”从而引出爬虫技术，激发学生的学习兴趣。接着简要介绍本节课的任务：编写爬虫程序爬取网站数据表。

授课过程

1.讲解爬虫的基本概念和工作原理，让学生了解爬虫是如何从网页中获取数据的。

2.介绍在IIS发布网站的步骤，演示如何将网站文件复制到C:\inetpub\wwwroot目录下，并通过浏览器访问网站首页。

3.详细讲解爬虫程序的代码结构，包括使用requests库发送HTTPGET请求获取网页内容、设置编码、使用parsel库的Selector对象提取表格数据等。重点讲解CSS选择器和XPath表达式的使用方法，结合知识链接中的内容进行举例说明。

4.讲解Python代码的注释方式，强调注释在代码编写中的重要性，要求学生养成良好的注释习惯。

课堂实操内容

1.指导学生启动PyCharm，创建Python项目，并在main.py文件中输入爬虫代码。在学生编写代码过程中，巡回指导，帮助学生解决代码输入错误等问题。

2.引导学生鼠标右击main.py，执行Run'main'运行程序，观察程序输出结果。提醒学生注意结果上方的响应状态码，解释200表示成功访问网站网页。

课堂小结

知识总结

总结本节课学习的主要内容，包括爬虫程序的编写步骤、requests库和parsel库的使用、CSS选择器和XPath表达式的应用以及代码注释的方法。

优秀经验

分享在课堂实操中表现优秀的学生的经验，如代码编写规范、问题解决思路清晰等，鼓励其他学生向他们学习。认真听讲，积极思考教师提出的问题，对爬虫技术产生浓厚的兴趣，明确本节课的学习任务。

专注听讲，理解爬虫的基本概念和工作原理，跟随教师的演示，了解在IIS发布网站的方法。

认真学习爬虫程序代码的每一部分，积极思考CSS选择器和XPath表达式的作用，记录重点知识。对于不理解的地方及时向教师提问。

学习Python代码的注释方式，认识到注释对代码可读性和可维护性的重要性。

按照教师的指导，在PyCharm中创建项目并编写爬虫代码，遇到问题时先尝试自己解决，无法解决的向教师或同学求助。

运行程序后，仔细观察输出结果，结合教师的讲解理解响应状态码的含义，判断数据爬取是否成功。

回顾本节课学习的知识内容，总结自己的学习收获。

认真听取优秀学生的经验分享，反思自己在学习过程中的不足，以便在今后的学习中改进。作业：

应用本节课的例子，在本节课任务的基础上，设计一个有应用内容的页面作品，可以自选主题或升级老师给的主题，内容自行设置。

1.选择一个自己感兴趣的主题，如爬取某在线书店的图书信息表、某电影网站的电影排行榜数据表等。

2.确定需要爬取的数据字段，如图书的名称、作者、价格、评分等。

3.编写爬虫程序爬取所选主题的网站数据表，并对爬取到的数据进行适当的处理和格式化。

4.将爬取结果以清晰的方式打印输出，或者保存到文本文件中。教学反思：

1.在讲解CSS选择器和XPath表达式时，部分学生可能难以快速掌握其语法和使用方法，下次教学可以增加更多的实例练习，让学生通过实际操作加深理解。

2.课堂实操环节中，学生在运行程序时可能会遇到各种问题，如网站访问失败、代码错误等，教师需要更加耐心地进行指导，帮助学生逐一解决问题，确保大部分学

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

项目一教案6 编写爬虫程序爬取网站数据表

文档简介

温馨提示

最新文档

评论

项目一教案6 编写爬虫程序爬取网站数据表

文档简介

温馨提示

最新文档

评论

相关文档