下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
XX学校《大数据应用技术基础》学科教案授课课题编写爬虫程序爬取网页所有td标签授课老师授课时间周一第1、2节授课课时2课时授课班级XX班班级地址??电脑室教学目标【知识目标】1.理解爬虫程序的基本概念及工作流程,掌握使用requests库发送HTTPGET请求获取网页内容的方法。2.熟悉parsel库的功能,学会运用Selector类解析HTML文档,并掌握通过CSS选择器定位table、tr、td等标签的技巧。3.了解Python变量的定义、赋值及应用,掌握Python基本缩进语法在循环结构中的使用规范。【能力目标】1.能够独立在IIS中发布网站,并通过浏览器验证网站发布是否成功。2.具备使用PyCharm创建项目、编写爬虫代码的能力,能够解决代码编写过程中模块导入的问题(如安装requests和parsel库)。3.能够运用所学知识编写爬虫程序爬取网页中的td标签内容,并正确运行程序查看输出结果。【素养目标】1.培养学生对大数据技术的兴趣,激发其主动探索和学习的热情。2.提升学生的问题解决能力,在遇到代码报错、模块缺失等问题时,能积极思考并寻求解决方案。3.树立学生规范编写代码的意识,培养其严谨的逻辑思维和良好的编程习惯。教学重点及突破策略教学重点:1.requests库的使用,包括发送GET请求获取网页内容以及设置响应编码。2.parsel库中Selector类的应用,特别是通过CSS选择器定位td标签的方法。3.Python循环结构结合缩进语法遍历提取到的标签元素。突破策略:1.结合实例演示requests.get()函数的参数和返回值,让学生直观理解如何获取网页内容;通过代码练习,让学生亲自操作设置response.encoding,体会编码设置对中文显示的影响。2.详细讲解parsel库的知识链接内容,结合代码示例,分步骤演示从解析HTML文档到使用CSS选择器定位table、tr、td标签的过程,引导学生跟随操作,加深理解。3.强调Python缩进语法的重要性,通过对比正确和错误的缩进代码示例,让学生明白缩进在区分代码块中的作用;在讲解for循环遍历vtr时,带领学生分析循环体内部代码的缩进要求,确保学生掌握。教学难点及突破策略教学难点:1.在PyCharm中安装requests和parsel库时可能遇到的问题及解决方法。2.理解爬虫程序从发送请求、解析文档到提取标签内容的整体流程,并将各部分知识融会贯通。3.对爬取到的td标签内容进行正确处理和输出,确保结果符合预期。突破策略:1.提前在教学用机上模拟可能出现的模块安装问题,如网络连接失败、权限不足等,并准备好相应的解决方法;在学生操作过程中,巡回指导,及时帮助学生解决安装遇到的问题,对于共性问题进行集中讲解。2.采用流程图的形式展示爬虫程序的整体工作流程,将任务实施的每个步骤与流程中的环节对应起来;在讲解代码时,逐行分析代码的作用,说明各变量之间的关系,帮助学生理清思路,理解各部分知识是如何协同工作的。3.引导学生仔细观察代码参考中打印item2的结果,分析输出内容的结构;鼓励学生尝试对提取到的td标签内容进行进一步处理,如提取文本等,通过实践操作加深对数据提取和输出的理解。教学方法和手段(含信息化技术)教学方法:采用任务驱动法、案例教学法、演示讲解法和实践操作法相结合。以“编写爬虫程序爬取网页所有td标签”为任务主线,通过实际案例演示爬虫程序的开发过程,讲解相关知识点,然后让学生亲自动手实践,完成任务。
教学手段:利用多媒体教学设备展示PPT课件、代码示例和操作步骤;使用PyCharm集成开发环境进行代码编写和调试演示;借助IIS服务器发布网站,供学生进行爬虫测试;通过网络资源提供相关的库文档和学习资料,方便学生课后拓展学习。课程思政元素1.培养学生的规则意识和法律意识,强调在进行网络爬虫操作时,要遵守网站的robots协议,尊重他人的知识产权,不得爬取非法或敏感信息。
2.激发学生的创新精神,鼓励学生在掌握基本爬虫技术的基础上,思考如何将爬虫技术应用于实际生活和学习中,解决实际问题。
3.培养学生的团队协作精神,在实践操作环节,可以组织学生分组讨论、互相帮助,共同解决遇到的问题,体验团队合作的重要性。教师教学实施学生学习活动课程引入通过提问的方式引入本节课的主题,如“同学们,我们在浏览网页时经常会看到各种表格数据,那么如何将这些表格数据自动提取出来呢?”引导学生思考,然后介绍本节课的任务——编写爬虫程序爬取网页所有td标签,激发学生的学习兴趣。授课过程1.讲解爬虫的基本概念和工作流程,让学生对爬虫有一个整体的认识。2.介绍任务实施的第一步:在IIS发布网站。详细说明在资源管理器中打开网站目录C:\inetpub\wwwroot,复制网站文件到该目录的操作步骤,并分享经验:发布网站后,在浏览器访问localhost或,若成功看到网页内容,表示网站发布成功。3.讲解使用PyCharm创建项目的过程,包括执行File/NewProject...,在CreateProject窗口中设置项目目录D:\Pycharm目录,单击“Create”按钮,以及在弹出的OpenProject对话框中单击“ThisWindow”按钮。4.重点讲解爬虫代码的编写:-导入requests库和parsel库中的Selector类,说明导入模块的方法,以及当提示需要导入模块时,如何执行Installpackage操作安装requests和parsel库。-讲解requests.get()函数的使用,包括参数url的设置,以及获取响应对象后设置response.encoding='utf8'来确保中文正常显示,将响应文本赋值给vhtml变量。-介绍使用Selector类解析HTML文档,创建items变量存储解析结果,然后通过items.css('table')定位table标签,赋值给vtable变量;再通过vtable.css('tr')定位tr标签,赋值给vtr变量。-讲解for循环遍历vtr,在循环体中使用item.css('td')定位td标签,并打印输出结果。5.讲解必备知识:Python的缩进语法和变量的用法。通过代码示例说明缩进在表示代码块中的作用,以及变量的赋值、定义和应用,如response、vhtml、items等变量的作用。课堂实操内容指导学生按照任务实施的步骤进行操作:1.让学生在自己的电脑上通过IIS发布网站,并验证发布是否成功。2.引导学生使用PyCharm创建项目,按照代码参考编写爬虫程序,在编写过程中,提醒学生注意模块的导入和安装,以及代码的缩进。3.学生完成代码编写后,指导他们鼠标右击main.py,执行Run'main'运行程序,查看输出结果。4.在学生实操过程中,巡回指导,及时解决学生遇到的问题,如网站发布失败、模块安装不上、代码报错等。课堂小结知识总结:本节课主要学习了编写爬虫程序爬取网页所有td标签的方法,包括在IIS发布网站、使用PyCharm创建项目、编写爬虫代码(涉及requests库发送请求、parsel库解析HTML和定位标签、Python循环和变量的使用等)。重点掌握了requests库和parsel库的基本用法,以及Python缩进语法在代码编写中的应用。优秀经验:1.在发布网站后,及时通过浏览器访问验证发布结果,确保后续爬虫操作有正确的网页来源。2.编写代码时,注意代码的缩进规范,避免因缩进错误导致程序运行失败。3.遇到模块缺失问题时,能够根据提示正确安装所需的库,保证代码的正常运行。课程引入积极思考老师提出的问题,对爬虫技术产生好奇心,明确本节课的学习任务。授课过程1.认真听讲,理解爬虫的基本概念和工作流程,做好笔记。2.跟随老师的讲解,了解在IIS发布网站的步骤和验证方法,记住相关的操作要点和经验分享。3.学习使用PyCharm创建项目的操作流程,熟悉PyCharm的界面和基本操作。4.重点关注爬虫代码的编写过程,理解每一行代码的作用:-学习导入模块的方法,知道当提示模块缺失时如何安装requests和parsel库。-理解requests.get()函数获取网页内容的过程,以及设置响应编码的重要性。-掌握使用Selector类解析HTML文档和通过CSS选择器定位标签的方法,明白vtable、vtr等变量的含义和作用。-理解for循环遍历vtr并提取td标签的逻辑。5.认真学习必备知识,掌握Python缩进语法和变量的用法,能够分析代码中的缩进和变量应用。课堂实操内容1.在老师的指导下,动手在自己的电脑上操作IIS发布网站,并通过浏览器访问验证发布是否成功。2.独立使用PyCharm创建项目,按照代码参考尝试编写爬虫程序,遇到模块导入问题时,根据老师讲解的方法安装相应的库,注意代码的缩进是否正确。3.运行编写好的爬虫程序,观察输出结果,与预期结果进行对比。4.在实操过程中,遇到问题及时向老师或同学请教,积极解决问题,完成任务。课堂小结知识总结:回顾本节课学习的主要内容,梳理爬虫程序编写的步骤和涉及的知识点,加深对requests库、parsel库、Python缩进和变量的理解和记忆。优秀经验:学习和借鉴优秀经验,反思自己在操作过程中存在的问题和不足,为今后的学习和实践积累经验。作业:
应用本节课的例子,在本节课任务的基础上,设计一个有应用内容的页面作品,可以自选主题或升级老师给的主题,内容自行设置。
1.选择一个感兴趣的主题,如电影排行榜、书籍信息列表、天气预报数据等,创建一个包含表格数据的网页,并通过IIS发布。
2.编写爬虫程序爬取自己创建的网页中的td标签内容,要求对爬取到的数据进行简单处理,如提取文本内容并打印输出,或者将数据保存到文本文件中。
3.在程序中添加适当的注释,说明代码的功能和各部分的作用,养成良好的编程习惯。
4.运行程序,确保能够成功爬取并处理数据,记录程序运行过程中遇到的问题及解决方法。教学反思:
1.本节课的教学内容较多,涉及网站发布、PyCharm使用、爬虫代码编写等多个环节,部分学生可能在操作过程中跟不上节奏,需要在今后的教学中合理安排时间,适当增加学生自主操作和练习的时间,确保学生能够充分掌握每个环节的操作。
2.在讲解爬虫代码时,对于requests库和parsel库的部分函数和方法,学生可能理解不够深入,只是机械地模仿代
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 燃气软管安全隐患排查整治方案
- 化学物质性质与变化规律试卷及答案
- 2026年度隐患排查治理药品安全排查整治行动方案
- 无人机测绘失控应急演练脚本
- 室内PPR给排水系统管道安装施工方案
- 牙科医生年度工作总结报告
- 2026年3甲医院招聘题库及答案
- 2026江苏南通紫琅积余城市运营管理服务有限公司招聘3人农业笔试模拟试题及答案解析
- 2026年数字文化产业园区建设模式与产业集聚发展研究
- 2026湖北教师招聘统考鄂州市鄂城区招聘26人农业笔试参考题库及答案解析
- 2025建筑工程聘用合同模板
- 特殊健康状态儿童运动前健康筛查
- CT增强扫描技术操作规范
- 人工智能与机器学习(广东医科大学)知到智慧树网课答案
- 实施指南(2025)《JB-T 12801-2016固定式液压碎石机》
- 金华东阳市人民医院招聘考试真题2024
- 2025年吉林省长春市八年级初中学业水平考试网上阅卷模拟练习生物学、地理(二)-初中地理
- 2025年古镇文化旅游开发项目可行性研究报告
- 养殖场建设项目可行性研究报告范本
- GB/T 7991.6-2025搪玻璃层试验方法第6部分:高电压试验
- 2025年卫生院关于医疗机构高额异常住院费用专项自查报告
评论
0/150
提交评论