项目一教案3 编写爬虫程序爬取网页所有div标签_第1页
项目一教案3 编写爬虫程序爬取网页所有div标签_第2页
项目一教案3 编写爬虫程序爬取网页所有div标签_第3页
项目一教案3 编写爬虫程序爬取网页所有div标签_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

XX学校《大数据应用技术基础》学科教案授课课题编写爬虫程序爬取网页所有div标签授课老师授课时间周一第1、2节授课课时2课时授课班级XX班班级地址??电脑室教学目标【知识目标】1.理解HTML中div标签的定义、作用及基本属性。2.掌握Python爬虫的基本流程,包括发送HTTP请求、获取网页内容、解析HTML文档。3.熟悉BeautifulSoup库的基本使用方法,特别是find_all()方法用于查找特定标签。【能力目标】1.能够独立在IIS服务器上发布静态网站。2.能够使用PyCharm开发环境,并正确安装所需的第三方库(如beautifulsoup4)。3.能够编写简单的爬虫程序,利用BeautifulSoup库爬取网页中指定class的div标签内容并输出。【素养目标】1.培养学生的编程思维和问题解决能力,能够分析任务需求并转化为实际代码。2.提升学生的信息素养,了解数据获取的基本方法,树立数据安全和合法使用意识。3.激发学生对大数据技术的兴趣,培养其自主学习和探究精神。教学重点及突破策略教学重点:1.BeautifulSoup库的安装与基本使用,特别是find_all()方法的参数设置和返回结果处理。2.爬虫程序的核心逻辑:发送请求、获取响应、解析HTML、提取div标签。3.理解HTML页面结构,能够识别目标div标签及其属性(如class="card")。突破策略:1.采用演示教学法,教师逐步演示BeautifulSoup库的安装过程和find_all()方法的具体用法,并配合简单示例帮助学生理解。2.将爬虫程序分解为多个步骤(请求、响应、解析、提取),分阶段讲解和练习,使学生掌握每个环节的关键代码。3.提供实际的网页案例(如图1-15所示的网站首页),引导学生查看网页源代码,识别div标签的结构和属性,增强直观认识。教学难点及突破策略教学难点:1.当PyCharm提示“Unresolvedreference'bs4'”时,如何正确安装beautifulsoup4库。2.理解response.encoding='utf8'的作用,确保网页内容正确解码,避免中文乱码问题。3.对find突破策略:1.详细演示安装beautifulsoup4库的步骤(如图1-16所示),包括如何通过PyCharm的提示进行安装,以及手动通过pip命令安装的方法,并强调安装成功的提示(如图1-17所示)。2.讲解网页编码的基本概念,通过对比设置encoding前后的效果,让学生理解其重要性,并在示例代码中明确标注该语句。3.结合“知识链接”中对div标签和find_all()方法的解释,通过修改class_参数的值(如尝试不同的class名称),让学生观察输出结果的变化,加深对参数作用的理解。教学方法和手段(含信息化技术)1.讲授法:讲解HTMLdiv标签、爬虫基本原理、BeautifulSoup库等理论知识。课程思政元素1.法治意识:强调网络爬虫的合法性,引导学生遵守法律法规,尊重网站的robots协议,不得爬取未经授权的敏感信息或进行恶意爬取行为。教师教学实施学生学习活动课程引入提问:同学们在浏览网页时,是否想过如何获取网页中的特定信息?例如,如何批量获取一个招聘网站上的职位信息卡片?引出本节课的主题——编写爬虫程序爬取网页所有div标签。授课过程1.讲解任务分析:明确本次任务是爬取网站数据表,包括在IIS发布网站、浏览网站首页、编写爬虫程序并打印结果。2.知识链接讲解:-详细介绍div标签:作为HTML块级元素,用于组织页面结构,可通过class属性标识样式(结合任务中职位信息被div标签包裹的例子)。-介绍BeautifulSoup库:用于从HTML中提取数据,重点讲解find_all()方法的语法和作用,如div_tags=soup.find3.任务实施步骤讲解与演示:-步骤1:指导学生在资源管理器中打开C:\inetpub\wwwroot目录,复制网站文件以发布网站。-步骤2:启动PyCharm,创建新项目,打开main.py文件。演示输入代码,当出现“Unresolvedreference'bs4'”提示时,演示如何安装beautifulsoup4库。-步骤3:逐行解释参考代码的含义:使用requests.get()获取网页内容,设置encoding为utf8避免乱码,创建BeautifulSoup对象解析HTML,使用find_all()找到所有class为'card'的div标签,并进行遍历打印。-步骤4、5:演示执行Run'main'运行程序,并展示终端中爬取到的网站代码结果。课堂实操内容1.学生按照教师演示的步骤,在自己的电脑上操作:发布网站、创建PyCharm项目、安装beautifulsoup4库、输入并运行参考代码。2.教师巡视指导,及时解决学生在操作过程中遇到的问题,如库安装失败、代码输入错误、运行无结果等。3.鼓励学生尝试修改代码中的参数,如将class_='card'改为其他可能的class值,观察输出结果的变化。课堂小结知识总结本节课主要学习了如何使用Python的requests库和BeautifulSoup库编写爬虫程序,爬取网页中特定class的div标签。重点掌握了爬虫的基本流程、BeautifulSoup库的安装与find_all()方法的使用,以及HTMLdiv标签的作用。优秀经验表扬在实操过程中能够快速完成任务并积极尝试修改代码的学生,分享他们解决问题的思路和方法,如有的同学通过查阅错误提示成功安装了库,有的同学仔细检查了网页源代码找到了正确的class属性值。课程引入思考教师提出的问题,回忆自己浏览网页的经历,对如何获取网页特定信息产生兴趣,明确本节课的学习目标。授课过程1.认真听讲任务分析,了解本次任务的具体要求和步骤。2.学习知识链接内容,理解div标签在HTML中的作用和BeautifulSoup库的功能,特别是find_all()方法的用法。3.仔细观看教师的任务实施演示,记录关键步骤和操作要点,如网站发布路径、库安装方法、代码各部分的作用。课堂实操内容1.按照教师的指导,亲自动手操作:将网站文件复制到指定目录发布网站,在PyCharm中创建项目,尝试输入代码。2.当遇到“Unresolvedreference'bs4'”时,按照教师演示的方法安装beautifulsoup4库,并确认安装成功。3.输入参考代码后,运行程序,观察终端输出结果是否与教师展示的一致(如图1-19)。4.在完成基本任务后,尝试修改代码中的参数,探索不同参数对爬取结果的影响,并记录自己的发现。5.遇到问题时,先自行思考,尝试解决,若无法解决则向教师或同学请教。课堂小结知识总结回顾本节课学习的主要知识点,梳理爬虫程序的编写流程,加深对div标签和BeautifulSoup库使用方法的理解。优秀经验倾听优秀同学的经验分享,学习他们解决问题的方法和学习态度,反思自己在学习过程中的不足。作业:应用本节课的例子,在本节课任务的基础上,设计一个有应用内容的页面作品,可以自选主题或升级老师给的主题,内容自行设置。1.选择一个感兴趣的主题,如电影排行榜、图书信息、体育新闻等,自行构建一个包含多个div标签(具有特定class属性)的简单HTML页面,或在教师提供的网站基础上进行内容升级。2.编写爬虫程序,爬取自己设计或升级后的网页中所有特定class的div标签内容。3.对爬取到的内容进行简单的整理或输出格式化,例如将结果保存到文本文件中,或只提取div标签内的部分关键信息(如标题、简介等)。4.记录程序编写过程中遇到的问题及解决方法,形成简短的实验报告。教学反思:1.本次课的实操环节较多,学生对PyCharm环境和库安装的熟悉程度不同,部分学生可能在安装beautifulsoup4库时遇到困难,下次课可以提前准备好离线安装包或更详细的安装指引。2.对于HTML标签和网页结构的理解,部分学生可能基础较弱,在讲解div标签时,可以增加一些简单的HTML示例页面,让学生直观感受div标签的布局作用,为后续爬虫提取奠定更好的基础。3.代码讲解部分,可以采用断点调试的方式,逐步运行代码,展示每一步的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论