下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
XX学校《大数据应用技术基础》学科教案授课课题爬取网站图片路径信息保存在word文档授课老师授课时间周一第1、2节授课课时2课时授课班级XX班班级地址??电脑室教学目标【知识目标】1.理解爬虫程序的基本概念和工作流程。2.掌握使用requests库发送HTTP请求获取网页内容的方法。3.掌握使用BeautifulSoup库解析HTML文档并提取img标签src属性的技巧。4.了解将数据写入Word文档的基本操作。【能力目标】1.能够独立配置IIS并发布网站。2.能够运用requests和BeautifulSoup库编写简单的图片路径爬取程序。3.能够将爬取到的图片路径信息正确保存到指定的Word文档中。【素养目标】1.培养学生的编程思维和问题解决能力,能够分析任务需求并转化为实际代码。2.增强学生的信息素养,了解网络数据获取的基本规范和伦理要求。3.提升学生的实践操作能力和自主学习能力,鼓励学生探索和尝试不同的实现方法。教学重点及突破策略教学重点:1.使用requests库发送GET请求获取网页HTML内容。2.使用BeautifulSoup库解析HTML并准确提取所有img标签的src属性值。3.将提取到的图片路径信息写入到指定路径的Word文档中。突破策略:1.通过演示和案例分析,详细讲解requests库的get方法及其参数(如headers)的使用,让学生理解如何模拟浏览器行为获取网页内容。2.结合具体的HTML代码示例,介绍BeautifulSoup库的基本语法和find_all方法,重点演示如何定位img标签并提取其src属性,通过让学生动手练习巩固该知识点。3.讲解文件操作的基本流程,特别是使用withopen语句以写入模式打开文件,并将提取到的路径信息逐行写入文件,强调文件路径的正确设置和编码问题。教学难点及突破策略教学难点:1.正确设置请求头(User-Agent)以模拟浏览器行为,避免爬取请求被网站拒绝。2.IIS网站的正确发布和本地网页的访问,确保爬虫程序能够成功获取目标网页。3.对提取到的图片路径进行处理和验证,确保写入文档的路径信息准确无误。突破策略:1.详细解释User-Agent的作用和常见取值,提供标准的User-Agent字符串供学生使用,并通过对比实验(设置与不设置User-Agent)让学生直观感受其重要性。2.课前准备好可发布的网站文件,在课堂上逐步演示IIS发布网站的步骤,包括网站目录的设置、端口的配置等,并指导学生进行操作,确保每个学生都能成功访问本地网站。3.在代码中加入简单的异常处理机制,如判断img标签是否存在src属性,对提取到的路径进行简单的有效性检查(如是否以http开头或为相对路径),并在写入文件前进行打印输出,方便学生核对。教学方法和手段(含信息化技术)1.讲授法:讲解爬虫的基本概念、requests库和BeautifulSoup库的使用方法、文件操作等知识点。课程思政元素1.培养学生的规则意识和法律素养:强调在进行网络数据爬取时,必须遵守网站的robots.txt协议和相关法律法规,尊重网站的知识产权,不得恶意爬取或滥用数据,引导学生树立正确的网络行为规范。教师教学实施学生学习活动课程引入通过提问的方式引入本节课的主题:同学们,我们在浏览网页时经常会看到各种精美的图片,大家知道这些图片是如何存储在网站上的吗?如果我们想要获取一个网站上所有图片的路径信息,应该怎么做呢?今天我们就来学习一项实用的技能——使用Python编写爬虫程序爬取网站图片路径信息并保存在Word文档中。授课过程首先,讲解任务分析:本次任务需要完成在IIS发布网站、浏览网站首页以及编写爬虫程序爬取图片路径并保存到指定Word文档这三个主要步骤。接着,介绍相关的知识链接:1.模拟浏览器行为:讲解字典对象headers的作用,重点解释User-Agent字段的含义和常见取值,说明设置User-Agent可以让爬虫模拟浏览器行为,避免被网站识别为爬虫。2.爬虫模拟浏览器行为的用途:详细阐述避免被网站识别、获取更多内容、遵守网站规定以及避免侵犯网站利益等方面的作用。然后,讲解爬虫程序的编写:1.导入必要的库:requests库用于发送HTTP请求,BeautifulSoup库用于解析HTML文档。2.设置请求头:定义headers字典,包含User-Agent信息。3.发送GET请求:使用requests.get()方法获取网页内容,并将响应文本赋值给html变量。4.解析网页内容:创建BeautifulSoup对象,指定解析器为'html.parser'。5.提取图片路径:使用find_all('img')方法获取所有img标签,然后遍历这些标签,提取src属性值。6.保存到Word文档:使用withopen语句以写入模式打开'd:\\data\\picture.doc'文件,将每个图片路径写入文件。课堂实操内容指导学生进行以下操作:1.在资源管理器中打开网站目录C:\inetpub\wwwroot,将提供的网站文件复制到该目录下,完成IIS网站的发布准备。2.启动PyCharm,创建Python项目,并在main.py文件中输入参考代码。在输入过程中,引导学生理解每一行代码的作用,特别是请求头的设置、网页内容的获取、图片路径的提取和文件写入等关键步骤。3.运行程序后,指导学生打开d:\data\picture.doc文件,查看输出的图片路径内容是否正确。课堂小结(1)知识总结本节课我们学习了如何使用Python的requests库和BeautifulSoup库爬取网站图片路径信息并保存到Word文档。主要包括IIS网站的发布、模拟浏览器行为设置请求头、发送HTTP请求获取网页内容、解析HTML提取img标签的src属性以及将数据写入文件等知识点。(2)优秀经验在实操过程中,部分同学能够快速理解代码逻辑并正确完成操作,他们的经验是认真听讲、仔细分析代码的每一个步骤,并在遇到问题时积极思考和提问。希望其他同学能够借鉴这些优秀经验,提高自己的学习效率和实践能力。课程引入思考老师提出的问题,积极参与课堂讨论,对爬取网站图片路径信息产生兴趣,明确本节课的学习目标。授课过程认真听讲,记录老师讲解的任务分析和知识链接内容,理解模拟浏览器行为的重要性以及爬虫模拟浏览器行为的各项用途。对于requests库和BeautifulSoup库的使用方法,做好笔记,重点关注代码的逻辑结构和关键函数的作用。课堂实操内容按照老师的指导,一步步进行操作:1.找到网站目录C:\inetpub\wwwroot,将网站文件复制到该目录,确保文件复制正确。2.启动PyCharm,创建Python项目,在main.py文件中输入参考代码。在输入过程中,对照老师的讲解,理解每一行代码的含义,遇到不理解的地方及时向老师或同学请教。3.运行程序后,打开d:\data\picture.doc文件,检查文件中的图片路径内容是否与预期一致,如果发现问题,尝试根据错误提示进行排查和修正。课堂小结(1)知识总结回顾本节课学习的主要知识点,梳理爬虫程序编写的流程,加深对各个环节的理解和记忆。(2)优秀经验听取优秀同学的经验分享,反思自己在学习和实操过程中的不足,学习他们的学习方法和解决问题的思路。作业:应用本节课的例子,在本节课任务的基础上,设计一个有应用内容的页面作品,可以自选主题或升级老师给的主题,内容自行设置。1.选择一个自己感兴趣的主题,如“校园风景图片集”“科技产品图片展示”等,确定要爬取图片路径的目标网站(确保该网站允许合理爬取)。2.分析目标网站的结构,确定需要爬取的图片所在页面的URL。3.编写爬虫程序,爬取该页面上所有图片的路径信息,并将其保存在自定义路径的Word文档中,文档名称自定。4.在Word文档中,除了图片路径外,可以适当添加一些说明文字,如图片的名称、来源网站等,使文档内容更加丰富。5.对程序进行测试,确保能够成功爬取并保存图片路径信息,提交作业时需附上程序代码和生成的Word文档。教学反思:1.本次课的内容实践性较强,大部分学生能够跟上教学进度,完成基本的爬虫程序编写和图片路径提取保存操作。但在IIS网站发布环节,有少数学生出现了路径设置错误或服务启动失败等问题,下次教学可以增加对IIS配置细节的讲解和演示时间。2.对于请求头的设置和BeautifulSoup库的解析方法,部分学生理解还不够深入,在后续的教学中可以通过更多的实例练习,让学生熟练掌握这些知识点的应用。3.课程思政元素的融入还可以更加自然和深入,例如在讲解遵守网站规定时,可以引入一些实际的案例,让学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026五年级数学上册 简易方程的数据分析
- 大队消防安全形势分析会
- 人工智能变革金融业
- 2023年上海高中地理学业水平考试卷及答案
- 2023年云南省安全员-C证(专职安全员)考试题库
- 2024届重庆市外国语校中考试题猜想语文试卷含解析
- 2022年湖北省鄂州市中考数学试卷
- 羟乙基纤维素(CAS号:9004-62-0)理化性质与危险特性一览表
- 2023年教师资格之中学综合素质题库综合试卷B卷附答案
- 2023年建(构)筑物消防员(中级)理论通关必做300题及答案
- 劳动砺心智 实践促成长-劳动教育主题班会
- 超星尔雅学习通《数学的思维方式与创新(北京大学)》2025章节测试附答案
- 血生化检查的临床意义
- 期中学情评估卷(含答案)2024-2025学年晋教版七年级地理下册
- 教育行业教育信息化解决方案
- T-GXAS 807-2024 不孕不育夫妇生育力评估规范
- 钥匙交接协议书范文
- 作战训练安全课件
- S7-200 SMART PLC完全精通教程课件:S7-200 SMART PLC的运动控制及其应用
- 《大学生安全教育》高职全套教学课件
- 毕业论文新中式民宿设计
评论
0/150
提交评论