项目二教案1 爬取网站图片并重命名保存_第1页
项目二教案1 爬取网站图片并重命名保存_第2页
项目二教案1 爬取网站图片并重命名保存_第3页
项目二教案1 爬取网站图片并重命名保存_第4页
项目二教案1 爬取网站图片并重命名保存_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

XX学校《大数据应用技术基础》学科教案授课课题爬取网站图片并重命名保存授课老师授课时间周一第1、2节授课课时2课时授课班级XX班班级地址??电脑室教学目标【知识目标】1.理解网络爬虫的基本概念和工作流程,掌握爬取网页图片的原理。2.熟悉os模块中与文件目录操作相关的函数(如os.makedirs、os.path.exists、os.path.join等)的功能和使用方法。3.掌握requests库发送HTTP请求获取网页内容以及BeautifulSoup库解析HTML文档提取图片标签的方法。【能力目标】1.能够独立在IIS中发布网站,并在浏览器中成功访问网站首页。2.能够运用Python语言,结合requests库、BeautifulSoup库和os模块编写简单的图片爬虫程序,实现从指定网页爬取jpg图片并按序列重命名保存到指定目录。3.具备分析程序运行结果、排查程序错误的基本能力,如检查图片是否成功保存、目录是否正确创建等。【素养目标】1.培养学生的计算思维和问题解决能力,通过实际任务的完成,学会运用所学知识解决实际问题。2.增强学生的信息素养,了解网络数据获取的基本方式,树立数据安全和合法使用数据的意识。3.激发学生对大数据技术的学习兴趣,培养其自主学习和合作学习的能力,在实践中体验编程的乐趣和成就感。教学重点及突破策略教学重点:1.爬虫程序的整体结构和核心步骤,包括发送请求、解析HTML、提取图片链接以及下载保存图片。2.os模块中创建目录(os.makedirs)和路径处理(os.path.join)函数的正确使用。3.BeautifulSoup库提取网页中图片标签(<img>)及其src属性的方法。突破策略:1.采用任务驱动式教学,以【任务实施】中的具体步骤为线索,引导学生逐步理解爬虫程序的构成。通过展示完整的参考代码,结合代码注释,帮助学生梳理程序的逻辑流程。2.针对os模块的相关函数,进行单独的代码演示和讲解,让学生明确函数的参数、返回值和作用。设置小型练习,如让学生尝试创建不同的目录,巩固函数的使用。3.结合网页结构示例,详细讲解BeautifulSoup库的find_all方法如何定位图片标签,并通过实例演示如何从标签中提取src属性值。鼓励学生动手操作,分析不同网页的图片标签结构。教学难点及突破策略教学难点:1.图片URL的拼接,确保能够正确构造完整的图片请求地址,特别是当src属性为相对路径时。2.程序异常处理,如网络请求失败、图片链接无效、文件写入错误等情况的应对。3.学生对HTML结构的理解程度可能参差不齐,影响其对BeautifulSoup解析过程的把握。突破策略:1.对于图片URL拼接问题,重点讲解相对路径和绝对路径的概念,通过对比示例(如原src为"images/pic.jpg",如何拼接成"http://localhost/images/pic.jpg"),让学生掌握URL拼接的方法。在参考代码中强调f"{url}/{src}"这一关键步骤,并解释其原理。2.在教学中适当引入try-except异常处理机制的概念,虽然不要求学生深入掌握,但可以展示简单的异常捕获代码(如对requests.get()和文件打开操作进行异常处理),引导学生思考程序可能出现的问题及解决思路,培养其程序健壮性意识。3.课前简要回顾HTML的基本标签和结构,特别是图片标签<img>的属性。在解析网页时,利用浏览器的开发者工具(F12)实际查看网页的HTML源码,帮助学生直观理解图片标签在HTML中的位置和形式,从而更好地理解BeautifulSoup的工作方式。教学方法和手段(含信息化技术)1.讲授法:讲解网络爬虫的基本概念、os模块、requests库、BeautifulSoup库的相关知识和使用方法。

2.演示法:通过PyCharm集成开发环境现场演示爬虫程序的编写、调试和运行过程,以及在IIS中发布网站的操作步骤。

3.任务驱动法:以“爬取网站图片并重命名保存”任务为核心,引导学生跟随任务实施步骤进行实践操作。

4.案例分析法:分析参考代码的结构和各部分功能,帮助学生理解程序逻辑。

5.信息化技术手段:利用多媒体课件展示教学内容;使用PyCharm作为编程教学工具;借助浏览器的开发者工具辅助讲解HTML结构和图片标签提取;通过局域网或屏幕投影展示教师操作和程序运行结果。课程思政元素1.培养学生的规则意识和法律意识:强调网络爬虫的使用必须遵守法律法规和网站的robots协议,不得恶意爬取数据或侵犯他人知识产权,引导学生树立正确的数据获取和使用观念。

2.培养学生的严谨治学态度:在编程过程中,引导学生注重代码的规范性、可读性和健壮性,培养其细致、认真、负责的工作作风。

3.激发学生的创新精神:鼓励学生在完成基本任务的基础上,思考如何优化爬虫程序(如增加图片格式过滤、设置请求头、控制爬取速度等),培养其创新思维和探索精神。教师教学实施学生学习活动课程引入

1.展示一些含有丰富图片的网站,提问学生:这些网站上的大量图片是如何获取和保存的?如果需要批量获取某网站的图片,手动下载效率低下,如何通过编程实现自动化下载?

2.引出本次课的任务——爬取网站图片并重命名保存,简要介绍任务的主要内容和目标,激发学生的学习兴趣。

授课过程

1.任务分析:讲解本次任务的具体要求,包括在IIS发布网站、浏览网站首页、编写爬虫程序爬取jpg图片并保存到指定目录。

2.知识准备:

a.简要回顾IIS发布网站的步骤(假设学生已学过相关知识,若未学过则进行演示教学)。

b.介绍网络爬虫的基本概念:一种按照一定规则自动抓取互联网信息的程序。

c.讲解os模块:重点介绍os.makedirs(创建目录)、os.path.exists(检查路径是否存在)、os.path.join(路径拼接)等函数,结合“经验分享”中的代码片段进行演示。

d.讲解requests库:介绍其发送HTTPGET请求获取网页内容的功能,演示response=requests.get(url)的使用及response.text的获取。

e.讲解BeautifulSoup库:介绍其解析HTML文档的功能,演示如何使用soup=BeautifulSoup(response.text,"html.parser")解析网页,以及如何使用find_all("img")获取所有图片标签。

f.讲解open()函数:结合“知识链接”中的内容,重点介绍以"wb"模式打开文件并写入二进制内容(如图片)的方法。

3.任务实施讲解:结合【任务实施】步骤和参考代码,逐行解释代码的作用和逻辑:

a.如何创建保存图片的目录(d:\htmlimages)。

b.如何请求网页(http://localhost)并获取响应内容。

c.如何解析HTML并提取所有图片标签。

d.如何遍历图片标签,拼接图片URL,下载图片并以“t{i+1}.jpg”的格式重命名保存到指定目录。

课堂实操内容

1.指导学生在资源管理器中打开网站目录C:\inetpub\wwwroot,并将提供的网站文件复制到该目录下,完成网站发布的准备工作。

2.指导学生启动PyCharm,创建Python项目,并在main.py文件中输入参考代码。在学生输入过程中,巡回指导,及时解决学生遇到的语法错误等问题。

3.引导学生检查代码中的URL(http://localhost)是否正确,以及保存目录(d:/htmlimages)是否符合要求。

4.指导学生运行程序,观察终端输出的“已保存图片”信息,并到d:\htmlimages目录下查看是否成功保存了图片。

5.针对学生在实操中出现的问题(如目录创建失败、图片无法下载、文件名错误等)进行集中讲解和个别辅导。

课堂小结

(1)知识总结

a.回顾本次课学习的主要知识点:网络爬虫的基本流程、os模块的文件目录操作、requests库获取网页内容、BeautifulSoup库解析HTML提取图片标签、open()函数保存图片文件。

b.强调图片URL拼接和文件保存路径处理的关键点。

(2)优秀经验

a.表扬在实操中表现优秀、能够快速完成任务并帮助其他同学的学生。

b.分享学生在解决问题过程中的好方法,如通过打印变量值调试程序、仔细检查代码拼写和语法等。课程引入

1.观看教师展示的图片网站,思考教师提出的问题,积极参与课堂讨论。

2.明确本次课的学习任务和目标,对利用编程爬取图片产生兴趣。

授课过程

1.认真听讲,理解任务的具体要求和实施步骤。

2.跟随教师的讲解,回顾IIS发布网站的相关知识,学习网络爬虫、os模块、requests库、BeautifulSoup库和open()函数的相关概念和使用方法。

3.做好课堂笔记,记录重点知识和关键代码片段。

4.在教师讲解代码时,积极思考,理解每一行代码的作用和逻辑,如有疑问及时向教师提出。

课堂实操内容

1.按照教师的指导,在资源管理器中进行网站文件的复制操作,准备好待爬取的网站环境。

2.启动PyCharm,创建Python项目,并在main.py文件中认真输入参考代码,注意代码的正确性。

3.输入代码完成后,仔细检查URL和保存目录等关键信息是否设置正确。

4.运行程序,观察终端输出结果,并到指定目录查看图片保存情况。

5.如果遇到问题,先尝试自己分析解决,如无法解决则向教师或同学求助。

6.积极参与小组讨论,与同学交流操作经验和遇到的问题。

课堂小结

(1)知识总结

a.跟随教师一起回顾本次课学习的主要知识,梳理知识脉络,加深对网络爬虫相关技术的理解。

b.重点关注图片URL拼接和文件保存路径处理的方法,确保自己掌握。

(2)优秀经验

a.学习优秀同学的学习方法和解决问题的思路。

b.反思自己在本次课学习和实操中的不足,总结经验教训。作业:

应用本节课的例子,在本节课任务的基础上,设计一个有应用内容的页面作品,可以自选主题或升级老师给的主题,内容自行设置。

1.选择一个合法合规的网站(如学校官网、知名图片分享网站等,确保其允许非商业性的个人学习爬取),爬取该网站上至少10张特定主题的图片(如风景、动物、科技产品等)。

2.对爬取的图片进行重命名,命名规则除了序列编号外,可尝试加入与图片内容相关的关键词(如“风景_t1.jpg”、“动物_t2.jpg”)。

3.在爬取程序中增加对图片格式的判断,只爬取jpg和png格式的图片。

4.将爬取到的图片整理到一个文件夹中,并为该文件夹创建一个简单的文本说明文件,记录爬取的网站地址、爬取时间、图片数量及主题等信息。教学反思:

1.本次课采用任务驱动的教学方法,学生的参与度较高,但部分学生对HTML结构和CSS选择器的理解不够深入,可能影响了对BeautifulSoup提取图片标签过程的掌握。后续教学中可以适当增加HTML基础的复习环节,或提供更直观的HTML结构示例。

2.程序代码的讲解过程中,虽然逐行进行了解释,但对于初学者来说,代码量相对较大,可能难以一次性完全消化。下次教学可以考虑将代码分解为几个功能模块(如目录创建模块、网页请求模块、图片提取模块、图片下载模块),分模块进行讲解和演示,降低学习难度。

3.课堂实操环节,大部分学生能够按照指导完

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论