《网络爬虫项目实践》课件-项目三:scrapy框架爬虫(教案)_第1页
《网络爬虫项目实践》课件-项目三:scrapy框架爬虫(教案)_第2页
《网络爬虫项目实践》课件-项目三:scrapy框架爬虫(教案)_第3页
《网络爬虫项目实践》课件-项目三:scrapy框架爬虫(教案)_第4页
《网络爬虫项目实践》课件-项目三:scrapy框架爬虫(教案)_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目三scrapy框架爬虫教案课程名称:网络爬虫项目实践课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论28学时,实验36学时)总学分:4.0学分本章学时:3学时材料清单《网络爬虫项目实践》教材。配套PPT。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标本项目分为三个任务,任务1通过当当网的爬取演示如何使用Scrapy的基本使用,任务2通过赶集网的登录演示Scrapy的模拟登录功能,任务3通过失信人信息爬取演示Scrapy爬取复杂网站的方法。、基本要求掌握使用Scrapy创建爬虫项目的方式掌握Scrapy创建爬虫文件命令的使用掌握使用Scrapy进行数据爬取的基本方法掌握使用Scrapy模拟登录赶集网的方法掌握将爬取结果存储到MySQL数据库的方法掌握Ajax数据爬取方式问题引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。Scrapy项目是由哪些主要文件和目录组成的?Scrapy如何定义提取的结构化数据(Item)?Scrapy如何编写爬虫(Spider)并从网页中提取Item?探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。Scrapy如何使用管道(Pipeline)来存储或处理提取到的Item?Scrapy如何使用中间件(Middleware)来自定义下载或处理请求和响应?Scrapy如何使用选择器(Selector)或BeautifulSoup来解析HTML或XML文档?拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。Scrapy如何使用信号(Signal)来在爬虫的不同阶段执行自定义操作?Scrapy如何使用扩展(Extension)来增加或修改Scrapy的核心功能?Scrapy如何使用调度器(Scheduler)来控制请求的优先级或延迟?主要知识点、重点与难点主要知识点Scrapy创建爬虫项目的方式Scrapy常见命令的使用Scrapy模拟登录的方式Scrapy数据存储的方式重点Scrapy创建爬虫项目的方式Scrapy常见命令的使用Scrapy模拟登录的方式Scrapy数据存储的方式难点Scrapy创建爬虫项目的方式Scrapy常见命令的使用Scrapy模拟登录的方式Scrapy数据存储的方式教学过程设计理论教学过程Scrapy项目是由一些主要文件和目录组成的,包括scrapy.cfg,items.py,pipelines.py,settings.py,spiders等。Scrapy项目中定义了Item类,用来封装提取的结构化数据,类似于Python中的字典,但是提供了一些额外的保护减少错误。Scrapy项目中编写了Spider类,用来定义爬虫的行为和逻辑,如起始URL,请求方式,解析规则等。Scrapy项目中使用了Pipeline类,用来处理Spider提取到的Item,并进行后期处理(详细分析、过滤、存储等)。Scrapy项目中使用了Middleware类,用来自定义下载或处理请求和响应,如设置代理、修改头部、重试等。Scrapy项目中使用了Selector类,用来解析HTML或XML文档,支持XPath和CSS选择器两种语法。Scrapy项目中使用了Engine类,用来负责Spider、ItemPipeline、Downloader、Scheduler之间的通讯,信号、数据传递等。Scrapy项目中使用了Scheduler类,用来接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。Scrapy项目中使用了Downloader类,用来下载ScrapyEngine发送的所有Requests请求,并将其获取到的Responses交还给ScrapyEngine。Scrapy项目中使用了Signal类,用来在爬虫的不同阶段执行自定义操作,如爬虫启动、关闭、异常等。实验教学过程创建Scrapy项目商品数据爬取商品数据处理获取表单HashCode获取验证码定义数据模型创建下载器中间件教材与参考资料教材李程文,唐建生,冯欣悦.网络爬虫项目实践[M].西安:西安电子科技大学出版社.2023.参考资料[1] 赵国生,王健.python网络爬虫技术与实战[M].北京:机械工

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论