下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
单元08Python爬虫框架教案课程名称:Python基础与大数据应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时总学分:4.0学分本章学时:8学时一、材料清单《Python基础与大数据应用(第2版)(微课版)》教材Scrapy框架安装、项目创建、爬虫编写示例代码国家统计局爬虫、古诗词名句爬虫完整源码Ubuntu20.04+Python3.12.1+Scrapy2.11.1环境二、教学目标与基本要求1.教学目标了解主流Python爬虫框架;掌握Scrapy框架架构、组件与数据流;熟练完成Scrapy安装、项目创建、配置编写、爬虫开发;掌握使用XPath提取数据、Item定义、Pipeline数据处理;能独立完成网页文本与数据爬取并保存至文件/MySQL数据库;具备使用专业爬虫框架高效采集数据的能力。2.素质目标强化合法、合规、守信、守规的网络行为准则。工程化开发思想,培养规范开发、安全开发、责任开发的职业素养。引导学生将技术用于国家大数据战略、数字政府、智慧城市建设,增强家国情怀与使命感。3.基本要求了解常见爬虫框架:Scrapy、Crawley、Portia、PySpider、BeautifulSoup等。掌握Ubuntu与PyCharm下安装Scrapy框架。理解Scrapy架构:引擎、调度器、下载器、爬虫、管道、中间件。掌握Scrapy命令:startproject、genspider、crawl、shell、fetch等。掌握项目结构:items.py、middlewares.py、pipelines.py、settings.py、spiders。会编写Item定义数据结构,使用XPath提取网页内容。会编写Pipeline将数据保存到文本文件/MySQL数据库。能完成实战项目:爬取国家统计局、古诗词名句网页数据。三、问题设计1.引导性提问什么是爬虫框架?使用框架比手写爬虫优势是什么?Scrapy由哪些核心组件组成?创建Scrapy项目的命令是什么?运行爬虫的命令是什么?Item文件的作用是什么?Pipeline的作用是什么?如何让Scrapy保存数据到文件/数据库?如何设置User-Agent与关闭Robots协议?2.探究性问题Scrapy的数据流执行过程是什么?为什么要把爬取字段定义在Item里?XPath在Scrapy中如何使用?多页爬取如何构造URL列表?如何处理反爬、延时、请求头?3.拓展性问题如何实现分布式爬虫?如何将爬取数据存入MySQL、MongoDB?如何实现断点续爬、定时爬取?企业大数据采集如何使用Scrapy?四、主要知识点、重点与难点1.主要知识点常见爬虫框架简介Scrapy框架安装(pip/PyCharm)Scrapy架构与数据流Scrapy全局命令与项目命令Scrapy项目目录结构items.py定义数据字段settings.py配置(Robots、请求头、并发、管道)spiders编写爬虫与XPath提取pipelines.py数据处理与保存实战:国家统计局政策文件爬取实战:古诗词名句爬取并入库MySQL2.教学重点Scrapy安装与环境配置项目创建与命令使用Item与Spider编写XPath数据提取Pipeline数据保存完整爬虫项目编写流程3.教学难点Scrapy架构与数据流理解settings.py配置项XPath精准提取多页爬取URL构造数据库Pipeline编写五、教学过程设计(共8学时)第1–2学时:爬虫框架简介+Scrapy安装常见爬虫框架介绍Scrapry框架特点与优势Ubuntu安装Scrapy及依赖PyCharm安装Scrapy验证安装:scrapyversion第3–4学时:Scrapy架构+命令+项目结构Scrapy架构组件数据流执行流程全局命令:startproject、shell、fetch、view等项目命令:genspider、crawl、list等项目目录结构讲解第5–6学时:Item+Spider+XPath爬取items.py编写爬虫文件编写:name、allowed_domains、start_urls、parse()XPath提取标题、时间、内容多页爬取URL拼接运行爬虫查看结果第7–8学时:Pipeline+项目实战+数据库存储pipelines.py编写:保存文本/MySQLsettings.py启用Pipeline实战1:国家统计局爬取实战2:古诗词名句爬取+MySQL存储调试、排错、作业布置六、教材与参考资料1.教材《Python基础与大数据应用(第2版)(微课版)》2.参考资料[1].丁辉,陈永.Python程序设计教程[M].北京:高等教育出版社.2019.[2].董付国.Python可以这样学[M].北京:清华大学出版社,2017.[3].林子雨,赵江声,陶继平.Python程序设计基础教程(微课版)[M].北京:人民邮电出版社,2022.七、教学反思与建议Scrapy抽象度较高,先讲流程再讲组件,降低理解难度。重点练习:创建项目→写Item→写爬虫→配settings→写Pipeline→运行。XPath提取反复练习,强调
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学三年级数学教学工作总结
- 军用靶场自动报靶系统校验作业指导书
- 百分表使用作业指导书
- 家庭盆栽施肥与病虫害防治指南
- T∕CNLIC 0202-2025 电子包装用聚氨酯人造革合成革
- 有关肺癌考试试题及答案
- 2026年黑龙江省哈尔滨市南岗区中考化学模拟试卷(含答案)
- 2024-2025学年浙江省台金七校高二(下)期中信息技术试卷(含答案)
- 光电子玻璃无尘车间改造项目可行性研究报告模板申批拿地用
- 拍卖公告发布渠道与合规要求
- 2025年泌尿外科学(副高)考试试题常考点试题带答案
- 2026年安全生产月课件
- 2026年淮南师范学院专职辅导员公开招聘笔试备考试题及答案解析
- 2026山东小升初语文作文备考集训(范文+指导)
- 安徽省合肥市2026届高三物理第二次教学质量检测试题【含答案】
- 2026年高考生物考前20天冲刺讲义(一)(解析版)
- 2026年二级建造师之二建市政工程实务押题宝典题库及答案详解【基础+提升】
- 2026年军校招生面试常见问题及回答思路
- 2026年二级建造师考试建筑实务案例分析题
- 四川省2026届高三适应性考试语文模拟试题及参考答案
- 班子成员2026年学习教育个人查摆问题对照发言材料
评论
0/150
提交评论