Python基础与大数据应用(第2版)(微课版) 教案 单元 07 Python 爬虫基础_第1页
Python基础与大数据应用(第2版)(微课版) 教案 单元 07 Python 爬虫基础_第2页
Python基础与大数据应用(第2版)(微课版) 教案 单元 07 Python 爬虫基础_第3页
Python基础与大数据应用(第2版)(微课版) 教案 单元 07 Python 爬虫基础_第4页
Python基础与大数据应用(第2版)(微课版) 教案 单元 07 Python 爬虫基础_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

单元07Python爬虫基础教案课程名称:Python基础与大数据应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时总学分:4.0学分本章学时:10学时一、材料清单《Python基础与大数据应用(第2版)(微课版)》教材urllib、requests、re、lxml示例代码网页文本爬取、图片爬取源码项目实战:爬取人邮教育社区图书信息拓展训练:爬取新华网科技栏目新闻与图片课堂练习、上机任务、单元习题二、教学目标与基本要求1.教学目标理解网络爬虫的结构、原理与合法使用规范;熟练掌握Python内置模块urllib与第三方库requests;掌握正则表达式与XPath数据提取方法;掌握lxml解析库;能够独立编写爬虫程序爬取网页文字、链接、图片并保存至本地;具备规范、安全、合法的数据采集能力。2.素质目标法治教育核心单元:严格遵守Robots协议、网络安全法、民法典,严禁非法爬取。强调尊重知识产权、保护隐私、尊重网站规则,树立合法爬虫理念。引导学生用技术服务社会、服务国家,不做网络黑灰产,增强网络空间道德与法治意识。3.基本要求理解网络爬虫概念、类型、组成结构与工作流程。了解八爪鱼采集器可视化爬取方法。掌握urllib.request、urllib.parse、urllib.error模块。掌握requests库安装、get()、post()请求与响应处理。掌握正则表达式元字符、限定符及re库常用方法。掌握XPath语法与lxml库解析HTML。掌握设置User-Agent伪装浏览器。能够爬取网页文本、超链接、图片并保存本地。完成图书信息爬取、新华网信息爬取等实战项目。三、问题设计1.引导性提问什么是网络爬虫?由哪三部分组成?urllib库包含哪四个模块?requests库相比urllib有哪些优势?正则表达式的作用是什么?re库核心方法有哪些?XPath的作用是什么?lxml库的作用是什么?如何让爬虫伪装成浏览器?爬取并保存图片的步骤是什么?2.探究性问题为什么爬虫必须遵守robots.txt协议?GET请求与POST请求的区别是什么?贪婪匹配与懒惰匹配的区别是什么?爬取中文出现乱码如何解决?网站常见反爬手段有哪些?3.拓展性问题如何实现多页、全站数据爬取?如何将爬取的数据保存到文件/数据库?如何设计延时、限速爬虫避免被封IP?大数据采集项目中爬虫如何应用?四、主要知识点、重点与难点1.主要知识点网络爬虫概述、类型、结构、工作流程八爪鱼采集器可视化爬取urllib库:request、parse、error、robotparserrequests库安装、get、post、响应属性正则表达式:元字符、限定符、re库方法XPath语法、lxml解析HTML模拟浏览器User-Agent反爬图片爬取与本地保存项目实战:人邮教育社区图书信息爬取拓展训练:新华网科技板块爬取2.教学重点urllib/requests发送HTTP请求正则表达式提取数据XPath路径提取数据图片爬取与保存Headers伪装浏览器3.教学难点正则表达式匹配规则编写XPath路径精确定位中文乱码处理反爬机制与绕过HTML结构变化与解析适配五、教学过程设计(共10学时)第1–2学时:网络爬虫基础+八爪鱼工具网络爬虫概念、分类、组成、工作流程合法爬虫、Robots协议、法律规范八爪鱼采集器安装、登录、模板任务实战:模板爬取淘宝商品数据数据导出与查看第3–4学时:urllib库详解urllib.request与urlopen()请求、响应、read()、decode()Request对象与headers伪装urllib.parseURL解析与编码urllib.error异常处理GET/POST请求示例第5–6学时:requests库实战requests安装与导入requests.get()使用方法响应对象:text、content、status_code带headers发送请求爬取网页源码并保存实战:爬取新闻页面第7–8学时:正则表达式与re库元字符、限定符、贪婪/懒惰匹配pile、match、search、findall提取链接、图片地址、文本实战:批量爬取图片第9–10学时:XPath+lxml+综合实战XPath节点、路径、谓语、通配符lxml库安装与etree.HTML()用XPath提取标题、链接、价格综合实战:人邮教育社区图书信息爬取拓展训练:新华网科技板块爬取总结、作业、答疑六、教材与参考资料1.教材《Python基础与大数据应用(第2版)(微课版)》2.参考资料[1].丁辉,陈永.Python程序设计教程[M].北京:高等教育出版社.2019.[2].董付国.Python可以这样学[M].北京:清华大学出版社,2017.[3].林子雨,赵江声,陶继平.Python程序设计基础教程(微课版)[M].北京:人民邮电出版社,2022.七、教学反思与建议本单元极强依赖上机实践,必须多调试、多看网页源码。正则与XPath是重点难点,建议先理解规则

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论