下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据采集与预处理课程教案课程思政版·理实一体化课程名称数据采集与预处理课程类型专业核心课(理实一体化)教案编号P2-T1授课周次第周章节项目2网络爬虫实践本次学时4学时(180分钟)课题任务1使用urllib爬取北京公交线路信息授课类型理论+实践授课地点计算机实训室授课班级授课日期年月日授课教师教室/实训室计算机实训室一、教学目标目标维度具体内容🎯课程思政目标(价值塑造)通过本任务的学习,培养学生:①精益求精的工匠精神和严谨细致的工作态度;②遵守职业规范、保护数据安全的职业道德意识;③团队协作、共同解决技术问题的合作精神。📚认知目标(知识传授)①识记网络爬虫的结构。②熟悉网络爬虫的基础知识。💪能力目标(技能培养)①熟悉爬虫基本库urllib和Selenium的使用。②熟悉BeautifulSoup和PyQuery解析库的使用。③学会编写网络爬虫来采集北京公交线路相关信息的方法。二、教学重点与难点(核心知识点)类别内容教学重点1.学习网络爬虫相关技术,熟悉爬虫基本库urllib的使用。2.熟悉网络爬虫相关基础知识。3.使用urllib基本库获取北京公交线路信息的HTML源代码。4.使用BeautifulSoup解析库完成北京公交线路相关信息的获取。5.知道urllib基本库和BeautifulSoup解析库的使用方法。6.学会使用urllib基本库和BeautifulSoup解析库进行北京公交线路相关信息的爬取。教学难点1.学习网络爬虫相关技术,熟悉爬虫基本库urllib的使用。2.熟悉网络爬虫相关基础知识。3.使用urllib基本库获取北京公交线路信息的HTML源代码。三、教学过程设计(180分钟理实一体化)教学环节时间教学内容与活动课程思政融入课程导入10分钟1.情景导入:展示使用urllib爬取北京公交线路信息在实际项目中的应用案例2.回顾上节课的知识点,建立知识联系3.提出本节课的学习问题:如何实现使用urllib爬取北京公交线路信息?4.明确本次任务目标和学习路径创设真实应用情境,激发学习兴趣,潜移默化融入思政元素,引导学生思考技术与社会的关系。理实一体化78分钟<title>HelloWorld</title></head><body><p>HelloWorld</p><divclass="content">主体内容</div></body></html>一般而言,网页的首行标识HTML版本,一对html标签包裹head和body标签,head标签通常存放一些配置和资源引用,body标签则存放网页的主体内容。(2)节点树及节点间的关系在网页中,组织页面的对象被渲染成一个树形结构,用来表示文档中对象的标准模型,称为文档对象模型(DocumentObjectModel,DOM)。DOM实际上是以面向对象方式描述的文档模型。DOM定义了表示和修改文档所需的对象、对象的行为和属性,以及对象之间的关系。可以把DOM看作页面上数据和结构的一个树形表示,只是页面可能并不是以这种树的方式具体实现的。节点树示意如图2-2所示。DOM规定:整个文档是一个文档节点,每个HTML标签是一个元素节点,包含在HTML元素中的文本是文本节点,每一个HTML属性是一个属性节点,注释属于注释节点。节点树中节点彼此间的层级关系通常使用父(Parent)、子(Child)和兄弟(Sibling)等术语描述。父节点拥有子节点,同级的子节点称为彼此的兄弟(同胞或姐妹)节点。①在节点树中,顶端节点被称为根节点。②除了根节点,每个节点都有父节点,即根节点没有父节点。通过网络数据采集的合法性讨论,培养学生遵守网络法规、尊重数据版权的职业道德与法律意识。理实一体化77分钟④兄弟节点是拥有相同父节点的节点。图2-3所示为节点树的一部分及节点之间的关系。3.网络爬虫的基本原理网络爬虫(又称为网页蜘蛛)本质上就是获取网页并提取和保存信息的自动化程序。(1)获取网页网络爬虫的首要工作就是获取网页源代码。Python提供了许多库(如urllib、requests等)来帮助实现这个操作,它们提供了封装好的数据结构来表示HTTP请求与响应。获取到响应对象后,只需解析其文本部分,即可得到网页的源代码,从而实现程序化获取。(2)提取信息获取网页源代码后,接下来的工作就是分析网页源代码,从中提取想要的信息。最通用的方法就是使用正则表达式,但是使用正则表达式比较复杂。Python提供了BeautifulSoup、PyQuery、LXML等库来帮助高效地从源代码中提取网页信息。(3)保存信息提取信息之后,可以将信息保存到本地,以便后续使用。保存方式有很多种,即可以保存为TXT、JSON文件,也可以保存到数据库(如MySQL、MongoDB等)中。4.基本库的使用(1)urllib库的使用urllib库是Python中一个功能强大、用于操作URL,常用于制作网络爬虫。类似的库还有requests、httplib2。在Python2中,分别有urllib和urllib2,但在Python3中,二者统一合并到urllib中。相对来说,Python3对中文的支持比Python2友好,urllib是Python3内置的HTTP请求库,它包含如下4个模块。request:最基本的HTTP请求模块,可以用来模拟发送请求。实际文档中的Tag的.next_sibling和.previous_sibling属性通常是字符串或空白字符,这是因为空白字符也被视作节点。通过独立实践操作,培养学生自主探究能力和解决实际问题的技术应用能力,强调规范操作和数据安全意识。课堂总结15分钟1.梳理本次课程的核心知识点2.对比总结使用urllib爬取北京公交线路信息的关键操作步骤3.布置课后作业:完成课后练习题,预习下一任务4.预告下一次课程内容归纳总结知识要点,强化职业规范意识,鼓励学生持续学习、精益求精,以工匠精神要求自己。四、课后作业①复习并整理本次课程的核心知识点,撰写不少于200字的学习心得。②完成教材项目2网络爬虫实践中与使用urllib爬取北京公交线路信息相关的课后练习题。③拓展练习:自行查阅资料,尝试将使用urllib爬取北京公交线路
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年造价工程师模拟试卷精
- 2026年供应链管理岗位笔试题
- 2026年公证业务知识讲座
- 2026年中式烹调师中式面点师考试题
- 2026年小学二年级下册语文单元分层进阶练习卷含答案
- 2026年河北省安国市高三生物下册期末考试模拟检测卷附答案(巩固)
- 统编版(2024)七年级下册道德与法治期末质量监测试卷3(含答案)
- 金融理财基础知识
- 教学技能培训心得体会(15篇)
- 金融投资理财指南
- GB/T 15000.4-2026标准样品工作导则第4部分:证书、标签和附带文件的内容
- 医疗设备维修保养及应急预案
- 分子诊断设备技师精准操作能力标准
- 工厂搬迁技术方案
- 2025中国热带农业科学院热带生物技术研究所第一批招聘23人笔试试题(第1号)附答案解析
- 全基因组选择育种课件
- 乡镇人大培训课件
- 腹内压测量方法与临床意义
- 和君咨询管理公司
- 企业预算编制与成本控制方法
- 基于YOLOv8与SE注意力机制的小麦病害检测识别系统的设计与开发
评论
0/150
提交评论