版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据爬虫技术参考教案课程名称:大数据爬虫技术课程代码:教师姓名:上课班级:授课计划序号NO.日期Date节次Sequence教室Classroom学时Periods单元标题UnitTitle12认识爬虫的概念及原理22爬虫环境搭建32socket库使用42熟悉HTTP和Cookie52urllib3库62生成HTTP请求、处理请求头、设置超时、设置请求重试72Requests库82生成HTTP请求、查看状态码与编码、处理请求头与响应头、设置超时92使用chrome开发者工具102动态网页112静态页面122动态页面的爬取方法132selenium库142处理错误能够使用selenium库进行动态页面爬取152掌握requests库实现POST请求162掌握requests库实现POST请求172函数学会使用requests发起POST请求182函数学会使用requests发起POST请求192能够使用常见的抓包工具202能够使用常见的抓包工具212掌握相关抓包工具的使用222Httpanalyzer工具232Httpanalyzer工具242Fidder工具的使用252Fidder工具的使用262Scrapy框架的命令272Scrapy框架相关参数的使用282Scrapy框架相关参数的使用292使用scrapy框架定制爬虫框架302使用scrapy框架定制爬虫框架参考教案授课教师Instructor所在部门Department课程名称Coursetitle授课日期Date单元标题Unittitle掌握requests库实现POST请求授课地点Venue授课班级Class课时Periods2思政元素家国情怀2018年是中国改革开放40周年。1978年5月,一篇名为《实践是检验真理的唯一标准》的特约评论员文章,在《光明日报》一版刊发。它掀起了席卷中国的真理标准大讨论,成为那支撬动改革开放的哲学杠杆。短短六千字,激荡四十年。为改革开放迈出了一大步。使用时间序列分析这四十年的经济发展历程。知识目标Knowledgeobjectives知道为什么要登陆,了解登陆的方法和手段,理解Cookie登陆流程,掌握requests实现post请求技能目标Skillobjective通过模拟登陆,学生能够运用requests,根据requests库的使用、及其python相关语法规范,实现POST表单登陆态度目标AttitudeobjectivesA1|能形成遵纪守法良好习惯,遵从网络行业从业的相关法规A2|具备爱岗敬业、吃苦耐劳的良好职业道德A3|具有团队合作意识和协作精神A4|具有自主学习能力和自我提高能力A5|具备统筹协调能力、综合运用能力、革新创新能力重点及措施KeypointsandInstructionalstrategies使用Requests库实现POST请求难点及措施DifficultPointsandInstructionalstrategies使用Requests库实现POST请求教学资源Teachingresources/mooc2-ans/mycourse/tch?courseid=241069066&clazzid=93005747&cpi=238471580&enc=8c37e6187ae29156bbd14940f118c4a8&t=1708932148603&pageHeader=2形成性考核Formativeassessment超星平台记录学生课堂出勤、课堂抢答、课堂加减分等。教学过程DeliveryProcess预计时间Duration教学内容Content教学活动Activity设计意图及信息化手段Resources教师活动(主导)TeacherActivity学生活动(主体)StudentActivity10什么场景使用requestspost请求?post请求方式的使用和get方式并没有很大的区别,本质的区别在于它传递参数的方式并不像get方式一样,通过在url中拼接字段来发送给服务器,他采取了一种相较之下更为安全的操作方式思考什么场景使用requestspost请求教材、PPT课件、视频20使用开发者工具浏览器的F12开发者工具或者fiddler抓包工具来看到formdata这个字段,从中获取form表单中的字段信息使用开发者工具教材、PPT课件、视频20构造表单信息使用代码构造表单信息构造表单信息教材、PPT课件、视频20查看响应使用post发送请求后查看响应内容查看响应教材、PPT课件、视频10课堂总结 选择学生总结本节课所学内容。 总结本节课所学内容思维导图课后自我反思After-ClassSelf-Reflection效果Effect不足Shortcomings改进措施Improvementmeasures课后作业Homework超星尔雅平台课程作业板块参考教案授课教师Instructor所在部门Department课程名称Coursetitle授课日期Date单元标题Unittitle掌握requests库实现POST请求授课地点Venue授课班级Class课时Periods2思政元素家国情怀把人民对美好生活的向往作为奋斗目标,依靠人民创造历史伟业。就目前社会发展趋势分析,我们必定能实现美好生活。知识目标Knowledgeobjectives知道为什么要登陆,了解登陆的方法和手段,理解Cookie登陆流程,掌握requests实现post请求技能目标Skillobjective通过模拟登陆,学生能够运用requests,根据requests库的使用、及其python相关语法规范,实现POST表单登陆态度目标AttitudeobjectivesA1|能形成遵纪守法良好习惯,遵从网络行业从业的相关法规A2|具备爱岗敬业、吃苦耐劳的良好职业道德A3|具有团队合作意识和协作精神A4|具有自主学习能力和自我提高能力A5|具备统筹协调能力、综合运用能力、革新创新能力重点及措施KeypointsandInstructionalstrategies掌握selenium等待难点及措施DifficultPointsandInstructionalstrategies掌握selenium等待教学资源Teachingresources/mooc2-ans/mycourse/tch?courseid=241069066&clazzid=93005747&cpi=238471580&enc=8c37e6187ae29156bbd14940f118c4a8&t=1708932148603&pageHeader=2形成性考核Formativeassessment超星平台记录学生课堂出勤、课堂抢答、课堂加减分等。教学过程DeliveryProcess预计时间Duration教学内容Content教学活动Activity设计意图及信息化手段Resources教师活动(主导)TeacherActivity学生活动(主体)StudentActivity10为什么要等待?等待的方式有哪些?我们在做WEB自动化时,一般要等待页面元素加载完成后,才能执行操作,否则会报找不到元素的错误,这样就要求我们在有些场景下加等待时间。思考为什么要等待教材、PPT课件、视频20三种等待方式强制等待隐式等待显示等待学习三种等待方式教材、PPT课件、视频20强制等待利用time模块的sleep方法来实现,最简单粗暴的等待方法这种叫强制等待,不管你浏览器是否加载完成,都得给我等待3秒,3秒一到,继续执行下面的代码,不建议用这种等待方法,严重影响代码的执行速度理解强制等待教材、PPT课件、视频20隐式等待设置一个等待时间,如果在这个等待时间内,网页加载完成,则执行下一步;否则一直等待时间截止,然后再执行下一步。这样也就会有个弊端,程序会一直等待整个页面加载完成,直到超时,但有时候我需要的那个元素早就加载完成了,只是页面上有个别其他元素加载特别慢,我仍要等待页面全部加载完成才能执行下一步。理解隐式等待教材、PPT课件、视频10显示等待显示等待要用到WebDriverWait理解显示等待教材、PPT课件、视频课后自我反思After-ClassSelf-Reflection效果Effect不足Shortcomings改进措施Improvementmeasures课后作业Homework超星尔雅平台课程作业板块参考教案授课教师Instructor所在部门Department课程名称Coursetitle授课日期Date单元标题Unittitle函数学会使用requests发起POST请求授课地点Venue授课班级Class课时Periods2思政元素道德修养“坚韧不拔的精神”意思是:意志坚定的精神。“坚韧不拔”形容信念坚定,意志顽强,不可动摇,坚强不屈。学习中遇到问题和困难也要有这种精神。知识目标Knowledgeobjectives知道为什么要登陆,了解登陆的方法和手段,理解Cookie登陆流程,掌握requests实现post请求技能目标Skillobjective通过模拟登陆,学生能够运用requests,根据requests库的使用、及其python相关语法规范,实现POST表单登陆态度目标AttitudeobjectivesA1|能形成遵纪守法良好习惯,遵从网络行业从业的相关法规A2|具备爱岗敬业、吃苦耐劳的良好职业道德A3|具有团队合作意识和协作精神A4|具有自主学习能力和自我提高能力A5|具备统筹协调能力、综合运用能力、革新创新能力重点及措施KeypointsandInstructionalstrategiesselenium库的元素的选取定位难点及措施DifficultPointsandInstructionalstrategiesselenium库的元素的选取定位教学资源Teachingresources/mooc2-ans/mycourse/tch?courseid=241069066&clazzid=93005747&cpi=238471580&enc=8c37e6187ae29156bbd14940f118c4a8&t=1708932148603&pageHeader=2形成性考核Formativeassessment超星平台记录学生课堂出勤、课堂抢答、课堂加减分等。教学过程DeliveryProcess预计时间Duration教学内容Content教学活动Activity设计意图及信息化手段Resources教师活动(主导)TeacherActivity学生活动(主体)StudentActivity10Selenium如何定位选取元素?通过方法和标签定位思考Selenium如何定位选取元素?教材、PPT课件、视频20定位选取元素1、利用ID定位元素:find_element_by_id("kw")2、利用tagname定位:find_element_by_tag_name("form")#很少用,tagname就是标签名,如<input><form>定位选取元素教材、PPT课件、视频20定位选取元素3、利用linktext定位:find_element_by_link_text("新闻")find_element_by_xpath("//*[@id='u1']/a[text()='新闻']")4、partiallinktext定位:driver.find_element_by_partial_link_text("新").click()定位选取元素教材、PPT课件、视频20定位选取元素5、classname定位:find_element_by_class_name("s_ipt").send_keys("selenium")6、name定位:driver.find_element_by_name("wd").send_keys("selenium")定位选取元素教材、PPT课件、视频10课堂总结 选择学生总结本节课所学内容。 总结本节课所学内容思维导图课后自我反思After-ClassSelf-Reflection效果Effect不足Shortcomings改进措施Improvementmeasures课后作业Homework超星尔雅平台课程作业板块参考教案授课教师Instructor所在部门Department课程名称Coursetitle授课日期Date单元标题Unittitle函数学会使用requests发起POST请求授课地点Venue授课班级Class课时Periods2思政元素道德修养实事求是,是马克思主义的根本观点,是中国共产党人认识世界、改造世界的根本要求,是我们党的基本思想方法、工作方法、领导方法。”我们党就是靠实事求是起家和兴旺发展起来的,实践反复证明:坚持实事求是,就能兴党兴国;违背实事求是,就会误党误国。写数据分析报告也要遵守实事求是的原则。知识目标Knowledgeobjectives知道为什么要登陆,了解登陆的方法和手段,理解Cookie登陆流程,掌握requests实现post请求技能目标Skillobjective通过模拟登陆,学生能够运用requests,根据requests库的使用、及其python相关语法规范,实现POST表单登陆态度目标AttitudeobjectivesA1|能形成遵纪守法良好习惯,遵从网络行业从业的相关法规A2|具备爱岗敬业、吃苦耐劳的良好职业道德A3|具有团队合作意识和协作精神A4|具有自主学习能力和自我提高能力A5|具备统筹协调能力、综合运用能力、革新创新能力重点及措施KeypointsandInstructionalstrategies掌握fillder工具抓包难点及措施DifficultPointsandInstructionalstrategies掌握fillder工具抓包教学资源Teachingresources/mooc2-ans/mycourse/tch?courseid=241069066&clazzid=93005747&cpi=238471580&enc=8c37e6187ae29156bbd14940f118c4a8&t=1708932148603&pageHeader=2形成性考核Formativeassessment超星平台记录学生课堂出勤、课堂抢答、课堂加减分等。教学过程DeliveryProcess预计时间Duration教学内容Content教学活动Activity设计意图及信息化手段Resources教师活动(主导)TeacherActivity学生活动(主体)StudentActivity10Fillder工具用途?如何使用?Fiddler是一款免费的互联网调试代理工具,是一款国外软件,原版软件无中文版,但有汉化版思考Fillder工具的用途教材、PPT课件、视频30Fiddler下载安装官方文档:/fiddlerFiddler下载安装教材、PPT课件、视频30Fiddle工具的使用抓包Fiddle工具的使用教材、PPT课件、视频10课堂总结 选择学生总结本节课所学内容。 总结本节课所学内容思维导图课后自我反思After-ClassSelf-Reflection效果Effect不足Shortcomings改进措施Improvementmeasures课后作业Homework超星尔雅平台课程作业板块参考教案授课教师Instructor所在部门Department课程名称Coursetitle授课日期Date单元标题Unittitle能够使用常见的抓包工具授课地点Venue授课班级Class课时Periods2思政元素道德修养2022年2月10日,工信部再次面向行业内外公开征求对《工业和信息化领域数据安全管理办法(试行)》的意见,进一步彰显了国家对数据安全的重视程度和谨慎小心。前一次意见征集,是2021年9月30日,工信部对《工业和信息化领域数据安全管理办法(试行)(征求意见稿)》公开征求意见,政府部门对行业反馈的意见进行吸收使用后,形成此次征求意见文本,必将较之以往更为精准有效。知识目标Knowledgeobjectives知道为什么要登陆,了解登陆的方法和手段,理解Cookie登陆流程,掌握requests实现post请求技能目标Skillobjective通过模拟登陆,学生能够运用requests,根据requests库的使用、及其python相关语法规范,实现POST表单登陆态度目标AttitudeobjectivesA1|能形成遵纪守法良好习惯,遵从网络行业从业的相关法规A2|具备爱岗敬业、吃苦耐劳的良好职业道德A3|具有团队合作意识和协作精神A4|具有自主学习能力和自我提高能力A5|具备统筹协调能力、综合运用能力、革新创新能力重点及措施KeypointsandInstructionalstrategies掌握使用Chrome控制台查看网页难点及措施DifficultPointsandInstructionalstrategies掌握使用Chrome控制台查看网页教学资源Teachingresources/mooc2-ans/mycourse/tch?courseid=241069066&clazzid=93005747&cpi=238471580&enc=8c37e6187ae29156bbd14940f118c4a8&t=1708932148603&pageHeader=2形成性考核Formativeassessment超星平台记录学生课堂出勤、课堂抢答、课堂加减分等。教学过程DeliveryProcess预计时间Duration教学内容Content教学活动Activity设计意图及信息化手段Resources教师活动(主导)TeacherActivity学生活动(主体)StudentActivity10为什么要使用Chrome控制台?chrome浏览器提供了一个非常便利的开发者工具,供广大web开发者使用,该工具提供包括查看网页元素、查看请求资源列表、调试JS等功能。讨论为什么要使用Chrome控制台教材、PPT课件、视频20元素面板该面板可查看渲染页面所需的HTML、CSS和DOM(DocumentObjectModel)对象,并可实时编辑这些元素调试页面渲染效果理解元素面板教材、PPT课件、视频20控制台面板该面板记录各种警告与错误信息,并可作为shell在页面上与JavaScript交互理解控制台面板教材、PPT课件、视频20源代码面板该面板中可以设置断点调试JavaScript理解源代码面板教材、PPT课件、视频10课堂总结 选择学生总结本节课所学内容。总结本节课所学内容思维导图课后自我反思After-ClassSelf-Reflection效果Effect不足Shortcomings改进措施Improvementmeasures课后作业Homework超星尔雅平台课程作业板块参考教案授课教师Instructor所在部门Department课程名称Coursetitle授课日期Date单元标题Unittitle能够使用常见的抓包工具授课地点Venue授课班级Class课时Periods2思政元素文化素养千里之行始于足下,不积跬步无以至千里,用中国传统名句告知学生任何复杂的知识都是由简单的构成的,因此在学习的时候不要小看每一个小知识点。知识目标Knowledgeobjectives知道为什么要登陆,了解登陆的方法和手段,理解Cookie登陆流程,掌握requests实现post请求技能目标Skillobjective通过模拟登陆,学生能够运用requests,根据requests库的使用、及其python相关语法规范,实现POST表单登陆态度目标AttitudeobjectivesA1|能形成遵纪守法良好习惯,遵从网络行业从业的相关法规A2|具备爱岗敬业、吃苦耐劳的良好职业道德A3|具有团队合作意识和协作精神A4|具有自主学习能力和自我提高能力A5|具备统筹协调能力、综合运用能力、革新创新能力重点及措施KeypointsandInstructionalstrategies正则表达式解析网页难点及措施DifficultPointsandInstructionalstrategies正则表达式解析网页教学资源Teachingresources/mooc2-ans/mycourse/tch?courseid=241069066&clazzid=93005747&cpi=238471580&enc=8c37e6187ae29156bbd14940f118c4a8&t=1708932148603&pageHeader=2形成性考核Formativeassessment超星平台记录学生课堂出勤、课堂抢答、课堂加减分等。教学过程DeliveryProcess预计时间Duration教学内容Content教学活动Activity设计意图及信息化手段Resources教师活动(主导)TeacherActivity学生活动(主体)StudentActivity10什么是正则表达式?如何正则表达式解析正则表达式?正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。学习什么是正则表达式以及如何正则表达式解析正则表达式教材、PPT课件、视频20re模块Python提供re模块,包含所有正则表达式的功能。由于Python的字符串本身也用\转义,所以要特别注意掌握re模块教材、PPT课件、视频20切分字符串用正则表达式切分字符串比用固定的字符更灵活掌握切分字符串教材、PPT课件、视频20分组除了简单地判断是否匹配之外,正则表达式还有提取子串的强大功能。掌握分组教材、PPT课件、视频10课堂总结 选择学生总结本节课所学内容。 总结本节课所学内容思维导图课后自我反思After-ClassSelf-Reflection效果Effect不足Shortcomings改进措施Improvementmeasures课后作业Homework超星尔雅平台课程作业板块参考教案授课教师Instructor所在部门Department课程名称Coursetitle授课日期Date单元标题Unittitle掌握相关抓包工具的使用授课地点Venue授课班级Class课时Periods2思政元素道德修养所谓理论,就是人们为了解释现实,在大脑中构思出来的想法和观念。从可检验性来看,理论又可以分为科学理论和非科学理论。理论和现实总是有差距,这个差距可以使用协方差来分析。知识目标Knowledgeobjectives知道什么是终端协议,了解终端协议的种类,理解Fidder工具原理,掌握Fidder工具的使用技能目标Skillobjective通过scrapy爬虫,学生能够运行scrapy,根据scrapy的框架手册,来爬取静态或动态页面态度目标AttitudeobjectivesA1|能形成遵纪守法良好习惯,遵从网络行业从业的相关法规A2|具备爱岗敬业、吃苦耐劳的良好职业道德A3|具有团队合作意识和协作精神A4|具有自主学习能力和自我提高能力A5|具备统筹协调能力、综合运用能力、革新创新能力重点及措施KeypointsandInstructionalstrategies掌握使用xpath解析网页难点及措施DifficultPointsandInstructionalstrategies掌握使用xpath解析网页教学资源Teachingresources/mooc2-ans/mycourse/tch?courseid=241069066&clazzid=93005747&cpi=238471580&enc=8c37e6187ae29156bbd14940f118c4a8&t=1708932148603&pageHeader=2形成性考核Formativeassessment超星平台记录学生课堂出勤、课堂抢答、课堂加减分等。教学过程DeliveryProcess预计时间Duration教学内容Content教学活动Activity设计意图及信息化手段Resources教师活动(主导)TeacherActivity学生活动(主体)StudentActivity10什么是xpath?如何使用xpath?XPath即为XML路径语言(XMLPathLanguage),它是一种用来确定XML文档中某部分位置的语言。学习什么是xpath以及如何使用xpath教材、PPT课件、视频20选取节点XPath使用路径表达式在XML文档中选取节点。节点是通过沿着路径或者step来选取的。掌握选取节点教材、PPT课件、视频20语法nodename 选取此节点的所有子节点。/ 从根节点选取。// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。. 选取当前节点。.. 选取当前节点的父节点。@ 选取属性。掌握语法教材、PPT课件、视频20谓语/bookstore/book[1] 选取属于bookstore子元素的第一个book元素。掌握谓语教材、PPT课件、视频10课堂总结 选择学生总结本节课所学内容。 总结本节课所学内容思维导图课后自我反思After-ClassSelf-Reflection效果Effect不足Shortcomings改进措施Improvementmeasures课后作业Homework超星尔雅平台课程作业板块参考教案授课教师Instructor所在部门Department课程名称Coursetitle授课日期Date单元标题UnittitleHttpanalyzer工具授课地点Venue授课班级Class课时Periods2思政元素家国情怀疫情期间,各行各业(医务人员、后勤保障人员、公务员、社区人员、快递小哥、志愿者、宅在家中的等)都对抗击疫情做着各自的贡献。但是每个岗位都与其他岗位息息相关。在自己的岗位做好自己的本质工作,有时间和精力去做些能帮助他人的事情。知识目标Knowledgeobjectives知道什么是终端协议,了解终端协议的种类,理解Fidder工具原理,掌握Fidder工具的使用技能目标Skillobjective通过scrapy爬虫,学生能够运行scrapy,根据scrapy的框架手册,来爬取静态或动态页面态度目标AttitudeobjectivesA1|能形成遵纪守法良好习惯,遵从网络行业从业的相关法规A2|具备爱岗敬业、吃苦耐劳的良好职业道德A3|具有团队合作意识和协作精神A4|具有自主学习能力和自我提高能力A5|具备统筹协调能力、综合运用能力、革新创新能力重点及措施KeypointsandInstructionalstrategies使用BeautifulSoup库解析网页难点及措施DifficultPointsandInstructionalstrategies使用BeautifulSoup库解析网页教学资源Teachingresources/mooc2-ans/mycourse/tch?courseid=241069066&clazzid=93005747&cpi=238471580&enc=8c37e6187ae29156bbd14940f118c4a8&t=1708932148603&pageHeader=2形成性考核Formativeassessment超星平台记录学生课堂出勤、课堂抢答、课堂加减分等。教学过程DeliveryProcess预计时间Duration教学内容Content教学活动Activity设计意图及信息化手段Resources教师活动(主导)TeacherActivity学生活动(主体)StudentActivity10什么是BeautifulSoup?如何使用BeautifulSoup解析页面。BeautifulSoup4和lxml一样,BeautifulSoup也是一个HTML/XML的解析器,主要的功能也是如何解析和提取HTML/XML数据。学习什么是BeautifulSoup以及如何使用BeautifulSoup解析页面。教材、PPT课件、视频30BeautifulSoup支持Python标准库中的HTML解析器Python会使用Python默认的解析器,lxml解析器更加强大,速度更快,推荐使用lxml解析器。理解BeautifulSoup支持Python标准库中的HTML解析器教材、PPT课件、视频30BeautifulSoup使用BeautifulSoup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。掌握BeautifulSoup使用教材、PPT课件、视频10课堂总结 选择学生总结本节课所学内容。 总结本节课所学内容思维导图课后自我反思After-ClassSelf-Reflection效果Effect不足Shortcomings改进措施Improvementmeasures课后作业Homework超星尔雅平台课程作业板块参考教案授课教师Instructor所在部门Department课程名称Coursetitle授课日期Date单元标题UnittitleHttpanalyzer工具授课地点Venue授课班级Class课时Periods2思政元素道德修养各行各业都有不同的岗位,爱岗敬业就是要做好自己岗位上的本质工作。但是各个岗位看似独立却有着密切的关系,如果一个岗位的工作没有做好,会影响整体的效率。知识目标Knowledgeobjectives知道什么是终端协议,了解终端协议的种类,理解Fidder工具原理,掌握Fidder工具的使用技能目标Skillobjective通过scrapy爬虫,学生能够运行scrapy,根据scrapy的框架手册,来爬取静态或动态页面态度目标AttitudeobjectivesA1|能形成遵纪守法良好习惯,遵从网络行业从业的相关法规A2|具备爱岗敬业、吃苦耐劳的良好职业道德A3|具有团队合作意识和协作精神A4|具有自主学习能力和自我提高能力A5|具备统筹协调能力、综合运用能力、革新创新能力重点及措施KeypointsandInstructionalstrategiesHttpanalyzer工具的使用难点及措施DifficultPointsandInstructionalstrategiesHttpanalyzer工具的使用教学资源Teachingresources/mooc2-ans/mycourse/tch?courseid=241069066&clazzid=93005747&cpi=238471580&enc=8c37e6187ae29156bbd14940f118c4a8&t=1708932148603&pageHeader=2形成性考核Formativeassessment超星平台记录学生课堂出勤、课堂抢答、课堂加减分等。教学过程DeliveryProcess预计时间Duration教学内容Content教学活动Activity设计意图及信息化手段Resources教师活动(主导)TeacherActivity学生活动(主体)StudentActivity10使用所学知识爬取静态网页并解析讲解网页结构使用所学知识爬取静态网页并解析教材、PPT课件、视频20使用requests库发送请求编写代码实操使用requests库发送请求教材、PPT课件、视频20使用xpath表达式解析数据编写代码实操使用xpath表达式解析数据教材、PPT课件、视频20使用re正则表达式解析编写代码实操使用re正则表达式解析教材、PPT课件、视频10课堂总结 选择学生总结本节课所学内容。 总结本节课所学内容思维导图课后自我反思After-ClassSelf-Reflection效果Effect不足Shortcomings改进措施Improvementmeasures课后作业Homework超星尔雅平台课程作业板块参考教案授课教师Instructor所在部门Department课程名称Coursetitle授课日期Date单元标题UnittitleFidder工具的使用授课地点Venue授课班级Class课时Periods2思政元素文化素养相关分析用于分析两个事物之间的关系情况,在现实分析中,相关分析往往有第三变量的影响或作用,而使得相关系数不能真实地体现其线性相关程度。学习成绩的好坏也和其他因素有关联,认真生活,做好每一件事情,提高自己成绩的同时也提高自己的文化修养。知识目标Knowledgeobjectives知道什么是终端协议,了解终端协议的种类,理解Fidder工具原理,掌握Fidder工具的使用技能目标Skillobjective通过scrapy爬虫,学生能够运行scrapy,根据scrapy的框架手册,来爬取静态或动态页面态度目标AttitudeobjectivesA1|能形成遵纪守法良好习惯,遵从网络行业从业的相关法规A2|具备爱岗敬业、吃苦耐劳的良好职业道德A3|具有团队合作意识和协作精神A4|具有自主学习能力和自我提高能力A5|具备统筹协调能力、综合运用能力、革新创新能力重点及措施KeypointsandInstructionalstrategies掌握json数据格式难点及措施DifficultPointsandInstructionalstrategies掌握json数据格式教学资源Teachingresources/mooc2-ans/mycourse/tch?courseid=241069066&clazzid=93005747&cpi=238471580&enc=8c37e6187ae29156bbd14940f118c4a8&t=1708932148603&pageHeader=2形成性考核Formativeassessment超星平台记录学生课堂出勤、课堂抢答、课堂加减分等。教学过程DeliveryProcess预计时间Duration教学内容Content教学活动Activity设计意图及信息化手段Resources教师活动(主导)TeacherActivity学生活动(主体)StudentActivity10为什么要使用json,什么是json数据?JSON(JavaScriptObjectNotation,JS对象简谱)是一种轻量级的数据交换格式。思考为什么要使用json,了解什么是json数据教材、PPT课件、视频30导入jsonimportjson导入json教材、PPT课件、视频30使用JSON函数json.dumps()json.loads()使用JSON函数教材、PPT课件、视频10课堂总结 选择学生总结本节课所学内容。总结本节课所学内容思维导图课后自我反思After-ClassSelf-Reflection效果Effect不足Shortcomings改进措施Improvementmeasures课后作业Homework超星尔雅平台课程作业板块参考教案授课教师Instructor所在部门Department课程名称Coursetitle授课日期Date单元标题UnittitleFidder工具的使用授课地点Venue授课班级Class课时Periods2思政元素文化素养万事万物都有自己的规律,根据事物运行的规律找出其内在的联系,这就是回归分析的核心思想,也是科学研究的一种精神。知识目标Knowledgeobjectives知道什么是终端协议,了解终端协议的种类,理解Fidder工具原理,掌握Fidder工具的使用技能目标Skillobjective通过scrapy爬虫,学生能够运行scrapy,根据scrapy的框架手册,来爬取静态或动态页面态度目标AttitudeobjectivesA1|能形成遵纪守法良好习惯,遵从网络行业从业的相关法规A2|具备爱岗敬业、吃苦耐劳的良好职业道德A3|具有团队合作意识和协作精神A4|具有自主学习能力和自我提高能力A5|具备统筹协调能力、综合运用能力、革新创新能力重点及措施KeypointsandInstructionalstrategies什么是PyMySQL难点及措施DifficultPointsandInstructionalstrategies什么是PyMySQL教学资源Teachingresources/mooc2-ans/mycourse/tch?courseid=241069066&clazzid=93005747&cpi=238471580&enc=8c37e6187ae29156bbd14940f118c4a8&t=1708932148603&pageHeader=2形成性考核Formativeassessment超星平台记录学生课堂出勤、课堂抢答、课堂加减分等。教学过程DeliveryProcess预计时间Duration教学内容Content教学活动Activity设计意图及信息化手段Resources教师活动(主导)TeacherActivity学生活动(主体)StudentActivity10什么是PyMySQL?PyMySQL模块中提供的API与SQLite3模块中提供的API类似,因为他们都是遵循PythonDBAPI2.0标准。学习什么是PyMySQL教材、PPT课件、视频20安装PyMySQLpipinstallpymysql安装PyMySQL教材、PPT课件、视频20PyMysql的几个重要方法1. connect函数:连接数据库,根据连接的数据库类型不同,该函数的参数也不相同。connect函数返回Connection对象。2. cursor方法:获取操作数据库的Cursor对象。cursor方法属于Connection对象。3. execute方法:用于执行SQL语句,该方法属于Cursor对象。掌握PyMysql的几个重要方法教材、PPT课件、视频20PyMysql的几个重要方法4.commit方法:在修改数据库后,需要调用该方法提交对数据库的修改,commit方法属于Cursor对象。5. rollback方法:如果修改数据库失败,一般需要调用该方法进行数据库回滚操作,也就是将数据库恢复成修改之前的样子。掌握PyMysql的几个重要方法教材、PPT课件、视频10课堂总结 选择学生总结本节课所学内容。 总结本节课所学内容思维导图课后自我反思After-ClassSelf-Reflection效果Effect不足Shortcomings改进措施Improvementmeasures课后作业Homework超星尔雅平台课程作业板块参考教案授课教师Instructor所在部门Department课程名称Coursetitle授课日期Date单元标题UnittitleScrapy框架的命令授课地点Venue授课班级Class课时Periods2思政元素道德修养马克思主义哲学指出在复杂事物自身包含的多种矛盾中,每种矛盾所处的地位、对事物发展所起的作用是不同的,总有主次、重要非重要之分,其中必有一种矛盾与其它诸种矛盾相比较而言,处于支配地位,对事物发展起决定作用,这种矛盾就叫做主要矛盾。正是由于,矛盾有主次之分,我们在想问题办事情的方法论上也应当相应地有重点与非重点之分,要善于抓重点、集中力量解决主要矛盾。写数据分析报告也需要抓主要矛盾,解决主要矛盾。知识目标Knowledgeobjectives知道什么框架,了解scrapy框架,理解scrapy框架的工作原理,掌握scrapy框架的使用技能目标Skillobjective通过scrapy爬虫,学生能够运行scrapy,根据scrapy的框架手册,来爬取静态或动态页面态度目标AttitudeobjectivesA1|能形成遵纪守法良好习惯,遵从网络行业从业的相关法规A2|具备爱岗敬业、吃苦耐劳的良好职业道德A3|具有团队合作意识和协作精神A4|具有自主学习能力和自我提高能力A5|具备统筹协调能力、综合运用能力、革新创新能力重点及措施KeypointsandInstructionalstrategies认识scrapy框架运行原理难点及措施DifficultPointsandInstructionalstrategies认识scrapy框架运行原理教学资源Teachingresources/mooc2-ans/mycourse/tch?courseid=241069066&clazzid=93005747&cpi=238471580&enc=8c37e6187ae29156bbd14940f118c4a8&t=1708932148603&pageHeader=2形成性考核Formativeassessment超星平台记录学生课堂出勤、课堂抢答、课堂加减分等。教学过程DeliveryProcess预计时间Duration教学内容Content教学活动Activity设计意图及信息化手段Resources教师活动(主导)TeacherActivity学生活动(主体)StudentActivity10什么是scrapy框架Scrapy是一个为了抓取网页数据、提取结构性数据而编写的应用框架学习什么是scrapy框架教材、PPT课件、视频20scrapy框架原理五大组件两个中间件理解scrapy框架原理教材、PPT课件、视频20scrapy框架运行原理数据流传递原理理解scrapy框架运行原理教材、PPT课件、视频20scrapy框架文件文件功能认识熟悉scrapy框架文件教材、PPT课件、视频10课堂总结 选择学生总结本节课所学内容。 总结本节课所学内容思维导图课后自我反思After-ClassSelf-Reflection效果Effect不足Shortcomings改进措施Improvementmeasures课后作业Homework超星尔雅平台课程作业板块参考教案授课教师Instructor所在部门Department课程名称Coursetitle授课日期Date单元标题UnittitleScrapy框架相关参数的使用授课地点Venue授课班级Class课时Periods2思政元素道德修养放眼望去,在整个人类历史长河中,人类对自然施加的一切改造,都是创新的结果。从工具的使用,文化艺术的发展,到社会关系和组织的演化,无一例外。创新精神是我们不可或缺的,撰写数据分析报告也要有创新精神,不能生搬硬套。知识目标Knowledgeobjectives知道什么框架,了解scrapy框架,理解scrapy框架的工作原理,掌握scrapy框架的使用技能目标Skillobjective通过scrapy爬虫,学生能够运行scrapy,根据scrapy的框架手册,来爬取静态或动态页面态度目标AttitudeobjectivesA1|能形成遵纪守法良好习惯,遵从网络行业从业的相关法规A2|具备爱岗敬业、吃苦耐劳的良好职业道德A3|具有团队合作意识和协作精神A4|具有自主学习能力和自我提高能力A5|具备统筹协调能力、综合运用能力、革新创新能力重点及措施KeypointsandInstructionalstrategiesscrapy框架创建项目,全局命令难点及措施DifficultPointsandInstructionalstrategiesscrapy框架创建项目,全局命令教学资源Teachingresources/mooc2-ans/mycourse/tch?courseid=241069066&clazzid=93005747&cpi=238471580&enc=8c37e6187ae29156bbd14940f118c4a8&t=1708932148603&pageHeader=2形成性考核Formativeassessment超星平台记录学生课堂出勤、课堂抢答、课堂加减分等。教学过程DeliveryProcess预计时间Duration教学内容Content教学活动Activity设计意图及信息化手段Resources教师活动(主导)TeacherActivity学生活动(主体)StudentActivity10如何使用scrapy框架创建项目?使用scrapy框架创建项目学习如何使用scrapy框架创建项目教材、PPT课件、视频20创建Scrapy爬虫项目调出CMD,输入如下代码并按【Enter】键,创建Scrapy爬虫项目:scrapystartprojectstockstar创建Scrapy爬虫项目教材、PPT课件、视频20创建spider文件Scrapygenspiderxxx创建spider文件教材、PPT课件、视频20项目文件介绍放置spider代码的目录文件spiders(用于编写爬虫)。项目中的item文件items.py(用于保存所抓取的数据的容器,其存储方式类似于Python的字典)。项目的中间件middlewares.py(提供一种简便的机制,通过允许插入自定义代码来拓展Scrapy的功能)。项目的pipelines文件pipelines.py(核心处理器)。项目的设置文件settings.py。项目的配置文件scrapy.cfg。理解项目文件教材、PPT课件、视频10课堂总结 选择学生总结本节课所学内容。 总结本节课所学内容思维导图课后自我反思After-ClassSelf-Reflection效果Effect不足Shortcomings改进措施Improvementmeasures课后作业Homework超星尔雅平台课程作业板块参考教案授课教师Instructor所在部门Department课程名称Coursetitle授课日期Date单元标题UnittitleScrapy框架相关参数的使用授课地点Venue授课班级Class课时Periods2思政元素道德修养人类进入21世纪,知识门类激增,大量的边缘学科涌现,知识更新周期不断缩短,信息化特征明显。这是一个终身学习的时代,一个更注重开发人类自身的资源、潜力与价值的时代。所以说21世纪对我们的素质提出了更高要求。随着时代的进步我们需要与时俱进。知识目标Knowledgeobjectives知道什么框架,了解scrapy框架,理解scrapy框架的工作原理,掌握scrapy框架的使用技能目标Skillobjective通过scrapy爬虫,学生能够运行scrapy,根据scrapy的框架手册,来爬取静态或动态页面态度目标AttitudeobjectivesA1|能形成遵纪守法良好习惯,遵从网络行业从业的相关法规A2|具备爱岗敬业、吃苦耐劳的良好职业道德A3|具有团队合作意识和协作精神A4|具有自主学习能力和自我提高能力A5|具备统筹协调能力、综合运用能力、革新创新能力重点及措施KeypointsandInstructionalstrategies了解静态网页和动态网页区别,如何指定爬取策略难点及措施DifficultPointsandInstructionalstrategies了解静态网页和动态网页区别,如何指定爬取策略教学资源Teachingresources/mooc2-ans/mycourse/tch?courseid=241069066&clazzid=93005747&cpi=238471580&enc=8c37e6187ae29156bbd14940f118c4a8&t=1708932148603&pageHeader=2形成性考核Formativeassessment超星平台记录学生课堂出勤、课堂抢答、课堂加减分等。教学过程DeliveryProcess预计时间Duration教学内容Content教学活动Activity设计意图及信息化手段Resources教师活动(主导)TeacherActivity学生活动(主体)StudentActivity10什么是动态页面?动态页面如何抓取?动态瀑布流和ajax的页面,通常按需返回html和json.学习什么是动态页面以及动态页面如何抓取教材、PPT课件、视频20ajax老式网站在刷新时会返回页面的全部内容,但若只更新部分,即可大大节约带宽。该方式叫ajax掌握ajax教材、PPT课件、视频20通过浏览器和抓包可以获取这些隐藏请求,但需要对HTTP请求的原理比较熟悉,不适合于初学者。通过浏览器和抓包教材、PPT课件、视频20Hawk流程采用自动嗅探的方式来进行。Hawk成为后端代理,会拦截和分析所有系统级Http请求,并将包含关键字的请求筛选出来学习Hawk流程教材、PPT课件、视频10课堂总结 选择学生总结本节课所学内容。 总结本节课所学内容思维导图课后自我反思After-ClassSelf-Reflection效果Effect不足Shortcomings改进措施Improvementmeasures课后作业Homework超星尔雅平台课程作业板块参考教案授课教师Instructor所在部门Department课程名称Coursetitle授课日期Date单元标题Unittitle使用scrapy框架定制爬虫框架授课地点Venue授课班级Class课时Periods2思政元素文化素养“坚韧不拔的精神”意思是:意志坚定的精神。“坚韧不拔”形容信念坚定,意志顽强,不可动摇,坚强不屈。学习中遇到问题和困难也要有这种精神。知识目标Knowledgeobjectives知道什么框架,了解scrapy框架,理解scrapy框架的工作原理,掌握scrapy框架的使用能运用所学知识进行综合项目开发技能目标Skillobjective通过scrapy爬虫,学生能够运行scrapy,根据scrapy的框架手册,来爬取静态或动态页面态度目标AttitudeobjectivesA1|能形成遵纪守法良好习惯,遵从网络行业从业的相关法规A2|具备爱岗敬业、吃苦耐劳的良好职业道德A3|具有团队合作意识和协作精神A4|具有自主学习能力和自我提高能力A5|具备统筹协调能力、综合运用能力、革新创新能力重点及措施KeypointsandInstructionalstrategies理解聚焦爬虫的使用范围,理解通用爬虫使用范围,理解增量爬虫使用范围难点及措施DifficultPointsandInstructionalstrategies理解聚焦爬虫的使用范围,理解通用爬虫使用范围,理解增量爬虫
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 协会宣传部工作制度
- 南山爱普生工作制度
- 卫生室年度工作制度
- 赣州市2026特岗教师招聘考试-教育综合-学科专业知识试题(含答案)
- 县健康教育工作制度
- 县小康社会工作制度
- 县级三防办工作制度
- 参照管理机关工作制度
- 反腐败宣传工作制度
- 发廊员工工作制度范本
- 2026秋招:东方航空笔试题及答案
- 2025年北京市西城区中考化学模拟卷
- 2026年山西同文职业技术学院高职单招职业适应性测试模拟试题含答案解析
- 2025年AASM指南:成人OSA住院评估与管理
- 规范参股公司管理制度
- 2025人教版三年级数学上册 第六单元 分数的初步认识 单元分层作业
- 止水钢板施工人员配置
- 职场课课件教学课件
- 2025深圳南山半程马拉松竞赛组织方案
- 无人吊装施工方案(3篇)
- 2026年新疆生产建设兵团兴新职业技术学院单招职业技能测试题库及答案详解一套
评论
0/150
提交评论