Python网络爬虫基础教程-教学大纲_第1页
Python网络爬虫基础教程-教学大纲_第2页
Python网络爬虫基础教程-教学大纲_第3页
Python网络爬虫基础教程-教学大纲_第4页
Python网络爬虫基础教程-教学大纲_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

博学谷——让IT教学更简单,让IT学习更有效PAGE12《Python网络爬虫基础教程》课程教学大纲(课程英文名称)课程编号:学分:x学分学时:54课时(其中:讲课32课时上机22课时)先修课程:《Python网络爬虫基础教程》适用专业:计算机相关专业一、课程的性质与目标数据抓取是面向计算机相关专业的一门专业课,涉及网络爬虫基础知识、网页请求原理、静态页面数据抓取、动态页面数据抓取、数据存储、提升网络爬虫速度、验证码识别、网络爬虫框架Scrapy等内容。通过本课程的学习,学生能够掌握网络爬虫相关知识,学会使用Python编写网络爬虫应用程序。本课程适用于广大计算机编程的初学者。课程设计思路和教学要求课程设计理念:坚持“理论够用度,突出实践教学”的宗旨,以就业为导向、应用为目标、实践为主线,以案例驱动式教学为特色,体现“教、学、做”一体教学方法。重视学生职业能力的培养,突出课程与企业的紧密联系,确保培养的内容与就业市场的需求达到无缝衔接。课程设计思路:课程内容需突出技能性,以理论适度、重在实践为原则,将Python网络爬虫用到的基础知识与基本技能作为主要的教学内容。在教学方式上采用“理论知识+代码示例+案例练习”的模式,既有普适性的介绍,又提供了充足的案例,确保读者在理解核心知识的前提下可以做到学以致用。通过使用本书,读者可以全面地掌握Python网络爬虫的相关知识,具备开发网络爬虫程序的能力。操作系统:Windows7(64位)开发工具:PyCharm三、课程的主要内容及基本要求第1章初识网络爬虫学习单元认识网络爬虫课时3学习目标熟悉网络爬虫的概念及分类,能够归纳通用网络爬虫和聚焦网络爬虫的区别了解网络爬虫的应用场景,能够列举至少3个网络爬虫的应用场景熟悉网络爬虫的Robots协议,能够说明robots.txt文件中每个选项的含义熟悉防网络爬虫的应对策略,能够列举至少3个应对防网络爬虫的策略掌握网络爬虫的工作原理,能够归纳通用网络爬虫和聚焦网络爬虫的工作原理熟悉网络爬虫的工作流程,能够归纳网络爬虫抓取网页数据的完整流程了解网络爬虫的实现技术,能够归纳使用Python实现网络爬虫有哪些优势熟悉网络爬虫的实现流程,能够归纳使用Python实现网络爬虫的流程熟悉AIGC工具的基本使用,能够使用AIGC编写网络爬虫程序学习内容知识点掌握程度重点难点什么是网络爬虫了解网络爬虫的应用场景了解Robots协议了解防爬虫应对策略熟悉√网络爬虫的工作原理熟悉√网络爬虫抓取网页的流程了解网络爬虫的实现技术了解Python实现网络爬虫的流程熟悉AIGC工具的安装与使用掌握√使用AIGC工具快速爬虫掌握第2章网页请求原理学习单元网络请求原理课时6学习目标了解并能够复述浏览器加载网页的过程熟悉HTTP的基础知识,能够归纳URL格式、HTTP请求格式和HTTP响应格式熟悉网页的基础知识,能够归纳网页的开发技术、结构、分类和数据格式掌握HTTP抓包工具Fiddler的使用,能够独立安装并使用Fiddler工具熟悉浏览器开发者工具的使用,能够该工具分析网页结构和监控网络请求学习内容知识点掌握程度重点难点浏览器加载网页的完整过程了解URL简介熟悉HTTP和HTTPS了解HTPP请求格式熟悉HTTP响应格式熟悉网页开发技术熟悉网页的结构熟悉√网页的分类了解网页数据的格式熟悉√Fiddler的工作原理熟悉Fiddler的下载与安装掌握√Fiddler界面详解掌握Fiddler捕获HTTPS页面的设置掌握√Fiddler的基本使用掌握√√浏览器开发者工具掌握√√第3章抓取静态网页数据学习单元抓取静态网页数据课时5学习目标了解抓取静态网页的实现技术,能够说出每种实现技术的特点掌握Requests中基本请求的发送方式,能够向服务器发送GET请求和POST请求掌握Requests中响应内容的处理方式,能够根据需要获取响应内容掌握Requests中请求头的定制方式,能够为GET请求和POST请求定制请求头掌握Requests中验证Cookie的方式,能够为GET请求和POST请求携带Cookie掌握Requests中保持会话的方式,能够使用Session类的方法实现保持会话的效果掌握Requests中SSL证书验证的方式,能够在请求SSL证书失效网站时关闭验证掌握Requests中代理服务器的设置方式,能够为请求设置代理服务器掌握Requests中异常的处理方式,能够在程序中处理请求超时异常学习内容知识点掌握程度重点难点抓取静态网页的技术了解发送GET请求掌握√发送POST请求掌握√处理响应掌握定制请求头掌握√验证Cookie掌握√保持会话掌握√√SSL证书验证掌握代理服务器简介熟悉设置代理服务器掌握√√检测代理IP的有效性掌握处理异常掌握第4章解析网页数据学习单元解析网页数据课时6学习目标了解解析网页数据的技术,能够说出正则表达式、Xpath、BeautifulSoup与JSONPath的适用场景熟悉正则表达式的语法,能够归纳元字符与预定义字符集的作用掌握re模块的用法,能够灵活应用re模块和正则表达式解析网页数据了解XPath的概念,能够区分XPath路径表达式和正则表达式的搜索方式掌握XPath的语法,能够根据需要编写XPath路径表达式掌握XPath的开发工具,能够独立安装与使用XPath测试器掌握lxml库的用法,能够灵活应用lxml库和XPath路径表达式解析网页数据熟悉BeautifulSoup,能够归纳BeautifulSoup提供的核心类以及基本使用掌握BeautifulSoup类的对象的创建方式,能够使用该类的构造方法创建对象掌握BeautifulSoup中选取节点的方式,能够使用查找方法和CSS选择器选取节点熟悉JSONPath的语法,能够根据需要编写JSONPath表达式掌握jsonpath模块的用法,能够灵活运用jsonpath模块和JSONPath表达式解析数据学习内容知识点掌握程度重点难点解析网页数据的技术了解正则表达式的语法熟悉√re模块的使用掌握XPath简介了解XPath语法掌握√√XPath开发工具掌握lxml库的核心类掌握√BeautifulSoup简介熟悉创建BeautifulSoup类的对象掌握√通过查找方法选取节点掌握√√通过CSS选择器选取节点掌握√√JSONPath语法熟悉jsonpath模块的使用掌握√第5章抓取动态网页数据学习单元抓取动态网页数据课时5学习目标了解抓取动态网页的技术,能够区分每种技术有哪些不同掌握Selenium和WebDriver的安装与配置,能够独立安装Selenium和WebDriver掌握Selenium的基本使用,能够使用Selenium实现抓取动态网页数据的功能学习内容知识点掌握程度重点难点抓取动态网页的技术了解Selenium和WebDriver的安装与配置掌握√WebDriver类的常用属性和方法掌握√定位元素掌握√鼠标操作掌握√√下拉列表框操作掌握√弹出框处理掌握√√窗口切换掌握√页面等待掌握√第6章提升网络爬虫速度学习单元提升网络爬虫速度课时5学习目标了解网络爬虫速度的提升方案,能够说出多线程和协程提升爬虫速度的区别熟悉多线程爬虫的运行流程,能够归纳多线程爬虫的运行流程掌握多线程爬虫的实现技术,能够使用threading和queue模块实现多线程爬虫熟悉协程爬虫的运行流程,能够归纳协程爬虫的运行流程掌握协程爬虫的实现技术,能够使用asyncio和aiohttp库实现协程爬虫学习内容知识点掌握程度重点难点网络爬虫速度提升方案了解多线程爬虫流程简介熟悉多线程爬虫实现技术掌握√√多线程爬虫基本示例掌握√多线程爬虫性能分析掌握协程爬虫流程简介熟悉协程爬虫实现技术掌握√√协程爬虫基本示例掌握√协程爬虫性能分析掌握第7章存储数据学习单元存储数据课时4学习目标了解数据存储的两种方式,能够说出文件存储和数据库存储的利弊掌握MongoDB数据库的安装,能够独立在计算机上安装MongoDB数据库掌握Python操作MongoDB的方式,能够使用pymongo库操作MongoDB数据库掌握Redis数据库的安装,能够独立在计算机上安装Redis数据库掌握Python操作Redis的方式,能够使用redis库操作Redis数据库学习内容知识点掌握程度重点难点数据存储的方式了解下载与安装MongoDB掌握使用Python操作MongoDB掌握√√下载与安装Redis掌握使用Python操作Redis掌握√√Redis桌面管理工具熟悉第8章验证码识别学习单元验证码识别课时6学习目标掌握字符验证码的识别方法,能够使用pytesseract识别字符验证码熟悉滑动拼图验证码的识别方法,能够使用Selenium识别滑动拼图验证码熟悉点选验证码的识别方法,能够使用Selenium结合超级鹰平台识别点选验证码学习内容知识点掌握程度重点难点字符验证码的识别_Tesseract-OCR掌握√字符验证码的识别_百度OCR掌握√√滑动拼图验证码的识别熟悉点选验证码的识别_注册超级鹰账号掌握点选验证码的识别_截取点选验证码图片掌握√点选验证码的识别_使用超级鹰识别点选验证码的文字掌握√点选验证码的识别_使用Selenium单击验证码中的文字掌握√第9章初识网络爬虫框架Scrapy学习单元初识网络爬虫框架Scrapy课时4学习目标了解什么是Scrapy框架,能够复述出Scrapy框架的优点与缺点熟悉Scrapy框架的架构,能够归纳Scrapy框架内每个组件的功能与职责熟悉Scrapy框架的运作流程,能够归纳Scrapy框架的运作流程掌握Scrapy框架的安装方式,能够独立安装Scrapy框架,并能解决安装过程中出现的常见问题掌握Scrapy框架的基本操作,能够应用Scrapy框架新建项目和制作爬虫学习内容知识点掌握程度重点难点Scrapy框架简介了解Scrapy框架的架构熟悉√Scrapy框架的运作流程熟悉√Scrapy框架的安装掌握新建Scrapy项目掌握√明确采集目标掌握√√制作爬虫掌握√√永久存储数据掌握第10章Scrapy核心组件与CrawlSpider类学习单元Scrapy核心组件与CrawlSpider类课时5学习目标掌握Spiders组件,能够应用Spiders组件实现数据的抓取和解析掌握ItemPipeline组件,能够应用ItemPipeline组件实现处理后期数据的功能掌握DownloaderMiddlewares组件,能够应用DownloaderMiddlewares中间件应对防爬虫措施掌握Settings组件,能够应用Settings组件中的配置项定制各个Scrapy组件的行为熟悉CrawlSpider类的用途,能够归纳CrawlSpider与Spider的区别了解CrawlSpider类的工作原理,能够说出CrawlSpider类是如何工作的掌握Rule类的使用,能够灵活应用Rule类制定爬虫抓取规则掌握LinkExtractor类的使用,能够灵活应用LinkExtractor类提取需要跟踪爬取的链接学习内容知识点掌握程度重点难点Spiders组件掌握√ItemPipeline组件掌握√内置下载中间件掌握√自定义下载中间件掌握√激活下载中间件掌握Settings组件掌握√CrawlSpider类简介熟悉CrawlSpider类的工作原理了解√通过Rule类决定抓取规则掌握√√通过LinkExtractor类提取链接掌握√√第11章分布式网络爬虫Scrapy-Redis学习单元分布式网络爬虫Scrapy-Redis课时5学习目标了解分布式网络爬虫,能够说出采用主从模式的分布式网络爬虫的特点熟悉Scrapy-Redis的架构,能够归纳Scrapy-Redis架构的原理熟悉Scrapy-Redis的运作流程,能够归纳Scrapy-Redis的运作流程掌握开发Scrapy-Redis的准备工作,能够搭建Scrapy-Redis的开发环境掌握Scrapy-Redis的基本操作,能够灵活应用Scrapy-Redis开发分布式网络爬虫学习内容知识点掌握程度重点难点分布式网络爬虫简介了解Scrapy-Redis架构熟悉√Scrapy-Redis运作流程熟悉安装Scrapy-Redis掌握修改配置文件掌握测试远程连接掌握新建Scrapy-Redis项目掌握√明确采集目标掌握制作爬虫掌握√√运行爬虫掌握√√使用管道存储数据掌握√√分布式网络爬虫简介了解四、课时分配章目讲课上机合计第1章认识网络爬虫213第2章网页请求原理426第3章抓取静态网页数据325第4章解析网页数据426第5章抓取动态网页数据325第6章提升网络爬虫速度325第7章存储数据224第8章验证码识别336第9章初识网络爬虫框架Scrapy224第10章Scrapy核心组件与CrawlSpider类325第11章分布式网络爬虫Scrapy-Redis325合计322254五、考核模式与成绩评定办法本课程为考试课程,期末考试采用百分制的闭卷考试模式。学生的考试成绩由平时成绩(3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论