《大数据导论》课件-3.5.4 Scrapy爬虫实战_第1页
《大数据导论》课件-3.5.4 Scrapy爬虫实战_第2页
《大数据导论》课件-3.5.4 Scrapy爬虫实战_第3页
《大数据导论》课件-3.5.4 Scrapy爬虫实战_第4页
《大数据导论》课件-3.5.4 Scrapy爬虫实战_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据导论Scrapy爬虫实战————数据采集实战题目:2021年GZ-2021041大数据技术与应用赛项赛题6月13日更新,任务书-5,模块B:数据采集与处理.全国职业院校技能大赛“大数据技术与应用”赛项模块B:数据采集与处理Scrapy实战说明任务说明任务一:获取“配送平台”页面相关数据

自行创建Scrapy工程编写工程代码,获取“配送平台”页面相关数据,通过工程代码分页获取,将使用re解析分页链接的程序源代码复制粘贴至对应报告中。任务二:获取“店铺运营数据”页面相关数据

编写工程代码,获取“店铺运营数据”页面相关数据,通过工程代码分页获取,将使用re解析分页链接的程序源代码复制粘贴至对应报告中。任务说明任务三:将获取数据存入json文件

运行代码,爬取“配送平台”页面与“店铺运营数据”页面数据分别至restaurant_data.json与grey_test.json文件。任务说明源码分析任务一:

根据任务描述,需要获取“配送平台”页面相关数据,即“配送平台”页面的表格中的所有数据,且分页页面也需要爬取。

分析源码后,发现表格数据在HTML的如下节点内。<tablecellspacing="0"cellpadding="0"border="0"class="el-table__body"style="width:100%"></table>其对应的页面xpath路径是://table[@cellspacing='0']每一行数据对应的xpath路径是:

//table[@cellspacing='0']//tr[@class='el-table__row']第一项数据在每一行中,对应的xpath路径是:

./td[@class='el-table_2_column_10is-center'][1]/div[@class='cell']/text()源码分析任务二:

根据任务描述,需要获取“店铺运营数据”页面相关数据,即“店铺运营数据”页面的表格中的所有数据,且分页页面也需要爬取。

分析源码后,发现“店铺运营数据”页面源代码结构与任务一“配送平台”的结构一致。源码分析分页链接:

任务一与任务二都涉及到页面分页爬取的要求。分析网页html源码可知,下一页的链接在如下节点之后:<ulclass="elr"><liclass="numberactive"></li>利用正则表达式提取:

active">.*\s+?<liclass="number"><ahref="(.*html)">重写构造请求由于不是单页面数据采集,需要分次根据页面实际下一页链接进行爬取。因此需要重写Scrapy框架的start_requests方法,重写方法如下:其中,scrapy.Request中的callback参数是指回调方法,用于将响应的报文进行解析处理。任务实现--items.py1、任务一item模型:2、任务二item模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论