版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
制作爬虫及永久存储数据
——数据采集技术
创建爬虫01020304知识点抓取网页数据解析网页数据永久存储数据创建爬虫01
创建爬虫在数据采集的过程中,创建爬虫是至关重要的第一步。首先,我们需要为爬虫赋予一个独一无二的名称,这个名称不仅方便我们在项目中识别和管理该爬虫,也是整个爬虫项目的标识。创建爬虫的命令格式如下。scrapygenspider爬虫名称"爬取域"例如,在命令行窗口中切换当前的目录为子目录mySpider/spiders,创建一个名称为rdyc、爬取域为的爬虫。scrapygenspiderrdyc“”接下来,我们在rdyc.py文件中对刚刚生成的RdycSpider类进行修改,为爬虫指定要抓取的初始URL。然后修改parse()方法,在该方法中将response中的内容写入到本地的book_info.txt文件中,具体代码如下。importscrapy
classItcastSpider(scrapy.Spider):name='itcast'#爬虫名称
allowed_domains=['']#爬虫允许爬取的范围
start_urls=['/szjc/Index.html']#爬虫的起始url列表
defparse(self,response):"""
用于解析网页数据,并返回抽取的数据
:paramresponse:相应的数据
:return:"""withopen('book_info.txt','w',encoding='utf-8')asf:#text属性,以字符串的形式返回网页源代码
f.write(response.text)#pass抓取网页数据02确定初始URL后,就可以运行爬虫了。在Scrapy框架中,我们可以通过命令行启动爬虫,运行爬虫的命令格式如下。
抓取网页数据scrapycrawl爬虫名称scrapycrawlmyspider例如,在命令行窗口中切换当前目录为itcast.py文件所在的目录,运行爬虫itcast,命令如下。解析网页数据03
解析网页数据根据以上两步,我们已经成功获取到了网页源代码,紧接着我们可以从源代码中提取目标数据。在提取目标数据前,我们需要分析源代码,了解目标对象的路径表达式,之后编写以下代码。importscrapyfrom..itemsimportRdycSpiderItem
#导入rdyc_spider/items.py中定义的RdycSpiderItem类
classItcastSpider(scrapy.Spider):name='itcast'#爬虫名称
allowed_domains=['']#爬虫允许爬取的范围
start_urls=['/szjc/Index.html']#爬虫的起始url列表
defparse(self,response):"""
用于解析网页数据,并返回抽取的数据
:paramresponse:相应的数据
:return:"""items=[]#存储所有书籍的信息
foreachinresponse.xpath("//div[@class='wukuang']"):#创建MyspiderItem类的对象
item=RdycSpiderItem()#使用XPath的路径表达式选取节点
title=each.xpath("p[1]/a/text()")author=each.xpath("p[2]")isbn=each.xpath("p[3]")#将每本书籍的信息封装成RdycSpiderItem类的对象
item["title"]=titleitem["author"]=authoritem["isbn"]=isbnprint(item)永久存储数据04
永久存储数据永久存储数据是使用Scrapy框架的最后一步操作,主要是对获取的目标数据进行永久性存储。Scrapy中主要有4种方式简单保存数据,这4种方式都是在运行爬虫的命令后面加上-o选项,通过该选项输出指定格式的文件。#输出JSON格式,默认为Unicode编码scrapycrawlitcast-oteachers.json#输出JSONLines格式,默认为Unicode编码scrapycrawl
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中药比选采购管理制度
- 万达采购与付款制度
- 大宗建材采购规范制度
- 网上集中采购制度
- 村级采购管理制度
- 纺织采购部制度
- 儿童用药采购管理制度
- 企业资产采购管理制度
- 基本药物采购制度
- 商超采购酒类管理制度
- 吉林市2024~2025学年度初中毕业年级第一次阶段性教学质量检测 语文(含答案)
- 新工科大学英语 课件 Unit 1 Future by design;Unit 2 Living smarter,living better
- 2025年路桥专业中级试题及答案
- 纺织厂5S管理课件
- 乡风文明建设课件
- 毕业设计(论文)-水下4自由度抓取机械臂设计-scara机器人
- HSK4标准教材课件
- 云南省中药材产地加工(趁鲜切制)指导原则、品种目录、风险提示清单、中药材质量标准制定指导原则
- 金融风控模型建设及管理规范
- T/CSBME 070-2023计算机断层成像(CT)临床图像质量评价
- 《陶瓷工艺概览:课件中的釉料组成与特性》
评论
0/150
提交评论