下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1688数据采集方法.bazhuayu.
1688数据采集方法
目前电商网站采集需求特殊大,本文介绍使用八爪鱼采集1688-某店铺全部商品信息的方法。
采集网站:
示例规章
使用功能点:
●分页列表信息采集
http://.bazhuayu./tutorial/fylb-70.aspx?t=1
●Xpath
http://.bazhuayu./search?query=XPath
●AJAX点击和翻页
.bazhuayu.http://.bazhuayu./tutorial/ajaxdjfy_7.aspx?t=1
步骤1:创建采集任务
1)进入主界面,选择“自定义模式”
采集1688店铺的全部商品信息图1
2)将要采集的网址复制粘贴到网站输入框中,点击“保存网址”
.bazhuayu.
采集1688店铺的全部商品信息图2
步骤2:创建翻页循环
1)在页面右上角,打开“流程”,以呈现出“流程设计器”和“定制当前操作”两个板块。将页面下拉究竟部,点击“”按钮,在右侧的操作提示框中,选择“循环点击”,以建立一个翻页循环
.bazhuayu.
采集1688店铺的全部商品信息图3
步骤3:创建列表循环并提取数据
1)移动鼠标,选中页面里的第一条商品信息的区块。系统会识别此区块中的子元素,在操作提示框中,选择“选中子元素”
.bazhuayu.
采集1688店铺的全部商品信息图4
2)系统会自动识别出页面中的其他同类元素,在操作提示框中,选择“选中全部”,以建立一个列表循环
.bazhuayu.
采集1688店铺的全部商品信息图5
3)我们可以看到,页面中企业信息区块里的全部元素均被选中,变为绿色。右侧操作提示框中,消失字段预览表,将鼠标移到表头,点击垃圾桶图标,可删除不需要的字段。字段选择完成后,选择“采集以下数据”
.bazhuayu.
采集1688店铺的全部商品信息图6
4)字段选择完成后,选中相应的字段,可以进行字段的自定义命名
.bazhuayu.
采集1688店铺的全部商品信息图7
步骤4:修改Xpath
1)我们连续观看,在“列表循环”步骤中,我们要建立的是整个页面18个商品链接的循环。选中整个“循环步骤”,打开“高级选项”,不固定元素列表中的这条Xpath:
//DIV/DIV/DIV/DIV/DIV/DIV/UL/LI,对应的只有3个循环项。将此条Xpath,复制粘贴到火狐扫瞄器中的相应位置
.bazhuayu.
采集1688店铺的全部商品信息图8
Xpath:是一种路径查询语言,简洁的说就是利用一个路径表达式找到我们需要的数据位置。
Xpath是用于XML中沿着路径查找数据用的,但是八爪鱼采集器内部有一套针对HTML的Xpath引擎,使得直接用XPATH就能精准的查找定位网页里面的数据。
2)在火狐扫瞄器中,我们发觉,通过这条Xpath:
.bazhuayu.
//DIV/DIV/DIV/DIV/DIV/DIV/UL/LI,页面中被定位的是3个商品信息区块。而我们需要的是,本页中18个商品信息区块,均被选中
采集1688店铺的全部商品信息图9
3)将Xpath修改为:
//DIV/DIV/DIV/DIV/DIV/DIV/UL/LI,我们发觉页面中全部要采集的18个商品信息区块,均被选中了
.bazhuayu.
采集1688店铺的全部商品信息图10
4)将修改后的Xpath:
//DIV/DIV/DIV/DIV/DIV/DIV/UL/LI,复制粘贴到图片中所示的位置,然后点击“确定”
.bazhuayu.
采集1688店铺的全部商品信息图11
5)点击左上角的“保存并启动”,选择“启动本地采集”
.bazhuayu.
采集1688店铺的全部商品信息图12
步骤4:数据采集及导出
1)采集完成后,会跳出提示,选择“导出数据”。选择“合适的导出方式”,将采集好的数据导出
.bazhuayu.
采集1688店铺的全部商品信息图13
2)这里我们选择excel作为导出为格式,数据导出后如下图
采集1688店铺的全部商品信息图14
.bazhuayu.
相关采集教程
淘宝卖家信息采集
http://.bazhuayu./tutorial/tbmjinfocj
饿了么商家信息采集
http://.bazhuayu./tutorial/elmsjinfocj
新浪博客文章采集
http://.bazhuayu./tutorial/sinablogcj
uc头条文章采集
http://.bazhuayu./tutorial/ucnewscj
百家号爆文采集
http://.bazhuayu./tutorial/bjharticlecj
词库网关键词采集
http://.bazhuayu./tutorial/cikucrawl
爱站关键词采集
http://.bazhuayu./tutorial/azkeywordcj
个人房源采集网站以及方法
http://.bazhuayu./tutorial/grfangyuancj
自媒体文章怎么采集
http://.bazhuayu./tutorial/zmtwzcj
八爪鱼——70万用户选择的网页数据采集器。
1、操作简洁,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。
2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简洁设置进行采集。
3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 支气管扩张的中医治疗与护理
- 外科护理科研方法
- 新生儿肺炎护理中的职业发展
- 采油测试工测试验证水平考核试卷含答案
- 护理常见病症的预防与护理
- 兽用原料药制造工操作评估水平考核试卷含答案
- 景泰蓝磨蓝工QC管理模拟考核试卷含答案
- 易货师岗前个人防护考核试卷含答案
- 洗缩联合挡车工岗前绩效评估考核试卷含答案
- 制米工成果能力考核试卷含答案
- 2026年二级建造师市政实务真题及答案解析完整版
- 2026年北京市西城区初三二模英语试卷(含答案)
- 绿电直连风力发电项目经济效益和社会效益分析报告
- GB/Z 177.2-2026人工智能终端智能化分级第2部分:总体要求
- 2026年广东东莞市初二学业水平地理生物会考试题题库(答案+解析)
- 新生儿呼吸窘迫综合征应急预案演练脚本
- 2026中级消防设施操作员《基础知识》记忆口诀
- 2026年陕西省西安市莲湖区中考英语一模试卷(含答案)
- GB/T 3920-2008纺织品色牢度试验耐摩擦色牢度
- GB/T 19977-2005纺织品拒油性抗碳氢化合物试验
- GB 29540-2013溴化锂吸收式冷水机组能效限定值及能效等级
评论
0/150
提交评论