版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
商务数据采集课程第2节:高级选项课程目标实现一个简单的小目标:1、学会不同种类的翻页操作2、学会使用cookie登录采集3、学会如何采集多个关键词4、了解多网站采集设置5、完成至少一个实操任务目标要翻页采集怎么办?“下一页”翻页“加载更多”翻页滚动翻页翻页-下一页示例网址:/tag/%E5%B0%8F%E8%AF%B4注意:页面上用来“翻页”的按钮,可能是下一页;>;后页>。操作提示框中可能是“循环点击下一页;循环点击单个元素;循环点击单个链接”,都是一个意思,用于创建循环翻页。翻页-滚动示例网址:步骤:Step1.循环提取列表页数据Step2.设置滚动方式,调整滚动次数、每次间隔时间翻页-加载更多示例网址:步骤:Step1.循环提取列表页数据Step2.找到并选中【查看更多资讯内容】按钮,选择【循环点击单个元素】,自动生成一个【循环翻页】步骤登录建立「记住Cookie」步骤:示例网址:https:///Step1.打开浏览模式按钮Step2.像在浏览器里一样进行正常登录(扫码登录、短信验证、验证码等均支持)Step3.点击网页步骤的设置,勾选「使用指定的cookie」Step4.点击「获取当前页面的Cookie」并应用,关闭浏览模式注:获取的cookie具有时效性,时效多久和网站有关,失效后重新获取即可。批量输入关键词建立「循环-输入文本」步骤示例网址:https:///Step1.添加「循环」步骤Step2.设置循环方式为「文本列表」并编辑文本Step3.点击网页输入框,点击提示框内「输入文本」Step4.将「输入文本」拖入「循环」内,在网页中提取要采集的字段「批量输入关键词」需要注意/Search?keyword=%E7%94%B5%E8%84%91&enc=utf-8&pvid=2b3b1a2c8b0a4a1e8a2259379eaf37a0检索后的页面输入框和搜索框的位置是不同的首页的输入框和搜索框的位置如下示例网址:输入框和检索框位置变化怎么办?/Search?keyword=%E7%94%B5%E8%84%91&enc=utf-8&pvid=2b3b1a2c8b0a4a1e8a2259379eaf37a0示例网址:方法1将【打开网页】步骤拖入【循环】,让八爪鱼的执行逻辑变成每个关键词都是打开首页进行检索的。方法2将【打开网页】步骤的网址设置为第一次检索后的新页面地址。如:/Search?keyword=%E7%94%B5%E8%84%91&enc=utf-8&pvid=2b3b1a2c8b0a4a1e8a2259379eaf37a0批量采集同类网页/subject/1291549/
/subject/3011091/
/subject/1292722/
/subject/1291546/建立「URL循环」步骤:Step1.新建-自定义任务,并粘贴同类网页URL进去Step2.在网页中提取要采集的字段示例网址:执行前等待时间/newlogin?tabtype=weibo&gid=102803&url=【执行前等待】的意思是,在执行此步骤前,先等待一段时间(时长自己根据需求设置)作用是等网页上要采集的数据完全加载出来以后,再执行此步骤。适用场景:1、手动执行规则有数据,启动本地采集后提示【采集已停止】或【采集完成】。2、【执行前等待】还可用来模仿人浏览网页的行为,降低采集频率,避免网站出现防采集。「执行前等待」的设置:Step1.进入「打开网页」或「提取数据」的高级设置(原则上任何步骤都可以设置)Step2.勾选「执行前等待」,设置时间;也可配合【等待指定元素出现】使用,二者满足其一流程就会向下走。一般情况建议为【循环列表】和【循环翻页】设置执行前等待;采集详情数据时为【提取数据】设置执行前等待。示例网址:点击进入下一级页面,选择刚采集的字段链接,点击确认进入二级详情页面。进入下一级页面采集设置完成后选中循环列表框,点击翻页按钮,选择循环点击下一页即可完成设置并开始采集。翻页设置选中所有标题,点击链接或者文本+链接;采集一级列表链接在数据预览区域修改首行字段名称,针对部分数据进行格式化数据处理。调整字段名及格式化数据打开采集工具,输入网站/search/bsxx/755001?keywords=人才引进打开目标网址按类型分别点击所需字段后点击对应数据格式,文本数据选文本、图片数据选图片、视频数据选视频,直到所有字段都出现在数据预览界面。选择所需字段使用6步手动配置法可以解决80%以上网站数据采集,以深圳人民政府网站/search/bsxx/755001?keywords=人才引进数据采集为例。采集方法总结(6步手动配置法)实战演练1:输入多个关键词,采集商品数据数据源网站输入多个关键词后,采集第一页的商品数据关键词:电脑手机平板电脑手环采集需求【标题】、【价格】、【评价数】、【链接】、【店铺】等等输出字段Excel表格格式输出格式功能点提示:循环文本输入/实战演练2:采集京东商品详细信息数据源网站打开网页后,采集以下商品数据采集需求【标题】、【图书简介】、【价格】输出字段Excel表格格式输出格式功能点提示:循环网址/25281299.html/22928335.html/23685951.html/24048571.html/28974965.html实战演练3:采集京东前5页的商品数据数据源网站打开网页后,采集京东前5页的商品数据(300个商品)采集需求【标题】、【价格】、【评价数】、【链接】、【店铺】等等输出字段Excel表格格式输出格式功能点提示:滚动/Search?keyword=iphone&enc=utf-8&wq=iphone&pvid=b7f79d03966f4ea39d0526c15cd4cf05实战演练4:采集京东商品评论数据源网站打开网页后,采集显示的所有评论数据采集需求【评论人】、【评分】
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年苏州市立医院医护人员招聘笔试备考题库及答案详解
- 2026年农业发展银行(陕西省分行)人员招聘笔试参考试题及答案详解
- 2026年深圳市宝安区妇幼保健院医护人员招聘考试参考题库及答案详解
- 2026年平安银行(泉州分行)人员招聘考试参考试题及答案详解
- 2026年黄冈市中医医院医护人员招聘笔试参考试题及答案详解
- 2026年河北涿州农村商业银行人员招聘考试参考试题及答案详解
- 2026年江汉石油管理局中心医院医护人员招聘笔试备考试题及答案详解
- 2026年黄河三门峡医院医护人员招聘考试参考试题及答案详解
- 2026年武警广东省总队医院医护人员招聘考试参考试题及答案详解
- 2026年黄冈市第一人民医院医护人员招聘笔试备考试题及答案详解
- GB/T 18422-2013橡胶和塑料软管及软管组合件透气性的测定
- GA/T 497-2016道路车辆智能监测记录系统通用技术条件
- 安全生产管理制度汇编(水利行业)
- 湖南省长沙市长郡教育集团2021-2022学年中考三模数学试题含解析
- 硬笔书法全册教案共20课时
- 脱挂式索道(检测)课件
- 地下室防水工程做法课件
- 审理商品房买卖合同纠纷案件司法解释的理解与适用
- 北师大版生物初一下册期末知识点归纳总结
- 短视频与直播电商 第7章 短视频+直播 整合运营
- 2022年新高考全国I卷英语读后续写讲解
评论
0/150
提交评论