版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
商务数据采集课程第1节:采集基础课程目标实现一个简单的小目标:1、了解八爪鱼采集器采集能力2、安装注册八爪鱼采集器3、理解八爪鱼采集原理,能手动执行一次采集流程4、配置一个可执行的规则,采到100条数据5、理解AJax和新标签的差异目标全球全网通用的互联网数据采集平台,可简单快速地将网页中的多模态数据(包括文本、图片、视频等)转化为结构化数据,存储于Excel或数据库等多种形式,并且提供基于云计算的大数据云采集解决方案,实现精准、高效、大规模的数据采集。八爪鱼采集器全网通用互联网公开数据99.9%均可采集,包括各类新闻媒体、政务公告、本地生活、旅游房产、社交媒体、金融证券、电商平台及其他各种类型网站数据。极简采集通用的大数据采集平台,无需编程,自动生成采集规则可视化流程,配置灵活,帮助用户快速获取互联网公开数据,轻松掌握数据采集技能。注册与登录•登录官网/bzyedu•点击右上角【登录】按钮,选择手机号或者邮箱注册账号1.免费注册•新注册默认赠送3天会员,待会员到期后进行学生版申请。•打开学生版链接/education。•填入相关信息提交后。2.学生版申请•登陆官网教程/helpcenter查看学习。•公众号关注bzy_edu随时查看完整视频教程,可向公众号提问。3.视频教程学习•完成所有视频教程学习可以达到中级采集水平,可以解决学习和生活中90%的数据采集需求。•如果对数据采集非常感兴趣可以申请加入八爪鱼数据工坊项目,参与企业真实项目实战,以达到中级以上或高级采集水平。4.进阶简易模式-模板采集300+主流网站模板内置300+主流网站采集模板,覆盖多个真实业务采集需求。淘宝、京东、亚马逊、抖音、微博、b站、人民网、中新网、携程、同城、拉钩、小红书等等简单3步,数据直出选择模板→设置参数→获得数据,简单三步轻松抓取,多种格式一键导出。自定义模式-自定义识别全自动智能识别,简单易用对网页进行识别分析,自动生成采集流程,轻松获取数据。内置操作指引,一步步跟着操作,即可处理更复杂场景。实操1、自动识别体验/GB/414330/index.html自定义模式-自定义任务可视化流程图,操作灵活模拟人的思维浏览网页,点击页面目标区域,生成可视化采集流程,满足多种采集应用场景。任务列表页界面认识采集流程采集流程当前页面的数据预览内置谷歌浏览器流程步骤
在八爪鱼采集器中,一共有11个流程设计操作,其中分为常用步骤和进阶步骤。常用步骤:1)打开网页
2)点击元素
3)输入文本
4)循环
5)循环滚动网页
6)提取数据进阶步骤:1)识别验证码
2)切换下拉选项
3)判断条件
4)返回上一级网页
5)移动鼠标到元素上
采集原理&流程步骤采集原理►模拟人的思维浏览网页►通过设计工作流程完成自动化数据采集打开网页:输入网页URL,在八爪鱼中打开点击元素:点击网页上的某个地方,如按钮循环翻页:处理需要翻页的网页提取数据:正式的数据采集步骤循环框:记录要循环的列表,本身没有任何操作流程步骤流程执行逻辑流程执行逻辑:先从上至下,再由内而外单个步骤:会执行的步骤,与网页发生互动循环框:记录网页特征,不与网页发生互动从数据源到格式化数据单关键词多关键词单板块数据多板块数据点击字段位置选择字段类型编辑字段名称添加固定字段是否需要登录下拉框采集是否需要翻页是否需要滚动网页是否需要采集列表是否需要下载图片是否需要下载视频时间格式化长文本段落处理前后缀添加数据匹配数据筛选本地采集云采集定时采集导出到Excel导出到csv导出到数据库关键词或板块字段编辑流程编辑数据格式化采集与导出采集过程设计采集准备采集成功常见网页样式网页数据的4种样式表格列表列表详情既列表又详情列表示例网址:/search?q=%E8%87%AA%E8%A1%8C%E8%BD%A6&spm=d3d3Lnlpd3Vnby5jb20v自动识别建立循环,在设置中开启自动识别网页。输入网址后,程序就会自动识别。列表手动点击页面建立循环:Step1.选中一个列表(移动鼠标选中列表的最大范围,包含所有字段)Step2.选中全部子元素Step3.选中全部相似组Step4.点击提取元素中数据内容Step5.点击保存Step6.点击采集,选择本地采集-普通模式5分钟复现以上操作表格示例网址:/xg/xg/自动识别建立循环,没有开启自动识别功能的,在网页打开后,也可以点击操作提示中的自动识别网页。表格示例网址:/xg/xg/手动建立循环:Step1.选中一个小的单元格Step2.点击“TR”或“扩大选区“按钮(目的是选中一整行)Step3.选中全部子元素Step4.选中全部相似组Step5.点击保存Step6.点击采集,选择本地采集-普通模式3分钟复现以上操作详情示例网址:/tag/%E5%B0%8F%E8%AF%B4建立循环:Step1.选中第一个链接Step2.选中全部相似元素Step3.循环点击每个链接Step4.选择详情页需要采集的数据Step5.点击保存Step6.点击采集,选择本地采集-普通模式3分钟复现以上操作既列表又详情示例网址:/tag/%E5%B0%8F%E8%AF%B4建立循环:Step1.先用列表采集的方法,建一个循环Step2.再在循环列表内,加一个点击该链接流程(或者可以直接通过进入下一级页面功能进入详情页)Step3.选择需要采集的数据Step4.点击保存Step5.点击采集,选择本地采集-普通模式5分钟复现以上操作流程执行逻辑-3个实例实例2实例1实例3流程执行逻辑-实例1循环提取列表【打开网页】,八爪鱼自动打开目标网页。【循环翻页】,当前页是第1页,找到并记录下网页上的翻页按钮。【循环-提取数据】,记录第1页所有数据项,并按顺序依次提取每个数据项中的具体字段。最后1个数据项中的字段提取完成后,退出循环。【点击翻页】,当前页是第1页,执行1次【点击翻页】,翻到第2页。【循环-提取数据】,记录第2页所有数据项,并按顺序依次提取每个数据项中的具体字段。最后1个数据项中的字段提取完成后,退出循环。【点击翻页】,当前页是第2页,执行1次【点击翻页】,翻到第3页。【点击翻页】,当前页是倒数第2页,执行1次【点击翻页】,翻到最后1页。【循环-提取数据】,记录最后1页所有数据项,并按顺序依次提取每个数据项中的具体字段。最后1个数据项中的字段提取完成后,退出循环。【点击翻页】,当前页已经是最后1页了,找不到翻页按钮,退出翻页循环。整个【采集流程】结束。流程执行逻辑-实例2循环提取详情【打开网页】,八爪鱼自动打开目标网页。【循环翻页】,当前页是第1页,找到并记录下网页上的翻页按钮。【循环-点击元素-提取数据】,记录第1页所有目标链接,并按顺序依次点击每个链接进入详情页,提取详情页中的数据。最后1个链接点击进入详情页,并提取数据完成后,退出循环。【点击翻页】,当前页是第1页,执行1次【点击翻页】,翻到第2页。【循环-提取数据】,记录第2页所有目标链接,并按顺序依次点击每个链接进入详情页,提取详情页中的数据。最后1个链接点击进入详情页,并提取数据完成后,退出循环。【点击翻页】,当前页是第2页,执行1次【点击翻页】,翻到第3页。【点击翻页】,当前页是倒数第2页,执行1次【点击翻页】,翻到最后1页。【循环-提取数据】,记录最后1页所有目标链接,并按顺序依次点击每个链接进入详情页,提取详情页中的数据。最后1个链接点击进入详情页,并提取数据完成后,退出循环。【点击翻页】,当前页已经是最后1页了,找不到翻页按钮,退出翻页循环。整个【采集流程】结束。流程执行逻辑-实例3先翻页后采集【打开网页】,八爪鱼自动打开目标网页。【循环-点击翻页】,当前页是第1页,循环执行【点击翻页】,直到最后1页。【循环-提取数据】,记录全部页上的所有数据项,并按顺序依次提取每个数据项中的具体字段。最后1个数据项中的字段提取完成后,退出循环。整个【采集流程】结束。特别注意项:Ajax和新标签在网页上【点击】操作时,其实有两种类型:一种在当前页直接出现新数据,叫【Ajax】;一种会打开一个新标签来展示新数据,叫【新标签】;示例网址:/注:一个点击操作,不是Ajax就是新标签,一般只会勾选一个;
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 吉林白山市2025年遴选公务员考试(政治理论素养与工作能力)全真模拟试题库
- 2026年四川省党政领导干部政治理论水平凡任必测(理论)自测试题及答案
- 2025河南郑州航空大都市研究院有限公司实习生招聘14人笔试历年参考题库附带答案详解
- 初中八年级地理《探究气温分布规律:手动绘制气温-纬度回归线》教案
- 初三年级数学专题教案:几何思维进阶-圆的综合问题深度剖析与策略建构
- 《合同法》实务与思政融合教学设计(大学本科二年级法学经管类专业)
- 《面向复杂系统的洗涤算法优化:大学本科计算机科学与技术专业三年级专业核心课教学设计》
- 北师大版小学数学二年级上册《花园》第一课时教学设计
- 本科二年级《大学生领导力与公共事务实践》课程:社团年度复盘与结构化总结撰写教案
- 北师大版七年级数学上册期末复习教案:有理数及其运算核心精讲与实践
- 金牛区驷马桥等街道2026年公开招聘社区专职工作人员(26人)笔试备考试题及答案详解
- 2026中国报废汽车拆解行业盈利动态与需求趋势预测报告
- 2026年无损检涡流检二级考核模拟题库附参考答案详解【考试直接用】
- 风险预警及处置工作制度
- 2026年春教科版(新教材)小学科学三年级下册第三单元《只有一个地球》知识点清单
- 西安交通大学同等学力人员申请硕士学位资格审查表
- 2026新疆事业单位招聘(公基)笔试题及答案
- 护理带教:以人文关怀为核心
- 地下储罐施工方案(3篇)
- 涉密地理信息保密制度
- 建筑企业工程考核制度
评论
0/150
提交评论