八爪鱼批量采集图片URL.docx_第1页
八爪鱼批量采集图片URL.docx_第2页
八爪鱼批量采集图片URL.docx_第3页
八爪鱼批量采集图片URL.docx_第4页
八爪鱼批量采集图片URL.docx_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

八爪鱼批量采集图片URL 随着瀑布流网站、AJAX网页等技术和网站表现形式大行其道,技术架构和网页结构都与以往传统的网站有所区别,图片展现形式表现的更加的灵活,有些企业或个人出于营销研究或者收藏的需求,需要对这类型网站进行网页数据采集,今天我就来介绍下,遇到这类型网站时我们要如何使用八爪鱼采集器来快速收集数据。工具/原料八爪鱼采集器、 我们以选取的这个网站为例,来说明下图片采集要如何实现。先来看下这个网站的特殊之处,首先,页面上的图片不是一次加载完成,而需要滚动多次才会滚动到底部,这类型的网站像新浪微博也是类似情况,当然也有的瀑布流网站是一直加载无法见底的,这种情况在此不赘述。其次,产品详情页不能通过点击标题进入,而需要点击图片才能进入。建采集任务1.打开数据采集器,点击开始采集2.输入任务名,点击下一步建立采集规则1.复制要采集页面的URL,将红色方框内的打开网页拉至流程线,将复制的URL粘贴好,点击保存,如图片所示2.打开网页的时候,需要设置AJAX网页加载,以便确保数据采集的时候不会遗漏,像这个示范站,我们实际滚动大约需要4次,所以我们在AJAX加载到底部,滚动次数可以设置为4次或5次均可,次数可以适当的比实际的滚动次数稍微多一两次,如图片所示3.接下来将要采集的页面拉至底部,找到下一页,鼠标右键点击,选择执行循环下一页操作,如图片所示4.完成翻页的循环后,点击自定义5.点击元素列表,再点击确定进行保存6.点击翻页循环的翻页,选择高级选项,勾选页面加载,根据网站的不同去设置滚动次数和滚动方式,点击保存(这个网站我们滚动4次就差不多了)7. 由于我们采集时需要点击图片才能进入到产品详情页,在建立元素循环列表的时候,需要将图片链接设置为列表项,如下图所示,我们需要点击A标签取到图片的链接地址,并以此链接为循环列表,添加元素到列表的时候,每次都需要点击A标签,2-3次添加之后系统会将所有选中的图片链接自动读取出来。如图所示8.完成循环列表后,把流程图里提取数据的循环拉进翻页循环里,如下图完成后如红色方框所示,点击保存9.采集图片的URL,按上面的操作进入到详情页后,就是提取数据了,对于产品名称和价格,都是文本形式,提取非常简单,而对于图片,会需要先采集到图片本身的URL,再进行转换,采集办法如下图所示,选中图片后,在弹出的对话框中可选中IMG标签,选择图片的超链接进行采集。开始采集,导出数据设置完成后,保存,来看下采集的成果。URL、产品名称、价格均已采集下来,我们导出为EXCEL格式的文件。将图片的URL转换为图片批量下载下来,相关的工具在八爪鱼免费下载。将URL地址导入工具即可将图片转换下来。经过以上简单的步骤,AJAX网页上的瀑布

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论