火车头采集步骤和数据导出详解PPT课件_第1页
火车头采集步骤和数据导出详解PPT课件_第2页
火车头采集步骤和数据导出详解PPT课件_第3页
火车头采集步骤和数据导出详解PPT课件_第4页
火车头采集步骤和数据导出详解PPT课件_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、火车头采集12021/3/9 1、什么是采集源?、什么是采集源? 2、认识火车头采集工具、认识火车头采集工具 3、火车头采集工具的使用方法、火车头采集工具的使用方法 4、数据导出与处理、数据导出与处理22021/3/9一些网站有大量的文章、图片、邮箱等信息,对我们来说是一种资源,我们可以利用工具将这些资源采集回来,为我们所用。这样的网站,就是采集源。32021/3/91、采集的目标页面,不需要登录即可访问;2、采集的内容列表页面url跟随一定的规律改变;3、该网站不屏蔽不干扰采集器的工作。42021/3/9火车采集器,是目前使用人数最多的互联网数据抓取、处理、分析,挖掘软件。软件凭借其灵活 的

2、配置与强大的性能领先国内数据采集类产品。使用火车采集器,你可以建立一个拥有庞大内容的网站。52021/3/9火车采集器如何去抓取数据,取决于您的规则。要获取内容页的内容,首先需要先将这个网页的网址采下来,这就是采网址。程序按规则抓取列表页里的内容页url。再根据您的采集规则,将,将标题内容等信息分离开来并保存下来。如果选择了下载图片,程序会对采集到的数据进行分析,找出图片的下载地址并将图片下载到本地。62021/3/93.1 打开火车头工具,单击左侧空白处,根据需要新建分组72021/3/93.2 右击刚才建立好的分组,新建采集任务,并填写好任务名称82021/3/93.3 填写批量采集网址规

3、则,注意先分析目标列表页url规则92021/3/93.4 设置“多级网址获取”规则102021/3/93.4 设置“多级网址获取”规则,并测试设置好的规则是否生效112021/3/93.5 校验设置好的规则是否生效,如果生效,则返回修改设置;如果得到的结果不正确,也需要返回修改设置(重新分析采集范围是否正确,一直校验到是我们需要的结果)122021/3/93.6 返回修改采集的项数,并且记得点击“添加”和“完成”132021/3/93.7 进入到第二步“采集内容规则”采集文章的标题采集文章的标题,选中“标题”,点击左侧的修改,选择“前后截取”,将文章标题的html区域填写完整,右侧“典型页面

4、”填写一条内容页url,以供随时测试。142021/3/93.8 采集文章的“摘要”152021/3/93.9 采集文章的“标签”162021/3/93.10 采集文章的“内容”填写内容所在区间的html标签,添加数据处理,勾选“下载图片”并填写文件保存目录和格式,最后点击确定。172021/3/93.11 保存设置好的采集任务182021/3/93.12 开始采集任务我们会看到,右侧任务运行的状况,一切正常192021/3/94、数据导出与处理采集到的数据,需要用Accesss软件才能处理,因此,如果我们的电脑没有这个软件,则需要先安装Access软件。4.1、安装Access202021/

5、3/94.2、选中已经采集完成的任务,并右击出现下拉菜单后,打开Data下任务文件夹,出现第二个截图以.mdb扩展名的文件。212021/3/94.3、双击打开.mdb扩展名的文件,此时由于已经安装了Access,办公软件已经能正确识别.mdb文件,打开结果如下:222021/3/94.4、已经能用Excel打开采集到的文章内容之后,就可以利用Excel对数据进行批量处理,比如批量添加文章的发布时间、批量替换文字、批量修改图片路径等等。比如:在Excel表格里,按Ctrl+F,出现的对话框中选择“替换”,填写好需要替换的文字,即可对采集到的内容进行批量替换文字。232021/3/94.1、安装Access选中Excel表格的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论