版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
网络矿工采集器V2012SP1使用教程(图文版)使用IE或Firefox浏览器,打开,进入下载频道,下载网络矿工V2012SP1软件注意:网络矿工的运行需要.NetFramework2.0环境,如果您的计算机中不具备此环境,请到下载->工具软件中下载。网络矿工下载后是一个ZIP压缩文件双击打开压缩文件,可以看到一个SoMinerV2012Sp1专业版目录,全部解压出来即可,解压完成后,在此目录中我们可以看到有三个exe文件,同时还可看到一个“第一次使用请先读我”的文本文件,如果第一次使用,可以查看这个文件。Soukeynetget.Exe是网络矿工的主程序文件,双击启动即可打开网络矿工。如果您是试用用户,启动后,系统会显示试用版,及剩余试用的期限,通常情况下试用期限为30天,试用版没有任何功能限制,所以不必担心。我们以一个简单的配置例子,来介绍网络矿工的使用,采集某网站的新闻数据。启动网络矿工,我们首先先建立一个“新闻”的分类用来存储将要配置的采集任务,建立分类的目的是便于管理。建立分类:在属性菜单中,点击鼠标右键,选择“添加采集分类”,系统弹出添加分类窗体,如下:输入“新闻”点击确定退出,系统会自动建立新闻的分类选中“新闻”分类,点击鼠标右键,选择“新建采集任务”开始添加采集任务首先我们可以给此采集任务填写一个易记的采集名称“新闻采集”,下一步我们开始添加要采集的网址信息,采集网址为:/newssh/shwx/shehuiwanxiang.htm采集的数据是从这个新闻列表页中,找到每一篇新闻,点击进入新闻的详细页,采集新闻的置导航规则页中,选择“自定义配置”,在网页源码中,找到需要导航的网址,荧光笔标出的就是前后标志,输入规则,确定退出。然后,我们再进行导航规则测试,可以看到测试没有问题。下面我们开始配置采集数据的规则,因为我们要采集新闻的正文、标题、发布时间,所以,可以用三种方式来完成:1、智能采集;2、可视化采集;3、规则配置。我们逐个讲解智能采集我们在采集任务配置窗体中,选择“采集数据”,并点击“配置助手”,打开配置助手页,在地址栏输入一个采集的地址,系统也会自动输入此网址,同时点击“生成文章采集规则”,可以看到系统已经将文章的智能规则输入到系统中,点击“测试”可以检查采集结果是否正确确定退出,这样就完成了配置。点击“应用”保存,测试采集,可以看到采集没有问题,正文首先是张图片。如果需要去掉网页符号,可以编辑正文的数据加工规则,选择“输出时去掉网页符号”再次测试网页符号已经去掉,因为图片是一个网页代码,所以也被去掉了,一般情况下,采集正文我们期望保留格式,所以,不用去掉网页代码,这样可以保留文章原始格式进行输出。下面我们来看可视化配置我们在采集任务配置窗体中,选择“采集数据”,并点击“增加”,采集数据规则配置页,选择“可视化配置”,并点击“可视化提取”按钮,打开可视化配置页面输入我们需要采集数据的网址,并点击匹配,开始进行采集数据的可视化配置,同样,点击“开始捕获”时,鼠标在网页滑动时会出现一个蓝色边框,用蓝色边框选中需要采集的数据,点击即可。点击“测试”可以看到测试结果,测试结果正确后,确定退出,在采集数据规则配置页,输入一个名称,保存退出,即可重复以上过程,将正文、时间、标题配置好即可。可以看到规则类别为XPath保存采集任务,测试即可。下面我们来看第三种配置方法:规则配置规则配置是最复杂的,但也是最灵活的,需要在网页源码中找到前后标志,进行配置首先先打开需要采集数据的网页源码,采集任务配置窗体中,选择“采集数据”,并点击“增加”,采集数据规则配置页在“起始位置”和“终止位置”输入在网页源码中找到的定位符即可逐一配置规则类别为:Normal测试采集至此,我们这个采集任务就讲解完成。这个采集配置是比较简单的,但针对这个采集任务配置,我们讲解了自动化分析、可视化配置和规则配置三种配置方法,在大部分情况下,可视化配置可以完成规则的配置,而不需要规则配置,但规则配置最为灵活,采集效率最高,但难度也最
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年三亚科城物业服务有限公司招聘备考题库及一套完整答案详解
- 2026年丹东市疾病预防控制中心(丹东市卫生监督所)面向普通高校公开招聘急需紧缺人才备考题库及一套完整答案详解
- 2026年南充市第四人民医院招聘备考题库及一套完整答案详解
- 2026年中国龙江森林工业集团有限公司招聘备考题库及完整答案详解1套
- 2026年北京中医医院派遣制职工招聘10人备考题库及完整答案详解一套
- 2026年华东师范大学附属闵行永德学校教师招聘(第二批)备考题库及一套完整答案详解
- 2026年宜宾市南溪区事业单位公开考核招聘高层次和急需紧缺专业人才42人的备考题库及完整答案详解一套
- 2026年广州市花都区新雅街嘉行学校临聘教师招聘备考题库及参考答案详解
- 2026年广东省华立技师学院招聘备考题库及一套参考答案详解
- 2026年中化学交通建设集团招聘备考题库及一套答案详解
- 杨氏祠堂活动策划方案
- 信息分类分级管理制度
- 英文电影鉴赏知到智慧树期末考试答案题库2025年北华大学
- 某温室工程施工资料
- 外墙铝板维修合同协议
- 2025水泥厂生产劳务承包合同
- 施工项目高效人员配置与设备管理方案
- 采血后预防淤青的按压方式
- 光伏电站基础知识500题及答案
- 深度学习:从入门到精通(微课版)全套教学课件
- 2025年湖南铁道职业技术学院单招职业技能测试题库带答案
评论
0/150
提交评论