




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
网络矿工采集器采集配置高级功能教程此教程适合于中级用户,在掌握了网络矿工基础配置之后,阅读此教程,如果您是初学者,建议您首先阅读网络矿工入门教程。 网址参数网址参数支持三个类:递增递减类、字典类、外部参数;递增递减类参数:数字递增递减,字母递增递减,数字自动补零递增递减,举例:/sale/pNum:1,271,1/ 用数字参数替换页码,可以实现271页数据的采集。字典类:网址参数不规律的替换,用户可以建立自己的字典用于网址替换实现网址成批采集,譬如:采集百度贴吧,建立字典百度贴吧地区,然后设置需要采集的贴吧信息,配置采集网址时进行参数设置/f?kw=Dict:百度贴吧地区,实现百度贴吧指定数据的采集;外部参数:配置时参数值不固定,在运行采集时由用户指定输入参数值。详细可参见:/article.aspx?id=1026。 网址的复制与粘贴为何要提供网址的复制粘贴功能?在大量配置网址时需要,如果网址的导航规则不同,但又需要多个入口的地址(譬如:很多网站的第一页和后续的页面网址是不同的),可配置第一个网址的信息,复制粘贴出来,修改入口地址即可快速完成第二个网址的配置,在导航或多页配置时即为有用;选中网址,点击鼠标右键,即可复制粘贴。 参数传递配置网址在导航和多页配置中,参数传递将非常有用。在部分网站中,导航或多页的网址是通过js来实现跳转的,我们可以模拟这种js操作,将需要传递的参数采集出来,然后将参数匹配给导航出来的网址,即可实现js跳转操作。以采集淘宝评论数据为例,通过淘宝的商品页进行评论数据的导航,此过程需要传递三个参数:itemid、spuid和sellerid,此三个参数可以通过产品页获取,获取后传递给评论页url,即可实现评论页的采集,此下载实例可参见网络矿工资源任务; 导航翻页对于连续页面的采集有两种方法:1、用url中的页码参数进行页面翻页;2、采用网页提供的下一页翻页参数进行。导航翻页可以配置两种翻页规则。假如入口页面是一个列表页,我们可以通过页码参数实现翻页,但也可以配置翻页规则来实现翻页。这是第一个翻页规则。同时第一层导航页导航出来的也是一个列表页,此时还需翻页,这是第二个翻页规则。第一种翻页规则我们称之为:导航页翻页规则,第二种翻页规则我 们称之为:导航页获取的页面翻页规则。请仔细对应界面。有关导航翻页的实际案例分析请参见:/bbs/showtopic-50.aspx Cookie管理通常理解下,只有在登录采集的时候才会需要Cookie信息,但某些网站对于访客也会判断cookie信息。对于需要cookie信息方可采集的网站,我们可配置Cookie进行数据采集。但对于网路矿工有一个比较纠结的问题:在配置任务时,获取cookie集成的方法是浏览器,用户只需要用内置的浏览器登录网站,系统即可捕获cookie信息。内置浏览器在某些情况下会出现获取cookie不完整。而这种不完整用户是无法判断的。通过嗅探器获取的cookie可以确保完整无误,这样在操作的时候会非常的尴尬。所以,在此请各位用户非常注意:如果需要cookie采集的网站,在设置了cookie信息后,通过“采集规则分析”功能确定系统是否正确返回了源码,如果没有,请使用嗅探器进行cookie的重设。 采集规则分析先讲下采集规则分析,采集规则分析是网络矿工提供的一个对采集网址配置、采集规则配置正确性校验的一个工具。如果采集网址配置正确,系统会自动根据采集网址配置的信息自动获取需要采集的网址,并将此网址的源码获取,在此可判断1)网址规则是否正确?2)采集的数据是否在源码中存在?3)如果获取错误,源码中的错误信息是什么?譬如:需要登录;当网址正确后,可以检验采集数据规则本身是否正确,按“F5”系统可进行数据匹配,匹配成功后会显示,如果无匹配的数据,表示规则失败;正则分析,同时这个工具也是一个正则分析器,可以用来分析正则表达式的正确性和匹配的结果。 采集数据配置注意事项1、 如果采用规则配置的方式,一定要按照网页代码的顺序配置,这点很重要,系统匹配数据是从上至下,所以,如果顺序颠倒,可能又部分数据采集不到,尽管规则配置正确;2、 如果采用可视化配置,可以不用考虑顺序的问题,随意配置即可;3、 系统提供了通配符,通配符实际是正则表达式,用户也可手工输入正则表达式的通配符,但一定要用包含,这样系统可以识别这是一个正则表达式进行处理; 静默运行方式静默运行方式是一种不打扰运行,系统不会将日志信息和采集的数据进行输出,同时系统也不会再弹出托盘菜单气泡提示,所有信息都将由系统处理,而且会把相关系统信息以日志的方式进行输出。静默运行方式是一种不打扰方式,当用户需要采集数据而且还有其他工作同时进行时,建议采用此种方式,启动静默采集时,系统好像是一个后台服务,始终运行,却不干扰用户的其他工作。 排重的处理一个采集任务可以多次运行,如果采集一个每日变化得数据时,不免会造成重复采集的情况,所以,矿工可以甚至排重库,将已经采集的数据记录下来,无论再运行几次,已经采集的数据将不会再进行采集。这是网络矿工设计排重的主要作用,但排重还可以作为另一个作用进行应用,当进行大量数据采集时,可能会由于对方网站的问题造成某些网址无法访问,但如果隔几分钟再重试时,网站又可以恢复正常,如果出现这样的情况,由于网站的临时错误会导致数据漏采,所以,此时可以用排重库记录。采集完成后在此采集,将只采集发生错误的网址数据了。如果需要重新采集数据,清除排重库即可。 关于数据文件的设置网络矿工采集的数据默认情况下是系统自动保存,以xml文件形式保存到磁盘中,每次运行任务保存一个独立的文件,哪怕是同一个任务,多次运行,也是保存多个独立的文件,用户可以强制一个采集任务无论几次运行都可将数据保存到一个xml文件中,只要选中了“此任务如多次运行,是否将采集数据保存到一个文件中”,并且制定一个xml文件的名称即可。 采集间隔延时系统默认情况下是多线程运行,采集完一条数据马上进行下一条数据的采集。但对于采集的目标网站,这样的采集无疑会给网站带来压力,有可能会被网站屏蔽,所以,用户可以设置采集的间隔,可以理解为访问强度,即可以采集完一条数据后停止一个时间段再进行下一条数据的采集。类似搜索引擎的爬虫压力设置。 http header设置http header是http通讯发送的信息,对于采集的目标网站,有可能会验证header信息以确认身份的合法性,所以,特定情况下需要设置header信息方可正确获取数据,此方面可以通过网络矿工嗅探器来进行侦测。但通常情况下header在采集数据时是无需关注的,多用于发布数据时使用。发布数据时系统会对header中的信息进行验证,尤其是user-age
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 药品标准分类讲解
- 膝关节骨性关节炎阶梯治疗
- 物理治疗磁疗技术研究与应用
- 细胞的渗透实验
- 桡动脉穿刺技术
- 细胞仪器技术解析
- 福建省福州三校联盟2026届化学高一第一学期期末学业水平测试试题含解析
- 汽水条形码体系解析
- 苏绣教学讲解课件
- 现代安全防范技术
- 中国石油独山子石化分公司32万吨-年苯乙烯装置扩能改造项目环评报告
- 英语教师遴选试题及答案
- 兵团两委考试试题及答案
- JG/T 2-2018钢制板型散热器
- 种植牙和解协议书
- 《大脑中动脉解剖结构》课件
- z08小升初数学试卷及答案
- 2025-2030焦炭行业市场深度调研及发展规划与投资前景研究报告
- 建筑工程安全文明标准化示范工地管理办法
- 药品不良反应的临床应对措施考试试题及答案
- 鼻饲的注意事项及护理要点
评论
0/150
提交评论