网络矿工采集配置高级设置教程_第1页
网络矿工采集配置高级设置教程_第2页
网络矿工采集配置高级设置教程_第3页
网络矿工采集配置高级设置教程_第4页
网络矿工采集配置高级设置教程_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、网络矿工采集器采集配置高级功能教程此教程适合于中级用户,在掌握了网络矿工基础配置之后,阅读此教程,如果您是初 学者,建议您首先阅读网络矿工入门教程。网址参数网址参数支持三个类:递增递减类、字典类、外部参数;递帽变量NumLlgl 递减Num:100,.l, -1 谭增杏最刍 罪溥N u EZerci :1,.1口口.一1 有瓣囹 N umZero :100rl-l字母漫埠 Letter:aHz 字母il减Letter a短日 ShortDate:2013-1-1,2013-3-8长日期 1_口 n g Date:2013 -01-01,2013-03-00POSTtiiPOST后缱 WPOST

2、a 手工捕藏PCI g据离点4编码前缀c BASE64岛盘4编码后缀a咨:Diet:新微分类 亨典:Di ct:百度贴n出也区 字典:5(人民际日 字典:Diet:测试热词 亨典:Diet:海妄商品 亨典:Diet:域名 字典:Diet:当当ID递增递减类参数:数字递增递减,字母递增递减,数字自动补零递增递减,举例: HYPERLINK /sale/p%7bNum:1,271,1%7d/ /sale/pNum:1,271,1/ 用数字参数替换页码,可以实现 271 页数据 的采集。字典类:网址参数不规律的替换,用户可以建立自己的字典用于网址替换实现网址成批 采集,譬如:采集百度贴吧,建立字典百

3、度贴吧地区,然后设置需要采集的贴吧信息,配置 采集网址时进行参数设置 HYPERLINK /f?kw=%7bDict:%e7%99%be%e5%ba%a6%e8%b4%b4%e5%90%a7%e5%9c%b0%e5%8c%ba%7d%ef%bc%8c%e5%ae%9e%e7%8e%b0%e7%99%be%e5%ba%a6%e8%b4%b4%e5%90%a7%e6%8c%87 /f?kw=Dict:百度贴吧地区,实现百度贴吧指 定数据的采集;外部参数:配置时参数值不固定,在运行采集时由用户指定输入参数值。详细可参见: HYPERLINK /article.aspxfich1026 /articl

4、e.aspxfich1026网址的复制与粘贴为何要提供网址的复制粘贴功能?在大量配置网址时需要,如果网址的导航规则不同, 但又需要多个入口的地址(譬如:很多网站的第一页和后续的页面网址是不同的),可配置 第一个网址的信息,复制粘贴出来,修改入口地址即可快速完成第二个网址的配置,在导航 或多页配置时即为有用;http:/detaLtrnall.sm 福e htm?eprn=a http:/detaLtrnall.sm 福e htm?eprn=a 2ND晶复市蜂集址Ctil-C粘!!溪集闵址 园 一|选中网址,点击鼠标右键,即可复制粘贴。参数传递配置网址在导航和多页配置中,参数传递将非常有用。在部

5、分网站中,导航或多页的网址是通过 js来实现跳转的,我们可以模拟这种js操作,将需要传递的参数采集出来,然后将参数匹配 给导航出来的网址,即可实现js跳转操作。以采集淘宝评论数据为例,通过淘宝的商品页进行评论数据的导航,此过程需要传递三 个参数:itemid、spuid和sellerid,此三个参数可以通过产品页获取,获取后传递给评论页 url,即可实现评论页的采集,此下载实例可参见网络矿工资源任务;导航翻页对于连续页面的采集有两种方法:1、用url中的页码参数进行页面翻页;2、采用网页 提供的下一页翻页参数进行。导航翻页可以配置两种翻页规则。假如入口页面是一个列表页,我们可以通过页码参数实现

6、翻页,但也可以配置翻页规则 来实现翻页。这是第一个翻页规则。同时第一层导航页导航出来的也是一个列表页,此时还 需翻页,这是第二个翻页规则。第一种翻页规则我们称之为:导航页翻页规则,第二种翻页 规则我们称之为:导航页获取的页面翻页规则。请仔细对应界面。导航规则提取范围(如不埴写,起始于:|一终止于:页翻妍小甑置导航规则遂导航规则导航规则提取范围(如不埴写,起始于:|一终止于:页翻妍小甑置导航规则软斯萌进行匹甑翻页规则:下一页1导航规则 质 面部吸博血房二间=船-黑=怕田邑翻页规则:下一页10通过导航规则荻取的页面需!哩页,0通过导航规则荻取的页面需!哩页,翻页规则:下一页有关导航翻页的实际案例分

7、析请参见: HYPERLINK /bbs/showtopic-50.aspx /bbs/showtopic-50.aspxCookie管理通常理解下,只有在登录采集的时候才会需要Cookie信息,但某些网站对于访客也会 判断cookie信息。对于需要cookie信息方可采集的网站,我们可配置Cookie进行数据采集。 但对于网路矿工有一个比较纠结的问题:在配置任务时,获取cookie集成的方法是浏览器,用户只需要用内置的浏览器登录网 站,系统即可捕获cookie信息。内置浏览器在某些情况下会出现获取cookie不完整。而这 种不完整用户是无法判断的。通过嗅探器获取的cookie可以确保完整无误

8、,这样在操作的 时候会非常的尴尬。所以,在此请各位用户非常注意:如果需要cookie采集的网站,在设置了 cookie信息 后,通过采集规则分析”功能确定系统是否正确返回了源码,如果没有,请使用嗅探器进行 cookie的重设。11若土却:仃弄它钦:|土空闺W *ii二曲贝|W11若土却:回慈殛t |番采里羸T|茹卸曲E | +晌家SE*采隼坝I盼折|- I 1 * 1应划古七+瑁加d |i J.5晾为总且网驾 1累华廿盟,W弟求案作短财磐顽愤盼网页瞩隙若采蔑湘路所届互I观DJ座即xP主去.吊点g性起垢缶置姑寺位舌限制条件数据采集顺I的就出呼三.力面均吱口三是返麻玉某卫I三M肯i_:C 寸对土三

9、空寸aNonnalNonnalNcinrlNonroilNonralNonnalNonnalNcinrlNonroilNonral 匕”1、由北彳 WrZ ;LH 呻对.* ;*/时Iml ImHu 珅X;旧古衣片f n”;).叶 F,;淬专空丁 的寸:.=:. j I:?CFft:-iwAir -.王尊去迭式.姬掘用Pien的心生俩K食U5KlSiaaif Srt : JGH左聆件口 了械目皿.行 耳也慎丈行壬座司1*0祛存回隼悄行有七,如星事追11于毫啊-,T;妍业厦出5*5小.彼些-1吕51-中.圣mrm.,n=T =LFW:雷击岌墅畦手由M* WS耳主工5 心网:,三:%彳可:宜冗:坛

10、做 BPE:帙跟WTIW1!:芯匕君苴茸克涅!3心十#!咬4 S=-=ErA tttr5K ELS. S?JAz.i3?B!laK.5ArTiita*CB.:&口”iB!i=,B E.CCTrr.B- :atarlTIm = Drln oil. MM Jig 比! 4 w:r . E-f.w:d l. :ixEd:ll:“XUfrl. H“:北 * 1-lrUrKE;GMJe uxiEiCcri.hT-i Ja. the血 Ma.m:iju. p-:a.tjp*:,&. nl::inMwltir ifI i- wb trj*- ?iH-rM 7 : EviEhmD Cr ,日xiwrri fe

11、d rlEl4WE*:tr-itw*rIXfl,:. riPAirri Eer ! icr| k. eic-IM-wi hh h. flrrtCkiLd: JP C htE 1k. iKkaHilE. n*,ll*,;4;Ta,l44Rll2HTInL:KE:|CKkE. daKi L ibB. eij?i.ul ii Eiaiif Idlul-r3. eie, iLtMLLirrudtf iiefi MAdM1. ebb. i.rLTU:Li eh w.Jhcf lair. i.9i. gv心5k Of BfKi: U. 75 U-:1MIA1 !i*4. :FiHul. iLU. Ul l

12、iMEILLia4 BVi.*!:4JIFELMS. iLU- aFFaiUI IM:aLLi!i|.D.CXLi E4M. dJ-L Jfjao U-A! !ig4. RLU/JXiCF. L“.*d/iH:皿顷 L*-k C p iifcbir eii uPE,,HBL:dan .eii* ahx c fk uei mI I4i1k.L ; Ss.ff1h kei-MLI4fflAiL ; 3v-,,-rtN.,,rRCLEBSil L uca ml LdvtaL 4.|fc.,,w Ei.EFi-hXej i?3dl=iaiELuhwiJek. cn. iFfiiK. Jkiiivi.t

13、eidhi L ciieOi iiU:b 9.tU:uL uckp-ud-cilAr:4iEEI: MkfrwUruqur:.,hV:F心融盐 Uda/tBEi 衅 LAhd: = I:;jlEEm“ji3U faUI|FEhd*pU.E = C E-Kil+T J K 皿 piMrid*T W *: : gT存砒.bJC l| F : w ij-T-tlM S C : T+p+iT E E H | rOrid-|K ES*i : :-Wil F : |,:.* RrLi?CKTlDl EEfcllD:ilil:l. HMlx m,?lTtair.,l. J. d-aln jf isaltai

14、LLl,aiLl3. ;tL,l*iM.B.b.*hLLbU4.EMaL*2. Jn uroitH-1.hvdir : fce.ihn4*l-h-J Ja.ani_ul:ria:al.-k dacaL 3biC3rHLM Jaa?4.uTlm tmcb iuweifci! w-duca11 tEm-Hi=-lMi9:E-lMkMU3 etai-itmZj xh+fdEj ,; :43GlGK: ufwU= KiIIlGb XnhHW:匚Eady i: la” z*njixpB,130&55lJ-:iErLFC iyp4CJCicci,;i,.-xiX3LFCil :TknciiEB :d: w

15、 izd. crw-rf-S+uiE jaECTlpi.* e. EnMCli-MEiJi!iU3lpnJ e. aefnccim e. LExih-fariaEZB- Vi-si- t. MlA11=LkEti:-RPEH5I- _:wtiK!:打占.曲宣窦耳日:MrStKft*I1 口:!-WI 5WTMK=.E十 ln-L44C;M74!ccEDCranm -K?S_y2. Ji i iMiEJ-iMicibT!U:iSi iBitd. M. MEariail Id c: I i 4wfln: . KTlm.-Mcrirt,:nM:lEIEE.!k,.UrLFCilr!fLne.,:LE

16、I :1 *:VM Eir. :T-U1-tfLaUE!;l.aJXTlFihiMeM_lKUde7r!i44t2Eiuc-lliL44E-B43HJiiwih!i!L42E14.*:i-aE:I Anr . . &r. r f-. r . . ,/. rr.r. -. . i -. . .r ,. . r. m/ 4 Mtt,= EfiM#IsB y匹配址果采集数据配置注意事项1、 如果采用规则配置的方式,一定要按照网页代码的顺序配置,这点很重要,系统匹 配数据是从上至下,所以,如果顺序颠倒,可能又部分数据采集不到,尽管规则配 置正确;2、如果采用可视化配置,可以不用考虑顺序的问题,随意配置

17、即可;3、系统提供了通配符,通配符实际是正则表达式,用户也可手工输入正则表达式的通 配符,但一定要用包含,这样系统可以识别这是一个正则表 达式进行处理;静默运行方式静默运行方式是一种不打扰运行,系统不会将日志信息和采集的数据进行输出,同 时系统也不会再弹出托盘菜单气泡提示,所有信息都将由系统处理,而且会把相关系统 信息以日志的方式进行输出。静默运行方式是一种不打扰方式,当用户需要采集数据而且还有其他工作同时进行 时,建议采用此种方式,启动静默采集时,系统好像是一个后台服务,始终运行,却不 干扰用户的其他工作。排重的处理一个采集任务可以多次运行,如果采集一个每日变化得数据时,不免会造成重复采 集

18、的情况,所以,矿工可以甚至排重库,将已经采集的数据记录下来,无论再运行几次,已经采集的数据将不会再进行采集。这是网络矿工设计排重的主要作用,但排重还可以作为另一个作用进行应用,当进 行大量数据采集时,可能会由于对方网站的问题造成某些网址无法访问,但如果隔几分 钟再重试时,网站又可以恢复正常,如果出现这样的情况,由于网站的临时错误会导致 数据漏采,所以,此时可以用排重库记录。采集完成后在此采集,将只采集发生错误的 网址数据了。如果需要重新采集数据,清除排重库即可。任劳常旃:函屈公类=房产、任关炎旦:4:酉用J壬笙订口非席-担天亲习I 金千菜坟腊 萨鼻布,添 t国言瘫吾慕志M定 克三蒂;MFI片壬

19、提狭在:|同工-力瓦尖国重血坳:3 J-扣果是而址无建诂谩口.忽昭至讯采集削S硼:P 阴|皇却祢目隔是指每个独彩程充成一如P请求后悔就加回。代哩设盂,二I采用代醐置进行U给务信息裱 禁用代理抡间机制,赡用一条代理借皂罗痢广日志Jit理:自动悝存出错信息到日志 存俺踏泾:口:5浦娘如吐竺竺奥j的粉启用网厘:口启用网t岫厘后甘海任矜运行模式将耕埒里糅 |旬 命AF重普锹扼支件诣置;W此il者蹈次云行,是否将毛朝据但存至卜音文件中f擘坷;此任耕gl了定时计切中)敏宥*ri s: 同F.雷史折.人心混汛可:系说牡讪为mW:,且无沾危上-HTTP HBacera 法置11炬自毅响心购w蜘御心To谖弟|叱血定11/职消11狷应用关于数据文件的设置网络矿工采集的数据默认情况下是系统自动保存,以xml

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论