




已阅读5页,还剩10页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
原创:/read-forum-tid-282859.htm那天在论坛里给位朋友写腾讯女性频道的一个栏目规则时,发现该标题列表是JS分页方式,内容页也有很多需要过滤的东西, 所以当时就打算写个教程,一直没时间弄,终于空了些来完成这个教程,本打算就做个图文教程,又看到论坛里有兄弟抱怨没 有采集的视频教程,所以就录了这个视频讲解,不过个人还是比较偏爱于图文的 讲解,所以一并放出,希望大家笑纳!如果对于图文看得不是很懂的朋友可以下载视频来观看,本人第一次录制视频,对于编 码选择这方面的东西不是很懂,所以成品有些过于臃肿了,视频时长近50分钟,压缩包大小为127MB,呵呵,网速好的话下载也 不用多久! 【will版P8通俗图文采集实例讲解第二期视频教程】下载地址: 推荐从网盘下载,速度还可以!魔方网盘(提取码 4103991581671415):/ 或者/4103991581671415 三楼新增论坛附件下载,共64个包好了,我们现在开始吧! 在经语录吧首先介绍一下我们今天的知识点!如下图: 图1 主要就上面罗列的4点,其实也就是JS列表的获取方法,以及内容过滤方式的讲解,3和4是两个PHP系统函数. 打开我们要采集的目标站:/beauty/beauty1/llryxsj.htm(腾讯女性频道美容护肤) 图2 在经语录吧我们在点击翻页的时候会发现地址栏并没有变化,整个列表内容由JS来调用,是JS分页方式,碰到这种分页我们要怎么办呢? 这时我们需要用到一个抓包的工具,我们将用这个工具来获取列表页的真实地址,这个工具我在论坛里有发可以在这里获得: /read-bbs-tid-273215-fpage-0-page-1.html 图3 上表的正则工具我也在后面讲解内容过滤的时候也会用到. 抓包工具为绿色软件,解压后可以直接使用,使用这个软件的时候可能有些杀毒软件会干掉它,这时候需要把杀软件先禁用. 在经语录吧我们打开这个抓包工具,点击打包按钮,选择所使用的浏览器进程,找到腾迅女性频道的选项卡;如图4: 双击打开,出现如下界面: 图5 把界面最小化,然后我们点击腾讯女性栏目的翻页,来翻动一页,翻页后再打开抓工具,我们这时就能看到里面多了很多的数据, 有一些是以GET开头的,我们就是需要从这些GET的数据行里找出真实的列表页地址(注:有一些网页可以使用的是POST的发送方式 那就是POST开头) 如图6: 我们把GET后面的网址输入到地址栏里去测试一下,这里只截获了两个GET,我测试的时候第一个是错误的,第二个是正确的:网址为: /c/beautysj35_2.htm,我们在前面用根网址补齐地址就是:/c/beautysj35_2.htm 输入地址栏就可以看到真实的列表页: 如图7: 在经语录吧然后我们把这个地址填写到采集列表的规则里去,就是如下设置: 如图8: 我们现在来写获取标题以及内容的网址的规则,在上一篇教程里我也有提到过;我习惯使用截取标题前不需要的以及 截取标题后不需要的内容,这样可以减少标题规则的错误率. 我们先来查看一下列表页的源代码,如图9: 在经语录吧我们会看到这个面页的代码比较简单,里面就只有一个id为listZone的DIV而已,所以我们在截取部分就这样设置: 如图10: 然后是填写变量规则的部分设置,代码如下: 复制代码 1. title=NO我们来测试一下采集标题,测试结果没有问题可以正确得到标题和内容的网址.点击下一步,开始配置内容的规则 我们随机的打开两到三个个内容页面!查看并对比其源代码:我们可以很容易的找出文章内容开始前的标记代码,并且该标记在页面中 是唯一存在的是: 复制代码 1. 这段HTML标记,然而结尾的部分就不太好确定了,因为从打开的三人面页上我 们可以看到,正文结束后的部分都不太一样,如图11: 随机的浏览一些内容页面我们就会发现正文后面都会随机出现这三部分内容,所以我们找的结尾一定不能是这个部分源码里的任何一个 否则就无法正确采集到所有的文章. 我个人是喜欢使用分页代码所在的那个层来做为结尾的,规则做多了你就能发现分页的那段代码前面的一个DIV或者是P或者是SPAN标记基本上是 唯一存在在面页中的,所以我每次只要存在有分页我就会直接寻找这段代码来做为规则结尾的代码. 像这样的正文我们原则是结尾的标记尽量的往后找,并尽量保证它的唯一性(其实只要是正文开始后第一次出现的标记就可以了), 下面我先放出目标内容页的部分源代码,方便大家理解: 复制代码 1. 2. 3. 婚礼“美眉”如何护理眼睛? 4. 5. http:/lady.QQ.com2009年12月14日14:36 6. 新娘网站 7.8. 我要评论(0) 9. 10. 11. 导读:眼睛虽然只占脸上的一小部分,却是影响整体美感的重要“窗口”,一双如波美目常常会给个人的气质加到满分。眼睛应该怎样护理?怎样让黑眼圈、肿眼袋、细小皱纹等“小麻烦”通通远离?来看看吧 12. 13. !- 14.15. 16. 17. 18. 6天7夜真情大考验 25万大奖等你拿 19. UAA六天七夜浪漫海岛真情大考验活动现募集选手,请您任选4种方式获得晋级资格,即可免费赴荒蛮海岛参加生存考验,还有25万大奖等你拿!详细 20. 21. 22. -1.改善眼浮肿的有效办法:婚礼前一个月:每天早晚坚持做眼部保养,最好选择植物精华且能够有效舒张及减轻眼部浮肿成分的眼胶保养品,或者将维生素E直接涂于下眼睑出,以加强皮肤抗衰老能力。婚礼前夜:入睡前一小时千万不要喝水,否则容易出现排水不畅,而导致眼部浮肿。另外,不妨使用比较硬额枕头,帮助血液循环,以免液体淤积在眼部形成眼袋。婚礼当天应急措施:将蘸满冰冻鲜奶的收缩水的化妆棉冷敷在眼睛上,5-10分钟后再用冷水清洗,有助减轻浮肿的眼肚。药物治疗:如果眼睛浮肿的情况已极为严重,可以尝试吃半粒利尿丸,以帮助排去体内多余水分。 23. 相关精彩阅读内容太多这里略去 24. 25. 内容太多这里略去|xGv00|76fca59fc558e522ed786cfaaee0b80e 26. /*重点阅读*/内容太多这里略去 27. 这里是分页 我选择结尾的HTML标记为 复制代码 1. 所以内容规则就是这样了: 复制代码 1. content=*但是规则做成这样,我们就会把后面的那些个不需要的部分采集回来,所以我们需要来过滤掉这些不需要的部分! 我把后面不需要的部分分成了三个段: 复制代码 1. 相关精彩阅读内容太多这里略去复制代码 1. 2. 内容太多这里略去复制代码 1. 2. /*重点阅读*/内容太多这里略去我们要怎么来过滤这三部分呢?我们将用到高级设置里的倒数第二个框结尾PHP正则程序语法 我们先来看下上一个教程中给出的部分正则代码 图文的先写到这里吧,后面的今天实在是写不下去了!见谅!大家需要可以先看视频教程,讲解更为详细一些! 图文的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年空气处理化学品:光触媒项目规划申请报告模板
- 2025年中国玻璃钢修补包行业市场分析及投资价值评估前景预测报告
- 人防工程竣工验收与验收标准方案
- 风景园林项目成本控制与资金管理方案
- 商场应急预案管理
- Unit6单元整体教学设计2023-2024学年人教版英语八年级下册
- 河道周边环境整治与可持续发展方案
- Unit 6 sunshine for all integrated skills 教学设计牛津译林版八年级英语下册
- 律师舆情应急预案
- 河南省安阳市内黄县2023-2024学年九年级下学期中考适应性训练(三模)化学试题及答案
- 2025年中华人民共和国治安管理处罚法知识竞赛考试练习题库(160题)
- 2025中国半钢轮胎市场白皮书
- 2025年人教版8年级数学上册《三角形》章节练习试卷
- 绿色低碳人才培养体系构建:环境工程硕士教育模式创新研究
- 特殊教育阶段学生德育评价体系的构建与实践探索
- 学堂在线 遥测原理 章节测试答案
- 2025企业级AI Agent(智能体)价值及应用报告
- 社会支持与心理健康关联研究-洞察及研究
- 研发人员晋升管理制度
- 活动人员分工安排方案
- 钛镁合金合同协议
评论
0/150
提交评论