已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
火车头采集教程火车头采集教程 1 基本概念 a 采集 就是对页面上有用的信息进行抽取并下载的过程 b 列表页列表页 有大量内容页面链接的页面 如下 c 内容页内容页 由列表页点击进去的页面 也是真正需要采集的页面 如下 内容页抽取的过程实质上也就是在源代码中找到需要的内容的开始和结束的字符 串 系统进行自动匹配的过程 比如上图中 王宝强携 这个标题 在源代码 中的格式是这样的 因此 只需要把上图中的开始和结束字符串拷贝到软件中就可以了 详情见下 2 基本步骤 a 确定需要采集的网站 b 观察网站结构 找到列表页列表页 做以下工作 i 观察列表页中需要的内容页的链接样式 ii 观察列表页第一页 第二页等等的链接样式 c 对内容页进行模板编写 d 开始采集任务 3 详细实例 下面通过一个具体的例子来具体讲解火车头采集器的工作过程 这个例子尝试抓取 这个页面的前 5 页的内容 a 打开程序 打开后如下图 b 在站点任务列表树那里右键 新建站点 类似下图 保存 c 主界面中出现 的标签 在这个标签上右键选择新建站点 如下 出图如下 点击向导添加 对列表页的链接地址进行描述 弹出窗口如下 为了确定在这里填写什么 我们先到需要抓取的列表看看 也就是 然后鼠标在页面上浮动 观察它的链接样式 如下图 第一页 第二页 看到这里 我们可以发现 这里的列表页的规则是 Front aspx page 0 即 链接前面是不变的 只有后面的页码改变 因此现在我们可以知道上面的表 单怎么填了 如下图 这里的 代表通配符 系统会自动按照你的规则对这个字符进行替换 比如 现 在的规则是数字变化 从 0 到 4 间隔为 1 因此 系统自动生成了如预览中的列 表样式出来了 预览中的链接样式确定没有问题后 点击添加 然后点击完成 d 现在又回到了这个页 好 现在我们还是打开 现在来观察我们需要的列表中的链接的样式 如下图 从上面我们可以看到 所有的新闻的链接都类似于 这个链接中 这个部分是不变的 后面的可能会根据年月 日 标签而改变 还记得我们之前讲的 的作用么 没错 这里我们可以这样描 述它 把这个填到 上图中的 文章内容页面的地址比如包含中去吧 你一定注意到了 这个表单还有个页面内选定区域采集网址应该怎么填呢 现在 来考虑下 根据我们之前做的规则 系统现在已经知道自动的去遍历 0 1 2 3 4 页的内容 然后从中间找出所有类似 shtml 这样的链接去采集内容 但是还有一个问题 列表页面有类似链 接的可能不止列表区域这一块 也有可能在导航 在页尾等等地方都存在 那这 些地方的内容很可能是我们不需要的 因此 如果必要的话 我们还需要让系统 知道列表区域的范围 如下图 为了快速定位 打开 firefox 用 firebug 定位 如下 在源代码中搜索 listCon 如下图 多查找几次 看源码中是否还有其余的地方存在这个字符串 确保你搜索的内容 在整个源码中只出现了一次 这里 我们把作为整个内容的开 头 继续在 firebug 中找尾部 如图 这里我们获得了 div class Bar bgt 在我们需要的内容区域后面 源码中搜索 Bar bgt 运气不错 这个也只出现了一次 那么范围区域的结尾就确定了 是 现在我们的表单是这样的 现在来验证下我们的工作成果吧 点击开始测试网址采集 结果如图 如果点击前面的 号 如图 目前为止 一切都很顺利 如果你没有看到 号 那说明你在配置采集地址的地方 犯了错误 你应该在仔细看看 3 c 的内容 e OK 现在第一步就搞定了 不要担心 实际上 整个做完只需要两步而已 而到 目前为止 你已经获得了你需要知道的一切技巧了 下面我们来对内容页进行处理 点击第二步 采集内容规则 如图 双击标题 来对内容页的标题进行处理 这里怎么填呢 还记得前面讲的 firebug 吧 对 先用它来确定标题在源码中出现 的位置 当然 你也可以直接拿标题前几个字符在源码中搜 获得出现的位置 在我这里是这样的 非常清晰 那么头自然就是 了 没错 不过你这么干的话 测试的时候会发现什么都得不到 因为 从到中间可能还有回车 空格等空白符 那怎么办 还记 得 么 没错 管它是什么 直接写 就好 结束没什 么好说的 只能是了 好 现在看来是这样了 OK 就这样就可以了 很简单吧 点击确定回到前页 现在来测试下 在典型页面填 点击测试 结果如图 标题已经顺利解析出来了 下面来进行内容的抽取 上图是已经配置好的结构 开始字符串和结束字符串这个很好理解 HTML 标签 排除是把内容不需要的 html 标签去掉 由于我们只需要正文中的 img 因此其他标签都勾选上 下面的内容排除是把源码中不需要的内容去掉 比如 上图中划线部分我们是不需要的 因此需要把他去掉 要注意这里都是源码中的 格式 当然 你懂的 你可以用 想必你已经发现了 这个内容页是分页的 在你对上面的表单配置完成后 点击确定 会回到这里 请仔细看我用红线圈起来的地方 跟之前一样 上一页和末页是把分页的内容区 域划出来 然后观察分页样式 链接样式都类似于 href 5444 2 html 分页网址中的 参数 1 就是分页连接地址样式中的 参数 系统会自动替换 注意 注意 i 在使用过程中 如果内容有多页 要记得在内容配置表单中把该标签在分页在使用过程中 如果内容有多页 要记得在内容配置表单中把该标签在分页 中匹配勾选上中匹配勾选上 ii 在第二步采集内容规则那里 测试的时候要观察列表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年中国加氢站研究报告
- 2026年中国镁铝合金管行业市场前景预测及投资价值评估分析报告
- 2025中国重汽集团重汽国际公司社会招聘200人笔试考试备考题库及答案解析
- 2026首都医科大学附属北京积水潭医院面向应届毕业生(含社会人员) 招聘168人笔试考试参考试题及答案解析
- 2025年吉安市吉州区两山资产运营有限公司及下属子公司面向社会招聘工作人员考试笔试备考试题及答案解析
- 2025上海中侨职业技术大学招聘兼职心理咨询师笔试考试参考试题及答案解析
- 2025年仁寿县从“西部计划”志愿者中公开考核招聘乡镇事业单位工作人员笔试考试参考试题及答案解析
- 2025年考研政治论述题冲刺模拟试题
- 精神科病例科普
- 2026年锡林郭勒职业学院单招职业技能考试题库及答案1套
- 农业经理人考试题库四级及答案
- 2025年入团考试知识总结试题及答案
- 2025年健康险行业分析报告及未来发展趋势预测
- JJF 2291-2025辉光放电质谱仪校准规范
- 出租注册地址合同范本
- 统编版(2024)三年级上册道德与法治第二单元 爱科学 学科学 教案(4-6课)
- GB/T 24460-2025太阳能光伏照明装置总技术规范
- 2025年通信技术公司工作人员招聘考试笔试试题(附答案)
- 生态城市绿色建筑协同-洞察与解读
- 2025年合肥文旅博览集团招聘笔试参考题库含答案解析
- 山东省烟台市2024-2025学年高二上学期期中考试政治试题 含解析
评论
0/150
提交评论