




已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 何时才需要做小猪采集规则何时才需要做小猪采集规则 小猪内置了数百种采集规则 内置规则无法修改 方便了用户使用 不过网页 模板 是千变万化的 当 Ctrl b 预览不到内容 或者预览 到的内容不符合您要求的时候 就需要制作采集规则了 注意点 小猪采集规则主要功能是提取字符 网址 采集回复数量 关键词 SEO 伪原创 图片 附件下载 发布 切换用户 发布时间间隔等是通过 采集方案 来控制 并且这些是运 行均是自动化的 2 小猪采集规则的作用小猪采集规则的作用 采集规则 顾名思义 就是采集用的 将网页上的内容提取整理成适 合的形式 以便于发布到网站或者存储到 CSV 数据表格里面 补充 小猪采集规则实际包含了 采集规则 发布规则 这么设计的 好处 可以处理交互式的网页 实现自动登录 回复 购买等互动采 集 普通采集器很难实现这些互动处理 比如在论坛的帖子页 可以 采集这个帖子 也可以对这个帖子进行回复后再采集 当然 大部分 情况下是不需要做发布规则的 请按需选择 3 小猪采集规则的兼容性小猪采集规则的兼容性 小猪的采集规则处理的对象是 网页模板 普通的网站一般只用一套 模板 这种网页就有规律可循 比如相同模板的列表页只需要制作一 条列表采集规则 小结 网站的发布内容展示在网页上 通过 网页模板 展示出来 软件则是通过对应的 采集规则 来解密出网页的内容 小猪规则相当 于是 钥匙 不同的钥匙打开不同的 网页模板 4 小猪采集规则的独立性与调用小猪采集规则的独立性与调用 小猪软件采集规则 是互相独立 又互相配合的 并且规则和任务也 是独立的 小猪的各个任务会自动调用 已经打钩 的本地规则 内置 规则 云规则等 所以制作好规则后 就可以测试采集了 任务会自 动调用 无需手工再次选择 5 采集页面深度采集页面深度 小猪理论上支持采集支持无限深度 原理是通过不同的规则识别不同 的网页模板 也就是抓取不同的页面深度 对于更复杂的需求 还可以通过 p 语言来实现 比如通过 p 语言抓取 相关的网页页面字符和当前页面字符进行拼接组合 第四节第四节 实战编写小猪规则实战编写小猪规则 有些用户可能比较心急 这一节讲解如何操作 不过我们建议大家有空的话还是看全 五节 教程的文字部分 这样能基本掌握小猪规则的制作方法 小猪规则编写速查表 rar 0 Bytes 下载次数 862 新手可以参考此表来编写小猪规则 建议按顺序看以下视频教程 序 号 视频教程说 明 视频 下载 地址 本 地 下 载 教程规则下载 1 编辑规则相 关界面介绍 点击 进入 下载 本 地 下 载 2 正文采集规 则制作方法 点击 进入 下载 本 地 下 载 新闻 正文 11111 rar 428 Bytes 下载次数 641 3 列表采集规 则制作方法 点击 进入 下载 本 地 下 载 新闻 列表 rar 481 Bytes 下载次数 607 4 论坛帖子采 集规则制作 点击 进入 下载 本 地 下 载 5 视频采集规 则制作 包 含采集视频 评论 点击 进入 下载 本 地 下 载 以下为文字说明和相关注意点 正文规则制作教程正文规则制作教程 正文规则是为了采集到 标题 内容 包括图片 附件网址 以及获取正确的翻页网址 便于实时发布 一 在文章页面 CTRL B 测试获取内容不正确 就需要做正文规则 二 右键点 本地规则库 制作当前网页采集规则 编辑正文规则方法如下 操作顺 序 配置名操作方法和注意点 1 全局区设置规则名称和规则类型 一般是选择源代码 正文页类型 2 标题 鼠标框选网页上标题区域鼠标框选网页上标题区域 右键菜单 内容采集 此处取标题 其 他配置名均可以如此操作 3 正文 注意 注意 只有在要采集回复 评论 才需要设置 首帖区域 单元 区域 4 正文下一页 网址 如果有翻页 设置翻页地址 便于软件自动采集文章分页 注意 注意 如果是论坛帖子的翻页 需要设置为 下一页网址 5 识别区识别区回过头来 用正文的 class 属性 设置 识别区 内容必包含 保存保存规则 打开其他正文页面测试是否获取正常 是否调用到了此正文采集规则 小结 制作文章类型的正文规则 主要设置 配置名 中的识别区 标题 正文 正 文下一页 注意点 识别区务必要设置 识别区的重要性在第二节中有相关说明 列表规则的制作教程列表规则的制作教程 列表规则起到导航的作用 便于软件抓取到正文网址 采集正文内容 一 打开版块列表页 CTRL B 测试获取内容不正确 就需要做列表规则 此教程中 内置规则能正常识别到列表 只是演示制作方法 二 右键点 本地规则库 制作当前网页采集规则 编辑列表规则方法如下 操作顺 序 配置名操作方法和注意点 1 全局区设置规则名称和类型 一般是选择源代码 列表页类型 2 单元区域 单元区域 重复的 HTML 块 比如列表上的标题一般都有规律可循 鼠标框选网页上第一个文章链接区域鼠标框选网页上第一个文章链接区域 右键送入 单元区域 小技巧 列表规则单元区域可以直接输入 正文网址 的特征 软件 会自动抓取这些链接 检查标题 正文显示内容是否正确 如果不对需要修改 3 有效区域 可以通过 有效区域 来限定获取内容的范围 比如排除置顶帖 4 下一页网 址 找到翻页地址并设置 便于软件自动翻页采集 5 识别区识别区 回过头来 用单元区域的 class 属性 设置 识别区 内容必包含 如果一时找不到 可以将正文规则的 class 属性 设置到 识别区 内 容不包含 里面 这样就简单实现 2 个规则互不干扰 注意注意 要在列表页源代码中搜索一下 class 属性 检查并确定没有此 字段 才可用此方法 保存保存规则 打开其他列表页面测试是否获取正常 是否调用到了此列表采集规则 小结 制作列表采集规则 主要设置了 配置名 中的单元区域 下一页网址 识别区 注意点 寻找单元区域有一定的技巧 需要耐心 同样 识别区非常重要 务必设置好识 别区 第二节第二节 小猪浏览器采集规则执行原理小猪浏览器采集规则执行原理 小猪浏览器常用的采集规则主要有三类 列表规则 正文规则 根据是否采集 回复 评论 还可以分 2 种 下载规则 首先理解要做哪些规则 首先理解要做哪些规则 序 号 网页类型制作规则类型及注意点 1 版块列表页面 列表规则 单元区域 设置列表网址的特征值 或者正文网址所在重复区块的特征值 2 文章类页面 不采 集回复 正文规则 不需要用到 单元区域 3 帖子类页面 需回 复 评论 正文规则 需要用到 单元区域 对于有些网页评论和回复不在重复区块内 还需要 用到首帖区域 4 跳转的附件下载页 面 下载规则 自编采集规则可以和软件内置采集规则配合使用 比如软件内置规则能识别出 列表页面 但是无法识别正文页面 那么我们只需要制作正文采集规则就可以 了 为了让这些规则互相不冲突 需要用到为了让这些规则互相不冲突 需要用到 识别区识别区 识别区的意义 是让规则 识别区的意义 是让规则 只识别某一类网址 某一种模板 让规则分工协调 只识别某一类网址 某一种模板 让规则分工协调 和普通采集器不一样的是 小猪规则是智能调用智能调用的 规则打钩即生效 软件通 过识别区来自动匹配网页所对应的规则 识别区识别区有有 4 4 个特征选项个特征选项 序 号 识别区 说明 特征字符是固定的字符 请按行填写 不支持通配符号 1 网址必 包含 只有网址包含了这些特征字符 才调用此规则 技巧 新建规则时 软件会自动填入完整域名 有时候可以去 掉二级前缀来扩大规则识别范围 2 网址不 包含 当网址包含这些特征字符的时候 则不调用此规则 3 内容必 包含 当网页代码中带有网页模板特征字符 文字 调用此规则 网页代码 制作规则所针对的网页代码来源 如网页源代码 技巧 我们常用 标题 正文 或者区域的 class 等 HTML 属性 这些一般是网页模板的特征字符 4 内容不 包含 当网页代码中包含了这些特征字符 则不调用此规则 根据排列组合原理 小猪识别区理论上可以识别无限个网页 模板 利用好 识别区 可以让规则匹配不同的网页生效 相关 html 代码属性 可以参考下面的第五节学习 采集规则编辑流程图如下 红线示意了规则循环执行原理采集规则编辑流程图如下 红线示意了规则循环执行原理 扩展一下 一级列表规则也可以指向二级列表规则 直至抓到最终的正文 页面 类似于蜘蛛爬行原理 而我们需要更精确和可控的内容 所以需要制作对应的 小猪采集规则 蜘蛛爬行是顺着网页链接来抓取对应的内容 有一定 随机性 欢迎有志于小猪发展的朋友加入我们 一起努力让更多的人领养小猪 点 评 回 复 使 用 道 具 评 分 举 报 hofihofi 4 管理员 TA 的每日心情 奋 斗 2013 3 3 13 0 2 57 签到天数 206 天 LV 7 常住居民 III 最后登录 2013 3 21 154 注册时间 2010 7 7 积分 40199 主题 发表于 2011 12 11 22 22 58 只看该作者 小猪浏览器论坛搜索 提问搜索 提问 求助的技巧求助的技巧 小小 猪浏览器猪浏览器新手快速入门新手快速入门 视频教程 视频教程 小猪系列软 件教程速查表教程速查表 第三节第三节 规则编辑操作简述规则编辑操作简述 一 规则编辑 相关界面介绍 一 规则编辑 相关界面介绍 序 号 功能区 名称 位置作用及相关功能介绍 1 规则管 理区 工具栏 规则标 签 管理规则的地方 可以执行 新建 删除规则等操作 打 钩的规则才生效 Misc 自动整理的规则会放 到此文件夹 Poster 发布子规则文件夹 可以新建和管理发布子规则 Recycle 此文件夹内的规则 不参与规则冲突检查 可以 用此文件夹屏蔽规则 2 规则编 辑器 编辑规 则窗口 编辑 调试具体的规则 左边 规则总览区 一览检 查规则完成度 中间 配置代码编辑区 快 速编辑配置名 输出 实时显示配 置名的测试结果 右边 p 语言函数说明 3 代码及 抓包工 具 快捷 键 F8 html 代 码窗口 查看网页 HTML 代码 内置抓 包工具 便于调试和测试 代码树 根据源代码和浏览 器代码生成的树状目录结构 源代码 网页服务器端代码 一般针对源代码做规则 浏览器代码 经过浏览器解 释过的客户端网页代码 效率 偏低 浏览包 用户访问网页产生 的数据包 软件包 软件自动执行相关 的数据包 小猪规则编辑器新特性 小猪规则编辑器新特性 所见即所得 编辑的代码可 以在浏览网页中同步高亮显示 便于检查结果 二 编辑规则基本操作方法 二 编辑规则基本操作方法 1 浏览器中 打开需要制作规则的网页 2 右键点击 本地规则库 新建采集规则 3 在浏览器中 鼠标框选内容 通过右键菜单送入相 应的 配置名 中 单元区域选第一个重复区域 识 别成功率会较高 4 检查 配置名 获取到的内容是否正确 分析方法 1 分析代码树 鼠标框选内容 定位到代码树 比如 通过代码树快速分析出重复的 单元区域 2 在网页上 选择一定的区域 右键菜单 查看网页 代码 可以快速查看源代码片段 比如分析下一页代 码 或者在源代码中搜索 分析相关的源代码 检查结果的方法 1 点击 配置名 检查浏览器网页上对应高亮显示区 域 2 规则编辑器下方 输出 窗口会显示测试内容 3 规则保存后 预览结果 ctrl b 是最终验证规则 是否有效的手段 550 帖子 3871 串个门 加好友 打招呼 发消息 欢迎有志于小猪发展的朋友加入我们 一起努力让更多的人领养小猪 点评回复 使用道具 评分 举报 hofihofi 管理员 TA 的每日心情 奋 斗 201 3 3 3 13 02 57 签到天数 206 天 LV 7 常住居 民 III 最后登录 2013 3 21 154 5 发表于 2011 12 11 22 27 30 只看该作者 小猪浏览器论坛搜索 提问搜索 提问 求助的技巧求助的技巧 小猪浏览小猪浏览 器器新手快速入门新手快速入门 视频教程 视频教程 小猪系列软件教程速查表教程速查表 第五节第五节 小猪规则编辑器中 获取及处理内容小猪规则编辑器中 获取及处理内容 配置名配置名 的编辑方法的编辑方法 这边说的 配置名 主要侧重预置的 配置名 如 标题 正文 等 自定义标签 对应的配置名请看第六节 小猪规则编辑器 的采集 配置名 一般有 1 4 种普通处理方 法 普通情况下用不到 p 语言 并且大部分时候只需通过 在 网页上取值就可以 这边主要讲解如何手工编辑 注意 类似 id idwebpig 这样的代码 是规则管理器生 成代码树用的 并非源代码 做规则的时候一定不能带这样的代 码 否则规则会失效 注册时间 2010 7 7 积分 40199 主题 550 帖子 3871 串个门 加好友 打招呼 发消息 如图红色箭头标出了 总览区 和 配置名编辑 的对应关系 蓝色框子是配置名的处理方法 具体讲解如下 一 获取内容 获取内容是小猪规则里最常用的方法 大部分时候 通过获取内容是小猪规则里最常用的方法 大部分时候 通过 获取获取 内容内容 就可以制作出需要的规则代码了 就可以制作出需要的规则代码了 了解一些 html 代码知识会有帮助 见下面补充说明 1 这是标题 1 2 段落 1 3 4 这是标题 2 5 段落 2 6 复制代码 如上面源代码 html 代码是闭合的 开始 闭合 两 个代码成对出现 我们一般称之为一个 HTMLHTML 块块 在小猪编辑器里面 输入 1 h1 复制代码 就能提取到标题了 不需要写结尾 规则编辑器会自动匹配结 尾 精准定位的方法精准定位的方法 上例中 有 2 个段落 需要获得 段落 2 可以这样写 这样是 用 class news 属性来进行一次定位 指定获取第二个 p 1 class news 2 p 语 言 块删除 p 语言 标签过滤 UBB 2 第二阶段 UBB 代码处理 UBB 正则过滤 p 语言 结果 ubb 3 第三阶段 UBB 代码处理 结果 ubb 后处理 p 语言 最终结果 ubb 复制代码 小猪规则解释器采集过程是将网页内容先进行标准化处理 转换 成 UBB 代码后 再按发布网站源程序 自动选择对应的编码发 布 补充补充 为了缩小获取内容 不包括标题和下一页 的范围 小猪编辑器 引入了有效区域概念 限定采集内容的范围 不包括标题 版块 地图 翻页 注意 有效区域设置不当会获取不到内容 有效区域的技巧 只想采集从 版块主题 之后正文网址 可 以用第 3 行 序 号 有效区域 开始 有效区域 结束 有效区域含义 1 只写代码 开头 空 表示循环获取此 html 块为有效区 域 针对列表规则获取链接非常有 效 2 版块主题 从网页开头到 版块主题 结束的 代码区域 是普通网页的开 始代码 3 版块主题 从 版块主题 开始直到代码结束 的代码区域 是普通网页 的结束代码 下面表格列出了一些常用的 html 代码 了解这些代码定义 能 极大的提高规则制作效率 主要看序号 1 5 代码 其中 标准属 性 常用部分 是我们经常用到的定位特征代码 如 class 因为这个属性通常来说是唯一的 并且常可以作为 识别区 内容识别代码 序 号 名称 定义HTML 代码 标准属 性 常 用部分 链接代码结束 1 标题 h1 6 id class title 2 文档中的分 区或节 div id class title 3 组合文档中 的行内元素 span id class title 4 锚 链接 a id class title href 链接 5 向网页中嵌 入一幅图像 img id class title src 图片链 接 6 段落 id class title 7 块引用 id class title 8 列表项目 id class title 9 定义列表 id class title 10 列表中的项 目 即术语 部分 id class title 11 无序列表 id class title 12 表格 id class title 13 表格内的表 id 头单元格 class title 14 表格中的标 准单元格 id class title 15 表格中的行 id class
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年安徽安全员考试模拟考试题及答案
- 2025年健身项目经理专业素质评定考试试题及答案解析
- 2025年健身房管理师职业水平评定试题及答案解析
- 2025年建筑玻璃幕墙工程师职业资格考试试题及答案解析
- 2025年安全生产安全检查标准试题及答案
- 2025年摄影师招聘面试技巧与模拟题答案
- 2025年暑期消防安全知识测试题库
- 机电知识培训目的课件
- 2025年工地安全员高处作业规范及答案
- 2025年收费站安全生产法规模拟题
- 兽药销售业务培训教材
- 2025年湖北省农村义务教育学校教师公开招聘小学语文真题(附答案)
- 2025-2030中国医疗护理器械行业市场发展现状及发展趋势与投资风险研究报告
- 2025四川绵阳市医学会招聘2人笔试模拟试题及答案解析
- 软件项目突发事件应急预案
- 2025年潍坊市中考数学试题卷(含标准答案)
- 医保打击欺诈骗保课件
- 并购整合方案模板(3篇)
- 调酒小摊设计方案(3篇)
- 虚拟现实在初中化学教学产品中的应用效果与设计创新(2025年)
- 2025年高速公路防汛应急演练方案(带演练脚本可直接使用)
评论
0/150
提交评论