




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
小蜜蜂采集器文章采集器使用指南一:建立站点和栏目1:点击添加站点按钮出现如下页面可以根据提示设立网站名称和网站归属栏目名称。注:必须要先设置网站后才能设置栏目名称。并在设置栏目名称后选择网站,以便确立栏目的归属。配置完成站点和栏目后出现如下页面注:一个站点下可以有添加多个栏目二:建立采集规则1:为栏目添加规则当你是第一次为新建立的站点添加规则时,请一定要点选站点列表栏目中的“添加规则”按钮。如下图:点击后,我们可以选择为站点中的哪个栏目进行规则添加2:规则编写这里我们要着重说明,如何添加采集规则并详细说明如何编写规则。以下的讲解将以一实际网站为例进行。 2.1 如何编写URL规则 我们以如下的链接地址为例:/tech/web/index.asp出现如下页面我们来分析这条URL的页面:第一页的URL为 /tech/web/index.asp第二页的URL 为 /tech/web/index_2.asp第三页的URL 为 /tech/web/index_3.asp这里我们可以看出除第1页外,起它页URL 都是有规律的在进行变化。因此我在URL链接区域填入下列内容我们可以看见在“有规律的URL”里我们是采用了这样的的链接内容/tech/web/index_variable.asp 而实际的分页URL是这样的/tech/web/index_3.asp在这里我们用variable【变量】取代了数字【2】【3】,而在参数区填写了【2】,【9】。至此我们完成了URL的添加。 2.2如何编写“链接”规则。 在上一步我们完成了URL的编写,使采集器知道哪些页面URL是要去进行采集的;但要软件知道具体要采集哪些内容,我们就要编辑“链接”规则。 首先确定哪些链接是我们要采集的:在当前页我们按“F7”,或点选IE中的“查看”“源文件”按钮,打开记事本查看当前页的HTML源代码文件。查找到特定代码区域,如下图:我们可以发现这些代码都是有规律的,依据规律提取如下 DW8代码工具栏试用对以上代码我们做如下编写 title以上我们用link【链接】标签替换了“/tech/web/2005/2815.asp”,用title【标题】标签替换了“DW8代码工具栏试用”。编辑“链接”规则做完后,选择“提交”按钮后点击“采集测试”按钮,以测试规则是否配置正确。如配置正确会出现如下页面:这表明前几步的配置是完全正确的,现可以进行实际文章内容的采集配置了。2.3 如何配置文章内容的采集 在链接中选取一个页面打开,为有针对性的演示内容配置中的特殊用法,这里选取的链接地址为“实现一个日期下拉菜单”(/tech/web/2006/3169.asp)。在当前页我们按“F7”,或点选IE中的“查看”“源文件”按钮,打开记事本查看当前页的HTML源代码文件。 2.3.1 配置文章内容的“标题”栏。 在已打开的源代码文件中,查找包含标题的特定HTML代码,找到代码如下:蓝色理想 - 实现一个日期下拉菜单因为我们需要的标题内容是“实现一个日期下拉菜单”,这里我们用title【标题】标签放到需要的内容处,替换该代码如下: 2.3.2配置文章内容的“内容”栏 查找到包含内容的特定源码区域 这篇文章的主旨是弄清楚如何根. 使用JavaScript的Date对象时要特别注意这一点。出处 这里我们要选择包含内容源码的开始特征码和结束特征码,通过分析我们选择配置如下这里我们使用了content【内容】标签替换了内容页的全部代码。实际代码如下 content出处 2.3.3配置文章内容“内容分页”在该链接中,完整的文章是分成为三个页面构成的。“内容分页”一般有两种表现形式,1:全部列出形式,2:上下页形式。我们对两种形式的编码配置进行演示A:全部列出形式 HTML源代码如下 第 1 页 实现一个日期下拉菜单 1 第 2 页 实现一个日期下拉菜单 2 第 3 页 实现一个日期下拉菜单 3这里利用innerrang【分页区域代码】标签,配置规则如下:innerrangB:上下页形式 HTML源代码如下上一页 下一页 实现一个日期下拉菜单 2这里利用innerpage【分页】配置规则如下:下一页variable。这里要特别注意的是,上下页分页模式下只需要选择包含有“下一页”内容源代码就可以。完成这一步后选择“提交”,再选择“采集测试”按钮。如下图显示找到标题“实现一个日期下拉菜单”的链接,点选“提取内容”按钮,测试提取内容。并查看该内容是否符合原始内容,以及“内容分页”是否完整提取。这里我们可以看见。内容是完整提取的。证明我们“内容”“内容分页”规则配置是正确的。 对剩余的“来源”,“作者”栏目的规则我们可以参照“内容”等的配置方式进行配置。配置如下: 2.3.4配置文章内容“过滤”栏目 “过滤”栏目,可以将要进行过滤的源代码拷贝进该栏目就可,如有多个要过滤的源代码段,可使用 filtrate【增加过滤】标签进行分割。2.3.5配置文章内容“图片保存目录”。这里的目录是指采集系统所在WEB根目录,可以自己手工创建,也可在指定图片存储一级目录后选择“系统自动添加目录”,选取该选项后,系统会按照日期创建二级目录,并将当日采集的所用图片存放在以日期命名的目录;推荐使用方便进行管理。3:文章采集 在规则配置完成后依照“采集链接”“采集内容”“采集图片”的顺序完成文章的采集。完成采集后可点选“内容”浏览,查看采集的内容和图片的正确性。二:采集器配置技巧1:规则复制 同一网站的不同目录,它们的配置规则都大体一致,只需要做少量的改动。在我们配置完成一个栏目的规则后。我们就可以使用“复制规则”对其他未配置规则的栏目进行规则复制。加快栏目规则配置的速度。具体方式如下:点击已配置完成规则栏目中的“复制规则”按钮出现如页面在需复制规则的栏目名称后,点击“提交”。这样规则就完成了复制。我们只需将规则编辑中的URL替换成对应的栏目即可。2:规则导入与导出 采集器规则分为三中类型 1:全站配置规则 (*.qzd)文件 2:栏目配置规则(*.lwp)文件 3:数据库导库配置规则(*.lpdb)文件。 2.1全站规则导入与导出,全站规则导入与导出,是指包含站点内所有栏目和栏目配置规则的导入与导出。在导入全站规则时需点击“添加站点”,建立一新站点再点击新建站点的“导入规则”选取需导入的全站配置规则文件*.qzd就可。2.2栏目规则导入与导出栏目规则导入与导出,是指站点内特定栏目配置规则的导入与导出在导入全站规则
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年45万平米住宅水电系统设计与全面维护服务合同
- 2025年智能办公家具定制与配套服务采购合同
- 2025年珠宝设计产业园区入驻企业供应链整合服务合作协议
- 2025年剧毒化学品运输车安全检测与预防性维护服务协议
- 2025年绿色建材生产与供应企业劳动合同模板
- 2025年智慧养老社区法律顾问专项服务合同
- 2025年度高端茶叶品牌代理销售合同(茶艺体验与品牌连锁加盟)
- 2025年现代厂房物业管理服务合同全方位服务体系
- 2025年快递行业绿色物流区域承包及环保责任合作协议
- 2025年智能网联汽车租赁与深度维护服务专项合同
- 高等院校毕业生转正定级审批表-6
- 贾宁财务讲义:人人都需要的财务思维
- 红星照耀中国选择题及答案50道
- 开放性伤口止血包扎技术课件
- 重症患者中心静脉导管管理中国专家共识(2022版)
- 环境综合应急预案
- 氯甲烷泄露应急预案
- 2.PaleoScan详细操作流程
- PLC西门子S7-1200应用技术完整全套教学课件
- 苏州银行总行信息科技部招聘考试真题2022
- 安装电工电气调试员安全技术操作规程
评论
0/150
提交评论