dedecms织梦采集功能的使用方法(二)我是程序员.doc_第1页
dedecms织梦采集功能的使用方法(二)我是程序员.doc_第2页
dedecms织梦采集功能的使用方法(二)我是程序员.doc_第3页
dedecms织梦采集功能的使用方法(二)我是程序员.doc_第4页
dedecms织梦采集功能的使用方法(二)我是程序员.doc_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、dedecms 织梦采集功能的使用方法(二)我是程序员Dedecms 采集功能的使用方法 不含分页的普通文章(二)2.1 新增采集节点:第二步设置内容字段获取规则单击“保存信息并进入下一步设置”后,便可进入“新增采集节点:第二步设置内容字段获取规则”页面,如(图 22)所示,图 22-设置内容字段获取规则在预览网址处,系统将会自动指定一篇将被采集文章内容页面的网址(一般为所采集列表页面的第一篇文章网址) ,作为示范页面。如果文章内容页面含有分页,则需设置“内容分页导航所在的区域匹配规则” 。对于“固定采集项目”中的“内容摘要、关键字和缩略图“三个部分,系统会用正则进行自动匹配,这里仅需配置过滤

2、内容即可。下面主要介绍如何获取“文章标题、文章作者、文章来源、发布时间和文章内容”的采集规则,过滤规则仅简单涉及。2.1.1 获取文章标题的采集规则首先,打开“预览网址“的页面并单击右键,选择”查看源代码“,找到文章标题” 在 Dreamweaver 中为插入的 Flash 添加透明“,如(图 23)所示,图 23-在源代码中的文章标题这里的文章标题处在”<h1></h1>”之间,由于在此页面中多次出现这组标签,因此这里应该填写“ class=”arcbody”><h1> 内容 </h1><div”作为文章标题的匹配规则。如果在文章标

3、题中含有相关链接等,可使用过滤规则加以处理,这里无需设置。填写后,如图 24 所示,图 24-文章标题的采集规则2.1.2 获取文章作者的采集规则如上图 23 所示,在“作者: ”二字后面有一组标签“<fontcolor= ” red” ></font>”,以此猜测,作者名将会写在这组标签之间。同样,为了保持唯一性,这里应填写”作者: <font color= “ red”> 内容 </font>“作为文章作者的采集规则。谨慎起见,请根据文章列表中其他文章内容页面查证此采集规则是否正确。这里不需要使用过滤规则。填写后,如图25 所示,图 25-文

4、章作者的采集规则2.1.3 获取文章来源的采集规则图 26-文章来源的采集规则2.1.4 获取文章发布时间的采集规则再次回到图23,找到“发表于: ”及其后的“ <font color= ”red”>2009-09-29 14:21</font>”,与之前获取采集规则方法相同,此处应把“发表于: <font color= ”red”> 容</font> ”作为发布时间的采集规则。同样,这里也不需要使用过滤规则。填写后,如图 27 所示,内图 27-文章发布时间的采集规则2.1.5 获取文章内容的采集规则这个部分是编写采集规则的重点,也是难点。 需

5、要特别注意。具体操作步骤:(a)回到正在打开的文章内容页面的源代码, 找到文章内容的开始部分“ Dreamweaver 升级到 8.0.2 后”,如图 28 所示,图 28-文章内容的开始部分注意:在源代码中,有两处都出现了这句话。其中,第一句在“ <div class= ”intro ”> ”之后,第二句在“ <div class= ”content” ><p>”之后。通过对比文章内容页面及其源代码,不难发现,第一处实为摘要,第二处才为文章内容的开始部分。因此,应选取“ <div class= ” content” > ” 为匹配规则的开始部分

6、。( b)找到文章内容的结束部分 “同样是添加值为 “ transparent” 的“ wmode”参数。”,如图 29 所示,图 29-文章内容的结束部分注意:由于结束部分的最后标签为” </p> ”,而此标签在文章内容中多次出现。因此,不能作为采集规则的结束标签。考虑到应与文章内容的开始部分相对应,经对比和分析后得出,此处应选取“ </div> ”作为文章内容的结束部分,如图 30 所示,图 30-文章内容匹配规则的结束部分(c)综合( a)和( b)可知,此处文章内容的匹配规则应为“<div class= ”content”> 内容 </div&

7、gt; ”,填写后,如图 31 所示,图 31-文章内容的匹配规则这里占时不使用过滤规则,关于过滤规则的介绍和使用,将会放在单独的章节中。到这里,“新增采集节点:第二步设置内容字段获取规则” ,就设置完成了。填写后,如(图 32)所示,图 32-设置后的新增采集节点:第二步设置内容字段获取规则检查无误后,单击“保存配置并预览” 。如果之前设置正确,单击后,将会进入“新增采集节点:测试内容字段设置”页面并看到相应的文章内容。如(图33)所示,图 33-新增采集节点:测试内容字段设置确定正确无误后,如果单击“仅保存”,系统将会提示“成功保存配置“并返回”采集节点管理“界面;如果单击“保存并开始采集“,将会进入”采集指定节点“界面。否则,请单击“返回上一步进行修改” 。关于第二节的介绍就到这里。下面进入第三节。Related posts:站群快速安装采集侠的方法dedecms

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论