已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
采集网站:采集任务:新浪国内新闻任务列表地址:/news/gnxw/gdxw1/index_1.shtml第一步:添加采集站点操作:模块管理-采集管理-采集站点管理-添加采集站点 两个属性:基本信息和站点规则,其中,基本信息为必填项。站点规则可以填写,也可以不填写。所以说这一步可以很简单,也可以稍微麻烦些(设置站点规则) 。 A:基本信息填写:站点名称:就是你给这个网站做的记号,便于以后管理所用。 站点 URL:就是网站的地址了。注意如果你采集的是网站的二级域名,比如 那么,这里就填写二级域名。 站点描述:这个可以为空。 B:站点规则:整个站点内容页(注意是内容页,就是文章的详细展示页面)的通用规则,这里如果设置好后,以后添加采集任务时,会自动继承这个规则,就会省很多工作量。 第二步:添加采集任务操作:模块管理-采集管理-采集任务管理-添加采集任务 或者:模块管理-采集管理-采集站点管理-新浪国内新闻 一行中 “添加任务” 采集任务有三个属性:网址采集 内容规则 高级设置A 网站采集:网址采集的目的是从列表页采集到文章内容页的网址,通俗点就是模仿鼠标从列表页点击文章内容页链接。下面对各个填写项说明一下:基本信息:所属站点:这个必须选择,只有选择了站点后,后续操作才能正常进行。 任务名称:这个必须填写,用于记忆。 简单描述:可不填写 发布栏目:一定要选择栏目,只有选择发布栏目,才能在内容规则里出现对应的发布字段!网址采集: 单一网页或者无规律网页:这个最简单,只采集列表页的一页。 比如:/news/gnxw/gdxw1/index.shtml,/news/gnxw/gdxw1/index_2.shtml采集多个规律网页:如果采集页面地址很有规律,可以采用“批量添加多页”方式/news/gnxw/gdxw1/index_2.shtml变成 /news/gnxw/gdxw1/index_ (*).shtml 其中(*)就表示任意字符或者数字,我们称其为通配符。接下来,我们来定义这个通配符的变化范围: 通配符范围: 从_到_ 步长倍数:_ 倒序生成 补零: _ 页码=通配符步长倍数倒序生成:主要是为了采集来的内容也按照原文章列表里的顺序, 一般网站列表分页都是都是按照时间降序的,最新发布的文章都在第一页,优先采集页码数大的。后采集页面数小的。注意:现在有的站点列表页是倒序生成的。 补零:就是有的网站文章列表地址 1-10 页的地址中规律是这样的:index_01.shtml ,index_02.shtml对于这种情况,选中“补零“,就会自动在生成的页码上补零了。文章网址筛选:这个是用来过滤非文章内容网址的,就是要求文章内容地址里必须包含什么字符,不能包含什么字符。 页面某一区域内获取网址:这个很重要,是用来确定文章列表的上下界限的。不填写则自动匹配真个页面区域。正确填写可以过滤掉不需要的网页链接,填写要点是: 1、找到文章列表的第一条记录,然后页面空白处右键-查看源文件,里面搜索第一条记录的名称,在第一条记录之前,寻找特殊标志作为边界起点填到第一个框里。 2、找到文章列表的最后一条记录或者分页标志,在最后一条记录之后寻找特殊标识,作为边界终点填写到第二个框里。注意,这个特殊标识必须为边界起点之后第一次出现! 比如:/news/gnxw/gdxw1/index_1.shtml 页面中,我寻找的边界:其中“”出现在列表页第一条记录之前,并且是唯一的;而“”是在出现在列表页最后一条记录之后,并且是“”之后第一次出现。所以可以作为边界终点。缩略图采集规则:这个是用来采集列表页缩略图用的,留空即可。 采集登陆网站: 这个是针对需要登陆后才能访问的内容设计的,cookie 的获取,可以使用 ieHTTPHeaders 获取,或者用火车头采集器获取。可以参考相应工具。然后把获取的 cookie 粘贴到 使用已有的 COOKIE 后面的框框里即可。 B 内容规则:内容规则这里看起来比较复杂,其实也很简单,为了便于说明,我们只采集标题、内容两个字段。采集内容网址:/c/2009-05-20/151017854839.shtml 的内容采集规则,请你打开这个网址,然后页面空白处右键-查看源文件搜索标题和内容的开始边界。 标题:用了和作为边界。实际上用 和_就可以。由于title中都含有“_新闻中心_新浪网”这里用了信息替换功能。内容:和作为边界,不过观察代码里面还有一些其他的注释和链接所以用了信息替换替换掉“ ”多个替换用“(|)”分隔开。Html自动清除 就是清除采集内容中带有的一些html标记了,根据实际情况自行选择即可。设置文章分页采集和合并:分页代码的边界是指分页代码列表的上下边界。C高级设置:列表页编码设置:列表页的编码,是 GBK还是 UTF-8,查看方法,打开列表页,然后页面空白处右键-查看源文件,搜索“charset=”等号之后就为页面编码。内容页编码设置:这个是文章内容页的编码,查看方法同上。 下载图片、下载 flash、下载文件等这些都很简单,看描述就行了 多线程设置:这里,把线程数设置为 5 最后,数值越大,采集速度越快,占用系统资源也越大。超时时间:就是采集内容链接无响应时间,不用改变。 都设置好了,这时候点击“保持设置”就行了。第三步:开始采集网址操作:模块管理-采集管理-采集任务管理-管理操作中的采集网址。第四步:开始采集内容操作:采集网址完成后,点击“采集内容” 或者:模块管理-采集管理-采集任务管理-管理操作中的采集内容。 点击采集内容后,会自动显示采集进度条:第五步:发布内容操作:采集内容完成后,点击“发布内容” 这里有需要注意的地方就是生成 html(发布速度慢!):如果你发布的内容较少,可以选中此项,如果你发布的文章超过百篇以上,建议不要选中该文件!因为 phpcms 默认的每发布文章会更新网站首页、列表页、栏目页、内容页的 html, 批量发布时会导致频繁更
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 排球装备搭配直播创新创业项目商业计划书
- 复古螺旋桨飞机仿真模型创新创业项目商业计划书
- 《低碳经济循环经济与加快经济发展方式转变》试题及考答案
- (2025年)药房药店员工入职及岗前培训考试试题含答案
- 2025年未成年人社区矫正学校合作机制考核试卷
- 2024年铜仁市中医医院招聘专业技术人员真题
- 人教版语文二年级上册《葡萄沟》教案简案
- 2024年黔西南州望谟县招聘公费师范毕业生和“优师计划”毕业生真题
- 2025年玉树州辅警招聘考试题库及答案详解一套
- 2025年贵港辅警协警招聘考试备考题库及1套完整答案详解
- 天津市广通信息技术工程股份有限公司(所属公司)招聘笔试题库2025
- 坚果油冷榨提取设备创新创业项目商业计划书
- 食品废料回收合同范本
- 2024年湖南省常规选调生考试真题
- 客户信息管理标准流程手册
- 泌尿结石健康宣教
- 2025年甘肃龙泰实业有限责任公司招聘工作人员笔试考试备考题库及答案解析
- 夜间施工方案及安全措施
- 战时金融科技应用-洞察与解读
- 儿童多指畸形手术方法
- 中国移动ai面试题库及答案
评论
0/150
提交评论