




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、n一、软件安装n二、新建站点n 三、采集网址n 四、采集内容n 五、发布内容n六、任务采集n七、导出数据需要安装软件: () WAMP5-v1.7.4 () phpcms () LocoySpiderV2009SP4_Build20090807(火车头采集器)注:每次采集前需要將wamp5打开后,在用火车头采集。1、wamp5_1.7.4安装完成后,解压缩phpcms后将phpcms1剪切出来放到D:wampwww目录下,将phpcms1改名为phpcms。2、打开WAMP5,启动PHP settings栏目中的short open tag。3、安装PHP,输入http:/localhost/
2、phpcms/install.php进行。4、解压LocoySpiderV2009SP4_Build20090807将Module文件下的phpcms2008-090109文件下的locoy.php复制到D:wampwwwphpcms下。安装部分完成打开火车头软件(LocoySpider.exe)界面如下图:第一步:新建站点(如右图)第二步:点击“新建站点”后出现如下界面。填写站点名和站点网址点击“更新”新建好的站点会排列在窗口左侧“站点&任务列表”中。右击新建好的站点,点击“从该站点新建任务”,出现如下界面。以本列表为例:http:/ “资讯内容”、“内容摘要”、“信息关键词”、“m
3、eta关键词”、“meta描述”、“责任编辑”、“信息来源”添加到标签名中,將其他不需要的标签名称删除,出现如下界面。下面分别说明“标题”、“内容摘要”、“信息关键词”、“meta关键词”、“meta描述”、“责任编辑”、“信息来源”、“资讯内容”各个标签的采集规则。采集页面以采集页面以http:/ 如下图:注释:在资讯内容采集过程中最主要的是对垃圾信息的删除,其中需要注意的有以下几项:1、广告语(例如:2010年建材行业十大评选活动圆满落幕,电话:01062298529)2、特殊标签(例如:标签,大部分标签会在“HTML标签排除”中删除。)3、网站logo(例如:【慧聪建材网】)4、文章中铭
4、感文字(例如:点击下一页、点击查看更多图片、视频、责任编辑、评论、【热点导读】、【相关新闻】等与文章正文无关的文字。)第三、内容描述、meta描述查看本页面“源文件” 搜索description代码,找到文章描述部分。如下图:將“源代码”中对应的描述开始代码和结束代码分别输入到开始字符段开始字符段和结束字符结束字符段段中,点击确定,内容描述和meta描述标签设置完成。注释:有些文章描述部分设有大量广告语或与本文无关的内容,这样的文章描述我们不给予采集。可以将标题的采集方法复制到描述采集中。第四、信息关键词、meta关键词查看本页面“源文件” 搜索keywords代码,找到文章关键词部分。如下图
5、:將“源代码”中对应的关键词开始代码和结束代码分别输入到开始字符段开始字符段和结束字结束字符段符段中,点击确定,信息关键词和meta关键词标签设置完成。注释:有些文章关键词部分设有大量广告语或与本文无关的内容,这样的文章关键词我们不给予采集。可以将标题的采集方法复制到关键词采集中。第五、责任编辑双击责任编辑标签,选择“自定义固定格式的数据”,在固定的字符串选项中填写自己的名称,点击确定,责任编辑设定完成。第六、信息来源双击责任编辑标签,选择“自定义固定格式的数据”,在固定的字符串选项中填写信息来源,点击确定,信息来源设定完成。第七、分页在“页面内容分页区域/样式设置”中将分页部分代码输入其中,
6、用(*)代替即可。如下图:(注释:各站的分页代码不同,需要具体分析,采集分页的文章在我们后台将成为一篇通篇文章。建议少采集分页多的文章,影响用户体验。)规则填写完成后,返回至第一步“测试网址采集”。双击所采集到的任一文章地址。则会自己弹出如下界面。(注释:建议多测试几篇文章,减少垃圾代码出现。)采集内容阶段完成,点击进入发布内容设置1、启动以下两项,点击“定义web在线发布到网站全局设置”。2、点击添加,选择phpcms2008 新闻发布模块3、在“网站/cms根地址”:输入http:/localhost/phpcms/4、点击“在火车内置浏览器中登录”5、在地址栏输入:http:/local
7、host/phpcms/admin6、输入用户名phpcms密码phpcms7、登录点击“确认登录发布成功后即可关闭该窗口”,关掉此窗口。获得8、登录本地后台(在浏览器中输入:http:/localhost/phpcms/admin。账号密码phpcms)9、选择“系统设置”中的“添加栏目”,点击下一步10、输入栏目名称、栏目目录,点击确定,在本地后台会出现对应列表。11、点击获取列表后便可等对应ID,选择此次采集的对应列表。12、在配置名中输入要采集的栏目名称,点击保存配置。13、设置完成后点击保存。发布内容部分结束将刚刚编写好的规则保存后,程序则会自动跳转到主界面。右键点击设置好的任务,选择开始采集。在采集完成后系统会自动提醒采集完成。采集数据在火车头Data文件中。双击mdb格式文件,右键选择content选项,导出为Excel格式。建议将采集文档都放在一个文件夹里,有利于后续工作进行。打开导出的Excel文档,将ID、已采、已发、缩略图、PageUrl、处理中等无关数据删除,只保留“标题”、 “资讯内容”、“内容摘要”、“信息关键词”、“meta关键词”、“meta描述”、“责任编辑”、“信息来源”。在Excel中对采集文章进行最后筛选修改:1、删除内容缺失的文章。2、删除所有标题中带有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 纸制品行业生产计划与库存控制策略考核试卷
- 计算机控制系统设计与实现考核试卷
- 航天器空间环境对材料影响分析与测试考核试卷
- 挂毯制作中的品牌故事与情感营销考核试卷
- 自然语言处理基础考核试卷
- 通信设备录音及扩音功能维修考核试卷
- 拍卖行拍卖业务全球竞争力提升战略规划考核试卷
- 西药批发商药品批发业务中的企业风险防范与控制考核试卷
- 煤炭价格影响因素研究考核试卷
- 研发中心租赁质保及技术支持补充协议
- 国际压力性损伤-溃疡预防和治疗临床指南(2025年版)解读课件
- 高强瓦楞原纸产品商业计划书
- GB/T 20041.21-2017电缆管理用导管系统第21部分:刚性导管系统的特殊要求
- 房地产残余价值估价报告
- PAN纤维结晶度取向度和形貌的演变规律对其性能影响
- 岛津GCMS-TQ8040教材
- (完整版)化工原理各章节知识点总结
- 空调水管线试压冲洗方案
- 总公司与分公司承包协议[页]
- 食品经营设施空间布局图
- GB∕T 36266-2018 淋浴房玻璃(高清版)
评论
0/150
提交评论