手把手教你制作百度站内搜索的sitemap数据文件.doc_第1页
手把手教你制作百度站内搜索的sitemap数据文件.doc_第2页
手把手教你制作百度站内搜索的sitemap数据文件.doc_第3页
手把手教你制作百度站内搜索的sitemap数据文件.doc_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

随着百度站内搜索的全面开放,本人也打算尝尝鲜,因为号称可以提交数据给百度,从而增加收录量 。然而在提交数据的时候发现,所用到的sitemap与以往的有所不同,在网上找来找去也没有相应的软件来自动生成完全符合要求的sitemap索引文件。只有自己动手DIY了。研究了一下午终于成功了,今天把制作的具体流程给大家分享一下,希望对有需要的朋友能有所帮助!一.结合百度站内搜索的数据格式说明,这里列出一个单个URL的样式给大家看一下 /daichanbaozhunbei/114.html 2014-09-12 always 0.7 孕妇待产包准备攻略,方便又齐全 分娩待产包 2014-09-12T17:55:46 .略.我们要做的这个sitemap文件就是把自己网站里的所有内页都做成如上格式,写在一个个的标签中,具体每一项的意思就不多解释了,都很简单,实在不行可以去百度站长平台了解一下,说的很清楚。如果网站内页成千上网,那么一项一项来手工写肯定是不现实的。了解这个XML文件的格式,剩下的就开始行动了,这里借肋于火车头采集器来完成页面的采集工作。二.开始用火车头采集器来进行采集采集的原理是先把站内的所有网址都抓取出来,然后根据自己网站模板的特点,来把每个网址所要采的页面标题title,关键字tag,发布时间pubTime,面包屑导航breadCrumb 等信息抓取出来(changefreq,priority等比较常规的标签由于大部分情况下数值都一样,不用抓取,也无法从页面中抓取,设为为相同数值即可),给下一步做准备。OK,这里就以待产包专卖网这个网站为例说一下怎么用火车头采集器抓取,这个网站用的是wordpress模板做的,不同网站大同小异,但原理都是一样的。因为这不是一篇火车头采集器的使用教程,为避免篇幅过长,只做简单说明,重要的地方会做详细解释,如果想了解更可以去查看软件的使用帮助。1.采集所有的网址a.新建一个名为“待产包专卖网采集”的任务,添加起始网址,这里填写html版网站地图的URL:/sitemap.html。这是我用wordpress插件生成的网站地图,本站所有的URL都在这个源文件里面,所以就从网站地图做起始网址。PS:如果没有网站地图的,就要从网站导航的分类目录开始一级一级向内抓取,火车头采集器支持无限多级页面的网址抓取,所以只要规则写的对,就可以从首页做为起始网址把所有页页的网址都给抓取出。b.观察/sitemap.html源文件,发现所有文章的超链接都在标签中,所以 添加多级网址采集规则 如下设置c.填写完以后,点击 “测试网址采集”发现本站所有的URL都给采集到了2.采集页面内容信息网址有了,就要编写采集内容规则了。因为页面文章的模板都是一样的,所以只要拿一个页面来进行测试就行,这里随便找一个页面/daichanbaozhunbei/114.html作为典型页面,告诉大家如何采集。我们需要的是页面标题,关键字,文章发布时间以及面包屑导航这些有用信息。a.标题title的采集打开源文件,搜索标题,查看有什么规律。本例如下也就是说分娩待产包清单这个网站所有文章的标题都是这样的规律,于是标题的提取方法就有了,如下所示b.发布时间pubTime的采集同样根据源文件中发布日期:2014-09-12 17:55:46所处的位置查看规律,并作为下设置。唯一要注意的是pubTime格式必须为2013-02-02T12:00:00,注意中间有个T。这里我用了替换功能。很重要哦!c.标签tag的采集这个页面有三个标签在源文件找到这段代码所处位置发现规律做如下设置d.为避免篇幅其它项目的的采集就不在举例了,道理都是一样的。”数据处理“选项里有很多设置,可以替换字符串,截取字符串,过滤HTML等,可以省去很多工作。采集完以后,测试结果如下:3.保存设置,选中任务点右键“开始任务”,就会把之前些采集到所有网址所对应的采集内写入数据库。然后再对任务点右键“本地编辑任务采集数据”来查看,如下图所示三.用EXCEL整合采集的数据这里用借助excel做最后的sitemap索引文件的整合,其实有了上面的采集数据完全可以写个小程序来实现的。懒得弄了,本于本站页面不多,所以就用EXCEL来简单说明一下吧。可以借助EXCE替换功能,格式化数据等功能进一步完善最终索引文件的制作。1.把采集到的数据都复制到EXCEL中,并删除不用的字段,保留必须数据,如下所示2.结合百度站内搜索数据格式说明,严格按照各标签的出现顺序,增加相应的列,或替换数据。以第一行/daichanbaozhunbei/114.html数据为例说明EXCEL各列如何制作。A列:全部写成B列:全部写成C列: 采集到的网址/daichanbaozhunbei/114.htmlD列:全部写成E列:全部写成F列: 采集到的最后修改时间 2014/9/12G列:全部写成H列: 固定写为always中间的alwarys可以根据需要设置为hourly、daily、weekly等I列: 0.6 .略.看到这里明白了吧,就是通过这样的形式拼凑出所需要要的XML格试。最后效果如下:四.最后一步,格式化XML文件把上面的EXCEL中的内容全部复制到文本编辑器中,内容的最前面写上 ,最后面写上。然后随便找一个在线XML格式化一下即可!OK,大功告成!把内容拷贝出来,保存为XML格式,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论