robot文档优化.doc_第1页
robot文档优化.doc_第2页
robot文档优化.doc_第3页
robot文档优化.doc_第4页
robot文档优化.doc_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

重庆工程学院管理学院学 生 实 验 报 告实验地点: 实验日期:课程名称搜索引擎优化与推广SEO实验成绩实验项目名称Robot.txt专业班级实验参与者学号姓名一、实验预习报告(实验目的、内容,主要设备、仪器,基本原理、实验步骤等)(可加页)实验目的:1) 了解robot.txt的作用;2) 掌握robot.txt的优化方法。实验内容:基本知识: robot文件是让蜘蛛更好的收录网站的可收录页面,对网站收录量的高低有非常大的影响。 在robot文件中可以将404错误页面的地址屏蔽起来,这样如果404页面的设置出现问题,蜘蛛也不会爬行到,就不会出现无效链接被收录的情况。robots文件其实就是告诉蜘蛛程序在服务器上什么文件是可以被查看的。也就是哪些页面可以抓取,哪些页面不能抓取。一定要注意语法。仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robot.txt文件,否则可设置robot.txt为空文档。每个站点最好建立一个robots.txt文件,对seo更友好。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器将在日志中记录一条404错误。robots.txt必须放置在站点的根目录下,而且文件名必须全部小写。robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示::在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:User-agent:该项的值用于描述搜索引擎robot的名字。在robots.txt文件中,如果有多条User-agent记录说明有多个robot会受到robots.txt的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在robots.txt文件中,User-agent:*这样的记录只能有一条。如果在robots.txt文件中,加入User-agent:SomeBot和若干Disallow、Allow行,那么名为SomeBot只受到User-agent:SomeBot后面的 Disallow和Allow行的限制。Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如Disallow:/help禁止robot访问/help.html、/helpabc.html、/help/index.html,而Disallow:/help/则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。Disallow:说明允许robot访问该网站的所有url,在/robots.txt文件中,至少要有一条Disallow记录。如果/robots.txt不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如Allow:/hibaidu允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。使用*and$:Baiduspider支持使用通配符*和$来模糊匹配url。* 匹配0或多个任意字符$ 匹配行结束符。最后需要说明的是:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。一、 整站屏蔽设置方法。如果你的网站不想被全部的搜索引擎收录的话,可以这样写:User-agent: *Disallow: /二、 屏蔽某个文件。比如我不让搜索引挚抓取ADMIN这个文件夹,自然需要用ROBOTS文件屏蔽ADMIN这个文件了,写法:User-agent:*Disallow:/ADMIN/三、 禁止某个搜索引挚抓取网站页面。比如禁止谷歌机器人收录网站的任何页面,写法:User-agent:GooglebotDisallow:*四、 允许一个文件中的某个文件夹被抓取,比如允许FLIMS文件夹中的INDEX2.html文件被抓取,那么就应该这样写:User-Agent:*Disallow:/FLIMS/Allow:/FLIMS/INDEX2.html五、 主要搜索引擎蜘蛛程序名称:百度:baiduspider谷歌:Googlebot雅虎:Inktomi SlurpSoso蜘蛛:Sosospider有道蜘蛛:YoudaoBotbing蜘蛛:MSNbot六、 案例:6.1 禁止百度蜘蛛抓取网站上的所有图片User-Agent: baiduspiderDisallow: /*.jpg$Disallow: /*.gif$Disallow: /*.png$Disallow: /*.bmp$6.2 仅允许百度蜘蛛抓取gif格式的图片User-Agent: BaiduspiderAllow: /*.gif$Disallow: /*.jpg$Disallow: /*.png$Disallow: /*.bmp$七、 robot.txt文件中可以直接加入sitemap文件的链接,如:Sitemap:http:/www.*.com/sitemap.xml注意:一定要用绝对路径。八、 练习(请根据要求,写出robot文档的内容)1、 尝试写出Robot里面的内容,要求,百度蜘蛛不得访问网站的动态网页。2、 禁止雅虎搜索引擎访问网站。3、 禁止谷歌搜索引擎访问网站的temp文件夹。1、User-Agent: baiduspiderDisall

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论