robots.txt文件语法写法总结(南昌新媒体公司古怪科技).doc_第1页
robots.txt文件语法写法总结(南昌新媒体公司古怪科技).doc_第2页
robots.txt文件语法写法总结(南昌新媒体公司古怪科技).doc_第3页
robots.txt文件语法写法总结(南昌新媒体公司古怪科技).doc_第4页
robots.txt文件语法写法总结(南昌新媒体公司古怪科技).doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

对于seo学习博客在谷歌的收录有很多的过期页面的问题,黑雨seo找了很多的资料,robots.txt怎么写?首先要解决的问题是:什么是robots.txt?什么是robots.txt?这是一个文本文件,是搜索引擎爬行网页要查看的第一个文件,你可以告诉搜索引擎哪些文件可以被查看,哪些禁止。当搜索机器人(也叫搜索蜘蛛)访问一个站点时,它首先会检查根目录是否存在robots.txt,如果有就确定抓取范围,没有就按链接顺序抓取。robots.txt有什么用为何需要用robots.txt这个文件来告诉搜索机器人不要爬行我们的部分网页,比如:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。说到底了,这些页面或文件被搜索引擎收录了,用户也看不了,多数需要口令才能进入或是数据文件。既然这样,又让搜索机器人爬行的话,就浪费了服务器资源,增加了服务器的压力,因此我们可以用robots.txt告诉机器人集中注意力去收录我们的文章页面。增强用户体验。robots.txt如何配置:robots.txt基本语法User-agent: *Disallow: /我们在说这四行是什么意思之前来先看看robots.txt的几个关键语法:a、User-agent: 应用下文规则的漫游器,比如Googlebot,Baiduspider等。b、Disallow: 要拦截的网址,不允许机器人访问。c、Allow: 允许访问的网址d、”*” : 通配符匹配0或多个任意字符。e、”$” : 匹配行结束符。f、”#” : 注释说明性的文字,不写也可。g、Googlebot: 谷歌搜索机器人(也叫搜索蜘蛛)。h、Baiduspider: 百度搜索机器人(也叫搜索蜘蛛)。i、目录、网址的写法:都以以正斜线 (/) 开头。如Disallow:/Disallow:/images/Disallow:/admin/Disallow:/css/由此可看:上面例子所表示的意思是禁止所有搜索引擎访问网站的任何部分。下面,我们列举一些robots.txt 具体用法:1、允许所有的robot访问User-agent: *Disallow:或者User-agent: *Allow: /或者建一个空文件”robots.txt”即可。2、仅禁止某个机器人访问您的网站,如Baiduspider。User-agent: BaiduspiderDisallow: /3、仅允许某个机器人访问您的网站,如Baiduspider。User-agent: BaiduspiderDisallow:User-agent: *Disallow: /4、禁止访问特定目录User-agent: *Disallow: /admin/Disallow: /css/Disallow: /*script/5、允许访问特定目录中的部分urlUser-agent: *Allow: /admin/user/Allow: /data/d.htmlDisallow: /admin/Disallow: /data/6、使用”*”限制访问urlUser-agent: *Disallow: /upload/*.jspx禁止访问/upload/目录下的所有以”.jspx”为后缀的URL(包含子目录)。7、使用”$”限制访问urlUser-agent: *Allow: .htm$Disallow: /仅允许访问以”.htm”为后缀的URL。8、禁止访问网站中所有的动态页面User-agent: *Disallow: /*?*9、禁止Baiduspider抓取网站上所有图片User-agent: BaiduspiderDisallow: .jpg$Disallow: .jpeg$Disallow: .gif$Disallow: .png$Disallow: .bmp$10、仅允许Baiduspider抓取网页和.gif格式图片User-agent: BaiduspiderAllow: .gif$Disallow: .jpg$Disallow: .jpeg$Disallow: .png$Disallow: .bmp$允许抓取网页和gif格式图片,不允许抓取其他格式图片怎么样,例子也不难理解吧 紧接着再来看下一个问题:robots.txt文件里还可以直接包括在sitemap文件的链接。但加上这句话时,请特别读下面这段话:目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。注意:robots.txt的所有指令都区分大小写。另:Googlebot 会忽略 robots.txt 中的空白内容(特别是空行)和未知指令。另外下面进行一些扩展知识,对robots与meta的关系进行一些介绍。Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。今日访进谷歌网站管理工具查看软问吧,突然发现受robots.txt 限制页面106个,进软问吧-找软件论坛看,发现限制了很多目录。关于这个robots.txt,此文件为一纯文本文件,放置于网站根目录下,其作用就是声明不被搜索引擎或者说蜘蛛抓去的目录。范例robots.txt文件# robots.txt for Discuz! Board# Version 7.0.0#User-agent: *Disallow: /admin/Disallow: /api/Disallow: /attachments/Disallow: /images/Disallow: /install/Disallow: /forumdata/Disallow: /include/Disallow: /ipdata/Disallow: /modcp/Disallow: /templates/Disallow: /plugins/Disallow: /wap/Disallow: /uc_client/Disallow: /uc_server/Disallow: /admincp.phpDisallow: /ajax.phpDisallow: /logging.phpDisallow: /member.phpDisallow: /memcp.phpDisallow: /misc.phpDisallow: /my.phpDisallow: /pm.phpDisallow: /post.phpDisallow: /register.phpDisallow: /rss.phpDisallow: /search.phpDisallow: /seccode.phpDisallow: /topicadmin.phpDisallow: /space.phpDisallow: /modcp.php对此文件的简单解释:1.#后面为注释行,可以随意写。2.User-agent 是一种特定的搜索引擎漫游器后面的*代表所有搜索引擎,如果是Googlebot就代表Google网页搜索,如果是Baiduspider就代表百度网页抓取,其他代表见网络漫游器数据库。3.Disallow则表示不允许访问的目录,allow表示允许访问的目录。最简单的 robots.txt 文件使用两条规则:User-agent:应用以下规则的漫游器Disallow:要拦截的网址这两行会视为文件中的一个条目。您可根据需要加入任意多个条目。您可在一个条目中加入多个 Disallow 行和多个 User-agent。User-agent 是一种特定的搜索引擎漫游器。网络漫游器数据库列出了许多常用的漫游器。您可以将某一条目设置为适用于某一特定漫游器(以显示名称的方式列出)或适用于所有漫游器(以标记为星号的方式列出)。适用于所有漫游器的条目应为以下格式:User-agent: *Google 使用多种不同的漫游器 (User-agent)。Google的网页搜索所使用的漫游器为 Googlebot。Googlebot-Mobile 和 Googlebot-Image 等其他漫游器也会遵循您为 Googlebot 所设置的规则,但您也可以为这些特定的漫游器设置特定的规则。Disallow 行列出的是您要拦截的网页。您可以列出某一特定的网址或模式。条目应以正斜线 (/) 开头。要拦截整个网站,请使用正斜线。 Disallow: /要拦截某一目录以及其中的所有内容,请在目录名后添加正斜线。 Disallow: /无用目录/要拦截某个网页,请列出该网页。 Disallow: /私人文件.html要从 Google 图片搜索中删除某张特定图片,请添加以下内容: User-agent: Googlebot-ImageDisallow: /图片/狗.jpg要从 Google 图片搜索中删除您网站上的所有图片,请使用以下内容: User-agent: Googlebot-ImageDisallow: /要拦截某一特定文件类型的文件(例如 .gif),请使用以下内容: User-agent: GooglebotDisallow: /*.gif$要阻止抓取您网站上的网页,而同时又能在这些网页上显示 Adsense 广告,请禁止除 Mediapartners-Google 以外的所有漫游器。这样可使网页不出现在搜索结果中,同时又能让 Mediapartners-Google 漫游器分析网页,从而确定要展示的广告。Mediapartners-Google 漫游器不与其他 Google User-agent 共享网页。例如:User-agent: *Disallow: /文件夹 1/User-agent: Mediapartners-GoogleAllow: /文件夹 1/请注意,指令区分大小写。Googlebot(但并非所有搜索引擎)遵循某些模式匹配原则。要匹配连续字符,请使用星号 (*)。例如,要拦截对所有以 private 开头的子目录的访问,请使用以下内容:User-agent: GooglebotDisallow: /private*/要拦截对所有包含问号 (?) 的网址的访问(具体地说,这种网址以您的域名开头、后接任意字符串,然后接问号,而后又接任意字符串),请使用以下内容:User-agent: GooglebotDisallow: /*?要指定与某个网址的结尾字符相匹配,请使用 $。例如,要拦截以 .xls 结尾的所有网址,请使用以下内容: User-agent: GooglebotDisallow: /*.xls$您可将此模式匹配与 Allow 指令配合使用。例如,如果 ? 代表一个会话 ID,那么您可能希望排除包含 ? 的所有网址,以确保 Googlebot 不会抓取重复网页。但是以 ? 结尾的网址可能是您希望包含在内的网页的版本。在此情况下,您可以对您的 robots.txt 文件进行如下设置:User-agent: *Allow: /*?$Disallow: /*?Disallow: /*? 指令会阻止包含 ? 的所有网址(具体地说,它将拦截所有以您的域名开头、后接任意字符串,然后接问号,而后又接任意字符串的网址)。Allow: /*?$ 指令将允许以 ? 结尾的任何网址(具体地说,它将允许所有以您的域名开头、后接任意字符串,然后接 ?,? 之后不接任何字符的网址)。以上介绍多数都是Google的/support/we cn&answer=40360,百度的大同小异具体可以看/search/robots.htmlPS:一般网站查看robots.txt文件的方法是主页后面加robots.txt就可以,比如淘宝网的就是http:/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论