




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、网站端SEO技术指标2.1 影响抓取/索引的指标2.1.1 Robots文件【文件作用】ü 用于告诉搜索引擎哪些页面可以抓取,哪些页面禁止抓取。ü 屏蔽站点内的死链接。ü 设置网站地图链接,便于引导搜索蜘蛛爬取页面。【用法示例】在robots.txt文件实际应用过程中,以下语句会经常使用到,用以让搜索爬虫抓取正确的页面:ü Disallow: /abc/ 禁止抓取/abc/目录以及该目录下的所有URL。ü Disallow: /abc/*.php 禁止抓取/abc/目录下的所有以".php"为后缀的URL。ü Di
2、sallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址,可用于屏蔽动态URL。ü Disallow: /.jpg$ 禁止抓取网站上所有的.jpg格式的图片,仅允许抓取网页和其他格式图片。ü Sitemap: 网站地图文件绝对地址 告诉爬虫这个页面是网站地图。【注意事项】ü 无论网站是否存在需要屏蔽爬虫抓取的目录或页面,都必须在站点根目录下创建robots.txt文件。ü Baiduspider支持使用通配符"*"和"$"来模糊匹配URL。"*" 匹配0或多个任意字符,&q
3、uot;$" 匹配行结束符。ü robots.txt文件默认写法为:n User-agent: *n Allow: /2.1.2 服务器IP屏蔽服务器屏蔽爬虫IP对网页抓取及收录是致命的。当网站页面迟迟不收录或者爬虫不来爬行页面,首要任务就是检查Web Server有没有屏蔽过某些IP地址。【应用说明】ü 使用IP查询工具()可以初步判定某IP是否百度爬虫。ü 检查Web服务器Log日志,分析爬虫抓取返回的状态码,正常情况返回200,如果返回403/404/503,说明服务器对爬虫IP进行了限制,必须及时调整放开。【注意事项】ü 百度
4、爬虫有时候在抓取网页时,并不使用Baiduspider这个官方User-Agent,甚至可能不使用任何User-Agent(主要用意可能是分析网站是否使用了欺骗爬虫的SEO手法),加之抓取量很大,这种情况很容易给服务器运维人员造成假象,最后导致爬虫IP直接被屏蔽,给网站SEO产生重大影响;因此,在屏蔽IP时,务必特别注意。以下IP需要特别注意:n 220.181.68.*:网站可能被降权了。n 123.125.71.*:低权重IP端。抓取内页收录的权重比较低,可能由于你采集文章或拼文章暂时被收录,但不参与排名n 220.181.108.*:高权重IP端。主要抓取网站重要页面,爬行过的页面会很快
5、更新。n 123.125.67.*:百度站长平台的蜘蛛IP端。n 61.135.168.*:抓取图片的百度蜘蛛IP端。ü 以下抓取行为证实为真实百度爬虫抓取,但爬虫URL却是错误的,切莫轻易屏蔽掉IP。2.1.3 页面状态码(Http Code)百度spider对常见的http返回码的处理逻辑如下:ü 404:含义是“NOT FOUND”,百度会认为网页已经失效,那么通常会从搜索结果中删除,并且短期内spider再次发现这条url也不会抓取。ü 503:含义是“Service Unavailable”,百度会认为该网页临时不可访问,通常网站临
6、时关闭,带宽有限等会产生这种情况。对于网页返回 503,百度spider不会把这条url直接删除,短期内会再访问。届时如果网页已恢复,则正常抓取;如果继续返回503,短期内还会反复访问几次。但是如果网页长期返回503,那么这个url仍会被百度认为是失效链接,从搜索结果中删除。ü 403:含义是“Forbidden”,百度会认为网页当前禁止访问。对于这种情况,如果是新发现的url,百度spider暂不会抓取,短期内会再次检查;如果是百度已收录url,当前也不会直接删除,短期内同样会再访问。届时如果网页允许访问,则正常抓取;如果仍不允许访问,短期内还会反复访问几次。但是如果网页长期返回4
7、03,百度也会认为是失效链接,从搜索结果中删除。ü 301:含义是“Moved Permanently”,百度会认为网页当前跳转至新url。当遇到站点迁移,域名更换、站点改版的情况时,推荐使用301返回码,尽量减少改版带来的流量损失。虽然百度spider现在对301跳转的响应周期较长(大概周期为半年),但仍然推荐这样处理。2.1.4 网页文件大小【指标作用】ü 网页体积越小,网页打开速度越快,越有利于爬虫抓取,对页面收录会产生促进作用。【设计原则】ü 网页文件体积控制在100K之内,小于25K最佳。【应用技巧】ü 使用DIV+CSS
8、结构,减少冗余html代码(如页面中的font、bgcolor之类的格式化控制代码)。 ü CSS与JS采用外部文件调用,Html代码尽可能只用来显示文字内容。ü 慎用多层嵌套表格。ü 开启服务器压缩,如gzip压缩等。2.1.5 TDK数据 PageTitle【使用规范】ü 简短精炼,高度概括,字数控制在30个汉字内为最佳,不宜超过40个汉字。ü 包含当前页面的关键词,且关键词位置尽可能出现在最左边。ü 使用下划线“_“或中横线”-“作为分隔符。ü 在任意类型的网站中,每类页面都应该使用个性化且适合阅读的数据
9、规则。一般使用如下规则:n 首页:网站名称_核心服务or核心产品n 频道页:(频道核心服务)_频道名称_网站名称n 详情页:文章标题_频道名称_网站名称【应用示例】详见后续章节中关于 企业网站、电商网站、移动网站 三种不同的数据规则示例。 Keywords【使用规范】ü 字数控制在60个汉字以内。ü 关键词数量控制在10个以内。ü 放入当前页面的核心关键字,相关关键字,长尾关键字。ü 使用英文逗号”,”作为分隔符。ü 在任意类型的网站中,每类页面都应该使用个性化且适合阅读的数据规则。一般使用如下规则:n 首页:网站名称,行业名称,
10、核心服务,核心产品1,核心产品N n 频道页:频道名称,子栏目名1,子栏目名N,网站名称 n 文章详情页:文章标题,栏目名,频道名,文章Tag,网站名称n 产品分类页:分类名,子分类名1,子分类名N,网站名n 产品详情页:产品名,品牌名,所属分类名,顶级分类名,产品Tag,网站名称【应用示例】详见后续章节中关于 企业网站、电商网站、移动网站 三种不同的数据规则示例。 Description【使用规范】ü 字数控制在80个汉字内。ü 保持语句对该页面进行描述的完整性时,融入更多该页的关键字、长尾关键字以及可以与主要关键词形成组合搭配的词汇。ü 对于产品
11、详情页,尽量展示产品属性这种结构化数据;对于文章详情页面,尽量使用文章摘要。ü 在任意类型的网站中,每类页面都应该使用个性化且适合阅读的数据规则。一般使用如下规则:n 首页:某某网站是行业定位,主要经营产品名称1、产品名称2、产品名称3等,为客户提供服务名称1、服务名称2,咨询电话:联系电话。n 产品分类页:网站名:提供分类名用户搜索维度1、分类名用户搜索维度2、分类名用户搜索维度3等。n 产品详情页:产品名:产品属性1,产品属性2,产品属性3,产品属性4。n 频道页:网站名:频道名,提供频道名用户搜索维度1、频道名用户搜索维度2、频道名用户搜索维度3。n 文章详情页:文章标题:文章
12、摘要。【应用示例】详见后续章节中关于 企业网站、电商网站、移动网站 三种不同的数据规则示例。2.1.6 JavaScript代码【使用规范】ü 使用外部文件调用的方式加载Javascript。n 示例:<Script language=”javascript”src=”/js/function.js”></script>ü 避免将Javascript函数代码直接写入网页源代码中,否则容易爬虫抓取页面信息不完整。【注意事项】ü 如有些Javascript必须放在当前页才会有效果,则建议将代码放置于</body>上方紧邻位置。【使用
13、示例】ü 示例URL:2.1.7 CSS代码【使用规范】ü 使用外部文件调用的方式加载CSS样式文件。n 示例:<link rel="stylesheet" type="text/css" href=”/style/style.css”/>ü 避免在网页源代码中书写格式化控制代码。n 例如:<a href=” style=”color:#000000;”>不规范的写法</a>2.1.8 网页URL【使用规范】ü URL必须做静态化处理,伪静态或者纯静态均可,不能使用包含多个参数的
14、动态URL。ü URL中的目录越简短越好,目录层级最多不超过3层。ü URL总体长度不能超过76个字符。(注:不包括http:/)ü URL中的目录名和文件名均不能出现中文汉字。(注:极特殊情况可酌情处理)ü URL中只能出现字母、数字、连接符“-”、下划线“_”,不能使用其他特殊字符。ü 在书写网页超链接的URL时,如果URL能以/结尾的,就不要再追加index.html。【最优原则】ü URL中的字母最好统一全部使用小写字母。(注:Unix/Linux服务器区分字母大小写)ü URL目录层级最好只有一级,网站所有页面UR
15、L均满足该条件则效果更佳。ü URL中目录名/文件名最好可以使用语义化命名或自定义命名,以使目录名/文件名具备可读性。ü 列表型页面一般使用目录型URL(以/结尾),内容型页面一般使用文件型URL(以.html结尾)。2.1.9 网页噪音【指标定义】ü 版权信息。ü 备案信息及超链接。ü 认证图标及超链接(电商网站中普通存在)。ü 帮助信息及超链接(电商网站中普通存在)。【使用规范】ü 尽量减小网页噪音在网页中信息量。ü 使用JS封装技术让搜索爬虫抓取不到噪音信息。【使用技巧】ü JS封装技术:将噪音信息
16、内容写入JS文件,并调用该文件。n 示例:<Script language=”javascript”src=”/js/copyright.js”></script>ü 如果不方便实现JS封装方式,则对噪音信息中的超链接使用nofollow标签。2.1.10 首页主导航【使用规范】ü 推荐使用文字导航,支持隐藏式菜单设计。ü 慎用图片导航,特别是使用HTML图片热点(<area>标签)实现导航超链接。ü 禁止使用Flash导航和JavaScript导航。ü 导航链接使用标准的<a>标签实现,并确保源
17、代码可见。2.1.11 面包屑导航【使用规范】ü 面包屑导航要包括从首页到当前页的完整的访问路径。ü 网站所有网页都要设计面包屑导航。ü 面包屑导航是能够体现网站逻辑结构的文本超链接。ü 面包屑末级应以纯文本的方式展示当前页的标题,不设置为超链接,并使用<strong>标签突出。【应用示例】ü 商品详情页面包屑导航示例ü 资讯详情页面包屑导航示例2.1.12 翻页【使用规范】ü 翻页链接不能使用JavaScript脚本函数实现页面跳转,而应使用<a>标签,并保持源码可见性。ü 翻页包括:首页
18、、尾页、上一页、下一页、当前页前5个页码、当前页后5个页码的文本链接。【使用示例】2.1.13 内部链接结构【应用规范】ü 每个网页的站内链接总数量控制在100个以内。(可以通过将某个链接区域封装到JS文件的方式,实现对链接数量的控制,或者通过nofollow标签通知爬虫不抓取某些低价值的超链接。)ü 站内链接避免出现死链接,即要确保搜索引擎抓取到得每个链接URL都是可有效访问的。ü 网页中的超链接必须使用<a>标签,且要为每个<a>标签添加<title>属性。ü 通过优化页面中内容块的数据提取规则,实现网页主体内容中
19、的超链接相互之间具有强相关性。【结构示意】2.1.14 网站地图(Sitemap)【指标说明】ü 网站地图是一个或一系列的承载网站所有链接的容器页面。很多网站的链接层次比较深,搜索爬虫很难抓取到,网站地图可以方便搜索引擎蜘蛛抓取网站页面,通过抓取网站页面,清晰了解网站的架构,为搜索引擎蜘蛛指路,增加网站重要内容页面的收录。ü 网站地图文件包括两种格式:XML格式与HTML格式;HTML格式通常命名为sitemap.html,一般出现在网页Header或Footer区域,其主要作用是为用户提供网站核心栏目或重要页面的入口链接,方便用户快速进入感兴趣的页面,同时,该页面也能够促
20、进搜索引擎爬虫对网站的抓取效率。XML格式通常命名为sitemap.xml,一般不在网页中直接展现,其主要作用是作为网页URL的索引文件向搜索引擎提交,可极大的帮助搜索爬虫有效的抓取页面,提升收录效果。 XML版本【使用说明】ü 网站必须生成XML格式地图,这将极大的改善网页收录效率。ü Sitemap.xml文件每日自动生成/更新一次,将站点每天新产出的链接写入文件内,并通过搜索引擎厂商推出的网站管理员工具(例如:百度站长平台)将XML地图文件URL推送给搜索引擎。【标签说明】标签名使用说明<loc>必填标签。输出某一个具体的链接URL。<
21、;lastmod>2009-12-14</lastmod>非必要标签。用来指定该链接的最后更新时间。建议根据该URL真实的变动情况来输出日期。<changefreq>daily</changefreq>1、 网站首页:always2、 栏目页/列表页:daily3、 内容详情页:daily<priority>0.8</priority>1、 网站首页:1.02、 栏目页/列表页:0.93、 内容详情页:0.9【注意事项】ü 一个Sitemap文件包含的网址不得超过 5 万个,且文件大小不得超过 10 MB。如果超过了这
22、些限值,需要将其拆分为几个小的Sitemap。ü Sitemap.xml文件务必包含网站所有页面的URL,从首页开始,到栏目页、列表页,以及所有的内容详情页。【参考示例】ü 示例URL: HTML版本【使用说明】ü 建议在页面通用底部Footer或通用头部Header中放置“网站地图”链接,确保每个网页都有到达网站地图页面的链接入口。2.2 影响关键词排名的指标2.2.1 关键词分布位置(布局设计与内容规划)【使用规范】ü 无论是何种网页布局方式,关键词都要求分布在构成网页的每一个信息块中,关键词展现可以是文本形式,也可以是链接形式。网页
23、的信息块一般分为:n 网页顶部块(通常为:欢迎信息、注册、登陆、设为首页、加入收藏)n 网站Logo块(通常为:Logo图片、Slogan信息)n 网站Banner块(通常为:Banner图片、联系电话)n 网站主导航块(通常为:栏目导航链接、子栏目菜单)n 面包屑导航块n 网页标题块(通常为:商品名称、商品属性、商品图片、购买按钮、文章标题、点击次数等)n 主体信息块(通常为:商品详情、文章内容)n 相关信息块(通常为:相关商品、相关文章、您感兴趣的商品)n 侧边栏信息块1n 侧边栏信息块2n 网页底部块(通常为:版权信息、帮助信息、友情链接)【注意事项】ü 在做页面内容规划时,需
24、要考虑某个信息块能否展现当前页面的关键词,如果不能展现,则需要优化该信息的块数据提取规则,如果优化后仍无法满足规则,则可以使用Javascript封装整个信息块,让搜索爬虫不抓取信息,或者,将信息块中超链接全部使用nofollow标签。2.2.2 组合词在页面中的部署【指标定义】ü 网页核心关键词搭配某些用户常用的搜索维度词,形成的一种能体现用户细分搜索需求的关键词。n 核心关键词:气动冲击扳手n 组合关键词1:世达气动冲击扳手(产品名+品牌名)n 组合关键词2:气动冲击扳手价格/报价(产品名+“报价/价格”)n 组合关键词3:气动冲击扳手批发(产品名+“批发”)【使用规范】
25、2; 将搜索维度词部署到PageTitle中。ü 尽可能多的将搜索维度词部署到每个信息块中,特别是信息块的块标题。【使用示例】ü 示例URL:ü 示例URL:2.2.3 H1标签【指标说明】ü <h1>标签是影响页面SEO得分的重要指标,通常针对当前页面的关键词或含有关键词的文本信息使用<h1>标签,可促进关键词的搜索排名。【使用规范】ü 每个网页最多使用2个<h1>标签,建议只使用1个,避免泛滥使用。ü <h1>标签内容中务必包含当前网页的关键词,否则尽量不要使用<h1>标
26、签。ü <h1>标签通常的应用位置n 网站首页:网站名称/网站核心关键词/Slogan/产品分类名n 频道页:频道名/焦点文章标题n 列表页:产品分类名/栏目名n 详情页:商品名/文章标题n 聚合页:聚合关键词/Tag标签名2.2.4 <h2>标签【指标说明】ü <h2>标签在SEO领域被理解为网页副主题,通常针对当前页面的含有关键词的文本信息使用<h2>标签,可促进关键词的搜索排名。【使用规范】ü 每个网页最多包含2个<h2>标签,建议只使用1个,避免泛滥使用。ü <h2>标签内容
27、中务必包含当前网页的关键词,否则尽量不要使用<h2>标签。ü <h2>标签通常的应用位置n 频道页:有关频道定位的描述性文本n 列表页:有关栏目内容的描述性文本n 详情页:商品描述/文章摘要2.2.5 Strong标签【使用规范】ü 每个网页可以使用多个<strong>标签,务必直接应用于关键词本身或含有关键字的短语上。ü 对于页面中需要加粗显示的非关键词信息,可使用<span>标签代替<strong>标签实现前端效果。2.2.6 网页图片【使用规范】ü 网页中重要的文字(特别是信息块标题)必须
28、使用纯文本,并确保源代码可见,不能嵌入图片中。ü 图片标签<img>有alt属性,但没有title属性,超链接标签<a>标签有title属性,但没有alt属性。ü 网页中所有图片都要添加Alt属性,并根据图片反映的真实信息来定义Alt属性值,同时,将网站核心关键词添加到Alt属性值中。n 产品图片的Alt:品牌名+分类名+产品名称。u 示例:联想笔记本电脑:ThinkPad T400笔记本电脑1275Cn 文章图片的Alt:文章标题。n 信息块图片的Alt:信息块的块标题。【使用示例】2.2.7 网页获得的内链数量【指标说明】ü 网站内某个
29、页面获得的内链数量越多,所获的搜索引擎认可度就越高,被搜索引擎抓取以及给予排名展现的几率就越大。例如:网站首页,正是因为每个页面都链接指向首页,所以,首页是一个网站最核心的页面,也是SEO竞争的主力页面。【使用技巧】ü 要实现网站某个内页被搜索引擎快速抓取和权重提升,就在网站所有页面都添加指向该内页的超链接,而且,这个超链接在网页中展现的位置越靠近网页头部就越好。ü 通常会设计一个“推荐产品”链接块,并在所有页面加载这个链接块,使某些产品页面成为站内高权重页面。ü 通常会在网页底部设计一个网站文本导航(类似简易化的Sitemap),使某些列表页或聚合页成为站内高权
30、重页面。【使用示例】ü 示例URL:ü 示例URL:2.2.8 网页代码加载先后顺序【指标说明】ü 搜索引擎爬虫是按照网页源代码的前后顺序爬行的,即:代码靠前的内容会优先被抓取到。搜索引擎优先抓取到的内容会影响搜索引擎判断该网页的核心主题和关键词。【使用规范】ü 将网页主体内容的代码放置在相对靠前的位置。例如:左右两栏布局的页面,内容区代码在前,侧边栏代码在后。ü 将富含关键词的内容块放置在相对靠前的位置。例如:商品详情页面中的“相关商品”内容块应该紧挨着商品详情并放置于商品详情下方,而不是放在侧边栏,因为:商品详情代码加载的优先级高,这样便可
31、以实现“相关商品”先于侧边栏信息被搜索引擎识别。【使用示例】2.2.9 Nofollow【指标说明】ü nofollow 是一个HTML标签的属性值。这个标签的意义是告诉搜索引擎"不要追踪此网页上的链接或不要追踪此特定链接"ü 如果A网页上有一个链接指向B网页,但A网页给这个链接加上了 rel="nofollow" 标注,则搜索引擎不把A网页计算入B网页的反向链接。搜索引擎看到这个标签就可能减少或完全取消链接的投票权重。【使用规范】ü 对网页噪音信息中的超链接使用nofollow。n 版权信息n 资质认证信息n 备案号码超链
32、接n 注册/登陆/个人中心/我的订单/购物车超链接n 统计图标超链接ü 与关键词相关性低的辅助信息中的超链接使用nofllow,用以控制网页中的内链数量和质量。n 网站公告信息n 关于我们/联系我们n 常见问题/新手入门/配送支付/购物指南【使用示例】2.3 影响用户点击的指标ü 示例关键词:张良扶汉评书ü 示例URL:2.3.1 百度图文标识【指标定义】ü 百度通过某种机制识别某个网页为图文类型页面,则在搜索结果中抽取某张图片给予突出展示。图片在搜索结果页面的出现使网页被用户点击的几率大增。【影响因素】ü 图片放在页面主体内容中,图片必须与页
33、面内容紧密相关。ü 与页面布局方式有直接关系:n 通栏布局:非常容易形成图文标识。(例如专题页面)n 两栏布局:有些页面会出现,有些则不会出现。n 三栏布局:要么出现图文标识的几率很低,要么抽取的图片的相关度很弱。ü 跟页面类型有直接关系,内容型(Content)页面出现的概率很大,列表型(Hub)页面出现的概率很小。ü 百度从页面主体内容中连续的几张图片中抽选一张图片用于图文展示,抽选的图片往往是第一张,但这一系列图片在源代码中必须是连续的,而且,尽量实现文本环绕,即:图文混排。如果只有一张图片,那就尽量使该图片出现于源代码的前端、连续的文本内容的前端。
34、2; 使用XML Schema(可扩展标记语言)非常有利于产生图文标识效果。【Schema基本说明】ü 官方说明:【Schema应用示例】ü 示例URL:ü 示例代码:图书类型的Scheman <div itemscope itemtype="/Book"> </div>n <img src="/image/6/12/61231.jpg" width="198" height="276" alt=" " i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论