期:搜索引擎基础篇.ppt_第1页
期:搜索引擎基础篇.ppt_第2页
期:搜索引擎基础篇.ppt_第3页
期:搜索引擎基础篇.ppt_第4页
期:搜索引擎基础篇.ppt_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

交艺网搜索引擎优化培训 第一期:搜索引擎基础篇,搜索引擎对页面的收录 网页分析 页面排序 关键字查询(搜索引擎命令,此处略,后详) SEO项目所需基本技能,培训重点,了解SEO的现实意义技术研发,技术研发 满足开发需求,为提升网站整体流量提供功能支持 以页面加速为前提,了解SEO的对前端性能优化的需求 成为更有潜力、具备开发能力的个人站长 相关知识:对搜索引擎友好的URL地址、前端性能优化、后台文本编辑功能、特殊状态码、网站地图、内容挖掘,了解SEO的现实意义前端设计,前端设计 从搜索引擎的角度了解用户访问页面的习惯 与SEO共同成长,提升对UE/UCD的理解 相关知识:栅格系统、前端Web标准、信息架构、交互设计、人机交互界面、可用性、易用性、ROI模型、纸质/低保真/高保真原型图,了解SEO的现实意义内容中心,内容中心 从搜索引擎的角度了解: 1)如何收集内容; 2)基本的搜索引擎命令; 3)搜索引擎是收录页面的原理、规律及排名提升技巧; 与SEO共同成长,提升对UE/UCD的理解 相关知识:关键字设置、有规律地的更新、文章主题、文章长度、避免内容重复、关键字堆砌、关键字密度、隐藏文本/链接、内容伪原创、内部链接、针对外链的推广,了解SEO的现实意义市场运营,市场运营 了解多种搜索引擎营销推广方式/针对外链和效果的推广: 收录比例产品转化KPI 数据分析(循环至); 了解满足客户的排名要求需要哪些条件; 相关知识:微博/博客推广、论坛推广、网摘/开放目录提交、友情链接、百科类站点操作、Alexa排名与流量的关系、其他社会化媒体推广、邮件营销/EDM、链接购买、链接更新周期、影响排名的因素、QQ/MSN群营销,搜索引擎对页面的收录,收录是大前提先有收录,再有排名,才有流量,页面收录流程 页面收录原理 页面收录方式 如何避免重复性收录 页面维护方式,1、页面收录流程,搜索引擎派出蜘蛛,通过URL抓取页面 蜘蛛的爬行途径: a)站内链接:爬取网站首页,然后通过广度、深度方式遍历; b)外部链接:开放目录(如Dmoz)、搜索引擎站点提交入口、通过爬取其他正常收录的站点上的交换友链;,2、页面收录原理,搜索引擎派出蜘蛛,通过URL抓取页面 1)、收集待索引网页的URL:以Google为例,数据中心派出freshbot,发现并维护一个庞大的URL列表供deepbot使用。当爬取一个页面时,目的不是收录,而是找出这个页面中的所有链接;freshbot记录的信息包括网页的URL、TimeStamp(网页创建或更新的时间戳),以及网页的Head信息; 2、网页的索引与收录:接下来才进入真正的索引与收录网页过程,deepbot会首先索引优先级较高的网站/网页,优先级越高,出现在Google索引数据库并出现在自然搜索结果中的速度也越快,2、页面收录原理,搜索引擎派出蜘蛛,通过URL抓取页面 3、数据中心间的同步: deepbot索引某个网页时会由特定的数据中心完成,而不会出现多个数据中心同时读取该网页,分别获得网页最近版本的情况,在索引过程完成后,便需要一个数据同步过程,将网页的最新版本在多个数据中心得到更新;这就是之前著名的GoogleDance。在BigDaddy更新后,数据中心间的同步不再象那样集中在特定的时间段,而是以一种连续的、时效性更强的方式进行。,3、页面收录方式,广度优先 - 也叫宽度优先,一层一层的爬行,按照层的分布与布局,去索引处理与抓取页面; 深度优先 蜘蛛将会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再返回上层并转入下一个起始页,继续跟踪链接; (先广度优先,再深度优先为主流搜索引擎爬取的方式) 用户提交 由用户主动提交到主流搜索引擎、开放目录,或与权重较高的网站进行链接交换。,4、如何避免重复性收录,重复内容:主要包括镜像内容和转载内容 镜像内容,内容完全相同的页面互为镜像,SE会将页面分成N个区域进行比较,再综合多个因素(页面权重、最后修改时间等)识别源页面和镜像页; 转载内容,是指与原创页面相近或相似的页面,同样SE会将页面分成N个区域,假如其中有M个区域相同,且M/N的值介于一个阀值区间时,认为这两个页面是互为转载的。 如何避免重复内容:将页面中的元素重排(例如更换页面模板, 对模板进行重构)、对页面中的标题和正文内容进行伪原创处理。,5、页面维护方式,定期抓取(周期性抓取) SE周期性地堆网站中已收录的页面进行全面更新,更新时用抓取到的新页面替换原有的旧页面,删除不存在的页面,并存储新发现的页面; 特点:页面权重同步再分配;周期较长。 增量抓取(周期性抓取) 增量抓取是通过对已抓取的页面进行定时监控,基于重要页面携带重要内容的思想以及80/20法则,实现对重要页面的更新和维护。 特点:大大缩减抓取时间,可以及时发现新内容、新链接并删除不存在的信息。,5、页面维护方式,分类定位抓取(周期性抓取) 是指SE根据页面的类别或性质而指定相应更新周期,对页面进行监控。 例如:百度新闻、谷歌资讯。 小结:收录后,搜索引擎存储包括网页文件类型、文件大小、最后修改 时间、页面所在URL、IP地址、抓取时间、编码类型、页面内容包含的 关键字、关键字位置、快照生成时间、与其他网页的链接关系等内容, 这些因素相应地影响自然搜索结果中关键字的页面排名。,网页分析,在收录的前提下提升收录量,提升排名,网页索引 - 针对实际存储的网页信息内容,建立相应的索引库来加快查询速度 网页分析 包括网页正文信息提取和中文分词/切词(包括字符串匹配分词、统计分词、关键字索引、关键字重组),页面排序,在收录的前提下提升收录量,提升排名,页面相关性 关键字匹配度(单个关键字、多个关键字词组匹配) - 关键字密度(关键字在文本中出现的词频) - 关键字分布和权重标签(Hx标签、strong标签) 链接权重 内部链接(绝对数量、链接锚文本) 外部链接(数量和质量、链接锚文本) 用户行为 搜索 & 点击,谢谢!,Contact us Tel +86 (10) Email Web ,说明:本内容翻译自Google官方管理员博客文章, 网站品质:39.9 外部链接:31.5 关键词:29.7 页面质量:21.8 当网站排名不理想的时候,通过这个简表可以了解到还有哪些不完善的地方。 (图中打的地方为网编实际操作过程中接触到的内容),附:不利于排名的若干因素,(图中打的地方为网编实际操作过程中经常遇到的) 网编在实际文本操作的过程中,需要充分考虑到这些不利因素对页面排名的影响。,关键字查询(搜索引擎命令,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论