seo教程:搜索引擎优化入门与进阶笔记_第1页
seo教程:搜索引擎优化入门与进阶笔记_第2页
seo教程:搜索引擎优化入门与进阶笔记_第3页
seo教程:搜索引擎优化入门与进阶笔记_第4页
seo教程:搜索引擎优化入门与进阶笔记_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

S,欢迎访问搜索引擎工作原理收录流程1、提交url是一个被动且费时间的行为。2、建立外链,外链的数量、质量及相关性左右着录入时间,是主动的。页面收录方式页面收录使用的策略,目的是从互联网筛选出相对重要的信息。若使用相同抓取策略,在同一站中抓取页面资源更具效率,那么则会再网站上停留更长的时间,收录的页面数自然也就爱更多。广度优先。优点:优先抓取重要的页面。应对策略:将重要信息设计在较浅层次的页面上深度优先。优点:页面需求的长尾,抓取更多冷门、隐藏的页面,满足更多用户的需求。应对策略:重要信息放置在多层次的页面上。用户提交。优点:大大提高页面收录效率、数量和收录页面的质量。如何避免重复收录(页面重复、内容重复)网站中的重复信息:转载内容、镜像内容。重复信息的影响:占用硬盘、延长用户搜素时间权重:原创>转载>镜像(几乎完全被忽略)转载页面比较多个被划分为N个区域页面的M个区域。若M>A(某阀值),则互为转载。通过比较最后修改时间、页面权重等因素判断哪个是原创。镜像页面比较多个被划分为N个区域的页面,若N个区域内容完全一样,则认为这些页面互为镜像页面。判断原创如转载一样。镜像网站狭义的镜像网站是指内容完全相同的网站。形成原因:1、多个域名或IP指向同一服务器的同一个物理目录;2、整个网站内容被复制到使用不同域名或IP的服务器上。识别源网站是通过判断这些网站的首页以及首页直接链接的页面是否互为镜像页面。再综合多项因素(如网站权重值、建立时间等)识别。镜像网站只收录极少页面,甚至不收录页面。页面维护方式为让搜索引擎适应网站的不断变化和缺录。定期抓取周期性针对全部已收录页面进行维护。页面权重的再分配也是与页面维护同步进行。适用于页面较少,内容更新慢的网站。缺点:由于维护周期长,是的不能及时向用户反映更新期间页面的变化情况。增量抓取对已抓取的页面进行定时监控,实现对页面的更新及维护。(不现实)基于80/20法则,搜索引擎只针对某些重要页面网站中部分重要页面进行定时监控,即可获取网站中相对重要的信息。优点:对重要页面的内容更新会及时发现新内容、新链接、并删除不存在的信息。分类定位抓取根据页面的类别或性质而制定相应更新周期的页面监控方式。新闻资讯周期小于资源下载的周期。大型门户网站内容更新速度比小型快。优点:大大提高页面抓取的灵活性和实时性。补充:各种抓取方式组合抓取页面。页面存储搜索引擎能否在抓取页面的过程中获取到更多有价值的信息会直接影响搜索引擎的工作效率及排序结果的质量。所以搜索引擎除了存储原始页面外,还会附加一系列的信息(如文件类型、文件大小、最后修改时间、rul、ip地址、抓取时间等),再把这些作为开展某项工作的依据。网页分析对原始页面进行一系列的分析、处理,以迎合用户信息查询的习惯。建立关键字索引与反向索引,分配权值。丽I1E丈信息丽I1E丈信息如图2訂所示*攪絮引繫肯先对存错的原蜡建立囊弓I*再过瀧飙始网页的标签宿息丫从中提取出网页中的正立内容:耕后,时嘟怪藝璽竺甘建立关醴字絮引『得別了頁面与芸诞字河的对应关秦tH后时所有关锥爭进杼j愛8L"肽而軽关K字与頁面间的对应关系。严0伽貝工的I网页索引为提高页面检索的效率,而对页面url建立索引。网页分析网真分析摩擁个网页处理中堆更要的坏节・包柄『网页正文信息的提取、切调、建立关犍字索引列表及关億字貳组几令鬣K的步骤.结果形成了f关犍字对应多个礙始页面的关系・叩擀成了与用户査询习锁相符合的信息雏低.正文信息提取过滤非正文信息(HTML标签、JS标签、PHP标签)。分词/切词通过对过滤出的正文内容进行切分(该行为就是分词/切词),从而形成与用户查询条件相匹配的以关键字为单位的信息列表。分词算法:1、字符串匹配分词2、统计分词。3、关键字索引。记录了该关键字所在的网页编号、关键字编号、关键字出现次数以及关键字在文档中的位置信息。*2-1关at字列長关毬字集号网页集号eiOh11KI3ALA5*A7id#2:31K32A3”A9IhitpL^WWWJirnjpCWP31K3JA6,AL3.AID41K41\2例如,记录1中的关键字KlZfjK面中也现门次,对应贞面的Al、A5、為7区域.如图48所示4、关键字重组。建立以关键字对应多个网页的方向索引。页面排序页面相关性贡面相关柱址指讯面内奔另用门所株谢的黄键了的接近程度,1很;111关键字匹配度、关铤字密度、董锥字分布及关键字的权重标零需决罡*1、关键字匹配度•关域字匹配度关蝕字匹配度是指贞imp中的内獰旨用户所提交的先锥字k刑的匹配程度・屯耍由两*悶索决越□史丽F中足吿存在与査询黄擾字K相匹配的内弄,即贞潮内容中足沓包含关機字IG□黄键宇K在页面卩中出现了多少次*即页面卩中有务少牛抉键字監.为了计薛关觥字匹配度「捜索引華为薛个贞面分配•个娱键字匹配佰.该值由关號字在贞面中出现的次数贋定.假设臬关键字在頁啲中出现•次.关键字匹配值为10;那么「如杲集-关键字在页面中出规10次,则关轆字匹配值=】0忙山缺点:易被网站所有者操控。还需要结合关键字密度、关键字分布及关键字的权重标签等多方面来决定。2、关键字密度关键字密度是关键字词频与网页总词量的比例。不同密度对应不同密度值。假设贞面屮臬关犍字的懈度为50%”该页面的关燧字犠度值为2%例如+在内審屆;reorderbattery的页面中.cajncorder的关键字臺度该关41字*该頁面的关键字密度值就趾20.3、关键字分布依据关键字位置对应不同的分布值。4、关键字的权重标签在网贞中*网贞制作苦利川不同的HTML标签値页面中相关的内密实规不同的视觉效果(如字怵的样式、字哥、颜色啡),灵活地运用各解HTML标签还有助于提高贾面祖关性"链接权重入度与出度,及其权值分配。1、内部链接2、外部链接3、默认权重分配用户行为点击率关键字查询在计算完断有页面的权戳后*搜索常華就町以向川户規供信見酉询册务.搜索引节僭询功鷹的实現非常顽用户对返回结果的时闻蚩求也菲常高{通常長秒I8)i£在体么短的时间内进行这么复杂的计算足不现实的.所以,搜索引繁粘嬰通过一箕高效的机制处理来自用户的査卸°主要包括t口化用F哦出fritiJh'j求询就完成披含询摊犍字的反向索引而勰勰戏严计算等工作=□为那些杳训堆频

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论