




已阅读5页,还剩97页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
搜索引擎,网页优化,课程总览,从学校去大朗的大润发坐几路公交车?去常平呢?去竂步呢?,课前思考(提问),我有一栋楼要装修,什么牌子的外墙砖最好?什么牌子的防水最好?,课前思考(提问),什么牌子的滑冰鞋最好?,课前思考(提问),神奇的搜索引擎!,引入,如果说互联网是一座宝藏,那么搜索引擎则是打开宝藏之门的金钥匙,你知道的搜索引擎都有哪几个?,课前思考(提问),课前思考(提问),谷歌雅虎百度搜狗搜搜有道必应,常用搜索引擎简介,Google谷歌创办时间:1998年9月Google的使命是整合全球信息,使人人皆可访问并从中受益。他拥有全世界最先进的搜索技术。Google是世界上用户最多的搜索引擎。,常用搜索引擎简介,Yahoo创办时间:1994年4月是最早的目录搜索引擎,它使搜索引擎这个概念深入人心,促进了搜索引擎的快速发展。后事与google合作,在很长时间都采用了Google的网页搜索技术。2004年中止合作,推出自己的网页搜索引擎。,常用搜索引擎简介,百度百度(),全球最大的中文搜索引擎、最大的中文网站。2000年1月创立于北京中关村。,让人们最便捷地获取信息,找到所求。,常用搜索引擎简介,百度基于搜索引擎的各种产品以网络搜索为主的功能性搜索;以贴吧为主的社区搜索;针对各区域、行业所需的垂直搜索;MP3搜索;门户频道;IM。,常用搜索引擎简介,百度的中文搜索优势百度中文数据库不仅最全,也是质量最好的。全球第一的数据挖掘、分布式索引和检索技术与处理速度,以及大规模的工业级系统的开发,支持百度以最快的速度呈现搜索目标内容相关的一切。百度首页不到4K,最干净、最简洁的页面,随区域合理密布的多组服务器机群,架构于强大的网通及电信的骨干网上,可以在瞬间呈现搜索结果。百度拥有全球第一的网页分析技术、世界上独一无二的“中文分词”技术及全球最完善的反垃圾网页技术与流程,因此,百度对搜索结果的显示最为准确。,常用搜索引擎简介,搜搜SOSO是腾讯QQ旗下重点发力的搜索引擎,现在整合了QQ客户端,给SOSO加上了强大有力的助推器。,常用搜索引擎简介,搜狗是搜狐旗下的搜索引擎,现为淘宝合作项目。2006年搜狗推出一款汉字拼音输入法,其有一个自己特有的搜狗细胞词库,里面有很多最新最热门的关键词。词库的首页还有一个热词指数,对SEO人员很有参考价值。,搜索引擎工作原理,为什么要了解搜索引擎的原理,做SEO和打仗差不多,我们要仔细研究一下对方的整体实力,找出他们的优势和弱点,专门攻击他的弱点,要知已知彼才能百战百胜。SEO所有的方法都是通过搜索引擎的原理一点一点总结出来的,如果你想在SEO方面做得比较出色,就必须懂得搜索引擎的原理,只有懂得了搜索引擎的原理,才能发现或者创造更多SEO优化方面的技巧。,为什么要了解搜索引擎的原理,从某个角度来说,SEO人员优化网站就是尽量减少搜索引擎的工作量、降低搜索引擎的工作难度,使搜索引擎能更轻松、快速地收录网站页面,更准确地提取页面内容。不了解搜索引擎工作原理,也就无从替搜索引擎解决一些SEO力所能及的技术问题。,当搜索引擎面对一个网站,发现要处理的问题太多、难度太大时,搜索引擎可能就对这样的网站敬而远之了。,了解搜索引擎,了解搜索引擎我们要知道这几个方面的内容:搜索引擎与目录;搜索引擎面对的挑战;搜索引擎工作原理。,Hao123是不是搜索引擎?,思考(提问),搜索引擎与目录,早期的SEO资料经常把真正的搜索引擎与目录放在一起讨论,甚至把目录也称作为搜索引擎的一种。搜索引擎:指的是有蜘蛛程序沿着链接爬行和抓取网上的大量页面,存进数据库,经过预处理,用户在搜索框输入关键词后,搜索引擎排序从数据库中挑选符合搜索关键词要求的页面。蜘蛛爬行、页面的收录及排序都是自动处理。网站目录:是一套人工编辑的分类目录,由编辑人员人工创建多个层次的分类,站长可以在不同分类里提交网站,目录编辑在后台审核所提交的网站,将网站放置于相应的分类页面。有时候编辑了主动收录网站。典型的网站目录包括雅虎目录、开放目录、好123.,错误!,搜索引擎与目录,搜索引擎与目录,搜索引擎和目录的优劣:搜索引擎收录的页面数远远高于目录能收录的页面数。但搜索引擎收录的页面质量参差不齐,对网站内容和关键词提取的准确性通常也没有目录高。限于人力,目录能收录的通常只是网站首页,而且规模十分有限,不过收录的网站通常质量比较高。目录收录网站是存储的页面标题、说明文字都是人工编辑的,比较准确。搜索引擎数据更新快,而目录中收录的很多网站内容十分陈旧,甚至网站可能已经不存在了。,搜索引擎面对的挑战,搜索引擎系统是最复杂的计算机系统之一,当今主流搜索引擎服务商都是有财力、人力的大公司。即使有技术、人力、财力的保证,搜索引擎还是面临很多的技术挑战。搜索引擎诞生后的十多年中,技术已经得到了长足的进步。我们今天看到的搜索引擎结果质量与10年前相比已经好得太多了。搜索引擎必然还会有更多创新,提供更多、更准确的内容。总体来说,搜索引擎主要会面临以下几方面的挑战。页面抓取需要快而全面;海量数据存储;索引处理快速有效,具可扩展性;查询处理快速准确;判断用户意图及人工智能。,搜索引擎工作原理,搜索引擎各个版本在不同的时期比较注重的内容搜索引擎1.0版本注重的是页面元素。搜索引擎2.0版本注重的是站外元素。搜索引擎3.0版本注重的是混合搜索。搜索引擎4.0版本个性化搜索。,搜索引擎工作原理,例:我们在Google中搜索“减肥”关键词,看一下可以找到多少条相关结果?这次查询所用的时间?,搜索引擎是如何工作的?,思考(提问),搜索引擎工作原理,搜索引擎系统主要包括下载系统;网页分析系统;建立索引系统;查询服务系统。,搜索引擎工作原理,下载系统主要负责收集网页,将网站所有的网页收集回来,放到一个所谓的“仓库”中,通过网页分析系统将网页分类,将重复网页、垃圾网页过滤掉,然后将剩下的有价值的网页编辑成目录建立索引,等待用户查询,只要有用户查询某一个关键词,搜索引擎就用最短的时间将其呈现给用户。,搜索引擎工作原理,搜索引擎四大系统之间相互配合,但独立工作。,搜索引擎工作原理,搜索引擎工作原理,下载系统是搜索引擎工作的第一步,完成数据收集任务。采用多线程的工作方式,每一个线程就是我们经常提到的蜘蛛。,蜘蛛:搜索引擎用来爬行和访问页面的程序称为蜘蛛(Spider),也称为机器人(boot)。,如果下载系统只有一个蜘蛛够不够?,搜索引擎工作原理,搜索引擎工作原理,下载系统如果下载系统中只有一只蜘蛛工作,想要抓取互联网上的全部网页是不可能的。依目前情况来看,多线程都不能完全抓取互联网上的所有网页。搜索引擎的服务器遍布世界各地,每一台服务器都会派出多只蜘蛛同时去抓取网页。,如何确保多只蜘蛛不重复抓取,提高速度和效率?,搜索引擎工作原理,搜索引擎工作原理,下载系统搜索引擎在下载网页的时候,会建立两张不同的表,一张表记录已经访问过的网站,一张表记录没有访问过的网站。因为很多网站都会做外部链接,这样就有可能很多网页都指向了一个网站,而搜索引擎蜘蛛是顺着链接来抓取网页的,蜘蛛会从很多外部链接页面重复抓取一个网站,这样会造成大量的重复工作,降低工作效率,而建立这张表后,当蜘蛛抓取某个外部链接页面的URL的时候,它会把这个URL下载回来分析,当蜘蛛全部分析完这个URL后,会将这个URL存入相应的表中,这时当另外的蜘蛛从其他的网站或页面又发现了这个URL时,它会对比看看已访问列表有没有,如果有,这个URL蜘蛛会自动丢弃,不需要再访问,尽量做到一个页面只访问一次,从而提高搜索引擎的工作效率。,搜索引擎工作原理,搜索引擎蜘蛛是搜索引擎的一个自动程序。作用:访问互联网上的网页、图片、视频等内容。用法:Spider+URL,如果要查看某搜索引擎是否来爬取过你的网站,可查看服务器的日志里是否有该URL,同时还能查看来的时间、频率等。,如何查看?,搜索引擎工作原理,搜索引擎工作原理,网站日志就是服务器在运行和处理请求的时候产生的记录文件,以logfile为文件名,存放在主机中。日志内容如下:2-11/Jan/2009:04:02:45+0800GET/bbs/thread-7303-1-1.htmlHTTP/1.12008450-Baiduspider+(+200代表成功抓取。8450代表抓取了8450个字节。如果你的日志里格式不是如此,则代表日志格式设置不同。很多日志里可以看到20000和200064则都代表正常抓取。抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知。抓取频率并没有一个规范的时间表或频率数字,我们一般通过多日的日志对比来判断。当然,我们希望百度蜘蛛每日抓取的次数越多越好。,搜索引擎工作原理,蜘蛛主要通过爬取页面上的链接来发现新的页面,以此类推不停地十字交叉爬行下去便形成一张蜘蛛网。爬行主要按两种策略来执行:深度优先爬行;广度优先爬行。,练一练,深度优先爬行:指蜘蛛沿着发现的一个链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直向前爬行。,练一练,广度优先爬行:指蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。,如果不想搜索引擎搜索到你的网站怎么办?,搜索引擎工作原理,搜索引擎工作原理_robots优化,蜘蛛访问任何一个网站时,都会先爬行来检查该站点根目录下是否存在robots.txt。如果存在,搜索robot就会按照文件中的内容来确定访问的范围,如果该文件不存在,那么搜索robot就沿着链接抓取。,搜索引擎工作原理_robots优化,robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分或者指定搜索引擎只收录指定的内容。robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。,robots的优化会直接影响到搜索引擎对网站的收录情况。,搜索引擎工作原理_robots优化,如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。,搜索引擎工作原理_robots优化,淘宝的robots.txt文件,搜索引擎工作原理_robots优化,文件中以一行或多行User-agent开始,后面加上若干Disallow行。User-agent:搜索引擎robot的名称。Disallow:要拦截的网页。,搜索引擎工作原理_robots优化,常见robot名称BaiduspiderGooglebotYoudaoBot,搜索引擎工作原理_robots优化,允许所有搜索引擎访问网站的所有部分:User-agent:*Disallow:或者User-agent:*Allow:/当然,如果你不会写或者觉得很麻烦,你可以建立一个空白的文本文档,命名为robots.txt,User-agent:后的*具有特殊含义,代表anyrobot。,搜索引擎工作原理_robots优化,如果robots.txt是一个空文件,则对于所有搜索引擎robot,该网站都是开放的。,搜索引擎工作原理_robots优化,允许某个搜索引擎访问User-agent:baiduspiderDisallow:User-agent:*Disallow:/,搜索引擎工作原理_robots优化,禁止除Google外的一切搜索引擎索引你的网站User-agent:GooglebotDisallow:User-agent:*Disallow:/,如果你想禁止除百度外的一切搜索引擎索引你的网站,只有你把Googlebot改成”Baiduspider“就可以了。,搜索引擎工作原理_robots优化,禁止所有搜索引擎访问网站的所有部分User-agent:*Disallow:/,搜索引擎工作原理_robots优化,禁止百度索引你的网站User-agent:BaiduspiderDisallow:/禁止Google索引你的网站User-agent:GooglebotDisallow:/,搜索引擎工作原理_robots优化,禁止蜘蛛访问某个目录(例如禁止admincssimages被索引)User-agent:*Disallow:/css/Disallow:/admin/Disallow:/images/,搜索引擎工作原理_robots优化,允许访问某个目录中的某些特定网址User-agent:*Allow:/css/myAllow:/admin/htmlAllow:images/indexDisallow:/css/Disallow:/admin/Disallow:/images/,搜索引擎工作原理_robots优化,使用”*“,限制访问某个后缀的域名,例如索引访问admin目录下所有html的文件User-agent:*Allow:/admin/*.html,搜索引擎工作原理_robots优化,使用”“仅允许访问某个目录下某个后缀的文件User-agent:*Allow:.asp$Disallow:/,搜索引擎工作原理_robots优化,禁止搜索引擎网站中所有的动态页面(这里限制的是有”?“的域名,例如index.asp?id=1)User-agent:*Allow:/*?*,搜索引擎工作原理,搜索引擎工作原理,搜索引擎工作原理,任务2,打开任务1,为任务1添加一个robots.txt文件。,搜索引擎工作原理_robots优化,网站地图对网站地图的新的支持方式就是在robots.txt文件里直接包括网站地图文件的链接。Sitemap:,目前对此表示支持的搜索引擎公司有谷歌、雅虎、ASK和MSN。,搜索引擎工作原理_robots优化,robots.txt带来的好处几乎所有的搜索引擎spider都遵循robots.txt给出的爬行规则,协议规定搜索引擎spider进入某个网站的入口即是该网站的robots.txt,当然,前提是该网站存在此文件。,对于没有配置robots.txt的网站,spider将会被重定向至404错误页面。如果网站采用了自定义的404错误页面,spider将会把其视作robots.txt,这将给spider索引网站带来很大的困扰,影响搜索引擎对网站页面的收录。所以建议就算允许抓取所有内容,也要建一个空的robots文件。,搜索引擎工作原理_robots优化,robots.txt带来的好处可以制止不必要的搜索引擎占用服务器的带宽。可以制止搜索引擎对非公开页面的爬行与索引,如网站的后台程序、管理程序、临时页面。避免网站中的重复内容被收录。避免网站受到搜索引擎对于重复内容的惩罚,保证网站的排名不受影响。,搜索引擎工作原理_robots优化,robots.txt带来的好处对于内容丰富、存在很多页面的网站来说,很多时候会遭遇到搜索引擎spider给予网站的巨大压力,如果不加控制,甚至会影响网站的正常访问。,搜索引擎工作原理_robots优化,robots.txt带来的风险及解决方法给攻击者指明了网站的目录结构和私密数据所在的位置。如:,搜索引擎工作原理_robots优化,robots.txt带来的风险及解决方法解决办法:设置访问权限。如对/private/中的内容实施密码保护。将默认的目录主文件index.html更名为其他。如abc-protect.html,这样,该内容的地址即变成,搜索引擎工作原理_robots优化,robots.txt带来的风险及解决方法不要写错。User-agent:*Disallow:/,禁止所有搜索引擎索引数据。,搜索引擎工作原理,搜索引擎收集信息的类型:Html;Pdf;doc。,搜索引擎工作原理,搜索引擎不是互联网上所有的页面都抓取过来。它会选择重要的网页来抓取。,什么样的网页才算是重要的网页?,搜索引擎工作原理,搜索引擎认为重要的网页网站和页面权重;网页更新度;高质量相关链接导入;(从外部导入和自身相关度大的链接,可以增加页面权重)网页的目录深度小;网页内容的原创性。,当一个网页重要性高的时候,搜索引擎会优先抓取这样的页面,而且抓取完毕后,很快给它一个好的排名,在搜索结果中很快出现。,搜索引擎工作原理,一个稳定和高效的下载系统是搜索引擎提供服务的根基。搜索引擎能否做到很高的时效性取决于下载系统策略和下载系统的性能。,搜索引擎工作原理,下载回来的网页会不会重复?会不会有反动或者黄色及不应该出现的内容?,搜索引擎工作原理,分析系统搜索引擎会对下载回来的页面进行分析,分析完毕后会将垃圾页面过滤掉,即使没有过滤掉,也不会给这些网页好的排名。,搜索引擎工作原理,分析系统关键词提取搜索引擎完全能识别的依旧是以文字内容为主的。蜘蛛在爬取一个页面的同时也把大量的HTML代码抓取下来,如JavaScript、css、div标签等,这些对排名都毫无意义。首先的工作是要将HTML标签、程序去除,提取用于排名的文字。,除了可见文字,搜索引擎也会提取一些特殊的包含文字信息的代码,如Meta标签中的文字、图片替代文字、Flash文件的替代文字、链接锚文字等。,搜索引擎工作原理,分析系统去掉停用词页面内容中出现频率高,但对内容没有任何影响的词。如“地”、“得”、“的”、“啊”、“呀”、“却”,“再”、“从而”之类的副词或介词,这类词为停用词。,英文的常见停止词有the,a,an,to,of等。,练一练,使用搜索引擎模拟工具,打开一个网页,看蜘蛛是如何工作的?,练一练,推荐工具:站长之家工具搜索引擎模拟,搜索引擎工作原理,中文分词分词是中文搜索引擎特有的步骤。方法:基于字符串匹配;基于统计。,搜索引擎工作原理,基于字符串匹配按匹配方向的不同,可分为正向匹配、逆向匹配和最少切词。可将这三种方法混合起来使用,即正向最大匹配、逆向最大匹配、正向最小匹配、逆向最小匹配(很少用到)。,搜索引擎工作原理,正向最大匹配假设字典中最长的词语字数为m,先根据汉语标点符号及特征词把汉语句子切分为短语,然后去取短语的前m个字,在字库里面查找是否存在这个词语,如果存在,短语就去掉这个词,如果不存在就去掉这m个字的最后一个字,接着检查剩下的词是否是单字,若是则输出此字并将此字从短语中去掉,若不是则继续判断字库中是否存在这个词,如此反复循环,直到输出一个词,此后继续取剩余短语的前m个字反复循环,这样就可以将一个短语分成词语的组合了。,我/是/一个/好人,例:我是一个好人我是一我是我是一个是一是一个好一个好人,搜索引擎工作原理,逆向最大匹配以句子结尾处进行分词的方法。逆向最大匹配技术最大的一个作用是用来消歧。如“富营销线下聚会在下城子镇举行”,按照正向最大匹配结果为:富/营销/线/下/聚会/在/下/城子镇/举行,有歧义。,例:富营销线下聚会在下城子镇举行(设定一个分词节点大小为7)在下城子镇举行举行聚会在下城子镇,实际使用中逆向匹配的精准度要高于正向匹配度。,搜索引擎工作原理,基于统计分词方法直接调用分词词典中的若干词进行匹配,同时也使用统计技术来识别一些新的词语,将所有的统计结果匹配起来发挥切词的最高效率。分词词典是搜索引擎判断词语的依据,基本上收录了汉语词典中所有的词语。,搜索引擎工作原理,消除噪声网页上有各种形形色色的广告文字、广告图片、登录框、版权信息等,这些区块都属于噪声,对页面主题只能起到分散作用。,搜索引擎工作原理,去重用户搜索时,如果在前两页看到的都是来自不同网站的同一篇文章,用户体验就太差了,虽然都是内容相关的,搜索页希望只返回相同文章中的一篇,所以在进行索引前还要识别和删除重复内容,这个过程就是“去重”。,搜索引擎工作原理,通过分析,网页已经不再是网页了,关键词,搜索引擎工作原理,将关键词按先后顺序排列可根据3个方面的算法。基于内容的排序算法根据词频和关键词出现的位置来判定,在搜索引擎允许的范围内,词频越高对排名越有利。关键词出现的位置也很重要,出现在Title标签和Keywords
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 破产企业债权管理办法
- 甘肃低保资金管理办法
- 绍兴失业就业管理办法
- 纪委监委工作管理办法
- 淮安公务接待管理办法
- 政府在新质生产力发展中的作为与担当
- 企业安全环境培训内容课件
- 出租汽车检视课件
- 出矿班组安全培训总结课件
- 出境游安全培训课件
- GB/T 13306-2011标牌
- GA 1800.6-2021电力系统治安反恐防范要求第6部分:核能发电企业
- FZ/T 13001-2013色织牛仔布
- 温医麻醉学专业英语专业英语考试参考
- 办公室主任竞聘报告课件
- 最新医疗安全十八项核心制度课件
- 住宅小区供配电系统设计课件
- “三高”讲座-课件
- 年产12000吨水合肼(100%)项目环评报告书
- 甘肃悬索特大桥钢桁加劲梁、正交异性桥面板施工方案
- 义务教育(数学)新课程标准(2022年修订版)
评论
0/150
提交评论