Google搜索引擎小讲.pptx_第1页
Google搜索引擎小讲.pptx_第2页
Google搜索引擎小讲.pptx_第3页
Google搜索引擎小讲.pptx_第4页
Google搜索引擎小讲.pptx_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Google搜索引擎,Google搜索基本原理 Google特色 Google基本搜索 Google与Baidu 的异同 Google世界小拓展 Google网络趣图,基本搜索原理,Google如何发现站点和网页,蜘蛛程序Googlebot 四种方法发现新站点: 通过填写/addurl.html上的“添加URL”将URL提交到Google以供Googlebot抓取 Google从其他已索引的站点上发现本站点的从而对其进行抓取 注册Google站长工具,在确认提交后提交一份本站点的站点地图 从一张已经被索引的页面重定向到新页面(例如使用301重定向),Google如何储存信息,索引的主旨 将文档转化为它包含的关键字从而优化检索的速度和性能 Google有500 000至1 000 000台服务器,分布在70多个数据中心,占地数千英亩,而且如今对计算量的需求还在快速增长,Google如何构建索引,Googlebot爬取了网站之后,会给其发现的每个页面分配一个独一无二的ID号,并将其发送给索引程序 索引程序可列出每个含有特定词的文档,Google停用词,Google搜索框会忽略掉特定常用词 这些停用词包括(但不限于): i,a,about,an,and,are,as,at,be,by,for,from,how,in,is,it,of,on,or,that,the,this,to,was,what,when,where,who,will,with. But : Google足够智能,可以识别出一个停用词以特殊方式出现的情况。例如:搜索“the who”时,the不会被忽略掉,而是进行处理,返回著名摇滚乐队相关的搜索结果,Google如何存储索引,Google使用了成百上千台计算机来存储索引以达到加速度目的 在处理时,识别含有查询词的页面的任务被分配给很多机器同时执行,Google如何查询索引,包含一个特定词的文档叫做倒排表(posting list),查找含有两个以上词的文档叫做“倒排表相交”。相交后的列表包含含有全部检索词的文档 Google搜索引擎最基本的任务: 从索引中找到包含用户查询词的页面集合; 根据页面重要程度和相关性对匹配页面进行排名,Google如何排名,Google PageRank,PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。它由Larry Page 和 Sergey Brin在20世纪90年代后期发明。PageRank实现了将链接价值概念作为排名因素。 PageRank近拟于一个用户,是指在Internet上随机地单击链接将会到达特定网页的可能性。通常,能够从更多地方到达的网页更为重要,因此具有更高的PageRank。每个到其他网页的链接,都增加了该网页的PageRank。 GOOGLE PageRank虽不是唯一的链接相关的排名算法,却是目前最为广泛使用的一种。,TrustRank(信任指数),TrustRank算法最初来自于2004年斯坦福大学和雅虎的一项联合研究,用来检测垃圾网站,并且于2006年申请专利。 在现在的搜索引擎排名算法中,TrustRank概念使用更为广泛,常常影响大部分网站的整体排名。它衡量的是网站在谷歌上的信任度,网站的TrustRank值越高,意味着网站质量越高。,从工作原理看优势,最好的商业公司源于车库,最好的搜索引擎源于校园。 专注于质量。Google 的搜索服务既不是简单的信息目录,也不是变相的商业广告。,Google搜索引擎特色,目录中收录了 10 亿多个网址,在同类搜索引擎中首屈一指 支持多达132种语言,包括简体中文和繁体中文 只摘录那些包含搜索关键词的内容 其正文或指向它的链接包含您所输入的所有关键词 遵从关键词的相对位置,按照关键词的接近度确定搜索结果的先后次序,优先考虑关键词较为接近的结果,省时而高效,举例:在Google搜索栏里输入人名检索“杨小年 +何家进”,Google基本网络搜索,单查询法。参见 Google首页排列的5大功能模块 Goolge的默认运算符就是逻辑“与”,用空格、“AND”和“+”都表示,而逻辑“非”只能用“-”而不能用“NOT”表示,逻辑“或”用“OR”表示。 注意:“+”“-”等要用英文格式输入,且“+”“-”之前要有空格 引自上堂课PPT,高级搜索,引自上堂课PPT,部分应用举例,Define : 查找某词的定义 举例:在google栏中输入 define:seo Site :搜索结果局限于某个具体网站或网络频道 举例:在google栏中输入 site: Inurl : 搜网页 举例:在google栏中输入 inurl:physics,Google 与百度搜索引擎检索功能的异同点,相同点,都是全文搜索引擎,均具有检索信息,方便上网者的功用。 均采用互动式搜索的方式,在用户查询和搜索引擎返回结果的人机交互过程中,引擎根据用户的查询内容,智能展开多组相关的主题,帮助用户快速找到相关搜索结果 均采用分类导航的方式针对部分查询结果项,扩展到类似或相关网站。 支持多种高级检索语法 ,不同点,语言支持和使用不同(Google支持更多,百度偏重中文) 排名顺序原则不同(Google重视链接的文字描述和链接的质量,百度采用竞价排名) 更新和收录周期不同(GOOGLE收录新站一般在十个工作日左右,是所有搜索引擎收录最快的,更新也比较稳定,一般一个星期都会有大的更新。) 但是对不同国家和地区的人用户体验可能不同,Google世界小拓展,Google常用软件,地图 日历 翻译 谷歌浏览器 拼音输入法 Android Code Gmail Gtalk Google+ ,Google使用中的不足,Google中国目前最大的体验缺失不是在最长的木板准确、速度等,而是在最短的木板死链、名字等

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论