百度搜索引擎工作原理_第1页
百度搜索引擎工作原理_第2页
百度搜索引擎工作原理_第3页
百度搜索引擎工作原理_第4页
百度搜索引擎工作原理_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、工作原理编辑1.抓住网页。每个独立的搜索引擎都有自己的网络爬虫。蜘蛛沿着网页中的超链接从一个网站爬行到另一个网站,并通过超链接分析连续访问和爬行更多的网页。捕获的网页称为网页快照。由于超链接在互联网中被广泛使用,理论上,大多数网页可以从一定范围的网页中收集。2.处理网页。搜索引擎在抓取网页后,必须做大量的预处理工作才能提供检索服务。其中,最重要的是提取关键词,建立索引数据库和索引。其他包括删除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要性/丰富度等。3.提供检索服务。用户输入关键词进行搜索,搜索引擎从索引数据库中找到匹配关键词的网页;为了方便用户,除了网页的标题和网址之外,

2、还将提供网页摘要和其他信息。搜索引擎的基本工作原理搜索引擎编辑在搜索引擎分类部分,我们提到了全文搜索引擎从网站中抽取信息并建立网络数据库的概念。搜索引擎有两个自动信息收集功能。一种是定期搜索,即每隔一段时间(例如,谷歌通常有28天),搜索引擎会主动发送一个“蜘蛛”程序来搜索某个IP地址范围内的互联网网站。一旦找到一个新网站,它将自动提取该网站的信息和地址,并将其添加到自己的数据库中。另一种是提交网站搜索,即网站所有者主动向搜索引擎提交网站地址,搜索引擎在一定时间内(从2天到几个月)向您的网站发送“蜘蛛”程序,扫描您的网站,并将相关信息存储在数据库中供用户查询。由于搜索引擎的索引规则发生了很大变

3、化,主动提交网站并不能保证您的网站可以进入搜索引擎数据库。因此,目前最好的方法是获得更多的外部链接,这样搜索引擎就有更多的机会找到你并自动包含你的网站。当用户通过关键词搜索信息时,搜索引擎将在数据库中搜索。如果找到与用户请求的内容相匹配的网站,则使用特殊算法根据网页中关键词的匹配度、位置、频率和链接质量来计算每个网页的相关性和排名等级,然后根据相关性将这些网页链接依次返回给用户。搜索索引/目录编辑与全文搜索引擎相比,目录索引有许多不同之处。首先,搜索引擎属于自动网站检索,而目录索引完全依赖人工操作。用户提交网站后,目录编辑将亲自浏览您的网站,然后根据一套自行确定的评估标准甚至编辑的主观印象来决

4、定是否接受您的网站。其次,当一个搜索引擎包含一个网站时,只要该网站本身不违反相关规则,它一般可以成功登录。然而,网站对目录索引的要求要高得多,有时即使你多次登录,也可能不会成功。尤其是像雅虎!登录这样一个超级索引甚至更难。此外,当登录到搜索引擎时,我们通常不需要考虑网站的分类,但是当登录到目录索引时,我们必须将网站放在最合适的目录中。最后,搜索引擎中每个网站的相关信息都是从用户的网页中自动提取的,所以从用户的角度来看,我们有更多的自主权;目录索引要求必须手动填写网站信息,并且有各种限制。此外,如果员工认为您提交的目录和网站信息不合适,他可以随时调整,当然,他不会提前与您讨论。顾名思义,目录索引

5、是将网站存储在不同类别的相应目录中。因此,用户在查询信息时,可以选择关键词进行搜索,也可以根据分类目录逐层搜索。如果你用关键词搜索,返回的结果和搜索引擎的结果是一样的,搜索引擎也根据信息关联的程度对网站进行排名,除了有更多的人为因素。如果您按分级目录搜索,目录中网站的排名由标题字母的顺序决定(有例外)。目前,搜索引擎和目录索引有相互融合和渗透的趋势。最初,一些纯全文搜索引擎现在提供目录搜索。例如,谷歌借用开放目录目录来提供分类查询。就像雅虎!这些旧的目录索引通过与诸如谷歌(注)等搜索引擎的合作扩大了搜索范围。在默认搜索模式下,一些目录搜索引擎会首先在自己的目录中返回匹配的网站,如国内的搜狐、新

6、浪、网易等。而其他公司默认使用网络搜索,如雅虎。通过对搜索引擎营销规律的深入研究,新竞争力认为搜索引擎的推广是基于网站内容的推广,这是搜索引擎营销的核心理念。这句话很简单。如果你仔细分析,你会发现这句话确实包含了搜索引擎推广的一般规则。在谈网站推广策略的内容推广思路一文中,作者提出了一个观点:“网站内容不仅是大型ICP网站的生命之源,也是企业网站网络营销效果的关键”。因为网站内容本身也是网站推广的有效手段,但这种推广需要搜索引擎的帮助,所以网站内容推广策略实际上是搜索引擎推广策略的具体应用。百度谷歌编辑查询处理和分词技术随着搜索经济的兴起,人们开始越来越关注全球主要搜索引擎的性能、技术和日常流

7、量。作为一个企业,它会根据搜索引擎的受欢迎程度和每天的流量来选择是否投放广告;作为普通网民,他们会根据搜索引擎的性能和技术选择自己喜欢的搜索引擎来查找信息;作为技术人员,我们将以有代表性的搜索引擎为研究对象。搜索引擎经济的兴起再次向人们证明了网络蕴含的巨大商机。如果网络退出搜索,将只有空洞而混乱的数据和大量等待精心挖掘的金矿。但是如何设计一个高效的搜索引擎呢?我们可以通过百度采用的技术手段来讨论如何设计一个实用的搜索引擎。搜索引擎涉及很多技术要点,如查询处理、排序算法、页面爬行算法、缓存机制、反垃圾邮件等。作为百度和谷歌等商业公司的搜索引擎服务提供商,这些技术细节不会公之于众。我们可以将现有的

8、搜索引擎视为一个黑盒,通过将输入提交给黑盒并根据黑盒返回的输出来粗略判断黑盒中未知的技术细节。查询处理和分词是中文搜索引擎的基本任务,百度作为典型的中文搜索引擎,一直强调其“中文处理”具有其他搜索引擎所没有的关键技术和优势。那么让我们来看看百度采用了哪些所谓的核心技术。我们分为两个部分:查询处理/中文分词。首先,查询处理用户向搜索引擎提交查询。搜索引擎通常在收到用户的查询后做一些处理,然后从索引数据库中提取相关信息。那么百度在收到用户的询问后做了什么?1.假设用户提交了多个查询字符串,如“信息检索理论工具”。然后搜索引擎首先做的是根据分隔符(如空格和标点符号)将查询字符串分成几个子查询字符串。

9、例如,上面的查询将被分解成三个子字符串;原因很简单。让我们往下看。2.假设提交的查询有重复的内容,搜索引擎应该做什么?例如,在“理论工具”的查询理论中,百度将重复字符串视为等价的“理论工具”,而谷歌显然没有将它们合并,而是增加了重复查询子串的权重。你是怎么得出这个结论的?我们可以将“理论工具”提交给百度,返回341,000个文档,并大致查看第一页返回的内容。好的.继续,我们提交给谷歌质疑“理论工具理论”。看着返回的结果,仍然有那么多返回的文档。当然,这并不能解释太多的问题。看看第一页返回结果的排名,你能看到吗?顺序没有任何变化,而GOOGLE在排序方面有一些变化,这表明百度将重复的查询合并到一

10、个处理中,字符串之间的出现顺序基本上被忽略了(GOOGLE考虑这种顺序关系)。3.假设提交的中文查询包含英文单词,搜索引擎如何处理它?例如,在查询“电影英国电信下载”时,百度的方法是将英文作为一个整体保留在中文字符串中,并以此作为断点来分隔中文,这样上述查询就是无论中英文是一个可以在字典中找到的单词还是一个随机字符,都将被视为一个整体。至于为什么,你可以通过查询“电影dfdfdf下载”找到答案。当然,如果查询包含数字,也是如此。优化核心编辑1.网站的程序架构应该尽可能的简单,那些花哨的代码应该被删除。你可以试着用JS调用它。这一点非常重要。搜索引擎优化是相互依赖的,并与用户体验相结合。此外,繁

11、琐的代码不仅会影响网站页面的加载速度,还会让用户感到很大的压力,所以这是不明智的。2.做站内搜索引擎优化的细节。在很大程度上,有必要修改程序结构使之简洁,但在细节上,它是静态的网址,标题、关键词和描述的书写。当然,关键词还没有被搜索引擎所重视。3.做网站外搜索引擎优化的所有方面。包括交流友情链接的注意事项,以及在做普通对外链接时如何操作和控制。不要想着走捷径,不要想着成群结队地发送链条,也不要想着一次购买大量的高重量链条。这些是搜索引擎优化的错误思想和策略。我们一般推荐你做一般的传统搜索引擎优化。4.每个用户都应该认识到搜索引擎优化最根本的目的是获取用户,所以用户体验不可忽视。我们在搜索引擎上

12、排名的原因是我们为用户提供有价值的内容。因此,在发展的方向上,无论你是一个网站管理员还是一个专业的搜索引擎优化者,你都应该朝着用户、产品和服务的方向发展,而不应该局限于搜索引擎优化,这是非常重要的。搜索引擎优化编辑网站网址网站创建具有良好的描述性、规范性和简单性,有利于用户更方便地记忆和判断网页内容,也有利于搜索引擎更有效地抓取你的网站。在网站设计之初,应该有合理的网址规划。处理方法:1.系统中只使用正常的表单url,不允许用户联系异常的表单url。2.不要把不必要的内容,如sessionid和统计代码放在网址。3.不同形式的url,301永久跳转到正常形式。4.备用域名启用防止用户输入错误,

13、301永久跳转到主域名。5.使用robots.txt禁止Baiduspider抓取您不想向用户显示的表单。标题信息网页标题用于告诉用户和搜索引擎该网页的主要内容是什么,当用户在百度网页搜索中搜索你的网页时,标题将作为最重要的内容显示在摘要中。当搜索引擎判断网页的内容权重时,标题是主要参考信息之一。描述提案:1.主页:网站名称或网站名称_服务介绍或产品介绍。2.频道页面:频道名称_网站名称。3.文章页面:文章标题_频道名称_网站名称。需要注意的是:1.标题应该清晰明了,包含本页最重要的内容。2.简明扼要,不要列出与网页内容无关的信息。3.用户通常从左到右浏览,重要内容应该放在标题的前面。4.使用

14、用户熟知的语言。如果你有中英文网站名称,试着用用户熟悉的名称作为标题描述。元信息元描述是元标记的一部分,它位于html代码区域。元描述是对网络内容的简明总结。如果描述与网页内容匹配,百度将把描述作为摘要的选择目标之一,一个好的描述将帮助用户更方便地从搜索结果中判断你的网页内容是否符合要求。元描述不是权重计算的参考因素。该标签的存在不影响网页的权重,而只是作为搜索结果摘要的选择目标。推荐做法:1.描述最适合网站主页、渠道页面、产品参数页面等。2.为每个网页创建不同的描述,以避免对所有网页使用相同的描述。3.长度是合理的,但不要太长或太短。图像alt建议在图片中添加替代描述。因为这样做可以使用户在网络速度较慢时无法显示图片时理解图片所传达的信息,也可以使搜索引

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论