搜索引擎算法的基础知识.doc_第1页
搜索引擎算法的基础知识.doc_第2页
搜索引擎算法的基础知识.doc_第3页
搜索引擎算法的基础知识.doc_第4页
搜索引擎算法的基础知识.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

搜索引擎算法的基础知识搜索引擎算法的基础知识如果我们要建立一个搜索引擎,第一步是标记化的文本。我们希望成为能够快速确定哪些文件包含一个术语。这是容易,如果我们把令牌在一个数据库中。令牌是在文本中,任何单一的术语,将有多少令牌DOC1包含?的时候,你开始为自己来回答这个问题,你可能会想到一个“术语”的定义。事实上,在本例中的“纽约”应该被承认为一个任期。我们如何才能确定,实际上是两个独立的字一个字是超出本文的范围,所以在那一刻,我们每一个单独的词作为一个单独的令牌威胁。因此,我们有10个令牌doc1和11令牌DOC2。为了避免重复的数据库中的信息,我们将存储类型,而不是令牌。类型是在文本的独特标记。在该示例中DOC1两倍包含令牌“和”。在这个例子中,我忽略了一个事实,“和”出现一次,一旦没有资本化。作为一个长期的决心,有技术的东西,以确定是否需要予以资本化。在这种情况下,我们假设,我们可以将其存储未经资本和“和”与“和”是相同的类型。通过存储在数据库中的所有类型的文件,在这里我们可以找到他们,我们就可以在数据库中搜索与布尔类型的帮助。,搜索“croquets”会导致doc1和doc2。搜索为“croquets,bitterballen”将只返回DOC1的结果。这种方法的问题是,你可能会得到过多或过少的结果。此外,它缺乏组织能力的结果。如果我们要改善我们的方法,我们要确定我们可以使用其他的存在/不存在的文件中的一个术语。你会用哪一个对页的因素组织的结果,如果你是谷歌?区指标比较简单的方法是使用带索引。一个web页面可以被分为不同的区域。想想标题,描述,作者和身体。在一个文档中加入的重量为每个区域,我们能够计算出一个简单的得分为每个文档。这是第一个用于确定一个页面的主题搜索引擎页面方法。由区域索引的分数的操作如下:假设我们添加下面的权重,每个区:区重量标题0.4描述0.1内容0.5我们执行下面的搜索查询:的“croquets,bitterballen”我们有一个文档的下列区域:区内容布尔得分标题纽约咖啡馆00描述美味的咖啡厅与croquets和bitterballen10.1内容我们在纽约的餐厅供应croquets和bitterballen10.5 总0.6因为在某些时候大家都开始滥用的权重分配给例如描述,它变得更加重要,对谷歌的身体分割在不同的区域和不同的权重分配到每个区域,在体内。这是相当困难的,因为在网络中包含具有不同结构的各种文档。由这样的机器的XML文档的解释是相当简单的。在解释HTML文件的机器变得更加困难。的结构和标签是有限得多,这使得分析更困难。当然是HTML5在不久的将来,谷歌支持微格式,但它仍然有它的局限性。例如,如果你知道,谷歌分配更多的重量内的标记和内容在标签的内容,你将永远不会使用标签。要确定的页面的情况下,谷歌将不得不分割成块的网页。通过这种方式,谷歌可以判断哪些数据块在页面上是重要的,哪些不是。可以使用的方法,其中一个是文本/代码的比率。大概一个页面,其中包含更多的文本,HTML代码块中包含的主要内容在页面上。块,其中包含许多链接/ HTML代码和内容很少,可能是菜单。这就是为什么选择正确的所见即所得的编辑器是非常重要的。某些编辑器使用AA很多不必要的HTML代码。文本/代码比率的使用仅仅是一个搜索引擎可以使用的页面划分成块的方法之一。比尔Slawski谈到今年早些时候确定块。区域指标方法的优点是,你可以很简单的计算为每个文档的得分。许多文件的缺点当然是可以得到相同的分数。短期频率,当我问你想对页的因素,你会用它来 确定一个文件的相关性,你可能会想到的频率查询条件的。这是一个合乎逻辑的步骤,以增加重量,每个文档更经常使用的搜索条件。一些SEO机构坚持的一定比例在文本中使用的关键字的故事。我们都知道这是不是真实的,但让我告诉你为什么。我会尽力解释的基础上,下面的例子。这里有一些公式出现,但正如我所说的故事,事情的轮廓。在下面的表中的数字是一个字在文件中的出现的数目(也被称为长期频率或TF)。因此,这文件有更好的得分查询:croquets和bitterballen的吗? croquets和咖啡厅bitterballen阿姆斯特丹.DOC1810320 DOC2120392 DocN. 询问11010 这两个文件的得分如下:得分(的“croquets和bitterballen”,DOC1)= 8 + 10 + 2 = 20分(的“croquets和bitterballen”,DOC2)= 1 + 20 + 9 = 30文献2是在这种情况下,接近相关的查询。“和”获得了最重的,但在这个例子中,这公平吗?这是一个一站式的话,我们想给它只有一点点的价值。我们可以实现通过使用倒排文档频率(TF-IDF),这是相反的文档频率(自由度)。文档文件的一个术语出现频率是多少。逆文档频率,以及,则相反。作为一个长期增长的文件,其中的数量,以色列国防军将缩小。你可以计算出以色列国防军的文件,你必须在你的语料库文件包含该术语的数量,然后取对数,商总数除以 假设我们的查询条件,以色列国防军如下: IDF(croquets)= 5 IDF(和)= 0.01 IDF(bitterballen)的= 2, 那么你获得以下成绩: 得分(的“croquets和bitterballen”,DOC1)= 8 * 5 + 10 * 0.01 + 2 * 2 = 44.1 分(的“croquets和bitterballen “,DOC2)= 1 * 5 + 20 * 0.01 + 9 * 2 = 23.2现在DOC1有更好的成绩。但是,我们现在不采取长考虑。一个文档可以包含更多的内容,而更多的相关文件,然后再。一个很长的文件很容易用这种方法获得更高的分数。向量模型我们可以解决这个寻找在一个文档的余弦相似度。这种方法背后的理论是一个确切的解释超出了本文的范围,但你可以把它作为种之间的调和平均查询文件中的条款。我做了一个excel文件,因此您可以使用它自己。在文件本身有一个解释。您需要以下数据:查询条件 - 在查询中的每个独立的术语。文档频率 - 谷歌不知道有多少文件包含这个词呢?长期频率-为每个单独的查询词在文档中的频率(添加这个焦点关键字部件由桑德Tama?la的到您的书签,非常有帮助的这部分)下面是一个例子,我实际使用的模型。网站设计排名“fiets kopen”,这是荷兰人为“买自行车”的页面上。问题是,错误的网页(主页)的查询排名 的公式,包括前面提到的逆文档频率(IDF)。为此,我们需要谷歌的索引中的文件的总数。对于这一点,我们假设 N = 10.4十亿。的解释如下表:TF =术语频率DF =文件频率以色列国防军 =逆文档频率重量,Q =体重长期在查询重量,D =体重项文件产品 Q * =重量,重量,D分数 =乘积的总和的主要页面,该页面排名:术语询问文件产品 TFDF以色列国防军重量,QTFWF重量,D Fiets125.500.0003.6104931593.610493159214410.707112.55302Kopen1118.000.0002.9451513322.9452214410.707112.08258 分数:4.6356我想排名的页面:术语询问文件产品 TFDF以色列国防军重量,QTFWF重量,D Fiets125.500.0003.6104931593.610493159224840.617822.23063Kopen1118.000.0002.9451513322.945151332287840.786312.31584 分数:4.54647虽然第二个文件包含查询词的次数多了,得分低的文档的查询(越高越好)。这是因为查询条件的缺乏之间的平衡。这样计算之后,我改变了页面上的文本,增加了“fietsen”,“kopen”,这是一个更通用的术语在搜索引擎和重量减轻减少使用。这改变了得分如下:术语询问文件产品 TFDF以色列国防军重量,QTFWF重量,D Fiets125.500.0003.6104931593.610493159287840.786312.83897Kopen1118.000.0002.9451513322.945151332224840.617821.81960 分数:4.6586几天后,谷歌抓取的页面和更改的文档,我开始的长期排名。我们可以得出这样的结论的时候,你用一个名词的数不一定是重要的。你想排名的条款,重要的是要找到合适的平衡。加快的过程中,要执行此计算为每个文档满足搜索查询,花费了大量的处理能力。您可以通过添加一些静态值,以确定哪些文件你想计算得分来解决这个问题。例如,PageRank是一个良好的静态值。当您第一次计算分数查询相匹配的,并具有高的PageRank的网页,你有一个很好的变化,找到一些文件,这将结束在排名前10位的结果呢。另一种可能性是使用冠军列表。每学期只需要?文件与这个词的最好成绩。如果您有一个多任期查询,您可以相交这些列表中找到文件包含所有查询词,可能有一个高分。如果有太少的文件包含的所有条款,您就可以在所有文件中搜索。所以你不会只找到最好的载体得分排名,你必须有静分数的权利。相关反馈的相关反馈分配更多或更少的值在查询中的一个名词,根据相关的文件。相关反馈,搜索引擎可以在不告知用户的情况下更改用户查询。这里的第一个步骤是确定文档是否是相关的或不。虽然有搜索引擎,在这里你可以指定如果结果或文档相关或不,谷歌已经没有这样的功能很长一段时间。他们的第一次尝试是在搜索结果中添加喜爱的明星。现在,他们正试图用Google+的按钮。如果有足够多的人开始按动按钮,在一个确定的结果,谷歌将开始考虑该查询相关的文件。另一种方法是在当前的网页排名。这些将被视为有关。这种方法的危险性是主题漂移。如果你正在寻找为bitterballen和炸丸子,和最好的网页排名都在阿姆斯特丹的小吃店,是要分配到阿姆斯特丹的价值,并最终在阿姆斯特丹的结果小吃店的危险。谷歌的另一种方式是使用的是简单地使用数据挖掘。他们也可以在不同的网页的点击率。在该网页的点击率较高,并有较低的跳出率,平均可以被认为是有关。页具有非常高的跳出率是不相关的。我们如何使用这些数据的查询词的权重调整的一个例子是Rochio的反馈式。它归结为调整值每学期在查询中可能会添加额外的查询条件。这是由于,其计算公式如下: 下表是这个公式的可视化表示。假设我们用以下值: 查询字词:+1()的 有关条款:+1(测试版) 相关条款:-0.5(伽马)我们有下面的查询:的“croquets和bitterballen”文件下列文件中的相关情况如下:DOC1:相关DOC2:相关Doc3:不相关条款QDOC1DOC2Doc3重量新的查询croquets11101 + 1 - 0 = 2和11011 + 0.5 - 0.5 = 1bitterballen10001 + 0 - 0 = 1咖啡厅00100 + 0.5 - 0 = 0.5阿姆斯特丹00010 + 0 - 0.5 = -0.5 = 0新的查询是如下:(2)和(1)croquets bitterballen(1)咖啡(0.5)每学期的权重值,它会在你的查询。在我们的向量计算,我们可以使用这些权重。虽然长期阿姆斯特丹的得分为-0.5,调整负的值返回到0。在这种方式中,我们不排除从搜索结果中。虽然咖啡厅并没有出现在原始查询,添加和重量被赋予了新的查询。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论