Google 爬虫如何抓取 Javascript 的?.doc_第1页
Google 爬虫如何抓取 Javascript 的?.doc_第2页
Google 爬虫如何抓取 Javascript 的?.doc_第3页
Google 爬虫如何抓取 Javascript 的?.doc_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

标准化英文推广,标准化英文SEO,亿推标准化英文推广,亿推标准化英文SEO,亿推英文软文撰写,亿推英文推广,TuiGuang123深圳市亿推信息技术有限公司是国内知名的英文搜索引擎排名、英文SEO、英文新闻稿发布,外贸营销推广机构。亿推依托强大的海外网络资源和合作伙伴网络,提供标准化的英文搜索推广解决方案,帮助企业或品牌拓展知名度、美誉度。我们测试了谷歌爬虫是如何抓取JS,下面就是我们从中学习到的知识。认为Gooe不能处理JS?再想想吧。eeee分享了一系列测试结果,他和他同事测试了什么类型的JS功能会被Gooe抓取和收录。 “英文SEO亿推”概述.我们进行了一系列测试,已证实Gooe能以多种方式执行和收录JS。我们也确认Gooe能渲染整个页面并读取DOM,由此能收录动态生成的内容。.DOM中的“英文SEO亿推”信号(页面标题、e描述、o标签、eoos标签等)都被关注到。动态插入DOM的内容都也能被抓取和收录。此外,在某些案例中,DOM甚至可能比HTML源码语句更优先。虽然这需要做更多的工作,但这是我们好几个测试中的一个。引言:Gooe执行JS&读取DOM早在年,Gooe就成功抓取JS,但很可能局限于某种方式。而在今天,可以明确的是,Gooe不仅能制定出他们抓取和收录的JS类型,而且在渲染整个e页面上取得了显著进步(特别在最近的到个月)。在Mee,我们的“英文SEO亿推”技术团队想更好地理解谷歌爬虫能抓取和收录什么类型的JSs事件。经过研究,我们发现令人瞠目的结果,并已证实Gooe不仅能执行各种JS事件,而且能收录动态生成的内容。怎么样做到的?Gooe能读取DOM。DOM是什么?很多搞“英文SEO亿推”的都不理解什么是DoeOeMoe(DOM)。 “英文SEO亿推”当浏览器请求页面时会发生什么,而DOM又是如何参与进来的。当用于e浏览器,DOM本质上是一个应用程序的接口,或PI,用于标记和构造数据(如HTML和XML)。该接口允许e浏览器将它们进行组合而构成文档。DOM也定义了如何对结构进行获取和操作。虽然DOM是与语言无关的PI(不是捆绑在特定编程语言或库),但它普遍应用于e应用程序的JS和动态内容。DOM代表了接口,或“桥梁”,将e页面与编程语言连接起来。解析HTML和执行JS的结果就是DOM。e页面的内容不(不仅)是源码,是DOM。这使它变得非常重要。 “英文SEO亿推”JS是如何通过DOM接口工作的。我们兴奋地发现Gooe能够读取DOM,并能解析信号和动态插入的内容,例如e标签、页面文本、e标签和e注解(如:e=o)。可阅读其中的完整细节。关于这一系列测试、及结果因为想知道什么样的JS功能会被抓取和收录,我们单独对谷歌爬虫创建一系列测试。通过创建控件,确保URL活动能被独立理解。下面,让我们详细划分出一些有趣的测试结果。它们被分为类:JS重定向JS链接动态插入内容动态插入Me数据和页面元素一个带有e=“ooo”的重要例子 “英文SEO亿推”例子:一个用来测试谷歌爬虫理解JS能力的页面。.JS重定向我们首先测试了常见的JS重定向,用不同方式表示的URL会有什么样结果呢?我们选择了o.oo对象进行两个测试:Tes以绝对路径URL调用o.oo,而TesB使用相对路径。结果:该重定向很快被Gooe跟踪。从收录来看,它们被解释为-最终状态的URL取代了Gooe收录里的重定向URL。在随后的测试中,我们在一个权威网页上,利用完全相同的内容,完成一次利用JS重定向到同一个站点的新页面。而原始URL是排在Gooe热门查询的首页。结果:果然,重定向被Gooe跟踪,而原始页面并没有被收录。而新URL被收录了,并立刻排在相同查询页面内的相同位置。这让我们很惊喜,以排名的角度上看,视乎表明了JS重定向行为(有时)很像永久性的重定向。下次,你的客户想要为他们的网站完成JS重定向移动,你可能不需要回答,或回答:“请不要”。因为这似乎有一个转让排名信号的关系。支持这一结论是引用了Gooe指南:使用JS为用户进行重定向,可能是一个合法的做法。例如,如果你将已登录用户重定向到一个内部页面,你可以使用JS完成这一操作。当仔细检查JS或其他重定向方法时,以确保你的站点遵循我们的指南,并考虑到其意图。记住重定向跳转到你网站下是最好的,但如果你没有权限访问你网站服务器,你可以为此使用JS重定向。.JS链接我们用多种编码方式测试了不同类型的JS链接。我们测试下拉菜单的链接。历史上的搜素引擎一直不能跟踪这类型的链接。我们想确定oe事件处理器是否会被跟踪。重要的是,这只是执行特定的类型,而我们需要是:其它改动后的影响,而不像上面JS重定向的强制操作。 “英文SEO亿推”例子:GooeWo页面的语言选择下拉菜单。结果:链接被完整地抓取和跟踪。我们也测试了常见的JS链接。下面是最常见类型的JS链接,而传统的“英文SEO亿推”则推荐纯文本。这些测试包括JS链接代码:作用于外部e键-值对(VP),但在一个标签内(“oC”)作用e内部VP(“s:o.oo”)作用于标签外部,但在e内调用VP(“s:oe()”)结果:链接被完整抓取和跟踪。我们下一个测试是更进一步地测试事件处理器,如上面测试的oe。具体地说,我们希望利用鼠标移动的事件处理器,然后隐藏URL变量,该变量只在事件处理函数(在该案例是ooseo和ooseo)被触发时执行。结果:链接被完整抓取和跟踪。构造链接:我们知道Gooe能执行JS,但想确认它们是否能读取代码里的变量。所以在该测试中,我们连接能构造URL字符串的字符。结果:链接被完整抓取和跟踪。.动态插入内容很明显,这些都是重点:动态插入文本、图像、链接和导航。优质的文本内容对搜索引擎理解网页主题和内容是至关重要的。在这个动态网站的时代,它的重要性是无需质疑的。这些测试,设计出来是为了检查在两个不同场景下动态插入文本的结果。.测试搜索引擎能否统计动态插入的文本,而文本是来自页面HTML源码内的。.测试搜索引擎能否统计动态插入的文本,而文本是来自页面HTML源码外的(在一个外部JS文件内)。结果:在两个案例中,文本都能被抓取和收录,并且页面是根据该内容进行排名。爽!为了了解更多相关信息,我们测试了一个通过JS编写的客户端全局导航,而导航里的链接都是通过oe.eI函数插入,并且确定它们能被完全抓取和跟踪。应该指出的是:Gooe能解释使用JS框架和HTMLHsoPI(sSe)构建的网站,能渲染和收录它,并能像传统静态网页一样排名。这就是不禁止谷歌爬虫获取外部文件和JS的重要性,而且这也许是Gooe正在从支持的“英文SEO亿推”指南中移除它的原因。当你能简单地渲染整个页面时候,谁还需要HTML快照呢?经过测试后发现,不管什么类型的内容,都是同样的结果。例如,图像加载到DOM后会被抓取和收录。我们甚至做了这样的一个测试:通过动态生成-o.o结构数据来制作e(面包屑导航),并将其插入DOM。结果呢?成功插入后的面包屑出现在搜索结果中了(seeeesse)。值得注意的是,Gooe现在推荐用JSON-LD标记形成结构化数据。我敢肯定将来会出现更多基于此的东西。.动态插入Me数据&页面元素我们将各种对“英文SEO亿推”至关重要的标签动态插入到DOM:Te元素Me描述MeoosCos结果:在所有案例中,标签都能被抓取,其表现就像HTML源码里的元素一样。一个有趣的补充实验帮助我们理解优先顺序。当存在冲突信号时,哪一个会胜出呢?如果源码里有oe、ooo标签,而DOM里有oe、oo标签的话,将会发生什么呢?在这协议里,HTTP-oos响应头部的行为如何作为另一个变量?这将是未来综合测试的一部分。然而,我们的测试显示:当冲突时,Gooe会无视源码里的标签,而支持DOM。.一个带有e=“ooo”的重要例子我们想测试Gooe如何应对出现在源码和DOM的链路级别的ooo属性。我们也因此创建了一个没有应用ooo的控件。 “英文SEO亿推”对于ooo,我们分别单独测试源码sDOM生成的注解。源码里的ooo正如我们所期待的那样运行(链接没被跟踪)。而DOM里的ooo却失效(链接被跟踪,并且页面被收录)。为什么?因为在DOM里修改e元素的操作发生得太晚了:Gooe在执行添加e=”ooo”的JS函数前,已准备好抓取链接和队列等待着URL。然而,如果将带有e=”ooo”的元素插入到DOM,ooo和链接因在同一时刻插入,所以会被跟踪。结果从历史角度上看,各种“英文SEO亿推”推荐是在任何可能的时候,要尽可能专注纯文本内容。而动态生成内容、JX和JS链接会损害主流搜索引擎的“英文SEO亿推”。显然,这对Gooe不再是问题。JS链接以类似普通的HTML链接方式运行(这只是表面,而我们不知道幕后程序进行了什么操作)。JS重定向都会以类似于重定向方式对待。动态插入内容,甚至e标签,如eo注解,无论在HTML源码,还是在最初HTML被解析后触发JS生成DOM,都以同等方式对待。Gooe视乎能完全渲染页面和理解DOM,而不仅是源码。实在是令人可不思议!(记得允许谷歌爬虫获

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论