课件:郑州天伦医院Seo关健词分析教程.ppt_第1页
课件:郑州天伦医院Seo关健词分析教程.ppt_第2页
课件:郑州天伦医院Seo关健词分析教程.ppt_第3页
课件:郑州天伦医院Seo关健词分析教程.ppt_第4页
课件:郑州天伦医院Seo关健词分析教程.ppt_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

搜索引擎蜘蛛和网页的三大问题,陈前进,一、搜索引擎蜘蛛能不能找到你的网页 二、搜索引擎蜘蛛找到网页后能不能抓 取网页 三、搜索引擎蜘蛛抓取网页之后,能不 能提炼有用信息,一、搜索引擎蜘蛛能不能找到你的网页 搜索引擎喜欢什么样的网站 网站内容的相关性 网站及网页的权威性 网站的实用性 搜索引擎蜘蛛算法与蜘蛛程序构架 网络蜘蛛基本原理 网站与网络蜘蛛 网络蜘蛛对内容提取 网络蜘蛛的程序构架,网站内容的相关性,网站的权威性,大部份是由外链所决定的。高质量的外链越多,网站的权威性就越高。另外,域名的注册历史,网站的稳定性,隐私政策等一些细节,也会影响到权威性。 外链对网站的权威性是有选择性的,也就是说,来自相关内容网站的链接对提高链权威性帮助最大。比如,在医院博客上加一个链接到某个钢材网站,很明显,医院在钢材方面没有权威性。 网站的权威性不能被做网站的人完全控制,想要作弊,比较费时费力,群发等手段还容易被查出来,但是如果花钱花时间,还是可以得到人为的外链,所以现在搜索引擎开始考虑网站的实用性。,网站及网页的权威性,即对用户来说,你的网站到底有多大用处?用户是不是喜欢你的网站? 如果用户在你的网站花的时间多,游览页数多,在不同的时间经常来看你的网站,加入了游览器书签,并且在不同的网上书签站加了评论,这些都可以帮助搜索引擎理解你的网站对用户的实用性。 搜索引擎的工具条可以帮助收集这类信息,也可以利用社会网络收集信息。,网站的实用性,网络蜘蛛基本原理,网络蜘蛛 即 web spider是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。,对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的. 从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。 这其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页面的平均大小为20K计算(包含图片),100亿网页的容量是100【词语过滤功能】字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要340台机器不停的下载一年时间,才能把所有网页下载完毕)。 同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。,在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。,由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2层,I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。 网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。,网站与网络蜘蛛,网络蜘蛛需要抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为Useragent,用于标识此网络蜘蛛的身份: Google网络蜘蛛的标识为GoogleBot, Baidu网络蜘蛛的标识为BaiDuSpider, Yahoo网络蜘蛛的标识为Inktomi Slurp。 如果在网站上有访问日志记录(robots.txt),网站管理员就能知道,哪些搜索引擎的网络蜘蛛过来过,什么时候过来的,以及读了多少数据等等。如果网站管理员发现某个蜘蛛有问题,就通过其标识来和其所有者联系。,现在一般的网站都希望搜索引擎能更全面的抓取自己网站的网页,因为这样可以让更多的访问者能通过搜索引擎找到此网站。为了让本网站的网页更全面被抓取到,网站管理员可以建立一个网站地图,即Site Map。许多网络蜘蛛会把sitemap.htm文件作为一个网站网页爬取的入口,网站管理员可以把网站内部所有网页的链接放在这个文件里面,那么网络蜘蛛可以很方便的把整个网站抓取下来,避免遗漏某些网页,也会减小对网站服务器的负担。(Google专门为网站管理员提供了XML的Sitemap),网络蜘蛛对内容提取,搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式. 包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。 这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网络蜘蛛正确跟踪其它链接有一定影响。 对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口 因为现在的主流网站大多采用的是HTML语言写的,这里大概说一下HTML。,HTML有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式,如:、等,提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。 但在识别这些信息的时候,需要同步记录许多版式信息,例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等,这些信息有助于计算单词在网页中的重要程度。 同时,对于HTML网页来说,除了标题和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候,也需要过滤这些无用的链接。 例如某个网站有“医院介绍”频道,因为导航条在网站内每个网页都有,若不过滤导航条链接,在搜索“产品介绍”的时候,则网站内每个网页都会搜索到,无疑会带来大量垃圾信息。,那么如何用ASP构建网络蜘蛛呢?答案是:Internet transfer control (ITC信息转移控制)。这个由 微软提供的控件,将使你能够通过ASP程序访问Internet资源。你可以用ITC搜寻Web页面,访问FTP服务器,甚 至可以发送邮件标题。 有几个缺陷必须先说明一下。第一,ASP无权访问Windows的注册表,这就使某些ITC正常存储的常量和数 值不可用。通常你可以通过设置ITC为“不使用默认值”来解决这个问题,这就需要你在运行过程中指明每一 次的值。 另一个更严重的问题是关于许可证书的。由于ASP不具备调用License Manager(一项Windows中的功 能,可以保证组件和控件的合法使用)的功能,那么当License Manager检查当前组件的密钥密码,并将 其与Windows注册表进行比较后,如果发现它们不同,该组件将不会工作。因此,当你想把ITC配置到另一台没 有所需密钥的计算机上时,将导致ITC崩溃。解决的办法之一是将ITC捆绑到另一个VB组件中,由VB组件复制 ITC的路径和工具,从而进行配置。这项工作很麻烦,但不幸的是,它是必不可少的。,用ASP构建网络蜘蛛,举个例子: 你可以用下面的编码建立ITC: set Inet1 = CreateObject(“InetCtls.Inet”)(创建对象) Itocol(协议) = 4 HTTP Inet1.accesstype (数据字节)= 1 Direct connection to internet(直接连接到网络) Inet1.requesttimeout = 60 in seconds(在60秒内) Inet1.URL = strURL strHTML = Inet1.OpenURL grab HTML page(抓取网页) 现在strHTML保存着strURL指向的整个页面的HTML内容。要建立一个常规网络蜘蛛,你现在只需要调用 instr() 功能来看看你寻找的串是否在当前位置即可。你也可以按照href标记寻找, page解析当前的 URL,然后把它设置到Internet 控件的属性中去,接着再继续打开另一个页面。用来查看所有链接的最 好方法是使用递归。 要注意的是,尽管这种方法很易于实行,却不是非常准确和强大。今天的许多搜索引擎都可以进行额外的 逻辑检查,例如计算一个页面中某一短语重复的次数,相关字词的近似程度等,有些甚至可以用来判断所搜寻 的语段与上下文的关系 VB语言及特定网络蜘蛛暂略,网站设计与SEO 不到不得已,不要重新设计网站 网站URL千万不要改动 增加新网页速度不要太快 网页的优化速度也要控制 301转向 内容与SEO 让网民找到能解决问题的信息 建立良好的信誉和权威地位 原创与链接 内容与SEO的关连 域名与SEO 来自其它信任度高的网站链接 域名历史 网站内容是否原创及更新情况 其它域名细节 主机与SEO 主机故障可能造成无法索引 主机设置错误会影响搜索引擎蜘蛛抓取 主机的地理位置会影响网页排名在不同国家的表现,二、搜索引擎蜘蛛找到网页后能不能抓取网页,网站设计与SEO 网站在筹划阶段或重建的时候都要注意以下几个问题,一定要SEO角度考虑 1不到不得已,不要重新设计网站,不要对网站进行大面积改动,可 以进行慢慢的局部优化。 2网站URL千万不要改动。这个是网站重新设计中最重要的问题。最 好不要改动网站原有的URL,也就是不要动目录名和划文件名。否 则新的URL会被当做新的网页,整个网站的网页收录就会下降很 多,外链也会失去很多。 3增加新网页速度不要太快,要增加高质量的,对用户有用的内容是 关健,但也要注意增加栏目和网页的速度也要进行适当的控制。 4网页的优化速度也要控制。最好不要突然之间把每个网页都进行 SEO。比如突然之间网页标题、链接文字,使的关健词过度优化。 把需要优化的地方要慢慢的加进去。 5301转向,如果改动页面,就把URL做301转到新的URL,301转向 对已有的链接传递PR也是有好处的。,内容与SEO 1 所有的网站运营者、设计师和网络营销人员,都应该首先理解一个 事实,那就是你不是搜索引擎的客户,搜索引擎不会义务给你带来 流量。到搜索引擎上去搜索信息的那些用户,搜索引擎的宗旨就是 为他们服务,让他们满意。 这些用户一般并不是在找产品和服务,更没有找你的公司,他 们找的是能解决他们自身问题的信息。 网站向客户销售产品和服务的最好过程,也就是给访客提供解 决其问题的有用问题,在访问游览你的网站过程中,建立信誉,顺 便让他发现你的产品,当访客需要你的时候,他就有可能买你的产 品和服务。 2 有了大量内容,你才能够在客户的心里建立良好的信誉和权威地位。 电子商务和真实的世界的最大区别是:网站是冷冰冰的。看不 见摸不到。你没办法通过商店的规模、装修,销售人员的笑脸来建 立信任,你就必须通过其它方式消除信任障碍。 3 有了大量的内容,其它站长才行自动链接到你的网站。所以在 优化一个网站的时候,最重要的不是关健词的密度,不是网页标 签,更不是你网站好不好看,最重要的是有大量原创有价值的内容。 只有在在这个基础上才能谈到其它具体的技巧。,那如果有好的内容就行了,那SEO还需要么? 光有网站的内容而没有技术性优化,比如说网页不与搜索引擎友好,那么可能你的网上压根就不被收录。更别谈排名了。所以内容,网页优化,链接都是SEO的必要条件,但都不是充分的条件。所以在网站设计与优化过程中,网站设计人员对任何一个无素都不会很执着。发展一个网站才是一个更费时费力的工作。 前两年:内容SEO 20% 页面优化30% 链接50% 现 在:内容SEO 40% 页面优化20% 链接40%,域名与SEO 1来自其它信任度高的网站链接 Google关于TrustRank(信任级别)的最初说法。人工选出信任度最高的一批种子网站。这是一级信任网站-二级-三级。离核心越远,信任度越低。这有点像PR值。都是以链接为标志,最核心的被信任网站只有100个,它们是人工选出来的,所以域名信任度并不是取决于链接的数目,而是链接的质量。 2域名历史 这包括最初注册时间,以及第一次被GOOGLE抓取到的页面时间。很显然,域名注册的越早,信任度越高。 3网站内容是否原创及更新情况 最核心的100多个最信任网站是被选出来的,我们可以想像对内容原创性要求一定是占很大比重,而且是要经常更新。算法可以被糊弄,人可没办法糊弄,所以有些采集站会被看作是被信任提高的网站,除了以上三个以外,还有一些细节: 网站要有隐私权政策。 提供完整的联系方法,包括电话和通讯地址。 没有大量高质量内容之前,至少要把网站做到40-50页以上。 链向几个同行业内权威网站。 把域名多注册几年,而不是每年续费。 使用独立IP地址 网站上没有死链,404错误 服务器反应快速。 网页HTML代码经过W3C验证,至少减少严重代码错误。,主机与SEO 1主机故障可能造成无法索引 搜索引擎蜘蛛来访你的网站时,如果主机死了,无法打开网页的话,搜索引擎并不会马上反这一页删除,过一段时间他会再来,只要你主机不是半个月死机,一般问题不大,如果死机一两天,我们就要考虑是不是要换地方了。 2主机设置错误会影响搜索引擎蜘蛛抓取 有时间能正常打开网页和邮件并不意味着主机设置就是完全

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论