付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
搜索引擎原理与应用计算机与信息科学学院陳自利2014年9月29日2012级电子商务第2章搜索引擎工作原理——目录——搜索引擎发展历史搜索引擎分类搜索引擎工作原理搜索引擎特色算法常用搜索引擎介绍高级搜索指令【补充】一.搜索引擎发展历史1990年,首个检索FTP服务器信息的搜索引擎诞生-Archie;1993年,逐渐出现一些可以自动检索网页的搜索引擎,如:Overture等;1994年,雅虎诞生;1998年前后,以Google为代表的全文搜索引擎开始盛行。二.搜索引擎分类全文搜索引擎
目录搜索引擎
元搜索引擎集合式搜索引擎免费链接列表
1.全文搜索引擎利用蜘蛛程序在互联网上检索信息,建立索引数据库,再根据用户需求返回相应的内容;全文搜索引擎领先者:Google,雅虎。
也称为人工分类目录
,是指通过人工寻找、分类而建立网站数据库的搜索引擎;目录搜索引擎的代表者有雅虎目录、ODP等。
2.目录搜索引擎3.元搜索引擎元搜索引擎在接受用户查询请求后,同时在其他多个搜索引擎上进行搜索,并将结果返回给用户。在返回结果的排序上主要有两种:按照原搜索结果进行排序。按照自己定义的规则排序。元搜索引擎
,实际上就是中转性的搜索引擎,一般情况下没有独立的索引数据库;类似元搜索引擎,不同之处在于,它不同时调用多个搜索引擎,而是只让用户从提供的搜索引擎中选择一个进行搜索。
4.集合式搜索引擎三.搜索引擎工作原理页面抓取
搜索引擎通过蜘蛛程序在互联网上抓取页面进行存储的过程,为搜索引擎开展后续各项工作提供数据支持。页面分析
对抓取回来的网页进行信息提取处理,包括提取页面的正文信息,并对正文信息进行分词处理,为后续建立关键字索引及关键字倒排序索引提供基础数据。页面排序
搜索引擎结合页面的内外部因素计算出页面与某个关键字的相关程度,从而得到与该关键字相关的页面排序表。关键字查询
搜索引擎接收来自用户的查询请求,并对查询信息进行切词及匹配,再向用户返回相应的页面排序列表。1.页面抓取搜索引擎对网页的抓取,实际上就是在互联网上进行数据采集,是搜索引擎最基础的工作,数据采集的能力直接决定了搜索引擎可提供的信息量以及对互联网的覆盖能力,从而影响搜素引擎查询结果的质量。搜素引擎总是想方设法地提高其数据采集能力。A.页面抓取流程URL是每个页面的入口地址,搜索引擎蜘蛛程序就是通过URL来抓取页面的。搜索引擎从原始的URL列表出发,通过URL抓取并存储原始页面,同时提取原始页面中的URL资源,并加入的URL列表中,如此不断循环,就可以在互联网上获取足够多的页面。网站域名是一个网站的入口。蜘蛛程序通过域名进入网站,就可以展开对整个网站页面的抓取。A.页面抓取流程一个网站要想被搜索引擎收录索引,首先需要加入搜索引擎的域名列表之中。有两种常用的方法加入搜索引擎的域名列表:利用搜索引擎提供的网站登录入口,主动把域名提交给搜索引擎的域名列表。如:百度:360:搜狗:Google/addurl通过与外部网站建立链接,使搜索引擎通过外部网站抓取到我们的网站。B.页面抓取如果把网站页面组成的集合看成一个有向图,则页面抓取就是从指定的页面出发,沿着页面中的链接,按照某种策略对网站中的页面进行遍历。遍历的结果:域名列表页面URL列表存储足够多的原始页面。C
.页面抓取策略或方式页面收录方式是指搜索引擎抓取页面时所使用的策略,目的是在互联网中筛选出更多相对重要的信息。广度优先深度优先大站优先高权重优先暗网抓取用户提交广度优先策略深度优先策略大站优先策略大型网站比小型网站更有可能提供更多有价值的内容;大站优先策略就是对互联网中大型网站的页面进行优先抓取的策略。如何识别大型网站呢?人工整理大型网站种子资源,通过大站发现其他大站;对已经索引的网站进行分析,发现内同丰富、规模较大、信息更新频繁的网站。高权重优先策略权重,是搜索引擎对网页重要性的一种评定,也即对网页的信息价值的一种认定;权重优先策略就是对URL列表中高权重网页进行优先抓取的一种策略。网页权重高低往往由多种因素决定。暗网抓取策略暗网:也称为深网、不可见网、隐藏网,是指那些存储在网络数据库里、不能通过超级链接访问而需要通过动态网页技术或者人工查询访问的资源集合,不属于那些可以被标准搜索引擎索引的信息。组合查询:机票预订文本查询:站内搜索用户提交策略搜索引擎允许网站管理员主动提交页面(如:sitemap方式提交)。网站管理员只需把网站中页面的URL按照指定的格式制作成文件,提交给搜索引擎,搜索引擎就可以通过该文件对网站中的页面进行抓取和更新。这种由网站管理员主动提交页面的方式大大提高了搜索引擎抓取页面的效率,也大大增加了网站页面抓取的数量。如何制作sitemap文件呢?【百度一下】D.如何避免重复性抓取?重复信息主要包括转载内容及镜像内容两大类
。转载页面镜像页面
转载页面转载页面是指那些与原创页面正文内容相同或相近的页面。如何识别转载页面和区别原创页面呢?把网页正文内容分为N个区域并进行比较,如果有M个区域相同或相似,则认为这两个页面互为转载页面。M为搜索引擎的一个阈值。根据页面最后修改的时间、页面权重等因素判断原创页面和转载页面。镜像页面内容完全相同的页面互为镜像页面。
镜像网站狭义上的镜像网站是指内容完全相同的网站。形成镜像网站主要有两种情况:多个域名或IP指向同一服务器的同一个物理目录;整个网站内容被复制到使用不同域名或者IP的服务器上。E.网页更新策略定期抓取
:定期抓取也称为周期性抓取,指搜索引擎周期性地更新网站中全部已收录的页面。增量抓取
增量抓取是通过对已抓取的页面进行定时监控,从而实现对页面的更新及维护。分类定位抓取分类定位抓取是指根据页面的类别或性质而制定相应更新周期的页面监控方式。历史更新策略用户体验策略F.页面存储原始网页
文件类型
文件大小
最后修改时间
IP地址
抓取时间
2.页面分析正文信息提取切词/分词
关键字索引【页面关键字索引】-正向索引
关键字重组【关键字页面索引】-反向索引关键字列表与索引:网页正文信息经过切词处理后,形成与用户查询习惯相符合的关键字列表。建立关键字与页面URL之间的对应关系。形成页面与关键字之间的对应关系。-页面关键字索引。关键字编号网页编号关键字次数位置记录1:11K13A1,A5,A7记录2:21K22A3,A9记录3:31K33A6,A13,A10记录4:41K41A2关键字列表关键字重组:为满足用户的搜索习惯,搜索引擎需要建立以关键字为主索引的一个关键字对应多个页面的关系表,称为关键字反向索引表。为此,需要搜索引擎把所有页面中的关键字进行重组,并建立关键字索引,从而形成一个不重复的关键字列表集合。得到关键字页面反向索引表。3.页面排序在关键字搜索结果中,页面按照与关键字的相关性,由高到低进行排列,并向用户展示。排序时涉及的主要因素:页面相关性
链接权重
用户行为
页面相关性:页面相关性是指页面与用户所查询的关键字间的接近程度。主要决定于:关键字匹配度关键字密度关键字分布关键字所使用的标签。关键字匹配度:页面中是否存在与用户查询关键字相匹配的内容,即页面内容中是否包含用户所查询的关键字。
关键字在页面中出现的次数,即页面中有多少个与用户查询关键字相匹配的关键字。
关键字密度:为了防止网站所有者恶意操纵搜索结果,搜索引擎还用“关键字词频”与“网页总词汇量”的比例来衡量页面中关键字的词频是否合理(即关键字密度值)。
关键字分布:关键字分布,即关键字在页面中出现的位置。可以有效突出页面内容,影响页面权重的标签,称之为权重标签,例如:常见的<b>,<H1>,<font>等。标签权重:页面相关性计算:W(relevance)=W(match)+W(density)+W(position)+W(tag)Weight(relevance):页面相关性;W(match):关键字匹配值;W(density):关键字密度值;W(position):关键字分布值;W(tag):标签权重值。
例子:假设假设某关键字在页面中出现一次,关键字匹配值为10。假设页面中某关键字的密度在50%时,该页面的关键字密度值为20。假设关键字在页面的顶部出现,关键字分布值为50。假设表2-2中是搜索引擎对某些标签权重值的定义。标签名称
标签权重值
<b>10<H1>50例子:某页面的内容如下:【关键词:搜索引擎优化】<html><body><b>搜索引擎优化</b><h1>搜索引擎</h1>……</body></html>W(relevance)=10+20+50+10
链接权重:链接主要分内部链接及外部链接两种,某一页面得到的链接越多,从一定程度上反映了该页面越重要,链接权重值就越高。内部链接:内部链接是指网站内部页面间的链接关系,体现了网站内部对某个页面的认可程度。理论上,页面获得的链接质量越高、数量越多,其重要性也相对越大。外部链接指本站以外的页面间的链接关系。由于外部链接的不可操控性,外部链接在整个链接关系中占着更大的权重比例,是决定整个页面权重最重要的因素。
默认权重分配:新增页面即使内容质量很高,得到的链接数也是有限的。在这种情况下,搜索引擎需要对这些页面的链接权重值按照相应方案进行补偿,使得新页面能够得到更合理的链接权重值。
用户行为:根据用户行为改进搜索结果质量。页面排序公式:W(page)=W(relevance)+W(link)+W(user)W(page)是页面权重值;W(relevance)是页面相关性值;W(link)是链接权重值;W(user)是用户行为得分。
4.关键字查询:查询机制:
在用户发出查询请求前就完成被查询关键字的反向索引、相关页面权重计算等工作;为那些查询最频繁的关键字对应的排序列表建立缓存机制。
去除【停止词】。用户行为:搜索:搜索是用户获取信息的途径;点击:点击是用户找到所需信息后的表现,反映了用户对信息的关注。
搜索:搜索是用户获取信息的途径,是搜索引擎最基本的功能,通过对关键字被搜索的次数的分析可以发现新词汇及进一步了解用户的搜索习惯。
点击:点击是用户获取到所需信息后的表现,反映了用户对信息的关注,用户对链接的点击也是衡量页面相关性的重要因素之一,是衡量页面相关性的一个重要补充条件。搜索点击日志:搜索用户的IP地址、搜索的关键词、搜索时间、地理位置以及用户点击了哪些结果页面等相关信息,形成了用户的搜索点击日志。这些日志文件中的数据,对搜索引擎判断搜索结果质量、调整搜索算法、预测搜索趋势等都具有非常重要的意义。【大数据】
缓存机制:为那些查询最频繁的关键字对应的页面排序列表建立缓存机制,以实现快速响应用户查询请求。四.搜索引擎特色算法TrustRank算法
TrustRank(信任指数),是基于网页与信任网页之间的链接关系及深度来计算网页间信任程度的算法。目的是从互联网中筛选出质量相对较高的网页。TrustRank算法的主要工作流程:可信任网页的筛选:人工方式确定可信任网页集(网页白名单),然后通过相应的算法进行过滤。网页信任值的传播与计算:可信任网页外出链接数量网页与可信任网页的链接深度。四.搜索引擎特色算法BadRank算法
BadRank算法基于如下假设:如果一个网页与一个不可信任或具有作弊行为的网页之间存在链接关系,那么该网页也可能存在作弊行为。其主要目的是从互联网中筛选出质量低下的网页。BadRank算法的主要工作原理:首先确定一批不可信任的网页集合(网页黑名单),再通过网页与不可信任网页之间的链接关系及链接距离计算出网页的不信任值,从而确定某个网页是否为不可信任网页。四.搜索引擎特色算法百度绿萝算法
百度绿萝算法是专门针对垃圾链接发布的算法。百度绿萝算法1.0:主要针对超链接中介、出卖链接网站及购买链接网站,是首次明确禁止链接购买行为。百度绿萝算法2.0:主要针对软文发布平台,包括软文发布网站及软文受益网站。建议采取以下措施:停止购买行为,不管是文本链接的购买还是软文链接。清理已购买的链接利用百度管理员工具的拒绝外链管理功能,对以前发布软文的站点进行链接拒绝。四.搜索引擎特色算法百度绿萝算法
如果网站存在百度绿萝算法禁止的行为,建议采取以下措施:停止购买行为,不管是文本链接的购买还是软文链接。清理已购买的链接。利用百度管理员工具的拒绝外链管理功能,对以前发布软文的站点进行链接拒绝。停止发布外链行为,包括论坛、博客等等。五.常用搜索引擎介绍Google起源于斯坦福大学BackRub项目,1998年更名为Google并成立公司进行运作。是目前最大的搜索引擎,先进的算法被争相效仿。特色:十分重视链接关系。对于链接的质量、数量及相关方面的分析技术在业界更是遥遥领先。对待新网站非常严格,只有同时满足多个条件,才能参与排名竞争【沙盒效应】。成熟的Spam检测算法,对于一些常见的作弊手段(伪装、堆砌关键字等)、垃圾信息,可以轻易识别。五.常用搜索引擎介绍百度
中文搜索引擎的统治者,占有绝对的市场份额。特点:在百度中,内部因素和外部因素在影响页面权重方面具有同等重要的地位,差距非常小。对待新网站比较宽松,造成搜索结果中充斥着大量的垃圾信息,影响用户的体验。也非常重视链接关系,但是,不太重视链接关系中网站间的主题相关性。百度对搜索结果的人工干预非常严重。五.常用搜索引擎介绍搜狗
搜狐公司2004年推出的互动式搜索引擎。2013年与腾讯的搜搜合并。搜狗掌门人-王小川
。【王小川简介】360搜索借助360浏览器,推出的360搜索引擎。掌门人-周鸿祎。【周鸿祎简介】六、高级搜索指令【补】“”【双引号】:精确匹配符。-【减号】:表示搜索不包含减号后面的词的页面。注意,在使用时,减号前面必须是空格,减号后面必须没有空格。*【星号】:通配符。百度不支持。Inurl:用于搜索查询词出现在URL中的页面。支持中英文。inanchor:查询的结果是导入链接锚文字中包含搜索词的页面。百度不支持。Intitle:返回页面title中包含关键词的页面。Title是页面优化的重要因素。使用Title指令找到的页面,才是更准确的竞争页面。六、高级搜索指令【补】Allintitle:搜索返回的是页面标题中包含多组关键词的文件或页面。如:allintitle:SEO搜索引擎优化,相当于intitle:SEOintitle:搜索引擎优化。Allinurl:类似allintitle。Filetype:用户搜索特定的文件格式。百度支持的文件格式:pdf、doc、xls、PPT、rtf、all。其中,all表示搜索百度所有支持的文件类型。如:filetype:p
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- DB/T 24-2025震例总结规范
- 康复护理学评估的康复挑战
- 神经外科症状护理护理未来发展
- 2026年碳普惠减排量300吨交易落地崇明:从处罚到修复的责任闭环
- 2026年湖北随州市高三二模数学试卷答案详解(精校打印版)
- 2025年前台服务规范模拟题
- 2026年县域商业体系建设三年行动:农村电商高质量发展与物流下沉
- 2026年生命体征监测仪适老化配置与数据反馈要求
- 溺水急救的常用药物与使用
- 2026年手机本地运行DeepSeek豆包Kimi模型适配优化指南
- 2026年及未来5年中国铍行业市场全景监测及投资战略咨询报告
- 2026年辽宁大连市高职单招职业适应性测试试题题库(答案+解析)
- 中小学戏剧表演剧本《茶馆》第一幕
- 安全三类人员教育培训课件
- 湿巾工厂安全培训
- 核电行业防造假管理制度(3篇)
- 鼻咽癌护理个案
- 卡皮巴拉介绍
- 2025食品广告元宇宙营销场景构建与虚拟技术应用研究报告
- 中小学课程顾问培训
- 期货投资分析报告范文(常用版)3
评论
0/150
提交评论