第二章 了解搜索引擎_第1页
第二章 了解搜索引擎_第2页
第二章 了解搜索引擎_第3页
第二章 了解搜索引擎_第4页
第二章 了解搜索引擎_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

广州大学华软软件学院 网络技术系 搜索引擎优化 NB3004 1 第二章了解搜索引擎 搜索引擎原理 2 一 搜索引擎发展简史 最早现代意义上的搜索引擎出现于1994年7月 同年4月 斯坦福 Stanford 大学的两名博士生 DavidFilo和美籍华人杨致远 GerryYang 共同创办了超级目录索引Yahoo 并成功地使搜索引擎的概念深入人心 随着互联网规模的急剧膨胀 现在搜索引擎之间开始出现了分工协作 并有了专业的搜索引擎技术和搜索数据库服务提供商 国外的Inktomi 已被Yahoo收购 它本身并不是直接面向用户的搜索引擎 但向包括Overture 原GoTo 已被Yahoo收购 LookSmart MSN HotBot等在内的其他搜索引擎提供全文网页搜索服务 国内的百度也属于这一类 搜狐和新浪用的就是它的技术 因此从这个意义上说 它们是搜索引擎的搜索引擎 3 二 搜索引擎的分类 搜索引擎 获得网站网页资料 能够建立数据库并提供查询的系统 按照工作原理的不同 可以把它们分为两个基本类别 全文搜索引擎分类目录物联网实验室 4 1 全文搜索引擎 全文搜索引擎的数据库是依靠一个叫 网络机器人 Spider 或叫 网络蜘蛛 crawlers 的软件 通过网络上的各种链接自动获取大量网页信息内容 并按以定的规则分析整理形成的 Google 百度都是比较典型的全文搜索引擎系统 5 2 分类目录 分类目录则是通过人工的方式收集整理网站资料形成数据库的 如雅虎中国以及国内的搜狐 新浪 网易分类目录 另外 在网上的一些导航站点 也可以归属为原始的分类目录 比如 网址之家 6 3 两者比较 全文搜索引擎因为依靠软件进行 所以数据库的容量非常庞大 但是 它的查询结果往往不够准确 分类目录依靠人工收集和整理网站 能够提供更为准确的查询结果 但收集的内容却非常有限 为了取长补短 现在的很多搜索引擎 都同时提供这两类查询 一般对全文搜索引擎的查询称为搜索 所有网站 或 全部网站 比如Google的全文搜索 7 4 两者整合 元搜索引擎 METASearchEngine 一般没有自己网络机器人及数据库 它们的搜索结果是通过调用 控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示 如 搜魅网 someta 集成搜索引擎 All in OneSearchPage 通过网络技术 在一个网页上链接很多个独立搜索引擎 查询时 点选或指定搜索引擎 一次输入 多个搜索引擎同时查询 搜索结果由各搜索引擎分别以不同页面显示 比如 8 三 搜索引擎的工作原理 搜索引擎的主要工作 页面收录页面分析页面排序关键字查询 9 1 页面收录 将网站上的内容加入到URL列表 分三步 1 搜索引擎的爬行程序 蜘蛛 发现网站 来到网站上 2 蜘蛛开始对入口页面进行抓取 并存储入口的原始页面 包含页面的抓取时间 URL 最后修改时间等 存储原始页面的目的是为了下次到来比对页面是否有更新 蜘蛛喜欢经常更新的网站 3 提取URL 提取URl包含两个内容 域名URL和内部URL 如 内部URL即网站内部各页面的地址 如 10 2 页面分析 在页面收录中 搜索引擎已经抓取到了网站上的URL 接下来 搜索引擎会对所抓取到的页面内容进行分析 分四步 11 第一步 提取正文信息这里所提取的正文信息除了包含页面内容外 也包含页面的头部标签信息 title keywords descrption 等 第二步 搜索引擎按照机械分词法和统计分词法 将正文信息切分为若干关键字 这些关键字组成了关键字列表 我们大家在搜索引擎里查找内容时往往会输入关键字查找 这里搜索引擎的工作就是按照一定的规则将内容划分为词 以便以后大家搜索 12 第三步 将关键字逐一记录 归类 建立索引 比如 关键字出现的频率我们建议2 8 是最为合理的 那么搜索引擎在给关键字归类时 会认为符合2 8 的关键字是网页的主关键字 从而在接下来的页面排序时给予照顾 第四步 将关键字重新组合 以关键字的形式重新组建一个新的网页 比如 我们刚才在第三步时 A关键字出现了三次 在第四步 我们只记录A关键字1次 在重组后的网页后 A关键字再无重复 13 3 页面排序 当用户在搜索引擎输入关键字进行查询时 搜索引擎便开始了页面排序的的工作 任意输入一个关键字就可以在搜索引擎中找到很多网页 这些网页的先后顺序是怎样产生的 影响页面排序的因素有哪些 关键字 页面相关性 链接权重及用户行为 14 1 关键字 a 关键字匹配度输入关键字进行查询时 搜索引擎首先会去检查网页中是否有该关键字 这是基础条件 b 关键字出现的频率过高或者过低都不好 最恰当的频率一般认为是2 8 左右 c 关键字分布关键字在页面中出现的位置也会影响页面的排序 一般认为页面权重的递减顺序是左上 右上 左 右 左下 右下d 关键字的权重标签权重 可以理解为重要性 权重标签如 等等这些标签使得标签内文字不同于其他文字 搜索引擎会给予相应权重提升 15 2 链接权重 A 内部链接网站内部页面之间的链接关系 一般首页的权重最高 B 外部链接网站与站外页面之间的链接关系 通俗的说法叫做 外链 外链的数量 质量 相关性都会影响页面排序 在页面相关性上 google比baidu更为严格 比如 你的网站是做IT的 结果你去链接了很多机械化工类的网站 这时候搜索引擎会很不喜欢 甚至会认为你恶意添加外部链接 C 默认权重分配搜索引擎将页面被抓取的日期作为一个参考因素 页面在单位时间内获得链接的数量越多 质量越高 则该页面的质量也相对更高 16 3 用户行为 用户对搜索结果的点击行为是衡量页面相关性的因素之一 是完善排序结果 提高排序结果质量的重要补充 17 4 关键字查询 第一步 用户输入关键字进行查询 第二步 搜索引擎接到用户关键字指令 将用户的关键字再次切分 为什么还要切分呢 因用户所输入的关键字可能会和搜索引擎词典里的关键字不符合 这时候搜索引擎会将用户的词再次切分 尤其是长尾关键字 如 用户搜索 林书豪的博客 这个词搜索引擎词典里是没有的 那么这个词会被切分为 林书豪 的 博客 三个词之后再去网页资源中进行匹配 18 第三步 搜索引擎将关键字切分后 进入网页资源中进行匹配 查询合适内容 即 关键字反向索引表 如果网页资源中有对应关键字 则进行页面分析 按照页面权重进行网页排序 如果没有对应关键字 则返回给客户一个 空列表 比如 很抱歉 没有找到你要查询的内容 19 西红柿炒鸡蛋 整个搜索引擎的工作过程 可以以做西红柿炒鸡蛋举例 第一步 西红柿和鸡蛋 以及配料要有 这里对应页面收录 第二步 有了西红柿 鸡蛋 配料 接下来我们要分析一下做菜的顺序 是先放油呢还是先放鸡蛋呢 还是放了西红柿鸡蛋再放油呢 对这个项目进行分析 即搜索引擎工作的页面分析 第三步 分析好了这个菜怎么做 接下来要动手了 先刷锅热锅 再放油 再继续 这是个合理的顺序 先做什么 后做什么 对应页面排序 第四步 菜做

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论