搜索引擎原理.ppt_第1页
搜索引擎原理.ppt_第2页
搜索引擎原理.ppt_第3页
搜索引擎原理.ppt_第4页
搜索引擎原理.ppt_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

搜索引擎原理 基于东搜DSpider描述 搜索引擎原理 搜索引擎简史搜索引擎的构成要素 东搜 的基本介绍关于搜索引擎的未来展望 搜索引擎简史 Archie 1990 WorldWideWebWanderer 1993 Lycos 1994 其他引擎们Google 1998 Baidu 1999 总目录 Archie 1990 最早的几百个网站出现于1993年 大部分在大学里 但是很久之后才有了Archie 最早出现的搜索引擎叫Archie 是1991年由AlanEmtage 一个蒙特利尔的McGill大学的学生创造的 总目录 简史 WWWWanderer 1993 不久 网络上第一个机器人出现了 在1993年6月 MatthewGray引入了万维网漫游者 他最初想要测量网络的增长 并且创建这个机器人来计算活动的网络服务器数量 不久他将这个机器人升级为计算实际URL数量 他的数据库叫Wandex 总目录 简史 Lycos 1994 Lycos是下一代搜索的主要发展 它是1994年7月在卡内基梅隆大学设计的 到1994年8月 Lycos识别了394000个文件 比其他搜索引擎都多 在1994年10月 在Netscape列出的搜索引擎里 Lycos排名第一 总目录 简史 其他引擎们 总目录 简史 Google 1998 谷歌中国 即Google中国 是中国大陆使用率第二大的搜索引擎 谷歌中国成立于2006年4月 服务器置于北京 是唯一一个服务器设在美国以外地区的Google本地化版本 总目录 简史 Baidu 1999 百度1999年由李彦宏以及其好友徐勇在美国创办 截至2006年 百度是目前大陆访问使用量最高的搜索引擎 64 5 公司名称 百度 二字源自宋代词人辛弃疾的 青玉案 的一句词 众里寻他千百度 截至2009年3月 百度在Alexa互联网排名中排名11 总目录 简史 搜索引擎的构成要素 搜索器索引器检索器 用户接口 总目录 搜索器 高强度爬虫程序 Baiduspider Yahoo Slurp iaskspider 2 0 Sogouwebspider 3 0中等强度爬虫程序 Googlebot 2 1 YodaoBot 1 0开源爬虫程序 Heritrix Nutch Larbin 总目录 构成要素 索引器 Lucene 全世界都知道 http lucene apache org Xapian C 开发的概率信息检索库 功能强大 http www xapian org ICTCLAS 全球最受欢迎的汉语分词开源系统 获得首届国际分词大赛综合排名第一 国家973评测第一名 http ictclas org index html InstituteofComputingTechnology ChineseLexicalAnalysisSystem 总目录 构成要素 东搜 的基本介绍 搜索器 DSpider索引器 Lucene CJKAnalyzer 检索器 用户接口 用JSP实现 总目录 搜索器 DSpider minidrankindexerimagevideomusicdownloadwebjs 总目录 基本介绍 DSpider mini 数据库统一接口爬虫算法网页内容获取字符编码检测线程管理数据挖掘程序运行日志 总目录 基本介绍 数据库统一接口 总目录 基本介绍 DSpider mini 爬虫算法 总目录 基本介绍 DSpider mini 爬虫算法 总目录 基本介绍 DSpider mini 等待队列 运行队列 成功队列 失败队列 网页内容获取 总目录 基本介绍 DSpider mini 1 请求行 请求行由三个标记组成 请求方法 请求URI和HTTP版本 它们用空格分隔 例如 GET index htmlHTTP 1 12 请求头标 由关键字 值对组成 每行一对 关键字和值用冒号 分隔 请求头标通知服务器有关于客户端的功能和标识 典型的请求头标有 User Agent客户端厂家和版本Accept客户端可识别的内容类型列表Content Length附加到请求的数据字节数 网页内容获取 百度首页测试 总目录 基本介绍 DSpider mini 客户端发送请求 GET HTTP 1 0HOST ACCEPT 服务器返回头信息 HTTP 1 1200OKdate sun 22mar200912 02 25gmtserver bws 1 0content length 3596content type text htmlcache control privateexpires sun 22mar200912 02 25gmtset cookie baiduid 879623fc024528e897342282be7ac796 fg 1 expires sun 22 mar 3912 02 25gmt path domain p3p cp otidspcorivaourindcom 网页正文内容 字符编码检测 总目录 基本介绍 DSpider mini 服务器返回头信息Content Typei e content type text html charset utf 8HTML标签中的元标签信息i e 检测开头三字节 可能存储着编码信息 i e UTF 8编码格式的文本文件 其前3个字节的值就是 17 69 65 字符编码检测 总目录 基本介绍 DSpider mini 线程管理 总目录 基本介绍 DSpider mini 总经理 Spider类负责线程调度 工作分配员工 SpiderWorker类负责完成分配的任务 总经理 Spider类 总目录 基本介绍 DSpider mini 员工 SpiderWorker类 总目录 基本介绍 DSpider mini 数据挖掘 总目录 基本介绍 DSpider mini 超链接的挖掘 extraction 图片的挖掘音频文件的挖掘视频文件的挖掘 超链接的挖掘 总目录 基本介绍 DSpider mini 程序运行日志 总目录 基本介绍 DSpider mini 索引器 Lucene doIndexdoImageIndexdoMusicIndexdoResourceIndexdoVideoIndex 总目录 基本介绍 doIndex 总目录 基本介绍 检索器 用户接口 网页图片音乐视频资源词典个人书签 总目录 基本介绍 检索网页 总目录 基本介绍 检索器 用户接口 检索图片 总目录 基本介绍 检索器 用户接口 检索音乐 总目录 基本介绍 检索器 用户接口 检索视频 总目录 基本介绍 检索器 用户接口 检索资源 总目录 基本介绍 检索器 用户接口 检索词典 总目录 基本介绍 检索器

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论