第七章 搜索引擎_第1页
第七章 搜索引擎_第2页
第七章 搜索引擎_第3页
第七章 搜索引擎_第4页
第七章 搜索引擎_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章补充 搜索引擎 搜索引擎 SearchEngine 是随着WEB信息的迅速增加 从1995年开始逐渐发展起来的技术 按照一定的策略 搜索引擎在互联网中搜集 发现信息 对信息进行理解 提取 组织和处理 并为用户提供检索服务 从而起到信息导航的目的 搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务 搜索引擎站点也被美誉为 网络门户 搜索引擎技术因而成为计算机工业界和学术界争相研究 开发的对象 内容 网络资源的特点搜索引擎介绍搜索策略搜索中的常见错误Google使用方法 一 网络资源的特点 内容丰富 应有尽有 更新变化太快 不确定性高 有待于规范化 标准化 检索没有定式 没有标准答案 二 搜索引擎介绍 起源和发展原理分类常用搜索引擎搜索策略 起源 所有搜索引擎的祖先 是1990年由Montreal的McGillUniversity三名学生 AlanEmtage PeterDeutsch BillWheelan 发明的Archie ArchieFAQ AlanEmtage等想到了开发一个可以用文件名查找文件的系统 于是便有了Archie Archie是第一个自动索引互联网上匿名FTP网站文件的程序 但它还不是真正的搜索引擎 Archie是一个可搜索的FTP文件名列表 用户必须输入精确的文件名搜索 然后Archie会告诉用户哪一个FTP地址可以下载该文件 起源 由于Archie深受欢迎 受其启发 NevadaSystemComputingServices大学于1993年开发了一个Gopher GopherFAQ 搜索工具Veronica VeronicaFAQ Jughead是后来另一个Gopher搜索工具 发展 世界上第一个Spider程序 是MITMatthewGray的WorldwideWebWanderer 用于追踪互联网发展规模 刚开始它只用来统计互联网上的服务器数量 后来则发展为也能够捕获网址 URL 搜索引擎一般由以下三部分组成 爬行器 机器人 蜘蛛 索引生成器查询检索器 发展 改进 假设所有网页都可能有连向其他网站的链接 那么从一个网站开始 跟踪所有网页上的所有链接 就有可能检索整个互联网 1993年底 一些基于此原理的搜索引擎开始纷纷涌现 其中最负盛名的三个是 TheWorldWideWebWorm NASA的Repository BasedSoftwareEngineering RBSE spider RBSE是第一个索引Html文件正文的搜索引擎 也是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎 发展 Excite的历史可以上溯到1993年2月 6个StanfordUniversity 斯坦福大学 大学生的想法是分析字词关系 以对互联网上的大量信息作更有效的检索 到1993年中 这已是一个完全投资项目Architext 他们还发布了一个供webmasters在自己网站上使用的搜索软件版本 后来被叫做ExciteforWebServers 注 Excite后来曾以概念搜索闻名 2002年5月 被Infospace收购的Excite停止自己的搜索引擎 改用元搜索引擎Dogpile 发展 1994年4月 斯坦福大学的两名博士生 美籍华人杨致远和DavidFilo共同创办了Yahoo 随着访问量和收录链接数的增长 Yahoo目录开始支持简单的数据库搜索 因为Yahoo 的数据是手工输入的 所以不能真正被归为搜索引擎 事实上只是一个可搜索的目录 Yahoo 中收录的网站 因为都附有简介信息 所以搜索效率明显提高 注 Yahoo以后陆续使用Altavista Inktomi Google提供搜索引擎服务 Yahoo 几乎成为20世纪90年代的因特网的代名词 发展 1995年 一种新的搜索引擎形式出现了 元搜索引擎 MetaSearchEngine 用户只需提交一次搜索请求 由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎 并将从各独立搜索引擎返回的所有查询结果 集中起来处理后再返回给用户 第一个元搜索引擎 是Washington大学硕士生EricSelberg和OrenEtzioni的Metacrawler 元搜索引擎概念上好听 但搜索效果始终不理想 所以没有哪个元搜索引擎有过强势地位 发展 DEC的AltaVista是一个迟到者 1995年12月才登场亮相 但是 大量的创新功能使它迅速到达当时搜索引擎的顶峰 在当时 Altavista最突出的优势是它的速度 据说 设计altavista的目的 据说只是为了展示DECAlpha芯片的强大运算能力 而Altavista的另一些新功能 则永远改变了搜索引擎的定义 AltaVista是第一个支持自然语言搜索的搜索引擎 第一个实现高级搜索语法的搜索引擎 如AND OR NOT等 发展 1998年10月之前 Google只是斯坦福大学的一个小项目 95年博士生LarryPage开始学习搜索引擎设计 于1997年9月15日注册了的域名 1999年2月 Google完成了从Alpha版到Beta版的蜕变 Google公司则把1998年9月27日认作自己的生日 Google在Pagerank 动态摘要 网页快照 DailyRefresh 多文档格式支持 地图股票词典寻人等集成搜索 多语言支持 用户界面等功能上的革新 象Altavista一样 再一次永远改变了搜索引擎的定义 在2000年中以前 Google虽然以搜索准确性备受赞誉 但因为数据库不如其它搜索引擎大 缺乏高级搜索语法 所以使用价值不是很高 推广并不快 直到2000年中数据库升级后 又借被Yahoo选作搜索引擎的东风 才一飞冲天 发展 Google原名Googol 意思是10的100次方 是个巨大的数字 Google的胃口如同它的名字 大得出奇 编入其索引的有30多亿页面 4亿幅图片和8亿个新闻公告 2000年搜索引擎2000年大会上 按照Google公司总裁LarryPage的演讲 Google正在用3 000台运行Linux系统的个人电脑在搜集Web上的网页 而且以每天30台的速度向这个微机集群里添加电脑 以保持与网络的发展相同步 有人认为 Google是第二代搜索引擎中的先驱 代表 中文搜索引擎 北大天网是国家 九五 重点科技攻关项目 中文编码和分布式中英文信息发现 的研究成果 由北大计算机系网络与分布式系统研究室开发 于1997年10月29日正式在CERNET上提供服务 2000年初成立天网搜索引擎新课题组 由国家973重点基础研究发展规划项目基金资助开发 收录网页约6000万 利用教育网优势 有强大的ftp搜索功能 中文搜索引擎 百度公司 B Inc 于1999年底成立于美国硅谷 它的创建者是资深信息检索技术专家 超链分析专利的唯一持有人 百度总裁李彦宏 及其好友 在硅谷有多年商界成功经验的百度执行副总裁徐勇博士 百度是目前全球最优秀的中文信息检索与传递技术供应商 中国所有提供搜索引擎的门户网站中 超过80 以上都由百度提供搜索引擎技术支持 现有客户包括新浪 搜狐 chinaren Tom 腾讯 263 21cn 上海热线 广州视窗 新华网 北方时空 西部时空 重庆热线 吉林信息港 大庆信息港 东方热线 湖南信息港 南阳信息港 顺德信息网 二 搜索引擎原理 原理 搜索引擎并不真正搜索互联网 它搜索的实际上是预先整理好的网页索引数据库 至少由三部分组成 爬行器 机器人 蜘蛛 索引生成器查询检索器随着搜索引擎的发展 许多搜索引擎在此基础上增加特色功能 如百度增加了监控程序 原理 1 从互联网上抓取网页利用能够从互联网上自动收集网页的Spider系统程序 自动访问互联网 并沿着任何网页中的所有URL爬到其它网页 重复这过程 并把爬过的所有网页收集回来 原理 2 建立索引数据库由分析索引系统程序对收集回来的网页进行分析 提取相关网页信息 包括网页所在URL 编码类型 页面内容包含的关键词 关键词位置 生成时间 大小 与其它网页的链接关系等 根据一定的相关度算法进行大量复杂计算 得到每一个网页针对页面内容中及超链中每一个关键词的相关度 或重要性 然后用这些相关信息建立网页索引数据库 原理 3 在索引数据库中搜索排序当用户输入关键词搜索后 由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页 因为所有相关网页针对该关键词的相关度早已算好 所以只需按照现成的相关度数值排序 相关度越高 排名越靠前 最后 由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户 原理 搜索引擎的Spider一般要定期重新访问所有网页 各搜索引擎的周期不同 可能是几天 几周或几月 也可能对不同重要性的网页有不同的更新频率 更新网页索引数据库 以反映出网页内容的更新情况 增加新的网页信息 去除死链接 并根据网页内容和链接关系的变化重新排序 这样 网页的具体内容和变化情况就会反映到用户查询的结果中 搜索引擎算法 核心技术 Pagerank算法 google 基本思想 一个页面被多次引用 即很多页面有指向它的链接 则这个页面很重要 一个页面虽未被多次引用 但被另一个重要页面引用 它可能也很重要 一个页面的重要性被均均匀地分布并传递到它引用的页面 Page Brin根据此原理 与关键词检索以及其它基于文本的技术一起来提高查询质量 HITS算法 HypertextInducedTopicSearch 最早由Kleinberg在1999年提出 它依赖于查询式 认为页面的重要性依赖于正在查询的查询式 每页有两个级别 即Authorities 权威级别 和Hubs 中心级别 搜索引擎算法 SALSA算法 pSALSA算法 PHITS算法等 大体上与HITS算法相类似 或者说是HITS算法的改进和补充 搜索引擎算法 三 搜索引擎的分类 分类 按工作方式可分为 全文搜索引擎 Google AltaVista Fast AllTheWeb等 目录索引 Yahoo 元搜索引擎 Infospace Dogpile等 分类 垂直主题搜索引擎 专业搜索引擎 以其高度的目标化和专业化在各类搜索引擎中占据了一系席之地 比如象股票 天气 新闻等类的搜索引擎 具有很高的针对性 用户对查询结果的满意度较高 服务垂直 专业 化是互联网发展的大势所趋 区别于大而全的水平网站 垂直网站更注重在单一领域提供更专业 更精深的服务 比如IT罗盘就是以精选式IT讯息垂直搜索为特征的搜索引擎 图形天下Go2map就是专门提供地图搜索服务的地图搜索引擎 四 常用搜索引擎 1 Google搜索引擎 目前最优秀的支持多语种的搜索引擎之一 约搜索3 083 324 652张网页 提供网站 图像 新闻组等多种资源的查询 包括中文简体 繁体 英语等35个国家和地区的语言的资源 地址 2 百度 baidu 中文搜索引擎 全球最大中文搜索引擎 提供网页快照 网页预览 预览全部网页 相关搜索词 错别字纠正提示 新闻搜索 Flash搜索 信息快递搜索 百度搜霸 搜索援助中心 地址 3 北大天网中英文搜索引擎 由北京大学开发 简体中文 繁体中文和英文三个版本 提供全文检索 新闻组检索 FTP检索 北京大学 中科院等FTP站点 目前大约收集了100万个WWW页面 国内 和14万篇Newsgroup 新闻组 文章 支持简体中文 繁体中文 英文关键词搜索 不支持数字关键词和URL名检索 地址 其它搜索引擎 新浪 实例演示 1 冠心病的基因治疗研究进展 2 多媒体搜索Sealedwithakiss歌曲及歌词 百度搜索 结果 Sealedwithakiss BrianHylandsealedwithakiss brianhylandthowegonnasaygoodbyeforthesummerdarlingipromiseyouthisi llsendyouallmyloveeverydayinalettersealedwithkissyesit sgonnabeacoldlonelysummerbuti llfilltheemptinessi llsendyouallmydreams love everydayinalettersealedwithakissi llseeyouinthesunlighti llhearyourvoiceeverywherei llruntotenderlyholdyoubutdarlingyouwon tbethereidon twannasaygoodbyeforthesummerknowingthelovewe llmissohletusmakeapledgetomeetinseptemberandsealedwithakisssealedwithakisssealedwithakiss 3 图像搜索 F4或乔丹的壁纸 F4 F4 流星花园 桌面大小 乔丹 迈克尔 乔丹 桌面大小Google图像搜索 日常生活中的应用 放爱一条生路 有哪些地方台播出 时间 放爱一条生路卫视湖北 黑龙江 三 搜索策略 选择合适的搜索引擎合理使用各种运算符充分利用各搜索引擎的特色检索根据检索结果不断调整检索策略多积累 多总结 选择合适的搜索引擎应该使用新浪还是搜狐 Google还是百度 分析你的需求 比较不同搜索引擎的强项和弱点 然后为这次搜索选择最适合的搜索工具 合理使用各种运算符 短语检索 AND OR NOT 逻辑运算符通配符 各个搜索引擎在支持运算方面不尽相同 表示方法上也不完全一样 充分利用各搜索引擎的特色检索如 Google的文件类型检索 URL检索 图像检索百度的MP3检索 FLASH检索 根据检索结果不断调整检索策略选择更恰当的检索词 如果是太多 可以利用AND及NOT运算符限定检索 如果检索结果太少或没有 则可能需要减少检索词数量甚至更换检索词重新检索 多积累 多总结每次成功检索后可略作一些分析和小结 四 搜索中的常见错误 错别字关键词太常见多义词的使用在不支持自然语言查询的搜索引擎中使用自然语言查询在错误的地方搜索 错误1 错别字经常发生的一种错误是 你输入的关键词含有错别字 笔者所做的统计表明 常有大量的错误搜索 光一个谢霆锋就有 谢霆锋 谢庭锋 谢霆峰 谢廷锋 谢庭峰 谢廷峰 6种查法 还有什么 星际争吧 以德制国 之类的 这样的关键词能搜索到什么有用资料吗 所以每当你觉得某种内容网上应该有不少 却搜索不到结果时 你应该先查一下是否有错别字 错误2 关键词太常见如 搜索 电话 有无数网站提供跟 电话 相关的信息 从网上黄页到电话零售商到个人电话号码都有 所以当搜索结果太多太乱的时候 你应该尝试使用更多的关键词或者减号来搜索 不使用过于通用的词汇来搜索 设计一个类似 上海常用电话 这样特殊的搜索关键词 会给你真正有用的结果 错误3 多义词的使用要小心使用多义词 比如搜索 Java 你要找的信息究竟是太平洋上的一个岛 一种著名的咖啡 还是一种计算机语言 搜索引擎是不能理解辨别多义词的 最好的解决办法是 在搜索之前先问自己这个问题 然后用短语 用多个关键词或者用其他的词语来代替多义词作为搜索关键词 比如用 爪哇印尼 爪哇咖啡 Java语言 分别搜索可以满足不同的需求 错误4 在不支持自然语言查询的搜索引擎中使用自然语言查询 应该用关键词进行逻辑组配 搜索失败的另一个常见原因是类似这样的搜索 现代爱情故事歌词 信息早报在济南发行情况 铃羊车的各种图案 上海到成都列车时刻表 应该这样搜索 现代爱情故事歌词 信息早报济南发行 铃羊车图案 上海成都列车时刻表 错误5 在错误的地方搜索2001年7月23日这一天 正逢高考发榜 各大搜索引擎竟有超过100万次以上的搜索跟高考查分有关 考生们不知道 搜索引擎从抓取网页 解析 索引到提供检索是有一个周期的 各搜索引擎的信息滞后周期从一周到一月不等 所以找最新内容应该去看新闻 用搜索引擎是找不到最新内容 只能找到一个星期或一个月以前的内容 另外 搜索引擎对动态内容 如 论坛 数据库内容 以及带frame结构的网页检索能力较弱 所以这类信息也不适合用搜索引擎搜索 而是应该去相关的网站寻找 当然 寻找相关网站的任务搜索引擎是当仁不让的 五 Google使用方法 特点初级搜索语法进阶搜索图片搜索目录搜索新闻组搜索工具条的下载 安装 设置及使用 特点 GOOGLE支持多达132种语言 包括简体中文和繁体中文 GOOGLE网站只提供搜索引擎功能 没有花里胡哨的累赘 GOOGLE速度极快 据说有8000多台服务器 200多条T3级宽带 GOOGLE的专利网页级别技术PageRank能够提供高命中率的搜索结果 GOOGLE的搜索结果摘录查询网页的部分具体内容 而不仅仅是网站简介 GOOGLE智能化的 手气不错 功能 提供可能最符合要求的网站 GOOGLE的 网页快照 功能 能从GOOGLE服务器里直接取出缓存的网页Google可以查找PDF等特定格式的文件Google可以查找图像利用Google进行搜索时可以限定搜索范围 如某个网站或某个域名或是某个URL 初级搜索 搜索结果要求包含两个及两个以上关键字 AB 搜索结果要求不包含某些特定信息 A B 搜索结果至少包含多个关键字中的任意一个 AORB 示例 搜索所有包含 搜索引擎 和 历史 但不含 文化 中国历史 和 世界历史 的中文网页搜索 搜索引擎历史 文化 中国历史 世界历史 注意 操作符与作用的关键字之间 不能有空格 比如 搜索引擎 文化 搜索引擎将视为关键字为 搜索引擎 和 文化 的逻辑 与 操作 中间的 被忽略 示例 搜索如下网页 要求必须含有 搜索引擎 和 历史 没有 文化 可以含有以下关键字中任何一个或者多个 Archie 蜘蛛 Lycos Yahoo 搜索 搜索引擎历史 archieOR蜘蛛ORlycosORyahoo 文化 语法 通配符问题 用 来替代单个字符 而且包含 必须用 引起来 比如 以 治国 表示搜索第一个为 以 末两个为 治国 的四字短语 中间的 可以为任何字符 检索词大小写问题 不敏感 搜索整个短语或者句子 忽略的字符以及强制搜索 对一些网络上出现频率极高的英文单词 如 i com www 等 以及一些符号如 等 作忽略处理 如果要对忽略的关键字进行强制搜索 则需要在该关键字前加上明文的 号 进阶搜索 对搜索的网站进行限制 site 在某一类文件中查找信息 filetype 搜索的关键字包含在URL链接中 inurl 搜索的关键字包含在网页标题中 intitle 搜索所有链接到某个URL地址的网页 link 1 对搜索的网站进行限制 示例 搜索中文教育科研网站 上关于搜索引擎技巧的页面 搜索 搜索引擎技巧site 结果 已搜索有关搜索引擎技巧site 的中文 简体 网页 共约有608项查询结果 这是第1 10项 搜索用时0 05秒 示例 用著名IT门户网站ZDNET和CNET搜索一下关于搜索引擎技巧方面的资讯 搜索 searchengine tipssite ORsite 结果 已在内搜索有关 searchengine tipsORsite 的网页 共约有1 040项查询结果 这是第1 10项 搜索用时0 09秒 示例 搜索新浪科技频道中关于搜索引擎技巧的信息 搜索 搜索引擎技巧site 结果 已在搜索有关搜索引擎技巧的中文 简体 网页 共约有2140项查询结果 这是第1 10项 搜索用时0 62秒 注意 site后的冒号为英文字符 而且 冒号后不能有空格 否则 site 将被作为一个搜索的关键字 此外 网站域名不能有 http 前缀 也不能有任何 的目录后缀 网站频道则只局限于 频道名 域名 方式 而不能是 域名 频道名 方式 2 在某一类文件中查找信息 filetype 是Google开发的非常强大实用的一个搜索语法 也就是说 Google不仅能搜索一般的文字页面 还能对某些二进制文档进行检索 目前 Google已经能检索微软的Office文档如 xls ppt doc rtf WordPerfect文档 Lotus1 2 3文档 Adobe的 pdf文档 ShockWave的 swf文档 Flash动画 等 其中最实用的文档搜索是PDF搜索 PDF是ADOBE公司开发的电子文档格式 现在已经成为互联网的电子化出版标准 目前Google检索的PDF文档大约有2500万左右 大约占所有索引的二进制文档数量的80 PDF文档通常是一些图文并茂的综合性文档 提供的资讯一般比较集中全面 用 地理信息系统filetype doc 和 gisfiletype doc 可以分别搜索到783个和57000个有关地理信息系统的word文档文件 用 gisfiletype pdf 和 gisinurl pdf 可分别搜索到448000和389000个pdf格式的gis文件 3 搜索的关键字包含在网页标题中 intitle 和 allintitle 的用法类似于inurl和allinurl 只是后者对URL进行查询 而前者对网页的标题栏进行查询 网页标题 就是HTML标记语言title中之间的部分 网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中 因此 只查询标题栏 通常也可以找到高相关率的专题页面 示例 查找日本明星藤原纪香的照片集 搜索 intitle 藤原纪香 写真集 结果 已搜索有关intitle 藤原纪香 写真集 的中文 简体 网页 共约有2150项查询结果 这是第1 10项 搜索用时0 19秒 紧跟intitle的词限制在标题栏出现 藤原纪香 所有的词都要求在题目栏出现 藤原纪香和写真集 用 地理信息系统inurl doc 和 gisinurl doc 搜索结果分别为857项和69000项 此结果表明用inurl比用filetype搜索的结果多一些 用 gisdoc 搜索可以得到159000项 虽然很全 但不符合

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论