搜索引擎及其应用.ppt_第1页
搜索引擎及其应用.ppt_第2页
搜索引擎及其应用.ppt_第3页
搜索引擎及其应用.ppt_第4页
搜索引擎及其应用.ppt_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

KRNET2000,1,信息检索,第六章 搜索引擎及其利用,信息检索,第四章 搜索引擎及其发展,主要内容,信息检索,1 搜索引擎概述,什么是搜索引擎?,搜索引擎是根据一定的策略,运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。,信息检索,搜索引擎的组成,1 搜索引擎概述,搜索引擎原理,信息检索,抓取网页,建立索引数据库,检索界面,1 搜索引擎概述,搜索引擎原理,信息检索,利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。,第一步:从互联网上抓取网页,因特网,1 搜索引擎概述,搜索引擎原理,信息检索,第二步:建立索引数据库,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。,1 搜索引擎概述,搜索引擎原理,信息检索,搜索引擎的Spider还必须一同实现对索引数据库的动态维护,以保证索引数据库准确反映网络信息资源的当前状况。,1 搜索引擎概述,搜索引擎原理,信息检索,第三步:检索界面的建立,搜索引擎根据用户输入的检索词,在索引数据库中快速地检出文档,进行文档与检索的相关度评价,对将要输出的结果进行排序,并将检索结果返回给用户。,1 搜索引擎概述,搜索引擎原理,信息检索,每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录及关键词两种信息查询途径。,1 搜索引擎概述,搜索引擎原理,信息检索,抓取网页,建立索引数据库,检索界面,1 搜索引擎概述,搜索引擎原理,数据采集,数据组织,用户检索,信息检索,搜索引擎的发展,第三代搜索 网页搜索,1 搜索引擎概述,信息检索,搜索引擎分类,按工作方式分: (1)目录式搜索引擎 也叫“网址大全”,将网站分门别类地存放在相应的目录中,可按关键词搜索,也可按分类目录逐层查找。如Yahoo!(雅虎)、hao123、新浪分类目录搜索等,1 搜索引擎概述,搜索引擎的分类,信息检索,雅虎目录式网址搜索引擎界面,信息检索,搜索引擎分类,按工作方式分 (2)全文搜索引擎 用户可以搜索一篇文章的任何部分,不论是标题还是正文。如百度、Google、必应。,1 搜索引擎概述,搜索引擎的分类,信息检索,信息检索,搜索引擎分类,按工作方式分: (3)元搜索引擎 指用户同时利用多个引擎进行网络搜索的中介。元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。目前世界上著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等。,1 搜索引擎概述,搜索引擎的分类,信息检索,InfoSpace元搜索引擎界面,信息检索,元搜索引擎觅搜、Dogpile,信息检索,指数确定结果排序,信息检索,Dogplie,信息检索,指明出处,信息检索,常用搜索引擎,信息检索,Google是目前最大的全球性搜索引擎之一。 创始人:斯坦福大学博士生拉里佩奇(Larry Page)和谢尔盖布林(SergEy Brin)创立。,2 百度与google,Google(谷歌),信息检索,名字由来 源于数学名词“Googol”, Googol表示一个 1 后面跟着 100 个零。Google Int.使用这一术语体现了公司整合网上海量信息的远大目标。 使命 整合全球信息,使人人皆可访问并从中受益。 价值观:Dont be evil不作恶,2 百度与google,Google(谷歌),信息检索,信息检索,信息检索,Google 技术,PageRank PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术。 Google用它来体现网页的相关性和重要性。,2百度与google,信息检索,Google 技术,PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。 Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。 级别从1到10级,10级为满分。PR值越高说明该网页越受欢迎(越重要)。,2百度与google,信息检索,Google的PageRank技术,链接1 链接2,100,53,链接1 链接2 链接3,9,50,3,3,信息检索,Google 技术,超文本匹配分析技术(Hypertex-t Matching Analysis) Google除了考虑检索词出现的次数,还分析关键词的字体、字号、以及字号以及关键词在网页中出现的精确位置, 并且对该网页的邻近网页( 包括链入网页和链出网页) 的内容加以分析。 举例:检索词 A网页的标题中 B网页的正文中,2百度与google,Google 分享/share,信息检索,直接分享链接 并评论到Google+,信息检索,1基本搜索,Google的检索方式,信息检索,1基本搜索 逻辑与:“空格” 逻辑或:“OR” 逻辑非:“ ” 双引号:专用词,Google的检索方式,信息检索,1基本搜索 Google不支持通配符,“*”或者“?”或自动忽略掉 Google不区分大小写 Google采用了停用词表技术,一些通用的词和字符,如英文中的介词、冠词、连词等和汉语中的介词、助词、语气词 等,一些如“*”、“.”均作忽略处理。因此,要对可能被忽略的词进行强制搜索,需要在该关键词前加“+”。 例如“How are you?” 检索式:+how+are+you,Google的检索方式,信息检索,2高级搜索 Site:表示对搜索的网站进行限制,如新闻 site:” Filetype:按文件类型搜索文件,包括PDF、WRI、XLS、PPT等 Inurl和 all inurl:搜索的关键字包含在URL连接中 Intitle 和 all intitle:搜索的关键字包含在网页中,如intitle 信息检索 link:搜索所有链接到某个URL地址的网页。“link:”将找出所有指向 网易主页的网页。,Google的检索方式,信息检索,信息检索,(1)图片搜索 (2)新闻搜索 (3)论坛搜索 (4)地图搜索 (5)学术搜索 (6)图书搜索 (7)购物搜索 (8)视频搜索 (9)大学搜索 (10)博客搜索 (11)社会化搜索,其他常用搜索服务功能,图片搜索,信息检索,图片搜索,信息检索,图片搜索,信息检索,Google相似图片搜索,信息检索,Google相似图片搜索,信息检索,信息检索,学术搜索,信息检索,学术搜索,信息检索,信息检索,百度(baidu),创始人:李彦宏、徐勇 名字由来:“百度”二字源于中国宋朝词人辛弃疾的青玉案元夕词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。 使命:不断开发、创新 让人们更便捷地获取信息、找到所求,2 百度与谷歌,信息检索,百度技术,百度搜索引擎由四部分组成:蜘蛛程序、监控程序、索引数据库、检索程序。 百度的核心技术:超链分析 超链分析技术,是新一代搜索引擎的关键技术。超链分析就是通过分析链接网站的多少来评价被链接的网站质量,这保证了用户在百度搜索时,越受用户欢迎的内容排名越靠前。,信息检索,百度检索方式,(1)简单检索 逻辑与:“空格”、“+”、“&” 逻辑或:“ |” 逻辑非:“-”,信息检索,信息检索,所有检索词全部包含在检索结果中,但出现的次序不限,即将所输入的内容作为一个检索词来检索,不能有空格或符号。,只要包含所输入的检索词之一即可,各检索词用空格隔开,百度的检索技巧(检索语法),(1)检索词 site:网站将搜索范围限制在某个特定的网站中 如“四六级 site:” (2)inurl:限定的字符串检索词检索词包含在URL网址中 (3)intitle:限定的字符串检索词检索词包含在网页标题中。 如:intitle:四级 (4)双引号和书名号精确匹配,信息检索,其他常用搜索服务功能,(1)新闻搜索 (2)贴吧搜索 (3)MP3搜索 (4)国学搜索 (5)百度知道 (6)相关搜索 (7)实时搜索 (8)百度识图,信息检索,信息检索,信息检索,百度识图,信息检索,信息检索,为什么搜索引擎搜不到?,有些内容,网上明明存在,但是用搜索引擎搜不到,原因主要有3类: (1)网上有,但是搜索引擎库里没有 spider未能正确处理的网页性质及文件类型(如某些动态网页及frame、数据库) 没有指向链接的孤岛网页 spider访问时因为某些原因正好是死链接 被认为是劣质网页而不抓 因为/色情/反动/spam/等问题而不抓的非法网页 需要输入用户名、密码方可打开的网页 网站用robots协议拒绝搜索引擎抓取的网页 搜索引擎还未来得及抓取的新网页,3 搜索引擎使用技巧,信息检索,为什么搜索引擎搜不到?,(2)搜索引擎库里有,但是未能正确索引网页中信息 分词引起误差 图型中的文字信息你看得懂但搜索引擎看不懂 停用词等搜索引擎故意不索引的信息 搜索引擎对某些网页有选择的索引,未索引全部网页信息 (3)搜索引擎正确索引了网页中信息,但和你用的关键词不同 你用的搜索关键词中含有错别字 网页作者用了错别字 没有错别字,但网页作者用的词汇和你的关键词不同,毕竟,文字的特性,允许有n种方式表达同一种信息 简体繁体不同编码,3 搜索引擎使用技巧,信息检索,用户自己的错误,初学者搜索时容易犯的6个低级错误和解决方法 常见错误1:错别字 经常发生的一种错误是,你输入的关键词含有错别字,改正了就好。 常见错误2:关健词太常见 搜索引擎对常见词的搜索存在缺陷,因为这些词曝光率太高了,以至于出现在成百万网页中,使得它们事实上不能被用来帮你找到什么有用的内容。比如说搜索“电话”。 常见错误3:多义词 要小心使用多义词,比如搜索“java”,你要找的信息究竟是太平洋上的一个岛、一种著名的咖啡、还是一种计算机语言。,3 搜索引擎使用技巧,信息检索,用户自己的错误,常见错误4:不会输关键词,想要什么输什么 搜索失败的另一个常见原因是类似这样的搜索:“现代爱情故事歌词” 常见错误5:在错误的地方搜索 有些信息不适合搜索,应该直接到网站浏览,如论坛的内容。 常见错误6:停用词 停用词主要见于英文搜索引擎中,指的是使用过于频繁的单词,如“is”、“i”、“what”、“it”等。一些搜索引擎在它的网页库里碰到这些词时不会搜,3 搜索引擎使用技巧,信息检索,3 搜索引擎使用技巧,(1)有针对性地选择搜索引擎 (2)根据要求选择检索方法并细化检索,信息检索,3 搜索引擎使用技巧,(3)使用多个关键词,精确检索結果 关键词越明确,搜索结果越精确 电影 哈利波特 2011年诺贝尔文学奖得主 平均输入入1.5个关键词 太少,信息检索,信息检索,3 搜索引擎使用技巧,(4)、要“加”,不要“减”, 結果更相关 要“” 卧虎藏龙 卧虎藏龙+电视剧 卧虎藏龙+电视剧+电影 卧虎藏龙+电视剧+电影-音乐 不要“”输入的关键词一定不可以出现在結果中 卧虎藏龙-音乐 知识管理 -site:.com,信息检索,3 搜索引擎使用技巧,(5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论