




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第第4章章 搜索引擎搜索引擎1. 搜索引擎的概念搜索引擎的概念2. 搜索引擎的类型及特点搜索引擎的类型及特点3. 常用通用搜索引擎常用通用搜索引擎4. 常用元搜索引擎常用元搜索引擎5. 常用医学专业搜索引擎常用医学专业搜索引擎 在互联网发展初期,网站相对较少,信息查找比较容易。然而,伴随互联网的迅速发展,网上信息已呈爆炸性增长。目前internet能找到的网页已多达数千亿之巨,并且仍以每几个月翻一番的速度增长。用户要在如此浩瀚的信息海洋里寻找信息,往往会“大海捞针”无功而返,搜索引擎的出现正是为了解决这种“迷航”问题。目前已有数以千计的web搜索引擎在 internet上运行,web搜索引擎已
2、逐渐成为web信息检索利用的主要方式之一。 搜索引擎是指以人工或网络机器人搜索引擎是指以人工或网络机器人软件的方法采集、标引软件的方法采集、标引web资源和其他资源和其他类型的网络资源,并将索引信息内容存类型的网络资源,并将索引信息内容存储于大型数据库中,以储于大型数据库中,以web网站的方式网站的方式提供给网络用户查询的信息服务系统。提供给网络用户查询的信息服务系统。第第4章章 搜索引擎搜索引擎1. 搜索引擎的概念搜索引擎的概念2. 搜索引擎的类型及特点搜索引擎的类型及特点3. 常用通用搜索引擎常用通用搜索引擎4. 常用元搜索引擎常用元搜索引擎5. 常用医学专业搜索引擎常用医学专业搜索引擎索
3、引式搜索引擎索引式搜索引擎 目录式搜索引擎目录式搜索引擎 元搜索引擎元搜索引擎 索引式搜索引擎索引式搜索引擎 也称为机器人搜索引擎,主要采用机器也称为机器人搜索引擎,主要采用机器人技术,通过人技术,通过“机器人机器人”(robot)、“蜘蛛蜘蛛”(spider)、“爬虫爬虫”(crawler)等等去网上抓取各个网站、网页的信息,自去网上抓取各个网站、网页的信息,自动化程度高的搜索引擎还利用计算机辅动化程度高的搜索引擎还利用计算机辅助数据库的建设,如进行自动分类、自助数据库的建设,如进行自动分类、自动标引、自动文摘等。在前台提供一个动标引、自动文摘等。在前台提供一个检索入口,用户通过检索入口递交
4、查询检索入口,用户通过检索入口递交查询请求,通过后台对数据库的检索操作将请求,通过后台对数据库的检索操作将结果反馈给用户,相当于网上资源的主结果反馈给用户,相当于网上资源的主题索引题索引 索引式搜索引擎的主要特点是索引式搜索引擎的主要特点是: 1. 交互性更强,集中体现了客户机交互性更强,集中体现了客户机/服务器模服务器模式的优势。式的优势。 2. 检索功能强大,一般可进行布尔逻辑检索、检索功能强大,一般可进行布尔逻辑检索、词组检索、位置检索、截词检索等词组检索、位置检索、截词检索等 3. 提供二次检索,允许在查询结果中进一步提供二次检索,允许在查询结果中进一步限定,从而缩小检索结果范围,提高
5、查准限定,从而缩小检索结果范围,提高查准 率。率。目录式搜索引擎目录式搜索引擎 又称目录导引式搜索引擎,主要是指由人工又称目录导引式搜索引擎,主要是指由人工发现、抓取、辨别网上信息,依靠编目、标发现、抓取、辨别网上信息,依靠编目、标引人员的知识,按照图书分类、学科分类或引人员的知识,按照图书分类、学科分类或其他分类依据,建立主题树分层目录,并将其他分类依据,建立主题树分层目录,并将采集、筛选后的信息分门别类地放入各大类采集、筛选后的信息分门别类地放入各大类或子类下面。在或子类下面。在web页面上呈现出错落有致页面上呈现出错落有致的上下位关系,用户通过层层点击,顺链而的上下位关系,用户通过层层点
6、击,顺链而行,随着范畴的缩小与查询的专指度提高,行,随着范畴的缩小与查询的专指度提高,最终满足用户的查询需求。最终满足用户的查询需求。目录式搜索引擎的特点目录式搜索引擎的特点1.比较适合主题浏览、一般主题检索或为用户比较适合主题浏览、一般主题检索或为用户检索提供有价值的提示,而且通过这种体系检索提供有价值的提示,而且通过这种体系分类来归整资源,体现了知识概念的系统性,分类来归整资源,体现了知识概念的系统性,有利于族性检索。有利于族性检索。2.查准率高。一方面人工技术的干预查准率高。一方面人工技术的干预;另一方面另一方面用户参与程度高用户参与程度高.3.查全率有限。信息涵盖量不大,更新能力有查全
7、率有限。信息涵盖量不大,更新能力有限是这类检索引擎的一个弊端。限是这类检索引擎的一个弊端。4.分类依据的科学性与标准性。对于这一类搜分类依据的科学性与标准性。对于这一类搜索引擎,分类标准是其提供优质检索服务底索引擎,分类标准是其提供优质检索服务底重要保障之一。重要保障之一。目录式搜索引擎与索引式搜索引擎的主要区别目录式搜索引擎与索引式搜索引擎的主要区别在于:在于: 1.目录式搜索引擎的数据库是依靠人工建立目录式搜索引擎的数据库是依靠人工建立起来的,索引式搜索引擎的数据库是用程序起来的,索引式搜索引擎的数据库是用程序自动搜索和积累的。自动搜索和积累的。 2.由于目录是依靠人工进行整理搜索,而且由
8、于目录是依靠人工进行整理搜索,而且只在保存的对站点的描述中进行搜索,因此只在保存的对站点的描述中进行搜索,因此站点本身的动态变化不会反映到搜索结果中站点本身的动态变化不会反映到搜索结果中来,其网站信息的更新速度受到一定影响。来,其网站信息的更新速度受到一定影响。 3.由于目录是依靠人工来评价一个网站的内由于目录是依靠人工来评价一个网站的内容,因此用户从目录搜索得到的结果往往比容,因此用户从目录搜索得到的结果往往比索引式搜索引擎得到的结果更具参考价值。索引式搜索引擎得到的结果更具参考价值。 网上信息的急剧膨胀往往是单个独立搜索引网上信息的急剧膨胀往往是单个独立搜索引擎的检索能力所难以招架的。任何
9、一个搜索引擎都擎的检索能力所难以招架的。任何一个搜索引擎都不可能不可能100%的覆盖网上信息。据专家评测,目前的覆盖网上信息。据专家评测,目前主要搜索引擎返回的相关结果的比率不超过主要搜索引擎返回的相关结果的比率不超过45%,而且由于机制、范围、算法等差异,导致同样一个而且由于机制、范围、算法等差异,导致同样一个查询请求在不同的搜索引擎中的检索结果的重复率查询请求在不同的搜索引擎中的检索结果的重复率不足不足34%。因此,要想获得一个比较全面、准确的。因此,要想获得一个比较全面、准确的结果,就必须反复调用多个搜索引擎。于是,元搜结果,就必须反复调用多个搜索引擎。于是,元搜索引擎应运而生,在一定程
10、度上解决了搜索引擎的索引擎应运而生,在一定程度上解决了搜索引擎的这些问题。这些问题。 元搜索引擎(元搜索引擎(metasearch engine),被称),被称为搜索引擎之上的搜索引擎,是一个要调用其为搜索引擎之上的搜索引擎,是一个要调用其 他搜索引擎的搜索引擎。他搜索引擎的搜索引擎。 元搜索引擎的主要特点元搜索引擎的主要特点1.查全率大大提高,但查准率更难保障;2. 一般只支持and、or、not等简单的操作;3. 运作机制有别于目录式和索引式;4.元搜索引擎需要与各个收录的搜索引擎网站建立协作关系,拥有对方数据库的访问权。第第4章章 搜索引擎搜索引擎1. 搜索引擎的概念搜索引擎的概念2.
11、搜索引擎的类型及特点搜索引擎的类型及特点3. 常用通用搜索引擎常用通用搜索引擎4. 常用元搜索引擎常用元搜索引擎5. 常用医学专业搜索引擎常用医学专业搜索引擎 google (http:/) hotbot (http:/) yahoo! (http:/) baidu(http:/)google1.概况概况 google是由两个斯坦福大学博士生是由两个斯坦福大学博士生larry page与与sergeybrin于于1998年年 9月发明,并于月发明,并于1999年创立了年创立了google公司。公司。google 的使命就是要提供网上最好的查询服务,促进全球信息的使命就是要提供网上最好的查询服务
12、,促进全球信息的交流。的交流。google 开发出了世界上最大的搜索引擎,提供了最便开发出了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。通过对捷的网上信息查询方法。通过对 多达一万亿网页进行整理,可多达一万亿网页进行整理,可为世界各地的用户提供适需的搜索结果。为世界各地的用户提供适需的搜索结果。 google 是由英文单词是由英文单词“googol”变化而来。变化而来。“googol”是美是美国数学家国数学家 edward kasner 的侄子的侄子 milton sirotta 创造的一个词,创造的一个词,表示表示 1后边带有后边带有 100 个零的数字。个零的数字。google
13、使用这个词代表公司使用这个词代表公司想征服网上无穷无尽资料的雄心。想征服网上无穷无尽资料的雄心。2.特点及技术支持特点及技术支持(1)特点)特点 google支持多语言检索,包括简体中文和繁体中文;支持多语言检索,包括简体中文和繁体中文;google网站只提供搜索引擎功能,没有花里胡哨的累赘;网站只提供搜索引擎功能,没有花里胡哨的累赘;google速度极快,有速度极快,有100多万台服务器;多万台服务器; google的专利网页级别技术的专利网页级别技术pagerank能够提供高命中率的搜索能够提供高命中率的搜索结果;结果; google的搜索结果摘录查询网页的含有关键字的内容,而不仅的搜索结
14、果摘录查询网页的含有关键字的内容,而不仅 仅是网站简介仅是网站简介 google智能化的智能化的“手气不错手气不错”功能,提供可能最符合要求的网功能,提供可能最符合要求的网站;站; google的的“网页快照网页快照”功能,能从功能,能从google服务器中直接取出缓服务器中直接取出缓存的网页。存的网页。 google核心软件称为核心软件称为 pagerank(tm),这是由其创始人,这是由其创始人larrypage 和和 sergey brin 在斯坦福大学开发出的一套用于网页评在斯坦福大学开发出的一套用于网页评级的系统。当从网页级的系统。当从网页 a 链接到网页链接到网页b,google
15、就认为就认为“网页网页 a投了网页投了网页 b 一票一票”,google 根据网页的得票数评定其重要性。根据网页的得票数评定其重要性。除了考虑网页得票数(即链接)的纯数量之外,除了考虑网页得票数(即链接)的纯数量之外,google还要分析还要分析投票的网页投票的网页,“重要重要”的网页所投出的票就会有更高的权重,有助的网页所投出的票就会有更高的权重,有助于提高其它网页的于提高其它网页的“重要性重要性”。重要的、高质量的网页会获得较。重要的、高质量的网页会获得较高的网页级别;高的网页级别; 另外,另外,google还将网页级别与完善的文本匹配技术结合在一还将网页级别与完善的文本匹配技术结合在一起
16、;采用自动搜索方法,排除了任何人为因素对搜索结果的影响。起;采用自动搜索方法,排除了任何人为因素对搜索结果的影响。 网页查询网页查询 若要求搜索结果包含两个及两个以上的关键词,只需在若要求搜索结果包含两个及两个以上的关键词,只需在关键词中间留空格即可。如:关键词中间留空格即可。如:child nursing 若要求搜索结果不包含某些特定信息时,用若要求搜索结果不包含某些特定信息时,用“-”紧密地加在作紧密地加在作用的关键词前面。如:用的关键词前面。如:nursing-child。这里的。这里的“-”是英文字是英文字符,而不是中文字符,此外,操作符与作用的关键词之间,不符,而不是中文字符,此外,
17、操作符与作用的关键词之间,不能有空格,如加入空格,则搜索引擎将视前后关键词为逻辑与能有空格,如加入空格,则搜索引擎将视前后关键词为逻辑与关系,中间的关系,中间的“-”被忽略。被忽略。 若要求搜索结果至少包含多个关键词中的任意一个时,可用大若要求搜索结果至少包含多个关键词中的任意一个时,可用大写的写的or来连接各检索词。如:来连接各检索词。如:nursing or child or elder google只支持精确查找,不允许截词检索只支持精确查找,不允许截词检索 google搜索不区分英文字母大小写。所有的字母均当作小写搜索不区分英文字母大小写。所有的字母均当作小写处理。如:搜索处理。如:搜
18、索google、google、google,结果都是一,结果都是一样的。样的。 google的关键词可以是词组,也可以是句子,但是,用句子的关键词可以是词组,也可以是句子,但是,用句子做关键词,必须加英文引号。如做关键词,必须加英文引号。如“what is allergy” google会忽略最常用的词和字符,这些词和字符称为忽略词。会忽略最常用的词和字符,这些词和字符称为忽略词。如:如:“http”、 “.com”和和“的的”等字符以及数字和单字。使用英等字符以及数字和单字。使用英文双引号可将这些忽略词强加于搜索项,例如:输入文双引号可将这些忽略词强加于搜索项,例如:输入“乙肝的乙肝的治疗治
19、疗”时,加上英文双引号会使时,加上英文双引号会使“的的”强加于搜索项中。强加于搜索项中。 要将搜索结果局限于某个具体网站或者网站频道,可用要将搜索结果局限于某个具体网站或者网站频道,可用site,如:搜索新浪文教频道中关于鲁迅的信息,可采用检索式如:搜索新浪文教频道中关于鲁迅的信息,可采用检索式鲁迅鲁迅site:。需要注意的是:。需要注意的是:site后的冒号为英文字后的冒号为英文字符,并且冒号后不能有空格,否则,符,并且冒号后不能有空格,否则,“site:”将被作为一个搜将被作为一个搜索的关键词。网站域名不能有索的关键词。网站域名不能有“http”以及以及“www”前缀,也不前缀,也不能有任
20、何能有任何“/”的目录后缀。若想排除某网站或者域名范围内的的目录后缀。若想排除某网站或者域名范围内的页面,只需用页面,只需用“_网站网站/域名域名”。 若想查询某一类文件(扩展名相同),可使用若想查询某一类文件(扩展名相同),可使用“filetype:”。最重要的文档搜索是最重要的文档搜索是pdfpdf搜索。搜索。pdfpdf是是adobeadobe公司开发的电子文档公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。目前格式,现在已经成为互联网的电子化出版标准。目前googlegoogle检索检索的的pdfpdf文档大约有文档大约有25002500万左右。万左右。pdfpdf文档通常
21、是一些图文并茂的综文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。例如,搜索关于电子合性文档,提供的资讯一般比较集中全面。例如,搜索关于电子商务的商务的pdfpdf文档,可采用文档,可采用ecommerce filetype:pdfecommerce filetype:pdf检索式。检索式。 若想要搜索的关键词包含在若想要搜索的关键词包含在url链接中,可用链接中,可用“inurl:”。 “inurl”语法返回的网页链接中包含第一个关键词,后面的关键语法返回的网页链接中包含第一个关键词,后面的关键词则出现在链接中或者网页文档中。有很多网站把某一类具有词则出现在链接中或者网页文档
22、中。有很多网站把某一类具有相同属性的资源名称显示在目录名或者网页名称中,比如相同属性的资源名称显示在目录名或者网页名称中,比如“mp3”等,于是,就可以用等,于是,就可以用inurl语法找到这些相关资源链语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。如:接,然后,用第二个关键词确定是否有某项具体资料。如:inurl:mp3 歌曲歌曲 要想搜索的关键词包含在网页标题中,可用要想搜索的关键词包含在网页标题中,可用“intitle”。“intitle:”的用法类似于上面的的用法类似于上面的inurl,只是后者对只是后者对url进行查询,而前者对网页的标题栏进行查询,而前者对网
23、页的标题栏进行查询。网页设计的一个原则就是要把主页的关进行查询。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。查询标题栏,通常也可以找到高相关率的专题页面。例如:例如:intitle:sars 如果想知道有多少人对某一网站做了链接,用如果想知道有多少人对某一网站做了链接,用“link:”语法就能迅速达到这个目的。如:搜索所语法就能迅速达到这个目的。如:搜索所有含指向华军软件园有含指向华军软件园链接的网链接的网页。可以采用页。可以采用link: 检索式进行检索式进行检索。但需
24、要注意,检索。但需要注意,“link”不能与其他语法相混合不能与其他语法相混合操作。操作。 查找与某个页面结构内容相似的页面,可用查找与某个页面结构内容相似的页面,可用“related:related:”。例,搜索所有与中文新浪网主页相似的。例,搜索所有与中文新浪网主页相似的页面(如网易首页,搜狐首页,中华网首页等),可页面(如网易首页,搜狐首页,中华网首页等),可输入输入related: . 若想从若想从googlegoogle服务器上缓存页面中查询信息,可用服务器上缓存页面中查询信息,可用“cache:cache:”。搜索。搜索googlegoogle服务器上某页面的缓存,通常服务器上某页
25、面的缓存,通常用于查找某些已经被删除的死链接网页,相当于使用用于查找某些已经被删除的死链接网页,相当于使用普通搜索结果页面中的普通搜索结果页面中的“网页快照网页快照”功能。例如,查功能。例如,查找找 g o o g l eg o o g l e 缓 存 的 中 文缓 存 的 中 文 y a h o oy a h o o 首 页 , 可首 页 , 可cache:cache:. .图像检索图像检索 在首页点击在首页点击“图像图像”(images)链接就进入了图像搜)链接就进入了图像搜索界面。在关键词栏内输入描述图像内容的关键字,索界面。在关键词栏内输入描述图像内容的关键字,如如“blue sky”
26、,就会搜索到大量的蓝天的图片。,就会搜索到大量的蓝天的图片。google的图像搜索结果具有一个直观的的图像搜索结果具有一个直观的缩略图缩略图,以及,以及对该缩略图的对该缩略图的简单描述简单描述,如图像文件名称,以及大小,如图像文件名称,以及大小等。点击缩略图,页面分成两祯,上祯是图像之缩略等。点击缩略图,页面分成两祯,上祯是图像之缩略图,以及页面链接,下祯是该图像所处的页。图,以及页面链接,下祯是该图像所处的页。 其检索同网站检索相似,其检索同网站检索相似,google图像搜索目前支持的图像搜索目前支持的语法包括语法包括“_”、“or”、 “site”、“filetype” 。新闻(组)检索新
27、闻(组)检索 新闻组有详尽的分类主题,某些主题还有新闻组有详尽的分类主题,某些主题还有专人管理和编辑,具有大量的有价值信息。专人管理和编辑,具有大量的有价值信息。由于新闻组包含的信息实在是海量,因此由于新闻组包含的信息实在是海量,因此不利用工具进行检索是不大可能的。不利用工具进行检索是不大可能的。 进入进入google新闻组,有两种信息查找方式。新闻组,有两种信息查找方式。一种是一层层地点击进入特定主题讨论组,一种是一层层地点击进入特定主题讨论组,另一种则是直接搜索。另一种则是直接搜索。 新闻检索也支持高级检索新闻检索也支持高级检索 分类检索分类检索 即目录内检索。如果不想搜索广泛的网页,即目
28、录内检索。如果不想搜索广泛的网页,而是想寻找某些专题网站,就可以访问而是想寻找某些专题网站,就可以访问google的分类目录。如:查找关于的分类目录。如:查找关于癌症治癌症治疗及护理疗及护理方面的中文资料,先进入中文简方面的中文资料,先进入中文简体分类目录,再进入体分类目录,再进入“健康健康”子目录,确子目录,确定选中定选中“只在健康中搜索只在健康中搜索”单选项目,在单选项目,在搜索栏内填入搜索栏内填入“癌症癌症”进行检索。进行检索。 该种检索方式的查询结果比普通的检索更该种检索方式的查询结果比普通的检索更有效,因为在分类健康项中进行搜索剔除有效,因为在分类健康项中进行搜索剔除了很多不相关的诸如新闻之类的无效信息。了很
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国际游戏版权交易与本地化改编服务合同
- 快递公司快递员离职交接合同
- 2025年中国微水洗车器市场调查研究报告
- 2025年中国彩色整染纸绳市场调查研究报告
- 2025年中国开式可倾式压力机市场调查研究报告
- 2025年护创敷料耗材合作协议书
- 2025年中国密码输入小键盘市场调查研究报告
- 2025年中国塑料泡沫盒市场调查研究报告
- 2025年中国压线轮市场调查研究报告
- 2025年中国十字阀市场调查研究报告
- 2024-2025学年统编版小学道德与法治三年级下册期中考试测试卷附答案
- 智能垃圾桶设计方案资料
- 2025陕西汉中汉源电力(集团)限公司招聘56人易考易错模拟试题(共500题)试卷后附参考答案
- 2025年北京市西城区中考一模道德与法治试卷(含答案)
- 新闻报道的写作及范例课件
- 【9数一模】2025年安徽省合肥市第四十五中学九年级中考数学一模试卷
- 年产30万吨生物航煤项目可行性研究报告(仅供参考)
- 南京师范大学自主招生个人陈述范文与撰写要点
- 浙江省A9协作体2024-2025学年高二下学期4月期中联考语文试卷(含答案 )
- 2025年初中学业水平考试地理模拟卷及答案:图表解读与地理学科创新试题
- (四调)武汉市2025届高中毕业生四月调研考试 语文试卷(含答案详解)
评论
0/150
提交评论