第6章 搜索引擎类型及其评介.doc_第1页
第6章 搜索引擎类型及其评介.doc_第2页
第6章 搜索引擎类型及其评介.doc_第3页
第6章 搜索引擎类型及其评介.doc_第4页
第6章 搜索引擎类型及其评介.doc_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章 搜索引擎类型及其评介第1节 搜索引擎类型1 搜索引擎的含义搜索引擎(search engine)是提供给用户进行关键词、词组或自然语言检索的工具,简言之,搜索引擎就是一种在因特网上查找信息的工具。用户提出检索要求,搜索引擎代替用户在数据库中进行检索,将检索结果反馈给用户。它提供的是WWW上的主页,新闻组中的文章,软件的存放地址及其作者,某个企业或个人的主页等。2 搜索引擎分类2 1 按信息内容的组织方式划分 按信息内容的组织方式,可将搜索引擎划分为目录式搜索引擎和机器人搜索引擎。2 1 1 目录式搜索引擎 目录式搜索引擎(directory,catalog)提供由网页作者所呈送的因特网资源的链接集合,同时对这些资源作出评价并组织成主题目录。目录式搜索引擎有两种基本类型:一种是由主题专家日常建立和维护的学术性专业目录,以满足科研人员的需要;另一种是为普通大众和商人服务的商业目录。 由于不同的目录式搜索引擎在选择标准方面存在着明显差别,所以在使用时,一定要使用能确切满足自己真正需求的那种类型的目录式搜索引擎。 有相当一部分人没有充分使用目录式搜索引擎,却直接使用机器人搜索引擎。学术性专业目录所列出的网址,是经过仔细挑选和注释过的,有一定的质量保证,在使用因特网时,没有理由忽视目录式搜索引擎。当检索一个范围较广的题目,并希望浏览一下与该题目相关的、被推荐的网站时,目录式搜索引擎是会非常有用的。 Yahoo!(http:WWW.)是Web上最流行的目录式搜索引擎之一,是最大的商业目录,但对它的不足之处应有足够的认识。当使用Yahoo!检索时,检索到的仅是标题和简短的描述语;相反机器人搜索引擎通常为用户作全文检索。Yahoo!倾向于索引较大网站的网页,因此,任何重要的较小网站的网页也许会消失在Yahoo!上。类似的还有:Galaxy(http:/WWW.)中文的搜狐(http:/WWW.)雅虎中国简体版(http:/)雅虎中国繁体版(http:/)2 1 2 机器人搜索引擎 机器人搜索引擎(狭义的search engine,有时被称为检索型检索工具)不是靠人工发现和甄别信息,而是由一个被称作“蜘蛛,(spider)的计算机程序在网中爬行,依据一定的网络协议在因特网中发现、加工、整理信息,并为用户提供检索服务。机器人搜索引擎由三部分组成:“蜘蛛”,从一个网页到另一个网页地游遍Web,鉴别和阅读网页;索引,含有一串由“蜘蛛”收集来的网页所组成的数据库;检索机制,能使用户检索索引,并通常依命中相关程度的次序来排列结果,同时把结果返回给用户。当检索一个特定网站或检索的题目范围较窄时,使用机器人搜索引擎是非常恰当的。重要的机器人搜索引擎有:AltaVista(),Excite(),HotBot(),Infoseek()Lycos(),WebCrawler();中文的北大天网( /)等。还有一个很特别的搜索引擎:/2 2 按专业范畴划分 按专业范畴,可将搜索引擎划分为综合性搜索引擎和专业性搜索引擎。2 2 1 综合性搜索引擎 综合性搜索引擎主要以网页和新闻组为搜索对象,信息覆盖范围广,适用用户广泛,如Yahoo!,Altavista,Excite,Infoseek等。Infoseek除网页和新闻资源外,还收集FTP,Gopher资源。2 2 2 专业性搜索引擎综合性搜索引擎覆盖信息太广泛,专指性差,一些专门性的网络检索工具便应运而生,许多学科已出现了本专业的搜索引擎,如社会科学信息网关(Social Science Information Gateway,http:WWWsosigacuk)是有关社会科学信息资源的搜索引擎,它由信息检索、信息浏览、最新信息、添加新资源和帮助信息五大部分组成。医学专业的搜索引擎就有几十个,其中,医学世界检索(medical worldearch,http:WWWmwsearchcom)是第一个医学领域的搜索引擎,它几乎囊括了网上重要的医学网站,并对其中挑选出的某些网页进行全文检索。它提供的简单检索能辨认美国国立医学图书馆医学词表中的主题词,并可自动扩大和缩小检索范围,高级检索能增加词表中的主题词或去掉不理想的主题词。另有一些具有专门用途的搜索引擎,如Checkdomain(http:WWWCheck domaincom)是专门的域名搜索引擎,利用它可以搜索世界大多数国家的域名注册情况;电子邮件地址(E-mailaddresses,http:wwwE-mailaddressescom)和图片搜索(http:WWWarribavistacorndefaultasp)则分别是专门用于搜索免费邮箱和图片的引擎。3 按检索功能划分 按检索功能,可将搜索引擎划分为独立搜索引擎和多元搜索引擎。3 1 独立搜索引擎 独立搜索引擎又称为单一搜索引擎或常规搜索引擎,它有自己的数据库,搜索时通常只检索自己的数据库,并根据数据库的内容反馈出相应的查询信息或链接站点。目前常见的搜索引擎如Yahoo!,AhaVista,Excite,Infoseek等,都属于这一类。3 2 多元搜索引擎 多元搜索引擎又称为元搜索引擎(meta search engine)或集成式搜索引擎(multiple search engine),它是多个独立搜索引擎的集合。元搜索引擎是通过一个统一的用户界面,帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。用户只需输入一次检索式,多元搜索引擎便同时将其转给不同的搜索引擎帮助检索,有的多元搜索引擎还可以将检索结果中的重复部分删去。这样,既扩大了检索范围,又节省了在不同的搜索引擎之间转换的时间。 搜索引擎与元搜索引擎的主要区别在于:搜索引擎拥有独立的网络资源采集标引机制和相应的数据库,而元搜索引擎一般没有自独立的数据库,却更多地是提供统一连接界面(或进一步地提供统一的检索方式和结果整理),形成一个由多个分布的、具有独立功能的搜索引擎构成的虚拟整体,用户通过元搜索引擎的功能,实现对这个主拟整体中各独立搜索引擎数据库的查询、显示等一切操作。元搜喜引擎中各独立搜索引擎被称为“目标搜索引擎”,或者“成员搜索引擎”,它们各自保持其原来的局部数据模式和自己的检索指令;元搜索引擎给出一个全局外部模式,用以接受用户检索输入和结果输出。过,有些元搜索引擎给出的全局外部模式不够完善。 按功能划分,元搜索引擎包括多线索式搜索引擎和All-in-One式搜索引擎;按运行方式的差异可分为在线搜索引擎和桌面搜索引擎。 多线索式元搜索引擎是指利用统一的检索界面,实现对多个独立搜索引擎索引数据库进行检索,并将检索结果以统一格式显示的网络检索工具。MetaCrawler、SavvySearch、Profusion等都属于多线索式元搜索引擎。这类元搜索引擎一般具有统一的检索界面,可进行检索指令转换,统一结果集的组织与显示。 All-in-One方式,是指元搜索引擎界面以任意顺序或分类罗列多个(一般都是数十个)搜索引擎,元搜索引擎本身主要提供各类搜索引擎的介绍信息和物理连接机制。用户可通过这类元搜索引擎了解有关的搜索引擎、连入所选择的搜索引擎。但元搜索引擎没有统一的全局外部模式,而是以各搜索引擎的检索模式和数据格式直接面对用户。例如,All-in-One元搜索引擎(http:WWWalbanynetallinonehtml)。确切地说,这种All-in-One方式的元搜索引擎只是搜索引擎的罗列,它们具有以下特点:仅仅提供一个简单的界面来帮助用户选择和使用各搜索引擎;只能选择一个搜索引擎进行检索;对各目标搜索引擎检索界面的复制可能是部分的或全部的;直接利用所选搜索引擎的显示格式呈送给用户。 许多元搜索引擎可以容许我们构建自己的提问式,其语法结构与流行的搜索引擎类似,大多数还有布尔逻辑选项。在使用某一个元搜索引擎时,最重要的问题就是,该搜索引擎是否能够把我们的检索提问“翻译”成目标引擎所遵循的语法结构,或者仅仅只是原样照搬。我们应该利用那些能将我们的检索提问“翻译”成目标引擎的检索语言的元搜索引擎,否则就会大大降低检索的效能。中文的元搜索引擎中,任良开发的飓风搜索通(http:WWWrenlianglcom)集Excite中文、新浪、Yahoo!中文、搜狐等引擎于一个页面,在同一时问内启动10个引擎并行工作,搜索速度较快,还有内码转换、深层有限搜索等特色功能,类似的还有中文的3721(http:WWW3721net)。 第2节搜索引擎的评价 如上所述,不同类型的搜索引擎在信息组织方面有自己的特色,各自的评价标准也不尽相同。例如,能否全面地收录某一主题范围的信息资源,是否采用本专业的主题词表,是评价专业性搜索引擎的重要指标;而能否将用户的检索式“翻译”成各成员搜索引擎可以理解的表达式,以及能否对不同引擎搜索到的结果进行整理与删除重复,则是评价元搜索引擎时应重点考虑的因素。由于目前使用最普遍的是综合性独立型的搜索引擎,且它们是元搜索引擎的重要组成部分。下面仅以这一类搜索引擎的评价标准为讨论对象。对综合性的搜索引擎可从以下指标进行评价:1 收录范围 从收录范围的角度考察,主要看搜索引擎收录的范围是否完备充分。搜索引擎的收录范围包括以下几个方面:1 1 地域范围1 2 语言范围1 3 资源类型范围1 4 专业范围2 分类2 1 分类方式2 2 分类级次2 3 交叉显示2 4 类名是否规范2 5各类的内容说明 3 检索功能与效果4 结果处理5 页面组织6 其他功能与服务第3节 中文综合性搜索引擎中文综合性搜索引擎有:百度()搜狐(http:WWWsohoocomcn)、广州网易(http:/WWWyeahnet)、北大天网(http:pccms.P:8000)、常青藤(http:/WWWtonghuacorncn)、雅虎中文简体版(即雅虎中国,http:cnyahoocorn)与繁体版(http:chineseyahoocom)等。这里只选择介绍两个。1 搜狐 http:WWW. 搜狐是由爱特信公司于1998年推出的大型中文网站。它提供了一个分类详尽的w。b目录,采用树型结构对站点进行层次性分类。 搜狐分类搜索引擎系统是搜狐网站的重要组成部分,它面向全球互联网华语圈用户,提供互联网信息查询服务。搜狐分类搜索引擎系统收录了大量的网站地址(以中文信息为主)。在搜狐网站上,用户可以通过“分类查询”和“关键字检索”两种方法查找信息。1 1 分类查询 搜狐“搜索者”(Hunters)不断地跟踪互联网内容发展,寻找网站。目前,搜狐Hunters已从浩瀚无垠的互联网世界里精心挑选出约20余万个具有一定主题内容的网站(以中文信息为主)。为方便用户查找,搜狐Hunters根据互联网特点及中国人的文化习惯,将网上信息分为18大类,它们是:娱乐休闲、工商经济、计算机与互联网、闻与媒体、体育与健身、文学、教育、卫生与健康、旅游与交通、艺术、生活服务、国家与地区、社会与文化、科学与技术、社会科学、综合参考、哲学与宗教、政治与法律,每个大类又分成许多子类目,层层往下,共有2万余个类目,涉及了人们需求的许多方面。用户查找时,可以根据要查找的信息所属的类目,从搜狐首页出发,层层点击相关类目,查找所需网站网址。1 2 关键字检索关键字检索,就是通过输入关键字查找信息。搜狐中文检索系统分为4个部分: 搜狐分类检索:可搜索搜狐类目架构中与键入的关键字相关的类目; 搜狐网站检索:可搜索搜狐分类数据库中收录的网站,结合搜狐分类结构显示; 全球网页检索:可对整个Internet上与关键字相关的网页,进行全文搜索和关键字匹配; 搜狐新闻检索:可搜索最近3个月“搜狐新闻”的内容。 如果你很清楚要找的网站(或新闻)主题,可以在检索框内键人关键字(keyword),并单击旁边的“搜索”按钮,搜狐中文搜索引擎会返回以下5个方面的检索结果。你可以在以下5个分类中任意切换,得到你需要的检索结果。 从搜狐类目中检索:检索结果页列出相关的搜狐中文检索类目。 从网站搜索中检索:检索结果页列出搜狐分类搜索数据库中,在网站名称、网站简介或网站关键字中含有与你键入的关键字相匹配的内容的所有相关网站。 从网页搜索中检索:除了相关检索的一些链接之外,检索结果页列出整个Internet上与你键入的关键字相匹配的内容的所有相关网页。 从新闻搜索中检索:检索结果页列出3个月内出现在搜狐新闻库中,包含你键人的关键字的相关新闻。 从中文网址搜索中检索:检索结果页列出在3721网站数据库的网站名称中含有与你键入的关键字相匹配的内容的所有相关网站。 请注意,如未特别指定,系统默认你从搜狐网站中进行检索。搜狐中文检索的默认检索方式是精确查询方式,查询包含完全符合关键字串的网站。例如,键入“中国北京”,会找出包含“中国北京”的网站但是会忽略包含“中国首都北京”的网站。 如果利用上述两种检索方式还得不到满意的结果,可进行搜狐高级搜索。1 3 高级检索 在检索框内键人关键字,可以选择搜索包含“所有输入的关键手”或“至少其中一个关键字”。 搜狐中文检索系统可以同时使用几个关键字,通过选择适当的逻辑操作符(“与”、“或”)得到相应的结果。 AND:表示前后两个词是“与”的逻辑关系。如关键字“中国AND教育”、“中国教育”以及“中国and教育”都会将所有包含“中国”并且包含“教育”的页面搜索出来。 OR:表示前后两个词是“或”的逻辑关系。如关键字“中国OR美国”会将所有包含“中国”或者包含“美国”的页面搜索出来。 你可以指定查询结果的编码类型,即希望返回的网页是“简体(国标码)”、“繁体(大五码)”,还是两者都要(“简体及繁体”,此为默认选择)。每种编码类型前有一个圆框,只需点中其一即可。 你也可以指定查询结果的类聚方式,即希望返回的网页是“内容类聚”、“站点类聚”,还是两者都要(“站点类聚及内容类聚”,此为默认选择)。每种类聚方式前有一个圆框,你只需点中其一即可。所谓“内容类聚”是指同一个内容的网页只出现一次,而不管整个Internet上有多少个不同的URL指向该网页。也就是说,“内容类聚”屏蔽掉了同样内容的网页,只提供其中一个URI供用户浏览使用。而“站点类聚”则只给用户提供相关网站的主页URI,屏蔽掉了同一个网站中各个不同的页面,但是,用户可以通过相关摘要底下的URL访问到该网站所有的页面。 你还可以指定查询结果中网页的生成时间,目前有4种选择:“任何时间的网页(默认选项)、“三个月内的网页”、“六个月内的网页”、“一年内的网页”。生成时间是一个下拉菜单,你可以从中选择。1 4 二次检索 网页搜索的结果页面中,还可进行二次检索,如最下部是一个搜索框,你可以在其中输入新的字串,按“重新搜索”按钮进行另一次新的搜索;按“在结果中搜索”按钮则可在结果中搜索,以对你的搜索进行精确化。例如,你第一次查找“计算机”时返回了太多网页,你可以在此框中输入“家用电脑”,再在结果中查询,该引擎会为你查出更为相关的内容。 5检索结果的显示与排列 在结果首页中显示总的搜索结果记录条数,同时显示前20条记录的分类情况、题目、简要说明等。 搜狐中文搜索引擎根据分类类目及网站信息与关键字串的相关程度来排列出相关的搜狐中文类目和网站。相关程度越高,排列位置越靠前。对新闻搜索的结果来说,日期最新的排在前面。2 雅虎中国 http:cnyahoocom Yahoo!中国是Yahoo Inc为全球中文读者所开发的网站,它收录了全球各地数以万计的中文网站,包括国标码简体字、大五码繁体字和图形中文网站。 除了主题式分类目录外,Yahoo!中国也提供许多其他的服务(例如:E-mail、聊天室、俱乐部等)。2 1 分类检索 雅虎中国提供了层次丰富的中文网站分类目录,共14个一级类目,逐层细分,最深在6级以上。分类目录完全由人工完成,归类较其他网站更为准确、合理。它的分类目录提供交叉显示,如一个计算机杂志网站,既出现在计算机类别中,又出现在杂志类别中,可以使用户从不同的途径找到同一个目标。 如果你很清楚要找的网站(或新闻)主题,可以在检索栏内键入想要找的关键字串(keyword),并按Search键,Yahoo!中国搜索引擎会搜寻Yahoo!中国分类类目、资料库中的网站信息以及新闻资料库。 如果从分类类目中检索。在检索结果页上会先列出符合条件的Yahoo!中国类目,接着是符合条件的相关网站。可以选择浏览Yahoo!中国类目内的网站,或直接点选“相关网站”来直接浏览符合条件的相关网站,或直接点选“相关新闻”来浏览符合条件的相关新闻。 如果从新闻页中检索。在检索结果页上会先列出符合条件的相关新闻,也可以直接点选“相关分类”来检索符合相同条件的类目或网站。2 2 关键词检索 可运用下列几种进阶检索(指利用前一次的检索结果作为后一次检索的范围)方式来获得更精确的检索结果: (1)利用双引号,来查询完全符合关键字串的网站。 例如:键人“中文输入”,会找出包含中文输入的网站,但是会忽略包含“中文形声输入”的网站。 (2)指定关键字出现的段落:加“t:”在关键字前,搜索引擎仅会查询网站名称;加“u:”在关键字前,搜索引擎仅会查询网址(URIs)。 (3)利用“+”来限定关键字串一定要出现在结果中;利用“一”来限定关键字串一定不要出现在结果中。2 3 检索结果的排列与显示 Yahoo!中国搜索引擎根据分类类目及网站信息与关键字串的相关程度来排列出相关的Yahoo!中国的类目和网站。影响相关程度的因素有: (1)和关键字串相同的字串的多寡。相同愈多,相关程度愈高。 (2)和关键字串完全符合(exact match),相关程度高于部分符合。 (3)和关键字串符合的字串位置。网站名称(或新闻标题)符合关键字串的相关程度高于网址(或新闻内文)符合关键字串的网站。 对新闻检索而言,新闻更新的时间也是搜索结果排序的考虑要素,最新的新闻将优先列出。第4节 外文综合性搜索引擎1 Yahoo! http:|WWWyahoocom Yahoo!不同于其他搜索引擎的地方在于,它提供了全面的分类体系,即提供了WWW服务的节点按主题建立分类索引,由专家手工进行,更具科学性。Yahoo!在全世界有许多地区版本:亚洲有中国大陆、中国香港、中国台湾、新加坡、印度、日本、韩国,澳洲有澳利亚。美洲有Yahoo!、加拿大、巴西、墨西哥、阿根廷,欧洲有英国、爱尔兰、法国、德国、意大利、丹麦、挪威、瑞典、西班牙。1 1 普通搜索 打开Yahoo!主页。直接进人了普通搜索窗口。 在普通搜索窗口中,列出了14大类内容,并且在每一大类下列出了各自的小类。查询时,可根据需要,点击大类或小类的超链接,Yahoo!就会给出一个查询界面,此时键入关键词,点击Search按钮或回车,待系统执行后,出现搜索结果。当然也可以直接在普通搜索窗口的对话框中键人关键词,进行查询,搜索将在Yahoo!Categories(Yahoo!类目)、Yahoo!Web Sites(Yahoo!网站)、Web Pages(网页)、News Stories(新闻故事)、Yahoo!Net Events(Yahoo!网络新闻)中进行。1 2 高级搜索 点击“Advanced Search”进入高级搜索窗口。 在该窗口中有多种选择:是搜索Yahoo!”还是搜索Usenet,以及搜索方式、搜索范围、搜索数据的时间、结果页一次显示文献的篇数等,可根据实际需要进行选择。 Yahoo!的高级搜索也提供一些操作符用以对检索项的限定。+、一、t、u的限制用法同雅虎中国中国的关键词搜索相同。“”的作用是将引号中的检索项作为字符串来检索。在词干后加上“*”,将把与词干相同的词一起检出,例如,run*。 组合语法(Combining the Syntax):上面几种操作符的组合顺序是:+、一、t、u、“”、*。1 3 搜索结果 Yahoo!搜索结果是按给定范围内文献的相关度排序的,排序的方式是: 多关键词匹配:含关键词多的文献比含关键词少的文献得分高。 文献部分加权:题目中含有关键词的文献比在其他地方或在URL中含有关键词的文献得分高。 分类普遍性:Yahoo!大类比小类得分高。2 AltaVista( ) AltaVista检索服务是从1995年12月开始的,它可以搜索WWW上的Web页、新闻、讨论组、产品、图形、声频或视频等资料,是目前世界上较优秀的搜索引擎之一,每天的访问量超过1亿人次。同时,AltaVista搜索速度很快,并且它维护了一个含时间变量的数据库,保证所查询的信息是最新的。2 1 普通搜索(main search) (1)搜索框说明 当打开AltaVista主页时,出现搜索窗口。 “Find this 主题输入框,在其中键人与所需检索内容相关的关键词、词组等。 “Language drop-down menu语言下拉菜单,该菜单中有25种语言供选择,通过它可限制所搜索文献的语种,包括中文。 “Find results on 检索限定,主题输入框下圆形按钮,用来指定搜索范围,可限定在Web、新闻、讨论组或产品等某一个或几个区域搜索,缺省值是“The Web”。Tabs”在主题输入框的上面有“Search”,“Advanced Search”,“Images,Audio&video”按钮,是用来确定搜索方式的。“Search”是普通搜索,“Advanced Search是高级搜索,“Image,Audio and Video是搜索图形、声像资料的。 “Search”在做好以上诸项选择并输入检索词后,点击“Findthis”右边的“Search”按钮或回车,AltaVista执行搜索。 例如,要搜索“信息安全”方面的信息,可在主题输入框中键入“information security”,再点击“Search”按钮或回车,搜索结果将显示含有“information security”的Web页。当使用几个单词进行检索时,不要担心搜索结果太大,因为搜索结果是按照相关度排序的,即相关度最大的Web页放在最前面。 (2)检索技巧 为了得到更加精确的搜索结果,可采取下列措施: 用自然语言作为检索提问。如想查找美国现任总统布什的资料,可键入“Where can I find information about George WBush?” 词组检索。当用词组检索时,用“”将词组包括起来,如electronic commerce”(电子商务),引号中内容作为字符串进行匹配;也可用标点符号或下画线、圆点等一些特殊符号创立一个词组,如某号码是1 412 648 8182,若要用此号码作为检索项,在主题输入框中应键AltaVista会将它当做词组来搜索。 选择特定的语言。Alta Vista共有中、英、法、德等25种语言可供选择,它还提供英语与法语、德语等语种之间的互相翻译。例如,在语种下拉菜单中选择Chinese,然后键入“windows 2000,则可搜索到用中文写的含有Windows 2000的页面。如用户访问某个法语站点,在其条目下选择French to English,就可以英文方式查看该站点的法文内容。 区分大小写的检索。当用小写字母输入时,匹配将在大小写中进行,搜索结果也同时包括大小写。当用大写字母输入时,匹配在大写中进行,搜索结果仅包括大写。例如,输入microsoft时,在搜索结果中含有microsoft,Microsoft,MICROSOFT;但当输入Micorosft时,在搜索结果中仅含有Micorosoft。 限定检索。在检索词前面加上“+”,表示该词一定要出现在搜索结果中,在检索词前面加上“一”,表示该词一定不要出现在搜索结果中,“+”、“一”与其后的检索词不留空格。如要查找国外经济学教育的资料,可键入:education+econom*一China。 通配符。在关键词的后面,加上通配符“*”,可以检索出含有键入的字母的所有词。例如,键入big*,将搜索出big、bigger、biggest、bigwig。2 2 高级搜索(advanced search) 普通搜索只能解决一般的检索问题,但是如果要检索某一日期范围的信息或用布尔逻辑运算符来组合检索时,就要用高级搜索,也就是说,普通搜索与高级搜索之间主要的区别是高级搜索具有布尔表达式运算的能力,同时高级搜索还有对搜索结果排序的功能。但使用者必须具有较专业的信息检索知识。 点击Advanced Search按钮,出现高级搜索窗口。 (1)搜索框说明 比较高级搜索框和普通搜索框,可以看出它们有几个方面的不同: “Boolean query” 即布尔提问式,类似于普通搜索框中的Find this,用来输入搜索项,但这里的搜索项是用布尔逻辑运算符组配起来的相对复杂的检索提问。 “Sort by 在后面的对话框中键入一个或几个词,搜索结果将按这些词排序显示。 “Fromto” 用来限定所需信息的时间段,日期按“日月年”格式输入,例如:From 01Jan98 to 30Dec99。 (2)操作符 AND(&) 要求检索到的文献必须同时含有AND两边的检索项,如university AND college。 OR() 要求检索到的文献只需含有“0R”两边的任一检索项即可,如university OR college。 AND NOT(!)要求检索到的文献须含有AND NOT前面的检索项,不必含有后面的检索项,如university AND NOT college。 NEAR()要求检索到的文献同时含有“NEAR两边的检索项,且这两个词最多相隔10个单词,但对它们的前后位置未限制,如adult NEAR education。 () 同时使用()和布尔逻辑运算符,可表达复杂的检索提问,如查找“中国古典音乐”的资料,可输入(China OR Chinese)AND(classic music)。 例如,要查找“1999年”所写的关于“果汁”的资料,且希望将有关苹果汁与橙汁的资料排在前面,则要进行这样几步操作: 在Boolean query”后的对话框中键入fruit AND juice; 在Sort by后的对话框中键入apple,orange; 在From后的对话框中键入01Jan99,在“to后面的对话框中键入31Dec99; 点击Search或回车。 搜索结果将显示按apple,orange排序的,含有“fruit”和“juice”的网页信息。 新闻搜索、图形及声、视频资料搜索和以上介绍的搜索方法大同小异可照此类推。2 3 典型搜索 AhaVista并不仅仅局限于文本的检索,也可以使用特殊的关键词来搜索,比如,搜索Web页的题目或者域名。目前,AltaVista提供的特殊关键词有: anchor:text查找在超级链接含有指定的词或词组的页面。例如,anchor:“Click here to visit gardencom”,将用“Click here to visit gardencom”作为链接。 applet:class 查找含有指定Java applet的页面。例如,applet:Morph将搜索到被称作Morph的applet页面。 domain:domain name 查找含有指定域名的页面。例如,domain:uk,查找来自英国的站点,domain:COrn,查找商业站点的页面。 image:file name 查找含有指定文件名图形的页面。例如,image:beaches,将查找被称作beaches图形的页面。 host:name查找特定的计算机页面。例如,host:,将查找在tsinghuaeducn上的名为lib的计算机页面。 link:URL 查找链接到指定URL 的页面。例如,link:WWWwhitehousegov,将查找所有链接到whitehousegov的页面。 text:text查找在图标、链接、URL 等处含有指定文字的页面(这里前一个text表示在文本中查找,后一个text表示要查找的文字)。例如,text:graduation,将查找在图标、链接、URL等处含有graduation的页面。 title:text查找在题目中含有指定的词或词组的页面。例如,title:sunset,将查找在题目中含有sunset的页面。 url:text查找在URL中含有指定的词或词组的页面。2 4 搜索结果 AltaVista对搜索结果是根据文献的相关度排序,即相关度越大,排序越靠前。结果包括文献的题目、简短的摘要、URL、更新日期以及AltaVista翻译工具等。为了扩大搜索范围,在AltaVista结果页还提供相关搜索功能。例如,当用birthday(生日)检索时,利用相关搜索,可以得到一个列表,内容包括:birthday cards(生日贺卡)、birthday cakes(生日蛋糕)、birthday greetings(生日祝福)、birthday poems(生日诗歌)等。 此外,在AltaVista结果页中,还有一些按钮:“Image”(图像)、“Audio”(声频)、“Video”(视频)、“Catagories”(类目)、“The Web”(万维网)、“News”(新闻)、“Products”(产品)、“Discussions”(讨论组)等,它们是用来扩展搜索的。例如,在主题输入框中输入“human cloning(克隆人),但在Web页上没有搜索到任何文献,这时就可在Alta Vista结果页点击以上各种按钮,Alta Vista将立即重新进行搜索。3 Excite http:|WWWexcitecom Excite公司问世于1995年,并在网上推出各种服务,包括E。Ecite Search,Excite News,Excite Reference等,同时在全球建立了9个国际站点,成为网上著名的搜索引擎之一。其搜索范围广泛,包括Web信息、新闻组、分类广告、人物信息。它最突出的特点是采用概念检索模式,可在词频统计的基础上自动搜索检索词的同义词、近义词和其他相关词。3 1 普通搜索 当打开Excite主页时,将直接进入普通搜索方式。在检索框(search box)中键人所需检索项,检索项可以是关键词、词组或用布尔逻辑运算符组配成的复杂检索式,回车或点击“Search”按钮Excite开始搜索,并将搜索结果根据相关度大小依次列出。 (1)关键词检索 在检索框中输入单词,词与词之间不留空格,且两者之间隐含逻辑“或”的关系,同时,由于Excite具有智能搜索的特点,所以采用多个比较专指的关键词进行搜索,可搜索到更多的相关文献。 (2)词组检 词组检索要求搜索结果中必须含有与提问式完全一样的字符串,词的顺序不改变。词组检索时要用“ ”将词组包括起来,让Excite知道这是要求它进行词组搜索,如“information super highway” (信息高速公路)。 (3)限定检索 利用“+”、“一”修饰检索词可进行限定检索。在检索词前加“+”,表示该检索词一定要出现在检索结果中,在检索词前加“一”,表示该检索词一定不要出现在检索结果中,“+”、“一”与检索词之间不留空格,如+WWW,一Usenet。 (4)布尔逻辑检索 使用AND、OR、AND NOT、()可构造复杂的检索项,满足不同的检索需求。在Excite中,使用布尔逻辑运算符时,运算符一定要大写且与词之间不留空格。当用户使用布尔检索式时,Excite搜索引擎会自动停止概念分析的搜索功能,而按检索提问式的要求进行搜索。 “()”用于改变运算的优先级,同时使用“()”和逻辑运算符可组合成复杂的检索提问。如查找“数据仓库”和“数据挖掘”或“数据抽取”的信息,可输入data warehouseAND(“data miningOR“dataextracting”)。3 2 搜索智囊(search wizard) 在普通搜索结果显示页的窗口下面,Excite为用户提供了搜索智囊,它可根据所输入的提问式,动态地推荐10个与检索主题最相关的检索词,目的是帮助用户更准确地表达检索要求,用户可从中选择适当的词添加到原有的检索提问中。在每一个词的前面都有一个小方格,用鼠标点击小方格,Excite自动将小方格的词添加到检索提问中,如不想添加,可再点击该小方格,前面添加到检索提问中的检索词将被自动删除。3 3 高级搜索(advanced search) 在Excite主页的最下方,提供了高级搜索的入口。“高级搜索平台”将它的功能选项提供给用户,因而用户不必去构造检索式,只要在对话框中键入相应的搜索项目,就能准确地搜索到相关的文献。用户也可以指定搜索数据库,如WWW,Current News,Excite Germany,Excite France等。3 4 搜索结果 Excite对搜索结果进行相关排序,并运用特有的算法比较搜索提问式和网页内容之间的相关百分比,提示搜索结果的相关程度,百分比越高,表明这个搜索结果越符合需求。每一搜索结果依次给出相关度百分比、题名、URL、网页摘要等。同时,Excite对搜索结果进行分类编排。 首选站点(try these first) Excite在搜索结果之前,针对检索提问首先向用户推荐其他相关站点,包括recommended Web sites(推荐站点)与more Web sites(更多网站)。 相关主题目录(directory matches) Excite搜索结果中的相关主题目录向用户提供与检索提问相匹配的有关主题目录及简介。 网页搜索结果(Web results) 按相关度的大小,每次显示10个WWW搜索结果,在其下面有Search for more documents like thisone”(检索更多的这样的文献)按钮,点击该按钮可以获得更多信息。点击Show Title Only(只显示题名)按钮将不显示搜索结果中的网页摘要,点击“List by Web Site”(按网站排列)按钮则将前40个搜索结果变成一个按网站排列的目录,在每一网站名下,按相关度列出该网站内所有与检索提问相关的网页。 新闻(news articles)Excite收录了多种电子报纸和期刊,并且每天都在更新。新闻的搜索结果有:show summaries(显示摘要)、view bv publication(按出版物显示)、view by date(按日期显示)等。4 WebCrawler http:wwwwebcrawlercom 1994年开始使用的WebCrawler是第一个在Internet上提供全文检索的搜索引擎,随后Lycos,InfoSeek,OpenText也提供全文检索。4 1 普通搜索 普通搜索和上述几个搜索引擎的普通搜索基本一致,在此不再重复。4 2 高级搜索 高级搜索与AltaVista的高级搜索也大致相同,只是操作符略有些区别现列举如下: AND、OR、NOT、()的用法与Alta Vista中的用法相同。+ 在检索词前加上“+”,是要求在检索结果的页面里一定要出现该词。例如,+san+Francisco+restaurants,表明在检索结果的页面里一定要同时出现这3个词,而san+Francisco+restaurants并没有要求san一定要出现在页面里。 一 在检索词前加上“一”,是要求在检索结果的页面里一定不要出现该词,例如,+Chicagouniversitiesschools,表明在检索结果的页面里一定要含有Chicago,但既不含有“universities”又不含“schools”。 “” 用引号将检索项包括起来,引号中的内容作为字符串来搜索,例如,“2008 Olympic Games(2008年奥运会),表明只有含有短语2008 Olympic Games”的页面才能命中。 NEAR 在AltaVista中NEAR有一个默认,即两个词之间的间隔不超过10个单词,而在WebCrawler中用NEAR连接的两个词之间间隔的单词数是可以变化的,如data NEAR15 mining,这样data和mining之问最多可相隔15个单词,若未指明该参数,WebCrawler则认为是0。 ADJ NEAR运算符没有规定连接的两个词之间相对的前后位置关系,而ADJ连接的两个词,则要求左边的在前面,右边的在后面。另外,对于两个词的短语,用ADJ有时可产生与用“”相同的结果,如查找“网络营销”,“online marketing和online ADJ marketing有同样的效果。4 3 搜索结果WebCrawler同其他搜索引擎一样,都是按命中页面的相关度排序的,相关度越大文献越靠前。也可以对WebCrawler的搜索结果重新设置。Title(题名)方式,只显示命中网页的题目;Summary(摘要)方式,除了显示命中网页的题目外,还显示摘要;一次显示页面数量也可设置。5Googlehttp:/WWWgoogleeomGoogle由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年9月发明。Google Inc于1999年创立。2000年7月,Google替代Inktomi成为Yahoo!公司的搜索引擎,同年9月,Google成为网易的搜索引擎,并在2000年11月获得Pf Magzine杂志的搜索引擎“编辑选择奖”(editors choice)。Google采用全文标引方式,并提供每日更新。特点有: 支持多达132种语言,包括简体中文和繁体中文。 网站只提供搜索引擎功能,检索主页页面都相当简明,没有花里胡哨的累赘。 速度极快,据称有8 000多台服务器,200多条T3级宽带。 搜索效率高。Google采用新一代的先进技术,根据互联网本身的链接结构对相关网站用自动方法进行分类,为每一个查询迅速提供准确的结果。Google以其独树一帜的网页级别(PageRankTM,已申请专利)技术,打破了传统网络分类概念,带来了网络搜索的革命。Google搜索准确率极高。智能化的“手气不错”功能,提供可能最符合要求的网站。 可设定“使用偏好”(preferences),包括选择“界面语言”(interface language)和“查看结果数”(number of results)。 帮助文件内容较多,分成基本检索、高级检索、结果页说明等多个页面。 Google刚启动了电话号码搜索。在输入某人的名字和美国州名的缩写后,如果存在的话,用户将会得到电话号码清单。 Google还有一些尚处于试验中的先进技术,包括Google语音搜索。有了这项功能,用户就可以通过对电话或者手机说出关键字进行搜索,而不必用手敲打键盘。用户通过用普通电话或者手机呼叫一个特殊的电话号码,然后就会听到一个欢迎的声音告诉你“请你说出你要搜索的关键字”,当你说出关键字之后。搜索结果就会显示在PC浏览器或者WAP手机的屏幕上。 由于这些强大的功能,Google迅速成为搜索引擎的后起之秀。Google已成为许多网络用户对搜索引擎的首选。同时,它得到了业内人士的首肯,部分缘于它对搜索技术的关注以及对商业化的节制。5 1 基本检索(basic search)逻辑“与”。如果检索框中的两个关键词之间用空格隔开则默认为是AND(“与”运算)连接。 逻辑“或”运算需用大写的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论