计算机检索教案_第1页
计算机检索教案_第2页
计算机检索教案_第3页
计算机检索教案_第4页
计算机检索教案_第5页
已阅读5页,还剩128页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

InformationRetrieval信息检索第一章计算机信息检索概述

计算机检索是伴随着计算机科学和情报学的发展而发展的。情报学是一门发展中的交叉学科,吸收融合了其他学科,例如:认知学、计算机科学、统计学、语言学、信息论、控制论、行为科学等。自动采集数据、自动分类整理、自动信息群聚类、自动网页链接、自动全文内容概括、自然语言理解、多媒体信息检索、概念检索、数据挖掘、知识发现、信息过滤等已经将情报学推上了数字化、网络化、智能化的舞台。1.1信息检索的起源和发展信息的含义《暮春怀古人》-梦断美人沉信息,目穿长路依楼台。《寄远》-塞外音书无信息,道旁车马起尘埃。美国数学家克劳德·香农——”信息是用来消除不确定性的东西”控制论的创始人维纳——”信息是人们在适应外部世界并使这种适应反作用于外部世界的过程中,同外部世界进行互相交换的内容的名称。”

1.1信息检索的起源和发展信息的特征客观性——信息的存在可以被人感知、获取、传递和利用。时效性——信息会随事物存在方式和运动状态的改变而改变。载体性——信息必须依附一定的载体。传递性——信息从信息源出发经过载体的传递被接收或处理和利用。可塑性——人们可以对信息进行综合处理、分析和加工。共享性——同一信息可同时或不同时被多用户使用。1.1信息检索的起源和发展信息的级别述评综述词典年鉴手册百科全书知识的产生记录档案学位论文标准科技报告专利说明书会议论文期刊论文专著一次信息二次信息文摘索引目录三次信息传播信息的利用1.1信息检索的起源和发展信息检索的概念信息检索(InformationRetrieval)是指信息用户为处理解决各种问题而查找、识别、获取相关的事实、数据、文献的活动和过程。(信息的存储和组织、信息的检索、信息的展示)信息检索的研究是伴随着科学技术的发展和信息数量剧增而兴起的研究领域。(1)文献检索——20世纪中叶以前,信息存储和传播主要以纸质介质为载体,信息检索活动也围绕着文献的获取和控制展开。(2)随着科技的发展,计算机的应用,信息检索经历了从手工检索到机械检索再到计算机检索的过程。1.1信息检索的起源和发展信息检索的类型——依据信息存储和检索方式和技术来划分手工检索——用手工方式来处理和查找文献,如作者、文摘、索引、目录、参考文献、关键字等。脱机批处理检索——是指定期由专职检索人员把用户课题汇总,批量处理提问要求并把结果提供给用户。(50年代中后期)联机检索——用户使用终端设备,通过通信线路与中央计算机连接,直接与计算机对话进行检索,结果由终端输出。(70年代)光盘检索——光盘信息存储密度高,容量大,读取速度快。光盘检索系统费用大大低于联机检索。(80年代)网络化联机检索——国际互联网的出现。(90年代)1.1信息检索的起源和发展信息检索的类型——依据检索内容来划分文献信息检索——凡是利用目录、文献或索引等二次信息来查找某一课题、著作等属于此类。数据信息检索——利用参考书、数据库等检索工具检索包含在文献中的数据、参数、公式等称为数据检索。事实信息检索——利用百科全书等检索工具从事实信息系统中查找特定事实的过程称为事实信息检索。1.1信息检索的起源和发展应用系统1956~1963年美国武装部队技术情报局的ASTIA系统;1962年美国航空航天局的NASA系统;1964年美国国家医学图书馆创建的医学文献分析与检索系统MEDLARS;化学文摘等。70~80年代DIALOG系统、RECON系统等。CyFr系统。CyFr系统是Schank、Kolodner和DeJong于1981年根据概念信息检索理论建立的系统,用于处理与美国前国务卿范斯(Vance)有关的新闻。Researcher系统。由Lebowitz于1983年在哥伦比亚大学研制,用于阅读和理解用自然语言形式输入的专利文献摘要。目前已建立的基于超文本的信息检索系统,如AltaVista、WebCrawler、Yahoo!、Lycos、OpenText、Infoseek、Google等著名的网络检索系统。1.1信息检索的起源和发展信息检索(InformationRetrieval)是针对信息项进行表示、存储、组织和存取。对信息项的表示和组织应该为用户提供其感兴趣信息的方便存取。数据检索(DataRetrieval)检索满足给定查询的数据。数据检索语言目的在于检索出所有明确满足给定条件的对象。信息检索处理的通常是自然语言文本,而人们总不能使自然语言文本很好的结构化,而且自然语言文本有可能会有语义上的歧义。数据检索系统(如关系型数据库)处理的是那些已经定义好结构和语义的数据。Selectcount(*)fromtable_1whereage>=30;1.1信息检索的起源和发展为了有效的满足用户信息需求,IR系统必须以某种方式“解释”集合中信息项的内容,并根据与用户查询的相似度对它们进行排序。这种对文献(信息)内容的“解释”包括从文献文本(信息)中提取语法和语义信息并将这些信息用于匹配用户的信息需求。难点在于:如何提取这些信息,和如何运用它来确定相关性。相关性(Relevance)的概念就成为信息检索的核心。1.2信息检索的过程用户界面文本操作查询操作检索排序标引索引数据库管理模块文本数据库文本文本逻辑视图倒排文档逻辑视图用户反馈查询检出文献排序文献信息检索的过程用户需求1.3信息检索技术的研究内容1、检索模型的研究。(不再是仅仅以布尔模型、概率模型为理论基础,而是逐渐引入遗传算法、并行算法、粗糙集理论等构建智能检索模型)2、信息处理技术与组织研究。自动分类(自动归类、自动聚类、类号自动转换)自动文摘和查询的扩展和精化3、信息检索技术与方法研究。检索算法的研究全文检索、超文本检索、多媒体检索智能检索、多语种检索、分布式检索4、信息可视化技术。1.4检索技术的未来以人工智能为代表的信息检索自动化趋势。人工参与检索工具的信息组织是检索工具的发展趋势。多媒体信息检索技术的成熟与发展(图像:颜色相似性、纹理相似性、形状相似性、目标和目标关系相似性)。多语种检索的支持。个人化的检索工具和专业化的检索工具。1.4检索技术的未来1.4检索技术的未来1.4检索技术的未来1.4检索技术的未来1.4检索技术的未来1.4检索技术的未来第二章

WEB信息检索系统

WEB资源现已成为Internet上最主要的信息资源,它影响着人们的学习、工作、生活等方方面面。面对这样一个巨大的信息宝库,如何快捷的从中获取信息,发挥它的最大作用,这是信息工作者和相关领域研究者面临的重要研究课题。如何把分布在世界各地的、无序的、各式各样的WEB资源信息有序化,使之便于提取。因此,要求人们必须能对WEB信息进行及时的采集、高效的处理、科学的组织,并提供对其进行快速有效查询的检索工具。2.1Web技术发展概述

目前Internet能够找到的网页已多达数百亿,并且仍以每几个月翻一番的速度增长。网页数全国网页总数157,091,220个其中:静态网页数104,593,217个

动态网页数52,498,003个静动态网页数比例1.99:1平均每个网站的网页数423个网页字节数全国网页总字节数2,877,754,095KB每个网页平均字节数18.319KB平均每个网站的网页字节数7744.2KB2.1Web技术发展概述

互联网用户:21亿:全球互联网用户总数9.222亿:亚洲互联网用户数量4.762亿:欧洲互联网用户数量2.711亿:北美互联网用户数量2.159亿:拉丁美洲和加勒比海地区互联网用户数量1.186亿:非洲互联网用户数量6860万:中东地区互联网用户数量2130万:大洋洲/澳大利亚互联网用户数量45%:25岁以下互联网用户的比例4.85亿:中国互联网用户数量,这超过了世界上其它任何一个国家36.3%:中国互联网普及率5.91亿:全球固定线路宽带连接数量2.1Web技术发展概述

社交媒体:8亿多::截至2011年底,Facebook用户数量2亿:2011年Facebook新增用户数量3.5亿:通过手机登录Facebook的用户数量2.25亿:Twitter账户数量1亿:2011年活跃Twitter用户数量1810万:LadyGaga的关注者数量,这是Twitter上最受欢迎的用户2.5亿:每天发送的Twitter消息数量(2011年10月)2.1Web技术发展概述

电子邮件:314.6亿:全球电子邮件账户数量27.6%:微软Outlook是最流行的电子邮件客户端19%:经过垃圾邮件过滤之后企业邮箱收件箱收到的垃圾邮件比例112封:平均每位企业客户每天收发的电子邮件数量71%:全球垃圾邮件的比例(2011年11月)3.6亿:Hotmail用户总数(全球最大的电子邮件服务)44.25美元:2011年每投入1美元的电子邮件营销预计可获得的回报40年:自1971年首封电子邮件发出之后的时间0.39%:恶意电子邮件比例(2011年11月)网站:5.55亿:网站数量(2011年12月)3亿:2011年新增网站数量2.1Web技术发展概述

不同地区的互联网用户比例,2011年3月亚洲:44%欧洲:23%北美:13%拉丁美洲和加勒比海地区:10%非洲:6%中东:3%大洋洲/澳大利亚:1%2.1Web技术发展概述

不同地区的互联网普及率,2011年3月非洲:11%亚洲:24%中东:31.7%拉丁美洲和加勒比海地区:36.2%欧洲:58.3%大洋洲/澳大利亚:60.1%北美:78.3%2.1Web技术发展概述

全球桌面浏览器市场份额,2011年12月IE:39%Chrome:28%火狐:25%Safari:6%2.1Web技术发展概述

非结构化——由脚本语言构成。

动态性——Internet每个月变化的信息量占总信息量的40%。复杂性——Internet是完全开放的,数以亿计的网络使用者都可能成为信息提供者,形成一个无序而复杂的信息源。WEB信息的基本特点2.1Web技术发展概述

Htm/36.80%html16.35%shtml5.36%/3.99%asp2.93%php1.08%txt0.34%nsf0.17%xml0.15%jsp0.11%cgi0.08%pl0.03%其它32.61%2.1Web技术发展概述

Web信息的表现方式和查询方式

通过统一资源定位器能够获取WEB信息,但其前提是知道存放信息的服务器的具体地址,而在庞杂的网络中寻找IP地址的开销太大了。借助于Internet特有的信息检索工具。随着Web逐渐成为Internet信息组织与利用的主流形式,针对Web资源的搜索引擎工具成为主要的检索工具。2.1Web技术发展概述

网络信息检索工具发展概述

目前在Internet上运行的网络检索工具可分为三大类:交互式信息提供服务(InteractiveInformationDeliveryServices);名录服务(DirectoryServices);索引服务(IndexingServices)。2.2Web信息检索工具

网络信息检索工具发展概述

2.2Web信息检索工具

目前在互联网运行的交互式信息服务软件主要基于WWW和Gopher,名录服务软件主要基于WHOIS、NETFIND和X.500,索引服务软件主要基于Archie、Veronica、Jughead和WAIS。交互式信息检索工具一般为用户提供友好的交互操作界面,并具备交互浏览信息的功能,信息在网络上的存放方式以及如何取得信息,对使用者都是透明的。菜单式查询系统Gopher是Internet上较早出现的一种交互信息查询工具。WWW系统是近年来发展的最重要的一种交互信息查询工具,也是迄今用户最多和使用最为方便的工具。2.2Web信息检索工具

菜单式查询系统(Gopher)

Gopher是一种按“菜单”形式组织的分布式文档查询系统,1991年在美国Minnesota大学发展起来。开始用于校园网,后来推广到Internet。Gopher为用户查询信息提供一个多级的菜单界面,只需按照菜单指示的路径就能获取想要的信息,使用非常方便。发一封E-mail信件给某一最靠近你的Gophermail服务器,服务器响应你的信件,邮寄给你一封包含它的主菜单或某一gopher服务器的主菜单;你处理该信件,把需要的菜单项打上标志,然后返回给Gopher服务器。2.2Web信息检索工具

广域信息服务系统(WAIS)

WAIS(WideAreaInformationSystem)以各种文本数据文件为检索对象(信息源),融汇了Archie、newsgroup等的信文件在内的各类信息。目前,Internet上已建立了几千个提供检索服务的WAIS服务器,成为整个Internet网络文本式信息资源的检索工具。用WAIS检索信息可分两步进行:第一步,先从信息源(文件题目)列表选择检索对象;第二步,在选定范围内通过文件的关键词查找文件。2.2Web信息检索工具

网络文件搜索系统(Archie)

Archie可以使用户能够查询信息资源的存放地址,以便能够从特定场所的服务器中获取各种感兴趣的或者有用的信息。Archie服务器其实是一个存放了所有匿名FTP服务器地址和相关信息的数据库,它能帮助你找到有关FTP的地址或文件的信息,因而使用电子邮件来查询地址是十分方便的。

archie@

archie@

archie@

archie@archie.doc.ic.ac.uk

archie@archie.au

archie@archie.funet.fi

archie@archie.luth.se2.2Web信息检索工具

搜索引擎系统(SEARCHENGINE)搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的倒排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。互联网搜索引擎除了需要有全文检索系统之外,还有“蜘蛛”(SPIDER)系统,即能够从互联网上自动收集网页的数据搜集系统。2.2Web信息检索工具

2.3Web搜索引擎的类型和特点

搜索引擎系统(SEARCHENGINE)从最初的主题指南发展到独立型搜索引擎、混合式搜索引擎、元搜索引擎乃至分布式搜索引擎,折射出搜索引擎功能不断改进、性能日趋完善、更趋向智能化的检索特征。2.3Web搜索引擎的类型和特点

1、主题指南(目录式搜索引擎)目录式搜索引擎是搜索引擎的最初表现形式。是人工式或半自动式建立的、结构化的互联网网址主题类目和子类目,按照字母、时间、地点、主题等顺序进行排列,使用户通过浏览网络站点列表,检索有关信息。主题指南由人工编制和维护,因此在信息的收集、编排、HTML编码以及信息注解等方面花费大量的人力和时间。它强调的是浏览功能,优点是采用人工干预提高了主题指南返回结果的相关性;缺点是很难检索到较深的信息,难于控制主题等级类目的质量,信息更新速度相对较慢,收录信息数量相对不足。2.3Web搜索引擎的类型和特点

1、主题指南(目录式搜索引擎)用户进行笼统或较笼统的主题浏览和检索。当用户尚未形成很精确的检索概念时,采用主题指南作为检索起始点非常有效。除综合性主题指南之外,为了适应网上各种类型信息的发展变化,又出现了某些专业的主题指南,它由某一领域的专家编制和维护,在信息准确性和易于理解方面比综合性主题指南要好。2.3Web搜索引擎的类型和特点

2、机器人搜索引擎由一个称为蜘蛛、机器人、爬行者或蠕虫的程序以某种策略自动的在互联网中搜集和发现信息,由索引器为搜到的信息建立索引,由检索器根据用户的查询输入索引库,并将查询结果返回用户。WEB信息资源信息采集模块信息标引模块索引数据库信息检索模块用户系统2.3Web搜索引擎的类型和特点

2、机器人搜索引擎在WEB搜索引擎中,信息采集Robot的效率会直接影响搜索引擎的更新周期和数据的及时性。信息采集Robot是一种软件程序,它从一个或一组URL出发,访问该URL并进行索引,同时纪录该URL所指向的HTML文件中的URL。

为了使标引关键词和摘要更好的反映网页内容,保障用户检索的查准率,Html语言提供了Metakeyword标记和Metadescription标记来帮助网页编制者们专门提供关键词和整个站点的描述摘要。2.3Web搜索引擎的类型和特点

2、机器人搜索引擎

Robot在信息采集的过程中,具体包括3个模块:文件访问模块、路径选择模块、访问控制模块。文档访问模块访问控制模块路径选择模块2.3Web搜索引擎的类型和特点

3、混合式搜索引擎随着搜索引擎技术的不断发展,机器人搜索引擎多与主题指南合二为一,演化为兼具有分类浏览和关键词检索功能的混合式搜索引擎。混合式搜索引擎是目前占据搜索引擎主导地位的一种搜索引擎,具有分类浏览和关键词检索功能。2.3Web搜索引擎的类型和特点

4、元搜索引擎元搜索引擎(又称集成搜索引擎,MegaSearchEngine,MultipleSearchEnginge)是一种集成化搜索引擎,它是多个独立型搜索引擎的集合体。与独立搜索引擎的区别在于,元搜索引擎没有自己独立的数据库,通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的甚至是同时利用多个搜索引擎实现检索操作。2.3Web搜索引擎的类型和特点

5、分布式搜索引擎分布式搜索引擎是基于搜索机器人的搜索引擎。其基本思想是:根据地域、主题、IP地址或其他的划分标准,将全网划分成若干自治域,在每个自治区内分设检索服务器。由于分布式搜索引擎将索引数据库划分到几个分散的数据库中,每个数据库变小了,但所有搜索引擎覆盖的范围则变大了,且很少有信息重复。而作为分布式系统特性之一的可扩充性也是分布式搜索引擎的优点之一。第三章

常用中英文搜索引擎及检索策略

第三章

常用中英文搜索引擎及检索策略

2011年,谷歌仍然盘踞核心搜索引擎榜首,占到总搜索量的65.9%,占据了近2/3的市场份额。但2011年最引人注意的还是微软必应。12月份,必应首次赶超雅虎,位居榜单第二的位置。2011年,必应持续稳定发展。截至年底,必应所占市场份额达到15.1%,与去年同期相比,增长了3.1%。12月,雅虎以14.5%的搜索量位列第三。AskNetwork及美国在线(AOL)分列第四、第五,搜索量所占份额分别为2.9%和1.6%。第三章

常用中英文搜索引擎及检索策略

根据艾瑞咨询统计数据显示,2012年第二季度中国搜索引擎市场规模68.7亿元。从市场竞争格局来看,2012年第二季度百度在中国搜索引擎市场中的绝对优势地位得到进一步增强,市场份额由77.6%扩张到79.4%;搜狗保持增长态势,由从2.6%上升到2.9%;谷歌中国市场持续被压缩,由17.9%降至16.2%;此外,搜搜占比由1.5%微降至1.4%,其它企业占比下降至0.2%。3.1常用中文搜索引擎1.搜狐

搜狐(http:///)提供分类目录网站检索,搜集范围以中国为主,收录较丰富,还加入了部分英文网站,分类较科学,类目缜密。它也是第一个针对国内中文网页的搜索引擎,此外它还包括新闻信息、多媒体文件下载、网上调查、免费电子邮件等其他服务。搜狐的分类库组织的更象一个精心组织的导航库,对于一个想在网上浏览的新手来手有一定参考价值。

第三章

常用中英文搜索引擎及检索策略

第三章

常用中英文搜索引擎及检索策略

第三章

常用中英文搜索引擎及检索策略

3.1常用中文搜索引擎2.新浪新浪(http:///)提供分类目录、网站检索以及全文检索,搜集范围遍及全球中文网站,收录非常丰富;分类规范,层次合理;全文检索为AltaVista、IPO提供支持;但复杂条件查询较弱;可提供热门关键词查询等新方式。第三章

常用中英文搜索引擎及检索策略

第三章

常用中英文搜索引擎及检索策略

第三章

常用中英文搜索引擎及检索策略

3.1常用中文搜索引擎3.网易网易(/)提供较丰富的分类目录、网站检索及FTP检索,范围以中国为主收录富,目录较严密;提供新闻等其他服务,网易主站另有“网站导航”栏目,分类列举推荐网站。它的搜索引擎也是颇有特色,它先将用户的检索式在自己的分类库中进行查询,如果没有检索出结果,系统将自动将提问式转向全文数据库进行检索。如果在分类库中检索出结果,用户对检索结果不满意,可以直接按检索结果页面底部的全文检索按钮,继续在全文库中进行检索,这对于一个非专业用户来说是非常实用的一种检索策略。第三章

常用中英文搜索引擎及检索策略

第三章

常用中英文搜索引擎及检索策略

3.1常用中文搜索引擎4.百度百度(http:///),2000年1月创立于北京中关村,是全球最大的中文搜索引擎。拥有目前世界上最大的中文信息库--超过10亿的中文网页数据库,这些网页的数量每天正以千万级的速度在增长。百度采用了基于内容和基于超链分析相结合的方法进行相关度评价,能够客观分析网页所包含的信息,从而最大限度保证了检索结果相关性。百度搜索支持二次检索(又称渐进检索或逼进检索)也是其相当重要的特点。可在上次检索结果中继续检索,逐步缩小查找范围,直至达到最小、最准确的结果集。利于用户更加方便地在海量信息中找到自己真正感兴趣的内容。第三章

常用中英文搜索引擎及检索策略

3.1常用中文搜索引擎5.雅虎中国雅虎(http:///),1994年4月,斯坦福大学两位博士生杨致远和DavidFilo共同创办了雅虎,通过著名的雅虎目录为用户提供导航服务。雅虎目录有近100万个分类页面,14个国家和地区当地语言的专门目录,包括英语、汉语、丹麦语、法语、德语、日语、韩文、西班牙语等。从1996年到2004年,雅虎先后选用AltaVista、Inktomi等第三方的搜索引擎作为自己网页搜索的后台服务提供商。雅虎先后收购了Inktomi和Overture等著名的搜索引擎公司,重新整合打造出YST搜索技术平台。2004年3月,雅虎开始推出独立的搜索服务,迅速成长为全球第二大搜索引擎。涵盖全球120多亿网页(其中雅虎中国为12亿)的强大数据库,拥有数十项技术专利、精准运算能力,支持38种语言,近10,000台服务器。3.1常用中文搜索引擎6.谷歌(中国)谷歌(/),创建于1998年9月,创始人为LarryPage和SergeyBrin。Google是万维网上最大的搜索引擎,用户能够访问一个包含超过80亿个网址的索引。Google不仅能搜索出包含所有关键词的结果,并且还对网页关键词的接近度进行分析。与大多数其它搜索引擎的又一区别是:Google按照关键词的接近度确定搜索结果的先后次序,优先考虑关键词较为接近的结果,这样可以为您节省时间,而无须在无关的结果中徘徊。Google最擅长于为常见查询找出最准确的搜索结果。3.1常用中文搜索引擎6.谷歌(中国)谷歌的特殊功能:Google已经可以支持13种非HTML文件的搜索。除了PDF文档,Google现在还可以搜索MicrosoftOffice(doc,ppt,xls,rtf)、ShockwaveFlash(swf)、PostScript(ps)和其它类型文档。Google在访问网站时,会将看过的网页复制一份网页快照,以备在找不到原来的网页时使用。单击“类似网页”时,Google侦察兵便开始寻找与这一网页相关的网页。3.1常用中文搜索引擎6.谷歌(中国)谷歌的特殊功能:按链接搜索:查询link:显示所有指向该网址的网页。例如,“link:”将找出所有指向Google主页的网页。不能将link:搜索与普通关键词搜索结合使用。指定网域:“site:”。要在某个特定的域或站点中进行搜索,可以在Google搜索框中输入“site:”。例如:新闻site:Google的错别字改正软件系统会对输入的关键词进行自动扫描,检查有没有错别字。中英文字典、天气查询、股票查询、邮编区号、手机电话号码归属地等。第三章

常用中英文搜索引擎及检索策略

第三章

常用中英文搜索引擎及检索策略

第三章

常用中英文搜索引擎及检索策略

搜搜是腾讯旗下的搜索网站,是腾讯主要的业务单元之一。网站于2006年3月正式发布并开始运营。搜搜目前已成为中国网民首选的三大搜索引擎之一,主要为网民提供实用便捷的搜索服务,同时承担腾讯全部搜索业务,是腾讯整体在线生活战略中重要的组成部分之一。搜搜目前主要包括网页搜索、综合搜索、图片搜索、音乐搜索、论坛搜索、搜吧等16项产品。用户既可以使用网页、音乐、图片等搜索功能寻找海量的内容信息,也可以通过搜吧、论坛等产品表达和交流思想。搜搜旗下的问问产品将为用户提供更广阔的信息及知识分享平台。2009年9月3日,搜搜搜索结果页面已经去掉“以下结果由Google提供”字样,很可能表明,搜搜已改用自主研发的搜索引擎技术。而之前,一直是由Google提供技术支持。

3.2常用英文搜索引擎1.AltaVista(http:///)

AltaVista是属于全文搜索引擎。提供常规搜索、高级搜索和主题搜索,主题包括图象(Images)、MP3/Audio&Video等。允许以25种不同的语言进行搜索,并提供英、法、德、意、葡萄牙、西班牙语双向翻译。

AltaVista是搜索引擎的元老,诞生于DEC研发中心。它也是Yahoo!最早的搜索引擎技术的提供者。

AltaVista在更新频率上不是很快,其中文搜索的技术已经有两三年没有改进过,检索内容更新频率大约是一个月一次。音频、视频与图像占用空间很大,要做好这方面的服务,需要占用相当大的存储空间,而AltaVista在这方面做得相当不错,可以说处于世界领先的地位。3.2常用英文搜索引擎3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎3.2常用英文搜索引擎2.Excite

Excite数据库中存有2.5亿张网页及媒体文件,并且检索Usenet新闻。此外还提供总数达15万种的主题分类查询(实际上是定制的关键词搜索)。提供常规及高级搜索。操作界面提供了11种语言供选择,此外还可以在国别列表中选定某个国家或地区,以及限定域名后缀(如“cn”等)进行一定区域范围的搜索。Excite提供了很好的概念延伸查询,能列出比输入的关键词更具体的相关领域供用户选择查询。

Excite是斯坦福大学的六位计算机系的本科生创办的。一开始提出的概念搜索(ConceptSearch),即用同义词推断来增加搜索的结果很快就宣告失败。因为互联网的信息不是太少了而是太多了,搜索的目的是在茫茫的信息海洋中找到所需要的精确的信息。1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎3.2常用英文搜索引擎3.Infoseek

()(http:///)

Infoseek不是以数据库大而见长的,而是以检索的相关程度高而知名。Infoseek购买了马萨诸塞大学的搜索软件产品,而马萨诸塞大学的信息检索是全美高校数一数二的,所以Infoseek一开始的起点就很高。但他们很快就发现,互联网数据量太大了,当初设计的规模太小,只好重新编写程序。于是Infoseek请了一位华人工程师WilliamChang设计了第一代Infoseek搜索引擎Ultraseek,其特点也是速度快,同时检索结果的相关程度也很高。

1999年,Infoseek被Disney所购买,发展方向与定位都做了调整。Disney将其做为入门网站Go.COM的搜索引擎,在技术上的革新比较少,处于维持现状的水平,主要是做娱乐方面的索引。1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎3.2常用英文搜索引擎4.Inktomi()

Inktomi是加州大学伯克利分校EricBrewer的教授最先开始研究的,这位教授是并行处理研究的专家。EricBrewer希望用这个搜索引擎产品来证明他的并行算法是十分出色的,后来他将自己的技术卖给了Hotbot,作为后台技术的提供商。EricBrewer完成Inktomi的时候,这个市场竞争已经相当激烈,再想做门户已经不可能了。所以他决定只做背后技术的提供商,而这却正中Yahoo!的下怀,Yahoo!以前使用的是Altavista的技术,但Altavista本身也是门户,与Yahoo!处于竞争关系,而Inktomi与Yahoo!没有利益冲突关系,便很快成了其后台技术的提供商。3.2常用英文搜索引擎5.LookSmart也是主要的目录索引之一,向包括MSN、AltaVista、Excite等在内的其他搜索引擎提供搜索内容。与ODP一样,其注册网站在合作伙伴搜索结果中排位往往也靠前。LookSmart在网站结构和内容上与其他目录索引大同小异,其目录中的网站排列也是根据字母顺序。它使用Inktomi的数据库提供二级网页搜索。1.谷歌3.2常用英文搜索引擎6.LYCOS(http:///)搜索引擎中的元老,是最早提供信息搜索服务的网站之一。Lycos整合了搜索数据库、在线服务和其他互联网工具,提供网站评论、图象及包括MP3在内的压缩音频文件下载链接等等。提供常规及高级搜索。高级搜索提供多种选择定制搜索条件,并允许针对网页标题、地址进行检索。具有多语言搜索功能,共有25种语言供选择。3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎7.HOTBOTHotBot在页面上提供了直观的图形化检索菜单功能,用户可以通过简单的下拉菜单创建复杂的布尔查询,或者按日期、地理区域和媒体类型进行限制性搜索。在结果显示时,HotBot会列出标题、摘要、相应的打分、文件大小、日期和网址,但是其结果显示不能任意进行前后跳转,这对于用户评估大的检索结果集是相当的不方便。3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎8.SearchAllinOne

MetaSearch

All-in-One方式是指元搜索引擎界面以任意顺序或分类罗列多个搜索引擎,而元搜索引擎本身主要提供各类搜索引擎的介绍信息和物理连接机制。仅仅提供一个简单的界面来帮助用户选择和使用各种搜索引擎;对各独立搜索引擎检索界面的复制可能是部分的或全部的;直接利用所选搜索引擎的显示格式呈送给用户。3.2常用英文搜索引擎8.3.2常用英文搜索引擎在我办公室速度太慢8.3.2常用英文搜索引擎8.3.2常用英文搜索引擎8.3.2常用英文搜索引擎不支持中文8.3.2常用英文搜索引擎8.3.2常用英文搜索引擎速度比较快8.3.2常用英文搜索引擎8.3.2常用英文搜索引擎3.3搜索引擎的检索策略1.选择适当的查询词

A表述准确——许多搜索引擎会严格按照您提交的查询词去搜索,因此,查询词表述准确是获得良好搜索结果的必要前提。

例如,要查找2004年国内十大新闻,查询词可以是“2004年国内十大新闻”;但如果把查询词换成“2004年国内十大事件”,搜索结果就没有能满足需求的了。例如,要查找林心如的写真图片,用“林心如写真”,但如果写错了字,变成“林心茹写真”,搜索结果质量就差得远了。例如,想查找去长城旅游的信息,“长城一日游”就是比“旅游”更好的关键词。3.3搜索引擎的检索策略1.选择适当的查询词

B查询词的主题关联与简练——目前的搜索引擎并不能很好的处理自然语言。因此,在提交搜索请求时,您最好把自己的想法,提炼成简单的,而且与希望找到的信息内容主题关联的查询词。

例如,某三年级小学生,想查一些关于时间的名人名言,他的查询词是“小学三年级关于时间的名人名言”。“小学三年级”和主题无关,会使得搜索引擎丢掉不含“小学三年级”的信息;“关于”也是一个与名人名言没有关系的词;“时间的名人名言”,其中的“的”也不是一个必要的词,会对搜索结果产生干扰;“名人名言”,名言通常就是名人留下来的,在名言前加上名人,是一种不必要的重复。3.3搜索引擎的检索策略1.选择适当的查询词——避免使用无意义的虚词:

去掉关键词中的疑问词、连词、叹词、助词、语气词等无意义的虚词,有助于提高检索质量。比如“怎么样给金鱼换水”的检索质量就不如“金鱼换水”。使用多个关键词组合:

当您发现搜索结果中存在很多无关信息的时候,您可以尝试增加关键词来过滤掉无关的结果。比如位于深圳的你搜索“同城快递

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论