搜索引擎问题分析及发展趋势研究_第1页
搜索引擎问题分析及发展趋势研究_第2页
搜索引擎问题分析及发展趋势研究_第3页
搜索引擎问题分析及发展趋势研究_第4页
搜索引擎问题分析及发展趋势研究_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1/8搜索引擎问题分析及发展趋势研究搜索引擎问题分析及发展趋势研究摘要目前,互联网用户可使用的搜索引擎有很多种,为了提高搜索的效率和准确度,搜索引擎已从最早的目录主题型发展到检索型、元搜索引擎、分布式和智能搜索引擎。但搜索引擎依然存在着信息覆盖面不广、检全率偏低、检准率不高等问题,导致输出相关信息少、无用信息多。为了提高搜索引擎的使用效率,改进措施的关键是要提高检全率和检准率,提高系统规模和性能,开发专业化垂直型搜索引擎,以引导搜索引擎健康发展。关键词搜索引擎;互联网;改进措施中图分类号F062文献标识码A文章编号1005643249011002随着WEB信息的迅速增加,搜索引擎技术逐渐发展起来,搜索引擎是一个对互联网上的信息资源进行搜集整理,然后供用户查询的系统。1搜索引擎的分类搜索引擎的主要功能是对互联网上的信息进行搜索,主要是对海量信息的检索,检索功能的强大与否也就成为评价一个搜索引擎好坏的主要标准。搜索引擎的种类繁多,根据工作方式划分可以分为标准搜索引擎和目录搜索引擎。2/8标准搜索引擎是通过在互联网上提取各个网站的信息来建立自己的数据库,并向用户提供查询服务,是严格意义上的搜索引擎。目前人们所说的搜索引擎通常指的就是这类基于互联网ROBOT的搜索引擎,通过收集互联网上几千万到几亿个网页以及对网页上的词进行识别,实现全文检索。标准搜索引擎的自动信息搜集功能一般通过两种方式实现一种是定期搜索,即搜索引擎定期主动派出ROBOT程序对一定地址范围内的网站进行检索,一旦发现更新或新的网站,就会自动提取网站的信息和网址加入核心数据库;另一种是提交网站搜索,由网站所有者主动向搜索引擎提交网址,然后搜索引擎在一定时间内专门向该网站派出ROBOT程序,扫描并将有关信息存入数据库,以备用户查询。当用户使用搜索服务时,搜索引擎在数据库中匹配用户输入的关键词,如果找到与用户要求内容相符的网站,便采用特殊的算法计算出各网页的信息关联程度,比如,网页中关键词的匹配程度、出现的位置、频率等,然后根据关联程度高低,按顺序将这些网页链接制成索引返回给用户。主要代表有百度、谷歌。目录搜索引擎算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询,仅靠分类目录即可找到需要的信息,更多时称作门户网站,主要提供基于网站目录的搜索服务,通过将网站分门别类地存放在相应的目录中,用户在查询信息时,可选择关键词搜3/8索,也可按分类目录逐层查找。通过关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站的。与标准的搜索引擎相比,目录索引不使用ROBOT来自动进行搜索工作,而完全依赖手工操作完成。用户提交网站后,目录索引编辑人员会亲自浏览该网站,然后根据一套自定的评判标准及编辑人员的主观印象,决定是否接纳申请。主要代表是雅虎、新浪等。此外还有多元搜索引擎。多元搜索引擎又被称为搜索引擎之上的搜索引擎。它通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作。这类搜索引擎的优点是返回结果的信息量更大、更全;缺点是不能够充分利用所使用搜索的功能,用户需要做更多的筛选。多元搜索引擎中的关键技术包括查询语句的转换、页面的解析技巧等,著名的多元搜索引擎有DOGPILE、VIVISIMO等。搜索引擎存在的问题搜索引擎在给人们带来搜索便利的同时也存在许多问题。目前搜索引擎主要存在以下方面问题信息的覆盖面不广搜索引擎的数据库规模和覆盖面都是极其有限的。美国科学期刊NATURE的一篇报告中指出最大的搜索引擎也只能覆盖现在网页资源的16。美国NEC研究所的两位博士的研究表明,现在的搜索引擎漏掉了大约84的网页4/8信息。2检全率偏低,检准率不高据权威机构统计因特网上约有100多亿网页。而世界上目前搜索量最大的GOOGLE也只能搜索33亿网页,就是说再大的搜索引擎也不可能使检全率达到100。而且据EXCITE统计只有不到1的用户会看200条以后的结果,几乎100的用户不会看超过1000条的结果,对于大多数用户来讲检全率是次要的,而检准率更具有意义。2输出的相关信息少,输出的无用信息多目前主要的搜索引擎返回的相关结果其比率不足45。当输入一个关键词后,在百度搜索的结果中总会有7080的无用信息,有时是100无用。原因是关键词检索输出的结果相关度排序方式单一,不能根据用户需要来选择信息输出的排序方法;主题分类检索输出的往往只是网站,而不能快速准确地提供网页信息,用户登录到相关网站后又往往找不到所需要的信息无功而返;不论是关键词检索还是主题分类检索,信息输出的结果显示格式简单,不能向用户提供相关的更好的途径和信息;数据更新速度慢、更新周期长,对于网上已不存在的网页不能及时删除,因而出现无效链接较多,而且也不加以注明,浪费用户的宝贵时间;网站、网页经常处于动态的变化之中,新的页面不断涌现,旧的页面不断消亡,而维护不及时,索引库中就5/8会有许多无用信息,导致没有经过筛选与排序的记录被输出。2检索界面友好性差目前存在的主要问题是可供用户选择搜索条件和搜索结果的功能不多,多数搜索引擎没有类型、范围界限。多数搜索引擎是面向主题搜索而不是面向用户搜索,不能重复利用用户检索过的成果,更不能对特定的用户进行定题跟踪服务。对自然语言理解有限,用户必须自己构造检索式来表达检索命题。由于各搜索引擎关键词检索所采用的符号及其含义、分类检索所建立的类目体系及使用规则各不相同,因而给用户构造检索式带来了困难。网站简介太不规范,有些过于简单有些过于烦琐还有些网站用简介误导用户进入它的广告世界。网页的帮助系统许多等于虚设,起不到帮助的作用,有的只是常识介绍,缺乏透明度。2检索方式单一搜索引擎一般提供分类浏览的查询方式和关键词的全文检索,不能实现概念检索,不能从文献的多个方面对检索提问进行限制,只能就某一关键词或者概念进行笼统的检索。2信息收集与检索的分离搜索引擎进行信息的收集和查询是两个分离的过程,缺少有机的结合。系统无法根据用户的检索要求进一步提6/8供相关信息,用户不能依据有关提示进行理性的检索,操作比较机械。搜索引擎的发展趋势为了提高搜索引擎的使用效率并引导搜索引擎健康发展,今后的搜索引擎应当在以下几个方面给予充分地重视,也是今后的主要发展方向。提高系统规模和性能基于ROBOT的搜索引擎必须随着互联网的发展不断扩大自己的网页数据库,由此将产生很多技术难题,如怎样及时地获取新网页和刷新数据库,当数据库增大之后如何保证检索效率不会明显降低等。解决这些问题可依赖设计合理的分布式并行处理技术。3开发专业化垂直型搜索引擎目前,网络上的搜索引擎大多没有特定的专业领域,面向一切科学,它能够满足搜索全面性的要求,但得出结果的准确性和相关性很差。网络信息迅速膨胀,绝大多数搜索引擎所采集的信息只占网络信息资源的一小部分,而且网络信息是时刻在更新,而许多搜索引擎的索引库只是每周甚至更长时间才更新一次,这样检索到的信息就更难以面面俱到了。而专业搜索引擎只面向某一专业领域,只采集专业范围内的信息,这样收集到的信息就比较完整、及时,而且专业性较强,词汇和用语的含义相对明确,这样检索结果的准确7/8性和相关性会大大提高。3提高检全率为了提高搜索引擎的检全率,必须从搜索引擎的组织机制、标引深度和规范化程度、检索功能、用户界面的设计等方面对其进行改进。主要集中一是开发分布式系统。这种系统可以把各个接点当做是新的信息资源。在新的范围内根据各系统的特点进行分工合作,便可扩大数据库的规模。二是开发非WEB信息资源。网上的数据库资源包括联机检索系统、光盘检索系统、互联网系统数据库等都属于非WEB信息资源,如果能把WEB信息资源与非WEB信息资源结合起来,就会大大提高检全率,元搜索引擎就是主要代表。这种搜索引擎在接受用户的查询命令后可以启动多个搜索引擎联合搜索,并对查询结果重新进行核查、排序,然后再返回给用户。3提高检准率影响检准率的因素很多,如标引的科学性、索引的完备性、相关度算法、检索功能的设计以及用户对输出量、输出方式、输出范围的限定等,还有能否进行二次检索、友情链接、帮助系统等因素。归纳起来主要表现在信息过滤、信息标引、信息检索三个方面都要有所改进,采用效率更高的算法和智能化更高的程序来改进。3提高搜索引擎的智能化程度8/8即提高搜索引擎对用户检索提问的理解能力。自然语言智能答询的出现在一定程度上克服了关键词检索和目录查询的缺点。它主要是建立一种能够给出像人那样理解、分析并回答自然语言的结果的计算机模型。自然语言理解能够使网络交流更加人性化;同时使查询变得更加方便、直接、有效,从而提高检索效率。智能搜索引擎技术具有很好的发展前景。功能将会更强大和完善。对等网络搜索技术P2P所包含的技术就是使联网用户

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论