网络信息检索工具的现状分析与发展方向研究.doc_第1页
网络信息检索工具的现状分析与发展方向研究.doc_第2页
网络信息检索工具的现状分析与发展方向研究.doc_第3页
网络信息检索工具的现状分析与发展方向研究.doc_第4页
网络信息检索工具的现状分析与发展方向研究.doc_第5页
免费预览已结束,剩余6页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络信息检索工具的现状分析与发展方向研究 摘要:本文将主要阐述目前主要网络信息检索工具的特点,搜索引擎和网络资源目录的对比分析,并结合日常生活中的检索实例,对几种中文检索数据库进行了对比,浅谈网络信息检索工具的发展方向,并根据上述内容提出一些看法和建议。关键词:信息;检索;信息检索;检索工具;搜索引擎;网络资源目录【summary 】This paper will mainly explains mainly the characteristics of network information retrieval tools, search engine and network resource directory of comparative analysis, and combined with the daily life of the retrieval examples, several Chinese retrieval database are compared, showing the network information retrieval tool development direction, and according to the above content, puts forward some opinions and Suggestions.【keyword】 information; retrieval; information retrieval; search tool; Search engine; Catalogues of network resources引言 根据中国互联网络信息中心2012年1月16日发布的第29次中国互联网络发展状况统计报告显示,目前我国网民规模已突破5亿。由此可见,互联网已经在网民生活中占据一定地位.与此同时,互联网上的信息已是海量,搜索引擎则是网民在汪洋中搜寻信息的工具,是互联网上不可或缺的工具和基础应用之一。一、 信息检索的概念界定 从广义的角度讲,信息检索包含信息存储和信息获取两个过程。狭义的信息检索是指广义信息检索的信息获取过程,相当于人们所说的信息查询等。具体来说,狭义的信息检索指通过一定的方法,从已存储的信息中检索出与用户提问相关的文献、数据和事实的过程,即根据用户的特定要求查找所需信息的过程。二、目前网络信息检索工具的分类2.1 全文全文搜索引擎在国外代表有Google,国内则有著名的百度。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。2.2 网络资源目录 网络资源目录虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户可以通过分类目录找到所需要的信息,而并不进行关键词的输入查询工作,网络资源目录中最具代表性的莫过于大名鼎鼎的Yahoo2.3 其他网络检索工具形式2.3.1门户搜索引擎 如目前国内的四大门户网站新浪、腾讯、搜狐、网易。这些门户网站并非从出生之日起就是这样,如新浪原本为网络资源目录的形式,但随着时代的发展,新浪将以前网络资源目录的形式逐渐转变为了门户网站。这样做可以大大增加网站内容的丰富度,更能满足网上冲浪的用户,同时更多广告栏的设置也可以增加网站的盈利。但这样做也就不可避免地降低了网站的规范性,检索功能也被大大削弱,适合于漫无目的的上网者,同时很多内容排列混乱,条理性不强。2.3.2元搜索引擎(META search Engine) 接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。三 、搜索引擎和网络资源目录的对比分析 目前最重要的两类网络检索工具就是搜索引擎和网络资源目录了,搜索引擎和网络资源目录的主要区别有: 搜索引擎属于自动网站检索,检索快捷,直接输入关键词即可得到结果,而网络资源目录则完全依赖手工操作。用户根据自己的意图首先去考虑自己需要检索的内容属于哪个类别,然后再去一个个尝试。 搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以从用户的角度看,我们拥有更多的自主权,这是一种主动的检索,能够检索到大量与我们检索意图相关的内容;而目录索引则要求必须手工选择网站信息,而且还有各种各样的限制,而网站的管理人员划分出来的类别有时候并不包含我们想要的,因此这是一种被动的检索方式,但是这样检索出来的内容更为准确。综合以上特征对比,可知搜索引擎的特点是查全率比较高,网络资源目录的特点是查准率比较高。 美国著名的市场调查公司StatCounter发布了2011年4月份搜索引擎排行榜前五名。全球范围内,搜索引擎排行和所占份额: Google90.2% ; bing4.06%;Yahoo!3.84%;Baidu0.53%中国范围内,搜索引擎排行和所占份额: baidu73.31% ; Google24.33%;Yahoo!1.08%;bing1%由此可见,在全球范围内,google依然是网络检索工具第一大巨头,其他网络检索工具只能望其项背,而在中国,由于google撤出中国大陆,加上百度作为中文搜索引擎的独特优势,成为中国第一大搜索引擎。 目前,搜索引擎与网络资源目录有相互结合的趋势。目前很多的全文搜索引擎现在也提供目录搜索,如Google就借用OpenDirectory目录提供分类查询,而像Yahoo则通过与Google等搜索引擎合作扩大搜索范围。当对于检索内容的概念比较模糊时,可以通过网络资源目录选择准确的方向,一旦找到合适的词汇便可以通过搜索引擎扩大检索范围,这样就把两种检索工具做了一个很简单的集成,但用户却轻松地获得了很好的使用体验。从上述的分析可以看出,搜索引擎和网络资源目录这两种信息检索工具,用户更倾向于选择搜索引擎这种主动、便捷的检索方式。在进行信息检索的过程中,很多时候,搜索引擎能够帮人们完成信息检索的任务,但有的时候,特别是当人们自己无法明确“检索词”具体是什么的时候,可以现在网络资源目录中进行浏览,从中得到启示,确定自己检索的类别,从而摸索出检索词具体是什么,这样将两种网络检索工具灵活运用,可以帮人们提高检索效率。四、检索实例分析在学习了信息检索这门课之后,我了解到对于论文期刊的检索方式有以下这些:1)可通过想要搜索主题的相关网站网站进行检索,也可通过搜索引擎进行搜索。2)检索期刊论文的主要工具 (1)CNKI中国期刊全文数据库(1979-) (2)重庆维普中文科技期刊数据库(1989-)3)检索图书书目的主要工具 (1) 中国国家图书馆网站(/) (2) 超星数据库(2:8082/markbook/GetIndex.jsp) (3)读秀知识库() (4)馆藏书目(指各单位的馆藏书目查询系统) (5)其他电子图书和网上书店通过老师在课堂上所教的方法,我对校园网中的几种数据库的检索方法及其检索结果进行了对比分析,结果发现超星以及读秀数据库都是以网络资源目录的形式对数据库进行编排,这样的方式可以帮助人们快速找到关键词进行检索。但是超星数据库只是涉及到图书资料,而读秀涉及面比较广,它同时会列出检索到的图书、期刊、报纸、文档、学位及学士论文等。维普以及CNKI都是对期刊进行检索的数据库,但相比之下,CNKI对于要对多数文献进行分析的检索者来说方便得多,因为CNKI把每一年的发文量总结在检索结果的下方,并可以直接通过选取想要分析的部分文献进行关键词,H指数等分析。而维普数据库只是对检索得到的总量进行了统计,而且维普数据库只是对期刊的作者以及出处进行分类,而CNKI则对作者、来源、数据库、被引量都进行了统计分析,不失为做文献计量学最好的选择。(图见附录)五、网络信息检索工具的现状5.1 基于网页的网络信息检索工具的现状 网页是因特网的最主要的主城部分,也是人们获取网络信息的最主要的来源,围为了方便人们在大量繁杂的网页中寻找自己需要的信息,这类检索工具发展的最快。一般认为,基于网页的信息检索工具主要有网页搜索引擎和网络分类目录两种。网页搜索引擎是通过“网络蜘蛛”等网页自动搜寻软件搜索到网页,然后自动给网页上的某些或全部字符做上索引,形成目标摘要格式文件以及网络可访问的数据库,供人们检索网络信息的检索工具。网络目录则是和搜索引擎完全不同,他不会将整个网络中每个网站的所有页面都放进去,而是由专业人员谨慎地选择网站的首页,将其放入相应的类目中。 但是由于网络信息的复杂性和网路检索技术的限制,这类检索工具也有明显的不足。(1) 随着网页数量的迅猛增加,人工无法对其进行有效的分类、索引和利用。网络用户面对的是数量巨大的未组织信息,简单的关键词搜索。返回的信息数量之大,让用户无法承受。(2)信息有用性评价困难。一些站点在网页中大量重复某些关键字,使得容易被某些著名的搜索引擎选中,以期借此提高站点的地位,但事实上却可能没有提供任何对用户有价值的信息。5.2 基于网络检索工具的检索技术的现状 从第一个元搜索引擎诞生至今,这一新型的网络检索工具异军突起,发展迅速,目前可用的元搜索引擎已近百种,由于元搜索引擎的功能受着源搜索引擎的元搜索技术的双重制约,元搜索引擎比较理想的并不多见。信息检索专家将元搜索引擎存在的问题归纳如下:(1)大多元搜索引擎不支持多语言,尤其是汉语检索;(2)一些元搜索引擎实现检索语法转换的能力有限,不支持指定字段检索,不能充分发挥各个独立搜索引擎的检索功能;(3)部分元搜索引擎无源搜索引擎列表,用户不能自主选择和调用源搜索引擎;(4)大部分元搜索引擎仅支持调用Yahoo!等常用的搜索引擎,一些大型搜索引擎则被排除在外,人为地限制了检索资源的利用;(5)在检索结果上,元搜索引擎只能返回十几、数十条“相关度”较高的结果,大量可能有价值的元搜索引擎的检索结果被忽视,影响检索结果的全面性。六、网络信息检索工具的发展方向 随着计算机技术的快速发展和信息检索需求的不断增加,网上检索工具也将更加完善。通过对目前国内外搜索引擎特点的观察和归纳,网上检索工具的将主要朝着以下几个方向发展:6.1 继续加强浏览与检索功能的整合 20世纪90年代中期,网络信息检索工具可以分为两大类:目录型检索工具与检索型检索工具。目录型检索工具通过浏览查找信息,如 Yahoo! ,当用户想要得到关于某个主题的信息,或关于某个主题的新信息时,使用这种工具很适合。检索型检索该工具通过输入检索式查找信息,如早期的 AlraVista,当用户需要的信息很明确,采用这种工具能迅速检索到所需要的信息。在实际使用过程中,只具备一种检索功能的不足逐渐显现出来,因而出现了两种功能的整合。浏览与检索功能的整合,不仅使用户可以在一个网站同时使用两种检索功能,而且可以在某个类目下实施检索,提高了检索的准确率。今后的检索工具必将在这方面继续加强和完善。6.2 搜索引擎集成化 最先出现的搜索引擎大多为独立搜索引擎,只能在自己搜索的信息或数据库中查找信息,如:AltaVista ,Yahoo! 等就属于这一类。集成化搜素引擎能同时调用多个独立搜索引擎,并能将检索到的结果进行去重等处理。因此,用户通过集成化搜索引擎可以同时对几个搜索引擎进行搜索,避免重复劳动,节省了检索时间和精力。这是网络信息检索工具深受用户欢迎的一个发展方向。 6.3 研究新型排序算法 传统的检索结果排序算法主要依据检索词的词频、位置、邻近度以及文献长度、更新日期等指标。目前,Google采用了BackLink方法,根据其他网站指向某个网站链接的数量多少,决定该网站的重要性,链接数量越多,越重要。这种方法类似于对学术出版物进行评价的引文分析方法。DirectHit 根据用户点击某网站的数量对网站进行排序,点击的数量越多,表示该网站越受欢迎。这是依据用户的选择进行排序的一种方法。新的排序算法还处于发展阶段,需要进一步补充、完善。6.4 综合型专题型两极分化 今后网络信息检索工具将向综合型和专题型两极分化。综合型网络信息检索工具力求全面满足用户学习、工作、生活和娱乐多方面的需求,如提供每日新闻、电子报刊、旅游景点介绍、交通时刻表、地图查找、天气预报、电话和电子邮件地址簿、各类广告、网上的购物信息、网上培训信息等等。这种以信息检索工具为主的综合型网站,可以从更多方面为用户提供服务。 在一些检索工具向综合型发展的同时,有一些检索工具则会转向专题型方向发展。专题型网络信息检索工具提供专业电子报刊、图书馆名录、文献目录、虚拟图书馆资源、参考资料、软件目录、研究成果和研究项目信息、学术动态、相关学术站点等等,为相关专业用户提供深层次的专业服务,有良好的发展前景。6.5 检索语言一体化 检索语言一体化指分类语言与主题语言一体化、自然语言与受控语言一体化、各语种检索语言一体化等。 目录型检索工具与检索型检索工具的整合,实际上就是分类语言与主题语言的兼容与结合。实现分类语言与主题语言完全兼容,发挥最佳的整体效应,是网络信息检索工具发展的必由之路。 自然语言与人工语言一体化已经雏形。概念检索实际上就含有自然语言与人工语言一体化的因素。更为理想的是浏览检索、关键词检索、概念检索一体化。随着自动翻译软件水平的提高,检索工具使用的不同文种的语言将可以互相转换,这有助于帮助用户客服使用检索工具遇到的语言障碍。现在已有一些网络信息检索工具部分实现了这个功能。6.6 多媒体信息检索 随着信息技术的发展,网络信息类型不断增加,除了传统的文字信息外,图像、音频、视频等媒体信息越来越多。因此,多媒体信息检索是一个重要的发展方向,多媒体信息检索技术研究比见将得到加强。虽然真正完全实现多媒体信息检索功能还存在很多困难,但已有越来越多的网络信息检索工具开始涉足这一领域。6.7 智能化检索 智能化检索是基于自然语言的检索形式。检索工具根据用户提供的以自然语言表达的检索要求进行分析,形成检索策略进行检索。它包括智能搜索引擎、智能浏览器、智能化自动检索软件。检索工具智能化的内涵在于检索工具具有学习、分析、辨别、推理的能力。他能按照用户的要求,对信息进行更深一步的分析,然后交给用户。智能化检索工具考虑到了用户心理因素和决策需要,考虑

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论