



全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
当前信息检索系统的优缺点摘要目前,互联网上的信息检索方法主要分为两类:非网络信息检索方法和网络信息检索方法。这两种检索方法为人们及时准确地检索网络信息提供了极大的便利和可能。尤其是网络信息检索工具中的搜索引擎已经成为人们查询网络信息的最重要的检索工具,几乎成为网络信息检索工具的同义词。因此,搜索引擎是本文讨论网络信息检索工具的主要代表。然而,目前网络信息检索面临着一系列的挑战,如网络信息的快速增长,使得人类无法对其进行有效的分类、索引和利用。简单关键字搜索;返回的信息量太大,用户无法承受。网络信息组织的无序;网络信息日新月异。信息媒体的多样化等等,所有这些都对互联网信息的获取和利用造成了极大的障碍1。介绍信息检索系统的研究是随着科学技术的发展和信息量的增加而产生的。它是指信息使用者为了解决各种问题而寻找、识别和获取相关事实、数据和文件的活动和过程。其主要研究范围包括:信息检索理论、信息检索语义学、信息检索系统的构建与评价、信息检索技术与方法等。信息检索的研究由来已久。20世纪中叶以前,信息的存储和传播主要以纸质媒体为载体。信息检索的研究主要集中在对文档的获取和控制上,重点是如何检索和利用文档中记录的信息。直到20世纪50年代,计算机被图书馆和其他部门广泛用于存储和管理文档,信息检索技术作为一个新的热点被广泛研究。到20世纪80年代,信息检索领域在索引模型、文档内容表示和匹配策略方面取得了许多突破性的研究成果,并成功开发了一些系统。例如,康奈尔大学的SMART系统和麻省大学的INQUERY系统。网络的出现为信息检索提供了前所未有的实验环境和应用场景。许多网络信息检索系统,如雅虎!Alta-vista等人,2。当前信息检索系统的优缺点1.评定标准目前,普遍接受的检索结果评价标准主要包括以下:查全率、查准率、收集范围和输出格式,其中查全率和查准率是最重要的1。基于国内外对搜索引擎评价及其方法的研究,笔者将搜索引擎评价的研究方法分为以下几类。(1)实验方法(2)调查方法(3)数据分析(4)观察(5)审查和评论综合评价指标是指综合考虑搜索引擎各个方面的参考标准。例如,卡皮涅托等。提出了三个一级索引,即:搜索界面、搜索性能和搜索输入。其中,搜索界面包括搜索引擎的存在、主页搜索框、结果页面搜索框和高级搜索界面四个二级索引。检索性能包括7个二级索引:大小写敏感性、词干检索、禁止词、部分匹配、短语检索、布尔逻辑检索、全站检索等。检索输出包括基于关联度的四个二级指标、标签检索公式、结果建议和无死链3。2.根据信息收集和服务提供的不同方法,搜索引擎系统可分为三类:2.1目录搜索引擎:信息是手动或半自动收集的。在编辑者检查信息之后,手动形成信息概要,并且将信息放置在预定的分类框架中,以提供目录浏览服务和直接检索服务。因为这种搜索引擎增加了人类的智能,它有准确的信息和高导航质量。它的缺点是人工干预,维护量大,工作量小一个名为Spider的机器人程序通过一定的策略自动收集和查找互联网上的信息,然后索引器为收集到的信息建立索引,然后索引器根据用户的查询输入搜索索引库,并将查询结果返回给用户。服务模式是网页的全文搜索服务。这种搜索引擎的优点是信息空间大,更新及时,不需要人工干预。缺点是返回的信息太多,而且有很多不相关的信息。用户必须从结果中过滤。这类搜索引擎的代表有AltaVista、北极光、Excite、Infoseek、Inktomi、FAST/FastSearch、Lycos、谷歌、“天网”、游友、OpenFind等。2.3搜索引擎:这些搜索引擎没有自己的数据,但是同时向多个搜索引擎提交用户的查询请求,并在重复排除、重新排序等之后将返回的结果作为自己的结果返回给用户。服务模式是面向网络的全文检索。这种搜索引擎的优势在于它返回越来越多的完整结果。缺点是它不能充分利用搜索引擎的功能,用户需要做更多的筛选。这种搜索引擎的代表是网络爬虫、信息市场等4。3.新一代智能网络信息检索系统;3.1移动代理技术一般来说,所有由移动代理实现的系统都可以通过传统的分布式技术来实现。那么为什么选择移动代理呢?这是因为移动agnet为解决分布式问题提供了统一的模式。它给分布式计算带来了更多的灵活性、高效性、可靠性和可扩展性。移动代理已经成为继CORBA和DCOM之后的新一代分布式处理技术。移动代理有以下五个优点:(1)节省网络带宽,减少网络延迟;(2)在传统的C/S计算模式下,移动代理可以更加动态、均匀地分配计算任务;(3)在分布式环境下,移动代理系统可以实现更好的并行性,即并行任务求解;(4)基于移动代理的分布式系统具有更好的可理解性;(5)异步移动计算能力。3.2本体技术本体的目标是获取相关领域的知识,提供对该领域知识的共同理解,确定该领域中的常用词,并从不同层次的形式模型中给出这些词与词之间关系的明确定义。本体的研究和应用主要包括三个方面:(1)理论研究,主要研究概念及其在本体上的分类和代数运算;(2)信息系统中的应用研究,主要研究信息组织、信息检索和异构信息系统的互操作性,(3)语义网中本体作为工具的应用,可以在知识层提供知识共享和重用4)。3.个性化搜索引擎技术目前,个性化搜索引擎技术主要表现在以下两个方面:(1)搜索引擎提供的搜索结果满足用户的个性化需求。通过个性化搜索服务获得的搜索结果更加准确,使得不同用户能够获得他们自己所需的搜索结果,同时避免不相关的搜索结果。个性化搜索引擎技术通过分析用户的搜索条件,跟踪用户的搜索行为和环境,将信息检索与用户需求变化和网络信息动态变化的实时更新相结合,为用户提供更加个性化、准确和实时的搜索结果。(2)个性化搜索引擎提供的服务和功能具有不同于一般搜索引擎的优势和特点。随着各大搜索引擎不断推出新的特色服务和功能,以获得竞争优势,从核心搜索衍生的各种其他服务应运而生,如桌面搜索、地图搜索、生活搜索、订阅RSS等服务。目前,许多搜索引擎都增加了个性化服务和功能。他们提出了各种技术和方法来实现个性化搜索服务。他们主要采用基于规则、信息和过滤的推荐技术。其中,信息过滤技术包括协同过滤和基于内容的过滤。基于规则的技术允许系统管理员根据用户的动态和静态属性生成规则。规则决定了如何在不同的情况下提供不同的服务。规则本质上是一个if-then语句。这种方法的优点是简单直接。缺点是规则不能动态更新,质量难以保证。随着规则数量的增加,系统将更加难以管理。典型的系统包括国际商用机器公司的韦伯希尔、博导和ILOG。基于内容过滤的技术利用资源和用户兴趣之间的相似性来过滤信息。这种方法的优点是简单高效,但缺点是不能发现用户的新兴趣,并且很难区分资源内容的质量和风格。典型的系统包括个人网络观察器、syskillwebert、CiteSeer和网络个性化器。协同过滤技术利用用户之间的相似性来过滤信息。这种方法的优点是可以发现用户新的兴趣点,但缺点是当系统中的用户和资源数量逐渐增加时,系统性能会逐渐下降。此外,在系统使用的初始阶段很难找到类似的用户。典型的系统包括网络观察者,让我们浏览,谷歌,萤火虫,网站观察者等。还有其他信息搜索系统,它们使用基于内容和协作过滤技术提供个性化服务。例如,webSIFT、FAB、Anatagonomy和Dynamicprofiler等。结合这两种过滤技术可以克服协同过滤的稀疏性问题,利用用户浏览过
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年金融衍生品市场创新风险管理与金融风险管理文化塑造报告
- 2025年教育直播平台移动端用户体验优化与推广策略报告
- 巷修工岗位知识培训内容课件
- 绿色供应链管理在制造业中的绿色供应链与绿色产业政策创新与实施效果评估策略研究报告
- 火控雷达基础知识培训
- 灌肠微课课件
- 激光镜片基础知识培训课件
- 岩竹养殖知识培训课件
- 2025版门面房买卖及城市更新改造合作协议
- 二零二五年白灰原料仓储合同协议书范本
- DL-T5493-2014电力工程基桩检测技术规程
- 2024年山东省济南市行政职业能力测验题库(考点梳理)
- 测量基础能力测试
- 光伏发电站运行规程
- 117湖南省怀化市雅礼实验学校2023-2024学年七年级下学期开学考试数学试题
- (高清版)TDT 1031.6-2011 土地复垦方案编制规程 第6部分:建设项目
- 水电站全套课件
- 检验科实验室生物安全培训课件
- 山西航空公司招聘笔试真题
- 调查报告青州市区房地产调查报告
- 成人重症患者镇痛管理(专家共识)
评论
0/150
提交评论