




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.第7章信息检索,7.1.1信息检索的概念信息检索(InformationRetrieval)是指以一定的方式组织和存储信息,以便根据信息用户的需要查找信息的过程和技术。信息搜索的全称是“信息存储和检索”(InformationStorageRetrieval),如图7.1所示。20世纪50年代以前,信息的存储和传播主要以纸质媒体为载体,信息检索活动主要围绕相关文献的获取和利用展开,因此“文献检索”成为信息检索的同义词,被广泛使用。20世纪50年代以来,信息传播和存储多样化,人们不再挂在载体上,开始更多地使用信息检索这个术语。近年来,“信息”这个英语词汇也可以翻译成信息和信息,汉语中信息这个词比信息这个意思丰富得多,倾向于使用信息检索这个术语。7.1信息搜索概述,青岛大学公共计算机基础教育中心,第7章信息检索,7.1.1信息检索的概念,7.1信息检索概述,青岛大学公共计算机基础教育中心,第7章信息搜索,7.1.1信息搜索的概念信息搜索包括两个层次的意义:广泛的信息搜索和狭义的信息搜索。广义信息检索包括两个过程:图7.1所示的所有过程是广义信息检索,即信息存储和查询。信息的存储是对大量无序的文献信息进行收集、整理、分类、规范的方法排列,准备各种检索系统。信息查询首先需要信息存储,信息存储旨在更快地查找信息。信息查询是信息存储的反向过程,人们根据特定需要使用现有的搜索系统进行系统查询,查找符合要求的信息。狭义的信息搜索是仅包含图7.1后半部分的信息搜索过程,本书论述的信息搜索是狭义的信息搜索。7.1信息搜索概述,青岛大学公共计算机基础教育中心,第7章信息检索,7.1.2信息检索的类型1。根据搜索对象的划分,根据搜索对象的不同,信息搜索分为文献搜索、事实搜索和数据搜索三种。(1)文献检索。文献搜索使用文献作为搜索对象,查找包含用户所需信息的文献。文献检索是一种非确定性的相关性检索,系统不直接回答用户提出的问题本身,提供与用户信息需求相关的文献线索或原文。(2)事实搜索。事实搜索以特定事实为搜索对象,存储有关主题(例如机构、人物等)的指令性说明或有关特定事件发生的时间、地点、经过等的信息,找到的搜索属于确认搜索。(3)数据检索。数据检索是一种确定性的搜索,用于检索数据,将选择、整理、验证的数据保留在数据库中,并检索可以根据需要回答问题的数据。例如,查询公式、数据、图表、组件、性能等都属于数据检索的类别。7.1信息搜索概述,青岛大学公共计算机基础教育中心,第7章信息检索,7.1.2信息检索类型2。根据搜索方法的不同,信息搜索可以分为手动搜索、机器搜索和计算机搜索三种方法。(1)手动搜索。手动搜索是手动查找所需信息,是使用各种搜索工具(如打印的目录、标题记录、摘要、索引等)的打印版完成的。手动搜索直观,不需要辅助设备,但速度慢,泄漏严重。(2)机械搜索。机器搜索也称为机器搜索,是利用天空机、分类机、光电检测装置等进行的搜索。机械搜索过于依赖设备,成本高,搜索效果和质量不理想。(3)搜索计算机。计算机信息检索是一种信息检索方式,它以加工、调度的形式将大量的文献或资料存储在数据库中,并使用计算机检索数据库。计算机搜索比手动搜索更快、更有效,查询率更高,没有时间和空间限制,搜索结果输出方式也不同。除了上述两种主要分类方法外,信息搜索还有多种分类方法。例如,根据检索对象的信息组织的方式可以分为全文搜索、超文本搜索和超媒体搜索。根据搜索对象的格式,可以分为文本搜索和多媒体搜索。根据搜索要求,可以分为强关联搜索和弱关联搜索。搜索持续时间可以分为给定的问题搜索和反向跟踪搜索。7.1信息搜索概述,青岛大学公共计算机基础教育中心,第7章信息检索,7.1.3信息检索模式1。布尔搜索模型布尔搜索模型是基于集合论和布尔代数的简单搜索模型。集合是一个相当直观的概念,因此布尔搜索模型为信息检索系统的最终用户提供了易于掌握的框架。在布尔搜索模型中,查询被描述为具有确切含义的布尔表达式。因为这种模式的简单性和容易表达的形式方法长期受到重视。但是布尔搜索模型的缺点也相当明显。首先,该模型的搜索策略基于二进制决策标准,认为文档是相关的或不相关的,没有等级变化,因此难以提高搜索性能,因此布尔搜索模型主要用于实现数据检索模型,而不是信息检索模型。第二,这种方法将创建相应查询的责任推卸给用户,用户必须详细计划自己复杂的查询(不亚于编写程序),最终用户不能用布尔表达式解释查询请求。因此,一些研究者改进了布尔模型,提出了向量空间模型。7.1信息搜索概述,青岛大学公共计算机基础教育中心,第7章信息检索,7.1.3信息检索模式2。向量空间模型向量空间模型是基于代数理论的搜索模型。在向量空间模型中,文档描述为由一系列关键字组成的向量,每个关键字都是这个向量空间的一维。同样,来自用户的查询也可以显示为矢量。在查询过程中,矢量空间模型计算查询和文档表示之间的相似性。例如,在查询结果集中,文档的排序顺序很合适,这样,通过使用两个矢量之间的欧氏距离或两个矢量之间的馀弦角度显示两个矢量的相似性,然后按降序对检出的文档进行排序,使文档与查询项的一部分匹配。与布尔搜索模型相比,向量空间模型提高了搜索性能,部分匹配策略使搜索到的文档可以类似于查询条件进行排序,并且可以根据文档和查询的相似性对文档进行排序。但是,在向量空间模型中,索引项目彼此独立,因此不能提供文档中索引项目的相关信息,必须考虑索引项目之间的相关关系,才能真正获得满意的查询结果。向量空间模型适用于典型文档集的相似性排序,可以通过查询扩展或相关反馈改进模型生成的结果集。向量空间模型与其他搜索模型相比,即使不是最佳的,其性能也相当好,因此该模型是当前普遍采用的信息搜索模型。7.1信息搜索概述,青岛大学公共计算机基础教育中心,第7章信息检索,7.1.3信息检索模式3。概率搜索模型概率搜索模型是在概率框架内处理信息搜索问题的基于概率的搜索模型。概率搜索模型在搜索文档时很方便,前提是假设对特定用户的查询,具有仅包含相关文档而不包含相关文档的理想结果集,并且可以提供此理想结果集的说明。虽然最初不能准确地给出理想结果集,但通过推测,可以在搜索初始文档集后引入用户的交互,从而生成理想结果集的初始概率描述,以改进理想结果集的概率描述。用户浏览搜索文档并确定哪些文档相关,哪些文档不相关。然后,信息检索系统利用此信息修改理想结果集的说明。重复此过程多次,继续修改说明,逐步访问理想结果集的实际说明。理论上,概率搜索模型检出的文档按相关概率降序排序,以满足查询要求。但是,在此模型中,最初需要将文档拆分为两个相关的、不相关的集合,与向量空间模型一样,在每个索引项之间是独立的,不能提供文档中索引项的依存关系信息。7.1信息搜索概述,青岛大学公共计算机基础教育中心,第7章信息搜索,7.1.4信息搜索效果的评估搜索效果(RetrievalEffectiveness),是用户使用搜索系统实现搜索的有效程度,也是直接反映搜索系统性能和此次搜索成败的搜索系统要求的范围。判断信息检索效果的主要标准是检查率、检查率、泄漏率、错误调查率等。1.总检查率,也称为总检查率,是指用户执行搜索时检索到的所有信息相对于搜索系统中相关信息总量的百分比,7.1信息搜索概述,青岛大学公共计算机基础教育中心,第7章信息检索,7.1.4信息检索效果评价2。检查率,也称为检查率,表示用户执行搜索时检索到的符合该主题的信息量和检索到的信息总量的百分比,3 .泄漏检测率“泄漏检测率”(OmissionRatio)是用户执行搜索时7.1信息搜索概述、青岛大学公共计算机基础教育中心,第7章信息检索,7.1.4信息检索效果评价4。错误检查率(也称为错误检查率)是用户执行搜索时,系统未检索到的信息量与检索到的信息总量的比率。7.1信息搜索概述、青岛大学公共计算机基础教育中心,第7章信息检索,7.2.1网络信息检索方法1。网络浏览网络浏览是在互联网上发现和检索信息的最原始的方法。在日常网络阅读中,人们有偶然发现有用信息的经验。特别是网页上提供的超链接,使用户可以在internet上“沿行”从一个网页跳转到另一个网页。跟踪一页的相关链接与传统文献搜索的“深入搜索”有些相似。也就是说,以文献后附加的参考文献为标准追溯相关文献,其范围持续扩大。这种方法可以在很短的时间内获得很多相关信息,但也可能脱离搜索对象,因此搜索结果可能具有某种偶然性和片面性。严格地说,网络浏览不是真正的网络信息检索方法。如果在网页浏览中发现有价值的信息,应及时收藏该信息页面,便于以后使用。7.2搜索internet网络信息,青岛大学公共计算机基础教育中心,第7章信息检索,7.2.1网络信息检索方法1。网络浏览网络浏览是在互联网上发现和检索信息的最原始的方法。在日常网络阅读中,人们有偶然发现有用信息的经验。特别是网页上提供的超链接,使用户可以在internet上“沿行”从一个网页跳转到另一个网页。跟踪一页的相关链接与传统文献搜索的“深入搜索”有些相似。也就是说,以文献后附加的参考文献为标准追溯相关文献,其范围持续扩大。这种方法可以在很短的时间内获得很多相关信息,但也可能脱离搜索对象,因此搜索结果可能具有某种偶然性和片面性。严格地说,网络浏览不是真正的网络信息检索方法。如果在网页浏览中发现有价值的信息,应及时收藏该信息页面,便于以后使用。7.2搜索internet网络信息,青岛大学公共计算机基础教育中心,第7章信息检索,7.2.1网络信息检索方法2。使用搜索引擎信息搜索引擎作为主要的internet网络信息搜索工具,可以为用户提供关键字、短语或自然语言搜索,在网络信息搜索中占有重要地位。在信息搜索中,如果用户提出搜索请求,搜索引擎将在数据库中查找信息,而不是用户,并将搜索结果反馈给用户。搜索引擎通常具有布尔搜索、短语搜索、剪切搜索、字段搜索等多种功能。使用搜索引擎节省时间和精力,轻松、快速地搜索,及时获取新的网络信息。但是,搜索引擎使用计算机程序自动处理和处理信息,因此搜索软件的智能化程度不高,搜索精度不理想,与用户的搜索需求和对搜索效率的期待有些差异。7.2搜索internet网络信息,青岛大学公共计算机基础教育中心,第七章信息检索,7.2.1网络信息检索方法3。使用网络资源指南搜索信息网络资源指南的目的是实现对网络信息资源的智能查询。为了组织和管理internet上的信息资源,并将大量宝贵信息合并到一个有序的组织体系中,使用户完全了解网络资源的分布情况,专家们在广泛了解网络信息资源的创建、传递和利用机制以及熟悉网络信息资源的分布情况的基础上,开发了可以使用收集、组织、评估、过滤、控制、搜索等多种手段快速搜索信息的网络资源指南。网络资源指南根据网络信息的主题内容分类,以分级目录的形式组织。Yahoo目录是internet上使用最广泛的综合网络资源指南。专业网络资源指南也很普遍,几乎所有领域专业、重要课题、研究领域的网络资源指南是中国高等教育文档安全系统CALIS(,7.2 internet网络信息检索,青岛大学公共计算机基础教育中心,第7章信息检索,7.2.1网络信息检索方法4。使用联机数据库搜索信息在internet上使用联机数据库进行查询是用户获取学术信息的最有效方法。现在网络上有很多晶片数据库、CNKI中国期刊网络、万方数据库资源系统、超级明星数字图书馆等。5.使用其他类型的网络信息检索工具,在internet开发的早期阶段,依次开发了一系列网络信息查询工具。例如,可以使用telnet远程连接到各种图书馆的公共目录系统、信息服务机构的统一信息系统等,并进行查询。使用分布式数据库检索系统Archie从FTP文件服务器中查询信息。使用USENET新闻组在internet上阅读和讨论新闻组消息。使用菜单驱动的internet信息查询工具搜索文本信息。使用广域信息查询工具WAIS在internet上搜索信息资源。需要注意的是,WWW系统的快速发展已成为互联网网络信息发布的主流,随着时间的推移,上述网络信息查询工具中的一些仍在使用,有些不再感兴趣。7.2搜索internet网络信息,青岛大学公共计算机基础教育中心,第七章信息搜索,7.2.2网络搜索引擎1。搜索引擎工作原理搜索引擎通常包含五个部分:浏览器、索引器、浏览器、数据库和用户界面。Crawler是自动执行程序,通常称为Spider、Robot和web crawler。crawler
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年数据分析师笔试重点考点及模拟题集
- 2025年政府会计准则实施能力考试重点题库
- 2025年宠物营养师营养伦理方向笔试模拟题及答案
- 领导谢辞致词模板
- 2025年安全员岗前考核模拟题含解析
- 2025年人力资源管理师职业能力测评试卷及答案解析
- 2025年协管员岗位面试模拟题及答案
- 2025年烹饪厨艺技能考试试题及答案解析
- 2025年考古发掘工程师专业水平评定试题及答案解析
- 2025年健身教练专业知识考核试题及答案解析
- 带状疱疹护理业务查房
- 2025-2030量子科技前沿发展态势与中国市场投资机遇研究报告
- 跨境电子商务专业教学标准(高等职业教育专科)2025修订
- 设备维护方案(3篇)
- 肉类加工间管理制度
- 2024-2025学年苏教版四年级下学期期末测试数学试卷(含答案)
- 动脉导管未闭封堵术的医疗护理
- 农村供水管网延伸工程可行性研究报告
- 快递公司快递员管理制度
- 转租养殖场地合同范本
- 精神运动发育迟缓护理要点
评论
0/150
提交评论