




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
文件检索及写作结业论文文档副标题专业名称:机械设计制造及其自动化学生学号:2014040191071学生姓名:宁义朗任课老师: 彭晓玲 老师2015年10月13日信息检索效率的探讨摘要在信息技术迅速发展的推动下,传统信息服务机构和网络信息服务运营商逐步走上由信息服务向知识服务的转型之路。在这种趋势下,信息检索也由过去单纯的字符匹配逐步转向面向内容、基于知识的信息检索。在这里简单探讨一下基于知识服务的信息检索效率的基本概念和评价指标,剖析语义分析程度、信息模型、检索方法和信息收录范围等主要影响因素,最后通过一个实例,对比分析说明知识服务将提高用户信息检索的效率。关键词:知识服务;信息检索:效率引言进入知识经济时代,知识管理、知识服务的理念得到广泛认同,信息检索技术也由基于关键词的信息检索逐步转向针对文章内容的基于知识的信息检索。后者不再是基于字符的机械匹配,而是更强调语义,模拟人类的思维方式,从语义和概念出发,自动分析信息资源的语义信息,查找和发现具有相关知识单元的信息资源。较之前者,其检索结果更准确,更贴近用户需求。信息检索是将信息按照一定的规律组织起来,找到所需信息的过程和技术,简单的说,就是信息的有序化识别和查找。信息检索效率就是实施识别和查找过程的效率。信息检索效率不仅是影响信息检索工具价值的重要因素,也是评价信息检索技术发展的重要指标。目录1、 信息检索效率31.1、 检全率31.2、 检准率31.3、 友好性31.4、 检索耗时32、 影响因素分析32.1、 语义分析程度32.1.1、 语义分析42.1.2、 语义分析的内容42.1.3、 语义分析对检索效率的影响42.2、 检索模型42.2.1、布尔模型52.2.2、 向量模型52.2.3、 概率模型52.2.4、 基于本体的信息检索模型52.3、 检索方法52.3.1、 目录式检索62.3.2、 搜索引擎62.3.3、 在线数据库查询62.4、 信息收录范圈63 、检索实倒分析74 、结束语75 、参考文献71信息检索效率 基于知识服务的主要评价指标有检全率、检准率、友好性和检索耗时。1.1、 检全率检出相关信息的记录数与系统中全部相关信息的记录数之比。这里的相关信息是指具有语义联系的信息。1.2、 检准率是指检出相关记录数与检出全部相关记录数之比。1.3、 友好性对检索结果按照相关度进行排序,便于用户率先查看相关度高的结果再看相关度低的结果,减少用户定位到目标结果的耗时。1.4、 检索耗时是指从用户提交请求到计算机返回检索结果所消耗的时长,由网络速度和检索算法决定。2、 影响因素分析基于知识服务的信息检索是建立在语义理解基础之上的智能检索过程,影响检索效率的因素主要有语义分析、信息模型、检索方法和信息收录范围,分述如下。2.1、 语义分析程度2.1.1、 语义分析语义分析是在提供信息检索服务之前,对收录信息资源进行语义层面的分析,发现和标记信息资源的知识单元及相互联系,构建基于信息资源本质内容的知识库。语义分析的目的在于控制检索的语义范围,从而控制检索的范围,保证检索出全部与某特定学科内容相关的信息,剔除所有与此学科内容不相干的信息。可以说,信息检索的范围与语义分析的程度息息相关,语义分析程度越充分,发现的知识单元越丰富,检索结果越全面、准确;反之,语义分析程度不够,能够发现和标记的知识单元就相对较少,检全率和检准率都会降低导致检索效率低下。2.1.2、 语义分析的内容针对信息资源内容的语义分析包括两个方面:基于内容的定性分析和定量分析。基于内容的定性分析是对信息内容的学科属性进行分析和鉴定。通过语义分析,确定信息所属范畴,从而限定了信息检索的范围。目前定性分析的方法主要有专家法和机器学习法。基于内容的的定量分析是定量的分析信息资源之间的关系,通过对信息资源所含知识单元的数量特征、数量关系和数量发展进行统计分析,区分核心信息资源和一般信息资源的知识单元的差异。2.1.3、 语义分析对检索效率的影响信息内容的定性分析能够分析和鉴定信息的学科属性,控制检索的语义范同,保证了能够检索出全部与特定学科内容相关的信息,剔除不相关的信息,提高了信息检索的检全率和检准率。信息内容的定量分析从数量的角度分析信息资源的相互关系,区分出核心信息资源和一般信息资源,使检索过程优先匹配核心信息资源,缩减平均匹配时间,提高检索效率。因此,信息资源的语义分析程度是影响信息检索效率的关键因素。2.2、 检索模型信息检索模型是描述信息检索过程中文档表示,查询及其相互关系的模型。信息检索模型决定了查询过程的效率。目前主要的信息检索模型有布尔模型、向量空间模型、概念模型和基于本体的信息检索模型。2.2.1、布尔模型布尔模型是基于集合论和布尔代数的一种简单模型,该模型为用户提供了一个容易掌握的方式,输入布尔表达式即可查询。布尔模型定义索引术语只有两种状态:匹配和不匹配,这就导致了索引术语的权重都表现为二元性,要么文档完全匹配,要么文档完全不匹配,布尔模型只能进行精确检索而不能进行模糊检索。 2.2.2、 向量模型向量空间模型是利用空间相似性来表示语义的相似性。文档和查询都用多次元向量表示,如果查询向量和文档向量距离最近,那么这个文档和这个查询的相关度就最大,匹配程度就越高。向量空间模型解决了布尔模型索引术语权重二元性的缺点,提供出符合某向量距离(即相关度数值)范围内的所有检索结果,很大程度的提升了信息检索的检全率,但倘若相关度制定的过低,则会导致检索结果数量过多,影响检索效率。2.2.3、 概率模型概率模型基于以下理论:给定一个查询串q和集合中的文档d,概率模型来估计用户查询串q与文档d相关的概率。概率模型假设这种概率只由查询串和文档决定。更进一步说,该模型假定存在一个所有文档的集合,即相对于查询串q的结果文档子集,这种理想的集合用R表示,集合中的文档是被预料与查询串相关的。2.2.4、 基于本体的信息检索模型基于本体的信息检索模型是利用领域本体作为组织资源的基础。首先构建一个涵盖相关领域概念及概念之间关联的本体库,在这基础上确定领域本体的主要概念和概念之间的关系,构筑领域本体的概念模型。该模型的检索过程如下:用户提交检索的关键字,系统查询本体库,从中找到关键字涉及的各个领域,并将其所在领域及该领域下的关键字罗列给用户,用户再根据个人意图确定需要查询的领域和关键字,系统根据经过本体库规范后的请求对信息资源进行全文检索,最后将检索结果返同给用户。系统通过修正用户的查询语句,使检索系统能够“理解”人类的自然语言,充分明白用户的真正意图,达到提高检索效率的目的。2.3、 检索方法检索方法是用户进行信息检索时借助的工具或采用的方式。采用不同检索方法对同一目标进行检索,效率也不尽相同。目前,网络信息检索的方法主要有以下三种。2.3.1、 目录式检索目录式检索是依靠专业人员对信息资源的了解开发出类似目录一样等级清晰的信息资源指南,如著名的Yahoo目录、新浪导航、CAMS的重点学科导航库等。目录式检索的主要特点是专业人员根据信息资源的主题内容进行分类,并以层次清晰的目录形式组织和表现,适合面向某一领域的主题信息检索。目前这种专业性的网站信息指南十分广泛,几乎每一门学科、重点项目和研究领域的信息指南都能在互联网上找到。2.3.2、 搜索引擎搜索引擎作为现今主要的信息检索方法,在信息检索中占据重要的地位。搜索引擎根据用户提交的关键词对信息资源逐一匹配,最终返回相关信息。搜索引擎的检索效率与用户提交的关键词紧密相关,合理的关键词能够帮助用户迅速找到期望的信息,反之,不合理的关键词会导致检索效率不高。2.3.3、 在线数据库查询目前网络上有很多在线数据查询系统,如CNKI中国期刊网、超星数字图书馆、万方数据库资源系统等。利用在蛙数据库查询系统是用户检索学术信息的有效方法2.4、 信息收录范圈信息收录范围是信息服务机构收录的信息资源所属的时间跨度和学科领域。收录的信息资源时间跨度越大、涉及学科领域越丰富,信息检索结果就越全面、越准确。3、 检索实倒分析随著知识处理技术的发展传统的搜索引擎不断向知识服务方向发展,如主题式搜索引擎,借鉴知识服务的思想,采用根据信息资源内容先划分主题再进行关键词匹配的方式,显著提高了信息检索的质量和效率,如G叩gle按照主题划分为快讯、图书、字典、大学、学术、购物、公交、地图等具有独立主题的搜索引擎。在此,仅以Google购物搜索为例,对基于知识服务的信息检索效率进行简要示例与分析,例如,用户希望检索目前某品牌手机价格,分别在Google和Google购物搜索中输入“N97价格”和“N97”,检索结果分别显示:在Google的传统搜索引擎中检索到约9,760,000条与“N97价格”有关的资讯、图片等,用户需要一条条点击才可能获取具体价格,而通过Goo出购物检索后,返回1,588条“闰片+文摘+价格”的结构化的检索结果,用户体验十分直观、方便、快捷。在这个实例中,Google的购物检索以强大的搜索引擎和语义分析技术作为支撑,保证了检全率和检准率,加强了用户友好性,降低了用户检索耗时,提高了信息检索效率。4、 结束语提高信息检索效率就是要提高信息检索的检全率、检准率、加强友好性、降低检索耗时。传统信息检索效率的提高主要依靠选择关键词的技巧,采用扩大、缩小检索范围,关键词组配等方法提高信息检索的检全率、检准率。随着知识服务的不断推进,知识服务的技术和产品也随之逐步增多,如主题式搜索引擎、维基百科等等,借助这些知识服务产品,可进一步加强用户认知程度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 系统运维服务质量提升方案
- 黄酒肝损伤修复-洞察及研究
- 公园活动策划与执行方案
- 1 我们班四岁了(教学设计)2024-2025学年统编版道德与法治四年级上册
- 初高中比例函数知识点集锦
- 2025-2030中国工业传感器智能化升级与物联网融合报告
- 2025-2030中国存量房改造公寓政策限制与创新解决方案报告
- 春季高考历年真题分类汇编
- 2025-2030中国商业航天发射服务市场需求与卫星星座组网机遇分析
- 2025-2030中国危废处理行业区域产能过剩风险与并购整合机会评估
- 第8课《回忆鲁迅先生》课件+++2025-2026学年统编版语文八年级上册
- 库欣综合征护理查房
- 员工培训课件心脑血管
- 2025年专武干部面试题目及答案
- 弱猪护理培训课件
- 新能源项目开发专员岗位面试问题及答案
- 人人享有心理健康
- 下肢血管疾病超声诊断
- 餐中服务细节培训资料
- 积极向上树立正确人生态度主题班会课件
- 大学生心理健康十六讲(第3版) 课件全套 第1讲 心理健康知多少-大学生心理健康导论-第16讲 珍爱生命-危机干预与幸福人生
评论
0/150
提交评论