版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息检索系统及评价南京中医药大学文献检索教研室教学内容信息检索工具/系统的类型信息检索工具/系统的结构信息检索系统评价信息检索工具/系统-二者关系从功能上看:检索工具和检索系统都用于信息的存储和检索,两者之间没有严格的、绝对的界限。从使用背景上看:检索工具是个比较传统的概念,而检索系统是个比较现代的概念从检索机制上看:两者是一脉相承的,检索工具的编制原理和方法在检索系统中都有体现,检索工具是检索系统的基础,至今仍然在发挥其重要作用。检索系统是检索工具发展的必然结果,并逐渐占据主导地位很多教材将检索工具作为检索系统的一种特例本课程将检索工具定位为传统的手工印刷型检索工具,信息检索系统则定位于机器或计算机检索系统信息检索工具/系统-类型信息检索工具/系统种类繁多,可以从功能、设备、资源等划分按照信息存储与检索操作所使用的设备分:手工检索工具(包括书本式与卡片式)、穿孔卡片系统、缩微式检索系统、计算机检索系统、网络检索系统按资源划分:书目信息检索系统、全文信息检索系统、多媒体信息检索系统按功能划分:文献检索系统、数据库管理系统、自动问答系统(QAS)、管理信息系统(MIS)、决策支持系统按服务划分:回溯检索、定题检索、随机问答、联机订购信息检索工具/系统-印刷型检索工具文献检索工具:目录(如全国书目)、题录(如全国报刊索引)、索引(如SCI)、文摘(如CA),它们主要用来对某一课题相关文献进行查找,其结果大多是获得一批文献的线索,少有全文,它们是题录型机读数据库的基础数值/事实检索工具:如百科全书、传记资料、年鉴、地理资料、统计资料、手册等
检索工具体系结构编辑说明与使用说明、凡例目次表(多为分类表或主题表)正文(有序的信息集合)辅助索引(如主题索引、著者索引等)附表(资料来源目录与附录等)信息检索工具/系统-计算机检索系统单机检索系统:如穿孔卡片系统以及磁带数据库系统,20世纪60年代使用联机检索系统:20世纪70年代发展起来的一种集中式的信息检索光盘检索系统:20世纪80年代,以光盘为介质的检索系统,有单机光盘和网络(局域网)光盘检索网络检索系统:主要指Internet网络,大量的电子化信息资源,如电子图书、电子期刊、图书馆联机馆藏目录、联机数据库等。
信息检索系统的体系结构文本数据库数据库管理建索引索引查询操作搜索排序排序后的文档用户反馈文本操作用户界面检出的文档用户需求文本提问逻辑视图倒排文档分词删除停用词Stemming(提取词干)为文档建立倒排索引表根据倒排索引表检索出与提问相关的文档将检索出的文档根据相关性排序Query输入和文档输出相关反馈结果的可视化对query进行变换,以改进检索结果信息检索系统基本结构-简介系统结构:指系统的组成及各组成部件之间的关系系统的结构可以从不同的角度和层次来讨论本课程主要从物理层面和逻辑层面来考察其内部构成信息检索系统基本结构-物理结构计算机检索系统的物理结构指系统的硬件、软件、信息资源等构成的实体系统结构硬件部分:主机、外存储器、输入与输出设备、数据处理及数据传输设备软件部分:系统软件(操作系统、语言处理程序等)和应用软件(数据采集程序、自动标引程序、建库与索引程序、词汇管理程序、检索匹配程序等)信息资源:主要指以数据库(还有模型库、规则库、本体库等)形式存储在检索系统的有序信息集合同时按照物理空间的分布情况,信息检索系统的物理结构还可以分为集中式和分布式信息检索系统基本结构-逻辑结构信息源选择与采集子系统标引子系统建库子系统用户接口子系统提问处理子系统词表管理子系统信息组织各功能模块-信息资源及其采集在创建信息系统之前,需要先根据检索系统经营方针和服务对象的需要从各种信息源和信息渠道中完成信息资源的采集工作它决定了信息检索系统中数据库的类型及收录范围目前的信息检索系统多采用计算机为主导的资源采集方法,如扫描、复制、链接、合并以及格式转换都有计算机完成信息组织各功能模块-标引处理对之前采集的信息进行各种检索特征的分析并使之显性化的过程,其实就是信息组织过程中描述著录以及揭示标引的工作标引工作决定数据库的标引深度和检索点标引前一般要先对文献进行词汇分析,对其中的数字、连字符、标点符号和字母的大小写进行处理自动标引分为自动抽词和自动赋词
信息组织各功能模块-自动标引思路分析自动抽词标引思路标引词往往会选择高频词,考虑词的绝对数、与文本长度有关的数、词频超过一定阈值的词数、或根据算法计算出的重要短语。在西文文献中,抽词标引时还可以选择标引词根。如单复数、动词状态等自动赋词标引思路预先编制词表,如叙词表需要有将被引文献中的词和词表中词进行匹配计算的算法有概率模型和基于概念的模型信息组织各功能模块-基于词汇分布特征的标引统计标引法:词频统计标引法:齐夫定律加权统计标引法:逆文档频率法:词的文献频率和词权有互逆关系.词区分值法:本质和逆文档频率法一致,但采用向量模型计算文献去掉某词后的文献空间密度的变化来决定是否标引词N-Gram法信息组织各功能模块-中文自动标引的研究中文自动标引的难题词典切分法:主题词表、关键词词典和部件词典法(部件词通常是建立一个二字部件词典和一个一字部件词典,其标引过程类似最大匹配法)切分标记法:将能够断开句子或表示汉字之间关系的汉字集合组成切分标记机内字典,如词首字、词尾字、不构词的单字、非用字等单汉字法:单汉字位置标引法(从文本中将汉字逐一取出,同时赋上文献号、字段号以及汉字所在位置,将这些信息写入单汉字索引文件文档)和首字直接匹配法信息组织各功能模块-数据库创建与维护依据上述步骤形成的有序信息一般以数据库的形式存储在检索系统中,常见的数据库有文献型数据库和非文献型数据库文献型数据库包括书目(如索引、文摘等)和全文数据库,非文献型数据库包括指南数据库(如人物传记、公司名录、机构指南数据库等)、数值数据库和术语等特殊类型的数据库数据库结构概念:数据库是至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。数据库的结构:由文档、记录和字段三个层次构成数据库的构成文档:数据库中一部分记录的集合(其实质是数据库中的表)。许多大型数据库为了方便用户,常常把数据库分割成若干文档,如Medline数据库分为现期文档和若干个回溯文档。文档是数据库的结构。数据库是由一个顺排文档和若干个倒排文档所构成。顺排文档顺序文档:文档中的全部记录按顺序一个接一个地存放,记录的物理位置通常按照存取号由小到大排列特征:记录间的逻辑顺序和物理顺序一致基于其他特征看文档处于无序状态检索时间与物理位置有关修改和删除容易,插入难顺序文档的检索过程分析检索方法:表展开法、逻辑树法顺序文档检索在脱机批处理的定题检索中应用倒排文档倒排文档:将顺序文档中的可检索字段(如作者名、关键词、分类号等)取出,按照一定的规则排序,归并相同词汇(如姓名、类号等),并把在顺序文档中相关的记录的记录号集合赋予其后而形成的文档,也称索引文档。目的:保证通过某一特征词快速、方便地获取相关记录倒排文档结构:索引词(如作者、主题词等)、目长(含有该索引词的记录条数)、记录号集合(还有该索引词的所有记录号)倒排文档检索方法:逆波兰展开法随机文档随机文档:文档中的记录按随机方式存放在支持直接存取的磁盘或者内存中,查找记录依赖于记录的关键码和存放该记录的地址之间建立的某种关系特征:文档中记录可以随机存放,不考虑其在记录集合中的排列次序数据的存取时间与数据的存储位置无关实现随机文档快速存取的关键是寻址技术数据库的构成记录(Record)是构成数据库的一个完整的信息单元,每条记录描述了原始信息的外部和内部特征。书目数据库中的一条记录通常代表一篇文献,其它类型数据库中的记录则是某种信息单元,如一种治疗方案、一组理化指数等。数据库的构成字段比记录更小的单位是字段,是组成记录的数据的信息项。例如在书目数据库Medline中一条记录代表一篇文献,在这条记录中有题名(TI)、著者(AU)、来源(SO)、主题词(MH)等字段。数据库的构成字段记录文档数据库记录字段【分类号】R-05;R459.9;R735.705.8【标题】中药在原发性肝癌介入栓塞治疗方面的研究进展【著者】楚建设;孙伟芬(指导)【著者单位】泉州福建中医学院附属泉州市中医院362000【出处】山西中医2005.06.15;21(3):58-59【关键词】肝癌;介入栓塞治疗;研究进展;中药;综述【主题词】肝肿瘤/*中西医结合疗法;*栓塞,治疗性;综述[文献类型]数据库类型文献型数据库书目型数据库全文数据库非文献型数据库指示型数据库数值型数据库术语数据库书目数据库又称二次文献数据库检索结果是所需文献的线索而非原文。依照二次文献的不同类型又可分为题录型和文摘型CBMWeb(中国生物医学文献数据库)、Pubmed、webofscience、CA(美国化学文摘数据库)、BA(生物学文摘数据库)全文数据库存储的是原始文献的全文,如杂志论文、报纸新闻、法院案例等。全文检索可直接获取原始资料,而不是书目检索时的线索,提高了用户的检索效率《中国学术期刊》数据库、万方数据库、维普数据库等全文数据库。国外有springerlink、ebsco、ovid、sciencedirect数据库指示型数据库存储实体(如机构、人物)的一般指示描述的一种参考数据库。又称字典型数据库,用于用户参考和指南的各类文献信息公司名录数据库、人物传记数据库、技术标准数据库、产品指南数据库和大学指南数据库。万方数据库机构人物数据库、医生咨询数据库(PDQ)数值数据库以数值型数据为主的数据库从文献资料中分析提取出来数据、或是实验、观测和统计中得到的数据建立的数据库分为纯数值型数据库和文字/数值型数据库。万方公司的CSTPC(中国科技论文统计与分析库),中国科学院的工程化学数据库和图谱数据库,以及中国统计数据库都是此类术语数据库由主文档和相应索引文档组成字段结构反映术语的各种属性主要用于辅助翻译和辞书编撰的工具如中国知网的术语数据库信息检索各功能模块-理解用户界面用户界面主要承担用户与系统之间的通讯任务,完成人机交互和对话界面设计一定要强调人的因素,是界面适应人而不是用户适应界面功能:帮助用户理解和表达信息需求帮助用户构造检索式,拟定检索策略帮助用户选择有效的信息源帮助用户理解和控制检索结果帮助用户跟踪检索过程信息检索各功能模块-用户获取信息的特性和能力人的特性:人获取信息的多通道性人的易出错性和易疲劳性用户的层次和发展性人获取信息的能力优势:人能通过感觉器官十分敏感地接受综合信息,识别物体状态、大小、颜色,阅读文件,分别声音,并能将这些信息通过大脑进行分析和决策;人有较高的创造性、智能性,具有适应、学习、自动维修、应急等能力不足:信息通道小,内存数量有限;大脑计算、思维和决策的速度不及计算机;感觉器官信息接受能力有限,完成机械、单调和重复工作的效率不高;功能发挥可靠性差计算机获取信息的能力界面功能分配原则:比较分配原则;剩余分配原则;宜人分配原则
信息检索各功能模块-用户的检索行为用户的检索行为指用户为获取所需信息,在与检索系统交互过程中的一系列身体活动和心理活动主要包括:检索前提问式的构造、重构检索式、提问式的长度、布尔算符的使用、短语的使用等研究表明:一定检索经验的专业检索人员更常使用多种检索功能,并使用复杂的技巧;熟悉系统的专业技术人员更倾向使用专业术语进行检索;检索知识和技能较低的人往往会使用较长的检索句进行检索,且多从宽泛词开始检索,在检索结果出现后再逐步缩小检索范围信息检索各功能模块-用户界面构成要素文本:结果输出文本(突显技术)、联机用户手册和帮助(超链接)、系统提示文本信息(可以采用小图标的伴随)。力求文本的格式一致统一窗口:单一窗口、多窗口框架、重叠窗口布局菜单:下拉式菜单最常用,常被用于选择数据库、选择索引词、选择检索字段、选择布尔逻辑算符、选择检索限制范围、选择输出方式等。另外也有一些树形菜单表框:文本框、单选框、复选框和列表框图形图像动画:一般用于信息提示、警告、操作提示和指示操作状态
用户界面遵循原则保持界面直观简洁保持协调一致界面布局合理提示信息完整设计完善的帮助体系信息检索各功能模块-用户界面种类和风格按照界面元素划分字符文本界面图形化界面按照人机交互式划分命令语言界面表格填充和菜单选择界面直接操纵界面自然语言界面按照检索过程的不同阶段分:作为检索起点的界面作为检索过程的界面(提问界面与检索控制界面)作为检索结果显示的界面
信息检索各功能模块-理解可视化可视化:运用计算机图形学和图像处理技术,将数据、信息或知识转换为图形或图像在屏幕上显示出来并进行交互处理的理论、方法和技术常见模式:图象、曲线、二维图形、三维体和动画可视化技术的应用除了信息的表达外,充分调用了用户的感知能力和想象力能力
信息检索各功能模块-提问处理与检索匹配该模块负责处理用户输入的检索式并将他们与数据库中存储的文档进行匹配运算,然后将结果返回给用户该模块是系统的技术核心信息检索系统的热点研究语义网语义检索智能检索知识挖掘异构信息整合信息检索系统评价评价(Evaluation):发现和收集关于某种活动的数据,从中判断该项活动的质量及达到预期目标程度的行为。简单地说,评价就是对系统的价值和效率进行测评。信息检索系统评价:根据给定的指标体系,采用一定的方法和程序,对信息检索系统的功能、特性和运营状况进行评测,或对有关假设、预期效益、性能值进行验证,以确定系统达到了何种水平、投入成本是否值得、是否可以改进和如何改进,乃至系统是否应生存下去。信息检索系统评价信息检索系统的评价研究,一直是信息检索领域的一项重要研究内容。多年来人们进行了大量的评价试验和多角度的探索。原因在于,检索系统评价工作在为研究者验证检索系统效益、比较各种检索技术的优劣、改进现有检索系统、开发新的应用领域等方面,都具有不可替代的作用。信息检索系统评价针对一个检索系统,可以从功能和性能两个方面对其进行分析评价功能评价:可通过测试系统来判定是否支持某项功能,因此相对来说较容易检索功能的评价:是否易于使用、是否具有用户学习平台、信息的可视化水平、结果的相关度输出、源信息获取的难易程度。性能评价:对于检索系统的性能来说,除了系统的时间和空间因素之外,要求检索结果能够按照相关度进行排序性能评价内容包括:资源的收录状况、数据的质量、检索的功能和效率、系统的功能以及检索结果的反馈形式等。资源的收录状况的评价:“全”、“精”、“快”数据的质量评价:一是数据的录入质量(错误率、数据结构、完整性著录完备性),二是数据加工的质量(加工深度、标引质量、分类是否合理)检索的功能和效率评价:考察检索入口能否满足用户的需求、检索的组配是否合理、检索的响应速度如何?评价意义了解已有检索系统的功能,找出缺陷并改进;比较各种检索系统的优劣;提高提高效率和效益;有助于新的检索系统的设计;丰富信息检索的理论。评价范围与类型信息检索系统是一个有众多功能模块组成的集合体。评价可以从不同角度、基于不同目的和方法来进行。评价范围:各种类型的检索系统及组成要素。评价类型:宏观评价:着眼于检索系统的宏观方面,如情报源类型、系统结构、收录范围、利用率等。个别评价:仅对系统的某一性能、功能进行评价。性能评价(performanceevaluation):面向用户的评价,测定检索系统的质量或服务效果。也称为检索效果评价(effectivenessevaluation)。效益评价(benefitsevaluation):测定系统或用户获得的的经济效益和社会效益。(有直接的、潜在的;难以直接计量)费用/效果评价(costeffectivenessevaluation):考察系统达到的性能与费用消耗之间的关系。(用户、系统两方面)费用/效益评价(costbenefitsevaluation):考察系统的服务效益与费用消耗间的关系。(计量难度较大)相关性相关性理论假定:对于一个给定的文档集合和一个用户查询,存在并且只存在一个与该查询相关的文档集合检索系统的目标就在于检出相关文档而排除不相关文档评价指标体系主要性能指标及分析查全率(召回率)(Recallratio,R):衡量一次检索中与提问相关的文献有多少篇被检出。(衡量检出相关文献的能力)查准率(准确率)(Precisionratio,P):衡量被检出的文献中有多少篇与提问相关。
(衡量检索的精确度)相关文本检索出的文本全部文本集合检出且相关未检出且相关检出且不相关未检出且不相关检出未检出相关不相关查全率和查准率关系图查全率和查准率的关系101查准率查全率返回最相关的文本但是漏掉了很多相关文本理想情况返回了大多数相关文档但是包含很多垃圾示例例:
设某检索系统的数据库中共有相关文献20篇。针对某一个提问,检出文献总数为30篇,其中相关文献数为15篇。求查全率R、查准率P。小结为便于分析,我们给出数学语言描述:设某文献库所存储的文献总量为L。对某一给定提问,a—表示被检出的与提问相关的文献数;(前例a=15)b—表示被检出的与提问无关的文献数;(误检,前例b=15)c—表示与提问相关,但未被检出的文献数(漏检,前例c=5)显然,Q=1-R,E=1-p查全率和查准率的相互关系一个理想的检索系统,应是R=1、P=1。但实际上是不可能的。一般说来,二者之间存在着反变关系,即:若要提高查全率,查准率往往就会下降;若要提高查准率,查全率又就会下降。(二者相互制约)影响查全率、查准率的相关因素①文献库编制质量:文献收集是否齐全,索引体系是否完善,检索途径的多少,都会影响到查全率。②对情报需求的理解:要达到较高的查全率R和查准率P,应较好地理解情报需求,制定好检索策略。③检索语言的一致性:检索的实质就是提问标识与文献标识的异同比较。为此,需要不同人员表达文献主题的语言一致,更需要标识提问与标识文献的语言一致。即,标引语言和检索语言的一致性,对查全和查准起着支配作用。④标引的网罗性:对文献主题分析得越透彻,抽出的检索词越多,检索时可检出的相关文献就越多,即查全率越高。但检出的文献并非全部适用,因而查准率降低。反之,如果标引时只标出中心主题,检出的文献必然比较适用,即查准率较高。但漏检会增多,从而降低查全率。影响查全率、查准率的相关因素⑤检索词的专指性:检索词选得词意越狭窄、越具体、越专深,检出的文献就会越对口,查准率就越高。但命中文献就越少,查全率就会降低。相反,如果检索词定得较笼统、较宽泛,检出的文献就会增多,查全率会提高
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中体育人教版七年级全一册第一章体育与健康理论知识获奖教学设计
- 企业服务复核机制方案
- 康养中心给排水方案
- 船舶大型厂房全周期碳测算与降碳优化思路
- 2026学年黑龙江省七台河市六年级数学期末深度自测重点试题(详细参考解析)详细答案和解析
- 2026年西安建筑科技大学医院医护人员招聘笔试备考题库及答案解析
- 2026年七煤矿业集团有限公司总医院医护人员招聘笔试备考题库及答案解析
- 2025年上海市金山区干巷镇卫生院医护人员招聘笔试试题及答案详解
- 2026年北京市宣武区结核病防治院医护人员招聘笔试备考题库及答案解析
- 2026年唐山机车车辆厂医院医护人员招聘笔试备考题库及答案解析
- DB65T 3172-2010 核桃优良品种
- 山东省德州市2024-2025学年高二年级下册期末考试生物试卷(含答案)
- 电气仪表施工培训课件
- 职业调查课件
- 2025年新疆中考语文试卷真题(含答案解析)
- 人类辅助生殖管理制度
- 地震基础知识授课课件
- 语文教师书写《识字写字教学》教育教研讲座教学培训课件
- 高速铁路信号系统信号机安装方法
- 儿童绘本故事《蚂蚁搬家》
- 年综合固废收集预处理20万吨新建项目环评资料环境影响
评论
0/150
提交评论