已阅读5页,还剩55页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1,第4讲 检索工具、检索技术、检索步骤、效果评价,内容:教材第2章24节,4章 目的与要求: 通过熟悉常用检索工具及信息检索基本技术,让学生能够根据实际信息需求,使用适当的检索工具,选择合适的检索途径及策略找到需要的信息。要求掌握信息检索各步骤内容,会熟练选择检索工具并运用计算机检索技术查找文献信息;能够对检索结果进行评价,并能够利用检索结果调整策略根据检索需求适当调整检准率与检全率。 教学重、难点: 1.索引的特点与作用;题录、全文数据库的特点; 2. 三层结构(字段、记录、文档)与文献特征的对应关系;搜索引擎。 3.计算机信息检索基本技术;加权检索、扩展检索、二次检索等。 4.查全率、查准率的计算方法与基本调整措施; 5.影响检索的主要因素及应对措施。,2,4.1 信息检索工具(系统) P25,4.1.1 信息检索工具的定义 检索工具是人们为了快速、全面、准确地查询已有的文献信息资源,按照一定的著录规则编制而成的用以报道、存储和查找信息的工具。 二次文献即是一种检索工具。 现在主流的检索工具形式是数据库。,3,4.1.2 信息检索工具的作用:,存储作用 将大量分散的、不同种类、不同学科的信息资料,进行组织排列 使信息由分散到集中,由无序到系统化。 报道作用 把不同学科信息的类型、数量、质量展示给信息利用者,促进信息传递和使用 检索作用 以特征序化而形成检索途径可使人们根据特征来寻求与之相对应的信息或文献。,4,4.1.3 检索工具的类型,可按收录范围、载体形式、加工手段等划分 一、按检索工具提供文献信息的特点划分为: 一)线索型(目录、题录、文摘、索引) 二)事实型 三)全文型 四)引文型,5,目录:是以一件或一种完整的出版物(如一本书、一种期刊等)作为著录基本单位的检索工具。 主要揭示、报道出版物的外表特征。作用主要是提示藏书,指导阅读。,一)线索型检索工具,6,题录:是以单篇或单份文献为著录的基本单位的检索工具,题录也主要揭示、报道文献的外表特征,但其著录格式于目录有所不同。,【论文题名】 网络环境下信息检索与报道服务浅析 【英文题名】 Information Retrieval and Report Service in Network Environment 【作 者】 丁彩云 DING Cai-yun 【作者单位】 湖南化工职业技术学院,图书馆,湖南,株洲,412004 【刊 名】 株洲师范高等专科学校学报 【英文刊名】 JOURNAL OF ZHUZHOU TEACHERS COLLEGE 【年 卷 期】 2005 Vol.10 No.2 【关 键 词】 图书馆;网络环境;信息搜集;信息检索;信息报道,一)线索型检索工具,二)事实型检索工具 检索结果是回答问题的知识本身,而不是查找知识的线索。 包括事实、数据、知识内容等。 三)全文型检索工具 特点: 提供完整的文献单元内容; 不保证内容是否绝对真实、正确。 四)引文型检索工具 主要功能是用来查找文献间引证关系(继承、评价) 如SCI、CSCD等。,9,二、按信息加工处理的手段分,一)手工检索工具 历史悠久;形式多样;词义检索;人脑判断与筛选 (詹德优中文工具书导论中分为8类):书目、索引、文摘;字典、辞典;类书、政书;百科全书;年鉴、手册、名录;表谱;图录;丛集汇要。 二)机械检索工具 (过渡形式) 三)计算机检索工具(数据库) 当前主流。更能满足用户对检索的主要要求: 准:要求检出的文献有针对性,能解决研究中的具体问题。 全:全面了解某一特定领域(问题)的发生、发展和现状。 新:掌握最新动态或进展。 快:最短时间内获得结果。 定义、历史发展、系统构成、类型划分(自学,教材P50-54),10,11,常用的外文生物医学数据库: PubMed数据库 荷兰医学文摘数据库(EM) 生物学文摘数据库(BA) 化学文摘数据库(CA) 科学引文索引数据库(SCI) 常见的中文生物医学数据库: 中国生物医学文献数据库(CBMdisc) 中国知网 维普资讯网(维普智立方) 万方数字化期刊 中医药文献数据库,12,1、数据库的结构,13,数据库是检索系统的信息源和核心。 利用一个数据库,首先要了解其结构。 不同的数据库,虽然利用原理相同,但由于数据内容和利用目的的不同,使得其数据结构和文献记录标引方式也有一定的差异,因而其利用也各有特点。 数据库对文献特征的组织和揭示影响着数据库的利用及效果。 各种数据库的共同点(P54) 数据库结构均为字段、记录、文档3个层次的构成。,14,(从大到小)文档 记录 字段,若干个记录构成的信息集合称为文档。大型的数据库分割成若干文档。,记录是构成数据库的完整的信息单元,每条记录描述了原始信息的外部特征和内部特征。,组成记录的数据项目,15,索引文档1:篇名索引,索引文档2:作者索引,主文档(顺排文档),检索篇名,检索作者,当你要在篇名中查找时,搜索指令将在篇名索引中进行搜索,然后将主文档中对应的记录调出来,各项数据以构成一张横竖对齐的二维表格形式存放于数据库文件(库文件)中。,文章号唯一,且索引文档与主文档的文章号一一对应,索引文档(倒排文档),文档(File)由众多记录按一定方式组织在一起形成。,16,2、搜索引擎(Search engine) P58,概念: 是根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后显示给用户,为用户提供检索服务的系统。 原理: 同样分为信息存储与信息检索两个过程。 将存储信息与检索需求进行相似度计算,并按一定的排序原则显示在屏幕上。,17,搜索引擎分类,按工作方式: 全文搜索引擎 代表:百度,谷歌 目录索引类搜索引擎 代表:早期的Yahoo 其他搜索引擎名称: 元搜索引擎 集合式搜索引擎 门户搜索引擎 免费链接列表,本部分内容安排有实习,此处不展开讲解。,18,4.2 计算机信息检索基本技术 P55,计算机信息检索技术: 是指从计算机信息系统中提取符合用户信息需求相关信息的技术。 常用计算机算符: 布尔逻辑算符 字段限定符 截词符 位置算符 其他,19,4.2.1 布尔逻辑检索与布尔算符:,来源:(布尔代数)逻辑与、逻辑或、逻辑非。 作用:布尔逻辑运算符用来表示两个检索词之间的逻辑关系,用以形成一个逻辑表达式。计算机根据逻辑表达式查找符合限定条件的文献信息。 布尔算符形式(3种): 逻辑与(AND) 逻辑或(OR) 逻辑非(NOT),20,布尔逻辑算符,一、 逻辑“与”(AND) 表达概念间交叉限定关系的一种组配; 作用:描述更为准确,缩小检索范围,提高查准率。 例:查找“胰岛素治疗糖尿病”的文献,基本检索式为: insulin AND diabetes 胰岛素 AND 糖尿病 检索式“A and B”表示文献中同时包含检索词A和检索词B的文献才是命中文献。(如右图),21,布尔逻辑算符,二、 逻辑“或”(算符:OR) 表达概念间并列关系的一种组配; 作用:扩大检索范围,提高查全率。 如:查找“肿瘤”的检索式为cancer(癌) or tumor(瘤)or carcinoma(癌) or Sarcomas (肉瘤) or neoplasm(新生物)or lymphoma(淋巴瘤)。 检索式“A or B”表示包含检索词A的文献或者包含检索词B的文献或者同时包含检索词A和B的文献为命中文献。 使用注意:处理好整体与部分的关系,避免漏检。,22,布尔逻辑算符,三、 逻辑“非”(算符: NOT) 表达概念间不包含关系的一种组配。 作用:缩小检索范围,提高查准率。 例:查“动物(非人类的)感染乙肝病毒”的相关文献。 检索式: hepatitis B virus(乙肝病毒) NOT human(人类)? “A not B”表示包含检索词A但不包含检索词B的文献为命中文献。 使用需注意:处理好交叉关系,避免漏检。,23,运算次序与注意事项,运算次序 在一个检索式中,可以同时使用多个逻辑运算符,构成一个复合逻辑检索式。 一般情况下,运算优先级别如下所示(可以使用括号改变运算次序)。 ( ) 例:检索厚朴或槟榔对兔离体肠平滑肌运动功能的影响 (厚朴 槟榔)AND 平滑肌 实际使用中,不同数据库对运算次序解释不同。,24,检索实例:,例:查找有关肿瘤引起的贫血的非英文文献 neoplasms(肿瘤)/complications(并发症) anemia(贫血)/etiology(病因学) English #1 1687 NEOPLASMS/complications #2 179 ANEMIA/etiology #3 23867 English in LA (或LA=English) #4 20 (#1 and #2) not #3,25,截词检索:利用计算机特有的指定位对比判断功能,使不完整词能与标引词进行比较、匹配的一种检索。 实质是用逻辑OR对具有相同的词头或词尾的词汇进行检索。 截词符号也称通配符,通常用“*”代表无限多字符组合,而用“?”代表任意一个字符。,4.2.2 截词检索与截词符,26,一、 后截断: 将截词符号放在一个字符串的右方,以表示其右的有限或无限个字符组合方式均符合该字符串的检索要求。 后截断检索技术最常用,其主要用途有: 词的单复数,如book? 同根词,例如biolog*, physic* 年代,例如199?,19? 作者,例如:Lancaster* 例如: hypertensi?可查到hypertension、hypertensive。 hyperthyr*可查到hyperthyre、hyperthyreosis、hyperthyroid、hyperthyroidosis、hyperthyroidism等。,27,二、前截断: 将截词符号放在一个字符串的左方,以表示其左方有有限或无限个字符。 前截断因为实现技术上较困难,在检索系统中比较少见。其主要用途在于:进行一个主题在不同领域应用情况的检索; 在化学化工文献中多有类似情况。 例1:*magnetic ,可检索出magnetic(有磁性的)、electro-magnetic(电磁的)、 patamagnetic (顺磁的)、thermo-magnetic (热磁的)thermomagnetic等词的文献。 例2: *sighted,可查到farsighted 与nearsighted。,28,三、中截断: 将截词符号放在一个检索词的中间的一种截词方式。只允许有限截断,用于检索词的单复数或英美式不同拚法。 例如: wom?n,可查到Woman,Women。 defen?e ,可查到defense,defence。,29,截词检索在大多数检索系统可基本实现。 截词检索的优势: 是防止漏检的有力手段。能扩大检索范围,提高查全率; 可以减少检索词的输入工作量; 简化检索步骤(不需要用OR进行同义词的组配)。 注意截断部位是否合适: 不是所有用截词符产生的单词与你的检索意图相一致。,30,4.2.3 限定检索与字段限定符,(1)“in”表示将“in”左侧检索词限定在某个字段名内查找。 如:Hypertension in TI_ (2)“”、“”、“” 、“” 、“” 符号主要用于限定查找年代。 如:2014,表示要求检出2014年出版的文献。,31,4.2.4 位置检索与位置算符(了解即可) 又称邻近检索,是对检索词之间的相对位置进行限制。 包括在记录中出现的顺序和相对位置。 运算符都用“( )”括起,前后不留空格。 (1)with算符:(W)与(nW) 表示此算符两侧的检索词在命中记录中必须出现在同一字段中(如篇名或文摘等),位置相邻且顺序不可颠倒。 (2)near算符:(N)与(nN) A(N)B 表示命中记录中左右两个检索词出现在同一句子中。无论语序。,32,4.2.5 其他检索技术,一、加权检索( Weighting Searching ) 是一种定量检索的技术。 从权重方面对检索词之间的组配关系加以限制和表示。 在每个提问词后面给定一个数值表示其重要程度,这个数值称为权(Weight),在检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。权值之和超过阈值,该记录为命中文献。 缩小检索范围,提高检准率的有效方法。,33,二、聚类检索: 计算文献的相似度,并把相似度较高的文献集中在一起,形成一个个的文献类。 主题相近、内容相关的文献聚在一起,相异的被区分开来。 根据不同的聚类水平的要求,可以形成不同聚类层次的类目体系。,34,三、扩展检索: 主题词或副主题词都可能存在含义的等级关系。 检索领域常见的“扩展”选项是指如果选择该方式,系统将自动在指定的等级关系体系中把该词的下位词同时选中,词间关系为“逻辑或/OR”的关系。,35,4.3 信息检索步骤 P28 一、分析研究课题、明确检索要求 明确检索目的和要求。了解检索者的具体要求,以及需检索出文献要解决的实质问题(一个课题可有多个问题,一次检索最好解决一个问题)。 寻找探索性、开创性课题需要查出一些启发性文献; 课题申报尽可能全面掌握相关资料; 科研过程中问题解决针对性、可行性方案筛选; 鉴定评奖与科研成果最相关的信息; 确定检索范围。确定解决某一特定问题需涉及的学科范围、文献类型、时间区段、文献语种,以及文献数量等。 学科范围:(如药物:基础研究 or 临床应用?) 厘清检索词及词间关系。有检索意义的术语(拼写,同义词、近义词及相关词)及其他特征(如文献类型、有无专利申请可能)。 通过检索词及其组成的逻辑关系式来进行检索 检索词的选择直接关系到检索结果的质量。,36,二、选择检索工具或数据库 注意根据检索课题的主题及学科范围来选择相对应的检索系统或工具。 1)与课题关系密切的信息源或检索系统有哪些? 熟悉检索课题所涉及的学科范围、有无分支问题? 了解课题专业涉及的数据库学科覆盖范围。 2)检索者的目的? 一般了解? 系统了解?对科研项目内容的全部研究的把握? 能解决问题的可行方法?一种?多种? 1.选择检索工具(系统)时注意: 收录文献要全(量大); 文献的著录要标准(结果准确); 检索途径要多(索引功能完备); 时差要短(更新快)。,4.3 信息检索步骤,37,4.3 信息检索步骤,三、确定检索方法 (教材P28) 检索方法应根据检索工具的收藏条件、检索要求、检索范围以及对学科背景等因素的了解程度而确定。 浏览法:科技人员通过浏览阅读核心期刊来获取本学科信息的方法。 平时获取信息的重要方法。 优点:最快获取信息;直接阅读全文;基本上能掌握本学科发展动态和水平。 缺点:必须事先了解本学科核心期刊种类;检索范围小,易漏检。 追溯法:利用已获得的有较大参考价值的文献后面的参考文献,以之为线索由近及远,进行逐一追踪的查找方法。 优点:不需利用检索系统,查找方法简单; 缺点:检索效率不高;漏检率高;对最新进展掌握不够。,38,浏览法: 追溯法: 常用法:利用检索工具查找文献的方法。 顺查法:是由远到近的查找。多用于已知所查主题起始年代时。查全率高。 倒查法:是由近及远的查找。效率高,最快速度获取最新信息。计算机检索多不区分,但倒查法因效率高多用,且可用于掌握课题的新资料。 抽查法:在事先了解某学科呈波浪式发展情况下使用。集中在学科发展高峰期获取较多文献。 循环法:又称分段法,是交替使用“常用法”和“追溯法”来进行检索的综合检索方法。即利用检索系统查到一批文献资料,又利用这些文献所附的参考文献追溯查找。 优点:即全面获得一段时间内某课题的最新资料,又能了解重要观点的历史发展。 科研时常用。,4.3 信息检索步骤,39,4.3 信息检索步骤,四、确定检索途径与检索标识 1、根据检索课题的要求和已知条件,结合检索工具的特点,确定检索途径。 每篇文献均有内容特征及外表特征,在检索系统中特征表现为标识符号。 同性质检索标识的集合形成了检索工具的检索途径。也称检索点(access point)。 2、确定在该检索途径中有效的检索词(检索标识) 课题中有检索意义的特征形成检索标识。 在检索中能有效使用的特征标识,应是所使用检索工具有效的检索标识。,40,文献检索的常用途径,1. 题名 :注意题名关键词的排序特征 2. 作者 :通常按姓在前名在后方式检索 3. 分类 :我国文献资料一般采用中国图书馆图书分类法(简称中图法)进行分类。 4. 主题 词:主题是指表征文献内容特征、经过规范化的名词术语。检索者通过检索这些规范的词语来找到所要的文献和情报。 现代汉语主题词表 5. 关键词:直接从文献中抽取出来的非规范化检索词。 6. 顺序号检索:专利号,标准号,研究报告号。 7. 引文检索:利用被引文献来查找原文献的检索方法。如: CNKI中国期刊网被引用字段,维普期刊数据库引文检索途径。 8. 其它:超文本检索,基于概念的自然语言检索,图象等。,41,4.3 信息检索步骤,1、分类途径 按学科属性,借助特定分类法来检索文献; 检索标识:分类号或类目名称; 优点:将同一学科的文献集中在一起,比较直观展示学科的系统性、全面性,能满足族性检索的要求; 缺点:专指性不强,对交叉学科、边缘学科、新兴学科难以处理,易漏检或误检。 2、主题途径 根据文献的主题内容,通过规范化的名词或词组来查找文献的途径; 检索标识:主题词; 优点:专指性强,能将同一主题的文献全部集中在该主题词下,满足族性检索的要求; 缺点:不具备分类途径的系统性,难以显示与其他检索词的关系;如果主题词选择不准,会造成误检或漏检。,42,4.3 信息检索步骤,3、关键词途径 同主题途径,根据文献的主题内容检索。但检索词不需或部分需要规范化处理。选择文献中有实际意义的词作为关键词。 优点:易学,好用,检索入口多;费用低; 缺点:不经规范化处理,易漏检。在检索时应全面考虑在意义上相关的同义、近义及可能的词性或组词而造成的词形变化。 4、题名途径 题名即书名、刊名、篇名; 现代学术论文的题名通常能反映文献的主要内容特征。 5、著者途径 按姓名字顺排列,编排方便;检索直接;查准率高。 注意各国的不同姓名排列方式。 6、序号途径 利用文献某些特征具有的代号而编制。如专利号、化学物质登记号、ISBN、ISSN、标准号等。 序号简明、具有唯一性。查准率高。,43,五、查找文献线索 使用一种途径或多种途径综合使用,找出符合检索要求的文献线索(或文献本身)。 注意: 1、要对查到的文献进行内容阅读,以判断检索是否正确或者还需对结果进行调整(扩检或缩检)。 2、如结果偏离要求需返回重新组织检索要求。 重新确定检索所表达的要求。 修改检索途径或检索标识。,4.3 信息检索步骤,44,4.3 信息检索步骤,六、获取原始文献 在全文数据库中可直接获取原始文献。 传统上通过检索工具获得的是文献线索,需根据线索去寻找原始文献。 原则:由近到远、由方便至复杂、由免费到收费。 顺序: 所在单位图书馆 本地其他图书馆、同学、在外进修学习的同事、其他关系 直接联系文献著者 本地图书馆的文献传递服务 专业文献中心(如全国科技文献信息中心)的有偿服务,45,4.4 信息检索效果评价 P32,检索效果(retrieval effectiveness)是指在检索过程中满足检索者检索信息的全面性和准确性的程度。 理想的检索结果是无遗漏、无误差地检索出检索者所需的所有文献。 4.4.1 检索效果评价的目的 4.4.2 评价标准 4.4.3 影响检索效果的因素 4.4.4 提高信息检索效果的措施,46,4.4.1 信息检索效果评价的目的,1.找出检索中存在的问题和影响检索效果的各种因素,以便提高检索的有效性;(影响因素主要来自:信息系统、检索者、用户三方面) 2.是为了准确地掌握系统的各种性能和水平,改进系统的性能,提高系统的服务质量,保持并加强系统在市场上的竞争力。,47,4.4.2 评价标准,根据F.W.Lancaster的阐述,判定一个检索系统的优劣,主要从质量、费用和时间三方面来衡量。因此,对信息检索的效果评价,应该从这三个方面进行。,48,一、费用标准即检索费用是指用户为检索课题所投入的费用。 二、时间标准是指花费时间,包括检索准备时间、检索过程时间、获取文献时间等。 三、质量标准主要通过具体的指标进行评价。评价指标是衡量检索系统性能和检索效果的标准,一般包括查全率、查准率、漏检率、误检率等四项指标。 查全率和查准率是判定检索效果的主要标准,而后两者相对来说要次要些。,49,主要指标的计算方法,a:表示检索系统中检出的相关文献 b:表示检索系统中检出的非相关文献 c:表示检索系统中未检出的相关文献 d:表示检索系统中未检出的非相关文献,查全率 R=a/(a+c) * 100% 查准率 p=a/(a+b) * 100% 漏检率 O=c/(a+c) * 100% 误检率 N=b/(a+b) * 100%,50,1、查全率(检全率),查全率:它是指系统在进行某一检索时,检出的相关文献量与检索系统中相关文献总量的比率。 查全率 = 检出相关文献量 / 系统内相关文献总量 100% 反映该系统文献库中实有的相关文献量在多大程度上被检索出来。 衡量信息检索系统敏感度的尺度,是衡量信息检索系统检出相关文献能力的尺度。,51,2、查准率(检准率 ),查准率:是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率。 查准率 = 检出相关文献量 / 检出文献总量 100% 查准率反映每次从该系统文献中实际检出的全部文献中有多少是相关的。 是衡量信息检索系统精确度的尺度,是用来描述系统拒绝不相关文献的能力,有人也称查准率为“相关率”。,52,3、漏检率,漏检率 = 漏检相关文献量 /系统内相关文献总量 100% 漏检率是衡量信息检索系统漏检文献的尺度。 漏检率与查全率是互补的关系。,53,4、误检率,误检率 = 误检文献量 /检出文献总量 100% 误检率是衡量信息检索系统误检文献和程度的尺度。 误检率与查准率是互补的关系。,54,实验结果表明查全率与查准率之间存在互逆关系 。难以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版心绞痛常见症状及护理护理技能
- 香奈儿的品牌传奇
- 商贸营销效果评估
- 项目授权协议书
- 食堂委托管理协议书
- 学校安全责任协议书
- 2025-2026学年安徽省合肥市八年级生物上册期中考试试卷及答案
- 2025版骨折常见症状及护理知识
- 放射性核素的使用与防护措施
- 产品推销方法技巧
- 商品陈列管理课件
- 台州市黄岩区海塘安澜工程(椒江黄岩段海塘)环评报告
- 2025年人教版小升初数学复习分类汇编:解方程或比例(学生版+解析)
- 2025年《Java Script程序设计》课程标准(含课程思政元素)
- 左心室辅助装置植入患者术后护理
- 海底捞管理案例分析
- 微塑料污染的环境影响评估方法研究-洞察阐释
- 2025至2030年中国普通魔芋精粉行业投资前景及策略咨询研究报告
- 公交车驾驶员心理健康培训
- 课件:《马克思主义基本原理概论》(23版):第七章 共产主义崇高理想及其最终实现
- 2022年北京市房山初三(上)期中数学试卷及答案
评论
0/150
提交评论