信息检索原理及检索步骤_第1页
信息检索原理及检索步骤_第2页
信息检索原理及检索步骤_第3页
信息检索原理及检索步骤_第4页
信息检索原理及检索步骤_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章 信息检索原理及检索步骤本章关键点:文件信息检索基本概念文件信息普通检索步骤检索概念分析、提取和扩展检索策略组成信息检索原理及检索步骤第1页1. 信息检索基本概念信息检索定义文件信息内外部特征文件信息检索普通原理文件信息检索类型检索效果评价信息检索原理及检索步骤第2页1.1信息检索定义狭义:从任何信息集合中查找所需信息活动、过程和方法。广义:信息检索包含信息存放。合并称为信息存放与检索.信息检索原理及检索步骤第3页信息检索(information retrieval) 信息检索广义上是指将杂乱无序信息按一定方式组织和存放起来,并依据信息用户需求找出相关信息过程和技术,全称是”信息存放与检

2、索”(Information Storage and Retrieval).狭义信息检索指是后一过程.信息检索原理及检索步骤第4页1.2 检索语言(Retrieval Language)是用来描述信息源特征和进行检索人工语言。 作用:它是沟通信息存储与信息检索两个过程桥梁。在信息存储过程中,用它来描述信息内容和外部特征,从而形成信息标识;在检索过程中,用它来描述检索提问,从而形成检索标识;当检索标识与信息标识完全匹配或部分匹配时,结果即为命中文件。信息检索原理及检索步骤第5页 检索语言类型:按照表示文件特征划分题名责任者代码,如ISBN、ISSN等引文出版项出版年分类语言:分类法主题语言:关键

3、词、叙词等。表述文件外表特征语言(与文件一一对应关系)表述文件内容特征语言(与文件含糊对应关系)检索语言类型信息检索原理及检索步骤第6页文件信息内外部特征内容特征表示文件信息主题内容检索标识内容特征 文件 含糊对应外表特征与文件主题内容没相关系或关系不大信息外表特征 文件 一一对应信息检索原理及检索步骤第7页1.3 文件信息检索普通原理存放 选择和搜集文件 提取文件信息内外部特征 标引,整理,形成检索系统(工具) 检索 分析信息需求 确定检索课题 构建检索提问式 从检索系统中查获所需信息 信息检索原理及检索步骤第8页文献源文件选择搜集文件特征标识语言检索系统数据库检索提问式匹配检索结果用户信息

4、需求检索课题分析标引反 馈信息检索原理及检索步骤第9页1.4文件信息检索类型:按检索内容文件检索 (相关性检索) 检索结果为文件原文或线索 全文检索 书目检索数据检索 (确定性检索) 检索结果为数值、数据事实检索 (确定性检索) 检索结果为事实、概念信息检索原理及检索步骤第10页 ,是以文件线索为检索内容文件检索。即检索系统中存贮是书目、索引、文摘等二次文件,检索结果取得是与检索课题相关一系列文件线索。书目检索(directory) ,是以文件所含全部信息作为检索内容文件检索。即检索系统存贮是整篇文章或整部图书全部内容。全文检索(full article)信息检索原理及检索步骤第11页 ,又称

5、数值检索,是以含有数量性质,并以数值形式表示数据为检索内容信息检索。即检索系统中存放是大量数据,包含物质参数、电话号码、观察数据、统计数据等,也包含图表、化学分子式、物质各种特征等非数字数据。数据检索(data) ,是以详细事项为检索内容信息检索,要求从检索系统存放各种原始信息资源中查出专门事实材料。如,某一人物查找,某一事件查找等事实检索(fact)信息检索原理及检索步骤第12页1.4 文件信息检索类型:按检索伎俩手工检索 与检索工具直接“对话”,依靠检索者手翻、眼看、脑子判断而进行检索。 特点:方便灵活,判别直观,查准率高、检索效率低,漏检现象比较严重 计算机检索 利用计算机和一定通信设备

6、查找文件信息检索 特点:速度快,效率高,查全率较高、成本高, 回溯年份有限,查准率不尽如人意信息检索原理及检索步骤第13页1.4 按检索伎俩划分传统信息检索当代信息检索 即手工信息检索,是利用各种印刷型检索工具来查找文件一个方法。 即计算机信息检索,是指利用计算机和网络来处理和查找文件信息检索方式。信息检索原理及检索步骤第14页项目手工检索计算机检索总体特征手翻、眼看、大脑判断检索策略、机器查询、数据匹配检索速度较慢很快检索功效简单多样、可链接全文、可打印结果、可进行定题服务等。检索方式单一灵活方便、可进行各种组合检索检索路径较少较多检索范围有限覆盖多学科和各种文件类型,范围较大检索限制受时空

7、限制不受时空限制更新周期长短对用户要求专业知识、工具书使使用方法专业知识、计算机检索知识检索效果查准率高查全率高,经过逻辑组配可提升查准率检索费用低高综合效率低高手工检索与计算机检索比较信息检索原理及检索步骤第15页 1.5 检索效果评价 检索效果(Retrieval Effectiveness)是指检索系统检索有效程度,它反应了检索系统能力。包含技术效果和经济效果。 克兰弗登(Cranfield)评价系统性能指标: 收录范围 查全率 查准率 响应时间 用户负担 输出形式信息检索原理及检索步骤第16页查全率 是指检出相关文件量与检索系统中相关文件总量比率,是衡量信息检索系统检出相关文件能力尺度

8、。可用下式表示: 查准率它是指检出相关文件量与检出文件总量比率,是衡量信息检索系统检出文件准确度尺度。可用下式表示: 查全率和查准率在一定程度上成反比关系。应依据详细课题要求,合理调整查全率和查准率,确保检索效果。信息检索原理及检索步骤第17页ACDB9090504020604070PR查全率(R)和查准率(P)关系曲线图理论上,C和D之间即检索最正确效果信息检索原理及检索步骤第18页2 信息检索系统印刷型信息检索系统: 目录、题录、文摘、索引 计算机信息检索系统: 文件信息数据处理和维护子系统 词表和标引子系统 检索子系统信息检索原理及检索步骤第19页信息检索原理及检索步骤第20页3. 文件

9、信息普通检索步骤分析研究课题,明确检索要求选择检索工具或检索系统确定检索路径实施检索,统计和阅读文件线索索取原始文件信息检索原理及检索步骤第21页3.1 研究课题分析分清课题性质 前沿探索性 调查研究性 面象应用性课题背景知识获取 利用网络搜索引擎 查阅图书馆相关馆藏,专著、工具书 问询专业人员概念(检索词)提取 主要检索词、辅助检索词、禁用词 比如:关于中国唐诗韵律研究 Study on the market management in China信息检索原理及检索步骤第22页 3.1 课题分析 明确文件检索目标; 明确课题要处理实责问题; 明确有哪些主题概念; 各主题概念之间关系; 明确课

10、题包括学科范围; 明确课题所需文件信息语种、时间范围等详细要求。信息检索原理及检索步骤第23页4 检索工具(系统)选择标准根椐检索目标依据信息需求内容、专业范围依据数据库统计文件起源信息检索原理及检索步骤第24页 4.选择检索系统选择检索工具时要考虑: 专业性,即选择与学科专业相关工具,尤其注意跨学科领域内容。 权威性,尽可能选择该学科权威性检索工具。 了解检索工具收录范围,包含时间跨度、地理范围、文件语种、类型、揭示深度等。 了解检索工具检索方法和系统功效 汉字检索系统可考虑CNKI、万方、维普数据库,外文数据库可考虑使用Science Direct、Springer、John Wiley、

11、WOS等。信息检索原理及检索步骤第25页5. 确定检索路径开始查找信息入口点题名路径著者路径序号路径主题(分类)路径信息检索原理及检索步骤第26页选择适当检索路径: 题名路径(Title) 责任者路径(Author) 机构路径(Affiliation) 序号路径(Code) 分类路径(Classification) 主题路径 关键词路径 其它路径 文件检索及检索式调整依据课题已知条件和课题范围和检索效率要求,选择适当检索路径。题名/关键词/摘要/主题/全文信息检索原理及检索步骤第27页 主题路径分类检索语言(分类法、分类表) 分类表,依据学科之间逻辑归属关系,采取树型层次结构,列举出人类全部知

12、识类别,并对每一知识分别标以相对固定类号代码形成一个类表。通常是一个从总到分、从普通到详细,层层划分、逐层展开并含有某种符号代码体系知识体系表。 特点:常落后于当前研究现实状况,分类表相对呆板学科关系使得确定前沿概念、跨学科概念或非常详细概念分类困难。主题检索语言 关键词 自然语言性质主题语言,自由词,指从标题、文摘或正文中抽出能表示文件主题内容实意词。自然性,随意性。 主题词(叙词) 以正式、规范词或词组形式固定各种事物概念。从自然语言中优选出并经规范化处理名词术语。信息检索原理及检索步骤第28页 分类法就是按照文件信息内容,依据学科之间逻辑归属关系,将各种概念按学科性质进行分类和系统排列语

13、言,反应事物隶属、派生关系,从总体到局部层层划分展开,组成一个完整分类类目表。所以,分类法通常是指一个从总到分,从普通到详细、层层划分、逐层展开并配以某种符号代码体系知识体系表,是一个等级体系。详细表示为用分类号和类名来表示信息主题概念。 5.1 分类检索语言(1)信息检索原理及检索步骤第29页 分类语言检索优点:能够检索到某学科或专业全部文件,含有较高查全率。 分类语言检索缺点:分类语言落后于现实状况,分类表学科关系呆板使得跨学科概念等都比较困难。 需要注意是:不一样分类法设类标准和分类代码形式是不一样。 中国图书馆图书分类法 美国国会图书馆分类法 杜威十进位分类法 IPC国际专利分类法 5

14、.1 分类检索语言(2)信息检索原理及检索步骤第30页 中图法分 5个基本部类,将知识门类分为“哲学”、“社会科学”、“自然科学”三大部类。马克思主义、列宁主义、毛泽东思想是指导我们思想理论基础,作为一个基本部类,列于首位。另外,考虑到图书本身特点,对于一些内容庞杂,类无专属,无法按某一学科内容性质分类图书,概括为“综合性图书”,作为一个基本部类,置于最终。在此基础上扩展为 22个大类。 标识符号采取汉语拼音字母与阿拉伯数字相结合混合号码制。中图分类法(1)信息检索原理及检索步骤第31页 在中图法以及任何类似分类表中,被区分类称为上位类, 被区分类称为上位类,区分出来就是下位类,上下位类之间关

15、系反应了概念外延包含与隶属关系。处于同一上位类下同一层次下位类称为同位类。处于同位类关系类目在概念上是排斥。 为了,反应学科之间属分关系,分类表类号每增加一位字母和数字就代表增加一级分类 在了解类目代表含义时,下位类所包含类目含义应该和它上位类号所包含含义结合起来。中图分类法(2)信息检索原理及检索步骤第32页信息检索原理及检索步骤第33页 D9 法律 90 法理论(法学) 91 法学各部门 92 中国法律 920.0 理论 (类名含义:中国法律理论) 921 国家法、宪法 923 民法 . . .信息检索原理及检索步骤第34页 包括二个或二个以上概念课题属于多概念课题,对多概念课题缺点分类关

16、系时,应注意以下几点:.并列概念课题:对于包括同一研究对象几个方面或者包括几个并列研究对象课题,凡是有主次关系,应取其重点或主要研究对象归类。设计统一研究对象几个方面都需要检索时,应在所包括几个类目中同时查找。 比如:“新闻宣传研究”,假如侧重于“新闻”就取“G212 新闻财富和报道”,假如侧重宣传,则取“G223 广播电视宣传和群众工作”。假如设计二个方面时,“新闻”和“宣传”都要查找。中图分类法 (3)信息检索原理及检索步骤第35页 包括二个或二个以上概念课题属于多概念课题,对多概念课题缺点分类关系时,应注意以下几点:.应用性课题:研究一个理论、方法等在某方面应用或对某方面影响课题,应在所

17、应用或受影响类目查找。比如:“计算机在人口预测方面应用”就归入“人口预测”.上位类分类法:这种归类法是一个特殊分类方法。它是指欲查课题在分类表中无符合要求专指类目时,能够归入它紧邻上位类。中图分类法 (4)信息检索原理及检索步骤第36页主题语言:自然语言和人工语言自然语言:自然表示某一概念语言,没有强制性要求。如在文件检索中,关键词(Key words)等用就是自然语言。人工语言:指是人为要求概念表示语言,通俗地说,就是某个概念你必须用要求语言来表示,如文件检索中主题词、叙词等用就是人工语言。如:自行车(脚踏车、单车),西红柿(番茄、洋柿子)、马铃薯(土豆)、玉米(包谷)信息检索原理及检索步骤

18、第37页主题语言:自然语言(关键词)(1)关键词(Key words):是一个自然语言性质主题语言。详细说,是指从文件题目、正文或摘要中抽出能表示文件主题内容含有实质意义语词。关键词基本上不对词语加以控制,含有自然性和随意性。因为关键词这个特点,使得单一关键词检索轻易造成漏查。 信息检索原理及检索步骤第38页主题语言:自然语言(关键词)(2)确定课题关键词步骤:分析课题,提取概念:对课题仔细进行分析,分析出课题包括事物名称、研究主要伎俩、方法、目标,最主要事物名称应作为首先考虑检索概念。整理概念,扩充同一词汇:将分析所得概念整理归纳,对每一个概念用同义次、近义词、缩写词等给予扩展。利用分析所得

19、词汇试查,确定课题适用关键词。信息检索原理及检索步骤第39页主题语言:人工语言(主题词、叙词)(1)主题词(叙词):指从自然语言中优选出来并经过规范化处理名词术语。国内惯用有汉语主题词表及个数据库特定主题词表。叙词语言和分类语言不一样是,主题词表中全部正式主题词能够依据需要将它们组配起来,用一表示复杂概念。信息检索原理及检索步骤第40页主题语言:人工语言(主题词、叙词)(2)确定主题词步骤:.课题分析:依据课题包括主要对象,研究伎俩,使用方法、条件、研究目标、用途做深入分析,提取课题研究主要事物概念。.查表选词:在分析出概念基础上对课题做试标引。a.用相对应主题词直接标引b.对多概念主题或复合

20、主题用组配和上位等方式进行标引:多概念主题指主题要素由不相容逻辑关系组成课题信息检索原理及检索步骤第41页主题语言:人工语言(主题词、叙词)(3)确定主题词步骤:.查表选词:在分析出概念基础上对课题做试标引。a.用相对应主题词直接标引b.对多概念主题或复合主题用组配和上位等方式进行标引:多概念主题指主题要素由不相容逻辑关系组成课题,包含矛盾关系、反对关系,对这些多主题课题做标引时,应分别选取主题词。信息检索原理及检索步骤第42页主题语言:人工语言(主题词、叙词)(4)确定主题词步骤:.复合主题课题指主题要素之间关系是相容关系课题。复合主题所分析出主题要素之间包含同一关系(比如微机和电脑),属种

21、关系和全方面与某首先关系(比如中国历史和清史,经济运行指标和GDP),普通是上下位概念关系,以及交叉关系(比如中国人和学生)。各主题词要使用适合课题专指性正式主题词。 上位类标引是指当主题词表中没有对应主题词时,又不能使用组配法标引时可采取最近一级上位类词标引。信息检索原理及检索步骤第43页主题语言:人工语言(主题词、叙词)(5)确定主题词步骤:.试查定词:使用主题词表选择主题词,都必须经过主题索引试查,由实际检索结果来确定终究哪些词是可用,哪些词不可用。信息检索原理及检索步骤第44页 6 查找检索词:各类文件信息文件类型标识文件类型标识主要能够参考:信息与文件 参考文件著录规则 (国家标准

22、)分类标识可析出主题概念(检索词:关键词和叙词)信息检索原理及检索步骤第45页 6 查找检索词:各类文件信息文件类型标识 经过对课题描述语句分析,将课题所包括 词语分成主要检索词、辅助检索词和禁用词三类。 主要检索词是指与课题研究对象、方法相关特指性事物名词,辅助性检索词是指泛指性名词,它们只在检索结果过多需要限制时使用。禁用词是指介词、连词等虚词,普通不做检索词用。信息检索原理及检索步骤第46页关键词或叙词、主题词选词特点(1)是能够揭示主题内容语词关键词应该是表示最小概念语词 虚词(不可用):连词、副词、介词、 助词、语气词宽泛概念词(不可用):研究、技术、 问题、方法 信息检索原理及检索

23、步骤第47页关键词或叙词、主题词选词特点(2)信息检索原理及检索步骤第48页方法:切分、去除、替补注意:(1)准确、专业。 不要将一些意义广泛词作为检索词,如研究等。 (2)全方面。考虑:a 基于概念上下位词,如可再生能源与太阳能。b 同一检索词不一样表示方式,如白血病与血癌。 c 基于检索结果同义词或近义词。 6.1 提炼检索词信息检索原理及检索步骤第49页6.2 概念(检索词)扩展(1)同一概念扩展查询同一事物学名和俗名: 汉语与汉字查询同一事物简称、全称、音译和意译: 互联网与因特网,上海与沪,中央电视台与CCTV;查询统一事物反义词: 廉洁与腐败查询不一样词形: art与arts;co

24、lour与color;draw与drawing信息检索原理及检索步骤第50页6.2 概念(检索词)扩展(2)基于内容分析概念扩展 上位概念扩展法是分析检索对象学科归属。 下位概念扩展法又称概念分析树形展开法。 隐含主题(显见主题)扩展法:所谓隐含主题,是文件或课题中,未用显而易见表示方式: 抽象与详细关系 不一样角度观察关系 概念上下位关系 专利与知识产权;唐诗与古诗 法规要求、条例;西部云南、贵州、四川等 上海图书馆书目数据库系统公共图书馆,图书馆自动化系统信息检索原理及检索步骤第51页6.2 概念(检索词)扩展(3)基于检索结果概念扩展: 对初步检索结果进行分析,往往能够得到与课题 相关新

25、检索概念,将这些概念经过重新组合,就能够到达扩展检索结果目标。 在实际检索中,能够依据需要,选取由上述方法得到检索概念,从而扩展检索所得。信息检索原理及检索步骤第52页“应用语言学”课题概念扩展示例上位扩展概念下位扩展概念隐含扩展概念语言学语言学理论术语理论语言规划翻译理论语音识别语言合成汉字信息处理统计语言学数理语言学术语学形式语言学语言逻辑学叙词关键词信息检索原理及检索步骤第53页关键词外商投资管理外商 投资 管理独资 合资 资本 股权 法规 要求 主题词外资利用 + 管理信息检索原理及检索步骤第54页6.3 选词注意事项选词要准确重视概念扩展,不遗漏表示同一概念相关词防止选取使用频率过高

26、词,如技术、方法、研究等不要单独使用多义词,如china选词要符合所用检索工具(数据库)要求,如不一样数据库所规范主题词有时是不相同。信息检索原理及检索步骤第55页检索策略 又称提问逻辑,即对多个检索词之间相互关系和检索次序作出某种安排。 组成检索策略,即构建检索式7. 检索策略组成方法信息检索原理及检索步骤第56页 检索式是检索策略逻辑表示式,是用来表示用户检索提问,由基于检索概念产生检索词和各种组配算符组成。 组配算符通常有布尔逻辑算符、截词符(通配符)、位置算符、嵌套算符(优先算符)四种。 7.1 结构检索式信息检索原理及检索步骤第57页布尔 逻辑算符 优先算符 截词算符 字段限制 词组

27、或字符串7.2 计算机检索算符主要包含信息检索原理及检索步骤第58页 布尔逻辑组配运算是采取布尔代数中逻辑“与”逻辑“或”、逻辑“非”等算符,将检索提问式转换成逻辑表示式,限定检索词在统计中必须存在条件或不能出现条件。凡符合布尔逻辑所要求条件文件,即为命汉字献。 布尔逻辑算符组配检索信息检索原理及检索步骤第59页布尔逻辑算符逻辑或(OR)运算符 用来组配含有并列关系、概念相同或相近词,如同义词、相关词等。 扩大检索范围,提升查全率。 A+B 例:EBSCO S1 1834 enterprise S2 2022 company S3 3647 enterprise OR company AB信息

28、检索原理及检索步骤第60页布尔逻辑算符逻辑与(AND)运算符 用来组配含有相互交叉限定关系概念。 缩小检索范围,提升查准率。 A*B 例:EBSCO S1 12940 Chinese S2 2173 literature S3 842 Chinese AND literatureAB信息检索原理及检索步骤第61页布尔逻辑算符逻辑非(NOT)运算符 用来排除含有一些词统计。 缩小检索范围,提升查准率。 有排除掉相关文件可能,慎用 A-B 例:COMPENDEX(1998) S1 110 patent S2 325 German S3 108 patent NOT German AB信息检索原理及检索步骤第62页优先算符混合使用逻辑符,其运算次序为: NOT AND OR ()改变运算次序 例: S1 A OR B S2 C OR D S3 S1 AND S2 (A OR B) AND (C OR D)信息检索原理及检索步骤第63页截词算符 指在检索词某个局部截断,利用一些检索词词干或不完整词形加上截词符进行检索。 查找某一词干不一样改变形式 预防漏检,提升查全率 常见有: ?、*、$、% 例:manag*,可检出 manage manager management managing manage

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论