信息检索原理_第1页
信息检索原理_第2页
信息检索原理_第3页
免费预览已结束,剩余66页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、最新资料推荐信息检索原理第三章信息检索原理及检索步骤本章要点:文献信息检索基本 概念文献信息一般检索步骤检索概念的分析、提取和扩展检索策 略的构成1.信息检索基本概念信息检索的定义文献信息的内外部特征 文献信息检索的一般原理文献信息检索的类型检索效果评价1.1信息检索定义狭义:从任何信息集合中查找所需信息的活动、 过程和方法。广义:信息的检索包括信息存储。合并称为信息存储与检索.信息检索(information retrieva 1)信息检索广义上是指将杂乱无序 的信息按一定的方式组织和存储起来,并根据信息用户的需求找出 相关信息的过程和技术,全称是”信息存储与检索” (Information

2、 Storage and Retrieval).狭义的信息检索指的是后一过程.1. 2检索语言(Retrieval Language)是用 来描述信息源特征和进行 检索的人工语言。作用:它是沟通信息存储与信息检索两个过程的桥梁。在信息存储过程中,用它来描述信息的内容和外部特征,从而形 成信息标识;在检索过程中,用它来描述检索提问,从而形成检索 标识;当检索标识与信息标识完全匹配或部分匹配时,结果即为命 中文献。检索语言的类型:按照表达文献的特征划分表述文献外表特征的语 言(与文献一一对应关系)表述文献内容 特征的语言(与文献模 糊对应关系)题名责任者代码,如ISBN、ISSN等引文出版项出 版

3、年检索语言的类型分类语言:分类法主题语言:关键词、叙 词等。文献信息的内外部特征内容特征 表达文献信息主题内容的检索标识 内容特征文献?模糊对应外表特征与文献主题内容没有关系或关系 不大的信息外表特征文献?一一对应1.3文献信息检索一般原理存储选择和收集文献提取文献信息的 内外部特征标引,整理,形成检索系统(工具)检索分析信息需 求确定检索课题构建检索提问式从检索系统中查获所需信息检索系统文献 源文献选择 收集 分析用户信 息需求检 索 课题 文献 特征 标 识 语 言标引匹配数据库检 索 结 果检 索提问式反馈1.4文献信息检索的类型:按检索内容文献检索(相关性检索)检索 结果为文献原文或线

4、索全文检索书目检索数据检索(确定性检索) 检索结果为数值、数据事实检索(确定性检索)检索结果为事实、 概念书目检索(directory),是以文献线索为检索内容的文献检索。即检索系统中存贮的是书目、索引、文摘等二次文献,检索结果 获得的是与检索课题有关的一系列文献线索。全文检索(full article),是以文献所含的全部信息作为检索内 容的文献检索。即检索系统存贮的是整篇文章或整部图书的全部内容。数据检索(data),又称数值检索,是以具有数量性质,并以数值形 式表示的数据为检索内容的信息检索。即检索系统中存储的是大量的数据,包括物质的参数、电话号码、 观测数据、统计数据等,也包括图表、化

5、学分子式、物质的各种特性 等非数字数据。事实检索(fact),是以具体事项为检索内容的信息检索,要求 从检索系统存储的各种原始信息资源中查出专门的事实材料。如,某一人物的查找,某一事件的查找等1.4文献信息检索的类型:按检索手段手工检索 与检索工具直接 “对话”,依靠检索者手翻、眼看、脑子判断而进行的检索。特点:方便灵活,判别直观,查准率高、检索效率低,漏检现象 比较严重计算机检索利用计算机和一定通信设备查找文献信息的 检索特点:速度快,效率高,查全率较高、成本高,回溯年份有限, 查准率不尽如人意?1.4按检索手段划分即手工信息检索,是利用各种印刷型检索工 具来查找文献的一种方法。?传统信息检

6、索?现代信息检索即计算机信息检索,是指利用计算 机和网络来处理和查找文献信息的检索方式。手工检索与计算机检索的比较项目手工检索计算机检索总体特征 检索速度 检索功能检索方式检索途径 检索范围手翻、眼看、大脑 判断较慢简单单一较少有限检索策略、机器查询、数据匹配很 快多样、可链接全文、可打印结果、可进 行定题服务等。灵活方便、可进行各种组合检索较多覆盖多学科和多种文献类 型,范围较大检索限制更新周期受时空限制长不受时空限制短专业 知识、计算机检索知识查全率高,通过逻辑组配可提高查准率 高高 对用户要求专业知识、工具书使用法 检索效果检索费用 综合效 率查准率高低低1. 5检索效果的评价 检索效果

7、(Retrieval Effectiveness)是指 检 索系统检索的有效程度,它反映了检索系统的能力。包括技术效果和经济效果。克兰弗登(Cranfield)评价系统性能的指标:?收录范围? 查全率 查准率 响应时间用户负担 输出形式?查全率是指检出的相关文献量与检索系统中相关文献总量的比 率,是衡量信息检索系统检出相关文献能力的尺度。可用下式表示:?查准率它是指检出的相关文献量与检出文献总 量的比率,是衡量信息检索系统检出文献准确度的尺度。可用下式表示:查全率和查准率在一定程度上成反比关系。应根据具体课题的要求,合理调节查全率和查准率,保证检索效 果。R90 70 60 A C D理论上,

8、C和D之间 即检索的最佳效果40B20405090P查全率(R)和查准率(P)关系曲线图2信息检索系统印刷型信息检索系统:目录、题录、文摘、索引计算机信息检索系统:文献信息数据的处理和维护子系统词表和标引子系统检索子系统3. 文献信息的一般检索步骤分析研究课题,明确检索要求选择检索 工具或检索系统确定检索途径实施检索,记录和阅读文献线索索 取原始文献3.1研究课题的分析分清课题性质前沿探索性调查研究性面象应 用性课题背景知识的获取利用网络搜索引擎查阅图书馆相关馆 藏,专著、工具书询问专业人员概念(检索词)提取主要检索词、 辅助检索词、禁用词例如:关于中国唐诗的韵律研究Study on the

9、market management in China3.1课题分析?明确文献检索的目的;?明确课题要解决的实质问 题;?明确有哪些主题概念;?各主题概念之间的关系;?明确课 题涉及的学科范围;?明确课题所需文献信息的语种、时间范围等 具体要求。4检索工具(系统)选择原则根据检索目的根据信息需求的内容、专业范围根据数据库记录的文献来源4. 选择检索系统选择检索工具时要考虑:?专业性,即选择与学科 专业相关的工具,特别注意跨学科领域内容。?权威性,尽量选择该学科的权威性检索工具。? 了解检索工具收录的范围,包括时间跨度、地理范围、文献语 种、类型、揭示深度等。? 了解检索工具的检索方法和系统功能中

10、文检索系统可考虑 CNKI、万方、维普数据库,外文数据库可考虑使用Science Direct. SpringerJohn Wiley、WOS 等。5. 确定检索途径开始查找信息的入口点题名途径著者途径序号途径主题(分类)途径文献检索及检索式的调整选择合适的检索途径:题名途径(Title)责 任者途径(Author)机构途径(Affiliation)序号途径(Code)分类 途径(Classification)主题途径 关键词途径 其它途径根据课题的 已知条件和课题范围和检索效率要求,选择合适的检索途径。题名/关键词/摘要/主题/全文主题途径分类检索语言(分类法、分类表)分类表,依据学科之间

11、的逻辑归属关系,采用树型层次结构,列举出人类全部知识类别, 并对每一知识分别标以相对固定的类号代码形成的一种类表。通常是一种从总到分、从一般到具体,层层划分、逐级展开并具 有某种符号代码体系的知识体系表。特点:常落后于当前研究现状,分类表相对呆板的学科关系使得 确定前沿概念、跨学科概念或非常具体的概念分类困难。主题检索语言 关键词自然语言性质的主题语言,自由词,指从 标题、文摘或正文中抽出的能表达文献主题内容的实意词。自然性,随意性。主题词(叙词)以正式、规范的词或词组形式固定各种事物概念。从自然语言中优选出并经规范化处理的名词术语。5.1分类检索语言(1)分类法就是按照文献信息的内容,根据学

12、科之 间的逻辑归属关系,将各种概念按学科性质进行分类和系统排列的 语言,反映事物的从属、派生关系,从总体到局部层 层划分展开, 构成一个完整的分类类目表。因此,分类法通常是指一种从总到分,从一般到具体、层层划分、 逐级展开并配以某种符号代码体系的知识体系表,是一种等级体 系。具体体现为用分类号和类名来表达信息的主题 概念。5.1分类检索语言(2)分类语言检索的优点:可以检索到某学科或专 业的所有文献,具有较高的查全率。分类语言检索的缺点:分类语言落后于现状,分类表学科关系呆 板使得跨学科概念等都比较困难。需要注意的是:不同的分类法的设类原则和分类代码的形式是不 同的。中国图书馆图书分类法 美国

13、国会图书馆分类法杜威十进位分类 法IPC国际专利分类法中图分类法(1)中图法分5个基本部类,将知识门类分 为“哲 学”、“社会科学”、“自然科学”三大 部类。马克思主义、列宁主义、毛泽东思想是指 导我们思想的理论基础, 作为一个基本部类,列于首位。此外,考虑到图书本身的特点,对于一些内容庞杂,类无专属, 无法按某一学科内容性质分类的图书,概括为“综合性图书”,作 为一个基本部类,置于最后。在此基础上扩展为22个大类。标记符号采用汉语拼音字母与阿拉伯数字相结合的混合号码制。中图分类法(2)在中图法以及任何类似的分类表中,被区分的类 称为上位类,被区分的类称为上位类,区分出来的就是下位类,上 下位

14、类之间的关系反映了概念外延的包含与从属关系。处于同一上位类下的同一层次的下位类称为同位类。处于同位类关系的类目在概念上是排斥的。为了,反映学科之间的属分关系,分类表的类号每增加一位字母 和数字就代表增加一级分类在理解类目代表的含义时,下位类所包 含的类目含义应该和它的上位类号所包含的含义结合 起来。D9法律90法的理论(法学)91法学各部门92中国法律920.0理论(类名含义:中国法律理论)921国家法、宪法923民法.最新资料推荐中图分类法(3)涉及二个或二个以上概念的课题属于多概念课 题, 对多概念课题缺点分类关系时,应注意以下几点:.并列概念课题: 对于涉及同一研究对象的几个方面或者涉及

15、几个并列研究对象的课 题,凡是有主次关系的,应取其重点或主要研究对象归类。设计统一研究对象几个方面的都需要检索时,应在所涉及的几 个类目中同时查找。比如:“新闻宣传研究”,如果侧重于“新闻”就取“G212新 闻财富和报道”,如果侧重宣传,则取“G223广播电视宣传和群众 工作” o如果设计二个方面时,“新闻”和“宣传”都要查找。中图分类法(4)涉及二个或二个以上概念的课题属于多概念课题, 对多概念课题缺点分类关系时,应注意以下几点:应用性课题: 研究一种理论、方法等在某方面应用或对某方面的影响的课题,应 在所应用或受影响的类目查找。例如:“计算机在人口预测方面的应用”就归入“人口预测”. 上位

16、类分类法:这种归类法是一种特殊的分类方 法。它是指欲查课题在分类表中无符合要求的专指 类目时,可以归入 它的紧邻上位类。最新资料推荐主题语言:自然语言和人工语言自然语言:自然表达某一概念的语言, 没有强制性的规定。如在文献检索中,关键词(Key words)等用的就是自然语言。人工语言:指的是人为规定的概念表达语言,通俗地说,就是某 个概念你必须用规定的语言来表达,如文献检索中的主题词、叙词 等用的就是人工语言。如:自行车(脚踏车、单车),西红柿(番茄、洋 柿子)、马铃薯 (土豆)、玉米(包谷)主题语言:自然语言(关键词)(1)关键词(Key words):是一种自 然语言性质的主 题语言。具

17、体说,是指从文献的题目、正文或摘要中抽出的能表达文献主 题内容的具有实质意义的语词。关键词基本上不对词语加以控制,具有自然性和随意性。由于关键词这个特点,使得单一的关键词检索容易造成漏查。最新资料推荐主题语言:自然语言(关键词)(2)确定课题关键词的步骤:分析 课题,提取概念:对课题仔细进行分析,分析出课题涉及的事物名 称、研究的主要手段、方法、目的,最主要的事物名称应作为首先 考虑的检索概念。整理概念,扩充同一词汇:将分析所得的概念整理归纳,对每一 个概念用同义次、近义词、缩写词等予以扩展。运用分析所得词汇试查,确定课题适用的关键词。主题语言:人工语言(主题词、叙词)(1)主题词(叙词):指

18、从自 然语言中优选出来并经过 规范化处理的名词术语。国内常用的有汉语主题词表及个数据库特定的主题词表。叙词语言和分类语言不同的是,主题词表中的所有正式主题词可以根据需要将它们组配起来,用一表 达复杂的概念。最新资料推荐主题语言:人工语言(主题词、叙词)(2)确定主题词步骤:.课题 分析:根据课题涉及的主要对象,研究手段,使用方法、条件、研究 的目的、用途做深入分析,提取课题研究的主要事物概念。.查表选词:在分析出的概念基础上对课题做试标弓I。a.用相对应的主题词直接标引b.对多概念主题或复合主题用组 配和上位等方式进行标引:多概念主题指主题要素由不相容的逻辑 关系构成的课题主题语言:人工语言(

19、主题词、叙词)(3)确定主题词步骤:.查表 选词:在分析出的概念基础上对课题做试标引。a.用相对应的主题词直接标引b.对多概念主题或复合主题用组 配和上位等方式进行标引:多概念主题指主题要素由不相容的逻辑 关系构成的课题,包括矛盾关系、反对关系,对这些多主题课题做 标引时,应分别选用主题词。最新资料推荐主题语言:人工语言(主题词、叙词)(4)确定主题词步骤:.复合 主题课题指主题要素之间的关系是相容关系的课题。复合主题所分析出主题要素之间包括同一关系(比如微 机和电 脑),属种关系和全面与某一方面的关系(比如中国历史和清史,经 济运行指标和GDP), 一般是上下位概 念的关系,以及交叉关系(比

20、 如中国人和学生)。各主 题词要使用适合课题的专指性的正式主题词。上位类标引是指当主题词表中没有对应的主题词时,又不能使用 组配法标引时可采用最近一级的上位类词标弓I。主题语言:人工语言(主题词、叙词)(5)确定主题词步骤:.试查 定词:使用主题词表选择的主题词,都必须通过主 题索引试查,由 实际检索结果来确定究竟哪些词是可用的,哪些词不可用。最新资料推荐6查找检索词:各类文献信息的文献类型标识文献类型标识主 要可以参考:信息与文献参考文献著录规则(国家标准2015)分 类标识 可析出的主题概念(检索词:关键词和叙词)6查找检索词:各类文献信息的文献类型标识通过对课题的描 述语句的分析,将课题

21、所涉及的词语分成主要检索词、辅助检索词 和禁用词三类。主要检索词是指与课题研究的对象、方法有关的特指性事物名 词,辅助性检索词是指泛指性名词,它们只在检索结果过多需要限 制时使用。禁用词是指介词、连词等虚词,一般不做检索词用。最新资料推荐关键词或叙词、主题词选词特点(1)是能够揭示主题内容的语词 关键词应该是表示最小概念的语词虚词(不可用):连词、副词、介词、助词、语气词 宽泛概念的词(不可用):研究、技术、问题、方法 关键词或叙词、主题词选词特点(2)6.1提炼检索词方法:切分、去除、替补注意:(1)准确、专业。 不要将一些意义广泛的词作为检索词,如研究等。(2)全面。考虑:a基于概念的上下

22、位词,如可再生能源与太阳能。b同一检索词的不同表达方式,如白血病与血癌。c基于检索结果的同义词或近义词。6.2概念(检索词)的扩展(1)同一概念的扩展查询同一事物的学名和俗名:汉语与中文查询同一事物的简称、全称、音译和意译:互联网与因特网,上海与沪,中央电视台与CCTV;查询统一事物的反义词:廉洁与腐败查询不同的词形:art与arts; colour与color; draw 与 drawing6.2概念(检索词)的扩展(2)基于内容分析的概念扩展 上位概念 扩展法是分析检索对象的学科归属。下位概念扩展法又称概念分析的树形展开法。隐含主题(显见主题)扩展法:所谓隐含主题,是文献或课题中, 未用显

23、而易见的表达方式:抽象与具体关系不同角度观察关系概 念上下位关系专利与知识产权;唐诗与古诗法规一规定、条例;西 部一云南、贵州、四川等上海图书馆书目数据库系统一公共图书馆, 图书馆自动化系统6.2概念(检索词)的扩展(3)基于检索结果的概念扩展:对初步 检索结果进行分析,往往能够得到与课题相关的新的检索概念,将 这些概念经过重新组合,就可以达到扩展检索结果的目的。在实际检索中,可以根据需要,选用由上述方法 得到检索概念, 从而扩展检索所得。“应用语言学”课题概念扩展示例上位扩展概念语言学下位扩展概 念 语言学理论 术语理论 语言规划 翻译理论 语音识别 语言合成 汉字信息处理 隐含扩展概念 统

24、计语言学 数理语言学 术语学 形式语言学 语言逻辑学 叙词 关键词管理关键词外商投资管理 外商独资合资投资资本 股权法规 规定主题词外资利用+管理6.3选词注意事项选词要准确重视概念扩展,不遗漏表达同一概念 的相关词避免选用使用频率过高的词,如技术、方法、研究等不 要单独使用多义词,如china选词要符合所用检索工具(数据库) 的要求,如不同数据库所规范的主题词有时是不相同的。7.检索策略构成方法检索策略又称提问逻辑,即对多个检索词之 间的相互关系和检索顺序作出的某种安排。构成检索策略,即构建检索式7.1构造检索式检索式是检索策略的逻辑表达式,是用来表达用户 检索提问的,由基于检索概念产生的检

25、索词和各种组配算符构成。组配算符通常有布尔逻辑算符、截词符(通配符)、位置算符、嵌 套算符(优先算符)四种。7. 2计算机检索算符主要包括布尔逻辑算符优先算符截词算符字段限制词组或字符串布尔逻辑算符组配检索布尔逻辑组配运算是采用布尔代数中的逻辑“与”逻辑“或”、逻辑“非”等算符,将 检索提问式转换成逻辑 表达式,限定检索词在记录中必须存在的条件或不能出现的条件。凡符合布尔逻辑所规定的条件的文献,即为命中文献。布尔逻辑算符?逻辑或(0R)运算符用来组配具有并列关系、概念相 同或相近的词,如同义词、相关词等。扩大检索范围,提高查全率。A+B 例:EBSCOA BS1 1834 enterprise

26、 S2 2022 company S3 3647enterprise OR company布尔逻辑算符?逻辑与(AND)运算符用来组配具有相互交叉限定关 系的概念。缩小检索范围,提高查准率。A*B 例:EBSC0S1 12940 Chinese S2 2173 literature S3 842Chinese AND literatureAB布尔逻辑算符?逻辑非(NOT)运算符用来排除含有某些词的记录。缩小检索范围,提高查准率。有排除掉相关文献的可能,慎用A-B例:COMPENDEX(1998)ABS1110 patent S2 325 German S3 108 patent NOT German优先算符混合使用逻辑符,其运算顺序为:NOT AND OR ?()改变 运算顺序例:SI A OR B S2 C OR D S3 SI AND S2 (A OR B) AND (C OR D)?截词算符指在检索词的某个局部截断,利用某些检索词的词干或不 完整词形加上截词符进行检索。查找某一词干的不同变化形式 防止漏检,提高查全率 常见的 有: ?、*、$、 例:manag*, 可检出 mana

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论