




已阅读5页,还剩66页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章信息检索原理及检索步骤 本章要点 文献信息检索基本概念文献信息一般检索步骤检索概念的分析 提取和扩展检索策略的构成 1 信息检索基本概念 信息检索的定义文献信息的内外部特征文献信息检索的一般原理文献信息检索的类型检索效果评价 1 1信息检索定义 狭义 从任何信息集合中查找所需信息的活动 过程和方法 广义 信息的检索包括信息存储 合并称为信息存储与检索 信息检索 informationretrieval 信息检索广义上是指将杂乱无序的信息按一定的方式组织和存储起来 并根据信息用户的需求找出相关信息的过程和技术 全称是 信息存储与检索 InformationStorageandRetrieval 狭义的信息检索指的是后一过程 1 2检索语言 RetrievalLanguage 是用来描述信息源特征和进行检索的人工语言 作用 它是沟通信息存储与信息检索两个过程的桥梁 在信息存储过程中 用它来描述信息的内容和外部特征 从而形成信息标识 在检索过程中 用它来描述检索提问 从而形成检索标识 当检索标识与信息标识完全匹配或部分匹配时 结果即为命中文献 检索语言的类型 按照表达文献的特征划分 文献信息的内外部特征 内容特征表达文献信息主题内容的检索标识内容特征文献模糊对应外表特征与文献主题内容没有关系或关系不大的信息外表特征文献一一对应 1 3文献信息检索一般原理 存储选择和收集文献提取文献信息的内外部特征标引 整理 形成检索系统 工具 检索分析信息需求确定检索课题构建检索提问式从检索系统中查获所需信息 文献源 文献选择收集 文献特征 标识语言 检索系统 数据库 检索提问式 匹配 检索结果 用户 信息需求 检索课题 分析 标引 反馈 1 4文献信息检索的类型 按检索内容 文献检索 相关性检索 检索结果为文献原文或线索全文检索书目检索数据检索 确定性检索 检索结果为数值 数据事实检索 确定性检索 检索结果为事实 概念 是以文献线索为检索内容的文献检索 即检索系统中存贮的是书目 索引 文摘等二次文献 检索结果获得的是与检索课题有关的一系列文献线索 书目检索 directory 是以文献所含的全部信息作为检索内容的文献检索 即检索系统存贮的是整篇文章或整部图书的全部内容 全文检索 fullarticle 又称数值检索 是以具有数量性质 并以数值形式表示的数据为检索内容的信息检索 即检索系统中存储的是大量的数据 包括物质的参数 电话号码 观测数据 统计数据等 也包括图表 化学分子式 物质的各种特性等非数字数据 数据检索 data 是以具体事项为检索内容的信息检索 要求从检索系统存储的各种原始信息资源中查出专门的事实材料 如 某一人物的查找 某一事件的查找等 事实检索 fact 1 4文献信息检索的类型 按检索手段 手工检索与检索工具直接 对话 依靠检索者手翻 眼看 脑子判断而进行的检索 特点 方便灵活 判别直观 查准率高 检索效率低 漏检现象比较严重计算机检索利用计算机和一定通信设备查找文献信息的检索特点 速度快 效率高 查全率较高 成本高 回溯年份有限 查准率不尽如人意 1 4按检索手段划分 手工检索与计算机检索的比较 1 5检索效果的评价 检索效果 RetrievalEffectiveness 是指检索系统检索的有效程度 它反映了检索系统的能力 包括技术效果和经济效果 克兰弗登 Cranfield 评价系统性能的指标 收录范围 查全率 查准率 响应时间 用户负担 输出形式 查全率是指检出的相关文献量与检索系统中相关文献总量的比率 是衡量信息检索系统检出相关文献能力的尺度 可用下式表示 查准率它是指检出的相关文献量与检出文献总量的比率 是衡量信息检索系统检出文献准确度的尺度 可用下式表示 查全率和查准率在一定程度上成反比关系 应根据具体课题的要求 合理调节查全率和查准率 保证检索效果 A C D B 90 90 50 40 20 60 40 70 P R 查全率 R 和查准率 P 关系曲线图 理论上 C和D之间即检索的最佳效果 2信息检索系统 印刷型信息检索系统 目录 题录 文摘 索引计算机信息检索系统 文献信息数据的处理和维护子系统词表和标引子系统检索子系统 3 文献信息的一般检索步骤 分析研究课题 明确检索要求选择检索工具或检索系统确定检索途径实施检索 记录和阅读文献线索索取原始文献 3 1研究课题的分析 分清课题性质前沿探索性调查研究性面象应用性课题背景知识的获取利用网络搜索引擎查阅图书馆相关馆藏 专著 工具书询问专业人员概念 检索词 提取主要检索词 辅助检索词 禁用词例如 关于中国唐诗的韵律研究StudyonthemarketmanagementinChina 3 1课题分析 明确文献检索的目的 明确课题要解决的实质问题 明确有哪些主题概念 各主题概念之间的关系 明确课题涉及的学科范围 明确课题所需文献信息的语种 时间范围等具体要求 4检索工具 系统 选择原则 根椐检索目的根据信息需求的内容 专业范围根据数据库记录的文献来源 4 选择检索系统 选择检索工具时要考虑 专业性 即选择与学科专业相关的工具 特别注意跨学科领域内容 权威性 尽量选择该学科的权威性检索工具 了解检索工具收录的范围 包括时间跨度 地理范围 文献语种 类型 揭示深度等 了解检索工具的检索方法和系统功能 中文检索系统可考虑CNKI 万方 维普数据库 外文数据库可考虑使用ScienceDirect Springer JohnWiley WOS等 5 确定检索途径 开始查找信息的入口点题名途径著者途径序号途径主题 分类 途径 选择合适的检索途径 题名途径 Title 责任者途径 Author 机构途径 Affiliation 序号途径 Code 分类途径 Classification 主题途径关键词途径其它途径 文献检索及检索式的调整 根据课题的已知条件和课题范围和检索效率要求 选择合适的检索途径 题名 关键词 摘要 主题 全文 主题途径 分类检索语言 分类法 分类表 分类表 依据学科之间的逻辑归属关系 采用树型层次结构 列举出人类全部知识类别 并对每一知识分别标以相对固定的类号代码形成的一种类表 通常是一种从总到分 从一般到具体 层层划分 逐级展开并具有某种符号代码体系的知识体系表 特点 常落后于当前研究现状 分类表相对呆板的学科关系使得确定前沿概念 跨学科概念或非常具体的概念分类困难 主题检索语言关键词自然语言性质的主题语言 自由词 指从标题 文摘或正文中抽出的能表达文献主题内容的实意词 自然性 随意性 主题词 叙词 以正式 规范的词或词组形式固定各种事物概念 从自然语言中优选出并经规范化处理的名词术语 分类法就是按照文献信息的内容 根据学科之间的逻辑归属关系 将各种概念按学科性质进行分类和系统排列的语言 反映事物的从属 派生关系 从总体到局部层层划分展开 构成一个完整的分类类目表 因此 分类法通常是指一种从总到分 从一般到具体 层层划分 逐级展开并配以某种符号代码体系的知识体系表 是一种等级体系 具体体现为用分类号和类名来表达信息的主题概念 5 1分类检索语言 1 分类语言检索的优点 可以检索到某学科或专业的所有文献 具有较高的查全率 分类语言检索的缺点 分类语言落后于现状 分类表学科关系呆板使得跨学科概念等都比较困难 需要注意的是 不同的分类法的设类原则和分类代码的形式是不同的 中国图书馆图书分类法美国国会图书馆分类法杜威十进位分类法IPC国际专利分类法 5 1分类检索语言 2 中图法 分5个基本部类 将知识门类分为 哲学 社会科学 自然科学 三大部类 马克思主义 列宁主义 毛泽东思想是指导我们思想的理论基础 作为一个基本部类 列于首位 此外 考虑到图书本身的特点 对于一些内容庞杂 类无专属 无法按某一学科内容性质分类的图书 概括为 综合性图书 作为一个基本部类 置于最后 在此基础上扩展为22个大类 标记符号采用汉语拼音字母与阿拉伯数字相结合的混合号码制 中图分类法 1 在 中图法 以及任何类似的分类表中 被区分的类称为上位类 被区分的类称为上位类 区分出来的就是下位类 上下位类之间的关系反映了概念外延的包含与从属关系 处于同一上位类下的同一层次的下位类称为同位类 处于同位类关系的类目在概念上是排斥的 为了 反映学科之间的属分关系 分类表的类号每增加一位字母和数字就代表增加一级分类在理解类目代表的含义时 下位类所包含的类目含义应该和它的上位类号所包含的含义结合起来 中图分类法 2 D9法律90法的理论 法学 91法学各部门92中国法律920 0理论 类名含义 中国法律理论 921国家法 宪法923民法 涉及二个或二个以上概念的课题属于多概念课题 对多概念课题缺点分类关系时 应注意以下几点 并列概念课题 对于涉及同一研究对象的几个方面或者涉及几个并列研究对象的课题 凡是有主次关系的 应取其重点或主要研究对象归类 设计统一研究对象几个方面的都需要检索时 应在所涉及的几个类目中同时查找 比如 新闻宣传研究 如果侧重于 新闻 就取 G212新闻财富和报道 如果侧重宣传 则取 G223广播电视宣传和群众工作 如果设计二个方面时 新闻 和 宣传 都要查找 中图分类法 3 涉及二个或二个以上概念的课题属于多概念课题 对多概念课题缺点分类关系时 应注意以下几点 应用性课题 研究一种理论 方法等在某方面应用或对某方面的影响的课题 应在所应用或受影响的类目查找 例如 计算机在人口预测方面的应用 就归入 人口预测 上位类分类法 这种归类法是一种特殊的分类方法 它是指欲查课题在分类表中无符合要求的专指类目时 可以归入它的紧邻上位类 中图分类法 4 主题语言 自然语言和人工语言 自然语言 自然表达某一概念的语言 没有强制性的规定 如在文献检索中 关键词 Keywords 等用的就是自然语言 人工语言 指的是人为规定的概念表达语言 通俗地说 就是某个概念你必须用规定的语言来表达 如文献检索中的主题词 叙词等用的就是人工语言 如 自行车 脚踏车 单车 西红柿 番茄 洋柿子 马铃薯 土豆 玉米 包谷 主题语言 自然语言 关键词 1 关键词 Keywords 是一种自然语言性质的主题语言 具体说 是指从文献的题目 正文或摘要中抽出的能表达文献主题内容的具有实质意义的语词 关键词基本上不对词语加以控制 具有自然性和随意性 由于关键词这个特点 使得单一的关键词检索容易造成漏查 主题语言 自然语言 关键词 2 确定课题关键词的步骤 分析课题 提取概念 对课题仔细进行分析 分析出课题涉及的事物名称 研究的主要手段 方法 目的 最主要的事物名称应作为首先考虑的检索概念 整理概念 扩充同一词汇 将分析所得的概念整理归纳 对每一个概念用同义次 近义词 缩写词等予以扩展 运用分析所得词汇试查 确定课题适用的关键词 主题语言 人工语言 主题词 叙词 1 主题词 叙词 指从自然语言中优选出来并经过规范化处理的名词术语 国内常用的有 汉语主题词表 及个数据库特定的主题词表 叙词语言和分类语言不同的是 主题词表中的所有正式主题词可以根据需要将它们组配起来 用一表达复杂的概念 主题语言 人工语言 主题词 叙词 2 确定主题词步骤 课题分析 根据课题涉及的主要对象 研究手段 使用方法 条件 研究的目的 用途做深入分析 提取课题研究的主要事物概念 查表选词 在分析出的概念基础上对课题做试标引 a 用相对应的主题词直接标引b 对多概念主题或复合主题用组配和上位等方式进行标引 多概念主题指主题要素由不相容的逻辑关系构成的课题 主题语言 人工语言 主题词 叙词 3 确定主题词步骤 查表选词 在分析出的概念基础上对课题做试标引 a 用相对应的主题词直接标引b 对多概念主题或复合主题用组配和上位等方式进行标引 多概念主题指主题要素由不相容的逻辑关系构成的课题 包括矛盾关系 反对关系 对这些多主题课题做标引时 应分别选用主题词 主题语言 人工语言 主题词 叙词 4 确定主题词步骤 复合主题课题指主题要素之间的关系是相容关系的课题 复合主题所分析出主题要素之间包括同一关系 比如微机和电脑 属种关系和全面与某一方面的关系 比如中国历史和清史 经济运行指标和GDP 一般是上下位概念的关系 以及交叉关系 比如中国人和学生 各主题词要使用适合课题的专指性的正式主题词 上位类标引是指当主题词表中没有对应的主题词时 又不能使用组配法标引时可采用最近一级的上位类词标引 主题语言 人工语言 主题词 叙词 5 确定主题词步骤 试查定词 使用主题词表选择的主题词 都必须通过主题索引试查 由实际检索结果来确定究竟哪些词是可用的 哪些词不可用 6查找检索词 各类文献信息的文献类型标识 文献类型标识主要可以参考 信息与文献参考文献著录规则 国家标准2015 分类标识可析出的主题概念 检索词 关键词和叙词 6查找检索词 各类文献信息的文献类型标识 通过对课题的描述语句的分析 将课题所涉及的词语分成主要检索词 辅助检索词和禁用词三类 主要检索词是指与课题研究的对象 方法有关的特指性事物名词 辅助性检索词是指泛指性名词 它们只在检索结果过多需要限制时使用 禁用词是指介词 连词等虚词 一般不做检索词用 关键词或叙词 主题词选词特点 1 是能够揭示主题内容的语词关键词应该是表示最小概念的语词 虚词 不可用 连词 副词 介词 助词 语气词 宽泛概念的词 不可用 研究 技术 问题 方法 关键词或叙词 主题词选词特点 2 方法 切分 去除 替补注意 1 准确 专业 不要将一些意义广泛的词作为检索词 如研究等 2 全面 考虑 a基于概念的上下位词 如可再生能源与太阳能 b同一检索词的不同表达方式 如白血病与血癌 c基于检索结果的同义词或近义词 6 1提炼检索词 6 2概念 检索词 的扩展 1 同一概念的扩展查询同一事物的学名和俗名 汉语与中文查询同一事物的简称 全称 音译和意译 互联网与因特网 上海与沪 中央电视台与CCTV 查询统一事物的反义词 廉洁与腐败 查询不同的词形 art与arts colour与color draw与drawing 6 2概念 检索词 的扩展 2 基于内容分析的概念扩展上位概念扩展法是分析检索对象的学科归属 下位概念扩展法又称概念分析的树形展开法 隐含主题 显见主题 扩展法 所谓隐含主题 是文献或课题中 未用显而易见的表达方式 抽象与具体关系不同角度观察关系概念上下位关系专利与知识产权 唐诗与古诗法规 规定 条例 西部 云南 贵州 四川等上海图书馆书目数据库系统 公共图书馆 图书馆自动化系统 6 2概念 检索词 的扩展 3 基于检索结果的概念扩展 对初步检索结果进行分析 往往能够得到与课题相关的新的检索概念 将这些概念经过重新组合 就可以达到扩展检索结果的目的 在实际检索中 可以根据需要 选用由上述方法得到检索概念 从而扩展检索所得 应用语言学 课题概念扩展示例 关键词 外商投资管理外商投资管理独资合资资本股权法规规定 主题词外资利用 管理 6 3选词注意事项 选词要准确重视概念扩展 不遗漏表达同一概念的相关词避免选用使用频率过高的词 如技术 方法 研究等不要单独使用多义词 如china选词要符合所用检索工具 数据库 的要求 如不同数据库所规范的主题词有时是不相同的 检索策略又称提问逻辑 即对多个检索词之间的相互关系和检索顺序作出的某种安排 构成检索策略 即构建检索式 7 检索策略构成方法 检索式是检索策略的逻辑表达式 是用来表达用户检索提问的 由基于检索概念产生的检索词和各种组配算符构成 组配算符通常有布尔逻辑算符 截词符 通配符 位置算符 嵌套算符 优先算符 四种 7 1构造检索式 布尔逻辑算符优先算符截词算符字段限制词组或字符串 7 2计算机检索算符主要包括 布尔逻辑组配运算是采用布尔代数中的逻辑 与 逻辑 或 逻辑 非 等算符 将检索提问式转换成逻辑表达式 限定检索词在记录中必须存在的条件或不能出现的条件 凡符合布尔逻辑所规定的条件的文献 即为命中文献 布尔逻辑算符组配检索 布尔逻辑算符 逻辑或 OR 运算符用来组配具有并列关系 概念相同或相近的词 如同义词 相关词等 扩大检索范围 提高查全率 A B例 EBSCOS11834enterpriseS22022companyS33647enterpriseORcompany A B 布尔逻辑算符 逻辑与 AND 运算符用来组配具有相互交叉限定关系的概念 缩小检索范围 提高查准率 A B例 EBSCOS112940ChineseS22173literatureS3842ChineseANDliterature A B 布尔逻辑算符 逻辑非 NOT 运算符用来排除含有某些词的记录 缩小检索范围 提高查准率 有排除掉相关文献的可能 慎用A B例 COMPENDEX 1998 S1110patentS2325GermanS3108patentNOTGerman A B 优先算符 混合使用逻辑符 其运算顺序为 NOTANDOR 改变运算顺序例 S1AORBS2CORDS3S1ANDS2 AORB AND CORD 截词算符 指在检索词的某个局部截断 利用某些检索词的词干或不完整词形加上截词符进行检索 查找某一词干的不同变化形式防止漏检 提高查全率常见的有 例 manag 可检出managemanagermanagementmanagingmanaged 字段限
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 城市合伙人协议Ucar6篇
- 2025年智能家居行业智能家居技术应用前景分析研究报告
- 2025年汽车行业智能驾驶技术发展前景分析报告
- 2025年智能机器人行业新产品应用与市场前景研究报告
- 2025年物联网行业发展前景及创新应用研究报告
- 2025年通讯行业5G技术应用与发展前景研究报告
- 商场供暖期安全应急培训课件
- 宁波市2025年浙江宁波慈溪市招引高层次和紧缺人才15名笔试历年参考题库附带答案详解
- 吉林省2025年吉林省省直事业单位招聘工作人员5号(65人)笔试历年参考题库附带答案详解
- 南宁市2025广西南宁市隆安县招聘乡镇残疾人专职委员1人笔试历年参考题库附带答案详解
- 2025年驾驶员安全培训考试试题库卷(答案+解析)
- 无人机培训课件
- 2025辽宁沈阳副食集团所属企业招聘3人考试参考题库及答案解析
- 储罐区的安全题库及答案解析
- 交大入党测试题及答案
- 培训如何开早会的课件
- 2025年河北沧州市中心医院、沧州博施康养集团公开招聘辅助岗工作人员113名考试参考试题及答案解析
- 消防员抗洪抢险知识培训课件
- 历年时事政治试题及答案
- 2025年法考真题及答案
- 摄像基础培训课件
评论
0/150
提交评论