信息检索原理与方法ppt.ppt_第1页
信息检索原理与方法ppt.ppt_第2页
信息检索原理与方法ppt.ppt_第3页
信息检索原理与方法ppt.ppt_第4页
信息检索原理与方法ppt.ppt_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

工欲善其事 必先利其器 信息检索原理与方法 东北大学图书馆刘畅 信息检索的基本原理 信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择 是两者匹配 match 的过程 信息的特征 一篇文章 一本书 一份报告等一般都有以下特征 外表特征 题名 作者 作者工作单位 专利和科技报告还有专利号或报告号等 这些可以表征一篇特定文献的特征可以在文献的封面或扉页 即不打开书本 或不看文献的具体内容就可以确定一篇文献 内部特征 假如我们深入到文献内容中间 则可以发现还可用另外两种方法来表征它 主题词和分类号 主题词 一般 一篇文献都是论及某一方面的特定问题的 也就是说 与论题相关的词出现的频率较大 文献中出现频率最高的词是冠词 介词和连词等 即其本身没有具体含义的词 如a an the this that or and in on with等 绝大部分词在文献中出现的频率较低 在文献中出现的频率既不高也不低的词 在文献中约3 20个之间 这些词恰恰是与文献的主题相关度较大的词 我们称之为文献的主题词或关键词 分类号 一篇文献还可以按照各种自然科学和社会科学的分类方法进行归类 如 中国图书馆分类法 K历史 地理K2中国史K2O通史K201革命史 O数 理 化O1数学O12初等数学O123初等几何 信息检索语言 检索语言是用于描述检索系统中信息的内部及外部特征和表达用户信息提问的一种专门语言 检索的匹配正是通过语言的比较匹配来实现的 分类语言 按学科范畴划分而构成的一种语言体系 它集中反映学科的系统性 反映它们的相关 从属 派生等关系 从总体到局部分层 分面展开 形成分类体系 由类目号码及名称作为检索语言 构成分类类目表 如图书分类表 专利分类表用的都是分类语言 是用分类号来表达各种概念 将各种概念按学科性质进行分类和系统排列 以科学分类为基础 运用概念划分和概括的方法 按照知识门类的逻辑次序 从总到分 从简单到复杂 层层进行概念划分 则产生许多不同等级的类目 上位类包括下位类的总合 下位类隶属于其上位类 同级类互不相容 构成一个严格有序的层磊式结构系 国内外常用的分类法 中国图书馆图书分类法 中图法 中国科学院图书馆图书分类法 科图法 该分类法目前主要用于中国科学院图书馆及其所属各科研单位的图书馆 室 的文献分类 杜威十进制分类法 DecimalClassification 简称为杜威法该分类法是目前世界上使用最广泛 影响最大的图书分类法 已用于130多个国家的图书馆 许多分类法均是借鉴于杜威分类法产生的 美国国会图书馆图书分类法 LibraryofCongressclassification 简称为 分类法 目前美国大多数图书馆采用的分类法 国际十进分类法 UniversalDecimalClassification 简称 分类法国际专利分类法 InternationalPatentClassification 简称IPC 中国图书馆分类法 分五大部22大类 A马克思主义 列宁主义 毛泽东思想 邓小平理论B哲学 宗教C社会科学总论D K社会科学各学科N自然科学总论O X自然科学各学科Z综合性图书 A马克思主义 列宁主义 毛泽东思想 邓小平理论B哲学 宗教C社会科学总论D政治 法律E军事F经济G文化 科学 教育 体育H语言 文字I文学J艺术K历史 地理 N自然科学总论O数理科学和化学P天文学 地球科学Q生物科学R医药 卫生S农业科学T工业技术U交通运输V航空 航天X环境科学 安全科学Z综合性图书 中国图书馆分类法 T工业技术 TB一般工业技术TD矿业工程TE石油 天然气工业TF冶金工业TG金属学 金属工艺TH机械 仪表工业TJ武器工业TK动力工程TL原子能技术TM电工技术TN无线电电子学 电讯技术TP自动化技术 计算机技术TP1自动化基础理论TP2自动化技术及设备TP3计算技术 计算机技术TP30一般性问题TP31计算机软件 TP32一般计算器和计算机TP33电子数字计算机 不连续作用电子计算机 TP34电子模拟计算机 连续作用电子计算机 TP35混合电子计算机TP36微型计算机TP37多媒体技术与多媒体计算机TP38其他计算机TP39计算机的应用TP6射流技术 流控技术 TP7遥感技术TP8远动技术TQ化学工业TS轻工业 手工业TU建筑工程TV水利工程 中图法分类标引实例 分类标引方法 崔文风著 心理与人生 发展心理教子成长 心理与人生 完善心理事事成功 心理与人生 调节心理强身治病分类号分别为 G78教育学B848 4心理学R395 6医学 主题词语言 主题词语言包括 关键词语言 单元词语言 标题词语言 叙词语言等 它们有不同的主题词表 主题词表达概念本身 在主题词表中通过参照系统来指示词汇之间的关系 关键词语言 关键词是从文题 文摘或正文中抽出 具有实质意义 能够代表文献内容主题的名词术语 关键词可直接用于文献标引 主题词语言 主题词是表达一定概念主题的规范化的名词术语 主题标引须有专门的主题词表 中国分类主题词表 检索词之间的三种关系 等同关系是指叙词与非叙词之间的关系 参照符号是 Y 用 和 D 代 两种 Y 用作正式叙伺指引词 D 用作非正式叙词指引词 属分关系亦称等级关系 指上位叙词和下位叙词之间的关系 所用参照符号有 S 属 F 分 和 Z 族 3种 S 作上位叙词指引符 只在下位叙词下使用 F 作下位叙词指引符 只在上位叙词下使用 Z 作族首词指引符 指示族首词 相关关系指叙词间除属分关系 等同关系之外的在语义上有关联的关系 相关关系用符号 C 参 表示 建立此种关系的目的是 引导检索者从其他词汇中寻找可能有用的词 检索词之间关系举例 对外投资D国际投资海外投资F间接投资直接投资S投资 C海外企业经济扩张资本输出 Y 用 表示从非正式主题词指引到正式主题词D 代 表示 Y 的对应参照F 属 表示主题词的下位词 狭义词 S 分 表示主题词的上位词 广义词 Z 族 表示主题所属的族首C 参 表示主题词之间的相关关系 检索词之间关系举例 对外投资D国际投资海外投资F间接投资直接投资S投资 C海外企业经济扩张资本输出 Y 用 表示从非正式主题词指引到正式主题词D 代 表示 Y 的对应参照F 属 表示主题词的下位词 狭义词 S 分 表示主题词的上位词 广义词 Z 族 表示主题所属的族首C 参 表示主题词之间的相关关系 LibraryofCongressSubjectHeadings美国国会图书馆主题词表 LCSH 主题词表 computerizedindustrialcontrolUSEindustrialcomputercontrolComputerizedinstrumentationUFcomputerizedinstrumentsNTautomatictestequipmentcomputerizedmonitoringcomputerizedspectroscopycomputerizedtomographyBTcomputerapplicationsTTcomputerapplicationsRTastronomycomputingastrophysicscomputingbiologycomputingchemicalengineeringcomputing LCSH参照系统符号及意义非正式标题USE标题 用 标题UF非正式标题 代 下位标题BT上位标题 属 上位标题NT下位标题 分 标题ART标题B 参 文献数据库简介 数据库的定义和类型一 定义 至少由一种文档组成 并能满足某一特定的目的或某一特定数据处理系统所需要的一种数据集合 二 数据库类型 1 文献目录型数据库 bibliographicdatabase 也称为书目数据库或者目录数据库 是二次文献数据库 包含文摘数据库 题录数据库 索引数据库 各国的MARC格式的图书目录 2 指南数据库 referencedatabases 也称指示性数据库 其内容是关于某些机构 人物 出版物 项目 程序 活动对象的简要描述 是指引用户从其他有关的信息原获取更详细的信息的一类数据库 3 数值数据库 numericdatabase 又称数据型数据库 此类数据库存储的均为数据信息 4 全文型数据库 full textdatabase 是指储存文献全文或者其中主要部分的一种数据库 数据库的构成 1 文档 file 若干个逻辑记录构成的信息集合成为文档 2 记录 record 记录是若干个字段组成的文献单元 3 字段 field 是文献著录的基本单元 用来描述文献主题内容相关的某种属性 是组成记录的数据项 书目数据库中的字段反映一篇文献的具体特征 如标题字段 著者字段文献来源字段 又称文献出处 主题词字段 关键词字段 文摘字段 语种字段等 每个字段都有己的字段标识符 fieldtag 以供识别 把记录划分成字段的另一作用是便于进行字段限定检索 信息检索基本技术 逻辑算符位置算符截词符基本索引字段标识符 逻辑算符 定义 表达检索提问的各概念之间的逻辑关系 逻辑算符有三种 AND 与 OR 或 NOT 非 三种算符可同时在一个检索式中使用 也可单独使用 使用逻辑算符时应注意的事项 逻辑算符的优先级为 NOT AND OR 可用括号来改变优先顺序 在逻辑组配时 算符的两侧必须各留有一个空格 逻辑与 AND 用于交叉概念或限定关系的组配 可以缩小检索范围 提高查准率 可使用 and 或 来表示 其检索表达式为 AandB 或 A B 即检索记录中必须同时包含A词与B词才算命中 例如 中国and对外贸易 A B 逻辑或 OR 用于并列概念的组配 可以扩大检索范围 提高查全率 可使用 或 OR 来表示 其检索表达式为 AorB 或 A B 即检索记录中含有A词或者B词中的任何一词即可 例如 高清晰电视orHDTV A B 逻辑非 NOT 用于从原来的检索范围中排除不需要的概念 或影响检索结果的概念 可使用 NOT 或 来表示 其检索表达式为 ANOTB 或 A B 即检索记录中包含A词但不含有B词 例如 能源NOT太阳能 A B 位置算符 W N W W是with的缩写 表示两个词必须紧挨着 且词序不可颠倒 W 算符也可用空括号 代替 例 solar energy nW 表示两个词之间可插入n个词 且词序不可颠倒 例 solar 3w energy N N是near的缩写 表示两个词之间必须紧挨着 但词序任意 例 fiber N optic nN 表示两个词之间最多可插入n个词 词序任意 例 fiber 4N optic 位置算符 S F S S为subfield或sentence的缩写 表示两个词必须在记录中的同一个句子或同一个子字段中出现 且词序可变 子字段含义由数据库定义 例 color S pigment F F为field的缩写 表示两个词必须在记录中的同一个字段中出现 且词序可变 禁用词 在有些数据库中 规定某些词不能作检索词使用 这些词称为禁用词 禁用词有 An And By For From Of To The With About On 截词符 又称通配符 不同的检索系统中使用的符号不同 通常用 来表示 常用的还有如 等 加在检索词的词干或不完整的词型后面或中间 用以表示一组概念相关的词 无限截词例 Computer可检出Computer Microcomputer有限截词例 Process 可检出Process Processes中间截词例 Wom n可检出Woman Women 基本索引字段标识符 字段后缀代码Abstract文摘 ABDescriptors叙词 DETitle题目 TIIdentifiers标引的自由词 IDFullDescriptors完整的叙词 单元词 DF 不同数据库字段标示符表示形式不同 具体参看各个数据库说明 常用检索功能 浏览 browse 利用检索系统提供的树型结构 从 树根 开始 逐层逐级打开 直到找到所需文献 索引 index 一些系统将其报道文献记录的一个或几个字段中具有实际检索意义的词 按字顺排成一个表单式的索引 供用户选择检索 词表检索 是主题检索途径 一些检索系统把自己的词表编入检索系统 用户在确定检索用主题词的同时 可以直接进行检索 4简单检索和高级检索 从课题名中确定检索词 六大方法 切分删除替换聚类补充限定 从课题名中确定检索词 切分 将课题语句分割为一个一个词 例如 计算机情报检索方法 可切分为 计算机 情报 检索 方法 从课题名中确定检索词 删除从语句切分出来的词中删除那些a 不具有检索意义的虚词 包括介词 连词 助词 副词等 及其他非关键词 b 过分宽泛和过分具体的不必要的限定词 过分宽泛难以触及问题实质 太狭义具体的限制词则会挂一漏万 c 存在蕴涵关系的可合并词 例如 基于Web的数据库 经删除后 Web 数据库稀土材料的研究现状及发展趋势 稀土材料 稀土材料钕铁硼的研究 钕铁硼 从课题名中确定检索词 替换从课题语句中得来的词也许偏于模糊 宽泛 狭窄或不可行 不能取得所希望的结果 这时可以引入更明确 更具体 更本质 更可行的概念词来替换原词 例如 稀土材料的研制 钐钴 用户实际上研究钐钴材料 空气中细菌的计算方法 空气污染的计算方法 从课题名中确定检索词 聚类即把切分 删除 替换后所得出的单元词按语义概念进行同类合并 将那些可以相互等效 相互替换 相互补充的同 近 义词 相关词归成一组 聚类的实质是进行组面分析 将语句和词转换成概念 组面 的集合 从课题名中确定检索词 补充a 补充来源词 即找出缩略词的来源词组 将两者一并作为检索词 b 补充同义词和相关词 包括上位词 下位词和同位词等 模拟计算机 可以表示为 模拟计算机or模拟系统and计算机 毫米波 millimeterwave 与 millimetrewave 从课题名中确定检索词 限定 针对一词多义导致误检的问题 需采取限定措施 即增加 限定词 具体方法有两种 一是逻辑与and 二是逻辑非not 例如 线路 线路and 电子or无线电or 线路 线路not 道路or车辆or 课题检索词确定实例 请依照上述确定检索词的方法 给下列课题确定合适的检索词 1 铁路货车轴承保持架裂损分析及对策研究2 工程制图CAI系列课件的研制3 调度集中仿真系统研究4 基于WEB平台的动态扩展ERP系统研究 课题检索词确定实例 1 铁路货车轴承保持架裂损分析及对策研究保持架滚动轴承铁路车辆断裂残余应力动应力Cage ballbearing railvehicle fracture remainsstress dynamicstress 2 工程制图CAI系列课件的研制工程制图机械制图画法几何计算机辅助教学 CAI 教学软件课件 3 调度集中仿真系统研究调度集中行车指挥仿真计算机网络CentralizedtrafficcontrolTrafficcommandsimulationComputernetwork 4 基于WEB平台的动态扩展ERP系统研究企业资源计划 ERP 供应链客户关系扩展开放结构Enterpriseresourceplanning ERP SupplychainCustomerrelationOpenarchitecture 检索程序 1 明确检索的目的2 检索前的准备工作3 选择检索系统和数据库4 规划检索程序5 分析检索结果 1 明确检索目的 检索目的的确定 1 分析课题的主题内容分析课题的主题内容 所属学科性质 明确研究课题所需的信息内容 从而提出能准确反映课题核心内容的主题概念 2 确定检索时间范围根据课题研究的起始年代和研究的高峰期确定检索的时间范围 3 确定课题的文献类型通过对课题进行主题分析后 确定所需信息的文献类型 明确课题对检索深度的要求 弄清用户是需要提供题录 文摘还是原始文献 如果属于基础理论性探讨 要侧重于查找期刊论文 会议论文 如果是尖端技术 应侧重于科技报告 如属于发明创造 技术革新 则应侧重于专利文献 如为产品定型设计 则需利用标准文献及产品样本 4 分析用户的检索评价要求分析用户对检索评介指标是查新 查准还是查全 一般来说 若要了解某学科 理论 课题 工艺过程等最新进展和动态 则要检索最近的文献信息 强调一个 新 字 若要解决研究中某具体问题 找出技术方案 则要检索有针对性 能解决实际问题的文献信息 强调一个 准 字 若要撰写综述 述评或专著等 强调一个 全 字 2 检索前的准备工作 明确学科通用的关键检索词是否对特定的作者 专家学者的研究感兴趣 是否有特定的出版机构的文献与你的研究主题相关 其它 3 选择检索系统和数据库 掌握数据库资源所覆盖的学科范围掌握各种数据收录文献的类型查看数据库的详细介绍和说明请教图书馆员要求介绍检索的最佳数据库 4 规划你的检索程序 选定检索主题词利用关键词的上下位词 特有名词及同义词 查阅工具如字典 分类表等 建立你的检索表达式使用逻辑算符 AND OR NOT 限制检索条件 作者 刊物或年代 调整相关设定决定检索结果的显示方式 以日期 关联性排序进行检索 检索效果评价 查全率和查准率是反映信息检索效果的重要指标 查准率 Precision 查准率是衡量某一检索系统的信号噪声比的一种指标 即检出的相关文献与检出的全部文献的百分比 查准率 检索出的相关信息量 检索出的信息总量 x100 使用泛指性较强的检索语言 如上位类 上位主题词 能提高查全率 但查准率下降 查全率 Recall 查全率是衡量某一检索系统从文献集合中检出相关文献成功度的一项指标 即检出的相关文献与全部相关文献的百分比 查全率 检索出的相关信息量 系统中的相关信息总量 x100 使用专指性较强的检索语言 如下位类 下位主题词 能提高查准率 但查全率下降 思考 在 百度文库 中检索有关 稀土发光材料 的文献 共检出358篇DOC格式文献 经查看 共有250篇文献与检索要求相符 百度文库中实际共有750篇文献与检索要求相符 问 本次检索的查准率是多少 查全率是多少 查全率与查准率间的关系 查全率和查准率之间具有互逆的关系 一个IR系统可以在它们之间进行折中 在极端情况下 一个将文档集合中所有文档返回为结果集合的系统有100 的查全率 但是查准率却很低 另一方面 如果一个系统只能返回唯一的文档 会有很低的查全率 但却可能有100 的查准率 通常 以查全率和查准率为指标来测定IR系统的有效性时 总是假定查全率为一个适当的值 然后按查准率的高低来衡量系统的有效性 改变检索项 减少限制条件 都可以提高查全率 5 分析检索结果 不满意 满意 不满意 非目标性结果 重新檢索 检查检索词的拼写检查检索词的准确性 查阅词典 字典 词表 删除错误名词调查被检索的数据库 数据库说明 期刊列表确定是否覆盖你所需要检索的主题 不满意 结果太多 设定限制条件 特定的检索字段及年代增加检索名词的准确性 查阅工具 主题词表 字典 分类表等修改检索策略 增加使用AND 减少使用OR 重新檢索 不满意 结果太少 检查检索词的正确性 准确性增加检索词的普遍性 查阅工具 主题词表 字典 分类表等拓宽检索策略 减少使用AND 使用OR连接增加的同义我词和近义词增加检索数据库 确定其他数据库是否覆盖你所需要的检索主题 重新檢索 满意 是否获得全部所需 打印 Email或存档是否需要获取全文 连接全文链接 图书馆期刊 资料 原文传递服务 一 图书馆收藏的纸本图书需要借阅 二 利用全文数据库直接获取 期刊 学位论文 电子图书和专利直接点击阅读原文 中文科技期刊数据库 万方学位论文等和中国国家知识产权局专利数据库提供图片格式的原文文件 EBSCO ELSEVIER等外文数据库大多有论文原文 书生之家 超星等数字图书馆提供的电子图书 三 利用文献传递系统获取国家科技图书文献中心的文献可以付费从网上传递原文 中国国家科技图书文献中心 简称NSTL 五 获取原文 检索表达式构造实例 1 检索计算机网络方面的中文文献2 查找版权中涉及图书馆方面的英文文献3 要检索 计算机辅助设计 方面的英文文献4 检索 上海地区的大学但不包括医学院 5 检索 飞机 方面的文献 但不希望文献中出现 直升飞机 的主题6 检索 美日两国铜质量散热管专利的实证研究 的中文文献7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论