检索语言的概念_第1页
检索语言的概念_第2页
检索语言的概念_第3页
检索语言的概念_第4页
检索语言的概念_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

检检索索语语言言的的概概念念 检索语言是应文献信息的加工 存储和检索的共同需要而编制的专门语言 是表达一 系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统 简言之 检索语言是用来描述信息源特征和进行检索的人工语言 可分为规范化语言和非规范化语 言 自然语言 两类 编辑本段检检索索语语言言的的作作用用 检索语言在信息检索中起着极其重要的作用 它是沟通信息存储与信息检索两个过程 的桥梁 在信息存储过程中 用它来描述信息的内容和外部特征 从而形成检索标识 在 检索过程中 用它来描述检索提问 从而形成提问标识 当提问标识与检索标识完全匹配 或部分匹配时 结果即为命中文献 检索语言的主要作用如下 特特征征 标引文献信息内容及其外表特征 保证不同标引人员表征文献的一致性 相相关关性性 对内容相同及相关的文献信息加以集中或揭示其相关性 有有序序化化检检 索使文献信息的存储集中化 系统化 组织化 便于检索者按照一定的排列次序进行 有序化检索 一一致致性性 便于将标引用语和检索用语进行相符性比较 保证不同检索人员表述相同文献内容的 一致性 以及检索人员与标引人员对相同文献内容表述的一致性 最最高高全全准准率率 保证检索者按不同需要检索文献时 都能获得最高查全率和查准率 编辑本段检检索索语语言言的的类类型型 目前 世界上的信息检索语言有几千种 依其划分方法的不同 其类型也不一样 一 按照标识的性质与原理划分 二 按照表达文献的特征划分 编辑本段按按照照标标识识的的性性质质与与原原理理划划分分检检索索语语言言 1 分分类类语语言言 分类语言是指以数字 字母或字母与数字结合作为基本字符 采用字符直接连接并以 圆点 或其他符号 作为分隔符的书写法 以基本类目作为基本词汇 以类目的从属关系 来表达复杂概念的一类检索语言 以知识属性来描述和表达信息内容的信息处理方法 称为分类法 著名的分类法有 国际十进分类法 美国国会图书馆图书分类法 国际 专利分类表 中国图书馆图书分类法 等 2 主主题题语语言言 主题语言是指以自然语言的字符为字符 以名词术语为基本词汇 用一组名词术语作 为检索标识的一类检索语言 以主题语言来描述和表达信息内容的信息处理方法称为主题 法 主题语言又可分为标题词 元 编辑本段标标题题词词 元元词词 叙叙词词 关关键键词词 1 标标题题词词 标题词是指从自然语言中选取并经过规范化处理 表示事物概念的词 词组或短语 标题词是主题语言系统中最早的一种类型 它通过主标题词和副标题词固定组配来构成检 索标识 只能选用 定型 标题词进行标引和检索 反映文献主题概念必然受到限制 不适 应时代发展的需要 目前已较少使用 2 元元词词 元词又称单元词 是指能够用以描述信息所论及主题的最小 最基本的词汇单位 经 过规范化的能表达信息主题的元词集合构成元词语言 元词法是通过若干单元词的组配来 表达复杂的主题概念的方法 元词语言多用于机械检索 适于用简单的标识和检索手段 如穿孔卡片等 来标识信息 3 叙叙词词 叙词是指以概念为基础 经过规范化和优选处理的 具有组配功能并能显示词间语义 关系的动态性的词或词组 一般来讲 选做的叙词具有概念性 描述性 组配性 经过规 范化处理后 还具有语义的关联性 动态性 直观性 叙词法综合了多种信息检索语言的 原理和方法 具有多种优越性 适用于计算机和手工检索系统 是目前应用较广的一种语 言 CA EI 等著名检索工具都采用了叙词法进行编排 4 关关键键词词 关键词是指出现在文献标题 文摘 正文中 对表征文献主题内容具有实质意义的语 词 对揭示和描述文献主题内容是重要的 关键性的语词 关键词法主要用于计算机信息 加工抽词编制索引 因而称这种索引为关键词索引 在检索中文医学文献中使用频率较高 的 CMCC 数据库就是采用关键词索引方法建立的 3 代码语言代码语言是指对 事物的某方面特征 用某种代码系统来表示和排列事物概念 从而提供检索的检索语言 例如 根据化合物的分子式这种代码语言 可以构成分子式索引系统 允许用户从分子式 出发 检索相应的化合物及其相关的文献信息 编辑本段按按照照表表达达文文献献的的特特征征划划分分检检索索语语言言 描描述述文文献献外外表表特特征征的的检检索索语语言言可可简简要要概概述述 1 1 表表达达文文献献外外部部特特征征的的检检索索语语言言 表达文献外部特征的检索语言主要是指文献的篇名 题目 作者姓名 出版者 报告 号 专利号等 将不同的文献按照篇名 作者名称的字序进行排列 或者按照报告号 专 利号的数序进行排列 所形成的以篇名 作者及号码的检索途径来满足用户需求的检索语 言 描述文献内容特征的检索语言可简要概述 2 表表达达文文献献内内容容特特征征的的检检索索语语言言 表达文献内容特征的检索语言主要是指所论述的主题 观点 见解和结论等 编辑本段基基本本介介绍绍 信息检索 Information Retrieval 是指信息按一定的方式组织起来 并根据信息 用户的需要找出有关的信息的过程和技术 狭义的信息检索就是信息检索过程 的后半部分 即从信息集合中找出所需要的信息的过程 也就是我们常说的信息查寻 Information Search 或 Information Seek 编辑本段信信息息检检索索的的手手段段 概概括括 1 手工检索 2 光盘检索 3 联机检索 4 网络检索 概括起来分为 手工检索和机械检索 手手工工检检索索 指利用印刷型检索书刊检索信息的过程 优点是回溯性好 没有时间限制 不收费 缺点是费时 效率低 机机械械检检索索 指利用计算机检索数据库的过程 优点是速度快 缺点是回溯性不好 且有时间限 制 计算机检索 网络文献检索将成为信息检索的主流 网网络络信信息息检检索索 网络信息检索 也即网络信息搜索 是指互联网用户在网络终端 通过特定的网络 搜索工具或是通过浏览的方式 查找并获取信息的行为 信信息息检检索索的的对对象象 1文献检索 Document Retrieval 是以文献 包括题录 文摘和全文 为检 索对象的检索 可分为全文检索和书目检索两种 2 数据检索 Data Retrieval 是以数值或数据 包括数据 图表 公式等 为对象的检索 3 事实检索 Fact Retrieval 是以某一客观事实为检索对象 查找某一事物发生的 时间 地点及过程的检索 编辑本段为为什什么么要要进进行行信信息息检检索索 信信息息检检索索是是获获取取知知识识的的捷捷径径 美国普林斯顿大学物理系一个年轻大学生名叫约瀚 菲利普 在图书馆里借阅有 关公开资料 仅用四个月时间 就画出一张制造原子弹的设计图 他设计的原子弹 体积小 棒球大小 重量轻 7 5公斤 威力大 相当广岛原子弹 3 4的威力 造价低 当时仅需两千美元 致使一些国家 法国 巴基斯坦等 纷纷致函美国大使馆 争相 购买他的设计拷贝 二十世纪七十年代 美国核专家泰勒收到一份题为 制造核 弹的方法 的报告 他被报告精湛的技术设计所吸引 惊叹地说 至今我看到的报告 中 它是最详细 最全面的一份 但使他更为惊异的是 这份报告竟出于哈佛大学经 济专业的青年学生之手 而这个四百多页的技术报告的全部信息来源又都是从图书馆那 些极为平常的 完全公开的图书资料中所获得的 信信息息检检索索是是科科学学研研究究的的向向导导 美国在实施 阿波罗登月计划 中 对阿波罗飞船的燃料箱进行压力实验时 发现 甲醇会引起钛应力腐蚀 为此付出了数百万美元来研究解决这一问题 事后查明 早在 十多年前 就有人研究出来了 方法非常简单 只需在甲醇中加入2 的水即可 检 索这篇文献的时间是 10多分钟 在科研开发领域里 重复劳动在世界各国都不同程度 地存在 据统计 美国每年由于重复研究所造成的损失 约占全年研究经费的 38 达20亿美元之巨 日本有关化学化工方面的研究课题与国外重复的 大学占 40 民间占47 国家研究机构占 40 平均重复率在 40 以上 我国的重复率则 更高 专业研究的程序 信信息息检检索索是是终终身身教教育育的的基基础础 学校培养学生的目标是学生的智能 包括自学能力 研究能力 思维能力 表达能 力和组织管理能力 UNESCO 提出 教育已扩大到一个人的整个一生 认为唯 有全面的终身教育才能够培养完善的人 可以防止知识老化 不断更新知识 适应当代 信息社会发展的需求 编辑本段信信息息检检索索的的四四个个要要素素 信信息息检检索索的的前前题题 信信息息意意识识 所谓信息意识 简单地说 是人们利用信息系统获取所需信息的内在动因 具体表 现为对信息的敏感性 选择能力和消化吸收能力 信息意识含有信息认知 信息情感和 信息行为倾向三个层面 信息素养 素质 Information Literacy 一词最早是 由美国信息产业协会主席 Paul Zurkowski 在1974年给美国政府的报告中提出来的 他认为 信息素质是人们在工作中运用信息 学习信息技术 利用信息解决问题的能力 信信息息检检索索的的基基础础 信信息息源源 信信息息的的来来源源 信息源的构成 按文献载体分 印刷型 缩微型 机读型 声像型 按 文献内容和加工程度分 一次信息 二次信息 三次信息 按出版形式分 图书 报刊 研究报告 会议信息 专利信 息 统计数据 政府出版物 档案 学位论文 标准信息 它们被认为是十大信息源 其中后8种被称为特种文献 教育信息资源主 要分布在教育类图书 专业期刊 学位论文等不同类型的出版物中 信信息息检检索索的的核核心心 信信息息获获取取能能力力 1 了解各种信息来源 2 掌握检索语言 3 熟练使用检索工 具 4 能对检索效果进行判断和评价 判断检索效果的两个指标 查全率 被检出相关信息量 相关信息总量 查准率 被检出相关信息量 被 检出信息总量 信信息息检检索索的的关关键键 信信息息利利用用 社会进步的过程就是一个知识不断的生产 流通 再生产的过程 为了全 面 有效地利用现有知识和信息 在学习 科学研究和生活过程中 信息检索的时间比 例逐渐增高 获取学术信息的最终目的是通过对所得信息的整理 分析 归纳和 总结 根据自己学习 研究过程中的思考和思路 将各种信息进行重组 创造出新的知 识和信息 从而达到信息激活和增值的目的 逻逻辑辑 与与 用 AND 或 表示 可用来表示其所连接的两个检索项的交叉部分 也即交集部分 如果用 AND 连接检索词 A 和检索词 B 则检索式为 A AND B 或 A B 表示让系统检索同时包含检索词 A 和 检索词 B 的信息集合 C 如 查找 胰岛素治疗糖尿病 的检索式为 insulin 胰岛素 and diabetes 糖尿病 1 编辑本段逻逻辑辑 或或 用 OR 或 表示 用于连接并列关系的检索词 用 OR 连接检索词 A 和检索词 B 则检索式为 A OR B 或 A B 表示让系统查找含有检索词 A B 之一 或同时包括检索词 A 和检索词 B 的信息 如 查找 肿瘤 的检索式为 cancer 癌 or tumor 瘤 or carcinoma 癌 or neoplasm 新生物 1 编辑本段逻逻辑辑 非非 用 NOT 或 号表示 用于连接排除关系的检索词 即排除不需要的和影响检索结果的 概念 用 NOT 连接检索词 A 和检索词 B 检索式为 A NOTB 或 A B 表示检索含有 检索词 A 而不含检索词 B 的信息 即将包含检索词 B 的信息集合排除掉 如 查找 动物的乙肝病毒 不要人的 的文献的检索式为 hepatitis B virus 乙肝病毒 not human 人类 1 邻近度算符 With 用 With 表示 用于表示同时出现在同一文献的 一个字段的两个词 用 With 连接检索词 A 和检索词 B 检索式为 Awith B 表示检索 词 A 和检索词 B 不仅要同时出现在一条记录中 还要同时出现在一个字段里的文献才是命 中文献 如 drug 药物 withabuse 滥用 检索出的是同一个字段中同时出现这两个 词的记录 1 编辑本段邻邻近近度度算算符符 Near 用 Near 表示 用于表示不仅要同时出现在一条记录的同一字段里 还必须在同一个 子字段 一句话 里的两个词 用 With 连接检索词 A 和检索词 B 检索式为 A Near B 表示检索词 A 和检索词 B 不仅要同时出现在一条记录中 还要同时出现在一个字段里的文 献才是命中文献 如 drug 药物 Near abuse 滥用 检索出的是同一句话中同时出现 这两个词的记录 也可说成是两个词之间没有句号的文献 1 编辑本段邻邻近近度度算算符符 Near 用 Near 表示 其中 代表一个常数 用 Near 连接检索词 A 和检索词 B 检索式 为 A near B 表示检索词 A 和检索词 B 之间有 0 个单词的文献 A 和 B 在同一记录 同一字段里 在 near 后加一个数字 指定两个词的邻近程度 且不论语序 如 information 信息检索 near2 retrieval 数据 表示检索词 information 和 retrieval 同 时出现在一个句子中 且这两个检索词之间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论