版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章:检索语言检索语言概述计算机检索语言索引语言索引语言的举例一、检索语言概述
文献存贮时,文献的内外特征按照一定的语言来加以描述,而检索时情报提问也是按照一定的语言来加以表达。所以这种把文献的存贮与检索联系起来,把标引人员与检索人员联系起来,以便取得共同理解、实现交流的语言,就叫做情报检索语言。
检索语言,就其描述文献的有关特征而言,可分为:描述文献外表特征的语言和描述文献内容特征的语言两大范畴。外表特征:就是文献上记明的、显而易见的特征。如:题名、著者姓名、文献序号等内容特征:带有主观性,更需要标引与检索人员的智力判断。它是检索语言研究的核心。
外表特征语言(书目引文语言)题名(书名、篇名)著者姓名文献序号(如:ISBN、ISSN
专利号、报告号等)书目引文出版事项文献类型
内容特征语言非句法语言句法语言等级制体系分类法标题词关键词叙词单元词加标志的叙词组面词(如:组面分类法)短语文献全文的自然语言二、索引语言
情报检索语言包括:索引语言、检索提问语言和数据定义语言。其中索引语言是建立书目文档(或称书目数据库)的语言,是决定书目数据库质量的重要因素也是情报提问语言的基础。所以它是整个情报检索语言的核心部分。(一)索引语言性能的评价准则
与自然语言相比,索引语言所起的作用是专门的和有限的,可以根据四种属性对其优劣进行评价和比较。1、表达性
有时也称“专指度”。这是索引语言确认一个主题事物,区分不同的主题事物、何在不同的明细度上表述一个主题事物的能力。这里是语言的表达潜力,而不是指语言使用者的技巧。2、唯一性二、索引语言
指一个词只应有一种概念,一种概念,一种概念只应由一个词来表达,即不能模棱两可、一词多义或者多词一义。3、简洁性
也可以称为压缩性或致密性。这是指表达一定情报含量所要求的一个索引词的长度与大小。4、经济性这里主要指:A、标引一个或多个索引词来表达文献主题内容是做出决策所花的时间代价;B、选择合适的检索词来表达自己情报需求的时间;C、培训人们使用这种语言的花费、辞典的编制与维护、改错的费用等。二、索引语言(二)索引语言的结构与种类结构反映文献内容特征的索引语言由两部分组成:词汇和句法。词汇,是索引记录中用来表达文献内容的词的集合。例如:分类号码的集合,就是分类法这种语言的词汇。句法,是将词汇中的单元(词)组成语言单元的一套规则。这种语言单元(句法单元)可能是基本词汇所不能表达的,因而它是扩展词汇表达能力的手段。例如:由句法组成的“学校实验室”这种概念是基本词汇所不能表达的。非句法语言句法语言等级制体系分类法标题词关键词叙词单元词加标志的叙词组面词(如:组面分类法)短语文献全文的自然语言2、种类二、索引语言索引语言(三)索引语言中改善查全、查准率的措施二、索引语言采用有利于改善查全率的措施,就能增加检出的文献量。1、同义词控制法
是指当一个概念具有多个同义词的时候,为了保证标引与检索的一致性,避免文献的分散和漏检,指引词汇的使用者从其他的同义词找到一个被专门选择作为正式主题词的词的用法。例如:用符号USE、SEE、Y(用)
从正式词引见非正式的词,则用USEFOR、D(代)要注意,同义词有两种:一种是“完全等价的同义词”另外是“准同义词”(近义词)二、索引语言2、词的关联法索引词的关联,最普通的形式是等级上的关联。例如:A、由专指词到较泛指的词,使用符号
BT(broaderterm),或者S(属)B、由泛指词到较专指的词,使用符号
NT(narrowerterm),或者F(分)C、由指向近义的词,使用符号
RT(relatedterm),或者C(参),或seealso(参见)
二、索引语言《汉语主题词表》词的关联举列
交流发电机F同步发电机异步发电机S发电机
交流换向电机D交流整离子电机S交流电机Z电机C调速电动机异步电动机二、索引语言3、字形的控制法
即把具有同一词根的字组合在一起。当然这不是提供标引的措施,而是提供检索用的辅助手段。在计算机检索中,是采用截词实现的:例如:“反射”、“反射波”、“反射性”、“反射望远镜”等。都有reflect,用reflect进行截词检索,就能检索出与“反射”有关的所有文献。
在对检索词进行统计的基础上,将有关的索引次进行聚类,可以查出更多的文献,从而改善查全性。例如:“枯萎”是与“庄稼”、“植物生长”联系在一起的,如果“锈菌”也是常与“植物生长”等词联系在一起的话,我们就可以推断“枯萎”与“锈菌”之间存在某种联系。4、聚类法二、索引语言5、组配即两个或两个以上概念的组合,有两种组配形式,先组和后组。
先组式是指概念之间的组合是在词表编制阶段就已经定义好的,组配后的符合概念成为供标引的完整索引词。
心理声学(是心理学与声学的组配)蒸发冷却(是蒸发与冷却的组配)
词表中也有些特别指明某些符号需由两个或两个以上的概念来组配进行标引与检索。这称为“组代”。其符号用“USE–A,—B”。直升飞机高度指示器
USE——高度指示器——直升飞机二、索引语言后组式是指在检索阶段把两个或两个以上的有关索引词进行组合。“计算机”与“设计”
先组式有助于提高索引词的专指度,减少标引到每个词的文献数量,减少和避免假组配,从而有利于查准率。但是先组式的词在数量上是有限的,不能适应各种角度和深度的符合概念检索。后组式便于各种角度和深度的检索,有利于查准率的提高,但是可能出现假组配,致使误检的增多。对于先组和后组式的评价三、索引语言的举例中国图书分类法简表中国图书馆图书分类法依次由以下几个部分组成:
马克思、列宁主义,毛泽东思想,邓小平理论哲学1、基本部类社会科学
5个自然科学
综合性图书
A马克思、列宁主义,毛泽东思想,邓小平理论
B哲学2、基本大类
C社会科学(共C----K九个文科大类)22个
N自然科学(共N----U、X十个理科大类)
Z综合性图书三、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026小学四年级英语上册 核心词汇(Unit 1-Unit 3)
- 植树节活动方案集锦15篇
- 防撞护栏施工方案
- 网络拓扑设计与调整实例
- 企业数字资产管理的行业挑战
- 城市交通时空大数据标准(征求意见稿)
- 固定收益策略报告:又见资产荒
- 国企改革之脱胎换骨药剂
- 2026年中等职业学校教师资格考试护理学科测试题及答案
- 2026海洋科普知识赛题参考答案分解
- 2026年广西事业单位招聘考试真题及答案
- 《2026年》知识产权专利工程师高频面试题包含详细解答
- 公司计量监督考核制度
- 2025年铜川职业技术学院单招综合素质考试题库带答案
- 国网公司竞聘笔试题库
- 内蒙美食课件
- 兴奋躁动状态的治疗及护理
- 《JBT 13686-2019 光栅编码器 加速寿命试验方法》(2026年)实施指南
- 消防工程计量课件
- 可穿戴设备轻量化设计与人体工学适配建设方案
- 2025年海南省公安厅招聘警务辅助人员笔试试题(含答案)
评论
0/150
提交评论