信息检索 第三章 信息著录和标引_第1页
信息检索 第三章 信息著录和标引_第2页
信息检索 第三章 信息著录和标引_第3页
信息检索 第三章 信息著录和标引_第4页
信息检索 第三章 信息著录和标引_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章 信息著录和标引 3.1 信息著录的含义和标准 一、信息著录的含义 信息著录:简称著录,指在组织检索系统时对文献内容和形式特征进行选择和记录的 过程。著录对象是信息,著录结果是款目或记录。 款目:指依据一定的标准方法,对一种文献或信息源的内容价值物质形态进行描述而 形成的一条记录。款目由一条条著录项目组成。 著录项目:用于揭示文献内容和形式特征的记录事项。 信息著录的基本要求:准确性。要求著录结果准确全面客观的揭示文献或其它信息 源的内容特征或形式特征规范化。要求信息著录坚持标准化原则,按照统一的著录项目, 著录格式,标识符号进行著录。 二、信息著录的作用 1、揭示功能:信息著录主要反映的是文献本身的特征,通过对文献全面系统的分析, 揭示出其内容特征和形式特征,将其浓缩于只言片语中,从而表达文献的基本信息。 2、组织功能:信息著录后形成的款目或记录,是编制目录的基础,也是组织数据库数 据的基本单元。文献编目包括信息著录和目录组织两步。信息著录是对文献内容特征形式 特征进行选择记录后形成款目或记录。目录组织是将这些款目或记录按照一定组织规则编 排在一起最终形成检索工具或数据库。 3、检索功能:存储是检索的第一个阶段,即将表达文献特征的有检索意义的标识通过 记录组织成手工检索工具或计算机数据库,而表达文献特征的标识需要通过著录和标引来 完成。作为信息著录结果的款目或记录,记载了表达文献特征的各种标识。 三、信息著录的标准 文献著录总则旨在根据各种类型文献的共同特点,确定文献著录原则、内容、 标识符号、格式等的统一规定。具有指导作用为信息著录提供原则性框架,并不作为文献 著录的直接依据。 1、著录项目:题名与责任者项版本项文献特殊细节项出版发行项载体形 态项丛编项附注项文献标准编号及有关记载项提要项 2、著录级次:著录文献的详简程度,分为三级:简要级次,款目仅著录主要项目 基本级次,著录主要项目同时还著录部分选择项目详细级次,著录全部主要项目和全 部选择项目。 3、著录格式:款目中各个著录项目的排列次序和表达方式。分为卡片式款目著录格 式和书本式款目著录格式。 目前,信息机构中并存着两种目录,一种是卡片式目录,一种是机读目录。 3.2 机读目录与元数据 一、机读目录 机读目录(MARC):机器可读目录的简称,来自英文 machine-readable catalogue 的简称,是利用计算机识读和处理的目录。 2 CNMARC:按照 UNIMARC 格式设计原则制定,并结合了汉字的特点,标识系统和 数据代码规定比较详细,目前广泛应用于计算机编目。 一条 CNMARC 记录由记录头标区(包括的数据有记录类型,书目级别,记录的完备 程度,记录是否遵照国际标准书目著录规则等) ,地址目次区(记录关于数据字段区记录情 况的有关数据) ,数据字段区(由一些可变长数据组成,有十个功能块,0-标识信息块,1- 编码信息块,2-著录信息块, 3-附注项,4-款目连接块,5- 相关题名块,6- 主题分析块,7- 知识责任者块,8-国际使用块, 9-国内使用块) ,记录分隔符组成。 二、元数据 元数据:metadata ,关于数据的数据。在互联网中,元数据是指描述任何互联网数 据和资源,促进互联网信息资源组织和发现的数据,以协助对网络资源的识别、描述、位 置指示。 元数据的作用:1、定位和检索:借助于元数据,人们可以准确地检索和确认所需的 资源。 2、著录和描述:为了提高查全率和查准率,需要对网络资源的数据单元进行详细的 著录和描述,描述数据单元的元数据叫做元数据元素。 3、资源管理:利用元数据全面描述网络资源,不仅有利于检索,同时也有利于实现 对资源安全有效的管理。 4、资源保护与长期保存:利用元数据全面描述网络资源,不仅有利于实现管理和查 询,还有助于网络资源的保护和长期保存。 都柏林核心元数据集:一种跨领域的信息资源描述标准。其对应用的资源类型没有 根本性的限制。共包括 15 个元素:题名(title)创作者(creator)主题及关键词 (subject and keywords) 描述(description )出版者(publisher)其他贡献者 (contributor) 时间(date )类型(type )格式( format)标识(identifier )来 源(source ) 语言(language)关联(relation)范围(coverage)版权(right) 这十五个元素都是可选择可重复可扩展的。目前许多国家部门将都柏林核心元数据集作为 一项基础标准。 三、都柏林核心元数据和机读目录的比较 都:简单灵活具有语义互操作性可扩展性,有利于网络信息资源描述 机:揭示内容深入详尽在信息存储和检索领域应用历史悠久,是一种国际性的书 目著录标准 相同:两者都是元数据在著录文献的相关信息上都是数据的数据目的:将文献 的相关信息格式化用来描述信息资源的主题内容特征,并通过所描述的特征提供检索的 依据 不同:1、著录对象不同:都的著录对象是网络资源或数据资源,其设计原则有可选择 性可重复性可扩展性。机比较适合传统出版物、缩微制品、数据库等,适用范围主要限于 图书情报机构和网上公共查询目录 2、数据形式不同:都包括 15 个元素,在应用中可选择可重复可扩展,限定词与元素 之间关系灵活,结构简单灵巧。机由记录头标区、地址目次区、数据字段区、分隔符组成, 结构严谨复杂。 3、著录主体不同:都著录简单明了,创建者和提供者无需培训即可自己进行资源描述。 机著录格式复杂内容严格,对使用者要求高,只有专业编目人员才能使用。 4、著录详简程度不同:都德著录比较简单,只有 15 个元素,在著录过程中可选择可 3 重复课扩展顺序可任意编排。机著录详尽细致,有严格的著录规则。 5、标识方法不同:都直接采用单词或词组进行标识,表达直观语义明确。机字段用 3 位阿拉伯数字标识,子字段用 1 位英文字母或阿拉伯数字标识,不具备语义。 3.3 信息标引的含义和步骤 一、信息标引的含义 信息标引:在分析文献内容的基础上,用某种检索语言将文献主题以及其他有检索 意义的特征标识出来,是文献存储与检索依据的一种文献处理过程。 标引是文献存入检索系统的依据,又是从检索系统中查出文献的依据。 二、信息标引的质量控制 影响信息标引质量的因素很多,包括技术因素和管理因素。 1、标引深度:即标引的全面性,指把一篇文献所论述的各个主题内容提炼出来,给 出检索词并对其进行标引的完善程度,通常指一篇文献被赋予主题词的平均个数。一般 不超过 10 个主题词。该标准是从揭示文献主题内容的广度来衡量标引质量的。主题标引 中,不能仅从字面进行拆分组合,要通过阅读全文确定文献的显性主题和隐形主题。 2、专指度:检索标识表达信息内容的精确程度。从揭示主题概念的精确度来衡量的。 在准确基础上的全面性才是有意义的。主题标引中应选最恰当的主题词,分类标引中应将 其归入最专指的类目。 3、一致性:选用表达文献主题内容所需标引词的一致程度。主题标引时由于标引人员 过多以及标引人员对文献内容认识程度不同,而导致主题标引词过多过少。 三、信息标引的步骤: (一)主题分析 主题分析:弄清文献讨论的中心思想,以确定被标引文献的主题概念。 1、主题类型和结构 主题类型:依据主题数量多少,分为单主题和多主题。单主题:一篇文献只研究一 个事物(对象)或一个事物(对象)的一个或几个方面。多主题:同时研究两个或多个独 立事物(对象)依据主题显露程度,分为显性主题和隐性主题。 主题结构:构成文献主题和各个基本主题的因素以及它们之间的相互关系。文献主题 因素可归纳为五个基本方面:主体因素(文献研究论述的关键性主题概念) 、通用因素(对 主题概念起限制修饰作用) 、位置因素(文献研究的事物(对象)所处的地理位置) 、时间 因素(文献研究的事物(对象)所发生的时间) 、文献类型因素(文集丛书年鉴等) 。 2、主题分析方法 主题分析:对文献的内容特征和外表特征进行分析的过程,内容特征是其根本依据, 外表特征是其辅助依据。方法有两种: 一种是先找出文献论述的对象,再进一步查明是论述了对象哪个方面的具体问题。可 按照事先设定好的主题结构模式提炼相关主题要素,分析主题要素之间关系。主题结构模 式可表述为“主体因素-通用因素 -空间因素-时间因素- 文献类型因素” 另一种是先找出文献所涉及的各种概念,并查明它们之间的相互关系。文献中包含哪 些因素就分析哪些因素,再将各个因素按主体结构模式进行分析。 进行主题分析时要客观全面反映文献固有联系,不能主观臆断标引人员还应考虑 4 到用户的检索需要,分析选定有实际意义的主题概念。 (二)概念转换 概念转换:以主题分析为基础,将确定的主题概念赋予检索标识的过程。 其结果是形成检索标识。分类标引的概念转换依据主题分析的结果,查找分类表, 将相应的分类号作为检索标识赋予被标引的文献。主题标引的概念转换依据主题分析的结 果,查找主题词表,将相应的主题词作为检索标识赋予被标引的文献。 概念转换按复杂度分为两类:直接转换:直接从词表中选出对应的分类号或主题 词即可分解转换:将复杂概念进行分解后选择相应分类号或主题词。 概念转换结束后还要进行标引结果的审核。 3.4 分类标引和主题标引 一、分类标引 分类标引:依据一定的分类检索语言,对文献内容的学科性质及其有检索意义的形式 特征进行分析归纳,赋予文献分类检索标识(分类号)的过程。 目的:揭示文献的内容及形式,以便将同类的文献集中在一起把不同的文献分开,根 据文献的关系,科学组织管理文献。 作用:编制分类目录分类索引,组织分类排架,便于族性检索。 (一) 基本原则 1、学科属性原则:文献分类标引应以文献论述的中心内容的学科属性作为分类的主要 标准,以其他形式特征作为辅助标准。 2、专指性原则:文献分类标引必须符合专指性的要求,将文献分入最恰当的类,而不 能分入大于或小于文献实际内容的类目。要区分总论与专论,一般原理与具体问题。 3、实用性原则:根据读者需要将文献分入最大用途的类。对于交叉学科的文献,应利 用互见分类分拆分类等予以揭示。 4、系统性原则:凡是归入下位类的书必须具有上位类的属性,体现它们的从属关系。 5、一致性原则:将内容相同的文献归入同一个类目,不要分散于有关各类对于难 以确定类属的主题,可建立分类规范文档,人为的将其集中到某类。 (二)各种类型主题文献的分类标引规则 1、单主题文献的分类标引规则:简单对某一事物或问题进行综合论述的文献,应按 事物或问题的学科属性归类从某一学科角度论述某以主题的文献,应按研究角度归入有 关学科类目从几门学科综合论述一个主题的文献,应按论述该主题的主要学科归类。 2、多主题文献的分类标引规则:对各个主题进行分析,分清主次,然后按最能体现 文献内容实质或在内容中起主导作用的主题归类必要时对另外主题作附加分类若文献 论述的几个主题具有同等检索意义,则分别标引。 3、相关关系主题文献的分类标引规则: (1)应用关系:论述理论、方法、技术、材料在某一主题或学科方面的应用的文献, 归入应用的主题或学科所属类目论述理论、方法、技术、材料在多个主题或学科方面应 用的文献,归入理论方法等本身某一事物或学科应用到另一事物或学科产生的交叉学科 主题的文献,归入应用到的事物或学科所属的类目。 (2)影响关系:论述一个主题对另一主题产生影响的文献,归入 被影响主题所属类目论述一个主题对多个主题产生影响的文献,归入产生影响的主题本 身所属类目。 (3)因果关系:一般归入结果方面的主题所属类目若结果是多方面的且能区分重 5 点,归入重点主题所属类目若不能分出重点,归入原因方面的主题所属类目 (4)从属关系:依较大主题的学科属性归类,必要时对次要主题进行分析分类若 较小主题是论述重点,按较小主题的学科属性分类。 (5)两个主题相互比较的文献:按重点论述后所赞同的主题归类,必要时为另一个 主题作互见多主题之间的比较,归入包括这些主题的类组成的概括性类目 (6)并列关系:归入能概括其内容的上位类无共同上位类的,按论述重点所属主 题归重点不明的,按按一个主题的学科属性归类 二、主题标引 主题标引:依据一定的主题词表,对文献内容进行主题分析,赋予语词检索标识的过 程。 意义:以主题词作为文献主题标识和查找依据,有利于族性检索,有利于文献情报工 作的自动化现代化网络化。 (一)选词规则 1、文献主题标引应选用词表中的正式主题词标引,非正式主题词只起指向正式主题词 的作用,本身不得用于标引。 2、文献内容的主题概念在词表中没有相应的最专指主题词时,可选用与其最直接相关 最邻近的主题词进行组配标引。 3、文献内容的主题概念在词表中没有恰当主题词组配,可用一个最直接的上位主题词 进行上位标引,或近义主题词进行靠词标引。 4、新增词应遵循一定原则:应是词形规范概念明确具有较重要检索意义或广泛组配 作用应较成熟稳定具有生命力应是词表中明显漏收的。 5、各类名词主题词可直接作为正式主题词来使用。 (二)组配规则 组配标引:将两个或两个以上主题词按照一定的逻辑关系加以组织以表达文献主题的 标引方法。 1、主题词的组配必须是概念组配不能是字面组配。 2、当表达一个主题概念有多种组配方法可选时,应优先使用交叉组配,只有不能进行 交叉组配的才考虑使用限定组配。 3、应选用与主题关系最邻近最密切的主题词进行组配,不能选择泛指主题词进行越级 组配。 4、主题词组配标引的结果,必须概念清楚确切具有单义性。 5、当一个标题的主题词涉及不同的主题因素时,组配顺序一般为“主体因素-通用因 素-空间因素- 时间因素- 文献类型因素” ;当一个标题中出现多个主体因素时,按对象、方法、 材料、过程、条件进行排列。 (三)主题词组配标引的形式 1、概念交叉组配:同级组配,两个或以上具有概念交叉关系的主题词进行组配,来表 达一个主题内容。表现为同级主题词或事物与事物之间的组配。将要标引的复杂主题概念 分解为若干简单主题概念,且在词表中均有其对应的正式主题词,再将这些主题词组配成 更专指的主题概念。 2、概念限定关系组配:复分组配,由一个表示事物的主题词和另一个或几个表示事物 的部分、属性、方面的主题词组合起来表达一个新专指概念的组配方法。表现为事物与其 各方面的关系,而非事物与事物的关系。 3、连接关系组配:是一种特殊的概念限定关系,指复合主题中主体因素之间具有应用 6 关系、影响关系、因果关系、比较关系、相互关系等。 3.5 自动标引 一、自动标引概括 自动标引:通过计算机的操作处理,赋予检索标识的活动。 分类:标引深度:全文自动标引和题名自动标引从选用标引词:叙词自动标引和 关键词自动标引标引方式:自动赋词标引(标引词来自预先编制的词表而非文献本身) 和自动抽词标引(文献本身中抽词)从标引形成标识:分类自动标引和主题自动标引 二、自动标引方法 (一)统计标引法 统计标引法:各类标引法中历史最长应用范围最广的一种。理论基础是著名的齐夫定 律,建立在较成熟的语言学统计研究成果基础之上,简单易行,具有一定客观性和合理性。 1、词频统计法:该方法认为:一个词在一篇文献中的出现频率是这个词对这篇文章的 重要性的有效测度。根据齐夫定律,将一篇较长文章中出现的词按递减顺序排列,用自然 数这些词编上等级序号,频次最高是 1 级,用 f 表示频次, r 表示等级序号,则有 fr=c( c 为常数) 。卢恩在齐夫定律基础上,提出自动抽词基本思想,将词的出现频率按 等级排列,以一定的标准排除高频词与低频词,剩下的就是最能代表文献主题内容的词。 目前,词频统计法常与其他方法连用。 2、加权标引法: (1)逆文献加权标引法:标引时不仅考虑词在一篇文章中出现的频率,而且考虑在 整个文献集合中文献频率。标引词的权重与出现频率一致,与文献频率成反比。词的 出现频率指词针对文献集合中某篇文献而言,词的文献频率指词针对整个文献集合而言。 一篇特定文献中,特征词的出现频率较高;在一个文献集合中,非特征词的出现频率较 高。 (2)词区分值加权标引法:根据词区分文献的能力确定标引词的权重,标引词的权重 与其区分能力成正比。 逆文献加权标引法和词区分值加权标引法主要依赖于词的频率特征和词的区分能力。 缺点:与用户的跟相关性无关。 (3)词相关性加权标引法:根据检索结果给出的相关性反馈确定标引词的权重。 (4)价值测度加权标引法:还要考虑相应的效率和费用。 词相关性加权标引法和价值测度加权标引法考虑标引词词在特定文献或这个文献集 合中的频率特征标引词在相关文献集合和无关文献集合中的频率特征检索结果的效益 值。 3、n-Gram 标引法:以 n 字符串为统计对象,将其统计得分赋予该串中心字符,然后 选择得分超过特定阀值字符的单词或短语作标引词。原理简单处理容易。 4、统计学习标引法:通过一个学习过程建立标引词与其相关词和不相关词的关系,并 以此为基础确定标引词的标引值。 (二)语言分析标引法 1、句法分析标引法:从语法角度确定每个词的作用(如是主语还是谓语)何词之间的 相互关系(如是修饰还是被修饰) 。一般通过与事先准备好的解析规则或语法相比较而实现。 浅层句法分析:只把句子解析成较小的单元但不揭示这些单元之间的句法关系深层句 7 法分析:充分解析和揭示句子的语法特点和反映的主题内容 2、语义分析标引法:分析词在特定的上下文中的确切含义,以选择与主题含义相同的 标引词。 (三)人工智能标引法 人工智能:计算机科学的一个分支,专门研究怎样用计算机理解和模拟人类特有的智 能系统的活动。 人工智能标引法:在标引中的具体技术是专家系统(又称知识库系统) ,专家系统的知 识表示方法主要有产生式表示法、语义网络表示法、框架表示法。 三、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论