信息组织主题法_第1页
信息组织主题法_第2页
信息组织主题法_第3页
信息组织主题法_第4页
信息组织主题法_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、二、信息的控制2、5 信息组织的主题方法1一、主题法主题法 即主题检索语言。是指以表达主题内容的词语作检索标识, 以字顺为检索途径的一种标引和检索信息资源的方法。2主题法的特征1、以特定的事物、问题、现象,即以主题为中心集中信息资源;2、以字顺为主要检索途径;3、通过参照系统等方式揭示主题词之间的关系。4、主题法的基础同样是概念逻辑和知识分类,在应用知识分类方面主要是应用事物分类原理。3主题法的特点可以集中与主题有关的各个方面的信息资源,检索直接性、通用性好,适合于各种专指检索。在性能上与分类法互补。主题法通常不用于组织图书,只广泛用于组织各种检索工具,不仅可以编制用于手工检索的书目索引,也可

2、以用来建立计算机检索系统,进行机检。4先组式语言表达复杂、专深概念的标识基本上预先(一一例举出来)构造好,标识时不需要或基本不需要组配操作的一种检索语言。如: 等级体系分类语言(体系分类法) 标题词语言(标题法)5后组式语言在标引和检索的过程中,为表达复杂、专深的概念,需要将简单、宽泛概念的标识进行组配操作的检索语言,如:组配分类法单元词法叙词法6主题检索语言的特点用自然语言中的名词术语经过规范化后直接作为信息主题标识。用字顺序列排列标识,易于检索。具有按主题集中信息的功能。用参照系统显示信息间的关系,但系统性不如分类语言。较接近自然语言,易与自然语言结合使用。7标题词语言属于先组式语言。单元

3、词语言和叙词语言属于后组式语言。关键词语言通常也归入主题检索语言类,但实际上是直接使用自然语言的一种方法,对取自文献的语词几乎不做规范化处理,也不显示主题概念之间的关系,是一种准检索语言。8主题法类型 按照选择的词汇 按照组配先后 按照是否控制标题法 先组式 受控元词法 后组式 早期为非受控叙词法关键词法 后组式或散组式 后组式 受控 非控9自第一部标准的标题表美国国会图书馆标题表1909年诞生以来,主题描述语言已有近百年的历史。近百年来,主题语言经历了从标题法到元词法、叙词法、关键词法的演变过程。其发展趋势是从先组式语言向后组式语言发展,从例举式语言向组配式语言发展,从人工操作向自动处理发展

4、,从受控语言向规范化语言与自然语言并用发展。(重点)101、标题法标题法是最早产生的一种主题语言。标题法是用规范化了的自然语言(标题),即经过标准化处理的名词术语作为标识,按照字顺排列来标引和检索信息所涉及的事物主题的方法。标题词也称标题,是指经过词汇控制,用来标引文献的词或词组,通常为比较定型的事物名称,如“信息资源”、“信息存储”等。11标题法主要通过参照的方式来揭示标题词之间的联系。早期的参照形式主要有参照、参见参照两种。参照 等同关系参见参照 相关关系12标题法的性质:直观性(采用列举式词表)受控性(定组式标题结构固定,含义明确)语义关联性(以参照方式对词汇进行控制,揭示标题之间的相关

5、性)13标题表的不足1、采用列举方式,往往造成收词量大、专指度不足、修订量大灯问题。2、大量使用定组式标题影响 从多因素、多角度检索。14标题词选词的原则:具有检索意义适当的专指度通用性和准确性唯一性15标题表的结构和作用:16标题表的作用:1、登陆经过控制的标题(正式标题)和非标题(非正式标题)2、不仅按字顺组织标题、非标题,而且参照系统显示了标题之间以及非标题和标题之间的关系,便于查找和准确选用标题。3、注释和说明提供标引和检索使用标题的方法。4、体现标题控制的原则,提供标题控制的示范。17标题词款目的结构举例:标题 Reference Books标识 z 711 (注:对应标题的分类号)

6、注释 UF Bibliography-Reference Books Books, Reference Books Libraries-Reference Books Reference Books, English参照 BT Bibliography Books and reading副标题 NT Bibliography-Best Books Childrens Reference Books 18标题法主题法的开拓者标题法开创了主题法的最初形式,率先探索了词汇控制等一系列方法,如:制定了标题的选择原则规定了标题的形式标题之间关系的揭示标题标引过程的组配方法等。19二、元词法信息资源的数量

7、剧增,信息资源主题的日益专指,使标题法作为列举式主题法已经难以满足对信息资源的标引和检索,元词法就是为克服标题法的不足而发展起来的一种主题方法。元词法是以元词作为主题标识,通过字面组配的方式表达信息资源主题的主题法。20元词法脱胎于标题法,是对先组式的标题法改进而出现的,是一种后组式语言。目前,元词法已发展成为叙词法。元词法原理:任何一个复合概念都可以分解为若干单元概念,而每个单元概念只需一个单元词来表示。21元词指最小、最基本的词汇单位,在概念上不能再拆分的词,“车床”、“铁路”等。若干元词的组合构成一个专指标识,精确地表达信息主题或检索课题。如:“隔音板”,由“隔音”“板”两个单元词构成,

8、“塑料隔音板”由三个单元词构成。22在使用元词的情况下,对复合主题资源的标引和检索是通过元词的组配进行的。如:“经济文献检索”这一主题,即必须通过“经济”、“文献”、“检索”三个单元词进行标引。23单元词法的特点:它的标题是后组式的,它的一些优点都是由此决定的。1、词表体积小。早期的元词系统属于自然语言系统,一般不建立词表,直接从文献选词,但随着使用,后期的元词系统也编制相应的词表。242、标引的专指度高。3、便于从不同主题词角度检索。4、适合对专指主题进行标引。25元词法的不足1、直接性差。2、不宜于查找基本主题的信息,如“经济”、“化学”。3、采用字面组配方法,当字面分解不一致时造成误差。

9、4、早期的元词法不建立参照系统,无法进行相关信息查询。26元词法的主要贡献是在主题法的发展中率先探索了后组式的检索方法。元词法目前已经被叙词法所取代。27三、叙词法叙词法形成于20世纪50年代末,是在吸取元词法、标题法、以及分面组配分类法等知识组织方法优点的基础上发展起来的。1959年叙美国杜邦公司编制了第一部叙词表,其后发展迅速,到目前为止,国外叙词表已超过2000多种,国内超过130多种。28叙词是我国70年代引进的意译外来词,叙词(Descriptor),也称描述词、叙述词。它是一些以概念为基础的,经过规范化达到具有组配性能、显示词间语义关系的词和词组。是描述文献资料主题的一种标识符号。

10、29叙词语言对其他检索语言技术的吸收 其他检索语言 技术 叙词语言技术体系分类法学科分类等级结构范畴索引词族索引词汇分类表分面分类语言分面组配概念组配词汇分面分类表标题语言元词语言关键词语言先组见参照;参见参照字面组配完全后组反记法轮排技术适当先组用、代、属、分、参照概念组配基本后组倒排挡轮排索301964年,航空工业部情报系统编制了我国建国后第一部标题词型主题词表航空科技资料主题表.1971年 修订再版,收录正式叙词4330个,非正式叙词99个。311975-1980年,由中国科技情报所和北京图书馆编制的汉语主题词表完成,收词108568个,其中正式叙词91158个,非正式叙词17410个,

11、是我国也是世界上规模最大的叙词表之一。叙词表已成为受控主题语言的主流。我国使用最广泛的是汉语主题词表。3233主题词分类号对应表3435分类号主题词对应表3637叙词表是将文献、标引人员或用户的自然语言转换成规范语言的一种术语控制工具;它是概括各门或某一学科领域并由语义相关、族性相关的术语组成的可以不断补充的规范化的词表。38叙词法是一种用规范化的单元概念标引文献主题的方法,概念的组配可以在标引和检索时任意组配,是后组式检索语言。叙词语言要求一个概念只能用一个词表达。为此,叙词表中进行的人工规范有:39选词原则:1、依据标引和检索的实际需要,并考虑学科或专业领域的现状及发展。选定的词语,应是在

12、文献检索中具有一定的使用频率、并能汇集一定文献量的名词术语。对表达新事物、新兴学科、新技术的词汇应根据实际需要,结合其发展情况加以选用。402、选定的语词要概念明确,一词一义,能准确地表达文献主题和检索提问。对于自然语言中的同型异义词、多义词一般不选用。在切实需要时,则应通过限定的方法加以使用。413、语词的选择应符合叙词概念组配的特点,收词时应收入一定数量的具有造词功能的词和词组。424、选定的词应符合汉语的构词特点,尽量选用便于字面成族的词。43词汇规范:1、词义规范:对同义词、准同义词、近义词、不同译名、学名以及俗名等加以规范,只能用一个规范化的词作叙词。2、词类规范:虚词不能做叙词,实

13、词中选名词、动名词做叙词。3、词形规范:包括叙词(正叙与倒叙),简称与全称,书写繁简体、标点符号等。444、组配规范:必须是概念与概念的组配,不能是字面上的组配。 5、语义关联:对自然语言里存在的各种语义关系进行辨别,如:同义、属种、交叉、相关关系等,用一系列符号标示出来。45叙词语言对语义关系的揭示方法(叙词的语义参照系统)语义参照关系 参照项 中文符号 英文符号 作用等同关系 用 代 Y D USE UF 从非叙词指引到叙词从叙词指引到非叙词等级关系 属 分 族 S F Z BT NT TT从下位叙词指引到上位叙词从上位叙词指引到下位叙词从下位叙词指引到最高位叙词。相关关系 参 C RT从

14、某一叙词指出其相关叙词4647语义关系(1、等同关系)也称同一关系、用代关系。指叙词与含义相同或相近、可以相互替代的语词之间的关系。揭示等同关系的作用,可以增加检索入口和根据检索系统需要对标引、检索的专指度进行控制。通常用于同义词或准同义词之间,一般应有参照和反参照.例: 全球环境 地球环境 D地球环境 Y全球环境 数据处理 数据处理系统 D数据处理系统 Y数据处理482、等级关系:指上位概念叙词与下位概念叙词之间的关系,也称属分关系、族关系。揭示等级关系有助于扩大或缩小查找范围,提高族性检索能力。等级关系主要用于下述三种叙词之间:1、具有种属关系的叙词之间例: 电子侦察 F 电视侦查 雷达侦

15、查 通信侦查492、用于具有整部关系的叙词之间。整部关系不构成种属关系,但也可以在一定程度上揭示事物之间的联系。(1)地理位置中的整部关系:例: 西欧 F 爱尔兰 比利时 法国 英国 S 欧洲50(2)人体系统与器官的整部关系 例: 中枢神经系统 F 脊髓 脑 S 神经系统51(3)组织机构及其分支机构的整部关系例: 联合国 F 国际法院 联合国安全理事会 联合国大会 联合国秘书处.523、相关关系只在正式主题词之间进行,二者互为参照。揭示相关关系有助于扩大检索范围,进行相关资料的查找。(1)近义相关的叙词之间 例:初等教育 C 儿童教育 (2)交叉关系的叙词之间 例: 对外贸易 C 国际贸易

16、(3)反对或矛盾关系 例: 民主 C 集中53(4)因果关系 例:科学研究 C科学发明(5)事物与对应工具的叙词之间 例: 害虫 C 杀虫剂相关关系类型很多,很难完整例举。通常只有一词“作为标引词与另一词具有较强的提示作用时”,才作为相关关系处理。54字顺表(主表。由众多的叙词款目和非叙词款目按字顺排列)Shengchan Ziben 汉语拼音叙词 生产资本 05CD 范畴号Productive Capital 英文对应词 代项 D 生产资本的循环 非叙词 F 不变资本 固定资本 可变资本 下位词 流动资本 属项 S 产业资本 上位词 族项 Z 资本 下位词 参项 C 货币资本 商品资本 相关

17、词55叙词表的不足:对词表的编制和管理的要求高,需花费较多的人力和物力;文献标引须在概念分析的基础上进行,增加了标引的难度。56自然语言标引与检索直接使用不经过控制的自然语言中的语词作标识,进行信息资源的标引与检索。20世纪50年代后期美国的卢恩等人首先将计算机用于关键词索引的编制后,各种直接以自然语言为标识的检索系统也随之出现。这种检索系统以各种电子文本为基础,一般不对词汇进行控制,因此处理的成本低、速度快,目前已成为主要的检索方式。57关键词是适应目录索引编制过程的自动化的需要而产生的,也属于主题词法。不同的是,关键词法基本上不作(或极少量)规范化处理。58关键词语言的原理:1、直接抽取文

18、献中或题名中的语词作标识,对做标识的词不加规范或做少量规范。题名是关键词的主要来源。2、不编制受控词表进行词汇控制,不显示词与词之间的关系,只是编制禁用词表(非关键词,如介词、连词、冠词、感叹词、代词、形容词、副词等)控制抽词。593、每个关键词都是平等的,都按字顺轮排至检索位置,提供多途径的主题字顺检索。60关键词语言的性能:作为标引语言和检索语言质量比较差,原因:1、漏检采用自然语言作关键词,对自然语言中大量存在的等同关系词不加规范统一,也不显示等同关系,使相同主题文献常因作者用词的不同而被分排各处,导致漏检。2、不显示词间的等级关系和相关关系,难以进行族性检索,查全率不高。613、多从标

19、题中抽取,一些标题对文献内容表达不充分,漏检、误检。4、在机编索引的情况下,由于机械地抽词和轮排,不少关键词款目不起检索作用而徒增检索篇幅。62关键词得以很好应用的原因:1、标引无须主题分析、查表,简便易行,降低对标引人员的要求,节省大量人力。2、易于实现自动化,缩短检索系统信息组织和报道的时差,保证信息报道和传递的及时性。3、使用文献中的自然语言,表达主题比较直观,可以保证较高的查准率。63关键词语言的类型:1)题内关键词索引(keyword in context index,KWIC): 中的应用/ 超文本技术在网络资源组织 3456应用/超文本 技术在网络资源组织 3456超文本技术在

20、网络资源组织中的应用/ 3456本技术在网络 资源组织中的应用/ 超文 3456术在网络资源 组织中的应用/超文本技 3456资源组织中的 应用/超文本技术在网络 345664题外关键词索引( keyword out context index,KW0C )超文本 * * * 技术在网络资源组织中的应用 3456技术 超文本 * *在网络资源组织中的应用 3456网络 超文本 技术在* * 资源组织中的应用 3456资源超文本 技术在网络* * 组织中的应用 3456组织超文本 技术在网络资源* * 中的应用 3456 应用超文本 技术在网络资源组织中的* * 3456 65双重关键词索引(与

21、的结合形式)超文本中的应用超文本技术在网络资源组织 3456 应用 / 超文本技术在网络资源组织中的 3456 超文本技术在网络资源组织中的应用 / 3456 本技术在网络资源组织中的作用 / 超文 3456技术 中的应用超文本技术在网络资源组织 3456 应用 / 超文本技术在网络资源组织中的 3456 超文本技术在网络资源组织中的应用 / 3456 本技术在网络资源组织中的作用 / 超文 3456 66自动标引的研究始于20世纪50年代后期。90年代后,开始了对因特网信息资源的自动标引研究。我国对自动标引的关注始于20世纪60年代。从1963年开始介绍国外研究情况。80年代初,开始了自动标

22、引的研究。自动主题标引671、自动抽词标引1) 绝对频率法:由计算机程序将文本与词表对照,除去冠词、介词、连词等词类,统计出一文中词语出现的频率,按词语的频率排序。排在最前面的是“高频词”,可作“标引词”。 682) 相对频率法:当某个词或短语在一资源中出现的频率高于它在整个数据库中出现的比率时,这个词或短语就可以被选作标引词。如:某个词在含有10 000 000个词的数据库中之出现了大约5次,但在一篇5000字的文章中只出现了一次,但其频率为1/5000,高于它在整个数据库中出现的频率1/2000 000,所以这个词可以作为该文献的标引词。692、自动赋词标引1) 基于关联词表的自动赋词标引

23、:首先为受控词表中的每一个叙词建立一个关联词表,例如对于“酸雨”可建立一个酸沉淀物、空气污染、二硫化物等一个关联词表。标引时,利用计算机根据词频法从文献中抽取出来的重要词语与受控词表的关联词表进行匹配,当某个叙词的关联词表与之匹配超过一定的阈值时,就将这个叙词赋予这篇文献。702)基于中介词典的自动赋词标引: 在进行标引时,使用一个中介词典,与文献中的词进行匹配,同时将中介词典的词与某一个主题词表的词进行对应,这样通过中介词典,就可以将文本词指向受控词表中的词。中介词典的覆盖面比较小,一般会局限于某一特定学科领域。71数字化信息资源的组织与非数字化信息资源相比,数字化信息资源出现了许多变化:数

24、据方面 1、分布式数据 2、动态数据 3、大数据量 4、无结构和冗余数据 5、数据质量参差不起 6、异质数据72用户方面 用户成分逐渐多样化、复杂化,不同年龄、不同行业、不同文化程度的人都可以通过计算机利用网络信息资源。传统的高度专业化、规范化的信息资源组织方式已经不适合当今的要求。73数字化信息资源有着自身特点的组织方法,但分类法、主题法仍然是数字化信息资源的基本组织方法(从语义角度)。74数字化信息资源组织涉及的方法元数据主题信息网关网络资源指南文件数据库信息构建751、主题信息网关(Subject Based Information Gateways)近些年来,信息资源管理领域借助传统的

25、信息组织方法结合计算机技术和网络技术等,研制了主题信息网关。主题信息网关的目的是按学科(或专题)对网上信息资源进行组织,建立学科领域的导航工具,以帮助用户更容易地检索到本领域高质量的网上资源。76主题信息网关都是按特定目标用户群的需要而建立的。主题信息网关针对特定用户精选、分类、标引、评价信息资源,组织的对象是某一学科(或主题)的研究机构、实验室、电子图书、电子期刊、电子报纸、数据库、会议论坛、专家学者、科技报告等信息资源的线索。77主题信息网关的组织方式主要是“主题树”方式和数据库方式。用户访问某一主题网关时,通过激活超级链接就可以浏览到大量与本学科相关的资料。这种“看不见的网络”站点能提供

26、更专门、更专深的数据库检索,还能提供更严谨的字段查询检索和概念检索。主题树78主题信息网关的分类主要按设计的学科范围分:1、综合性的(WWW虚拟图书馆)2、若干个学科的(如社会科学信息网关)3、某一学科的(如爱丁堡大学工程虚拟图书馆)4、仅限于某一主题领域的(如全球硅信息服务网)79主题信息网关的建立1、采集(利用搜索引擎对分散于因特网上的该学科信息资源进行采集)2、资源描述(包括元数据、简介、评价)3、审校(更正、删除错误数据,确定数据的发布等级)4、资源排序,主要有以下四种方法: 1)按学科专业排 2)按资源名称的字顺排 3)按资源的类型排 4)混合排序802、网络资源指南(数字化信息资源

27、的序化)数字化信息资源序化的具体方法主要有网络资源指南、搜索引擎、数据库、文件等。1994以后,以主题检索为主要方法的搜索引擎异军突起,但单纯的自然语言检索常常提供不相干的信息,因此搜索引擎开始注意如何提高信息搜集的质量问题,在这一过程中,人工语言,特别是分类语言和主题语言越来越受到重视。81数字化信息资源序化的发展方向就是分类主题一体化,即对数字化信息资源进行分类整序,也对其进行关键词字顺整序。网络资源指南的资料库中不保存网页,而是保存各网站的站名、网址和内容提要。82网络资源指南分类体系构建的基本方法网络资源指南是一个由查询界面、类目体系、各级类目及链接的网络信息、网络信息搜索及标引技术、索引数据库等组成的整体。其中类目体系、各级类目及链接的网络信息是分类法部分。83网络资源指南的主要问题分类体系与方法不尽合理 编制者都不是长期从事科学分类的专家,使得网络分类体系缺少检索语言理论的指导,具体为: 分类大纲设置不够科学、 类名不规范、 类名用语模糊、 类目排列不合理、 分类缺少提示、 重复列类、 层次不尽合理等。84解决的方法:用传统的分类法和主题法指导网络资源指南

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论