中科大《信息检索》讲义第4讲 主题法与主题标引_第1页
中科大《信息检索》讲义第4讲 主题法与主题标引_第2页
中科大《信息检索》讲义第4讲 主题法与主题标引_第3页
中科大《信息检索》讲义第4讲 主题法与主题标引_第4页
中科大《信息检索》讲义第4讲 主题法与主题标引_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四讲主题法与主题标引一、主题法的概念所谓主题法就是直接以表达文献的语词作为检索标识,以字顺为主要检索途径,并通过参照系统等方法揭示词间关系的标引和检索文献的方法。所谓主题,通常指文献论述的对象,包括事物、问题、现象等。而经过选择,用来表达文献主题的语词,称为主题词。――《文献分类法主题法导论》/马张华,候汉清编著,北京图书馆出版社,1999.7二、主题法的特征:目前各国采用的主题法存在多种形式,但一般都具有如下特征:1.都是以特定的事物、问题、现象,即主题为中心集中图书资料的。主题法不象分类法那样需要受学科体系的限制,而是直接从主题对象的角度揭示图书资料的。2.都是以语词作为检索标识的。3.都是以字顺方式作为主要检索途径的。虽然根据揭示词义关系的需要,主题法也采用范畴、词族等方式组织主题词,但字顺方式始终是它的主要排检依据。4.一般都是通过详尽的参照系统等方式揭示主题词之间的关系的。为克服字顺排列不能揭示主题词之间联系的局限,主题法发展了完备的参照系统,并备有词族索引、范畴索引、轮排索引等多种辅助索引,从而在主题词之间建立起充分的语义联系。5.主要是用来处理文献资料、编制各类检索工具及检索系统的。分类法通常用以组织文献排架和组织分类检索工具;主题法则一般不用于组织图书,只广泛用于组织各种检索工具,不仅可以利用它编制各类供手检使用的书目索引,也可以用来建立计算机检索系统,进行机械检索。三、主题法的类型主题法的类型可以有许多不同的划分方法,按照主题词的选词方式,习惯上可以分为标题法、元词法、叙词法、关键词法;按照其使用时组配的先后,则可以分为先组式主题法和后组式主题法。1.标题法标题法是最早出现的一种主题法类型。它是一种以标题词作为文献主题标识的标引和检索的主题法。所谓标题词,亦称标题,是指经过规范化处理的,用来标引文献的词或词组,通常为比较定型的事物名称。标题法是一种在手工检索工具的基础上发展起来的,采用列举方式的主题法。常见的标题形式除单词标题、词组标题外,还大量采用在词表中预先就组配好了的标题,以及倒置标题,通过这些形式,对一个主题对象的各个方面及特称进行专指标引,并集中相关主题。如《美国国会图书馆标题表》(libraryofcongresssubjectheading)使用以下基本标题:Library(单词标题)Englishliterature(形容词词组标题)Childreninmotionpictures(介词词组标题)LiteratureandScience(连词词组标题)Chemistry,Organic(倒置标题)Referencebooks-Bibliography(复分标题)Cookery(Frozenfood)(带限定词的标题)此外,现代标题表达还通过设置副标题表等方法对标题复分作出规定。如《美国国会图书馆标题表》设有通过复分表以及供特定范畴如人物、种族、团体、人名、地名、河流等使用的复分表,供相应的主题选择使用;同时以示范、举例等方法规定了在有限范围内进行组配的方法。标题法对词间关系的揭示主要通过参照进行。早期主题法中使用的参照形式比较简单,只限于参照和参见两类,用于揭示具有等同关系和相关关系的词汇。标题法作为最早的主题法类型,开创了主题法的最初形式,包括:标题的选择和确定方式、标题的形式、标题间关系的揭示、标题标引过程中组配的使用形式等。标题法作为一种传统的主题法,其特点是:采用列举式词表,形式直观定组式标题结构固定,含义明确按照词表列举的标题和副标题进行标引,操作简便。但采用列举方式,往往造成词表的收词量大、专指度相对不足、修订量大等问题。同时,大量采用定组式标题,只能从规定的组配顺序入手对其查找,无法从多因素、多角度进行检索,是其不足。―――《文献分类法主题法导论》.马张华,侯汉清编著,北京图书馆出版社,1999.7简单地说,标题法的标题词、副标题词是固定的,组配方式也是固定的。著名的理工科检索工具:工程索引1993年以前使用的词表就是标题词表SubjectheadingofEngineering,其结构简单,含有主标题表和一个副标题表。2.元词法元词法是随着文献数量剧增,文献主题日益复杂的情况下为克服标题法的不足发展起来的主题法类型。它是一种以元词作为主题标识,通过字面组配的方式表达文献主题的主题法。所谓元词法,是指用来标引文献主题的、最基本的、字面上不能再分的语词。如“化学”和“经济”就属于元词。而“文献分类”和“主题标引”则可进一步分解成“文献”、“分类”、“主题”、“标引”四个元词。a元词法的使用例:化学文献检索在主题法发展过程中,元词法率先探索了后组式检索方法,是后组式检索语言的先驱。元词法使用的反记方法是目前机械检索系统中倒排档的先声,后来为叙词法所采用。元词法目前已为叙词法所取代。(今全文检索系统采用的是字面组配的方法)3.叙词法叙词法是以从自然语言中精选出来的、经过严格处理的语词作为文献主题标识,通过概念组配的方式表达文献主题的主题法类型。所谓叙词,国内亦称为主题词,是经规范化处理的,以基本概念为基础的表达文献主题的词或词组。叙词法形成于50年代末,是在吸取元词法、标题法及全面组配式分类法等的优点基础上发展起来的。其后,随着计算机的应用,叙词表的编制迅速发展,使叙词成为受控检索的主要语种。到目前为止,国外的叙词表数量不少于千种,我国叙词表也已超过130种,成为检索语言的主流。叙词法与元词法的不同,主要是在吸收元词法的组配方式的同时,采用概念组配代替字面组配。概念组配与字面组配虽然都是通过语词表达文献主题的,但两者存在以下不同:其一,语词的形式不同。元词法以字面上不能再分的语词为标识单元,容易影响其对文献主题内容的确切表达;叙词法以表达基本概念的语词为标识,既收元词,又收词组,对主题的表达更加准确。例如,在标引“猎户星座”这一主题时,元词法使用“猎户”、“星座”两个单元词组配,将内容标入概念上没有联系的标识。叙词法则可直接使用“猎户星座”一词标引。又如,标引“工业仪表”这一主题时,元词法使用“工业”、“仪表”两词组配,会出现工业仪表、仪表工业两种含义。而叙词法可直接以“工业仪表”进行标引。其二,组配的依据不同。元词法按照字面组配的方式对复合主题分析和相加,方法简单,容易使标引结果一致,但往往会影响对概念的准确揭示;叙词法则依据概念关系对复合主题进行分析和组配,严格按照逻辑关系加以处理,对主题的揭示比较确切。如“生物物理学”这一主题,按照字面组配可采用“生物”和“物理学”加以组配,而依据概念组配,则应使用该主题构成的概念单元,以“生物学”和“物理学”进行组配,显然后者远比元词法的表达更确切。a轮排索引化学文献检索化学文献,文献检索001…..文献检索,化学文献001……b叙词法采用组配方法,集多种检索语言的功能于一身,使其成为一种性能优越的现代检索语言,其特点如下:组配准确,标引能力强。叙词语言遵循概念组配的原则,避免了字面组配容易出现的误差和失真,从而能准确、专指地标引和揭示文献主题内容。结构完备,词汇控制严格。通过参照系统和各种索引,可以根据检索系统的需要对词汇进行有效的控制。《汉语主题词表》叙词款目样例..Nongyezhengce农业政策05BAgriculturalPolicyD农业方针政策(UF外文词表)F副业政策粮食政策土地政策畜牧业政策渔业政策S经济上位词Z政策族首词(TT)C农村经济农业法令相关词(Seealso)农业发展路线NongYeFangZhenZhengce农业方针政策05B---范围号AgriculturalProgramandPolicyY农业政策(Use)(用)适合多途径检索,检索效率高。灵活线配方式以及对词间联系的充分揭示有利于满足多种检索要求,达到较好的检索效果。对检索系统的适应性强。叙词语言可以同时适用于标识单元和文献单元检索方式,既能较好适应计算机检索系统的要求,又能适应于手工检索系统的需要。例:化学文献检索c.叙词法的不足:(1)词汇控制要求严格,词表编制和管理的难度大,需要花费较多的人力、物力;(2)文献标引须在概念分析的基础上进行,标引规则较复杂,标引难度大,速度慢;(3)用户难以熟悉词表及标引规则,给使用带来不便。我国目前使用最广泛的叙词表为《汉语主题词表》。4.关键词法关键词法是随着计算机的出现,为适应索引编制自动化的需要而产生的主题法类型。这是一种直接以自然语言中未经控制或只作少量控制的语词为文献主题标识,通过关键词轮排的方式(手工检索才需轮排)揭示文献主题的主题法。直接从文献的题名、文摘或正文中抽取出来,具有检索意义的语词被称主关键词。a关键词语言的应用(1)题内关键词《小学中弱智儿童的游戏疗法》法/小学中弱智儿童的游戏疗3000(文献号)小学中弱智儿童的游戏疗法3000儿童的游戏疗法/小学中弱智3000游戏疗法小学中弱智儿童的3000弱智儿童的游戏疗法/小学中3000↑(检索入口)(2)题外关键词索引弱智小学中**儿童的游戏疗法3000(文献号)儿童小学中弱智**的游戏疗法3000..疗法小学中弱智儿童的游戏**3000………游戏小学中弱智儿童的**疗法3000(3)纯关键词索引弱智儿童疗法小学3000(关键词轮排)轮排(4)双重关键词索引弱智儿童的游戏疗法/小学中弱智3000疗法/小学中弱智儿童的游戏3000...儿童弱智儿童的游戏疗法/小学中3000...(5)词对式关键词索引儿童弱智弱智3000儿童3000儿童疗法3000儿童小学3000儿童游戏3000(关键词轮排)四、作为应用层面的标引规则应选择与主题概念最相对应的最专指的词标引文献或检索提问,如果没有相应的主题词可用其上位词标引。如:a、计算机辅助设计电子计算机-辅助-设计电子计算机-辅助设计b、回族史回族-民族史而不是回族-历史c、国际贸易地理国际贸易-商业地理d、水下慢速特技摄影如果需要查找主题词表:水下慢速摄影、水下特技摄影水下摄影、慢速特技摄影或特技摄影水下慢速摄影或慢速摄影、水下特技摄影水下摄影、慢速摄影、特技摄影地名、人名、机构名、著作名可以在需时直接用作主题词主题标引的组配规则:将两个或两个以上主题词按照一定的逻辑关系结合在一起,表达文献主题或表达检索需求,成为组配标引。组配标引是对文献进行主题标引时采用的一种基本标引方式。按照概念之间的逻辑关系,概念组配主要包括两种类型:交叉组配和限定组配交叉组配是指选用若干个具有交叉关系的主题词进行组配,表达一个符合的子概念。如:a、动物遗传学标引为:动物学:遗传学b、塑料贴面挤压刨花墙板标引为:塑料贴面板:挤压刨花板:墙板限定组配是以表示事物的主题词和表示事物特称、属性、方面的主题词进行组配,表示一个新的专指概念。限定组配通常以符号“――”或“,”表示。其范围较广,包括下述类型:特称限定组配。表示一事物与它的部分概念之间的组配机车发电机标引为:机车-发电机直升飞机螺旋桨标引为:直升飞机-螺旋桨方面限定组配。表示一事物与其方面概念之间的组配。包括:材料、性质、现象状态、工艺、理论、地区、时代、文献类型etc.铝金属板标引为:铝-金属板北京园林建筑标引为:园林建筑-北京说明语限定组配。通常用于对事物作补充说明,表示事物的性质、特征等有色金属车间车间,有色金属天然气燃料汽车汽车,用天然气燃料的联结主题和复合主题。用来表示两个以上主题概念的联系的组配方式联结主题,亦叫相关系主题,指同时涉及两个主题对象之间联系的一种主题类型。在这类主题中,不同主题对象之间的关系比较松散,不像一般复合主题概念那样已经融合成一个整体,且形成一定的关系类型,是一种介于单主题与多主题之间的主题类型。常见的关系类型有:应用关系,如:计算机在拓扑学中的应用,运筹学在轻工业中的应用等影响关系,如:气候对农业生产的影响,中国文化对日本的影响因果关系,如:气候变迁的原因倾向关系,如:土木工程人员使用的物理学供社会科学研究使用的数学方法复合主题:两个或多个基本主题概念结合构成的主题类型水生木本植物水生植物-木本植物图书馆藏书管理图书馆管理-藏书管理铝合金材料铝合金-合金材料计算机外部设备计算机设备-外部设备主题的类型:单元主题、复合主题、联结主题联结组配:用来表示两个以上主题概念的联系的组配方式气候对农业的影响气候-影响-农业图书馆学与情报学的关系图书馆学-关系-情报学组配标引时,一般应遵循的原则:主题词的组配必须时概念的组配,而不是字面组配。参加组配的叙词之间必须符合一定的逻辑关系,而不是简单的字面拆分或词语组合。(用于全文检索或具有模糊匹配的标题检索)主题词的组配应优先采用交叉组配,在不能选用相应主题词进行交叉组配时,才选用限定组配(第一条规则的延伸)植物生态学植物学-生态学柴油机维修柴油机-维修主题词的组配必须选用与文献主题关系最密切、最邻近的主题词飞机结构设计飞机-结构-设计飞机结构-设计飞机-结构设计飞机结构-结构设计海底采煤机械海底采煤-采煤机械海底采矿设备-采煤机械主题词的组配不能越级进行。即在可以使用相应专指主题词组配时,不得使用该词的上位词或下位词进行组配海洋地貌学考察海洋地貌学-考察海岸地貌学-考察地貌学-考察对并列多主题文献,可采用按各主题分组组配的方式黄土高原森林与草原的变迁森林-变迁-黄土高原草原-变迁-黄土高原分两次检索检索两组文献五、各种主题类型的标引各种主题类型的标引传记文艺文献的主题标引传记以研究特定认为生平活动为主要内容的传记书籍,一般以认为名称和写作形式进行组配标引。《爱因斯坦》爱因斯坦,A,(1879-1955)-传记《老舍年谱》老舍-年谱侧重以某一学科专业或历史事件角度研究或记载某一人物的文献,应同时从人物名称及学科或事件角度进行组配标引。《西安事变与周恩来》西安事变-回忆录周恩来-生平事迹《陶行知一生》陶行知-生平事迹教育思想-中国-近代多人合传。人数不多时,可分别对被传人进行分析标引,人数过多时一般只作综合标引《现代西方哲学家评述》哲学家-人物研究-现代《中国古代十大教育家》教育家-生平事迹-中国古代(句法)文艺文献以文艺为研究对象的文献时探索文艺规律的著作,包括文艺理论、文学史、文艺评论和艺术史。应该按文献论述的内容对象加以标引《文学与现实生活》文学-关系-现实生活《八十年代文学现象研究》当代文学-文学研究-中国-1980-1989《张爱玲小说中的。。。。。。》张爱玲-小说评论-中国-现代文艺作品不同于科学著作,一般均按作品的体裁、国别、时代进行标引。和分类标引相同,文学作品对国别、时代的标引以作者所属的国别、时代为准,不依作品所反映的国别、时代为依据。《暮鼓晨钟》长篇小说-中国-现代历史小说-中国-现代康熙-历史小说对以特定人物、历史事件为记载对象的写实文学形式,如报告文学,回忆录以及民间传说等,除应以体裁、国别、时代标引外,还应同时以记载对象的角度进行主题标引《大海:记朱德同志》报告文学-中国-现代朱德-生平事迹《冠军的路》报告文学-中国-限定优秀运动员-生平事迹-中国-现代《郑板桥的传说》民间故事-历史人物-中国郑板桥-生平事迹六、自然语言与自由标引在检索系统中有四种词汇控制的方法在标引与检索阶段均对词汇进行控制――受控语言在标引阶段对词汇进行控制,但在检索阶段不予控制,由计算机检索系统把用户所用的自然语言词汇转换为情报检索语言(即规范化词汇)在标引与检索阶段均不实施控制,用自然语言输入,用自然语言输出,“这种纯自然语言检索,如果说不是不可能的,也将是低水平的。”――张琪玉《情报学基础》在标引阶段不实施任何控制,但在检索阶段实施不严格的控制。这种方式兼有自然语言与常规受控词的许多优点,为自然语言检索系统所采用。自由标引是一种不依据词表、由标引员根据文献内容自主拟词标引的方法。就本质上说,自由标引是一种介于受控主题标引与自然语言标引之间的标引方法。其类型有:关键词自由标引(仿关键词自由标引)叙词自由标引(仿叙词自由标引)标题词自由标引(仿标题词自由标引)短句自由标引叙词自由标引为大多数数据检索系统所采用。标引规则如前所述,用词可直接根据文献内容,不查词表。《江苏纪念毛泽东诞辰100周年活动》的报道,用上述四种标引方法可标引为:仿关键词江苏/纪念/毛泽东/诞辰/100周年仿叙词毛泽东诞辰/纪念活动/江苏仿标题词毛泽东-纪念活动-江苏短句自由标引毛泽东诞辰100周年/江苏七、分类法与主题法的主要异同点所谓分类法是一种按知识门类的逻辑次序,从总到分,从一般到具体,从低级到高级,从简单到复杂,按层层划分,逐级展开的分门别类的层累制的码号检索体系。所谓主题法是文献处理工作中使用的一种不同于分类法的揭示和组织文献资料的方法。或者说是一种以描述为其基本特征的文献检索语言类型。它用代表事物名称或概念的名词术语作为标识,来直接表达文献的内容所涉及的或反映的主题,并将全部标识按字顺排列,组织成具有特性检索功能的查寻工具。可见,分类法和主题法都是从文献内容角度标识来查寻文献的检索方法。它们之间既有相同点,又有不同点。(一)分类法与主题法的相同点1.分类法和主题法的出发点都是主题。首先分析分类表和主题词表的构成成分。主题词表(包括标题表、元词表、叙词表等)全是由主题组成。至于分类表,即使是列举式的分类表,它的第一、二级大类(有时还包括第三级大类)基本上是按照习惯的学科或行业划分而形成的类目,这些类目大部分都是知识部门、学科或科目。但是,除此以外的三级以下的类目几乎全是大大小小的主题。可见,分类法和主题法类集的内容是相同的,基本上都是主题。在英文里,subject既表示主题,又表示学科分类法和主题法,都叫做主题途径(SubjectApproach)。无论是用分类法和主题法标引还是检索,都必须首先要对文献或提问进行主题分析,把文献的中心内容或中心考虑(指检索需求)的问题变成一个清晰的概念,用确切的语词表达出来,这就是主题。可见分类法和主题法的出发点是相同的,都是从文献主题出发的。2.类名和主题词的实质是相同的。我们通过比较分类法和主题法(包括标题法、元词法、叙词法等)的基本单元—-类名和主题词,窥一斑可知全貌。任何情报检索的方法都要与类----这种或那种文献类集(或文献类)打交道。我们标引任何文献,就是把这篇文献归入一个或多个文献类集之中去。为了便于文献归类,并便于以后对这些文献类集进行处理,我们必须给每个文献类集命名。给这些文献类集所起的名称就叫做类名,或叫主题词。把一整套类名或主题词分别按字或某种学科体系组织起来,并配上一定的标识符号、参照、说明及其它辅助设施,并规定一定的使用规则,就形成了分类检索语言和主题检索语言。从上述对建立两种检索语言过程的简单描述,可以看出类名和主题词没有什么本质上的区别,都是代表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论