




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第3章 信息著录和标引,本章主要内容:,3.1 信息著录的含义和标准 3.2 机读目录与元数据 3.3 信息标引的含义与步骤 3.4 分类标引与主题标引 3.5 自动标引,3.1,著 录 的 含 义 和 标 准,3.1.1 含义及作用 3.1.2 标准,关键词:著录、对象、款目、基本要求、作用, 什么是著录法 著录标准的发展(略) 文献著录总则,著录项目 著录项目的特点 著录等级 著录格式,3.2,3.2.1 机读目录 3.2.2 元数据,机读目录概述:概念、产生与发展 格式特点 CNMARC的记录结构 MARC的发展,元数据的作用 都柏林核心元数据DC DC的修
2、饰词 DC实例 其他元数据规范 DC与MARC的比较,内容描述 外形描述 知识产权,机读目录与元数据,头标区 目次区 数据区 实例,修饰词的含义 类型:元素修饰词和编码体系修饰词,3.3,3.3.1 含义与质量控制 3.3.2 步骤, 含义 标引的不同方式 质量控制, 主题分析 概念转换,主题的类型与结构 主题分析的方法,信息标引的含义与步骤,3.4, 基本原则(5个原则) 不同类型主题的分类标引的规则, 选词规则 组配规则 主题词组配标引的形
3、式,分类标引与主题标引,3.4.1 分类标引 3.4.2 主题标引,3.5,3.5.1 自动标引概述 3.5.2 自动标引的原理 3.5.3 自动标引方法 3.5.4 自动分类, 统计标引法 语言分析标引法 人工智能标引法(略) .自动赋词标引法,自动标引, 自动归类 自动聚类,3.1 信息著录的含义和标准,3.1.1 信息著录的含义和作用,著录:在组织检索系统时,对具体信息的各种形式特征、内容特征及物质形态等进行分析、选择和记录的过程。 款目/记录:按照一定的方法和规则对某一信息的内容和特征所作的描绘结
4、果。 在逻辑上代表该信息。 款目由一条条著录项目组成。 著录项目是用于揭示信息内容和形式特征的记录事项。,注:(以下“_”表示空格) 000 01103nam 2200313 4500 (头标区) 001 0000212192 005 20020703085900.0 010 _ $a 7-111-09692-4 $d CNY58.00 (含光盘) 010 _ $a 7-980007-34-4 $b 光盘 100 _ $a 20020524d2002 emky0chiy0121 ea 101 1_ $a chi $c eng 102 _ $a CN $b 110000 105 _ $a a z
5、 000yy 106 _ $a r 200 1_ $a 中文Office XP专家 $A zhong wenO ffice XP zhuan jia $f (美) StepHen L. Nelson, Julia Kelly $g 智慧东方工作室译 210 _ $a 北京 $c 机械工业出版社 $d 2002,一条著录记录的实例:,215 _ $a 532页 $c 图 $d 24cm $e 光盘1片 314 _ $a 责任者规范汉译姓:尼尔森 314 _ $a 责任者规范汉译姓:凯莉 454 _1 $1 2001 $a Office XP: The complete reference $1
6、701 1 $a Nelson, $b StepHen L. $1 701 1 $a Kelly, $b Julia 606 0_ $a 软件包 $A ruan jian bao 610 0_ $a Office XP $A Office XP 690 _ $a TP317.1 $v 4 701 _1 $a 尼尔森, $A ni er sen, $b S. L. $g (Nelson, StepHen L.) 701 _1 $a 凯莉, $A kai li, $b J. $g (Kelly, Julia) 712 02 $a 智慧东方工作室 $A zhi hui dong fang gong
7、zuo shi $4 译 801 _0 $a CN $b XMU $c 20020527 801 _2 $a CN $b JUSTLib $c 20020701 905 _ $a JUSTLib $d TP317.1/N28,3.1 信息著录的含义和标准,3.1.1 信息著录的含义和作用,著录的基本要求: 准确化:著录的结果要全面、客观、准确地揭示信息资源的内容特征和形式特征; 规范化:要求信息著录坚持标准化著录原则,按照统一的著录项目、著录格式、标识符号等进行著录。,3.1 信息著录的含义和标准,3.1.1 信息著录的含义和作用,著录的作用,文本,组 织,揭 示,检 索,3.1 (续),3.
8、1.2 信息著录的标准,著录法:关于如何进行著录的具体规定和具体做法。通常包括著录原则、适用范围、著录项目、著录格式、著录来源、著录文字、标识符号以及各个著录项目的具体细则规定。,3.1 (续),3.1.2 信息著录的标准 文献著录总则,国际标准书目著录(即ISBD),文献著录总则(GB3972.183),普通图书著录规则 档案著录规则 连续出版物著录规则 非书资料著录规则 地图资料著录规则 古籍著录规则 ,3.1 (续),3.1.2 信息著录的标准 文献著录总则,题名与责任者项 版本项 文献特殊细节项 出版发行项 载体形态项 丛编项 附注项 文献标准编号及有关
9、记载项 提要项,1.著录项目,3.1 (续),3.1.2 信息著录的标准 文献著录总则,2.著录项目的特点,(1)规定性。著录项目的名称、数量、顺序等是明确规定下来的,是相对稳定的,不能凭主观意志随便更改。 (2)兼容性。著录项目既基本概括了各类型文献内容和形式特征的共性,又兼容了它们各自的内容和形式特征的个性。 (3) 伸缩性。各类型文献著录,可以根据自身的特点和单位的实际情况,在不违反规定性的前提下,增加或减少著录项目。 (4) 客观性。著录项目遵循客观著录的基本原则。,3.1 (续),3.1.2 信息著录的标准 文献著录总则,3.著录级次,著录级次指著录的
10、详细程度。所有著录项目被分为主要项目和选择项目。 简要级次:只著录主要项目 基本级次:主要项目部分选择项目 详细级次:主要项目全面选择项目,3.1 (续),3.1.2 信息著录的标准 文献著录总则,4.著录格式,著录标识符: 为了在款目上识别不同的著录项目,特别是为了书目交流,使一种语言使用者所编的记录,能被其他的语言使用者所理解,就需要使用彼此相同的符号系统,因此在编目工作实践中就产生了著录项目识别符和著录内容识别符两种符号 。,3.1 (续),3.1.2 信息著录的标准 文献著录总则,4.著录格式(1)项目标识符, 各大项(每段起首除外) 并列题名、并列丛编
11、名 : 副题名及说明题名文字、出版发行者、图、副丛编名、价格(或其它获得方式) 第一责任者、与本版有关的责任者 ; 不同著作方式的责任者、同责任者的第二合订题名、第二出版地或发行地、 尺寸或开本、丛编编号 相同著作方式的其他责任者、出版发行年、国际标准连续出版物编号、分段页码 附属丛编名 附件 / 标出文献出处,3.1 (续),3.1.2 信息著录的标准 文献著录总则,4.著录格式(2)内容识别符,是用来进一步说明一些著录项目的特定内容,或补充著录内容。一般用在项目的外部、中间或末尾。主要有: () 责任者所属机构名称;中国责任者时代;外国责任者国别及姓名原文;印刷地、印刷者、
12、印刷日期;载体形态的补充说明;丛编项等。 文献类型标识、自拟著录内容。 省略著录内容。 ? 推测附注及不能确定的年代,一般与“”结合使用。 大项目结尾、第一合订题名与责任者结尾、外文缩写。 起迄连接。,3.1 (续),3.1.2 信息著录的标准 文献著录总则,4.著录格式(3)普通图书卡片式款目著录格式,3.1 (续),3.1.2 信息著录的标准 文献著录总则,4.著录格式(4)连续出版物卡片式款目著录格式,3.1 (续),3.1.2 信息著录的标准 文献著录总则,4.著录格式(5)普通图书卡片式款目著录实例,返 回,3.2 机读目录与元数据,机
13、读目录:Machine-Readable Catalogue,简称MARC,指任何形式的计算机可以阅读或识别的目录,其格式规定书目在数据机读介质上的表示和标识方法,包括机读记录的构成、各数据字段在机读介质上的总体安排与内容结构。 机读目录通用通信格式:包括标准化的记录结构、内容标识符、记录内容以及字符集与代码表。 记录结构:书目记录在机读介质上总体安排。 内容标识符:是标识数据元素并为其提供附加信息的一套符号。 记录内容:是编目条例规定的具体书目信息。,3.2.1 机读目录概述,3.2 机读目录与元数据,3.2.1 机读目录概述,MARC的诞生与发展: 于1965年由美国国会图书馆提出,称标准
14、机器可读目录记录款式的建议;1966年1月,产生MARC1。 1967年MARC2正式研究出台,就是目前的USMARC。 根据MARC经验而起草的文献工作文献目录信息交换用磁带格式1973年被ISO审定为国际标准,即著名的ISO27091973(E)。 随后各个国家相继推出了其MARC格式,如英国的UKMARC,日本的JMARC,中国的CNMARC等。,3.2 机读目录与元数据,CNMARC的诞生和发展: 中国在1979年成立北京地区机读目录研制小组;在UNIMARC和文献目录信息交换磁带格式(GB290182)的基础上研究中国机读目录通讯格式。 1992年,正式出版中国机读目录通讯格式即CN
15、MARC等。 1995年12月又出版了中国机读目录格式使用手册。 1996年2月6日,中华人民共和国文化行业标准中国机读目录格式CNMARC)WH/T050396作为国家标准诞生,并于1996年7月1日予以实施。,3.2.1 机读目录概述,3.2 机读目录与元数据,3.2.1 机读目录格式特点,(1)字段设置:在MARC记录中字段的设置包含了书目数据的实际内容。主要特征表现在三个方面: 字段数量多,并有空白(子)字段供用户扩充使用,共有001-999个字段,其中第999字段为用户自己规定字段含义; 字段内容著录详尽,字段下设子字段以及重复字段; 字段作用强化,可检索的字段多。,3.2 机读目录
16、与元数据,3.2.1 机读目录格式特点,(2)标记符号: 字段标识,用3位数字表示,从001-999。 子字段代码,用两个字符表示,第一个是定义符,表示为子字段(如$),第二个字符用小写字母a,b,c表示子字段顺序。 指示符号: 用以描述或指示可变长字段代码。指示符号用两个数字表示。在每个字段说明中都有指示符号的使用和表示的含义。如果某个字段指示符号不用,则用空白符号表示。 字段和记录分隔符。,3.2 机读目录与元数据,3.2.1 机读目录CNMARC的记录格式结构,记录格式:由记录头标区、地址目次区、数据字段区3个部分组成,每个字段的末尾有字段分隔符。记录最后一个字段的末尾有记录结束符。 结
17、构如下:,每个字段的末尾有字段分隔符,头标区,目次区,数据字段区,记录结束符,3.2 机读目录与元数据,3.2.1 机读目录CNMARC的记录结构,1. 记录头标区 是按照国际标准ISO2709-1981的规定,固定为24个字符长,由定长数据元素构成,包含记录处理所需数据。字符位置规定从023。为记录提供某些基本参数。它含有ISO 2709定义的关于记录结构的数据和为ISO 2709的特定形式而定义的几项数据元素。见表32。,3.2 机读目录与元数据,3.2.1 机读目录CNMARC的记录结构,2.地址目次区 列出记录中有哪些数据字段及其在记录中的位置,由计算机在输入时根据数据的实际情况自动生
18、成。包括若干个固定长的目次字段,每个目次字段12个字符。 字段起始字符位置是指该字段第一个字符处于数据字段区中的位置,每一个数据字段的第一个字符的位置为0。,目次2,结束符,字段起始地址(5位),字段长度 (4位),字段号 (3位),目次1,目次3,3.2 机读目录与元数据,3.2.1 机读目录CNMARC的记录结构,3.CNMARC的数据字段区,指示符,子字段,数据,其他子字段,数据(控制)字段00X的结构:,数据字段01X999的结构为:,$是子字段标识符号,a表示子字段的顺序,3.2 机读目录与元数据,3.2.1 机读目录CNMARC的记录结构,4.CNMARC的样例分析,注:(以下“_
19、”标识空格) 000 01103nam 2200313 4500 (头标区) 001 0000212192 (记录控制号) 005 20020703085900.0 (记录版本标识) 010 _ $a 7-111-09692-4 $d CNY58.00 (含光盘) 010 _ $a 7-980007-34-4 $b 光盘 100 _ $a 20020524d2002 emky0chiy0121 ea 101 1_ $a chi $c eng 102 _ $a CN $b 110000 105 _ $a a z 000yy 106 _ $a r,数据控制区,字段指示符,3.2 机读目录与元数据,
20、3.2.1 机读目录CNMARC的记录结构,4.CNMARC的样例分析,200 1_ $a 中文Office XP专家 $A zhong wenO ffice XP zhuan jia $f (美) StepHen L. Nelson, Julia Kelly $g 智慧东方工作室译 210 _ $a 北京 $c 机械工业出版社 $d 2002 215 _ $a 532页 $c 图 $d 24cm $e 光盘1片 314 _ $a 责任者规范汉译姓:尼尔森 314 _ $a 责任者规范汉译姓:凯莉 454 _1 $1 2001 $a Office XP: The complete refere
21、nce $1 701 1 $a Nelson, $b StepHen L. $1 701 1 $a Kelly, $b Julia,3.2 机读目录与元数据,3.2.1 机读目录在网络环境中的发展,MARC的856字段,1993年开始研究。 主要包含网上电子数据资源的地址信息,相应地读取该数据所要求的软件环境等。该字段两个字段指示符,第一指示符描述访问方法。该指示符定义了网上资源的访问方法,如果有多于一种的方法时,该字段可以重复。当前所定义的方法主要基于TCP/IP协议。 #无信息提供。主要用于子字段有g(统一资源名URN)、而无u(统一资源定位器URL)时。 0Email。1FTP。2远程登
22、录(Telnet)。3拨号上网(Dial-up)。4HTTP。 7访问方法在子字段2中说明。当访问方法不是上述指明的五种方法时,由本字段的2子字段说明。,3.2 机读目录与元数据,3.2.1 机读目录在网络环境中的发展,MARC的856字段,第二指示符描述了本字段所标引的电子数据资源与本记录所描述的书目、期刊或文献资料的关系。当这种关系不是一对一时,子字段3进一步提供更详细的信息。 各指示符定义如下: 0原资源。1原资源的一个版本。2与原资源有一定的关系。该指示符表明本记录所标引的资源的目录并不是电子版,而本856字段所描述的网上电子数据资源与其有一定的关系,此时可在子字段3中对这一关系做进一
23、步的说明。,3.2 机读目录与元数据,3.2.2 元数据,元数据(Metadata):关于数据的数据,是关于数据的结构化的数据。 起源:起源于计算机科学,原先主要指网络信息资源的描述,后逐步扩大到各种以电子形式存在的信息资源的描述。 描述的对象:图书、期刊、磁带、录像带、缩微品、论文、科技报告及各种形式的网络信息资源。 描述的成分:通常从信息资源中抽取出来的用于说明其特征、内容的数据。如题名、版本、出版数据、相关说明等。,3.2 机读目录与元数据,3.2.2 元数据1.作用,定位和检索 著录和描述 资源管理:权利管理、数字签名、存取管理 资源保护与长期保存,3.2 机读目录与元数据,3.2.2
24、 元数据 2.都柏林核心元数据集,Dublin Core Element Set(/)是一种跨领域的信息资源描述规范。这里的资源是“任何具有标识的东西”。 于1995年3月在美国俄亥俄州都柏林市召开的元数据讲习班,由美国的OCLC (Online Computer Library Center)和NCSA(国家超级计算机应用中心,National Center for Supercomputing Applications)联合发起。目的在于建立一套简单的非图书情报专业人员也能够了解和使用的描述网络信息资源的方法,以实现网络信息资源的辨识、查询和检索。,
25、3.2 机读目录与元数据,3.2.2 元数据 2.都柏林核心元数据集,DC 的元素修饰词,DC 的元素修饰词,DC 的编码体系修饰词,DC的编码体系修饰词,3.2 机读目录与元数据,3.2.2 元数据 2.都柏林核心元数据集,(1)内容描述部分 题名项Title:由创建者或出版者给定资源的名称。 主题词项Subject:能够揭示资源对象主题内容或学科内容的关键词、词组短语或分类号。 描述项Description:资源内容的文本描述,包括文献类对象的文摘或视觉作品的内容描述等。 来源项Source:二次资源的出处信息。当前资源可能源自资源的一部分或全部。,3.2 机读目录与元数据,3.2.2 元
26、数据 2.都柏林核心元数据集,(1)内容描述部分,语言项Language:资源对象所用的语言类型。 关联项Relation:二次资源及其与当前资源关系的标识。该元素的值应当从Relation的列表中选取。 覆盖范围项Coverage:资源知识内容的时空特征。空间范围指物理区域,如经度纬度、规范的地名等;时间范围指资源内容(时间段)而非资源产生的时间(时间点)。时间描述采用与日期项(Date)相同的格式。该元素要使用受控词表。,3.2 机读目录与元数据,3.2.2 元数据 2.都柏林核心元数据集,(2)知识产权部分,著者项Creator:对创造资源知识内容负主要责任的个人或机构、甚至某个服务系统
27、。 出版者项Publisher:负责使资源成为当前可获取和利用的形态的责任者,可以是某个个人、团体或某项服务。例如出版社、大学的系科或者公司实体等。 合作者项Contributor:指没有在Creator元素中列出的对资源的知识内容具有重要贡献的个人或组织,其贡献次于创建者(如编辑、誊写员、插图作者等)。 权限项Rights:一个权限管理的陈述,或者是指向一个权限管理陈述的标识,或者是指向提供资源权限管理信息内容的服务的标识。,3.2 机读目录与元数据,3.2.2 元数据 2.都柏林核心元数据集,(3)外形描述部分,日期项Date:指与创建或使资源成为现有状态的相关日期。(建议遵循ISO 86
28、01规范) 类型项Type:有关资源内容的特征类别,它包括描述资源内容的分类范畴、功能、特性或集合层次的术语。其值应从资源类型类表中选取。例如小说、诗歌、报告、论文、词典等。 格式项Format:资源的数据格式,用于注明需要什么软件或硬件来显示和执行这一资源。如文本、JPG图像、应用程序等。其值应从Format的列表中选取。 识别符Identifier:唯一标识资源的字符串或数字。例如网络资源标识中的URL和URN,其他通用唯一性标识如国际标准书号ISBN或其他规范名称皆可作为标识值。,3.2 机读目录与元数据,3.2.2 元数据 3.都柏林核心元数据的修饰词,(1)DC的修饰词的含义 DC修
29、饰词(DC Qualifiers,简称DCQ):对DC的未修饰词(即15个核心元素)的语义进行限定和修饰的词,并具有未修饰词的含义和对具体资源描述的专指性特点。 DCQ分为元素修饰词(Element Refinement)和编码体系修饰词(Encoding Schema)两类。 每个修饰词都有它的名称、标签、定义和注释。如:,Title元素:Alternative(交替题名) 名称: alternative(交替题名) 标签: Alternative(交替题名) 定义: 任何一种可代替正式资源名的其它名称。 注释: 该修饰词可以包括缩写的资源名称和翻译的资源名称。,3.2 机读目录与元数据,3
30、.2.2 元数据 3.都柏林核心元数据的修饰词,(2)DC修饰词的类型,元素修饰词,Title元素:交替题名(Alternative) Description元素:目录(Table Of Contents),摘要(Abstract) Date:创建日期(Created),生效日期(Valid),可获得日期(Available),发布日期(Issued),修改日期(Modified) Format:范围(Extent),媒体(Medium) Coverage:空间(Spatial) ,时间(Temporal) Relation元素 :版本继承(Is Version Of) ,版本关联(Has V
31、ersion) ,被替代(Is Replaced By) ,替代(Replaces) ,被需求(Is Required By) ,需求(Requires) ,部分于(Is Part Of) ,部分为(Has Part) ,被参照(Is Referenced By) ,参照(References ) ,格式转换于(Is Format Of) ,格式转换为(Has Format)。,3.2 机读目录与元数据,3.2.2 元数据 3.都柏林核心元数据的修饰词,(2)DC修饰词的类型,编码体系的修饰词,Subject元素 :LCSH(Library of Congress Heading,国会图书馆主
32、题词表),MeSH(Medecial Subject Headings,医学主题词表),DDC(Dewey Decimal Classification,杜威十进分类法),LCC(Library Congress Classification,国会图书馆分类法 ),UDC(Universal Decimal Classification,国际十进分类法)。 Date元素 :DCMI Type Vocabulary(DCMI类型列表) Format元素:IMT(因特网媒体类型) Identifier元素:URI(统一资源标识符) Source元素:URI,3.2 机读目录与元数据,3.2.2 元
33、数据 3.都柏林核心元数据的修饰词,(2)DC修饰词的类型,编码体系的修饰词,Language元素:ISO 639-2 (语种名称代码),RFC 1766 (语言身份标签) Relation元素:URI Coverage元素的空间(Spatial)修饰词 :DCMI Point(DCMI地理位置),ISO3166(标识国家名称的ISO3166代码),DCMI Box(DCMI框图),TGN(地理名称词表)。 Coverage元素的时间(Temporal)修饰词 :DCMI Period (DCMI时间范围),W3C-DTF (基于ISO 8601 的W3C的日期和时间编码规则)。,注:以上各修
34、饰词的名称、标签、注释等属性可参见课后阅读材料教师社区DC修饰词一文。,3.2 机读目录与元数据,3.2.2 元数据 4.用DC描述资源的实例,什么是namespace(命名空间)?,目前DC的名称空间(命名域)有3个: 1.15个基本元素的命名空间: “/dc/elements/1.1” 域名为dc: 2.除15个基本元素以外的所有元素的命名空间: “/dc/terms/” 域名为dcterms: 3.DC类型词表的命名空间: “/dc/dcmitype/” 域名为dctype:, 中国高等教育文献保障系统
35、Dave Beckett ILRT, University of Bristol 2002-07-31 ,3.2 机读目录与元数据,3.2.2 元数据 5.其他常见的元数据规范,其他常见的元数据规范(Metadata Schema): RFC1807:描述技术报告和FTP文件等网络资源的著录格式。 MOA 2(The Making Of America )和CDL(California Digital Library):描述数字图像的元数据规范。 IEEE LOM、GEM 、DCEducation:描述教育资源的元数据规范。 GILS:政府信息资源元数据规范。 FGDC/CSDGM:描述地理空
36、间信息的元数据规范。 MEPG7:描述音像资料的元数据规范。,3.2 机读目录与元数据,3.2.2 元数据 6.DC与MARC的比较,(1)著录的对象不同 (2)数据的形式不同 (3)著录的主体不同 (4)著录的详简程度不同 (5)标识的方法不同,返 回,3.3 信息标引的含义与步骤,3.3.1 信息标引的含义与质量控制 1.含义,通过对信息资源的分析,选用确切的检索标识,如分类号、主题词、关键词、人名、地名等,用以反映该信息资源内容的过程。是内容的内容分析和用词表达(转换标识)两个步骤的结合。 内容分析:在了解和确定信息的内容属性以及能够帮助揭示内容的某些外部属性后,将这些属性概括为主题并用
37、自然语言表述,同时分析主题概念之间或概念因素之间的结构关系。 转换标识:用专门的标引语言中的标识表达概括信息内容的主题概念或概念因素,构成一定形式的检索标识。,返 回,3.3.1 信息标引的含义与质量控制 2.标引的方式(信息组织P7378),(1)依内容单元选择的方式分 整体标引:对信息整体内容或主要内容予以标引的方式。尽可能用一个主题概括信息整体内容或主要内容,赋予一个检索标识。当时,当无法将整体内容或主要内容概括为一个主题时,也可以标引出一个以上的主题。可单独使用,也可与其他方式结合使用。主要用于手工检索系统。,例如:对中国大陆鸟类六种趋极疟原虫的记述进行整体标引,只需标引“中国鸟类的趋
38、极疟原虫”这个整体主题。 对岩石与矿物的物理性质进行整体标引,只得标引出“岩石的物理性质”和“矿物的物理性质”两个主题。,3.3.1 信息标引的含义与质量控制 2.标引的方式,(1)依内容单元选择方式分 全面标引:深入揭示信息的各部分内容,全面提取局部主题予以标引的方式。是最充分揭示信息内容的标引方式,能提高检索效率,尤其是检全率,但增加标引的工作量、成本及检索系统的规模。 主要适用与计算机检索系统,尤其是计算机检索系统中学术论文、科技报告等的主题标引。,3.3.1 信息标引的含义与质量控制 2.标引的方式,(1)依内容单元选择方式分 对口标引:只选择信息中对本系统用户有检索和参考价值的部分内
39、容,提取个别局部主题予以标引的方式,也称重点标引。 主要适合专业单位或检索系统对部分内容与本专业相关的信息进行标引。,例如电子养花养鱼,在水产专业单位可采用对口标引的方式,只标引“电子养鱼”这个主题。,3.3.1 信息标引的含义与质量控制 2.标引的方式,(1)依内容单元选择方式分 分析标引:在整体标引基础上,进一步将信息中部分内容析出,提取个别局部主题予以标引的方式。也称为补充标引。 分析标引可在概括揭示整体内容的同事,突出信息中有较大检索和参考价值的内容,特别是那些独立信息不多的主题。,例如:科技文献检索,除了对整体主题“科技文献检索”进行标引外,还可将其中的“索引法”内容析出,做分析标引
40、。,3.3.1 信息标引的含义与质量控制 2.标引的方式,(1)依内容单元选择方式分 互见标引:对已经从一个角度或学科标引了的信息再从其他角度和学科出发,提取主题予以标引的方式。目的是从不同的学科或角度揭示同一内容,以便多途径检索。,例如列宁论图书馆,按照主题“列宁著作专题汇编”标引之后,还依“图书馆学理论”主题做互见标引。,3.3.1 信息标引的含义与质量控制 2.标引的方式,(2)依信息单元选择方式分 综合标引:对丛书、多卷书、论文集、会议录、连续出版物、档案卷宗等类型文献信息而言,将整套信息作为一个单元所进行的一种标引。 必要时:综合标引分析标引。,例如自然科学小丛书宜按其整体内容进行综
41、合标引,而不宜按照各种书分散到自然科学各类。,3.3.1 信息标引的含义与质量控制 2.标引的方式,(2)依信息单元选择方式分 分别标引:对丛书、多卷书、论文集、会议录、连续出版物、档案卷宗等类型文献信息而言,以一套信息中的每一种、一册、一篇文献信息为单元所进行的标引。 已作分别标引的信息必要时再作综合标引,这是分别标引和分析标引不同的地方。 在做分别标引时,可选用整体标引、全面标引、对口标引、分析标引、互见标引的适当方式。,3.3.1 信息标引的含义与质量控制 2.标引的方式,(3)依所用标识与主题概念的对应性分 专指标引:选用一个所表达概念与被标引主题概念完全或基本相符的标识进行标引。也称
42、相符性标引。 如教育心理学直接用“教育心理学”这个主题词标引。 组配标引:用两个或多个标识共同表达一个主题概念的标引。 如植物分类图谱用“植物分类学”和“图谱”两个标识来表达其主题概念“植物分类图谱”。,3.3.1 信息标引的含义与质量控制 2.标引的方式,(3)依所用标识与主题概念的对应性分 上位标引:选用一个所表达概念是被标引主题概念上位概念的标识进行标引。 如用表示“图书馆学”的类号“G250”标引“比较图书馆学”这个主题概念。 依附标引:选用一个所表达概念与被标引主题概念相近或相关的标识进行标引。也称靠类(词)标引。 如用表达“人民生活状况”这个概念的类号“F113.9”标引“贫困经济
43、学”这个主题概念。 暂定标引:选用一个类(词)表中尚无,建议增设的标引进行标引,也称增类(词)标引。,3.3.1 信息标引的含义与质量控制 2.标引的方式,(4)依组配标识是否是成串分 先组标引:标引时将组配表达主题概念的若干标识组合成标识串的标引。 例如:用“高等教育-教育改革-中国”标引“中国高等教育改革”这个主题。 后组标引:标引时不将组配表达主题概念的多个标识组合成串,而是到检索时才临时组合的标引。 例如:“高等教育“、”教育改革”、“中国”并不组合在一起,而是通过相同的文献号建立联系,到检索时才临时组合。,3.3.1 信息标引的含义与质量控制 2.标引的方式,(5)依标引实施的方式分
44、: 分散标引 集中标引:在一个区域或系统范围内,有一个机构进行标引,其他机构共享标引成果,也称统一标引。 联合标引:各机构/单位开展合作,各自只对一部分信息进行标引,相互共享成果。 在版标引:在信息出版发布前完成标引,并将标引结果记录在该信息中。,3.3.1 信息标引的含义与质量控制 2.标引的方式,(6)依标引语言的原理分: 分类标引:根据分类语言将分析出的主题转换为分类号,将同类信息集中在一起,是编制分类目录和分类索引的基础。 主题标引:根据主题语言将分析出的主题转换为语词的一种标引方法。,3.3.1 信息标引的含义与质量控制 2.标引的方式,(7)依标引深度分 深标引:赋予信息较多标识,
45、详细揭示信息内容的标引。 浅标引:赋予信息较少标识,粗略揭示信息内容的标引。 (8)依标引的自动化程度分: 人工标引、自动标引、结合标引。,3.3.1 信息标引的含义与质量控制 2.标引的方式,(1)依内容单元选择方式分,整体标引 全面标引 对口标引 分析标引 互见标引,(2)依信息单元选择方式分,综合标引 分别标引,(3)依所用标识与主题概念的对应性分,专指标引 组配标引 上位标引 依附标引 暂定标引,先组标引 后组标引,(4)依组配标识是否成串分,(5)依标引语言的原理,分类标引 主题标引,返 回,3.3.1 信息标引的含义与质量控制 3.质量控制,质量控制,返 回,3.3.2 信息标引的
46、步骤 .分析主题,1.主题的类型和结构 依据主题数量的多少可分为:单主题和多主题 依主题的显露程度可以可分为:显性主题和隐性主题 主题结构是构成信息主题和各个基本主题的因素以及它们之间的相互关系。 主题结构分析的目的是判断复合主题的中心、动态部分和限定部分,用以把握主题的主要部分和次要成分。 通常按照 “主体通用位置时间文献类型”的次序处理主题。 当有多个主体时候,可以按照“ 对象材料方法过程条件”的次序排列多个主体。,3.3.2 信息标引的步骤 .分析主题,2.主题分析的方法 先找出论述的对象,再进一步查明是论述了对象哪些方面的具体问题,可以按照事先设计好的主题结
47、构模式提炼相关主题因素,分析主题因素间的关系。,例:红塔集团跨世纪发展战略思考,主体因素是“红塔集团”,通用因素是“战略”。分类标引为“F426.89”。主题标引为“烟草工业发展战略玉溪地区”。,3.3.2 信息标引的步骤 .分析主题,2.主题分析的方法 先找出文献中所涉及的各种概念,并查明它们之间的相互关系。文献中包含哪些因素就分析哪些因素,一边筛选和进行匹配,再将各个因素按照主题结构模式进行分析。,例如经济全球化与证券经营机构风险管理,涉及的概念有“经济、证券机构、风险管理”等,主体元素是“证券机构”。分类标引为“F832.51”,主题标引为“证券市场风险管理研究中国”。,3
48、.3.2 信息标引的步骤 .分析主题,2.主题分析的方法,课堂思考: 车床对铝合金螺帽加工 混泥土跑道快速施工方案 直升机螺旋桨质量检测 八十年代中国经济体制改革规划文集,螺帽铝合金加工车床 跑道混泥土施工方案 直升飞机螺旋桨质量检测 经济体制改革规划中国八十年代文集,返 回,3.3.2 信息标引的步骤 概念转换,概念转换:将主题分析后确定的主题概念赋予检索标识的过程,其结果是形成检索标识。 如果是分类标引,则将相应类目的分类号赋予被标引的文献信息。 如果是主题标引,通过查找主题词表,将相应的主题词作为检索标识赋予被标引文献信息。,返 回,3.4 分类标引与主题标
49、引,3.4.1 分类标引 原则,分类标引的原则,学 科 属 性,专 指 性,实 用 性,一 致 性,系 统 性,返 回,3.4 分类标引与主题标引,3.4.1 分类标引 各种类型主题文献的分类标引规则,1.单主题文献的分类标引规则 2.多主题文献的分类标引规则 3.相关关系主题文献的分类标引规则:应用关系、影响关系、因果关系、从属关系、相互比较关系、并列关系。,返 回,3.4 分类标引与主题标引,3.4.2 主题标引 选词规则,(1)选用词表中的正式主题词用作标引。 (2)选取与文献内容主题概念相对应,最专指的主题词。 (3)没有与文献主题概念对
50、应的最专指的词,选用与其最直接相关的、最相邻的主题进行组配标引。 (4)不能组配标引,就选用最直接的上位主题词进行标引、或用与主体词近义的靠词标引。 (5)做增词标引时,新增词要遵循一定的原则,必须词形规范、概念明确、具有重要的检索意义。 (6)各类名称主题词可直接作为正式主题词来使用。,返 回,3.4 分类标引与主题标引,3.4.2 主题标引 组配规则,(1)必须是概念组配,而不是字面组配。 (2)当有几种组配形式可选择时,优先选择交叉组配。 (3)选用主题最直接相关的、最相邻的主题进行组配,不用泛指词和越级词。 (4)组配标引的结果必须概念清楚、明确,具有单义性。 (5)组
51、配次序一般按照“主体通用空间时间文献类型”来。当有多个主体因素主题词时,按照对象方法材料过程条件等次序排列。,返 回,3.4 分类标引与主题标引,3.4.2 主题标引 主题词组配标引的形式,(1)交叉组配:选用若干具有交叉关系的主题词进行组配,表达一个复合的子概念,通常用“:”为组配标识。 (2)限定组配: 以表示事物的主题词和表示事物方面(部分、属性、状态、过程、条件等方面)的主题词进行组配,表达一个新的专指概念,通常用“-”或“,”为组配标识。 (3)联结关系组配:指复合主题中主体因素之间具有相互关系、比较关系、应用关系、影响关系、因果关系等。通常用“-”为组配标识。,返
52、回,3.5 自动标引,3.5.1 自动标引概述,直接利用计算机的处理操作,赋予信息资源检索标识的标引。 能适应信息迅速增长的要求;处理速度快;能避免人工标引的误差;标引一致性强;成本低。 从标引深度看,有全文自动标引和题名自动标引; 从选用的标引词看,有叙词标引和关键词标引; 从标引方式看,有自动赋词标引和自动抽词标引; 从标引形成的标识看,有自动主题标引和自动分类标引。,返 回,3.5 自动标引,3.5.2 自动标引的原理,1.获得机器可读的待标文献文本。 2.语句分析。借助一定的技术手段(如词典、词表、词频特征、句法或结构特征),设计一种算法来对文本中的语句进行分析,识别出词与非词,内容词
53、(实词)和功能词(虚词),并采集有关信息。 3.语词加权。设计或确定内容词的加权方案,据此计算每个词的权值。 4.确定标引词的权阀值。根据预定的文献标引深度,并考虑各种的特性,确定可以作为标引词选出的候选词的词权阀值。,3.5 自动标引,3.5.2 自动标引的原理,5.选出标引词。根据给定的阀值选出词权大于等于此值的候选词作为文献的标引词。 6.转换。指把上面选出的词转换为词表中的受控词,或者用文本之外的某个词代换上面选出的某个词或某组词,或者用词表中的范畴号或类号代替文本中出现的内容词。这是自动赋词标引的核心工序。 7.文档生成与索引编辑输出。将抽出的和选定的全部标引词连同它们的地址信息,按
54、照某种要求自动组织排序,生成检索用的倒排文档或词典文档。 8.反馈。根据检索过程中用户的相关性判断,进行词相关加权计算,对前面的标引过程进一步求精,提高标引质量。,返 回,3.5 自动标引,3.5.3 自动标引方法 .统计标引法,1.词频统计法 将文献中词的出现频率按等级排列,以一定标准排除高频词和低频词,剩下能代表文献主题内容的词。 有绝对词频统计法和相对词频统计法两种。,绝对词频统计法 给定一个由n篇文献组成的文献集合,计算出每篇文献中每个不同的词的出现频次:FREQik (词k在文献i中的频次)。 把每个不同的词在n篇文献中的出现频次相加,得到词k的集合频率:TOTFREQk 按集合频率递减次序排列
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 老房子地皮出售合同范本
- 账号利润分成合同协议书
- 2025自拟合同范本
- 线缆厂采购铜线合同范本
- 买卖土地房屋合同范本
- 工业厂房改造施工的重点难点及应对措施
- 种植术后健康宣教
- 设计咨询框架合同协议书
- 肾脏病护理常见问题与护理措施
- 职业药师兼职协议合同书
- 税务局个人所得税业务培训
- 住院医师规范化培训入院教育指南(2021年版)
- 新初一数学小班衔接讲义书
- 钻机的基础知识介绍
- 2023年中级注册安全工程师《安全生产专业实务道路运输安全》真题及解析
- 道路交通安全知识讲座课件
- 三明医学科技职业学院护理专业人才培养方案
- 铁路货车转向架检修新技术
- 电镀环评评估投标方案技术标
- 光伏土地征地合同
- DZ∕T 0153-2014 物化探工程测量规范(正式版)
评论
0/150
提交评论