信息资源的主题组织语言.ppt_第1页
信息资源的主题组织语言.ppt_第2页
信息资源的主题组织语言.ppt_第3页
信息资源的主题组织语言.ppt_第4页
信息资源的主题组织语言.ppt_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息资源的主题组织语言,本节学习目标,信息资源的主题组织语言 主题词法 单元词法 叙词法 关键词法 关键词法应用实例 标引 分类标引 主题标引,一、主题组织,1.1 主题组织的内涵 主题组织是按照信息对象等所反映的主题特征的异同,用接近自然语言的能表达宽泛程度各异的概念语词和语词符号标识这些特征,通过参照系统等方法揭示概念词间关系,并将概念词语、词语符号按音、形顺序排列来组织信息,以便提供一种易用的面向具体事实、概念的检索途径的信息组织方法和活动。 主题组织法适用于各种信息检索系统的记录单元的组织,如检索工具、数据仓库等。 主题组织法包括标题词法、单元词法、叙词法、关键词法。,1.2 主题语言

2、 主题是指信息对象所表达或反映的主要内容、问题或事物。按照信息所表达的中心问题数量的多少,主题可以分为单主题和多主题两种类型。 主题词是用于描述、存储、检索信息主题的受控词汇,是主题表中能够表达一定意义的最基本词汇单元。主题词的选用主要依据三个方面:出现频率、引用频率和查找频率。主题词分为单元词、标题词、关键词和叙词。 将主题词按一定方式、规则组织成的词汇表称为主题词表。,主题语言的要素: 1 语词标识 采用自然语言中的但经过控制的名词 术语作为描述文献主题的标识。 2 字顺系统 汉字字顺系统主要有音序和形序 3 主题检索工具 根据主题语言原理编写的各种主 题检索工具,如主题目录、主题 索引、

3、计算机中的主题词倒排档 等。,先组式语言,后组式语言,二、主题语言,2.1 标题词语言 标题词是经过规范化和标准化处理的简略表达信息对象论及或涉及的事物,是完全受控的一种主题标识,是一种先组式语言。 标题词语言基本构成要素有主标题、副标题和说明语。 标题词的语义参照是标题法揭示标题之间的语义关系的一种重要手段。有单纯参照、相关参照和一般参照。,1 单纯参照 反映同义关系 “见”、“见自” 2 相关参照 具有等级或相关关系而又是正式使用的标题词之间的参照 “参见”、“参见自” 例:电脑 (非正式) 见 电子计算机 见(正式) 电子计算机 (正式) 见自 电脑 见自(非正式) 海洋学 (上位) 参

4、见 海洋地质学 参见(下位) 海洋地质学 (下位) 参见自 海洋学 参见自(上位) 海关法 (相关) 参见 关税法 参见(相关),2.2 单元词语言 单元词是从文献里抽取出来的并经过控制处理的,能表达文献主题最小、最基本的在概念上不能再分解的,并能独立地描述文献所论及或涉及的事物主题的词汇单位。 单元词可以是一个单纯词,如“山”、“水”、“玻璃”、“马克思”等,也可以是一个合成词,如“文字”、“铁路”、“污染”、“强度”、“隔音”等。这些词的共同特点是概念上不可分。 单元词只是构成“标题”的构件,它们本身绝大部分不是具体的标题,或者说只是一些不符合“直接地、精确地表达文献主题”这一基本要求的“

5、标题词”。若干单元词的相互组合或组配,才能构成一个专指标识,精确表达文献主题或检索课题。,例如: 单元词法是一种后组式语言。标题法只能选择一种标题形式作为正式标题,而单元词法不存在词序问题,组成标题的每一个单元词都可以作为检索入口,并且利用对单元词的增加或减少可以进行扩检或缩检。 单元词法主要采用字面组配,误检率较大。,2.3 叙词语言 叙词语言是以受控的自然语言词汇作标识,主要以标识的概念组配来表达主题概念的一种后组式主题语言。我国又称为主题词语言。 叙词法主要采用概念组配。 叙词法特点: 1 直观性强 直接以规范化了的自然语言叙 词作为标志符号 2 专指性强 直接从论述和研究的具体对象和问

6、 题出发选词,采用叙词组配 3 适应性强 随时加以增设修改 4 灵活性强 采用后组式概念组配方法 5 多途径检索 同一主题文献,6 查找迅速 采用字顺排列方式 7 叙词表编制和建立了叙词语义关系的网络结构(叙词字顺索引的参照系统、叙词范畴分类系统、叙词等级系统、叙词词族图等),加强了叙词法的学科系统性和族性检索作用。 字面组配与概念组配的区别,2.4 关键词语言 关键词指在文献的标题、摘要或正文中出现的、对表达主题内容具有实质意义、能作为检索入口的、具有关键性描述作用的词汇。 关键词语言是自然语言,直接取自文献的题名、文摘等,或者取自全文,除了一些冠词、介词、副词或连词外,凡在概念上有意义的词

7、都可用做关键词。 关键词索引的主要类型有普通关键词索引、题内关键词索引、题外关键词索引、词对式关键词索引、双重关键词索引等。,实例:计算机在神经生物学与行为学中的应用,单纯关键词索引 把文献的正文、摘要和题目中抽出的关键词按字顺轮流领头进行排列且没有上下文修饰,每组关键词后著录文献号码,组成一个款目。,题内关键词索引(Keyword in context index,KWIC) 又称上下文关键词索引。关键词保留在文献题目内,关键词的上下文和词序都不变。在编制索引款目时,每个关键字按字顺轮流做检索标目,排在版面的固定位置,用黑体字表示为作为标目的关键词,上下文也随之移动位置。,题外关键词索引(K

8、eyword out of context index,KWOC) 也称上下文索引,针对KWIC提出的改进形式。编制原理和单纯关键词索引基本相同,不同的是把文献中抽出的关键词轮流放在题目、号码前面。,标题词是一种先组式语言,单元词、叙词、关键词是后组式语言。 先组式语言:检索前检索词已被固定关系组配好,并编制在词表中。检索时,用户只能根据词表去查找信息,不能任意组配。具有较高的专指性,但灵活性差。 后组式语言:检索前检索词在词表中未被组配,检索时用户可根据不同的检索需求对某些词任意组配。,国内主题语言应用:汉语主题词表 中国分类主题词表 国外主题语言应用:医学标题表 MeSH(medical

9、subject headings),三、关键词法在网络信息组织中的广泛应用 关键词法的应用最突出的当属搜索引擎! 搜索引擎的检索功能主要有: 简单关键词 高级关键词 布尔检索 逻辑与、或、非(AND、OR、NOT) 精确检索(词组检索) “ ” 模糊检索 关键词的同义词、近义词等 截词检索 “ * ” 字段检索 限定的字段有题名(title)、URL、域名(domain)、链接(link)等。 限制检索 信息类型如文本、图像等。,四、信息资源的标引,4.1标引 标引是对信息的内容进行分析,并运用一定的语言和方法,根据信息内容的学科属性等特征给予标识(如主题词、分类号)等,并以此作为信息组织、存

10、储和检索依据的过程。 标引的两个环节:主题分析和转换标识。 4.2 标引的种类 标引分为分类标引和主题标引。以分类号作为描述信息的检索标识的一类标引称为分类标引。以语词符号作为描述信息的检索标识的一类标引称为主题标引。 其它分类,按照是否有机器介入分为人工标引、半自动标引和自动标引;按照标引的深度分为深标引和浅标引(参照P115),4.3 标引的过程 1 主题分析 把握语法关系,找出核心主题。 2 标引 主题概念转换或归类,即根据主题分析结果给信息对象以分类标识或主题标识。给以分类标识的过程称为归类,即按照主题内容的学科属性归入分类法中最适当的类目。给以主题标识就是把自然语言提炼的主题,转换成

11、叙词表中的正式叙词所表达的主题。 3 标引结果记录 在规定的载体上,按照一定的格式,将分类或主题标引的结果记录在载体上。,实例:对马克思主义与文艺进行标引 第一步:分析主题 阐述马克思主义对文艺的影响 提取出题:马克思主义文艺 第二步:概念转换或归类 影响关系,按照受影响的主题归类, 归为“I0文艺理论” 主题转换为叙词表中正式叙词表达的主题 第三步:记录标引,4.4 标引工具 主题标引需借助主题表作为标引工具。 分类标引需借助分类表作为标引工具。 分类标引工具就其应用范围大致分三类: 用于各种信息记录的分类标引工具,称为分类法或分类表; 适用于产品、商品、物资等信息实体及其有关信息分类标引的

12、工具,称为分类代码表或分类目录 用于信息统计、汇总的分类标引工具,称为检索词典。,4.5分类标引操作程序 1 全面分析标引对象的特征,得出归类意向 2 在标引工具中查找能反映标引对象特征的类目 3 为标引对象标出正式的分类代码或词语形式的类别标识 4 进一步加工定型分类标识 5 对标出的分类代码、词语形式的类别标识及其它符号进行复核,以确保无误。,4.6分类标引的原则和方法 1考虑使用性 把信息归入最符合实际内容的类,尽量全面地考虑信息内容的各个不同角度,方便信息工作人员使用。 2 主题通常先于类型 3 使用最专指的类号 当没有专指的类号赋予时,依靠所用的分类表给予邻近的上位最专指的类号。 4

13、 不孤立地从索引中取类号 索引中取的类号到主表中加以论证 5 注意结构分类法的系统性和局限性 凡是能归入下位类的,不应该入上位类,凡是归入某类的下位类必须具有上位类的学科性质。 6 前后一致 同类信息的标引前后一致,4.8 主题标引,主题标引是依据一定的主题词表或主题标引规则,将信息资源中具有意义的特征转换成相应的主题词,赋予信息资源标识的过程。 主题标引的规则 对文献主题概念进行转换时必须遵守主题词标引的基本规则,包括查词规则和组配规则。 查词规则: 采用正式叙词标引:用来标引的叙词必须是汉语主题词表中的正式叙词; 上位叙词标引:没有最专指的叙词,也无法以词表中最接近、最直接的叙词进行组配时选用; 增词标引(新概念,不宜采用任何标引时)。,组配规则 1 叙词的组配必须是概念组配,参加组配的叙词之间有一定的逻辑关系。 2 叙词的组配应优先采用交叉组配,不能使用交叉组配时,选用限定组配。 3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论