ch5_信息组织3_第1页
ch5_信息组织3_第2页
ch5_信息组织3_第3页
ch5_信息组织3_第4页
ch5_信息组织3_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章 信息组织,5.1 信息组织概述 5.1.1 信息组织概念 5.1.2 信息组织的理论基础与方法基础 5.1.3 信息组织研究的内容 5.2 信息组织的分类法 5.2.1 分类法及其类目体系 5.2.2 分类及分类标引 5.3 信息组织的主题法 5.5.1 主题法与主题词表 5.5.2 主题标引及主题检索工具,5.4 信息组织的标记语言 5.4.1 标准通用标记语言SGML 5.4.2 超文本标记语言HTML 5.4.3 可扩展标记语言XML 5.5 元数据 5.5.1 描述数据的数据-元数据 5.5.2 都柏林核心元素集DC 5.5.3 资源描述框架RDF,第3章 信息组织,5.1.1 信息组织的概念 我们淹没在信息中,但是却渴求知识。 一是知识和信息的海量性与人的精力、时间的有限性形成了尖锐的对立; 二是知识和信息的无序性和污染性与人类使用的选择性也形成尖锐的矛盾。 1. 信息组织的含义 信息组织即信息的序化,是按照一定的科学规则和方法,通 过对信息的外在特征和内容特征的描述和序化,实现无序信 息向有序信息的转化。,5.1 信息组织概述,2. 信息组织的要求 (1) 信息特征有序化。 (2) 信息流向明确化。 (3) 信息流速适度化。 5. 信息组织的目的:实现无序信息向有序信息的转换 (1) 减少社会信息流的混乱程度; (2) 提高信息产品的质量和价值; (3) 建立信息产品与用户的联系; (4) 节省社会信息活动的总成本。,5.1 信息组织概述,5.1.2 信息组织的理论基础与方法基础 1. 信息组织的理论基础 (1) 系统科学理论:系统是指为达到某种共同的目的,若干构 成要素相互有机地结合的复合体。信息组织使系统的信息有 序化,使有组织的信息整体功能大于各个信息单元的功能之 和。 (2) 耗散结构理论:一种远高平衡态的非平衡系统在其外参数变 化到某一值时,通过系统与外界连续不断地交换能量和物 质,系统可以从原来无序状态转变为空间、时间和功能上都 有序的结构。,5.1 信息组织概述,5.1.2 信息组织的理论基础与方法基础 1. 信息组织的理论基础 (3) 协同学理论:研究协同系统在外参量的驱动下和在子系统之 间的相互作用下,以自组织的方式在宏观尺度上形成空间、 时间或功能有序结构的条件、特点及其演化规律。 (4) 突变理论:突变理论主要以拓扑学为工具,以结构稳定性理 论为基础,提出了一条新的判别突变、飞跃的原则:在严格 控制条件下,如果质变中经历的中间过渡态是稳定的,那么 它就是一个渐变过程。 (5) 知识组织理论:知识组织是指对知识客体进行整理、加工、 揭示、控制等一系列组织化过程。,5.1 信息组织概述,5.1.2 信息组织的理论基础与方法基础 1. 信息组织的理论基础 (6) 信息自组织理论:信息自组织是指作为信息系统组成要素的 信息,由于人与人之间、人与系统其它要素之间存在的相关 性、协同性或默契性而形成特定结构、功能的过程,也就是 信息系统无须外界指令而能自行组织信息、自我走向有序化 和优化的过程。 2. 信息组织发展的方法学基础 语言学 逻辑学 知识分类学,5.1 信息组织概述,5.1.3 信息组织研究的内容 信息组织的研究领域总体包括理论层面、规范层面和方法层 面三个层次。 (1)理论层面主要研究信息组织的基本规律和理论基础; (2)规范层面主要通过描述规范、检索语言、标记语言的建 立,为信息组织的操作提供实施的规范和依据; (3)方法层面包括操作的技术方法、信息组织的管理、标引规 则、描述规则、标记及其生成规则等。,5.1 信息组织概述,5.2.1 分类法及其类目体系 1分类法概述 所谓“类”,是指具有某种共同属性的一组事物的集合。 信息分类,是根据信息内容的学科属性与其他相关的其它特征,对各种类型的信息予以系统地揭示和区分,并进行组织的一种方法。 信息分类法主要指文献分类法。 文献分类法主要包括三种类型: 等级列举式 分面组配式 半分面分类法。,5.2 信息组织的分类法,5.2.1 分类法及其类目体系 2. 类目体系的结构 类目体系是根据类目内在关系和一定的原则组成的,是分类法的主体。 类目体系包括主表和附表。 主表一般由基本部类、基本大类、简表和详表等构成。 附表主要由附于主表之后和主表内的相应类目之后的复分表组成。 标记符号是分类体系中类目的代号。 标记制度是指分类号码的编制方法。,5.2 信息组织的分类法,5.2.2 分类及分类标引 1分类步骤 (1)查重 即利用题名目录或机读目录,查明待标的文献与已入藏文献的关系,并根据不同情况进行相应的处理。 (2)分析 首先从信息论述的问题及其所涉及的各个方面进行分析入手,概括信息的主题。 其次对构成主题的基本要素,要素对主题的作用以及要素之间的关系进行分析,明确主题结构。 最后对主题类型进行分析 。,5.2 信息组织的分类法,5.2.2 分类及分类标引 2分类标引 分类标引是指对主题分析的结果赋予信息相应的类号和相应的辅助号码而形成分类检索标识的过程,是将主题概念转换成分类检索语言的过程。 工作程序如下: (1)内容分析 (2)确定主题 (3)归类 (4)审核,5.2 信息组织的分类法,5.5.1 主题法与主题词表 1.主题法的含义 主题是指信息所论述的主要对象,包括事物、问题、对象等。 用来表述信息主题的词语,称为主题词。 主题法是直接以表达主题内容的词语作检索标识、以字顺为主要检索途径,并通过详尽的参照系统等方法揭示词间关系的标引和检索方法。,5.3 信息组织的主题法,5.5.1 主题法与主题词表 2.主题法的类型 (1) 标题法:是一种以标题词作为主题标识,以词表预先确定的组配方式标引和检索的主题法。 所谓标题词,并非指文献“标题”中的词,而是一种检索标识,用来标引文献,通常为比较定型的事物或理论名称,如: “飞机”、“不锈钢”、“信息论”、等。 举例:用标题词编排的检索系统 (主题索 引、标题词索引) 的形式如右图(数字代 表相关的文献号) :,5.3 信息组织的主题法,5.5.1 主题法与主题词表 2.主题法的类型 (2) 元词法:是一种以元词作为主题标识,通过字面组配的方式表达文献主题的主题法。 元词具有概念的独立性与概念的单元性。概念的独立性是指元词所表现的概念具有独立而完整的含义;概念的单元性是指元词所表现的概念是一个最基本的概念单元,即无论在含义上还是在字面上都不能再拆分。例如,“数学”是一个元词,它表现了一个独立的概念,又是一个单元概念,不能再拆分为“数”与“学”;“数学模型”则不是一个元词,它虽然表现了一个独立的概念,但可以进一步拆分为“数学”与“模型”两个元词。,5.3 信息组织的主题法,5.5.1 主题法与主题词表 典型的元词索引型式如下: 不锈钢 861081 862522 863519 866330 866332 867573 868582 868996 焊接 862111 862332 863519 863981 864530 866332 869091 索引中,“863519”号与“866332”号文献在两个检索款目中都 有反映,表明这两个款目有组配关系,这两篇文献的主题概 念就是“不锈钢焊接”。,5.3 信息组织的主题法,5.5.1 主题法与主题词表 2.主题法的类型 (3) 叙词法:以从自然语言中精选出来的、经过严格处理的语 词作为文献主题标识,通过概念组配方式表达文献主题。 叙词法的具体体现是叙词表。 叙词表一般由一个主表与若干个附表和辅表所组成。主表(亦称字顺表)是将全部主题词(叙词)按字顺排列,是叙词表的主体结构。附表为专有叙词索引,如地区索引、机构索引、人名索引、产品索引等,是从主表中分离出来的专用词汇表,是主表的组成部分。,5.3 信息组织的主题法,5.5.1 主题法与主题词表 2.主题法的类型 (4) 关键词法:指出现在文献标题、文摘、正文中,对揭示、 描述和表征文献主题内容具有实质意义的、起关键作用的 语词。 (5) 关键词叙词法链接模型:用户检索信息资源时,输入相应 的关键词,该关键词通过链接的非控词系统转换成规范叙 词,而后检索得出所需信息资源。,5.3 信息组织的主题法,5.5.1 主题法与主题词表 5.主题词表(了解) 主题检索工具一般称为主题词表(Subject Headings,Subject List)或叙词表(Thesaurus)。 汉语主题词表是我国第一部大型综合性主题词表。包括 主表、附表、辅助索引表 。 (1)主表(即主题词字顺表)。 (2)附表。是从主表中派生出来的一种专用表。 (3)辅助索引表。该索引表包括范畴索引、词族索引、轮排 索引和英汉对照索引。,5.3 信息组织的主题法,5.5.2 主题标引及主题检索工具(了解) 主题标引是依据一定的主题词表或主题标引规则, 赋予信息资源词语标识的过程。 1.主题标引方式 (1)分组标引法 (2)整体标引法。 (3)全面标引法 (4)专指标引法。 (5)集中与分散同时标引法。 (6)分析标引法 (7)部分标引法。 (8)上位词标引法 (9)靠词标引法。 (10)增词标引法,5.3 信息组织的主题法,5.5.2 主题标引及主题检索工具 2. 主题标引基本规则 (1)选词规则 (2)组配规则 (3)主标题确定的规则 5. 主题标引步骤 (1)主题分析 审读资料 确定主题类型 确定主题结构 主题概念的选定 (2)选词标引,5.3 信息组织的主题法,5.5.2 主题标引及主题检索工具 4主题检索工具和主题检索系统 (1)手工主题检索工具 手工主题检索工具包括主题目录和主题索引,具 体由主题款目、参照片、助检标志等组成。 (2)主题机检系统 主题机检是以主题标识为检索依据的机检系统,是计算机检索系统的重要组成部分,主要是指以受控主题标识为检索词的机检系统。,5.3 信息组织的主题法,在书面自然语言中为了标识某些信息,而加入一些 标记,这种书面自然语言就称为标记语言。 5.4.1 标准通用标记语言SGML 1标准通用标记语言简介 通用标记语言GML的研究始于20世纪60年代 。 SGML是一种通用的文档结构描述标记语言,主要用来定义文献模型的逻辑和物理结构。 SGML从两个层次结构和内容来描述文献,其核心是文档类型定义 DTD(Document Type Definition)。,5.4 信息组织的标记语言,5.4.1 标准通用标记语言SGML 2. SGML的结构与原理 (1)SGML的结构 一个SGML语言程序由三部分组成,即: 语法定义,定义文件类型和文件实例的语法结构。 文件类型定义,定义文件实例的结构和组成结构的元素类型。 文件实例,SGML语言程序的主体部分。 (2)SGML的原理 SGML定义独立于平台和应用的文本文档的格式、索引和链接信息,为用户提供一种类似于语法的机制,用来定义文档的结构和指示文档结构的标签。标记分为程序标记和描述标记。,5.4 信息组织的标记语言,5.4.1 标准通用标记语言SGML 一个典型的文档可以被分为三个层次:结构、内容和样式。 结构:为了描述文档的结构,SGML定义了文献类型定义 DTD,它为组织文档的文档元素(如章和章标题、节和节标 题等)提供了一个框架。 内容:指的是文档自身,即原始信息。内容包括信息名称(标 题)、段落、项目列表和表格中的具体内容,具体的图形、声 音、视频和动画等 。 样式:SGML定义样式的设置标准,即文档样式语言和规范 语言。 SGML主要处理结构和内容的关系。,5.4 信息组织的标记语言,5.4.1 标准通用标记语言SGML 5. SGML的特点 SGML的主要特点:通用性与独立性。 通用性:指SGML可以支持无数的文档结构类型,比如报告、技术手册、章节目录、设计规范、信函和备忘录等。 独立性:指它与硬件、软件独立。SGML可以创建与特定硬件无关的文档,因此很容易与使用不同计算机系统的用户交换文档。,5.4 信息组织的标记语言,5.4.2 超文本标记语言HTML 1. 超文本标记语言简介 HTML(Hyper Text Markup Language)是一种用来制作超文本文档的简单标记语言。 HTML语言通过使用各种标记来标识文档的结构以及超链接的信息,是为网页创建和其它可在网页浏览器中看到的信息设计的一种标记语言。,5.4 信息组织的标记语言,5.4.2 超文本标记语言HTML 1. 超文本标记语言简介 生成一个HTML文档主要有以下三种途径: 手工直接编写(如用HTML编辑工具)。 通过某些格式转换工具将现有的其它格式文档(如WORD文档)转换成HTML文档。 由Web服务器(或称HTTP服务器)实时动态地生成。,5.4 信息组织的标记语言,5.4.2 超文本标记语言HTML 2. HTML的标记语法和文档结构 HTML的标记总是封装在一对尖括号“”之中。 (1)单标记 称为“单标记”的这种标记只需单独使用就能完整地表达意思,这类标记的语法是: 内容。 例如: I love Creation of Webpage.Its a wonderful place. 显示成: I love Creation of Webpage. Its a wonderful place. 其中换行标记属空标记。它的作用是将标记后所有东西显示于下一行。,5.4 信息组织的标记语言,5.4.2 超文本标记语言HTML 2. HTML的标记语法和文档结构 (2)双标记 由“始标记”和“尾标记”两部分构成,必须成对使用。这类标记的语法是: 内容 例如: Creation of Webpage is my favourite. 显示成: Creation of Webpage is my favourite. 其中 称为双标记或围堵标记。 它以起始标记 及终结标记 标示文字 Creation of webpage ,令它显示成粗体,两者失其一都会发生错误显示。,5.4 信息组织的标记语言,5.4.2 超文本标记语言HTML 2. HTML的标记语法和文档结构 (3)标记属性 许多单标记和双标记的始标记内可以包含一些属性,语法是: 各属性之间无先后次序,属性也可省略(即取默认值)。 例如:单标记表示在文档当前位置画一条水平线, ,5.4 信息组织的标记语言,5.4.2 超文本标记语言HTML 2. HTML的标记语法和文档结构 (3)标记属性(接上) 其中: size属性定义线的粗细,属性值取整数,缺省为1; align 属性表示对齐方式,可取left (左对齐),center (居中), right (右对齐); width属性定义线的长度,可取相对值(“百分数”表示相对于充满整个窗口的百分比),也可取绝对值(用整数表示屏幕象素点的个数,如width=300)。,5.4 信息组织的标记语言,5.4.2 超文本标记语言HTML 2. HTML的标记语法和文档结构 (4)HTML文档结构:,5.4 信息组织的标记语言,5.4.2 超文本标记语言HTML 5. 分析及描述文档其他特征的HTML标记语言示例: (1) 字体和颜色 表示用粗体显示; 用斜体表示; 突出显示等; text=“#000000” 用以设定文字颜色。 #000000 代表黑色,亦可以采用 颜色的名称,即 text=“black“ 。 link=“#0000FF“ 设定一般文字连结颜色。 alink=“#FF0000“ 设定刚按下时文字连结颜色。 vlink=“#0000FF“ 设定连结后的颜色(被按过)。 background=“bg1.gif“ 设定背景墙纸。 bgproperties=“fixed“ 固定背景墙纸,当卷动文字时墙纸不会跟著卷 动。 (只适用于IE),5.4 信息组织的标记语言,5.4.2 超文本标记语言HTML 5. 分析及描述文档其他特征的HTML标记语言示例: (2) 标记超链和URL URL格式 Web信息页是用URL(uniform resource locator,统一资源定位器)来唯一标识的。URL的一般格式为: 访问方式: / 服务器域名 / 路径及文件名 访问方式有 HTTP (超文本传输协议)、FTP (文件传输协议) 例子:/newgdut/bmzy.htm /pub,5.4 信息组织的标记语言,5.4.2 超文本标记语言HTML 5. 分析及描述文档其他特征的HTML标记语言示例: (2) 标记超链和URL 锚标记 HTML中的一个超链由两部分组成:一部分是可被显示在 Web 浏览器中的超链文本及图像,当用户在它上面点击鼠标时,就触发了此链接;另一部分是用以描述当超链被触发后要连接到何处的URL信息。因而,超链标记的格式为: 超链文本及图像 “ 超链文本及图像 ” 是锚标记,HREF表示超链指向。 例如: next page,5.4 信息组织的标记语言,5.4.2 超文本标记语言HTML 5. 分析及描述文档其他特征的HTML标记语言示例: (2) 标记超链和URL 指向文件中的某一处 通常超链只指向一个文件的头部,若要指向一个文件内的某一特定位置,就要用到超链标记的另一个属性NAME,其格 式如下: 超链文本及图像 例如,在一个文件中有一部分内容是附录,可先在附录标题上定义一个超 链名: Appendix A 这样,就可以在其他文件里引用此附录,创建一个超链来指向附录部分: Appendix A,5.4 信息组织的标记语言,5.4.2 超文本标记语言HTML 5. 分析及描述文档其他特征的HTML标记语言示例: (3) 图像、声音、视像和动画 图像: 声音: audio demo 视像: video demo ,5.4 信息组织的标记语言,5.4.3 可扩展标记语言XML 1. XML概述 (1)XML的含义 XML是eXtensible Markup Language (可扩展标记语言) 的缩写,是W3C组织于1998年2月发布的标准。 XML的用途主要有两个: 一是作为元标记语言,定义各种实例标记语言标准; 二是作为标准交换语言,担负起描述交换数据的作用 XML将信息的内容、结构和表示分开定义。,5.4 信息组织的标记语言,5.4.3 可扩展标记语言XML 1. XML概述 (2)XML与SGML、HTML的关系 SGML是XML和HTML的母语言。HTML只是其中一种文件类型 ,XML是SGML的简化版。 HTML是SGML的一个实例, XML是SGML的一个子集, XML也还仍是SGML。 把标记语言分为元标记语言和实例标记语言的话,SGML和XML是元标记语言,而HTML和由XML派生的XHTML是实例标记语言。,5.4 信息组织的标记语言,5.4.3 可扩展标记语言XML 2. XML的主要特点 (1)简洁性 (2)创建标记的能力 (3)数据内容与数据显示相分离 (4)开放性 (5)高效性、可扩充性 (6)国际性,5.4 信息组织的标记语言,5.4.3 可扩展标记语言XML 5. XML的结构 XML是一组技术的集合,它包括: (1)构造XML的标记体系(用来描述XML文档结构) 一个正确编写的XML文档可以有两种形式: 格式正确的:一个XML文档在编写时遵从XML标准中所列的规则。 有效的:一个XML文档在编写时还遵从一个标准的文件数据格式或组织架构(DTD)。,5.4 信息组织的标记语言,5.4.3 可扩展标记语言XML 5. XML的结构 DTD例子: ,5.4 信息组织的标记语言,5.4.3 可扩展标记语言XML 5. XML的结构 (2)建立生成XML文档 除了直接用XML文档编辑器或其他文本编辑器直接 建立XML文档外,XML-QL(XML查询语言)、SQLX(SQL/XML)等查询语言及其相关技术可以用来从数据库等其他数据源中抽取数据生成XML文档。,5.4 信息组织的标记语言,5.4.3 可扩展标记语言XML 5. XML的结构 (3)解释XML文档(XML解析器) 为了能够处理XML文档,几乎所有的XML文档都需要一个XML解析器。 解析器的主要功能是检查XML文档是否有结构上的错误,剥离XML文档中的标记,读出正确的内容,以交给下一步的应用程序处理。 两种XML文档:Well-Formed(格式正确的)XML文档,一种是Validating(有效的)XML文档。,5.4 信息组织的标记语言,5.4.3 可扩展标记语言XML 5. XML的结构 (4)表示XML文档 在XML中内容与表现形式是分开的。 Web上的XML文档可以直接显示在能解释XML文档的浏览器中。可以使用与XML文档格式不同的CSS(层叠样式表)来根据处理的需要描述其表现格式,而用与XML文档同样格式描述其表示结构的可扩展样式语言XSL来描述其表现形式就更加灵活方便。,5.4 信息组织的标记语言,5.4.3 可扩展标记语言XML 4. XML文档(理解) XML文档由称为实体的存储单元组成,实体可以包含已析数据或未析数据。 每一个XML文档都有逻辑和物理结构。 (1)规范的XML文档 (2)字符 (3)标记 (4)通用语法成分 (5)字符数据和标记 (6)注释 (7)元素类型声明 (8)属性表声明 (9)条件段,5.4 信息组织的标记语言,5.5.1 描述数据的数据元数据 1. 元数据的含义元数据是“关于数据的数据”,是对数据进行组织和处理的基础,是用来描述数字化信息资源并确保这些数字化信息资源能够被计算机自动辨析、分解、提取和分析归纳的一种框架或一套编码体系。 美国图书馆学会(ALA)的描述和存取委员会(CC: DA)给元数据作出如下定义: 元数据是结构化的编码数据,用于描述载有信息的实体特征,以便标识、发现、评价和管理被理解的这些实体。,5.5 元数据(不讲),5.5.1 描述数据的数据元数据 2. 元数据的格式 元数据的格式通过三层结构来定义:内容结构、 句法结构和语义结构。 (1)内容结构(Content Structure) 即对该Metadata的构成元素及其定义标准进行描述。 元数据一般有以下构成元素: 描述性元素。 技术性元素。 管理性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论