信息组织与存储复习资料.doc_第1页
信息组织与存储复习资料.doc_第2页
信息组织与存储复习资料.doc_第3页
信息组织与存储复习资料.doc_第4页
信息组织与存储复习资料.doc_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

名词解释:1、 信息组织的含义:人们根据信息本身的特点,运用适宜的工具和方法,依据一定的标准和规则,对其进行加工整理,排列组合,使之有序化、系统化、规律化、高级化,增强信息对象的表现效能和运用效能,以满足人们信息需求的过程和活动。本质:信息组织是序化信息的一种信息管理活动。 信息组织结果:促进信息的存储、传播、检索和使用。 层次:序化是基础,优化是延伸。 范围:不仅仅局限于传统的文献资源,信息资源、信息产品、信息设备、信息人员、信息法规和制度、信息机构等可以被序化和整理。2、主题、主题词、主题词表:主题指信息对象所表达或反映的主要内容、问题或事物。主题词是用于描述、存储、检索信息主题的受控词汇,是主题表中能表达一定意义的最基本词汇单元。将主题词按一定方式、规则组织成的词汇表称为主题词表。主题语言的要素:语词标识、字顺系统(音序、形序)、参照系统、主题检索工具主题语言的共同特征: 以事物为中心集中文献信息 在分类法中,铜的矿床归矿床,铜的矿物归矿物,铜的采矿归采矿,而在主题法中,则可全都集中在“铜”这个主题下 直接以自然语言的语词作为检索标识 以字顺作为检索的主要依据 用参照系统等方式揭示主题之间的关系主题语言的词汇控制: 主题语言词汇控制的要求 正确性 单义性(一个词汇应当只表达一个概念) 系统性 简明性 成簇性 兼容性(某一学科或专业词表应尽可能与综合性词汇、上属学科或专业词表、相关或邻近学科或专业词表、交叉学科的词表兼容) 主题语言的词汇控制内容 词量控制(核心科学词汇、组配法、采用上位词置代) 词类控制 词形控制(字面形式不同,但含义相同的词,使一个概念只用一个语词表达) 词义控制(自然语言中的多义词或同形异义词含义的控制) 词间关系控制 专指度控制(语词与文献主题概念的切合程度) 先组度控制3、标题(标题词)是主题标目的简称,英文名称为Subject Heading,是将通用语言中事物现成的“名”经过词汇控制而成的一种文献主题标识。标题法是用规范化了的自然语言的语词做标识,直接表达文献的主题内容,通过参照系统揭示各主题之间的各种关系而按字顺排列的主题标识系统。标题的类型:依据标题的构成:主标题和复分标题(或子标题、副标题) 依据语法分:单词标题和词组标题 依据标题的词序分:正装标题和倒置标题标题的性质和标题语言的特点:标题的性质、直接性、受控性、先组性、语义关联、示范性标题语言的特点:按主题(文献所论及或涉及的事物)集中文献、用经过规范化的语词直接标引文献主题、用参照系统间接显示主题之间的相互关系、用字顺序列直接提供检索途径、 较高的专指性、较强的适应能力4、单元词又称元词,是从文献中抽取出来并经过控制处理的,能表达文献主题最小、最基本的在概念上不能再分解的,并能独立描述文献所论及或涉及的事物主题的词汇单位。元词语言开创了新型的检索语言后组式主题语言,具有重要的地位单元词的特点: 摆脱了标题法中每个标题只能选择一种标题形式作为正式标题的局限性,也就是可以使用多个单元词对同一文献从不同的侧面分别进行标引 单元词之间不存在次序问题,但是这有可能造成误检 组成“标题”的每一个单元词都是排检词,都可以做为检索入口,因而与标题法相比,单元词的检索途径较多 利用单元词的增加或减少,可以进行扩检或缩检 标引深度较高 有利于向计算机检索方向发展5、关键词是指在文献的标题、摘要或正文中出现的、对文献主题内容具有实质意义、能作为检索入口的、具有关键性描述作用的词汇。关键词的规范: 对非关键词进行规范,编制非关键词表 对文献题名作必要修改 对一些词和符号进行改写 缩略与拆词关键词的缺点; 同义词与近义词的问题 同一主题的文献可能分散在不同关键词名下 表达主题的专题性、准确性较差,因而容易产生误检,影响查准的效果 计算机检索时,需要扫描的款目较多,因此,关键词索引比较适用于数量不太多的文献单纯关键词:是将表征文献内容的关键词抽出,形成索引款目,并且轮流将每一个关键词移动到左方或左上方作为标目。关键词可以从标题、文摘或正文中任意抽取。网络信息检索的原理、工具及技巧题内关键词: 又称上下文关键词索引,就是把关键词保留在题目之内,关键词上下文和词序都不变题外关键词: 又称上下文索引,是单纯关键词索引的一种变体,从文献中抽出一组关键词同时放在题目、号码上面,轮流零头进行排列,或者是单个关键词轮流放在题目、号码前面。例:计算机、神经生物、行为学“计算机在神经生物学与行为学中的应用” 007 神经生物、计算机、行为学 “计算机在神经生物学与行为学中的应用” 007 行为学、计算机、神经生物 “计算机在神经生物学与行为学中的应用” 007 或者是: 计算机 “计算机在神经生物学与行为学中的应用” 007 神经生物 “计算机在神经生物学与行为学中的应用” 007 行为学 “计算机在神经生物学与行为学中的应用” 0076、分类主题一体化语言的发展分类主题一体化词表的结构原理 采用了共同的认识论方法分类方法 二者的结合有着共同的情报学基础 二者基本构建的实质相同 二者的结合可强化彼此功能,共同满足社会需求7、国际十进制分类法UDC8、9、分类标引:就是将文献主题的自然语言形态,转换为分类语言形态的一种标引,也就是将文献主题转换成分类号的一种标引。10、主题标引:主题标引是依据一定的主题词表或主题标引规则,将信息资源中具有检索意义的特征转化成相应的主题词,赋予信息资源与此标识的过程11、著录:在编制文献目录时,对文献信息的各种特征进行分析、选择和记录的过程。也就是说,按照一定的条例或标准,将文献的内容特征(分类、主题)、外表特征(题名、著者、来源出处、出版地、出版者、出版时间等)和物质特征(文献类型、页册数、图表、开本、装订、价格等)加以描述,并记录于目录载体上的工作称为文献信息著录。 简答题:1、信息组织的理论与方法基础系统原理: 在信息组织中,如果将大量的、分散的、杂乱的信息组织成一个系统,建立起内在关联,那么信息系统的整体功能将大于各个信息单元功能之共和。在信息组织活动中,类目体系的展开、主题词簇的编制、信息的分析等都体现着系统思想。基于这一思想,信息组织的目的是要建立一个有效的方便检索的信息系统。语言学原理:语言学是信息组织的重要理论基础;信息组织的对象都是用语言描述的各种各样的具有语义性和准语义性的信息。没有语言就不可能有对事物的准确认识。信息描述和信息揭示中需要运用大量的语言工具;在信息组织的现代化技术手段的使用上,信息的编码、算法语言、程序语言、机器语言的运用及自然语言理解和处理都充分体现了语言的重要作用逻辑学原理: 信息组织是一种智力活动,离不开人的逻辑活动,信息组织本身是思维的一种表现形式,概念是思维的元素,逻辑则是思维的规则。 概念的关系: 一个概念一般包括内涵与外延两方面。 内涵:概念所反映的对象的本质属性的总和 外延:具有该属性的事物对象,即概念所包含的范围。 概念的内涵与外延是相互依存而又相互制约的。在一个概念中,当它的内涵扩大(加深)时,则它的外延就缩小;当它的内涵缩小(变浅)时,则它的外延就扩大。人外延递减内涵递增中国人中国男人中国男运动员中国男排运动员中国青年男排运动员中国大学生男排运动员(1)相容关系:至少有一部分外延相交的概念之间的关系,包括同一关系、包含关系、交叉关系。 同一关系:具有相同外延的概念之间的关系,逻辑关系表示:a=b 包含关系:一个概念在另一个概念的外延之中,并且是另一个概念的组成部分。 交叉关系:部分外延重合的概念之间的关系(2)不相容关系:不存在共有外延的概念之间的关系。 矛盾关系:外延之和等于上位概念外延的两个不相容概念之间的关系 反对关系:外延之和小于属概念外延的两个相对对立概念之间的关系。 并列关系:一个属概念下几个不存在共有外延的并列属概念之间的关系。知识分类原理 科学分类的意义 科学分类揭示了各门学科之间的相互联系与区别 从方法论上,科学分类对于指导科学的发展具有重要意义 科学分类有助于认识科学发展的规律性,掌握科研发展方向 科学分类为科学规划和组织科学研究机构,拟定教育体系和教学计划,以及图书分类等实践活动提供了科学的理论依据科学分类思想的发展 古代分类思想(亚里士多德:理论哲学、实践哲学、创造哲学) 培根分类思想(历史、诗歌、哲学) 圣西门和黑格尔的分类思想(力学、数学、物理学、化学、地质学、植物学、动物学、人类学、心里学、国家学说、艺术、宗教、哲学等) 恩格斯的分类思想(数学、力学和天文学、物理学、化学、地质学、生物学、社会科学和关于人类思维规律的科学) 毛则东的分类思想(自然科学、社会科学、哲学)现代科学的总体结构与科学分类 哲学 社会科学 自然科学 科学分类经历了一个从无到有、从简单到复杂的过程。这个过程表明了科学在其发展过程中显示了各时代不同的特点,同时也表现了人的认识也总是随着社会实践的发展而不断向前推进的。然而认识是不会终结的,科学分类也不是一个最终的封闭体系,它必然伴随着人类认识的深化,在接受时间检验中不断改变自己的形式。科学分类的几种典型体系 文献分类体系(图书分类法、档案分类法、专利分类法、标准分类法、资料分类法、公文分类法) 百科全书知识分类体系 大学学科分类体系事物分类原理 在信息组织中,知识分类是基本依据,主要针对内容的信息组织;事物分类主要针对外表的信息组织。 事物分类以实体的事物为主要分类对象,而不是抽象的知识。事物分类法主要包括两种类型:组织机构分类法和物品分类法。 组织机构分类法 物品分类法组织机构分类法 组织机构包括行业、机关、团体、企业等。最具代表性的是联合国的全部经济活动的国际标准产业分类,其大类结构如下2、信息组织实施的必要性和可能性必要性:信息的激增和泛滥需要实施信息组织 首先,过去的信息缺乏已经变成了信息过剩。其次,信息污染严重。 今天,信息获取与筛选成本日益增大,用户的时间成本将大于信息服务的价值。如果任其发展下去,社会将步入一个可怕的陷井。信息浓度,序化和清洁度常常比信息总量更重要,也使得信息组织显得更重要,其难度也越来越大日益显著的差异化需求需要实施信息组织 信息社会不仅促进信息用户的需求与日俱增,而且使信息的有用性、多样性、时效性、精确性、多媒体性与全面性越来越明显。人们迫切需要从信息组织学科建设的高度,系统探讨高速序化大量信息资源与有效过滤信息噪声的理论与技术,需要人们从信息组织学科建设的高度建立其理论与技术框架。社会信息需求的增长热情呼唤着信息组织学的诞生。 信息需求的全方位和综合化、信息开放性和社会化、信息需求的电子化和网络化、信息需求的集成化和高效化 不断变化的信息检索环境需要信息组织与之相适应 信息检索环境的变化不仅体现在信息检索的对象、方式上,而且还体现在信息检索的机制、工具和技术上。社会信息化进程的推进需要大力发展信息组织工作 信息化是信息活动的规模相对扩大及其在国民经济和社会发展中的作用相对增加的过程。信息化包括许多内容,其核心是信息资源的共享和利用,其显著标志是信息技术的广泛应用。信息的生产、传播、利用都离不开信息组织,而且信息组织也是信息活动的形式之一。可能性:国内外专业人员对信息组织各个领域进行了全方位的理论研究,一系列反映信息组织理论技术与方法的专门概念也应运而生。特别是计算机科学、网络技术、现代存储技术、网页组织、网站组织、数据库开发、主题树组织、智能组织、数据仓库、自动抽词、自动分词,这些丰富多彩的信息组织技术与信息组织原理相互结合,形成了现代信息组织学发展的强大优势。有关信息组织的理论也成为软件开发研究领域、管理学界、生产领域等共同关注的课题,信息组织已从图书馆、情报所等信息机构走向社会3、信息分类法按其编制的结构形式,可以分为列举式分类法、组配式分类法、体系-组配式分类法等类型组配式分类:将概括文献、信息、事物的主题概念组成“知识大纲-分面-亚面-类目”的结构,按一定的规则,通过各个分面内类目之间的组合来表达文献主题的一种分类方法。(在宏观上与列举式分类相同,但在微观结构方面则有较大的差异)也像体系分类法一样设置若干个基本大类,但其基本大类的展开不像体系分类法那样形成等级列举结构,而是在各基本大类下列出若干个分面、亚面,各面内类目相互组配,从而形成组配式结构分面/组面/面:是按某种分类标准(分类特征)产生出来的一组类目。 分面分析法:是将整个知识领域和一个个知识领域按不同的属性分解为若干个不同的分面,每个分面再分解为若干个亚面,每个亚面还可以分解为若干个更小的子面,面内列出所属各子目的一种编制分类表的方法CC举例:CC第一层次归纳为五种基本范畴(基本分面):本体、物质、能量、空间、时间。 CC图书馆学的第二层次分面:图书馆类型、图书馆材料、图书馆活动、空间、时间4、复分表:在编表时可以把这些相同的子目汇集起来,配以号码,编列成表,附在详表的后面,作为有关类目进一步区分的共同子目,这种表成为复分表或共同区分表复分表按其应用范围,可以分为通用复分表,适用于类目表的任何一级类目;另一种是专类复分表,只适用于某一大类或专门学科。此外,类目中某些被仿分的子目,也起着专类复分表的作用。通用复分表:是一种具有普遍意义的细分表,可以作为许多门类的图书在内容和形式上共同区分的根据。一般编有总论性的、地区性的和时代性的三种类型的通用复分表,有的还编有民族表、语种表。 例如:中图法设有八个通用复分表,即:总论复分表、世界地区表、中国地区表、国际时代表、中国时代表、世界种族与民族表、中国民族表、通用时间地点表。专类复分表:只提供该类有关类目的使用,其它类目不得使用。仿分:利用另一类的子目作为某一类进一步细分的依据中图法的复分表:通用复分表、专类复分表、临近类目仿分、仿总论性类目分5、标题参照系统 标题词间的相互关系可分为等同关系、等级关系和相关关系。 标题语言显示标题词之间的相互关系的方法有: 利用字面成族原理,将相关联的标题汇集在一起 利用倒置标题形式,显示一部分具有等级关系的标题词 利用“标题-子标题-次子标题”多级标题形式,在一定范围内构筑 微型分类体系,显示标题词之间的等级关系。 建立参照系统“见”和“见自” 这对参照显示标题词的等同关系,用于标题词与非标题词之间 “参见”“参见自” 这对参照显示标题词的等级关系和相关关系,用于标题词与标题词之间。 标题词言语早期参照符号及含义6、序词法中概念组配的类型 交叉组配:使用两个或两个以上具有交叉关系的同性质叙词的组合表示一个复合概念词的组配 古人类遗传学:古人类学+人类遗传学 公路钢筋混凝土高架桥:公路桥+钢筋混凝土桥+高架桥 限定组配:方面组配,将表示某一事物的叙词和表示事物某一属性、某一方面的问题的叙词所进行的组配。 电子计算机存储器:电子计算机+存储器 联接组配:两个概念之间一定联系的一种组配。只揭示参加组配概念之间的某种关系,并不形成新概念。 表示教育与文化的关系:教育+文化7、分类主题一体化词表的结构原理 采用了共同的认识论方法分类方法 二者的结合有着共同的情报学基础 二者基本构建的实质相同 二者的结合可强化彼此功能,共同满足社会需求8、自然语言在信息组织的运用状况自然语言处理是自然语言得以应用所要解决的核心问题。自然语言处理是人工智能领域的一个重要分支,主要研究计算机对输入的自然语言文本的分析、理解和生成。 自然语言处理一般应用于机器翻译、信息检索、入机接口、篇章理解 目前,自然语言处理技术在信息检索中的应用主要有:基于理解的自动标引技术和自然语言检索技术 传统的自动标引原来主要是基于词频统计和术语加权,而没有词典的支持。为了提高系统对文献的理解能力,研究者提出了借助词典对文本进行标注并进行句法分析的方法,找出单词的相似性联系。在此基础上,人们又提出从语法、语义和语用三个层次来表征、标引文献内容,更有基于神经网络思想来改进自动标引的新模式,收到了较好的结果9、各种信息标引方式(1)依揭示文献内容的方式分 整体标引(概括揭示文献内容的标引方式,例如,对环境工程中的功能材料只需标引“环境工程的功能材料”,不必标引具体的功能材料) 全面标引(充分揭示文献内容的标引方式,要对文献内容充分理解,详细标引文献中有检索意义的部分。例如,对环境工程中的功能材料一书,就应该标引出具体功能材料:环境污染净化材料、高效电催化电极材料等。) 对口标引(只揭示文献中符合专业检索系统需要的部分内容的标引方式。例如,现代数学和力学在数学专业检索系统可采用对口标引方式,只标引“数学”这个主题) 综合标引(以整套(部)丛书、多卷书、论文集、会议录等为单位,揭示其内容的标引方式,是一种特殊的整体标引。例如,自然科学小丛书宜按整体内容综合标引,不宜按其中各个学科分散到自然科学各类)分散标引(以丛书、多卷书、论文集、会议录等文献中每一种、一册、一篇文献为单位,揭示其内容的标引方式。例如,环境科学与工程系列丛书中的城市节制用水规划原理与技术、环境毒理学、空气污染控制等按各自主题分散标引) 分析标引(在整体标引或综合标引的基础上,进一步深入揭示文献的部分内容,提取个别或局部主题的标引方式。例如,网络营销学,除了对整体主题标引外,还可以将其中的“网上顾客行为”内容析出,作分析标引) 互见标引(从不同角度多次揭示同一文献的标引方式,目的是从不同的角度或学科提示同一文献内容。例如,邓小平论财经在按主题“邓小平著作专题汇编”标引后,应依“经济学理论”主题作互见标引(2)依标引深度分:深标引、浅标引(3)依所用标识与主题概念的对应性分 专指标引(教育心理学用“教育心理学”这个叙词或“G44”这个分类号标引) 组配标引(“植物分类学”“图谱”两个叙词共同标引植物分类图谱) 上位标引(用标识“图书馆学”的类号“G250”标引“比较图书馆学”) 依附标引(用表达“人民生活状况”这一概念的类号“F113.9”标引“贫困经济学”这一主题概念) 暂定标引 (4)依组配标识是否组合分: 先组标引、 后组标引(5)依所用标识受控程度分:受控标引 自由标引 混合标引(6)依标引的自动化程度分:人工标引 自动标引 半自动标引(7)依标引的实施方式分:独立标引 统一标引 联合标引 在版标引 10、文献信息著录总则: 名词术语 文献、款目、目录 著录项目 题名与责任者、版本项、出版发行项、载体形态项、丛编项、文献标准号 著录项目标识符和著录内容识别符 著录格式 著录详简级次 著录用文字 普通图书著录格式 著录项目标识符说明11、词典分词法的原理:词典分词法 词典分词法是通过构造一个机内词典(部件词词典、主题词典、关键词词典),并将其与被标引的信息进行匹配,当从待处理的信息中得到词典词汇时,即把它作为备选标引词记载下来。 词典法主要用于主题相对集中的信息库,如某一专业信息库。否则,词典将会非常庞大而难以构造。 根据匹配方法不同,有最大匹配法、长短结合匹配法、词首匹配法分词 最大匹配法的原理:假设在计算机中存放一个已知的分词词典,该词典中的最长词是I个字,则取被处理文本中当前字符串序列中的前I个字作为匹配 最大匹配法的原理简单,易于实现,时间复杂度也比较低。但是,最大词长的长度比较难于确定,如果定得太长,则匹配时花费的时间就多,算法的时间复杂率明显提高;反之,如果定得太短,则不能切分长度超过它的词,导致切分率的降低12、切分标引法德原理切分标记法是将能够断开词和词组或表示汉字之间联系关系的汉字集合组成字典,这个字典称为切分标记字典。 切分标记字典中包括的内容有:标点符号、表示汉字之间联系关系的汉字(如词首字、词尾字、不能构词的单字或非用字和条件字) 具体切分方法为:用切分标记先将文本分割成词组或短语,再将它们按一定的分解模式分割成单词或专用词。词典分词法与切分标记的分词方法总结 词典分词法和切分标记分词法都是属于机械分词法范畴,切分过程依赖于机器词典进行,该词典中不涉及太多的词法、语义、句法知识等关于语言自身的信息。 机械分词法面临的最大弊端是无法避免交集歧义和多义组合型歧义现象;另外,词表中未能及时收录的新词,机械分词法无法予以正确的切分。13、信息自动聚类的方法和原理自动分类的基本原理:自动分类即由计算机代替人工对文献或文本信息进行分类,赋予其分类标识,以描述文献主题内容的过程。自动分类一般包括自动聚类、自动归类和类号的自动转换。 自动聚类 自动聚类是指从待分对象中提出特征,再将提出的全部特征进行比较,并根据一定的原则将具有相同或相近特征的对象定义为一类,设法使各类中包含的对象大体相等。一般是在语词共现的基础上,通过词频统计、相似性比较,将相关文献聚集在一起。 自动聚类可以分为基于语词特征的自动聚类和基于非语词特征的自动聚类 基于语词特征的自动聚类 通过标引词描述文献主题,如果描述文献内容的词汇相同或相近,就把这些文献归为一类。 两篇文献所拥有的共同标引词越多,说明这两篇文献的距离越近 通过计算两篇文献的相似度,生成待进行聚类分析的文献集 基于非语词特征的自动聚类 文献分类还可以在非语词特征的基础上形成,尤其是基于各种形式的引文链接 1)利用直接引文进行文献聚类(A、X、Y;因为X、Y都引用了A,这三者及有可能涉及共同的主题领域) 2)运用“引文耦合”原则进行文献聚类(文献X、Y紧密连接是因为它们都引用了文献A、B、C;Z和X、Y连接不是太紧密) 3)利用共同被引进行文献聚类(A、B、C共同被X、Y引用) 14、基于理解的文献方法是以人工智能,特别是自然语言理解技术为基础而发展起来的文摘技术。这种方法与自动摘录的明显区别在于对知识的利用,它不仅利用语言学知识获取语言结构,更重要的是利用领域知识进行判断、推理,得到文摘的意义表示,最后从意义表示中生成摘要。基本步骤:语法分析、语义分析、语用分析和信息提取、文本生成 不足: 1)面向大规模真实语料的语法语义分析技术尚未完全成熟,因此要想获取高质量的语言分析结果就必须将待处理的语料限制在某个范围内 2)理解文摘方法的基础是框架等知识表示,框架需要根据领域知识预先拟定,因此如果想把适用于某个领域的理解文摘系统推广到另一领域,则需要重新拟定框架,这种填充和组织领域的沉重负担使理解文摘难以移植。 15、网络信息组织的难点 1)海量网络信息以及信息生产、传播速度的加快,对传统信息加工方式提出了挑战。 2)信息种类增多,数据库成分复杂化,过去主要适用于文本信息的信息组织方法已不能使用 3)不同于传统意义上的信息用户,网民的信息行为对信息组织有专门需求 4)网络信息形式上的非线性、交互性和动态性,需要信息组织方法及时、灵活 网络信息组织方式:(1)文件方式在网络环境下,因特网也提供了诸如“文件传输协议”(FTP)来帮助用户利用那些以文件形式保存和组织的信息资源。 FTP的功用在于把各类型的文本式和非文本式文件通过网络传送给用户,它的运作以大容量和高速度为特点。随着因特网的发展,FTP仍然是用于发布、传送程序软件和多媒体信息等长文件的主要方法。 以文件形式组织的网络信息资源具有以下优势: 1)简单方便 2)它是存储非结构化信息的天然单位以文件形式组织的网络信息资源具有以下弱点: 1)随着网络信息资源利用的不断普及和信息量的不断增多,以文件为单位共享和传输信息就会使网络负担越来越大 2)对结构化信息的组织与管理显得软弱无力 3)随着以文件形式保存和管理的信息资源的迅速增多,文件本身也需要作为对象类进行管理 因此,文件方式只能是网络信息资源管理的辅助形式,或者作为信息单位成为其他信息组织方式的管理对象(2)数据库方式数据库方式是对大量的规范化数据进行管理的技术。数据库是指大量的长期存储在计算机内、有组织的、可共享的数据集合。由于文件形式的不足,促进了人们对数据库技术的研究,因而加快了数据库技术的发展。 利用数据库技术进行网络信息资源的管理有以下优势: 1)对大量的结构化数据的处理效率有了很大提高。 2)数据的最小存取单位是信息项(字段),可根据用户需求灵活改变查询结果集的大小,从而大大降低了网络数据传输的负载。 3)以数据库技术为基础已建立了大量的信息系统,形成了一整套系统分析、设计与实施的方法,为人们建立网络信息系统提供了现成的经验和模式。利用数据库技术进行网络信息资源的管理的不足: 1)对非结构化信息处理困难较大。 2)不能提供数据信息之间的知识关联。 3)无法有效处理结构日益复杂的信息单元 4)缺乏直观性和人机交互性由于大量非结构数据的出现,数据库中的数据类型也突破了传统意义上的数字和字符,发展到声音、图形、图像等多种类型。数据库也突破了传统意义上的关系数据库而发展成现在的多媒体数据库、空间和地理数据库、分布式数据库等,应用领域已从传统面向商业与事物处理扩展到科技、经济、社会、生活的各个领域。 因此,数据库方式是当前普遍使用的网络信息资源组织方式,特别是在大数据量的环境下,其优点更为突出(3)主题树方式主题树方式组织信息资源的方法是将信息资源按照某种事先确定的概念体系分门别类逐层加以组织,用户先通过浏览的方式层层遍历,直到找到所需要的信息线索,再通过信息线索链接到网络信息资源。网络信息资源通过树型主题目录层级组织体系,可以达到实现浏览-导航功能,用以通过引导网络用户的查询概念(而不是确切的词条)来找到所需要的网络资源。 网络信息资源的主题树组织方式的表现形式,即大家所熟悉的网络主题指南。 网络主题目录资源的采集 人工采集:专业人员精选部分网络资源,并通过精心评价、组织成高质量的主题目录,如一些专业性的网络主题目录指南; 用户递交:网页作者所呈送的网络资源,并有信息组织人员对其作出评价并组织成主题目录,如Yahoo!主要依靠主页编辑者或者出版者以及其他用户提交新的Web网页,欲提交URL的用户自主决定网页适合存放的类目,同时,Yahoo!拥有编辑修改网页类目的权利。 网络目录的深层组织结构 网络主题目录,也称为主题目录树,它是按照一定的主题分类体系,层层细分,就像分类表的类目一样,是一个等级体系结构。目录结构一般按照:总目-专题目录-链接-文本信息链的序列组织 网络主题目录的分类组织体系 网络主题指南的分类目录体系一般根据自己信息资源采集的范围和侧重点设计而成,各个主题目录体系差别很大。也有不少网络检索工具直接采用较规范的文献分类法,如DDC、CLC、UDC、LCC等,并加以适当改进作为自己的分类体系,这一方法在专业信息检索领域正日益得到广泛应用。 现有的网络资源主题目录检索工具有以下三种: 按主题分类(如Yahoo!分为14大类);按学科分类(如网络指南针);按图书分类法分类(如网络指南针、NetFirst、PICK图书情报专业资源)利用主题树方式组织信息资源的优势主要有: 1)高质量的信息资源,网页内容丰富,学术性强 2)主题树屏蔽了网络资源系统相对于用户的复杂性,提供了一个基于树浏览的简单易用的网络信息检索与利用界面 3)信息检索由用户按照规定的范畴分类体系,逐级查看,目的性强,查准率高 4)采用树型目录结构组织信息资源,具有严密的系统性和良好的可扩充性 利用主题树方式组织信息资源的缺陷: 1)必须事先建立一套完整的范畴体系 2)为了保证主题树的可用性和结构的清晰性,范畴体系的类目不宜过多,每一类目下的信息索引条目也不宜过多,这就大大限制了一个主题树体系所能容纳的信息资源的数量 3)主题目录树是一种人工主导的资源组织方式,因此,导致其在管理、维护方面跟不上网络信息的增长速度,收录范围不够全面,新颖性、即时性相对较差 (4) 搜引擎方式搜索引擎是目前因特网对信息资源进行组织的主要方式。所谓搜索引擎,指采用自动化技术对万维网站点资源和其他网络资源进行采集、标引和检索的一类检索系统机制;是提供给用户进行关键词、词组或自然语言检索的工具,是目前网络信息

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论