数字环境与信息组织的主要变化_第1页
数字环境与信息组织的主要变化_第2页
数字环境与信息组织的主要变化_第3页
数字环境与信息组织的主要变化_第4页
数字环境与信息组织的主要变化_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数字环境与信息组织的主要变化数字环境与信息组织的主要变化 白华 内容提要 近 20 年来的资源网络化与数字化引发了信息组织的根本性变化 信息的描述 存储 检索方式在新技术的支持下不断发展 从而推动信息组织 方法向个性化 虚拟化的方向演变 使之具有多样化的 灵活的 更适应用户 复杂需求的组织机制 关 键 词 信息组织 趋势 主要变化 数字环境 1 从文献组织到信息组织的主要变化 传统文献组织着眼于文献在收藏空间中的物理位置 以分类法和主题法为 代表的文献组织方法 非常重视学科系统和词语系统在空间中的物理排序 从 整体上看 文献组织的各种排序都很关注以文本为单位的知识体的组织问题 而信息组织的关注重点则从文本整体转向文本中的知识单元 甚至文本中语句 水平上的知识点 这是一个重大的变化 本文将在后面分析这些变化的重要影 响 当代信息组织变化的一般特征是 1 当代信息组织的基本单位从文本单元转向知识单元 信息组织基本单 位已经深入到文本内部的知识元素 向微观层次发展 元数据 机读目录 关 系数据库对文本与实体的字段描述表明 所有的方法都非常重视文本内部的知 识单元的相对独立性 一般的搜索软件已经能够轻易地从文本内寻找含有某种 特征的知识元 中国知网数据库还设立了专门的知识元链接 1 2 语义网 Semantic Web 本体论 Ontology 和网络本体语言 Web Ontology Language OWL 等 更进一步追求建立在一般语义基础上的知 识组织 这种方法的特点是通过词汇的语义关系建立知识体系 在文本描述阶 段建立某种推理机制 在检索阶段形成知识元素链接 这已经成为一种普遍使 用的 处理电子文本的新型信息组织技术 2 3 XML 等网页描述语言及其相关工具 把文本内部的知识单元作为描述 与存储的基本单位 用标签 Tags 把文本分割为不同的显示与处理结构 分 析 XML 的软件如 DOM Document Object Model 把 XML 文本中的元素划分为结 点树 可以实现结点间的自由连接组织和查询 也可以按结点内容形成的字段 存入 Web 数据库中 实现对 XML 文件的组织与管理 3 4 资源描述对象由单纯文本转向所有实体 包括文本本身 传统资源 描述对象是以纸本文献为代表的文字符号的再描述 一般以文摘 索引等形式 作为原文件的替代物参与信息组织 数据库技术尤其是 Web 数据库在 90 年代 以来成为网络资源管理的主要技术之一 数据库对实体描述的特点是把资源描 述对象从文本描述转向所有对象的描述 数据模型技术使物理世界的所有实体 都可以建立模型进行管理 同时 文件描述内容从浓缩信息的文摘式概略描述 到对实体内容或文本字句水平的详细描述 5 信息存储的结构对检索与重用数据具有至关重要的作用 在索引数据 库和数据仓库中 数据对象按需要重组或对数据挖掘 要求数据存储具有可供 分析的新结构 所以存储技术对信息组织和重用具有关键作用 6 对文本对象和实体的描述以字段 属性 为主 字段 属性 反映了 事物的特征与联系 对象 属性 联系成为信息组织中对象描述的基本方法 因 而 RDF Resource Description Form 用 主词 表示一个资源对象 谓词 表示一个陈述 宾词 表示一个或若干地址或联系 表示资源对象 元数 据与机读目录都增加了关系元素或字段 这种方法的目的是要增加知识体之间 的组织关联 形成语义网并在机器环境中进行知识重组需要的推理语义和语法 结构 7 信息组织从线性向结构化组织体系变化 以提供满足检索的多维化需 求 数据分析和挖掘时的多维分析和重组要求 数据模型从多个角度揭示对象 形成了网状结构 层次结构和关系结构三种基本的模式 大型信息组织体系如 网络分类体系都重视对资源的多元揭示 多维化资源体系强调事物联系的多样 性 是一种适应用户需求的多样性组织技术 这种方法从组织角度讲 是事物 或知识之间的多样联系 可以从不同角度观察与利用信息资源 从检索角度讲 是强调查询的不同视角 强调从不同角度使用 分析和联系基本数据 由于数 字环境中的虚拟技术从根本上改变了资源存放的物理限制 多维方法对信息组 织和用户的意义更为重要 4 2 信息组织实践领域的变化 2 1 信息组织 社会化 与个性化两种趋势互相纠结 推动信息组织向 深度与广度发展 1 信息组织由面向一般用户变为面向具体用户的具体需求 传统信息组 织的默认对象是所有用户 由于技术限制 手工式组织不可能考虑每个用户在 不同时间的特殊需求 用户只能在具有普遍特征的信息组织系统里 寻找满足 自己特殊需要的信息 网络链接技术 用户知识捕获与建模技术 使用户可以 相对轻易地获取个性化的资源 2 信息组织的资源 方法和技术共享程度越来越高 由个别组织为单位 的信息组织向社会化或全球化的信息组织演变 大型集成系统 分布式数据库 系统 联机事务处理 OLTP 与联机分析处理 OLAP 开放数据库连接 ODBC 与 JDBC 等等 使信息资源组织成为社会性的活动 另一方面 资源最 终在用户的电脑上以某种方式显示 又使之成为个性化的活动 信息组织的社 会化与个性化相得益彰 互为条件 社会化 使用户面对越来越丰富的未知 资源 在共享技术的支持下 用户几乎可以利用任何愿意开放的资源 这样信 息组织就改变了以单位为基点的信息组织模式 个性化可以使每个用户在某种 语义相关的推理方法支持下 在海量资源中获取自己需要的资源 2 2 信息组织活动的主体和活动领域的变化 1 信息组织的活动主体由图书情报界为主 变为商业网站 互联网组织 学术机构 政府机构 图书情报界等为中心的主体 信息组织的主体由专门机 构的文献组织活动 变为普遍性信息资源组织活动 商业 企业 社会机构 教育机构等普遍拥有自己的信息资源和组织方法 主要以网站和数据库形式组 织资源 与之相联系 信息检索活动也由学术精英的知识检索变为大众化的 信息检索活动 2 信息组织对象由传统纸质文献为主转向以电子 数字 信息为主 数 字化的文字 声音 图像 多媒体等各种媒介都成为信息组织的对象 目前 电子文本以网络为依托 成为普遍性的信息组织对象 数字信息组织方式是目 前最具活力的方式 3 信息组织活动领域由图书馆等的个别物理空间转向虚拟的网络领域 电子资源和网页组织成为大众化的信息获取领域 4 互联网组织 如 W3C 和信息技术大公司在信息组织中的作用越来越 重要 它们成为信息组织技术和规范的主要制订者和推动者 5 信息组织的资源有无限扩大的趋势 由过去一个单位的有限资源面向 广阔的网络资源 联机资源等虚拟资源 2 3 资源描述规范已成为信息组织的坚实基础 近 10 余年来 信息组织出现的一个明显迹象是对文本描述规范的重视 结 构明晰 关系明确 含义清楚的新的描述规范 成为电子文件和网页处理的 宪法 有力地推动信息组织从传统方式向现代方式的转变 为现代信息组 织奠定了坚实基础 1 各种描述规范的国际化 本地化与专业化的倾向越来越明显 表明信 息描述一方面重视对信息资源的国际共享 另一方面又重视对本地资源的描述 对本地用户方便地利用国际与本地资源创造了良好条件 专业化倾向则表现在 知识本体 Ootology 在各个专业领域的发展 各专业领域对通用规范的适应 性修改 如 DC Lib 把 DC 的 15 个元素增加到 18 个 新增读者对象 版本和馆 藏位置三个元素 这些现象表明 全球性资源共享需要国际性规范 同时也 不排斥在国际规范基础上的本地描述规范和专业描述规范 这些变化既推动了 资源的跨国共享 又有利于妥当地描述本地和专业资源 这将为资源间的转换 奠定基础 并推动资源在全球范围内流动 2 HTML XML 元数据等成为最流行的信息描述语言和信息组织的研究 对象 也成为数据开发和查询软件开发的对象 3 各种语言之间具有越来越相似的特征 越来越多的检索语言和描述语 言形成了结构化描述格式 具有越来越规范的描述形式和类似的描述能力 如 RDF 数据库的数据模型 本体论 OWL 等都采用了实体 属性的描述框架 这 对于机器理解和规范化地解析文件 快速处理文件和组织文件元素是非常有利 的 4 不少描述语言对文本资源的描述采用字段化的文本处理方法 如 MARC 的字段化描述 数据库的字段描述 DC 的类似字段描述等 DC 直接用词 语作为字段 5 等级描述语言具有越来越流行的趋势 并越来越强调结构严谨 含义 明确 大型的知识框架语言如本体论 主题网关等都采用了父类 子类的等级描 述手段 并注意对各类术语的实体 含义与关系进行明晰的定义 6 各种描述语言都强调通用性和互操作性 其共享程度越来越高 在个 性化组织中 用户对资源组织的控制能力越来越大 传统文献著录格式 DC 格 式 XML 格式 数据库等 使用相关的应用软件都能够较好地进行转换 如用 MODS Metadata Object Description Schema 元数据对象描述模式 是 LCC 和 MARC 标准机构研制的采用 XML 模式的书目记录元素集 可以把 MARC 文件转 换为 XML 文件 2 4 各种查询语言 接口技术和链接方式从根本上影响了信息组织的发 展 各种查询语言的特点是既是工作语言 也是检索语言 是信息管理者和用 户的共享语言或工具 如关系数据库和数据仓库中使用的 SQL 查询语言 可以 用 SELECT FROM WHERE 这样的组合查询模块查找数据库中的数据 利用 ODBC Open Data Base Connection 和 JDBC Java Data Base Connection 等软件 可以查询不同的数据库系统 此外 JAVA Script 和 VBScript 等这 些常用的脚本语言也可以嵌套查询语句 把查询结果显示在屏面上 链接语言 如 HTML 中的 A href 和 XML 中的 XLink 均是最常见的链接语句 在 XML 中还有专门的链接语言 如在 Xpath XML Path Language 基础上制定的 在 XML 内部各组成部分进行定位的 XPointer XML Pointer Language 指针语 言 以及 XLink XML Linking Language 扩展语言 可以在两个事物间建立 关联 XPointer 是以 Xpath 为基础语言 给 XML 文件片断提供定义标识符的语 言 这些标识符可以指示 XML 文档的 URI 在文档内部结构中进行寻址 通过 各种特征 元素类型 属性值 字符内容和相对位置等 实现对 XML 文档树的 遍历 并选定文档内部的各个部分 在 XML 文档中 应用程序接口 DOM Document Object Model 和 SAX Simple API for XML 是 XML 分析器提供的两个接口软件 DOM 可以把 XML 文档转换成对象模型集合 DOM 树 它是一个由根结点和子节点组成的等级 树 通过这个结构 应用程序可以对 XML 文档中的数据进行互操作 可以在任 何时候访问任何一部分数据 所以 DOM 接口是一个随机访问机制 DOM 接口还 允许应用程序对 XML 文档中的数据进行修改 移动 删除 插入等操作 SAX 是一个 XML 文档的分析器 可以按顺序检查 XML 文档的字节流 判断被分析的 字节是 XML 语法的哪一部分 是否符合 XML 语法 并触发相应的事件 应用程 序可以通过事件处理函数实现对 XML 文档的访问 由于事件是时序性的 所以 SAX 的访问是非随机的顺序访问机制 5 上面的情况表明了信息组织发展的一些重要现象 1 各种访问 Access 链接和接口软件实现了对文档之间 文档内部 各元素的随机组合 2 信息集合越来越成为随机的组织机制 随机组织使信息组织成为随检 索需要而变化的机制 允许检索者 用户 对信息组织体系进行操作 控制 并根据需要进行再组织 3 接口技术 链接方式形成了与传统信息组织完全不同的组织方式或组 织机制 即一种即时的 隐含的 随用户需要改变的组织体系 2 5 资源描述和页面显示技术将改变信息组织的发展方向 1 资源描述形式化是现代信息组织的基础 字段描述 元素分割 明确 定义 结构规范是资源描述的基本趋势 这些发展直接影响到信息组织的发展 方向 2 描述形式化不仅是机器可读 可解的需要 更重要的是为了实现资源 共享 信息分析和知识挖掘 文档内的各种元素可以随时组成用户需要的某种 次序 实现个性化的信息组织 3 页面显示技术能够把一件资源内部的各要素组织成为可视的结构 而 且能够把许多资源组织在一个页面内 更重要的是在搜索引擎 脚本语言 接 口技术的支持下 能够快速 随机的组织和检索各种不可知的资源 3 信息组织变化的主要影响 信息组织的变化从观念 性质 功能与方法上改变了我们对它的传统理解 1 信息组织不再仅仅是图书情报界的事情 而是一个社会性的信息资源 组织和再组织活动 是个人 组织和社会谋求使各自的资源在有序状态中有效 地分析 利用的普遍性信息资源控制活动 2 与之相联系 信息组织的研究领域应该更为广泛 它包括传统的分类 主题组织 也包括浏览器上临时的资源组合与搜索结果的显示 包括由链接形 成的两个或多个资源间的组合 因为这些组织形式 已成为用户最普遍的资源 获取方法 所以不能把信息组织仅仅理解为利用大型体系组织起来的信息组合 方式 从而忽略链接 搜索结果排序 数据和文件中的知识元素之间基于某种 应用的临时性组织 从使用的普遍性和有用性来看 基于某种应用的临时性信 息组织 正成为越来越重要的 经常性的资源组织形式 其地位和作用越来越 重要 这种组织形式经常与用户基于某种目的的检索活动结合在一起 成为一 种最能满足用户需要的重要组织形式 目前的信息描述 实际上正越来越倾向 于基于用户查询的临时个性化组织 描述规范力图把每个资源的知识元素和属 性关系形式化 结构化 以便于用户在检索时按某种目的排列和组合数据或知 识 3 知识元素表达是在描述阶段完成的 基于词汇和其他符号的知识元素 描述 已成为信息组织的核心问题 由于数字环境中大多数资源在存储 链接与屏幕显示等过程中 出于不同 分析和使用需要 被不断地以各种不同的方式重组 更由于这些重组成为普遍 性的资源获取方式 因而以知识点与规范描述方式为手段的各种知识表达 成 为信息组织的奠基性工作 近年流行的本体论 语义网等方法 都在追求一种 宏观的知识网络布局 而资源描述框架 RDF XML OWL 元数据 数据库技 术等 则在微观上规划每个对象 一个实体 一个文本 一个图像等 的知识 元素的分布与连接问题 6 这些方法将成为信息组织研究的基本内容 也是信 息组织现在与未来的研究热点 4 综上所述 信息组织研究的未来趋势集中在技术方法上 技术方法的 核心问题是知识表达问题 知识表达的关键是代表知识点的符号 词汇和其他 符号 之间的关系 从属 并列 相关 应用等逻辑关系 处理 再现与意义 组合和应用组合 最重要的是所有这些符号能够被灵活地反复处理 快速地实 现不同目标的组合 尤其是这些方法能够被用户快速掌握和操纵 实现信息组 织的互操作 4 信息组织的变化与图书情报界的任务 面临巨大的变化 图书情报界的信息组织研究的重要任务是 1 重新审视和研究数字环境的信息组织新方法 重视网页等电子资源的 组织 改进更具有动态链接能力的资源描述格式与规范 2 改进分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论