基于cnmarc的frbr化opac系统开发初探_第1页
基于cnmarc的frbr化opac系统开发初探_第2页
基于cnmarc的frbr化opac系统开发初探_第3页
基于cnmarc的frbr化opac系统开发初探_第4页
基于cnmarc的frbr化opac系统开发初探_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

书书书 现代图书情报技术 版权所有, 欢迎下载引用! 请注明引用地址: 基于 的 化 系统开发初探 现代图书情报技术, ( ) : 基于 的 化 系统 开发初探 王泽贤 ( 广州大学图书馆 广州 ) 【 摘要】主要介绍一个用现有 书目记录实现基于 模型的 系统。首先介绍系统的功能, 实现 该系统的数据库结构及详细说明, 然后分析系统的实现过程, 并详细说明 书目记录聚合成 对象的 聚合算法。 【 关键词】 【 分类号】 ( , , ) 【 】 , , 【 】 收稿日期: 收修改稿日期: 本文系广州市属高校科技计划项目“ 在我国的实现及其模型研究” ( 项目编号: ) 的研究成果之一。 自 的书目记录的功能需求( , ) 最终研究报告出版 以来 , 国外的 理论研究已相当深入, 一些 化或类 应用系统, 例如美国的 系统和 等 , 已开发成功并已提供服务。国内的理论探讨虽然日益升温, 但相应的实践探讨就颇为欠缺。为了验证 理念在 中应用的可行性, 笔者尝试开发了一个小型系统, 在 书目记录转换为 模式的 基础上, 初步实现了 以作品聚集书目的理念, 成功构建了一个两层聚集、 三层显示的结构化书目检索系统。 系统功能及体系结构 系统功能 该系统功能就是将独立存在的 记录, 通过 系统返回查询结果时, 将互相关联的记录以 模型分层方式反映出来, 用户通过一次检索即可发现所有相关信息。要实现该功能的关键和难点是将各条独立 的 记录聚合成相互关联的 模型对象。本系统目前已生成了 第一组实体中的作品 ( ) 、 内容表达( ) 、 载体表现( ) 这几个最核心的对象, 在此基础上要进一步实现 总第 期 年 第 期 现代图书情报技术 其他对象及属性是较为容易的事情。在引入 记录的同时, 还要生成相关索引, 以供检索。 在聚合生成 模型对象的基础上, 较容易实 现检索并将相关结果以树型方式显示; 系统提供责任 者、 题名、 主题这几种检索条件, 可以单一或以多种条 件组合方式进行检索, 检索结果以作品内容表达 载体表现的树型方式分层逐级显示。 系统体系结构 为了提高系统的可缩放性和灵活性, 该系统采用 了分层的体系架构, 主要分为数据库层、 持久层、 业务 层和表现层 , 如图 所示。所有对数据库的操作都 是通过用 框架实现的持久层实现, 通过该层 实现了系统的数据库无关性, 可以方便地切换到其他 数据库系统。数据标准化、 索引、 聚合等业务 逻辑都集中在业务层。表现层是用户与系统交互的接 口, 主要包括了检索显示、 后台处理两部分: 后台处理 主要完成了 数据引入、 索引、 聚合成 对象等功能; 系统使用 技术 框架以 方式 实现检索、 显示功能。 图 系统体系结构图 数据库设计 领域模型及其关系分析 从系统功能首先可以分析出书目 记录、 作品、 内容表达、 载体表现这几种对象。在书目 记录 化的过程中还要用到名称规范库、 题名规范库及语种 这些对象, 名称规范库又可分为个人及团体名称规范库两 种子类。要实现检索还需对书目 记录建立责任者 索引、 题名索引、 主题索引, 这些索引都是 记录字段 索引的子类。这些对象间的关系如图 所示。 各表字段组成及说明 根据所分析的领域模型, 可以进行数据库的结构 图 领域模型关系图 设计。采用每个类层次结构一张表的模式 , 名称规 范库及其子类个人名称规范库和团体名称规范库生成 一张名称规范表; 记录字段索引及其子类责任 者、 题名、 主题索引生成一张 字段索引表; 其他 每一种对象对应一张表。所生成的主要表结构的 语句及详细说明如下: ( 名称规范库 主键 ( ) 规范名称类型。个人名称: , 团体名称: 标目主键。参照记录的对应标 目记录主键, 当为标目记录时值为 ( ) 款目要素。中文个人名 称, 外国人中译名称, 家族名称, 团体名称等 ( ) 名称的其它部分。对于外国人 中译名称中用中译姓作为款目要素时, 姓以外其余部分的 字母缩写; 团体名称的则从属标目 ( ) 年代以外的名称附加。例如: 性 别、 职业等 ( ) 罗马数字。对应子段 ( ) 会议地址。对应子段 ( ) 年代( 包括朝代) 。生卒年: 生年 卒年, 例如: ( ) 首字母的展开型式。对于外国 人中译名称: 原文姓,原文名。例如: , ( ) 款目要素汉语拼音。全部小 写 ( ) 说明 优先权。当有相同符合条件的记录时, 取优先权大的记录 ( ) ; ( 题名规范库 主键 主要责任者主键 标目主键。参照记录的 应用实践 对应标目记录主键, 当为标目记录时值为 ( ) 责任者 ( ) 题名 ( ) 题名汉语拼音 ( ) 说明 ( ) ; ( 书目 记录数据 主键 ( ) 字符集。 记录的字符 集编码, 如: , 等 记录数据 建立日期 ( ) ; ( 记录字段索引。用于查询 主键 主键 ( ) 索引类型。 : 责任 者, : 题名, : 主题 ( ) 字段 子字段名 ( ) 字段值 ( ) ; ( 作品 主键 规范题名主键 ( ) 责任者 ( ) 题名 ( ) 类型代码。取书目 记 录的 的第 、 位, 位编码内容: 小说, 戏剧, 散文, 幽默、 讽刺作品, 书信, 短篇故 事, 诗词, 演说词, 非文学作品, 多种或其他 文学体裁; 位编码内容: 自传,个人传记, 合 传, 含传记资料 ( ) 说明 ( ) ; ( 内容表达 主键 作品主键 ( ) 类型代码。取书目 记 录头标第 位, 编码内容: 文字资料, 乐谱, 测绘 制图资料, 录像制品、 投影制品、 电影制品, 录音制 品, 录音制品( 音乐) , 二维图形( 图画、 设计图等) , 电子资源, 多载体, 三维制品和教具,拓片 ( ) 语种代码 ( ) 次要责任者主键, 用于比较。 对应书目 记录 、 、 、 字段, 次要责任者 规范记录的主键, 用 , 分隔 ( ) 次要责任者。用于显示 ( ) 说明 ( ) ; ( 载体表现 主键 内容表达主键 书目记录主键 ( ) 类型。保留未使用 ( ) 版本。格式: , ( ) 题名。格式: : , ( ) 主要是 ( ) 所有责任者。对应 , , , 字段, 用 ; 分隔 ( ) 出版发行。格式: : , , , ( ) 载体形态。格式: : : ( ) ( ) 由 的 位和 组成 ( ) 说明 ( ) ) ; 书目记录引入、 聚合 操作过程 ( ) 提取测试数据 为了便于测试, 该系统只用少量数据进行测试。 首先对国家图书馆早期的 万多条 格式的 中文书目数据, 按分类号( 字段首字母) 是 、 类, 并且责任者( 、 、 字段 ) 是曹雪 芹、 高鹗、 米切尔、 施耐庵、 罗贯中、 吴承恩、 谢尔顿其中 之一的条件, 对符合条件的记录输出到一新的纯文本 文件 中, 每条记录一行。由此提取出来的测 试数据共 条。 接下来对 中的记录进行处理。先把 中的每一记录进行分解、 格式化, 生成每一字 段一行的便于查看的格式, 输出到 纯文本文件。 总第 期 年 第 期 现代图书情报技术 然后通过 文件对这些 记录逐条检查, 去除没有题名、 责任者等必需字段的记录及数据有明显 错误的记录。编写程序去除重复的记录, 判别重复记录 的条件是: 字段 、 、 、 、 、 的各子字段值 都相同。处理后的数据保存在 文件中。这样 经过以上处理后共剩下 条记录。 ( ) 名称规范库与题名规范库初始化 根据提取的 记录内容, 初始化生成相关 的主要名称规范记录, 它们是: ( 清)曹雪芹 ( ) ; ( 清)高鹗 ( 约 ) ; 等 等。在此基础上再生成初始的题名规范记录, 它们是: ( 清) 曹雪芹著 红楼梦; ( 明) 施耐庵撰 水浒传等。 ( ) 引入 记录并生成索引记录 从 逐条读入 记录进行处理, 先根据 数据生成书目 记录对象 , 并保存到 表中; 然后对该 记录进 行分解, 建立责任者索引、 题名索引、 主题索引, 保存到 表中, 以供书目检索用。 责任者索引的键值对应的字段及子字段是: , , , , , 等; 题名索引的键值对 应的字段及子字段是: , , , , , , , , , 等; 主题索引的键值对 应的字段及子字段是: , , , , , 等。 ( ) 聚合 记录 对引入的每一条 记录进行处理, 聚合生 成 对象、 对象、 对象, 然后 对由计算机自动生成的这些对象进行检查, 对不能完 全自动聚合的记录进行手工调整。引入聚合的最终结 果如表 所示: 表 引入聚合结果 项目引入、 聚合前引入、 聚合后手工调整后 名称规范库 标目 参照 题名规范库 标目 参照 记录 聚合算法 ( ) 抽取名称规范记录 逐个处理该 记录的责任者字段( , , , , , ) , 如果此责任者不存在名称规范记 录, 则以此字段数据在名称规范库中插入新记录。 ( ) 查找或生成题名规范记录 取该 记录的所有主要责任者字段( 或 ) 对应的名称规范对象生成责任者数组 ; 取该 记录的所有题名字段( , , , , , , ) 生成题名数组 。 将 中的每一个名称规范记录与 中的 每一个题名组成查询条件在题名规范库中查找, 如果 存在符合条件的题名规范记录则保存在 中, 并停止查找, 转( ) ; 如果所有的 和 都查找完, 且不存在对应的题名规范记录, 则取 中的第 个对象与该记录中的题名部分( 如果存 在 则取 , 反之取 ) 生成一条新的题名规 范记录 , 并保存到责任者 题名规范库中, 转 ( ) 。 ( ) 查找或生成 记录 将 与该 记录的作品类型 ( 字段的第 、 位) 组成查询条件, 在 表 中查找, 查找成功则保存到 对象中; 如果查找失 败, 则根据 与该记录的作品类型生成一个 新的 对象, 并保存在 表中。 ( ) 查找或生成 记录 以 、 该书目的语种( 字段值) 、 记录类型 ( 头标第 位, , , 分别为同一类) 、 次要责任 者( 或 、 、 字段, 除 中责任者 外的责任者, 并要转换成名称规范对象形式) 为条件在 中查找, 查找成功则保存在 对象 中; 如果查找失败, 则根据 、 语种、 记录类型、 次要 责任者生成新的 对象, 并保存在 表中。 ( ) 生成 记录 分解出该 记录对应的类型、 版本、 题名、 责任者、 出版发行、 载体形态、 等内容, 并结 合 、 生成新的 对象, 保 存在 表中。 检索、 显示功能的实现 检索功能的实现 系统提供了责任者、 题名、 主题这几种检索条件, 应用实践 匹配方式包括完全相等或部分相等两种方式, 可以单 一或多种条件以 、 方式组合进行检索。系统 先按用户的设定生成检索条件及排序条件, 然后组合 成完整的 语句返回检索结果。 的主要部分 代码为: 显示功能的实现 符合检索条件的作品信息首先以列表方式显示, 选中作品的详细信息以树型方式分 级显示: 作品 内容表达载体表现简单信息载体表现详 细信息。显示效果如图 所示, 采用树型控件实现。 为了提高显示效率, 采用智能化延迟加载技术: 初始时 生成作品及所有内容表达节点内容; 用户选择展开内 容表达节点时, 再生成该内容表达节点的所有载体表 现简单信息节点; 如果该内容表达节点的载体表现节 点小于 , 则同时生成载体表现节点的详细信息, 反 之, 用户选择展开载体表现节点时, 才生成该载体表现 节点的详细信息。 图 作品详细信息 结 语 书目记录要实现基于 模型的 , 最大的困难就是: 将各条独立的 记录 聚合成相互关联的 模型对象, 也就是聚合的过 程。经过实验可知, 从技术上讲, 用 书目记 录实现 模型的 是完全可能的, 但对于大 规模数据的全整实现还具有一定难度。因为聚合的基 础是名称规范库和题名规范库, 我国目前还缺乏较为 完善、 统一的规范库, 并且要构建这些规范库不能只借 助计算机自动完成, 还需要大量的人工参与。此外, 聚 合过程虽然可由计算机自动完成, 但此项任务实现的 基础是高质量的 数据, 现存的书目数据不够 规范统一, 需要花费大量的人力进行审核、 调整。 此系统基本实现了所需的功能, 但还存在一些有 待改进的地方: 没有完整实现 模型的所有对象, 并且对于已实现的作品、 内容表达、 载体表现这些对象 也只实现了部分属性; 所使用的聚合算法并

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论