




已阅读5页,还剩54页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分 类号: 密级: 研 究 生 学 位 论 文 论文题目(中文) 科研数据 的 迁移 和 保存元数据研究 论文题目(外文) 究生姓名 张 民 学科、专业 计算机科学与技术 计算机系统结构 研 究 方 向 服务计算 学 位 级 别 硕 士 导师姓名、职称 张瑞生 教授 论 文 工 作 起 止 年 月 2010 年 9 月至 2013 年 5 月 论文提交日期 2013 年 5 月 论文答辩日期 2013 年 5 月 学位授予日期 校址:甘肃省兰州市 原 创 性 声 明 本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立进行研究所取得的成果。学位论文中凡引用他人已经发表或未发表的成果、数据、观点等,均已明确注明出处。除文中已经注明引用的内容外,不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究成果做出重要贡献的个人和集体,均已在文中以明确方式标 明。 本声明的法律责任由本人承担。 论文作者签名: 日 期: 关于学位论文使用授权的声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属兰州大学。 本人完全了解兰州大学有关保存、使用学位论文的规定,同意学校保存或向国家有关部门或机构送交论文的 纸质版 和电子版,允许论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用任何复制手段保存和汇编本学位论文。 本人离校 后发表、使用学位论文或与该论文直接相关的学术论文或成果时,第一署名单位仍然为兰州大学。 本学位论文研究内容: 可以公开 不宜公开,已在学位办公室办理保密申请,解密后适用本授权书。 (请在以上选项内选择其中一项打“ ”) 论文作者签名: 导师签名: 日 期: 日 期: I 科研数据 的 迁移 和 保存元数据研究 摘 要 数字化科研的发 展和数据密集型科研范式的兴起,迫切需要 有效地 保存科学实验过程中 不断增加的 、日益重要的 科研 数据。 科研 数据可以用 于 重现实验 、验证实验的可靠性和有效性 , 使得他人基于现有的数据提出新的问题、促进科学研究 的 快速发展 。 但是,数据 所处的 软件和硬件 环境 、 数据 格式 的 快速改变给数据的保存 带来了巨大的挑战 。 科研 数据 的 保存不仅要保存数据 本身 ,而且还要提供必要 的 信息,使得 未来的用户 在新的环境中 能 够 访问 、 重用这些数据 。 数据 保存涉及许多复杂的问题 ,包括 数据的 迁移、仿真 ,数据的 完整性、 真实性, 分布式环境中的数据知识库, 元数据等。 本文 以计算化学领域的科研数据为例,研究 数据的迁移和 保存 元数据的构建两方面问题 ,并开发了相关的 软件 。 迁移是将各种私有的科研数据格式转换为通用的、厂商中立的化学数据表示形式 决众多遗留格式的可访问性问题。本文在分析科研数据文件的描述规范的基础上,借助 具辅助建立词法分析器和语法分析器,用于验证科研数据文件是否正确; 通过 分析科研数据文件和 件之间的 结构 映射关系,开发了数据的转换器,实现了科研数据文件到 件的转换。 保存元数据是元数据的一种, 用于 支持 数据保存 知识库中 数据 的 长期保存 过程 ,确保数据的 重用性 。 保存元数据的构建是在验证科研数据文件合法的基础上进行的 。 本 文 开发了元数据 提取工具 获取与 数据 保存相关的元数据值 , 然后 , 利用 据模型, 以 件 的方式 合理地 组织、存储这些 元数据值 , 自动的构建 了科研数据文件的 保存 元数据 。 关键词: 数据 保 存 , 迁移 , 保存元数据, 计算化学 N F of it of in is be be by to a to it to to a to to a of in on of in is to on in to It in In to on of ML is is to ML is a of to in a of in is on In is to ML of is 目 录 摘 要 . I . 一章 绪论 . 1 究背景 . 1 算化学发展现状 . 1 研数据的保存 . 2 究意义 . 3 究现状以及分析 . 4 研数据保存的研究现状 . 4 据保存实现的研究现状 . 4 究现状分析 . 6 究内容 . 6 文的组织结构 . 7 第二章 相关技术概述 . 8 据迁移 . 8 扩展标记语言 . 8 学标记语言 . 9 言分析器工具 . 10 数据 . 10 存元数据 . 11 据模型 . 11 使用 . 14 第三章 科研数据迁移研究 . 15 算化学中的数据描述方式 . 15 算化学中的科研数据及其特点 . 15 用的化学数据描述方式 . 16 换的基本思想 . 16 换的基本理论 . 16 换的基本步骤 . 17 统架构 . 17 据迁移的系统架构 . 17 据迁移的设计原则 . 19 据迁移的实现策略 . 19 据的验证 . 20 件及其输入数据文件 . 20 据验证的实现 . 21 据的转换 . 23 间的映射关系 . 23 关方法的实现 . 24 换中间件的实现 . 25 用展示 . 27 第四章 科研数据的保存元 数据研究 . 29 存元数据的设计 . 29 存元数据的实现模式 . 29 统架构 . 30 要注意的几个问题 . 31 存元数据的核心实现 . 33 心类图 . 33 核心实现 . 34 各个实体模块的实现 . 35 据的不变性、完整性、真实性 . 36 字签名 . 38 用展示 . 40 第五章 总结和展望 . 45 作总结 . 45 来展望 . 46 参考文献 . 47 在学期间的研究成果 . 51 致 谢 . 52 兰州大学硕士研究生学位论文 科研数据的迁移和保存元数据研究 1 第一章 绪论 究背景 以“ 代表的数字化科研和 “数据密集型科研范式 ( ”的出现和发展 1,科学实验产生的 大量 科研 数据 变得和科学文献一样 重要 ,受到国内外科学家 、政府和公众 的普遍 重视 2。科研数据的管理 已经被公认为是高等学校和研究机构面临的最紧迫 的挑战之一。由政府资助的科研项目产生的 科研 数据被看作是一种公共物品,应该 在公众之间共享 。 科 研 数据可以用 于 重现实验 结果 、 验证实验的可靠性和有效性 3, 使得 他人基于现有的数据提出新的问题 1, 4, 5、促进科学研究和革新的快速发展 1, 6。 科学家 认为,现在的科学研究模式已经从 实验 、理论 分析 两种基本的研究模式, 和 以计算 模拟 为主的第三种 研究模式基础上诞生出第四种研究模式 以 科 研 数据探索 为主 的研究模式。 在 2009 年 9 月 10 日出版的 刊“数据共享”特辑中, 就 提到 “科 研 数据的保存和获取是科学研究和发展的前提” 7。 目前 数据探索研究已在生物医学、高能物理、 地球科学、海洋科学等领域得到 了 广泛的应用,并取得了显著的成果。近年来数据重 用 的相关研究工作已逐渐成为各国政府和组织制定中长期科研政策的重要参考依据之一。美国自然科学基金委员会 (定自 2011 年 1 月起, 所有申请资助的科学家,需要 包括两页的科研数据 管理计划 8。 德国资助了与数据保存相关的 28 个项目,超过 990 万欧元。 新西兰政府于近期将数据重用作为科研信息化优先发展方向之一 9。 国内方面,国际科技数据委员会中国委员会于 2011 年 12 月召开了“数据密集型科研与数据科学研讨会”,会议认为数据重用的相关研究 工作对于深化数据密集型科研的发展具有重要意义。 算化学发展现状 计算化学 ( 研究的主要内容包括:化学知识(化学表达式、化合物的物理化学性质 、 化学反应及其机理和条件)的计算机表示;化学信息的组织、管理、检索和深度应用;结构解析; 分子模拟; 药物设计与发现;定量构效关系研究等。 常用的计算化学软件有: 10, S) 11, 12, 13, 14, I 15, 16等。 由于化学研究问题的复杂度不断增加和 计算机技术的发展,化学家愈来愈依赖计算兰州大学硕士研究生学位论文 科研数据的迁移和保存元数据研究 2 化学软件 帮助 科学 研究。 计算化学已经变成一种强大的、有效的、可靠的 探索分子的结 构 和属性的工具。 随着 量子 化学 理论、 计算化学软件 的发展 , 并行计算和分布式计算 能力 的显著 提 升 , 化学家借助计算化学软件进行科学实验时,短 时间内 就能产生 大量的数据 26。 因此,如何 管理这些庞大的数据变 成了一个重要的 问 题 。另一方面 现有的大部分 计算化学软件 都开发了 各自 的数据表示方法, 采用自己私有 的 格式 描述计算 化学 作业 的 输入 数据文件和 结果 数据 文件 ,并且这些 格式之间 的 语法结构相差 很大, 这就给数据的 长期 保存 增加了 难 度。 研 数据的保存 数据保 存 ( 是一系列 的、持续 的 数据管理活动, 用于 长期维护数据的比特流,并确保 数据的 可访问性 和 重用性 17。 数据保存 不仅需要保存 构成 数据集 的比特流 ( ,还需要提供足够的信息 使得 未来的用户能够重新 访问 和重用 这些数据。 对于书籍报纸等物理形式的数据,即使花费再大的努力,总是能够保存好,但是 对于数字化形式的 数据 , 需要特定的计算机程序解释 和呈现 ,因此还需要 提供 额外的元数据 信息,用于描述数据对象 所处的环境和数据的格式 ,包括媒体、硬件和软件环境 等; 另外, 未来的用户很可能不再是数据的创建者,重用数据必须 依赖于 对 数据的正确描述。 因此数据 长期保存 需 要保存两方面的内容:一是 维护构成数据 的比特 流;二是 确保数据在相当长的时间内的可访问性 和重用性 ,这就需要 维护数据 的语义 信息 、溯源信息、身份信息、与其 它 数据的关系和权力信息等 。 由于数据本身的脆弱性和 信息技术的加速发展引起 的 信息技术的改变 和更新 , 科学数据的保存面临了巨大的挑战。 技术 过时 ( 被认为是数据 管理 和长期保存 面临的 最大技术威胁 18。 技术 过时 包括: 存储媒体、硬件和软件、操作系统、应用软件、 文件格式 等的过时 。 比如以前的计算机 具有的软盘驱动器, 现在 的个人电脑基本 没有软盘驱动器了,因此,以前存储在软盘中的信息,由于没有必要的硬件和软件 环境 ,现在已经变得不可读、不可 访问 了。 数字化科研环境的兴起带来的科学研究的数据对象的变化、科学问题复杂度的增加、科学数据量的增加,使得仅有少量的数据(比如科学文献中的数据)得到了较好的 保存 。 科学界 根深蒂固的文化是强调 不断的 发现,对旧的 数据不太欣赏 19。 科学家在 完成一个科研项目 后,忙着写论文、发表论文,然后进行下一个 项目的 研究,而忽略了 保存 数据。科学家在数据收集、分析以及项目完成的不同阶段,可能将数据存储在台式电脑、笔记本、个人存储介质、文件服务器或专用的数据服务器或者是云储存服务上 20,对于 大量的无法 出版的科研 数据,在兰州大学硕士研究生学位论文 科研数据的迁移和保存元数据研究 3 项目结束或是论文结束之后被遗弃, 然后 逐渐 变得不可 使 用。据德国科研机构的科学数据服务和信息系统的人员 计,科学研究中 90%数据变得不能访问了。他的这一说法,也得到了哈佛大 学和美国国家基金委员会的 认 同 19。 究意义 由于计算机技术和化学理论的发展, 化学家 在 科学 实验 过程 中, 短时间内 就能 产生大量的数据。 但是 ,大部分的科研数据并没有出版和共享。这有多方面的原因: 一 是 , 科学界对于数据的保存不是太重视, 通常 每个 科学家 感兴趣的 科研数据 是不一样的 , 他 们 认为 我的数据可能别的科学家没有兴趣, 对于他们不感兴趣的数据, 常常丢弃了,而这些数据对于其他科研人员可能具有潜在的价值 ;二是 , 计算化学领域的科研数据格式大都依赖于各自软件采取的 数据 描述方式,格式众多,不便于保存, 导致 计算化学 中 的 科 研数据 只有小部分通过论文出版得到了 较好的 保存,大量的 科研 数据只能存储在本地的计算机、个人存储设备中,然后会逐渐丢失 ; 三是 ,信息技术的快速发展 和不断变化 ,使得保存数据 、 确保数据的可访问性 和重用性 变得更加复杂 ;四 是,一些科学家担心他们的竞争者从 发布的 数据中推断出 他 们现在的工作 。 从而 导致了大部分的科研数据没有 很好的保存 和 发布, 然后 会 逐渐变得不可 访问 。 因此, 对计算化学领域中的科研数据进行长期保存, 确保在相当长的一段 时间 内数据的可 访问 性和 重用 性 是非常有意义的。 数据保存的研究热点 包括: 数据的迁移、仿真,数据的完整性、 真实性,分布式环境中的数据知识库,元数据等 。本文主要关注 科研数据的迁移和保存元数据的构建两方面 问题 。 通过 将遗留的计算化学软件的数据 描述 文件格式转 换 为当前比较通用 、厂商中立的 化学 数据 表示形式 以 解决遗留格式的可访问性问题; 构建 保存元数据 描述数据文件本身和数据文件的 变化 过程, 用于 支持数据的 长期 保存过程, 使得未来的用户能够访问和重用 数据 。 通过 有效的 保存化学家 科学 实验过程中产生的科研数据, 能够 在一定程度上避免 其他化学家的 重复计算,实验结果能够得到验证, 为开发新方法提供数据 支持; 为数据挖掘提供有价值的 数据 资 源 , 为 论文等 出版物提供支撑信息。 兰州大学硕士研究生学位论文 科研数据的迁移和保存元数据研究 4 究现状以及分析 研数据保存的 研究现状 近几年来,许多国外高校、 科研机构都建立了机构知识库( 简称 ,用 于 管理 、 保存 和分发 本机构科研人员在 科学研究中 的智能输出 21。这些智能输出 包括未出版的论 文、 无法公开发表的论文 以及 一些 科研数据 。机构知识库的主要目的是提供一套用于管理和传播各个部门及其成员创作的数字化产品的服务 ,提供科研数据的开放获取( 和学术交流 。机构知识库 被认为是 能够 直 接访问科研结果的 最具有成本效益的 方式。 机构知识库通过捕获、保存和分发 本 机构的智力 输出 ,能 较为 容易的证明该机构的科学和社会价值。 比较著名的 机构知识库 有剑桥大学 建的 国麻省理工学院 建的 及 大学构建的机构知识库。 这些机构知识 库 主要是保存文本性的数据 , 比如 期刊论文、会议论文、学位论文、技术报告、学习资料、管理资料、图书、课件 。 在化学 数 据 的 保 存 方面 , 剑 桥 大 学 究 组 在基础上,开发了大量的 面向 化学的 机构知识库 , 有。 用于提交、 存储和发布 合成化学、计算化学和晶体化学中的化学资料和科研数据 22;于提交、 存储 和发布论文中出现的化学资料和科研数据 23, 24; 一个管理 化学 晶体数据的 知识库 , 通过 自动的从网络上收集晶体数据 ,然后转换 为基于 数据,添加语义信息帮助浏览 和 检索,并随着 最新出版的 晶体 信息 文献 进行更新 25; 供了组织、共享和检索量子化学中的数据 26。 图建立一个机构知识库联盟,用于管理和分发晶体实验的原始数据和结果数据,并 通过添加保存元数据( , 增强 机构知识库中数据的 长期保存 功能 27, 28。 据保存实现的研究现状 大多数的数据保存知识库都是基于 参考模型 实现的。 开放档案信息系统 是由美国空间数据系统咨询委员会 定 的,最初是作为产生空间数据的形式化标准 , 并在 2003 年作为 标准( 4721: 2003) 发布。 它是一个功能性的框架,描述了数据保存知识库中 基本的数据流向和 需 要的 功能 组件。 认为是高兰州大学硕士研究生学位论文 科研数据的迁移和保存元数据研究 5 度抽象的参考模型,描述了数据保存 知识库 应有的责任, 而不是推荐任何特定的实现 29。它没有涉及任何功能实现的技术细节,比如系统架构、存储或处理技术、数据库的设计、计算平台等。 数据保存涉及许多复杂的问题, 包括数据的迁移、仿真,数据的完整性、真实性,分布式环境中的数据知识库,元数据等 。 迁移和仿真是 两种常用的数据保存策略 。迁移 聚焦于数字对象本身 , 它是 将数据从一个平台转移到另一个平台,包括硬件平台和软件平台。而 仿真不聚焦于数据 对象 ,是通过 模拟 对象的软件和硬件环境 , 重新创建对象的软硬件环境 ,从而 显示和 呈现 数据 。 如何选择保存的策略 依赖于 需要 保存的对象、 数据知识库的要 求 等 。 欧盟的 目 主要研 究了分布式环境中的数据保存, 开发了数据保存的框架和相应的应用程序解决方案 ,维护了数据的长期可访问性,并确保了数据的真实性和完整性。该项 目采用数据格式迁移作为系统的保存策略,利用网格和云环境 维护和管理 众多的 数据, 利用元数据描述数据对象本身和数据的 溯源信息 ,确保数据的长期保存 30, 31。 类似的项目还有 2,它是一个分布式的、 由多个协作的节点构成的数据保存系统,通过执行预定义的工作流实现数据的长期保存 。 荷兰科学数据档案馆的 目下的子项目 在研究将数据迁移为 从而 增强数据的耐用性和重用性 33。 目采用了仿真技术,并开发了一个仿真器 该仿真器 用 写, 利用 拟机 的 优势 ,使得它能在大多数的操作系统和硬件架构上运行 34, 35。 人 基于 考模型,开发了一个新的用于处理溯源数据、描述相关事件的模型确保数据的 真实性 37, 研究数据的完整性和真实性的还 有 37, 38。 元数据即“关于数据的数据”, 用于描述 数据的特点和属性 。 元数据 比较准确 的定义是:用于支持一个特定数据对象的结构化的 数据 ,比如描述、识别、发现、检索、权利管理和保存 39。 本文重点关注用于 保存的元数据,即保存元数据,因此这里主要介绍保存元数据。保存元数据是元数据的一种,用于支持数据知识库中数据的长期保存过程。 美国的研究图书馆组织 究了用于促进数据 图像的保存和访问 的元数据 ;澳大利亚国家图书馆创建了用于 数据 保存的逻辑数据模型 ; 新西兰国家图书馆开发了用于支持新西兰国家图书馆中的数据保存活动的元数据模式;等等 。 在开发数据保存 知识库 的过程中采用了保存元数据 的 还有新西兰国家 图书馆、 目等 40。 利用已存在的 保存 元数据模型 立保存元数据的有 州大学硕士研究生学位论文 科研数据的迁移和保存元数据研究 6 28和 目 41。 究现状分析 综上所述, 机构知识库作为数据保存实现的一种特定形式,用于保存本机构人员产生的智能输出,但是 现 有的 大部分机构知识库 通常很少关注 数据 的长期保存 41对数据的长期保存不太重视 。 国内方面的工作刚刚起步。 因为 他们认为创建机构知识库主要的目的 是 提供一个机构的智能输出的 开放获取,而不是提供数据的 长期保存 ,确保未来用户的可访问性和重用性 。因此 ,对计算化学 科研实验过程 中 产生的 大量 科研数据进行长期保存,确保在相当长的一段 时间 内的数据的可访问性和重用 性 是非常有意义的 。 数据 保存是一个很复杂的问题, 本文 主要 利用数据 格式 的 迁移和 保存 元数据确保 数据的长期保存 。以计算化学领域的科研数据为例, 重点研究 如何实现计算化学 中的 科研数据 格式 的迁移和 保存 元数据的 构建 , 使得未来的用户能够访问和重用 化学家在科学 实验过程中 产生的 数据 。 究内容 本文在 分析计算化学领域的科研数据的特点, 研究 通用的 数据保存知识库的参考模型 相关的理论 和 技术的基础上 , 重点研究了 数据保存中的两个问题: 数据 格式 的迁移和 保存 元数据 的构建 ,并开发了相关的软件 。 数据格式的迁移解决 了 计算化学中 遗留 数据 格式的可访问性问题;应用保存元数据 支持 数据的长期 保存过程, 能够 确保 科研 数据的可重用性 , 使得未来的用户能够访问和重用数据 。本文的 主要 研究工作 包括以下几个方面 : 1) 研究 数据保存相关的理论和技术。 数据保存相关的理论和技术主要包括:开放档案信息系统 参考模型 据保存的策略:迁移和仿真,用于支持数据保存的 保存 元数据模型 及在实现数据迁移和构建 保存元数据的过程中涉及的 技术: 2) 科研数据 迁移 的 研究 。 在分析计算化学中的科研数据 格式 及其特点,以及常用的化学 数据 描述方式的基础上,研究了 计算化学中 的 科研数据 格式 到 式之间的转换。分析了转换的相关理论,提出了 数据迁移 的系统架构 和 实现策略, 并 以计算化学软件例, 研究和实现了 件中的科研数据到 件 的转换 。 3) 保存元数据 的 研究 。 兰州大学硕士研究生学位论文 科研数据的迁移和保存元数据研究 7 分析了 据模型,研究了如何构建保存元数据。提出了构建保存元数据的系统架构, 分析了实现 保存元数据过程中的 重 要模块之间的执行逻辑 、数据的不变性、完整性和真实性 , 并展示了一个 应用实例 。 数据 格式 的 迁移 和保存元数据 的构建 并不是完全不相关的, 迁移 是常用的数据 保存的方法 ,保存元数据用于描述数据文件本身以 及数据文件的变换过程,即数据 格式 的 迁移 过程也必须采用 保存 元数据进行描述。 数据的保存需要保存数据文件本身和 数据处理的 过程。 文的组织结构 论文共分为 5 章,组织结构如下: 第一章 绪论。论述了科研数据保存的研究 背景 , 研究意义, 分析了数据保存的研究现状,然后简述了本文的主要 研究内容 。 第二章 相关技术 概述 。 概述 了 与 本文相关的 理论和 技术 ,包括 数据的迁移 、 语言分析器工具 数据以及 据模型 。 第 三 章 科研数据迁移 研究 。 分析 了 转换的 基本 理论 和实现步骤 , 提 出了数据 迁移 的 系统架构 和实现策略 , 并 以计算化学软件 输入数据文件 为例, 详细描述了数据的验证和数据的转换过程 。 第 四 章 科研数据的 保存元数据 研究 。 提出了构建保存元数据的系统架构,分析了 实现保存元数据过
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 直拉单晶硅的工艺流程
- 如何精心制作化学平衡原理课件2
- 医疗高值低值耗材管理体系构建
- 高级审计师考试关键数据分析与试题及答案
- 无人机飞行风险与管控方法试题及答案
- 高级审计师的市场定位试题及答案
- 医学影像诊断总论
- 2025年运输代理服务合作协议书
- 大卖家亚马逊运营精要
- 消防节能技术考核试题及答案
- 猪病解剖诊断
- 关爱自我,从心开始(主题班会)课件
- 教练技术二阶段讲义(版本一)
- 康复医学课件-第二章 康复评定
- DB63-T 954-2020压力容器安全使用管理规范
- 中国商业航天研究报告
- 红色卡通风全国助残日PPT模板
- 《城市综合防灾规划》教学大纲
- SimMarketing营销模拟实验室操作篇
- 阀门螺栓使用对照表
- HDPE塑料检查井施工工艺
评论
0/150
提交评论