下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 datavault2.0在企业数字档案室建设中的应用浅析 张寅一、对企业数字档案馆的理解随着企业信息化水平的不断提高,在企业内、外部围绕各业务逐步建立了许多信息系统,并形成了大量有价值的数字资源。为了更好地管理、保护这些企业的无形资产,发挥其巨大信息与经济价值,企业数字档案馆建设概念应运而生。国家档案局在企业数字档案馆(室)建设指南中明确提出企业数字档案馆(室)是指“企业运用现代信息技术固化档案工作业务流程,对本企业或与其具有资产隶属关系企业的电子档案或其他数字资源进行收集、整理、保存,并通过网络提供档案信息服务和共享利用的集成管理系统平台
2、”。从定义中不难看出,企业数字档案馆管理的对象主要是“数字资源”,包含了企业内、外部在业务活动中形成的结构化数据(例如关系型数据库)与非结构化数据(例如word、图片、音视频等)。企业数字档案馆的最终目标是希望通过标准化、集中统一的管理手段,确保企业的数字资源能够在长期保存过程中始终提供准确、完整、可用、安全的信息服务。二、data vault 2.0(一)数据仓库与data vault 2.0。数据仓库是企业信息处理的一个基础,它被定义为面向主题的、集成的、随时间变化的、一个支持决策管理的数据集合。數据仓库技术的相关理念与企业档案工作有许许多多的共性,两者都要求在企业级层面对信息进行管理,笔
3、者认为如果把企业数字档案馆理解为一个概念框架,那数据仓库则是实现该框架的重要技术手段之一。data vault 2.0(以下简称dv2)是一个商业智能系统,所谓data vault其真实的名称应为“公共基础性仓库架构”,该系统包含了与数据仓库设计、实施和管理的相关业务。在data vault 1.0时期其高度关注数据建模的部分,2.0版本在原有架构基础上进行了广泛扩展,增加了许多在数据仓库和商业智能方面成功的必要组件,具体包括:1.dv2建模:对模型性能和可扩展性的更改。2.dv2方法:遵循scrum和敏捷最佳实践。3.dv2架构:包括nosql系统和大数据系统。4.dv2实现:基于模式、自动
4、化生成cmmi级别5。这些组件在企业数据仓库项目的总体中起着关键作用,本文主要针对dv2架构与建模进行介绍。(二)data vault 2.0架构。dv2架构基于三层数据仓库架构,三个层次一般理解为暂存区(或集结区)、数据仓库和信息市场(或数据集市),“图1”展示了dv2总体架构的概览。其主要特点包括以下几点:1.暂存区中不存储历史信息,同时不支持数据修改,但当数据仓库可以支持近实时处理时,对暂存区的需求和依赖度会下降,实时数据可直接传输至数据仓库层;2.数据仓库层遵循data vault建模技术。3.架构支持一个或多个依赖数据仓库的信息集市,而元市场(meta mart)是一个非常重要的组成
5、,负责收集整个数据仓库的元数据信息。4.架构分离了软硬业务规则,使企业数据仓库成为一个面向原始事实的记录系统(raw data vault),并随时间推移不断装载原始事实。5.包含一个可选的“指标库”(metrics vault),即用于捕获和记录运行的相关信息。6.包含一个可选的“业务库”(business vault),即按照业务规则或需求将原始数据变换为业务所需或理解的数据。7.包含一个可选的“操作库”(operational vault),即某些业务系统可直接将数据存储到数据仓库中,例如主数据管理、元数据管理、实时采集等。8.自助bi(business intelligent),允许业
6、务人员在不涉及信息技术的情况下,可自由执行自定义的数据分析任务,并允许将它们回写至数据仓库层。9.架构可与大数据处理hadoop或nosql无缝对接,主要用于海量数据存储与执行数据挖掘。(三)data vault 2.0模型。dv2模型是一个面向细节的、可追溯的并且唯一链接的规范化表集。从建模风格上看,它采用了一种由第三范式与维度建模方法混合而成的方式,以二者的独特组合来满足需求。dv2在建模过程中采用了中心辐射型图形模式,这意味着除了由基础设施造成的限制之外,其可以表示的数据规模不存在已知的固有限制。在dv2模型中有三个基本实体,各个实体均已散列码为主键(pk):1.中心表(hub):唯一业
7、务键列表,存储各业务对象的业务键及相关元数据,标准的结构包括散列键、业务键、加载日期、记录来源等属性。2.链接表(link):记录中心表键与键之间唯一关系的列表,表示业务对象间的关系或联系,标准的结构包括散列键、加载日期、记录来源等属性。3.卫星表(satelite):历史的描述性数据,存储业务对象、关联性等具体属性信息,并通过主键外联中心表或链接表,标准的结构包括散列键、加载日期、记录来源、父散列键、失效时间、散列校验值及业务属性等。三、应用前景分析(一)在资源整合方面的应用。企业数字资源大多由前端业务系统产生,这些系统在设计、建设时往往只考虑自身纵向的业务逻辑与功能需求,缺少了在企业层面统
8、一的数据规划与语义标准,例如不同的系统描述同一个员工的唯一标识(id)可能不同,异构的数据源给数字档案馆在数字资源整合带来很大困难。在dv2中,由于使用散列键作为中心表的主键,使用“same-as”卫星表可很方便地整合对同一业务对象的不同标识,而不需再为改变源系统中的业务键而发愁。同时面对整合过程中出现数据类型与粒度的不匹配情况,中心表可以按照数据来源与变更的频率,通过散列键外联多个卫星表,从而确保异构数据源能够迅速整合及数据原始性。此外,散列主键还可以无缝对接hadoop或nosql,从而进一步实现文档、图片、视频等非结构化数字资源的整合与海量存储。(二)在资源真实性鉴定方面的应用。企业数字
9、档案馆其中一个重要目标是要做到维护历史数据的真实性,这种真实性体现在两个方面:一是技术真实性,即数字资源在长期保存过程中没有被误改或篡改。二是来源真实性,即数字资源记录了真实的业务活动。如何确保数字资源的真实性与可追溯性也是在集成管理和长期保存中亟待解决的难题。在dv2架构中要求建立一个面向原始事实的记录系统(raw data vault),存储在数据仓库层的数据可以拥有不同的版本与失效时间,但不可修改。在中心表、链接表、卫星表均记录了数据的来源与加载时间,卫星表中还通过保存各属性的散列运算值提供校验。可以说dv2架构可追随、可审计性为数字资源的真实性鉴定提供了有力保障。(三)在数字资源利用分
10、析方面的应用。现阶段企业档案管理部门针对数字档案馆建设主要围绕着馆藏档案数字化和档案全文数据建设以及服务利用信息化、网络化。这种服务比较原始、单一,更多的被动等待式的利用。数据时代背景下没有经过分析、挖掘,难以体现数字资源自身及集中管理的价值。而在dv2架构中由中心表、链接表和卫星表组成的中心辐射型模型可以非常简便地转化为维度模型,并在灵活的软规则变换中(即不影响原始数据的前提下)迅速地构建多种信息市场(或数据集市),实现数字资源的复用和分析挖掘,同时因架构良好的扩展性,大大降低了因企业内部需求变化或多部门观察角度不同,导致信息市场重建的风险。【参考文献】1付华,王雁宾,姜延溪,蔡盈芳等.企业数字档案馆(室)建设指南z.国家档案局:国家档案局经济科技档案业务指导司,2017.2dan,linstedt,michael,olschimke.buildin
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论