数据溯源技术综述.docx_第1页
数据溯源技术综述.docx_第2页
数据溯源技术综述.docx_第3页
数据溯源技术综述.docx_第4页
数据溯源技术综述.docx_第5页
免费预览已结束,剩余2页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

小型微型计算机系统2012年9月第9期Joumal of ChiIlese Computer SystemsV01339 2012数据溯源技术综述明 华1,张勇12 ,符小辉41(清华大学计算机科学与技术系,北京100084)2(清华大学信息技术研究院,北京100084)3(清华信息科学与技术国家实验室,北京100084)4(北京市延庆县91290部队,北京102100)Email:zll孤gy叽905tsinghuaeducn摘要:系统介绍数据溯源的定义,并从数据溯源的方法、模型和应用等三个方面进行了总结概述了7种数据溯源模型:流溯 源信息模型、时间一值中心溯源模型、四维溯源模型、开放的数据溯源模型OPM、P蛔veIlir数据溯源模型、数据溯源安全模型和 PrIrIt数据溯源模型,总结出异构数据的溯源模型并对目前最为广泛的几种溯源方法进行分析和比较,在此基础上,为达到节 省存储空间的目的,提出标注信息列存储的思想本文分别从数据库领域、工作流领域和其它应用领域三个方面描述了数据溯 源的应用。并结合典型的实例加以说明最后展望了数据溯源的研究热点以及发展方向关键词:数据溯源;数据追踪;标注法;数据溯源模型中图分类号:哪ll 文献标识码:A文章编号:10001220(2012)09-1917聊Survev of Data ProvenanceMG Hual,刁ANG Yon912”,FUao-hlli41(D印n砌圯町D,C钿lPM鲫妇竹c已口以乃曲,ID妞y,乃伽g咖fw瑙毋。玎加g 100084,劬讯口)2(R删枷加硎m地D,啦向册口砌n死曲nD虹gy乃咖咖汹E,n池捌秒,曰P玎垤100084,C舫埘)3(乃嘲M砌船f肠切阳fD口归r趣p,M砌ie,lce册d死c,lD正D。&狮g 100084,鳓汛口)4(日e玎妇y4ng咖91290 A朋)7BP玎诹102100。C妇)Abstmct:T11is paper in缸oduces me concept of data prov即粕ce,彻d iIlvesdgates it舶m three aspec乜:m劬od,model趾d applica- tion Seven da诅provenance models are p陀sented:now iIl|b皿衄时on model,tiInevalue cenic model,follr dim肋sions model。openpmven姐ce model-PIDVenir model,data pmVenances security model锄d Pdnt modelB懿ed on these models,we pr0Vided a纰pmven孤ce modd forheterogeneousBased on ttle锄alysis of seVeral popIllarpro、7en柚ce m悯s-wepmposed a memodto extend me labelir喀memod wim colu枷storageWe described data proVenafIce appHcations in tlle fields of出I切baSe 1 wodmow锄dotllerThe typical appucation c硒es am pmVidedAt 1ast。le hot research spots and曲伐tions are舀VenKey words:data provenance;da矗n钯ldng;l蛐g memod;data pfoven柚ce modell数据溯源概述为数据溯源是一种元数据,用来记录工作流演变过程、标注信 息以及实验过程等信息在其它一些领域中还有其它一些叫11数据溯源的概念法:如数据族系(Da诅L血eage)、数据系谱(Data Pedigr)、数数据溯源是一个新兴的研究领域,诞生于20世纪90年据来源(Data origin)、数据世系等戴超凡等刊将数据溯源定代,由“data proven柚ce”翻译而来当初,某些文献将其称为数据志或数据档案,后来,大部分文献将其命名为数据起源, 义为记录原始数据在整个生命周期内(从产生、传播到消亡)的演变信息和演变处理内容有追踪数据的起源和重现数据的历史状态之意而我们在本文中将其称为数据溯源,溯本追源的意思,从应用的角度出我们认为,Da诅Pfovenance应该翻译成“数据溯源”,强 发,强调追踪的过程和方法调的是一种溯本追源的技术,根据追踪路径重现数据的历史目前,数据溯源还没有公认的定义,因应用领域不同而定状态和演变过程,实现数据历史档案的追溯 义各异simInll锄et al将数据溯源定义为从源数据到数据产12数据溯源发展现状品的衍生过程信息”o;Bun锄锄et al旧3在数据库领域将其定 国内关于数据溯源研究较少戴超凡o比较系统地研究义为“数据及其在数据库问运动的起源”;L蚰魄在GIs中将了数据仓库系统中数据溯源追踪技术;刘喜平等u副总结了目 其定义为:数据溯源是对目标数据衍生前的原始数据以及演前计算数据溯源的主要方法和应用;李亚子一1研究了数据溯 变过程的描述;Greenwood等人对L柚ter的定义进行拓展,认源追踪标注模式与描述模型,引入了数据溯源的7w模型;收稿日期:2011扔_23收修改稿日期:20ll11一03基金项目:国家“九七三”重点基础研究发展计划项目(2011cB302302)资助;铁道部基 金项目(20091111068)资助 作者简介:明华。男,1978年生,硕士研究生,工程师,研究方向为数据库;张勇。男,1973年生,博士,副研究 员,研究方向为数据库、数字图书馆;符小辉,男,1977年生,工程师,研究方向为装备工程万方数据1918小型微型计算机系统2012年王黎维等研究了对象代理数据库的科学工作流服务框架中的 本文第一节对数据溯源进行概述第二节讨论了数据溯 数据跟踪模型 ,并提出了一种双向指针机制的数据追踪方 源模型,在前人研究的基础上提出了异构数据的数据溯源模 法李秀美研究了数据溯源本身特有的安全需求以及广播的 型第三节分析了数据溯源的计算方法并提出了使用列存储 加密方案“,构建了新的数据溯源安全模型戴超凡等全面 节省存储空间的思想第四节阐述数据溯源的应用,并对每个 系统地做了数据溯源的综述o“,介绍了数据溯源的基础研究 方向的应用加以实例说明第五节介绍数据溯源的研究热点 和开放环境下两个典型的形式化模型和应用方向最后对数据溯源技术的未来发展进行展望国外已经有很多大学和研究机构将数据溯源作为研究课题,引起很多专家学者的高度关注,我们将在下面详述z抽o-2数据溯源模型wei Bet a1旧1开发了一种紧密而有效的可达性标签方案用21数据溯源模型架构 于解答有关运行在规定说明的工作流溯源的质疑这种标签建立一个有效的数据模型是数据溯源技术关键所在,根 方案在某种意义上来讲是最优的,因为它使用对数长度、在线 据模型可以初步确定数据溯源的大体步骤,以及数据溯源的 时间运行并能回答任何常规时间中可达性问题Wenchao 基本思路戴超凡哺1从数据溯源信息管理的角度出发,提出盈ou et al提出了ExSp姐(可扩展的溯源感知的网络系统)设了一种数据溯源模型,但是并没有考虑数据的异构性,随着数计与应用口J,Exsp哪是在分布式环境中能有效进行网络溯源 据规模的日益庞大以及数据结构的逐渐复杂,不考虑数据的 的通用、可扩展框架平台,并为网络溯源存储定义了一种分布异构特点将很难适合时代的需要,因此,上文提出的数据溯源 式模型,用数据溯源的理念来解释网络中存在的各种状态,并 模型只适合同构的数据溯源情形,并不适合于复杂数据我们 提供了一种多功能网络机制Grig丽s Karvoun越ll【is et al 提 在此基础上提出了异构数据的数据溯源概念,考虑到数据的 出了一种基于元组、半环溯源的Pr0QL(or Prov锄ce Query异构分布的特性,在原有模型上加入异构分层的三维模型我 L柚gIlage)语言,能够解决溯源存储、维护和查询等相关问题 们采用以横轴表示时间(t)、纵轴表示过程(p),z轴表示数据 国外对数据溯源的发展越来越重视,有多个国际会议以此为 的异构分布特性将数据溯源信息保存到不同的数据库中,形 会议主题比如:worl(shop on Da协Prov粕ce柚d Annota60n 成携带溯源信息的异构数据库(如:Accs,sQLse盱、0racle (WDPA),Worl【shop 0n把1ko珂and Pracdce of Proven姐ce等),通过数据库接口(0DBc、JDBC等)以及数据转换工具 (TaPP),IIltemalional proven她ce锄d Annotation wor虹hop汇聚成统一的目标数据库。此时,目标数据库携带了数据溯源 (IoAW)等信息这个过程的逆过程所经历的路径能够实现数据溯源的近年来,有一些研究者对数据溯源进行了综述,现将相关 各种操作(如:数据追踪、信息评估、过程重现等),从而,完成 的综述与本文的区别描述如下:刘喜平等。刊着重分析了数据数据溯源的任务表示了异构数据的溯源模型 起源计算的两种方法:查询反演法和标注法,强调了两种方法这种模型由以下几个部分组成:获取信息部分、信息存储 的实现,比较了两种方法的特点;然而,并没有提到其它的计部分、异构数据处理部分 算方法,也没有提出新的思维方式本文在介绍数据溯源计算信息获取:数据溯源的实现过程中,溯源信息是关键,它 方法时,比较了反向查询法和标注法的优缺点,针对标注法需记录了数据如何能追踪历史的重要信息,根据这些信息可以 要额外的存储开销,提出标注内容列存储的思想还提到以下 追踪数据的历史档案,重现数据的演变过程然而,“溯源信 几种数据溯源方法:通用的数据追踪方法旧J,双向指针追踪 息如何获取?记录哪些内容?”等问题一直没有统一的答案 法 ,利用图论思想和专用查询语言追踪法 ,以位向量存 早期的研究往往只考虑某个数据项的来源,并不关注整个数 储定位4 3等方法Yogesh口1的综述中提出了四个数据溯源分 据从哪里来,这样只能追踪局部数据的历史根源,而达不到整 类标准,认为数据溯源是元数据的一种,用于跟踪数据演变的 个数据溯源的目的除此之外,还把标注信息当作元数据一起 过程,强调数据溯源在科学领域和商业领域的重要性戴超凡保存于数据库中以供查询,这样往往难以管理随着数据量的的综述o中,只介绍了两种比较典型的模型,即开放的数据增大和研究的深入,Bu鹏I姗等人逐渐改进和完善这种模式,起源模型oPM和ProveIlir模型而本文涵盖了此两种模型外提出why和where型provance,后来又分出how p州锄ance还介绍了另外5种模型,系统全面的介绍了近年来数据溯源等然而,这种分类并不适合其它工作流领域,于是,Su血a等的各种模型,而且,提出了一种异构数据的数据溯源模型图,人提出一个7w模型旧J,这种模型包括:who、when、慨、比较符合当今数据所具有的异构、分布等特点数据世系管理 how、wllich、what、why七个部分的内容此模型虽然详细且非 技术研究综述1中将数据世系主要分为模式级和实例级演 常周全,但是需要一定的存储开销 化过程,以模式级和实例级数据世系的表示、查询为主线综述信息存储:刘喜平纠介绍了两种数据溯源存储方法:一 了数据世系的发展历程,并提出四个热点研究方向分别是:数种是基于RI)BMs存储方案,此方案是基于关系型数据,通过 据空间中的数据世系、不确定数据的世系管理、工作流世系管扩充属性的方式来存储溯源信息,即将溯源信息直接存储在 理、数据世系的挖掘和可视化而本文以数据溯源模型为主,关系数据库的二维表中另一种是基于树型文档存储方案树 综述了近年来比较典型的模型,提出了异构数据的模型图在 型存储方案是将元组、属性、溯源信息作为树的结点来存储, 介绍热点方向时认为数据溯源的安全问题以及统一业界标准 对于带有标注的源数据需要在原树型结构中增加一个子结点 也属于数据溯源的研究热点方向 (pven锄ce结点)用来表示信息的来源并对每个带标注的万方数据9期明华等:数据溯源技术综述1919源数据都需添加一个hmf属性,将其链接到源数据结点要 型专门处理医疗事件流的溯源信息根据数据中的时间戳和 实现数据溯源,溯源信息的存储非常关键因为溯源信息需要流D号来推断医疗事件的序列和原始数据的痕迹 存储空间来存储,存储方式对数据溯源的性能起着关键性的3四维溯源模型是由Y(gesh L-Sjmmhan等人提出此 作用模型将溯源看成一系列离散的活动集,这些活动发生在整个异构数据处理部分:随着时间的推移和应用的需要,将产工作流生命周期中,并由四个维度(时间、空问、层和数据流 生各种各样异构的数据源(比如:Access、sQIjen,er、Oracle分布)组成四维溯源模型通过时间维区分标注链中处于不等等)这种异构数据源如何实现数据溯源呢?这是业界一 同活动层中的多个活动,进而通过追踪发生在不同工作流组 直想解决的一个重点和难点问题应用程序想要操作不同类 件中的活动,捕获工作流溯源和支持工作流执行的数据溯源 型的数据库只需要调用数据库访问接口(oDBc、JD旧c等)支 4开放的数据溯源模型oPM持的函数,动态地链接到驱动程序上即可再通过数据转换工 在首届I咄棚atial Prov钮ance柚d加lnotalion W讲lcshop具形成统一的目标数据库数据溯源信息通过这种途径就能 (删)会议中,与会者对数据溯源的描述产生了一些共同传递到目标数据库中的观念,并提出了一种原始的数据模型后来,南安普顿大学等组织整理了会议的主要思想并发表了题为“1k 0p吼Prov一锄ce Model”文章,文中提及的模型基本形成业界信息交换 标准,定义一些具体的格式和协议就能应用到实际当中当然,还需考虑与其它模型的兼容问题,文献mdd螂et al引中提出了一种将NCR模型映射到oPM模型的自动转换方法 5ProveIlir数据溯源模型2008年,在由FreiIe和M嗽n组织的第二届卫隧w会议中,sahoo等人提出了Provcnif数据溯源模型,该模型使用 w3c标准对模型加以逻辑描述,考虑了数据库和工作流两个 领域的具体细节,从模型、存储到应用等方面形成了一个完整 的体系,成为首个完整的数据溯源管理系统用分类的方式阐 明它们之问的相互关系该模型提供对数据产生历史的元数 据、原数据、修改元数据等功能,并使用物化视图的方法有效 解决了数据溯源的存储问题图1异构数据的溯源模型6数据溯源安全模型Fig1Da诅pmVcn锄ce model fbr heteI09eneous da诅数据溯源技术能够溯本追源,通过其起源链的记录信息来实现追源的目的,但是记录信息本身也是数据因此,同样22几种主要的数据溯源模型介绍存在安全隐患,为了防止有人恶意篡改数据溯源中起源链的 目前,数据溯源模型主要有流溯源信息模型、时间值中相关信息,李秀美等2010年研究了数据溯源的安全模型Ll ,心溯源模型、四维溯源模型、开放的数据溯源模型、PlDve曲 利用密钥树再生成的方法并引入时间戳参数,有效地防止某数据溯源模型、数据溯源安全模型,眦lt数据溯源模型等,这 人恶意篡改溯源链中的溯源记录,对数据对象在生命周期内些模型都建立在不同领域、不同行业2008年5月王黎维等 修改行为的记录按时间先后组成溯源链,用文档来记载数据 人发表的集成对象代理数据库的科学工作流服务框架中的 的修改行为,当进行各种操作时,文档随着数据的演变而更新 数据跟踪刚中提出了一种部分物化中间数据模型,Grig面s 其内容,通过对文档添加一些无法修改的参数比如:时间戳、 Karvo岫锄bs ct al提供了一个高层次的图形工具开发模 加密密钥、校验和等来限制操作权限,保护溯源链的安全型 来检索数据,而无需知道它的物理细节下面简单介绍 7胁lt数据溯源模型一下几种模型PrInt是一种支持实例级数据一体化进程的数据溯源模 1流溯源信息模型由6个相关实体构成,主要包括流实型该模型主要集中解决一体化进程系统中不允许用户直接 体(变化事件实体、元数据实体和查询输入实体)和查询实体更新异构数据源而导致数据不一致的问题由Pdnt提供的再(变化事件实体、接收查询输入实体,包括元数据实体)实体 现性是基于日志记录的,并将数据溯源纳入一体化进程 间关系密切,通过这种密切的关系可以根据数据的溯源时间 以上七种模型是比较经典的模型,其中,对于前三种模型来推断数据溯源而言,流模型和时间雀模型没有明确指出对聊模式的支2Bow哪s提出的T吼e-Val鹏Centric(TVc)模型又称持,只有四维模型支持动态构建数据溯源图,能根据一系列溯时间值中心溯源模型瞄J,是一种简单有效的溯源模型由于 源事件以及数据结点和服务结点所构成的数据流边来构建 过去的溯源模型无论是基于标注的还是基于过程的溯源模型 存在的不足之处在于形成过程不直接,难于理解后面几种模 都用于面向交易的系统中,并不适合高容量特定需求以及连 型是从不同的角度,不同层次,针对数据溯源的某种特性而建 续的医疗流于是,提出支持医疗领域数据源特点的TVc模 立起来的模型随着时间的推移,数据溯源模型会越来越多,万方数据1920小型微型计算机系统2012年但基本上都将从如何实现溯源的目的以及其本身的安全方面压缩溯源信息实现数据溯源的思想首先,将源数据与元数据 着手,以上几种模型除了数据溯源安全模型是介绍溯源链本 (标注内容)分离,通过索引建立两者的关联然后,将独立出 身的安全外,其它几种模型都是建立在如何实现溯本追源的来的标注内容进行列存储,改变传统的行存储方式,存储时相 基础上的,但,每种模型各具其特点,风格不尽相同另外,还 同的内容只需存储一次,其它只需要保存行号即可比如(张 有人提出DNA双螺旋结构的数据溯源模型,利用DNA复杂 三修改,1,5,8,1001),元组1、5、8记录相同的标注内容(如: 结构与数据溯源进行类比,将DNA中的两条链分别代表数 张三修改),那么只需要记录元组的行号(1、5、8)而不需要存 据序列和操作序列,连接两条链间的碱基代表关联数据和操储相同的内容(如:张三修改),这样将节省很多的不必要的 作的属性通过这种对应关系建立起一种DNA双螺旋结构存储空间其中1001是指存储的扩展当相同的信息超出预 模型先定义的数据块时,需要引用这种扩展方式,如果预定义的块 建立了数据模型之后,以下介绍数据溯源的方法只能存储20字节,但元组中还有很多相同的记录(比如:12、28、50等等)其实,1001是一指针,指向(张三修改,12,28,503数据溯源方法),通过这种扩展的方式,就可以递归实现相同内容的压 目前,数据溯源追踪的主要方法有标注法u和反向查询缩,达到节省空间的目的法引除此之外,还有通用的数据追踪方法四1,双向指针追以上主要介绍标注法和反向查询法,以及采用列存储思踪法01,利用图论思想和专用查询语言追踪法1,以及文献想改进的标注法,下面简单介绍其它几种数据溯源方法,通用提出以位向量存储定位14 3等方法 的数据追踪方法引用追踪路径和追踪图的概念,将表视图作 标注法是一种简单且有效的数据溯源方法,使用非常广为元数据存储为特定的存储图,通过解析程序提出查询的特 泛通过记录处理相关的信息来追溯数据的历史状态,即用标殊追踪路径,根据路径从数据库中提取出所需要的数据位向 注的方式来记录原始数据的一些重要信息,如背景、作者、时量存储定位法只能记录简单数据处理路径,不能处理复杂的 间、出处等,并让标注和数据一起传播,通过查看目标数据的处理过程双向指针追踪法也只能针对特定数据格式类型,通标注来获得数据的溯源sudlla等人提出的7w模型,就是采用性比较差然而,利用图论思想的方法还没有完全实现 用标注法,事先标记并携带溯源信息完成数据溯源的模型,被表1溯源模型与溯源方法对应关系称为eager方法采用标注法来进行数据溯源虽然简单,但存1able l The relalionshjps be呻朔l储标注信息需要额外的存储空间pIDVenance models柚d metllods反向查询法,有的文献也称逆置函数法由于标注法并不模型 流溯源 时间值中四维溯源开放的数据Provenir数据适合细粒度数据,特别是大数据集中的数据溯源,于是,19方法 信息模型心溯源模型模型溯源模型oPM溯源模型提出了逆置函数反向查询法,此方法是通过逆向查询或构造 标注法 逆向函数对查询求逆,或者说根据转换过程反向推导,由结果反向查询 追溯到原数据的过程这种方法是在需要时才计算所以又叫两者结合、 lazzy方法8详细论述了数据库中逆置追踪数据溯源的机制反向查询法关键是要构造出逆向函数,逆向函数构造的好数据起源技术发展研究综述71以及数据溯源研究综与坏直接影响查询的效果以及算法的性能,与标注法相比,它述15 3中都没有将数据溯源模型与溯源方法清楚地列举出来 比较复杂,但需要的存储空间比标注法要小 以下是数据溯源模型与数据溯源方法对应关系见表1下面将标注法与查询法进行比较,列出其优缺点4数据溯源的应用标注法的优点:实现简单,容易管理,其缺点:只适合小型系统,对于大型系统而言很难为细粒度的数据提供详细的数数据溯源最早仅用于数据库、数据仓库系统中,后来发展 据溯源信息,因为很细可能导致元数据比原始数据还多,需要 到对数据真实性要求比较高的各个领域:如生物、历史、考古、 额外的存储空间,对存储造成很大的压力,而且效率低 天文、医学等随着互联网的迅猛发展以及网络欺骗行为的频 逆置函数反向查询法的优点:追踪比较简单,只需存储少繁发生,人们越来越怀疑数据的真伪,对数据的真实性要求越 量的元数据就可实现对数据的溯源追踪,不需要存储中间处 来越高数据溯源成为考究数据真假的有效途径,掀起了一波 理信息、全过程的注释信息其缺点:用户需要提供逆置函数 数据溯源研究的热潮,因此,数据溯源追踪逐渐扩展到计算机 (并不是所有的函数都具有可逆性)和相对应的验证函数构各行各业目前,研究领域已经覆盖到地理信息系统(GIS)、 造逆置函数具有一定局限性,实现相对比较复杂 云计算、网格计算、普适计算、无线传感器网络和语义网络等针对标注法需要占用额外的存储开销这一不足,我们提 其中,数据溯源在数据库和工作流领域的研究最为流行 出引用列存储的方式来存储标注信息,列存储的一大优势在数据溯源的应用归纳起来就是三个方面:数据库方面的 于它能实现压缩存储,节省存储空间,正基于这一优势将列存应用、工作流方面的应用、其它方面的应用 储引入到数据溯源标注法中标注法需要记录标注信息,如果41在数据库中的应用 把这些内容完整记录下来需要大量的存储空间因此,考虑压 追溯数据溯源的源头可以从研究数据库、数据仓库开始 缩的方法进行存储下面我们介绍如何应用列存储的技术来 1991年,L锄ter等人开发的Lm系统,用于管理GIs数据的信万方数据9期明华等:数据溯源技术综述1921息演变,可以称之为数据溯源的开山鼻祖执行,它是面向e-science,服务于科学家,为他们提供更易分 数据库应用中采取的追踪方法主要是注释法和反向查询析和管理的数据科学工作流采用数据驱动模式,在数据处理 法因为两种方法各有其优势,注释法管理简单,DBNotes系过程中,前一级的数据输出成为下一级处理的数据输入而 统u是其典型的代表;而反向查询法追踪简单,典型的系统且,科学工作流的定义与设计都是动态的,整个任务序列是不 有Trio刮和P锄da【17 J所以经常采用两种方法相结合的方式 确定的,需要根据前一个任务的处理结果来确定下一个任务 进行数据溯源的追踪但是,数据库中倾向于采用反向查询进科学工作流强调数据的可信度,实现数据溯源对每一步的处 行跟踪文献18首次提出利用反向查询进行数据跟踪的观理过程可信度存在较高的要求,对全程数据的变化需要进行点19提出建立函数用反向查询方式进行数据库系统中的监控 数据溯源追踪,但是,他们的方法只局限在一个DBMs中,如早在1997年,Ge0一o阻系统就是数据溯源追踪在工作 果在多个DBMs中就无法实现数据溯源追踪21论述了如流中的应用实现了在分布式环境下的数据流、转换过程和数 何在关系数据库中计算数据溯源的方法,从而解决了来自不据溯源追踪等功能工作流中的数据溯源信息能够为用户评同数据源的数据溯源问题6提出当数据在多个数据库之估数据质量、重现实验过程、挖掘潜在的数据关系等06年和间传播处理时,由于源数据库和目标数据库之间不存在任何08年两届删会议的主题都于工作流的数据溯源相关,数关联,无法实现跨数据库的追踪查询因此,单个DBMs中的 据溯源在这个领域的研究很受重视zhuo眦i Bet al利用 数据溯源方法将无法在多数据库中使用为了解决在不同 框架标签为工作流溯源设计了一种紧密而有效的可达性标签 DBMS中数据转换问题,Clli等人通过深入调查研究,提出了 方案嵋J,使用对数长度、线性时间运行、能够回答几乎所有的形式化的跟踪法则,通过定义一系列转换属性,并根据这些属常规时间里的可达性查询Mallish K啪盯et al为科学工作流 性提出了一种新的追踪方法Grig耐s et al 开发了一种查询溯源提供一种高效查询图形技术MJ 语言(ProQL),为基于元组溯源半环溯源采取最普通的获取在工作流中数据溯源信息一般有两种方法:形式,提出支持查询语言对数据源的存储、处理和索引方案, 1日志法,即从日志文件中获取比较简单的溯源信息,不 可以解决增量维护、信任评估、关键字搜索以及数据库查询概能实现工作流程的任意修改逆流,这种方法应用不多 率回答等问题下面对数据溯源在数据库应用中几种典型的2将数据溯源信息记录在工作流引擎设计中,以便进行 系统做一下简单的介绍:管理1DBNotes系统【“】下面简单介绍国际上比较成熟的科学工作流系统 DBNotes系统是非常典型的采用注释方式存储和管理的1K印ler“数据溯源系统系统为每个数据项都赋予了一个全局标识 Kepler是由uc Davis、uc s锄ta Barb椭等合作研制的, (D),在查询检索或处理演变过程时,该系统提供了三种传 是开源的java程序系统构建于另一个开源可视化建模系统 播注释信息策略,以供用户进行选择但系统的不足之处在于 Ptolemy之上,为科学家提供了一个方便易用的工作平台 两个方面的问题:l、等价查询可能会得出不同的结果2、不能 通过记录工作流执行状态,可以重现整个操作的全过程该系实现非查询类操作,比如统计、求和等方面统是一个通用的自动工作流管理系统,也是一个数据溯源管2o系统6】理系统。能够实现工作流的创建、运行和共享一体化,在数据 斯坦福大学研究的Trio系统非常具有代表性,此系统采溯源管理方面,通过跟踪数据项以及数据聚合的历史记录,将用关系表描述及存储Trio是一个综合管理系统,实现了对传结果反馈给用户 统的关系数据库管理系统加入数据溯源的管理将数据、转Kepler系统允许科学家设计科学工作流,并使用基于网 换、溯源有机的结合在一起该模型支持基于sQL的查询语格的分布式计算方法执行这些工作流广泛应用于地理学、生 言TdQL,是对关系模型的扩展,广泛应用于科学数据、信息 物信息学、化学等科学领域用户即使没有计算机背景,也可 抽取、数据集成等领域 以使用标准组件生成工作流,或者根据需求修改现有的工作3P肌da系统【17】流模型该软件集成了Maab、R等数据分析软件 PaIlda系统目前正处于开发阶段,还没有投入到实用过2Tavema程中,目标是整合基于数据和基于过程的两种类型数据溯源,Tav啪a系统由My嘶d团队创建,受0uK资助由希望实现一个通用的获取数据溯源、存储、查询于一体,方便 可用服务面板、工作流图面板和高级模型浏览器三个主要部 灵活、可配置各种应用的开源系统无缝合并基于数据和过程 分组成Tavema是一个开放源码的独立工作流管理系统,用 的溯源,为用户提供一个全方位的从细粒度到粗粒度的数据 于在设计和执行实验科学的工作流程和助手工具套件Tav-溯源模型,开发一种通用语言用于查询和分析溯源信息锄a系统采用scU】也来创建科学工作流,它定义的工作流,42在工作流中的应用通过控制流模型来描述各种任务之间的关系,并利用控制结 工作流的概念溯源于办公自动化领域根据一系列规则,构(比如条件判断、循环语句等)来处理科学研究各步骤的关 把资料、文档、信息以及任务在参与者之间传递,以达到某种 系,进而跟踪、溯源、重现工作流程中各步的状态另外,工作 目的科学工作流是用来自动化科学研究过程的,而科研过程流映射包括资源的发现和绑定两个步骤,主要有手工和自动 由一系列研究步骤组成,用来描述和控制科学实验和过程的 两种方式,大部分科学工作流系统采用注册表来保存增加的万方数据1922小型微型计算机系统2012年服务信息,Tavema系统采用手工方式,通过注册表保存了大计算和存储环境的不断发展,数据溯源的安全问题变的越来 量的生物信息学的web服务描述信息越重要;为了更好地推广数据溯源技术的应用,迫切需要建立3Triana统一的数据溯源的业界标准强锄a系统是一种开源的、与平台无关的分布式问题解51数据溯源的安全问题 决型环境,用java语言实现Tri锄a是图形化应用环境,用户数据的安全是用户使用数据的最起码要求,也是一些核 可以方便地构建一个科学工作流用户可以通过拖动其组件心数据(涉及国家军队秘密信息)所必需考虑的安全隐患问 形成一个结点,通过创建两个结点间的连线构建其连通性它题数据的安全勿庸置疑,数据溯源信息本身也是数据,同样是一个模块化的体系结构,包括3个不同的组件:Ts(Td锄存在安全问题由于某些领域需要数据共享才能达到目的,而Sen,ice)、1S(TriaIla Con缸_oller Service)、TGI H(Tri觚a User且还需要实时更新和变迁,这就无法用常规的数据保护方法 IIl托尬嘴)通过7rGUI可以访问其它运行Ts的机器1s是来确保数据的安全数据溯源技术在很多领域已得到广泛应 一个控制指定Tri锄a网络的服务,它可以选择自己运行或指用,但是,数据本身的安全以及溯源数据的安全是数据溯源技 定其它可用的Ts执行因此,一个TGUI可以控制多个Tri术发展的前提和基础如何解决数据溯源信息的安全与方便 ana网络实现其分布式管理通过Tri锄a系统来进行数据溯修改是这一领域存在的问题 源可以将分布于各个Ts中的数据利用TGUI来统一分析、跟52数据溯源的统一业界标准 踪和管理Triana能够将数据溯源应用于信号、文本、图片等目前,很多学者提出了自己的数据溯源模型和框架但 方面的处理是,都存在一定的局限性,大多数溯源管理系统都是在一个独4基于web的科学工作流系统 立的系统内部实现溯源管理的但数据如何在多个、分布式系 该系统提供给用户一个基于web的安全可靠、简单易用统之间转换或传播,没有形成统一的业界标准只有存在统一 的工具,用于监视数据密集型科学实验的全过程,通过web的标准,数据溯源的相关系统才能形成标准的接口,以模块化 服务器、FrIP、sIm等多种方式获取科学数据,并通过的形式应用于其它领域标准不统一严重影响了数据溯源技sVG可视化操作界面,定制满足需求的工作流实例,提交给术的发展,所以统一标准是亟待解决的问题之一后台的KelperPtolemy工作流引擎服务器,经过对所获取的 数据调用专用的处理软件(包括NCL、Maab、cD0等)进行6结论和未来发展综合分析,最终得到所需要的可视化结果,从而实现数据的状本文系统地总结了数据溯源的发展及数据溯源的模型、 态重现、数据跟踪方法和应用,介绍了数据溯源在数据库、工作流和其它方面的以上的系统有一个相同的特点:实现工作流的数据溯源、应用,并以举例的方式进行论述对数据溯源的标注法和逆置 重现实验过程、追踪数据的历史档案,可以集成数据分析软件 函数反向查询法进行了比较,列出其各自的优缺点针对标注 实现数据的分析和挖掘其中,K印ler系统能够实现重现整个法需要大量的存储空间来存储溯源信息这一缺点,提出了一实验过程的功能,为科学实验的错误查询、数据质量评估以及种基于列存储的标注思想本文还提出了一种异构数据的溯 数据追踪等方面做出了巨大的贡献1avenm系统主要通过控源模型,适用于分布式异构数据的数据追踪数据溯源是一个制流模型来定义各任务之间的关系,并利用控制结构来处理科新兴的领域、研究时间短,还有很多地方不够完善,第五节中学研究每个步骤的关系Tria他系统是一个模块化结构,由不的热点研究方向同样存在很多难题需要攻克,我们相信未来同的组件组成,通过拖动组件形成结点,通过连线确定其关系数据溯源技术一定会蓬勃发展43在其它领域中的应用数据溯源在其它领域中应用也非常广泛,如:管理GIsRetereces:数据中元数据,更加智能管理无线传感网络中的数据,更加安1Gr追oris Karvoun啪虹s,zha搿G Ives,Val 1铀n锄Querying全地传输网络数据,能够使存储系统智能化和人性化,wikidata provenallcecsIGMoD10 Procdillgs of吐豫20lO In婚管理系统,开源代码版本管理national Confer蜘ce on M锄agement of Da诅,2010:95l-962数据溯源的一个应用是如何进行视图维护与更新。视图2zhuowei Bao,sus孤B Davidson,sanjeev Kh姐na,et a1An opcimal 1abeling scheme for worldlow pmven锄cc using skele咖1abels发生变化,如何修改视图?如果视图数据被用户修改,又如何csIGMOD10 Proceedings of tl抡2010atial维护与更新都是涉及到基表与视图的相互联系,即基表数据confe卜ence on M锄agcment of DL协,20lO:711-722定位到基表进行元组的修改?7,15研究了如何根据数据3Yogesh L,si删mh柚,BetIl P1ale,eta1A suey of data pmve溯源来进行视图的更新文献7研究了视图中元组的删除n柚ce蛐iquesDcompuoer sci明ce DBpammnt,hldi孤a u一操作如何转换为基表中元组的删除操作蚯Versi够,20055热点研究方向4MaJlish Kum盯An蛆d,Sha咖Bow懿,Bem锄Il幽schHerTechIliques fbr e币c枷y queryiIlg sci朋诳Ic worl田ow pr0Venance数据世系管理技术研究综述241,提出4个热点研究方向graphscEDBT10 Proceedings of圮13tll IIItemational con分别是:数据空间中的数据世系、不确定数据的世系管理、工fhence on Ex咖ding Databa做hnology,2010:287298作流世系管理、数据世系的挖掘和可视化我们认为,随着云5simmhan Y L,Plak B,G姐non DA survey of dala provenarIce万方数据9期明华等:数据溯源技术综述1923iII e-scicnceEBOLh却:wwwsigmodorgsigmodrecdSl咖Sch00l of M锄agcment,1990issue帕509p31-specialsw-secdon-5pdf,June,200819w00dmff A,st0Il曲脚啦Gsupp0柑ng鼬e-辨liIIed data linc鹋e 6Bunem锄P,K卸na S,T柚wcDa镪pmvenance:someb酗icisin a d砒曲avisuali蹦bon蛐vi姗眦ntcProc of t11e 13tll h sscProc 0f屺20m con五啪nce on Foundations of so脚姗 terIIa曲nal C吼6珊nce唿En曲碱妯ng,Wasl血Ig啪DC:EE钕hnology and The眦石cal,Id:spingcr-Veflag,20:87-93Co驯ter Society,1997:9l-1027蹦cIl-胁,waIIg Tao,办锄g PengIch即gsurvey of data20xu Fei,Ga0 Qihpl咄nd伽of锄伽In da舾n都ing systemprov蚰ance自IllIologyJAppHcaliResearch of computc巧,Jco唧u衄Enginring锄d Ap忉catis。23,34(3):191 2010,27(9):321632211938Daialao一胁ne州es锄d app孔h of datalin凹ge昀cingiIl data21V锄蚰mme彻sExt朗ding wt嘲陀-p彤v蛐an谢tlI麟t锄al如ncw删l伽蚰virDnm钮tDNa面nal uni啪时of D吲钿cc 1khti帆sChoc ofsymposin on Prov阻in Dl岫bas嚣,28nology,200222Bowe惜s,M印hiuips T,蛋咖c s,et a1K印lepPoD:i钮曲cf 9LI Yazi Data proven掀s枷ota6schem and de蛐don删rIdlow锄d pro啪锄cc如pl怵fbr躐眦lm略the懈of硫modelJDigital Li町,2007,153(7):lO13cProc of me 2nd hItelma吐咖Ial Prove咖al订A加0tl硒n1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论