数据仓库更新的新策略--工作流

上传人：飞*** IP属地：河北上传时间：2020-04-05 格式：DOC 页数：13 大小：122.51KB 积分：12 举报 版权申诉

已阅读5页，还剩8页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据仓库更新的新策略数据仓库更新的新策略工作流工作流 1 1 概述概述数据仓库作为一种新技术主要是为决策支持系统和 OLAP 应用提供软件架构它从异构和分布式数据源中收集数据这些数据首先被聚合然后按照 OLAP 所定义的组织标准进行定制数据仓库的结构能够通过一种分层存储的方式加以定义这种方式涉及到的存储形式包括从底层的数据源到高度的聚合数据数据集市在这两种存储形式之间按照 OLAP 程序的要求还存在一些其他不同的存储形式其中之一就是对操作型数据的存储操作型数据是以单一和干净的方式来表征数据源中的数据企业级数据仓库 CDW 则包含高度聚合的数据并且被组织成多维表的形式从每个数据源中抽取的数据可以存储在中间数据容器中显然这种分层存储方式只是一种逻辑上的表示方式它体现了从数据源到数据集市的数据流动过程所有这些存储形式都不一定要具体实现如果确实需要的话他们也只能形成同一数据库的不同层面而已图 1 显示了一种典型的数据仓库结构这只是一个逻辑视图它的具体实现不同厂家有自己不同的数据仓库产品解决方案数据抽取和数据清洗的实现与每个数据源有关对于不同的数据源提供有统一的或定制的工具同样数据的一致性多数据源清洗既可以与数据集成多数据源操作分开也可以合并到数据集成中进行高级别的数据聚合工作可以看成一个计算技术的集合这个集合的范围涵盖从简单的统计函数到高级的数据挖掘算法对于不同的数据集市来说数据定制技术是不同的关键在于决策者想要看到的数据的详尽程度数据仓库更新是一个非常重要的过程它决定了数据采集和数据聚合的实效性确实向决策者提供的数据的质量与以下因素有关首先与数据仓库系统在合理的时间内将数据从数据源转换到数据集市的能力有关其次与数据仓库对数据源中信息发生变化的敏感程度有关大部分的设计考虑主要集中在对数据结构的选取和数据的更新技术上这里的数据更新技术指的是对数据仓库更新的优化策略在对数据仓库更新的理解方面在相关的文献上存在着很大的误区确实这个过程经常被简化为视图维护问题或与数据导入混为一谈本文的目的之一就是指出数据图 1 数据仓库的体系结构仓库的更新要比数据视图的维护问题要复杂的多也不同于数据导入过程我们把数据更新过程定义为一个工作流组成工作流的具体活动类型取决于数据抽取和数据清洗所应用的产品与其配套的触发事件则与应用的范围和对数据刷新频率的要求相关以下几节将分别描述数据更新过程的任务并阐明在工作流中如何组织这些任务第 2 节主要讨论数据更新过程与数据导入及视图维护的不同第 3 节定义了工作流的标准形式并结合一个工作流的例子逻辑展现了数据仓库更新过程第 4 节按照工作流的设计模式定义了数据仓库更新过程的语义第 5 节归纳了本文的主要思想并涉及到一些实现方面的观点 2 2 视图维护数据导入和数据刷新视图维护数据导入和数据刷新数据仓库中的数据更新过程通常容易和数据仓库初始阶段所作的数据导入或对数据仓库中具体视图的更新相混淆这两种想法都是错误的下面几段详细阐述数据更新和数据导入数据更新和视图维护之间的区别和不同数据导入和数据更新数据仓库的数据导入过程存在于数据仓库建立初期是数据仓库建立的关键阶段它主要完成对数据仓库中内容的初始计算数据导入过程是一个全局过程这个过程分为四个步骤如图 2 所示 1 准备 2 集成 3 高度聚合 4 定制第一步由各个数据源完成它主要包括数据抽取数据清洗可能还包括数据归档在数据清洗前后等阶段对历史数据进行归档其作用在两个方面一在具用不同刷新频率的数据源之间进行同步二用于一些特定的临时查询第二步由数据的一致性处理和数据的集成处理组成它包括对从异构数据源中提取的数据进行一致性处理多数据源清洗和对从 ODS 操作型数据库的基表基视图中获取的数据进行清洗等两个部分第三步由一些对派生于基视图的聚合视的计算构成在操作型数据库 ODS 中的数据是一些基本数据他们具有程度很低的聚合程度而企业级数据仓库 CDW 中存放的数据通常是用聚合函数统计过的高度聚合的数据第四步由对用户视进行派生和定制活动组成最后生成数据集市数据定制指的是根据用户的需求形成不同的立方体并向用户展示不同的侧面图 2 数据导入过程数据导入阶段的主要特点是它处于数据仓库设计项目的最开始阶段在数据导入之前对用户来说数据仓库是不存在的因此在反映时间上就不存在什么限制但是相反对数据源来说数据导入阶段要求数据源一直可用描述数据导入阶段的数据流是定义数据更新过程的基础但是与之相对应的工作流却是不同的数据更新的工作流是动态的能够跟踪用户的需求和检测数据源的变化而数据导入过程的工作流是静态的由用户的当前要求和当前数据源的状况所定义的数据更新过程和数据导入过程的主要区别有以下几点首先对数据更新过程来说组成其的各个活动准备集成聚集和定制之间完全是异步进行的第二就准备活动本身来说其过程也可以是高度并行的每个数据源都有自己的可用窗口和抽取策略同步由数据集成活动来做另外的一个不同之处在于数据源的可用性上数据导入阶段要求数据源长期可用而数据更新阶段对使用数据源的操作应用程序的负载要求比较轻它要求每一个数据源具有确定的存取频率和一个严格限制的持续期最后对数据更新过程来说对数据的存取有严格的反映时间限制而对数据导入过程来说要求就没有那么严格确实对用户来说在初始数据导入前数据仓库是不存在的因此其计算时间则被包含在项目的设计期间内而在初始数据导入后数据就变成可以看见的应当满足用户对数据的使用存取和刷新的要求视图维护和数据更新在数据更新过程期间对数据变化的传播是通过一系列独立的活动来完成的这些活动包含对存储在 ODS 和 CDW 中的视图的维护视图维护阶段是指由于给定的数据源的改变而引起存储在 ODS 和 CDW 中的一系列视图的改变这些改变导致视图的更新这个阶段视图维护阶段是一个经典的具体视图维护问题但是在数据仓库中扩展到聚合视中的改变在数据源中并不一定发生但是予处理结果是通过其他更新活动像数据清洗和多数据源数据一致性处理等来执行的在数据库界对数据视图维护的问题已经进行了大量的研究这个领域所做的主要工作被收集在 2 和 6 中大部分的工作都集中到对一套具体的视图的维护工作上这套视图派生于一套基本的关系表当基本关系被修改时便引起视图的改变视图维护所涉及到的工作主要有自我维护性自我维护性是针对这样一套视图集的视图集 V 对于基本关系的改变是自我维护的指的是不需要查询基本关系就可完成 V 中视图的改变也就是说通过存储在具体视中的信息和变化的实例就足以完成视图的维护一致性和有效性更新转换对于每个单独的视图都有相应的算法来调度更新转换过程但是考虑到视图间的相互依赖关系及视图间会导致可能的矛盾出于这个目的导入一些辅助视图来促进更新转换和加强自我维护性数据仓库主要关注的是视图集的自我维护性存储在数据仓库中的视图集必须是全局可自我维护的这一点是大家都认同的这样做的原因是避免对操作型数据源中的常规活动负载过重像上节描述的一样对数据仓库更新的研究主要集中在对具体视图的更新转换上关于这个题目已经发表了很多文章但是很少有人致力于将数据更新过程作为一个整体像前面定义的来研究我们认为视图维护问题只是整个数据更新过程的一步其它几步包括数据清洗数据一致数据定制如果需要的话还有数据归档另一方面抽取和清洗策略对不同数据源来说是不一样的就像数据更新转换过程对不同的用户视是不同的一样所以数据仓库更新过程不能仅限于视图维护过程综上所述我们认为数据更新过程是一个复杂的系统它由一系列异步和并发活动构成当然这些活动必须是可监控的另外数据更新过程也是一个基于事件驱动的系统是不断跟踪变化动态反映数据源和用户要求演变的系统用户数据仓库管理员和数据源管理员可以施加一些限制例如数据的刷新率 ODS 和 CDW 的空间限制对数据源的存取频率等对所有数据仓库应用所有的数据仓库用户或整个数据仓库生命周期来说不存在简单和同一的数据更新策略 3 数据更新过程是一个工作流数据更新过程是一个工作流工作流是一套相关活动的集合这些活动既可是手动的也可以是自动的工作流的概念已经在不同的领域得到应用像商业过程模型企业操作模型和数据库事物模型等根据应用的领域活动和活动间的联系可以使用相应的说明语言来描述像状态图 Petri nets 或活动规则等尽管对工作流的应用和表示方式多种多样但是大部分工作流用户却或多或少地倾向于接受 Workflow Coalition 对工作流所做的概念和说明工作流系统一般具有高度的灵活性有可递归分解和合成的活动和对工作流过程进行动态重组等特性对数据仓库来说这些特点是非常有用的因为不同的数据仓库厂商所提供的产品是不同的也就是说组成数据仓库的活动的功能和范围由于产品的不同其差别是很大的而这正是工作流所擅长的在下面几小节我们将展示数据仓库是如何被定义为工作流的根据用户的需求数据源和数据仓库的限制等要求我们将提出不同的方案并以此来说明将工作流引入数据仓库的优点同时我们将说明这些方案能够全程跟踪和监控用户需求和限制的任何变化并完成相应的更新操作 3 1 数据更新过程的工作流数据更新的目标是反映数据源的变化并将这些变化导入到数据仓库中这个导入和转换行为可以通过一系列独立的活动来完成抽取清洗集成等按照用户对数据更新过程的语义以及他对所获取的数据的要求这些活动可以以不同的方式进行组织同时这些活动的顺序和它们执行的上下文环境也定义了语义并影响质量顺序和上下文环境来源于对视图的分析数据源的限制和用户在质量方面的要求三个方面在下面几节中我们将阐述数据更新活动和他们是如何被组织成工作流的然后我们给出不同的工作流方案并进一步说明数据更新是一个动态和演变的过程最后我们将概括不同的想法并提出一个合理的数据更新方案数据更新活动就数据流来说数据更新过程类似数据导入过程但是数据导入过程是数据仓库的大规模的数据导入而数据更新只是捕获数据源所发生的改变并将这些改变转换到数据仓库的各个存储层次中在准备阶段从每个数据源中抽取数据这些数据是自上次抽取以来数据源所发生变化的数据至于导入数据应在集成前被清洗和归档可能的话数据集成阶段主要是完成对来自多数据源的改变数据进行一致性处理并将其导入到 ODS 中聚合阶段主要是利用这些数据变化重新对各层次聚合视进行增量计算定制阶段主要是将这些经过概括的数据装载到数据集市中和数据导入阶段一样这是一个逻辑的分解过程其具体实现对不同的数据仓库产品来说是不同的这种逻辑视图具有对数据更新过程的跟踪能力图 3 显示了数据更新过程的活动和相应事件的一个样例图 3 数据更新过程的一般工作流活动协调在工作流系统中活动是由控制流调配的这些控制流可能是过程提交提示代理发布的电子邮件临时事件或其它触发事件等在数据更新过程中活动的协调工作是通过一个范围广泛的事件类型来做的我们能够定义几种不同的事件类型这些事件类型可以触发和同步数据更新活动它们可以是临时事件末端事件或其它用户定义的事件根据不同的更新策略可以选取合适的事件类型集以取得正确的同步级别数据更新工作流的活动只有在它们被触发时才可以执行触发的条件依据输入数据源的当前状况例如如果数据抽取是周期性触发的那么它实际上只有在数据源日志发生有效变化的时候才执行如果清洗过程是在数据抽取后立即触发的那么它实际上只在抽取过程已经收集了数据源的变化数据后才执行因此我们认为每个活动的输入数据源的状态是有效执行这个活动的必须要考虑的条件之一在数据更新过程的工作流中不同活动可能具有不同的起源和不同的语义因此数据更新策略和活动的实际行为是相互独立的然而在操作级别一些活动是可以合并的例如数据抽取和数据清洗另外一些是可以分解的如集成工作流系统的灵活性允许动态地裁剪数据更新活动和相关的协调事件另外还有一种方式描述工作流和其触发策略确实如果不考虑外部事件像临时事件或不同活动的末端事件的话我们可以把数据改变作为事件因此数据更新工作流的每一个输入存储源都可以考虑成一个事件队列由它来触发相应的活动然而为了能够描述不同的更新策略这种方法需要一种参数化的同步机制以便在正确的时机触发相应的活动有两种方法可以作这个工作一种是引入复合事件例如可以将数据改变事件和临时事件进行组合另外一种是给数据存储单元加锁并在一个活动或活动集决定提交后去锁但是对某些需要长期同步机制的数据仓库来说后一种方式显然是无效的工作流的角色在数据更新工作流中主要涉及两个角色人为角色主要定义要求限制和策略另外一种是计算机主要处理活动我们把人为角色分为用户数据仓库管理员和数据源管理员把计算机分为数据源管理系统用于数据仓库和数据集市的数据库管理系统封装和媒介等对于只关注活动及其相关联系的数据更新工作流来说是不必需要角色的 3 2 定义数据更新策略为了阐明不同的工作流策略我们考虑使用下面这个例子这个例子涉及三个国家的电信单据分别用 S1 S2 S3 三个关系表示每个关系都有相同的模式定义 PC date duration cost 聚合视 V 的模式为 avg duration avg cost country V 在数据仓库中定义视图 V 提取最近 6 个月和上述三个关系相关的三个国家中每一个电话的平均通话时间和花费我们假定视图 V 的构造遵循以前的解释在数据准备期间包含在每个数据源中的最近 6 个月的数据被清洗例如所有的收费单元被转换为欧元然后在数据集成阶段通过联合每个数据源的数据和产生附加的属性 country 来建造基本关系 R R 的模式为 date duration cost country 最后通过聚合计算产生视图图 4 图 4 更新策略的第一个案例我们也能够用同样的数据源和类似的视图定义另一个更新策略这个策略镜像的是每天的平均通话时间和花费而不是 6 个月的这导致数据抽取数据清洗集成和转换的频率的改变图 5 给出了这样一个可能的策略数据源抽取的频率是由数据源管理员指定的数据源 3 是长期可用的图 5 更新策略的第二个案例当更新活动是一个长期活动或 DWA 想要在活动间加入校验过程时临时事件或活动终止可以被用来对整个更新过程进行同步控制通常质量要求也可施加一定的同步策略例如如果用户想要最新的数据这意味着数据源的每一次更新都应当尽可能的反映到视图中因此这就决定了同步的策略数据源的每一次改变都触发抽取当语义相关时触发集成在每个数据源提交后转换活动立即在集成活动后将相应变化导入到视图中并且在数据集市中定制用户视图更新模式数据更新过程存在不同的处理模式主要模式类型有客户驱动的数据更新客户驱动的数据更新模式指的是以用户需求为条件所触发的数据更新过程它主要关注的是如何将数据从 ODS 转换到数据仓库中的聚合视图中去这种基于需求的策略既可以适用于所有的聚合视也可以仅用于和日期查询相关的数据刷新中数据源驱动的数据更新数据源驱动的数据更新描述的是由于数据源发生变化而触发的数据更新这种更新主要涉及到数据准备阶段就数据源来说我们可以利用数据源之间的独立性来制定不同的准备策略例如一些数据源和清洗过程相关而另外一些却不是这样一些数据源需要抽取数据的历史记录而其它的没有这个要求对某些数据源来说清洗过程可以在抽取期间的空闲时间做对另外一些则可能在抽取后或基于这些变化的历史来做对不同的数据源来说触发抽取的事件也是不同的可以定义不同的事件像临时事件定期或固定时间在检测数据源发生改变后或基于集成过程的要求等 ODS 驱动的数据更新 ODS 驱动的数据更新指的是由数据仓库系统自动监控的数据更新过程这部分主要涉及数据集成阶段它在一个同步点被触发这个同步点定义在准备阶段结束后数据集成通常被考虑成一个整体涉及到同一时刻所有的数据源改变在这种情况下它只能被一个外部事件触发这个事件可以是临时事件或最后一个数据源的准备阶段结束事件和每个数据源的准备阶段的结束一起考虑的话那么数据集成也可以被序列化也就是说一个数据源的清洗完成后就对其抽取进行集成 ODS 也能监控准备阶段和聚合阶段主要是通过产生相关的事件由这些事件触发这些阶段的活动在很简单的情况下前两个方式中的任一个均可作为一种单独的策略在复杂的情况下就需要有和数据源的数量或高级聚合视图数量同样多的策略介于两者之间对于前面所说的四个阶段可能有与之相对应的四个不同的策略对于某些给定的用户视图可能使用客户驱动的策略拉策略而对于其它视图则可能使用 ODS 驱动策略推策略类似一些数据源要求用拉策略而其它的用推测略策略的选取既和语义参数有关也决定于执行数据更新活动抽取清洗集成所能使用的工具一些抽取工具也能在空闲时做清洗工作而一些集成器也能立即将变化一直转换到高级视图中在图 3 所示的是数据更新的一个逻辑视图它显示了主要的活动和触发它们的潜在的事件类型 4 数据更新过程的语义数据更新过程的语义正像我们在以前说明的方案中所展示的那样视图的定义并不能有效地解决数据更新的语义问题确实用来定义视图的查询不能够说明这个视图是否建立在历史数据上这个历史数据是如何采样的对于给定的数据源的变化是每小时还是每周进行集成以及当集成不同数据源的变化时应当采用什么样的数据时间戳另外视图定义不包括定义在清洗过程中的具体的过滤条件例如为特定属性选取同样的措施对一些属性值四舍五入或删除一些隐秘数据等因此即使基于相同的视图定义数据更新过程也会产生不同的结果而这和外部参数有关这些参数必须独立确定和定义视图的查询无关视图 V 在 t 时刻的查询结果取决于两个主要的参数这两个参数和数据仓库的数据更新策略有关第一个参数是每个数据源的抽取性能例如数据源 s1 在发生改变时可以立即进行抽取而 s2 的改变只在每个月的最后一个晚上被捕获这就决定了数据源变化的实效性因此影响到数据的刷新率另外它也影响了数据的一致性因为在视图中可能产生时间差计算的平均数可能将 s1 的最新刷新数据和 s2 的旧数据进行集成第二个参数是计算视图变化所需要的时间实际上这两个参数可以被重复多次就像在数据源和数据视图之间存在许多中间存储器一样例如考虑存储准备阶段结果的情况则第一个参数刻画了数据集成过程存取数据准备阶段结果的时刻因此如果数据准备阶段的每个结果只能在月末才可用的话那么数据集成过程也只能在月末执行结果视图将只在每个月末作出对数据源变化的反映另外一个参数则影响了视图 V 的查询结果定义了包容在每个数据源中的数据的实现例如数据源 s1 可以在每个周末更新而数据郓 s2 在每个月末的前两天更新如果视图 V 的一个查询在一个月的第二个周末触发的话从这个月开始到现在与数据源 s2 有关的国家的电话的情况将不可能在视图 V 中得到反映所以第二个参数的值决定了数据仓库所反映的视图状态和现实世界中视图状态存在不同之处因为这个参数是固定的处于数据仓库应用程序的控制之外它实际上是数据源操作应用程序的一部分我们将不会对它加以考虑上述讨论已经揭示了数据更新过程是如何依靠某些参数具体视图选取的独立性和这些参数是怎样影响数据更新过程的语义的它也揭示了建立一个与应用要求例如数据刷新查询和视图的计算时间数据精度相关的有效的更新策略所倚赖的不同参数这些参数和下列因数有关数据源的限制例如可用的窗口数变化频率数据仓库系统的限制例如存储空间限制功能限制综上所述基于以上的样例和讨论我门可以得出如下结论数据更新过程的操作语义可以被定义成为一个全部设计考虑的集合这些考虑用来向用户提供相关联的数据并履行质量控制的要求其中这些考虑中一些来源于数据导入其它则和数据更新本身相关来源于数据导入的第一个设计考虑集中在视图的定

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据仓库更新的新策略--工作流

文档简介

温馨提示

最新文档

评论

数据仓库更新的新策略--工作流

文档简介

温馨提示

最新文档

评论

相关文档