知识管理系统数据迁移通用方案_第1页
知识管理系统数据迁移通用方案_第2页
知识管理系统数据迁移通用方案_第3页
知识管理系统数据迁移通用方案_第4页
知识管理系统数据迁移通用方案_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、知识管理系统数据迁移通用方案在信息化建设过程中,随着技术的发展,原有的信息系统不断被功能更强大 的新系统所取代。在新旧系统的切换过程中,必然要面临一个数据迁移的问题。原有的旧系统从启用到被新系统取代,在其使用期间必然会积累大量珍贵的 历史数据,其中许多历史数据都是新系统顺利启用所必须的。另外,这些历史数据也是进行决策分析的重要依据。数据迁移,就是将这些历史数据进行活洗、转 换,并装载到新系统中的过程。数据迁移主要适用于一套旧系统切换到另一套新 系统,或多套旧系统切换到同一套新系统时, 需要将旧系统中的历史数据转换到 新系统中的情况。数据迁移对系统切换乃至新系统的运行有着十分重要的意义。数据迁移

2、的质 量不光是新系统成功上线的重要前提,同时也是新系统今后稳定运行的有力保 障。如果数据迁移失败,新系统将不能正常启用;如果数据迁移的质量较差,没 能屏蔽全部的垃圾数据,对新系统将会造成很大的隐患,新系统一旦访问这些垃 圾数据,可能会由这些垃圾数据产生新的错误数据,严重时还会导致系统异常。 相反,成功的数据迁移可以有效地保障新系统的顺利运行,能够继承珍贵的历史数据。系统切换时的数据迁移不同于从生产系统 OLTP (On-line Transaction Processin。,到数据仓库 DW (Data Warehouse的数据抽取。后者主要将生产 系统在上次抽取后所发生的数据变化同步到数据仓

3、库,这种同步在每个抽取周期 都进行,一般以天为单位。而数据迁移是将需要的历史数据一次或几次转换到新 的生产系统,其最主要的特点是需要在短时间内完成大批量数据的抽取、活洗和装载。数据迁移的内容是整个数据迁移的基础,需要从信息系统规划的角度统一考虑。以处理数据的功能模块为划分依据,需要考虑在新系统中没有被包含的功能 模块,其所涉及数据的处理问题。这类数据由于无法建立映射关系, 一般不需要 迁移到新系统中。但对于模块问偶合度比较紧密的旧系统, 在纵向划分时需要注 意数据的完整性。对于这次的数据迁移,旧系统的各个功能模块可以和新系统建 立一定的映射关系,因此本次的迁移基本是针对模块做的工作数据迁移方法

4、:在本次数据迁移过程中,我们将根据实际情况采用以下方案中的一种,或综合方案:系统切换前通过工具迁移,在系统切换前,利用 ETL (Extract Transform Load)工具把旧系统中的历史数据抽取、转换,并装载到新系统中去。其中ETL工具可以购买成熟的产品 (如Business Objects公司的Data Integrator Designer , 也可以是自主开发的程序。这种方法是数据迁移最主要,也是最快捷的方法。其 实施的前提是,历史数据可用并且能够映射到新系统中。编写后台数据库程序,在系统切换前,将旧系统涉及到的迁移数据,在新系 统中建立相应的数据库表结构,并将旧数据导入相应的

5、表中,然后在新系统中编 写后台程序,将历史数据迁移到新系统中。本次我们的迁移是建立一个和正式系 统一模一样的数据迁移数据库,将旧系统的迁移数据imp到此迁移数据库中,所 有的编码和调试也都在此环境中进行,这样就可以将导入到新系统的数据可能产 生的问题,如:字典表数据的转化、外键约束等等,在迁移数据库中全部处理掉, 这样得到的数据便可顺利的导入新系统。系统切换前采用手工录入,在系统切换前,组织相关人员把需要的数据手工 录入到新系统中。这种方法消耗的人力、物力比较大,同时出错率也比较高。主 要是一些无法转换到新系统中的数据,和新系统启用时必需要而旧系统无法提供 的数据采用这种方法,可作为第一种方法

6、的有益补充。系统切换后通过新系统生成,在系统切换后,通过新系统的相关功能,或为 此专门开发的配套程序生成所需要的数据。 通常根据已经迁移到新系统中的数据 来生成所需的信息。其实施的前提是,这些数据能够通过其它数据产生。数据迁移策略:在数据迁移的策略方面,我们将采用以下方案中的一种或综合方案:一次迁移是通过数据迁移工具或迁移程序,将需要的历史数据一次性全部迁 移到新系统中。一次迁移的优点是迁移实施的过程短, 相对分次迁移,迁移时涉 及的问题少,风险相对比较低。其缺点工作强度比较大,由于实施迁移的人员需 要一直监控迁移的过程,如果迁移所需的时间比较长,工作人员会很疲劳。一次 迁移的前提是新旧系统数

7、据库差异不大,允许的宕机时间内可以完成所有数据量 的迁移。分次迁移是通过数据迁移工具或迁移程序,将需要的历史数据分几次迁移到 新系统中。分次迁移可以将任务分开,有效地解决了数据量大和宕机时间短之间 的矛盾。但是分次切换导致数据多次合并, 增加了出错的概率,同时为了保持整 体数据的一致性,分次迁移时需要对先切换的数据进行同步, 增加了迁移的复杂 度。分次迁移一般在系统切换前先迁移将静态数据和变化不频繁的数据,例如代码、用户信息等,然后在系统切换时迁移动态数据,例如交易信息,对于静态数 据迁移之后发生的数据变更,可以每天同步到新系统中,也可以在系统切换时通 过增量的方式一次同步到新系统中。本次就采

8、用了分次迁移的策略,即按分局分 次迁移;对于某些信息也采用了定时更新的手段,以保证数据的正确性。先录后迁是在系统切换前,先通过手工把一些数据录入到新系统中,系统切 换时再迁移其它的历史数据。先录后迁主要针对新旧系统数据结构存在特定差异 的情况,即对于新系统启用时必需的期初数据,无法从现有的历史数据中得到。 对于这部分期初数据,就可以在系统切换前通过手工录入。比如这次的核定信息、 征管鉴定信息、减免税审批结果、发票领购申请 /审批等等,就是采用的先录后 迁的方式。先迁后补是指在系统切换前通过数据迁移工具或迁移程序,将原始数据迁移 到新系统中,然后通过新系统的相关功能,或为此专门编写的配套程序,根

9、据已 经迁移到新系统中的原始数据,生成所需要的结果数据。先迁后补可以减少迁移 的数据量。数据迁移实现:数据迁移的实现可以分为三个阶段:数据迁移前的准备、数据迁移的实施和 数据迁移后的校验。由于数据迁移的特点,大量的工作都需要在准备阶段完成,充分而周到的准 备工作是完成数据迁移的主要基础。具体而言,要进行待迁移数据源的详细说明, 包括数据的存放方式、数据量、数据的时间跨度,建立新旧系统数据库的数据字 典,就是我们常说的参照表;对旧系统的历史数据进行质量分析, 新旧系统数据 结构的差异分析;新旧系统代码数据的差异分析;建立新老系统数据库表的映射 关系,对无法映射字段的处理方法,开发、部届 ETL工

10、具,编写数据转换的测 试计划和校验程序,制定数据转换的应急措施。这次,我们对于部分由于时间太 久而无法对应的数据字典数据,采用建特殊代码并对新系统禁用的方式, 以保证 迁移的完整性,此部分数据可在今后通过于客户协商采用更好的方式进行修正。其中,数据迁移的实施是实现数据迁移的三个阶段中最重要的环节。 它要求 制定数据转换的详细实施步骤流程; 准备数据迁移环境;业务上的准备,结束未 处理完的业务事项,或将其告一段落;对数据迁移涉及的技术都得到测试; 最后 实施数据迁移。数据迁移后的校验是对迁移工作的检查,数据校验的结果是判断新系统能否 正式启用的重要依据。可以通过质量检查工具或编写检查程序进行数据

11、校验,通过试运行新系统的功能模块,特别是查询、报表功能,检查数据的准确性。数据迁移的技术准备数据转换与迁移通常包括多项工作:旧系统数据字典整理、旧系统数据质量 分析、新系统数据字典整理、新旧系统数据差异分析、建立新旧系统数据之间的 映射关系、开发部署数据转换与迁移程序、制定数据转换与迁移过程中的应急方 案、实施旧系统数据到新系统的转换与迁移工作、检查转换与迁移后数据的完整 性与正确性。数据转换与迁移程序,即ETL的过程大致可以分为抽取、转换、装载三个 步骤。数据抽取、转换是根据新旧系统数据库的映射关系进行的,而数据差异分析是建立映射关系的前提,这其中还包括对代码数据的差异分析。转换步骤一般 还

12、要包含数据活洗的过程,数据活洗主要是针对源数据库中, 对出现二义性、重 复、不完整、违反业务或逻辑规则等问题的数据进行相应的活洗操作,在活洗之前需要进行数据质量分析,以找出存在问题的数据,否则数据活洗将无从谈起。 数据装载是通过装载工具或自行编写的 SQL程序将抽取、转换后的结果数据加 载到目标数据库中。数据检查数据格式检查:检查数据的格式是否一致和可用,目标数据要求为 number 型。数据长度检查:检查数据的有效长度。对于 char类型的字段转换到varchar 类型中,需要特别关注。区间范围检查:检查数据是否包含在定义的最大值和最小值的区间中;例如年龄为300,或录入日期在4000-1-

13、10空值、默认值检查:检查新旧系统定义的空值、默认值是否相同,不同数据 库系统对空值的定义可能不同,需要特别关注。完整性检查:检查数据的关联完整性。如记录引用的代码值是否存在, 特别 需要注意的是有些系统在使用一段时间后,为了提高效率而去掉了外键约束。一致性检查:检查逻辑上是否存在违反一致性的数据, 特别是存在分别提交 操作的系统。数据转换数据转换的工作在ETL过程中主要体现为对源数据的活洗和代码数据的转 换。数据活洗主要用于活洗源数据中的垃圾数据,可以分为抽取前活洗、抽取中活洗、抽取后活洗。ETL对源数据主要采用抽取前活洗。 对代码表的转换可以考 虑在抽取前转换和在抽取过程中进行转换。具体如

14、下:1、针对ETL涉及的源数据库中数据表,根据数据质量分析的结果,建立数 据抽取前的活洗脚本。该活洗脚本可由调度控制程序在数据抽取前进行统一调 度,也可分散到各个抽取函数中调度。2、针对ETL涉及的源数据库中数据表,根据代码数据差异分析的结果,对 需要转换的代码数据值,如果数据长度无变化或变化不大,考虑对源数据表中引 用的代码在抽取前进行转换。抽取前转换需要建立代码转换脚本。 代码转换脚本 由调度控制程序在数据抽取前进行统一调度。3、对新旧代码编码规则差异较大的代码,考虑在抽取过程中进行转换。根 据代码数据差异分析的结果,调整所有涉及该代码数据的抽取脚本。数据迁移后校验在数据迁移完成后,需要对迁移后的数据进行校验。数据迁移后的校验是对 迁移质量的检查,同时数据校验的结果也是判断新系统能否正式启用的重要依 据。可以通过两种方式对迁移后的数据进行校验。对迁移后的数据进行质量分析,可以通过数据质量检查工具,或编写有针对 性的检查程序进行。对迁移后数据的校验有别于迁移前历史数据的质量分析, 主 要是检查指标的不同。迁移后数据校验的指标主要包括五方面: 完整性检查,引 用的外键是否存在;一致性检查,相同含义的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论