数据整理与迁移.doc_第1页
数据整理与迁移.doc_第2页
数据整理与迁移.doc_第3页
数据整理与迁移.doc_第4页
数据整理与迁移.doc_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 数据整理与迁移1.1 数据迁移总体设计设计数据迁移方案主要包括以下几个方面工作:研究与数据迁移相关的资料,或在网站上查询相关内容、评估和选择数据迁移的软硬件平台、选择数据迁移方法、选择数据备份和恢复策略、设计数据迁移和测试方案等。东软公司数据迁移具体方法详见本方案第8章“8数据整理与迁移”等相关章节内容,数据迁移总体过程如下:1.1.1 进行数据模拟迁移根据设计的数据迁移方案,建立一个模拟的数据迁移环境,它既能仿真实际环境又不影响实际数据,然后在数据模拟迁移环境中测试数据迁移的效果。数据模拟迁移前也应按备份策略备份模拟数据,以便数据迁移后能按恢复策略进行恢复测试。1.1.2 测试数据模拟迁移根据设计的数据迁移测试方案测试数据模拟迁移,也就是检查数据模拟迁移后数据和应用软件是否正常,主要包括:数据一致性测试、应用软件执行功能测试、性能测试、数据备份和恢复测试等。1.1.3 准备实施数据迁移数据模拟迁移测试成功后,在正式实施数据迁移前还需要做好以下几个方面工作:进行完全数据备份、确定数据迁移方案、安装和配置软硬件等。1.1.4 正式实施数据迁移按照确定的数据迁移方案,正式实施数据迁移。1.1.5 测试数据迁移效果按照数据迁移测试方案测试数据迁移效果,并对数据迁移后的数据库参数和性能进行调整,使之满足数据迁移后实际应用系统的需要。1.1.6 移植系统应用软件将实际应用系统的应用软件移植到数据迁移后的数据库系统上,并使之正常运行。1.1.7 正式运行应用系统在正式实施数据迁移成功并且数据库参数和性能达到要求后,就可以正式运行应用系统,并投入实际使用。1.2 数据资源现状分析目前全省正在运行的养老保险信息系统是1995年由省社保局组织、湖南省长信信息系统集成有限公司负责开发的,为全省养老保险的信息化建设打下了较好的基础,取得了一定的成效。当前除益阳外,十三个市(州)都在使用全省的养老保险软件。该系统最初是采用FOXPRO小型数据库,1998年全国养老保险统一制度实施时曾对软件进行过一次修改升级;1999年该系统数据库由FOXPRO小型数据库升级到ORACLE大型关系型数据库,2003年养老保险全省联网及2006年调整待遇计发办法时,又先后统一进行过两次升级。各地应用水平参差不齐,对历史数据没有进行清理,存在大量垃圾数据,数据的完整性和一致性不能保证,严重影响决策分析,数据质量需要提高;同时数据资源和信息不能充分共享,对政策和业务发展的适应性较差,影响了办事效率和服务质量的提高。通过对招标文件的充分理解,并结合我们建设长沙和株洲金保工程的经验,湖南省历史数据整理有以下几个特点:一、因为涉及到全省的数据整理,去掉已建设的几个地市,涉及到10几个地市州和100多个区县,原养老系统经办机构点多面广是本次数据整理的一个突出特点,再加上各地应用水平参差不齐,为数据整理增加了很大的难度;二、我们湖南省早在1995年就开始养老保险系统建设,至今历史时间长,沉淀错误数据也比较多,数据库中存在着大量的重复和错误数据,为了更好的修正并确认数据的正确性,需要与其他相关部门数据进行关联比对,如单位信息可以和工商部门、和质量技术监督局进行关联比对,人员信息可以和公安部门进行关联比对,这些数据处理我们在一些地区都有成功经验,可以为数据整理承建商提供参考方案;三、系统建设时间早,与我国现行指定新的标准存在一定差距,信息缺项、错误项比较多;四、历史个人帐户的清理问题也是本次数据整理过程中非常重要的一个问题,并且各地对于总帐要求的标准又不一致,有的可能以新总帐为准,这样会简单一些,有的可能以历史总帐为准,这种情况就会出现旧帐和新帐有个差额,这个差额需要新系统中能够处理平帐。1.3 数据整理和迁移概述数据整理和迁移是我们湖南省实现数据“同人同城同库”要求的重要基础性工作,各相关业务管理部门、经办机构和信息机构要相互协调,紧密配合,共同做好这项工作。数据整理工作需要用户方相关部门和养老保险系统承建商的密切配合。数据整理是对湖南省省本级和各地市数据中心应管理的业务经办数据,进行遵守统一标准的规范性整理、补齐数据内容的完整性整理和实现数据记实的正确性整理,一般包括内部整理和外部核对两部分。具体过程是,首先按照全国统一标准并结合湖南省省本级和各地市本地需求,建立结构规范的临时数据库(简称为整理库),将原生产数据转换导入该库。然后对导入的信息进行初步比较、核查、校正以后,采用逻辑推理、经验判断、合理数值范围检验等方法,进行合法性检查及代码过滤等方面的审核和筛选,滤出可疑数据和缺失数据,并提交至外部核对环节,由用人单位或劳动者本人补充确认。业务部门对外部核对返回后的数据进行审核,据此进行完整性和正确性修正,包括补充缺失数据、更正错误数据、剔除冗余数据、清理垃圾数据、调整矛盾数据等。随后再次进行上述逻辑审查工作,如此反复直至数据补齐记实。最后将整理好的数据分期分批提交到业务资源数据库中。1.4 数据整理和迁移目标数据整合的目标就是保证数据的正确率要达到以上;整合后的数据要能够支持市级数据大集中的应用,支持省-地市州的收据申报和交换,支持市区(县)街道(社区)三级业务经办,支持跨区域转移等业务要求;在大集中数据库中要保证数据的唯一性,也就是说同一个人在数据库中的信息不能重复;同时通过数据核对要确保数据内容的真实性和准确性。1.5 数据整理原则1.5.1 保证新系统启动优先原则在进行数据整合时,必须首先满足新系统启动最基本的条件,在时间进度以及人力、物力能够得到充足保障的情况下,再进行其他项的整合。1.5.2 数据过滤原则在数据资源整合过程中,为了减少由于数据资源整合时限制条件过于苛刻造成的数据大量过滤,保证新系统能够正常运行,减少新系统运行后大量补录数据的麻烦。因此在数据数据资源整合过程中,需要对系统过滤的数据放宽条件,但是需要对错误的数据的数据分错误级别进行标示,有利于新系统运行后操作人员修改错误的数据。对于有些数据,不影响新系统业务的正常运行,但是建议补填的,不需要在数据资源整合前进行纠正,只是在数据资源整合时加上相应的错误标志进行标识,等新系统运行后,在新系统中进行调整;对于有些数据,严重影响系统运行的,则必须在转换前进行处理。1.5.3 数据照搬原则在数据资源整合过程中,对原系统的数据,原则上不要做修改或拆分,在必要的情况下,可以对原数据进行一些简单的加减运算,以适合新系统的需要。1.5.4 新旧系统对照原则由于数据资源整合牵涉的业务比较复杂,需要转换的系统较多,因此在数据资源整合的过程中难免会出现一些错误,为了及时清楚数据的错误来源,所以必须建立新旧系统的对应关系,便于尽快查找错误或者是对数据转换中的转换错误进行及时的纠正。1.6 数据整理组织管理数据资源整理在本项目的实施过程中是一项重要的、独立的工作任务,并且涉及到湖南省10几个地市和100多个区县,涉及面广,历史数据量大且情况复杂,所以必须将数据整理工作放在同软件的设计、开发同等重要的位置上来,必须成立独立的数据资源整合小组,有独立的负责人来负责数据资源整合全过程的实施。1.6.1 人员要求数据资源整合小组需要配置如下人员:养老保险业务分析人员数据库系统精通人员熟悉原系统情况的人员1.6.2 工作要求数据资源整合实施小组的工作成败对于整个系统建设至关重要,因此数据资源整理小组的工作人员显得尤其重要。数据资源整理实施小组负责人必须经常保持和软件开发负责人、用户方系统切换负责人的沟通与联系,及时将数据资源整合小组发现的问题与他们取得沟通,以保证开发的软件既能满足新系统的要求,又能满足历史数据对新系统的要求。1.6.3 组织机构根据数据资源整理项目的特点,需要将整个项目组分为清理、转换、检核三个组,其中,转换小组中还要根据需要转换的原系统进行划分。小组结构如下:图 11小组结构图小组职责说明:数据资源整理协调小组:负责数据资源整理过程中对各业务部门的总协调。数据资源整理实施小组负责人:具体负责数据资源整理的各个过程,协调整理过程中的资源与进度,并将实施进度及问题按时向协调小组汇报。数据清理组:补充不完整或者修正不正确的数据,并建立数据之间的关联关系;数据转换组:编写数据转换方案并根据数据转换方案编写数据转换工具,根据编写的数据转换工具辅助进行数据转换。记载数据转换过程的中间记录,对转换前后数据进行比对,编写数据转换报告。其中,基础数据组负责单位、个人基础数据、单位缴费申报数据、各业务办理部门数据、代办机构数据的转换工作;养老保险组负责与养老保险有关的缴费数据、个人帐户数据、单位实缴数据、单位实付数据、养老保险待遇数据、养老保险待遇支付明细记录的转换工作;时间上,要求基础数据组的工作先行开展,其它养老保险组的工作可以随后并行开展。数据检核组:保证数据的单个字段的取值正确,以及相关数据的关联关系正确。保证数据的准确性和完整性。业务资源组:详细说明待迁移的数据源,整理旧系统数据字典,分析新旧系统的数据结构差异,编制数据分析报告。1.7 数据整理和迁移方法1.7.1 数据核对数据核对采用数据分级过滤的方式,数据分级过滤就是把数据按照不同的数据级别进行分类整理进入不同的中间数据库中。本系统中我们把数据分为三个级别:废弃数据、待调整数据、可转换数据。废弃数据就是该部分数据的存在对系统资源造成浪费的数据,并且会影响以后系统的运行,比如重复的个人基本信息、重复的帐户信息、重复缴费信息。待调整数据就是该部分数据严重影响新系统的运行,必须进行人工调整后,方可进行数据转换。可转换数据就是该部分数据不需做任何处理,基本满足数据转换的要求或者是该部分数据新系统建议调整,但是不影响系统的运行,可以等新系统运行后再调整,这样可以为数据转换工作节省很多时间。1.7.2 数据整理数据整理就是将原系统数据整理为系统转换程序能够识别的数据。数据整理大致分为两个阶段:第一阶段就是将不同类型来源数据采集备份到统一的数据库中;第二阶段就是将原始数据进行整理,按照湖南省各地市的要求分类进入不同的中间数据库,为数据转换提供中间数据。数据整理过程中采用的方法示意图如下:图 12方法示意图综合上图我们可以看出,数据整理过程采用了如下方法:1.7.2.1 确保原始数据的完整性在进行数据整理之间,我们先需要对原始采集数据进行备份。备份的目的有两个:一个是统一数据库,便于数据转换,另一个就是为以后数据追根溯源提供参考依据。在本系统中,我们将采用Oracle作为备份统一数据库。1.7.2.2 借助数据整理相关工具数据整理非常艰巨,涉及的数据量很大,通过人工检查是不可能完成的,因此必须编写相关的数据整理工具完成数据整理。包括数据整理工具和数据纠错工具。数据整理工具负责将原始备份数据库中的数据进行分类进入不同的中间数据库;数据纠错工具负责提供友好、方便的工具界面供用户方相关人员完善和纠正错误数据。1.7.2.3 利用中间库作为桥梁由于原系统和新系统的数据库结构可能不一样,所以采用中间库作为衔接新旧系统数据的重要桥梁,对于建立新旧系统的对照关系很重要。一旦业务人员对新系统中某项转换数据存在疑问的情况下,就可以通过中间库的关联,顺利找出原数据。1.7.3 数据补录方案1.7.3.1 数据补录概述数据补录主要是对于一些劳动部指标体系所要求的以及新系统中需要扩充的业务数据,并且这些业务数据原系统没有收录,这些数据多数是非电子格式或非结构数据,或者原系统中已收录但数据结构和格式与新系统相差太大,而无法通过数据整理工具整合,这些数据需要人工补录或补录工具软件转换补录到新系统中。数据补录工作在本项目的数据整理工作中是一项重要的、独立的工作任务,需要开发数据补录软件支持本项工作的完成。必须将其放在同软件的设计、开发同等重要的位置上来,必须成立独立的数据采集工作组,有独立的负责人来负责数据采集工作的全过程。1.7.3.2 数据补录管理1.7.3.2.1 时间计划按照云南省劳动和社会保障厅劳动力市场信息系统项目建设的时间要求,并考虑到数据采集的涉及面广、工作周期长的特点,数据采集工作建议系统需求调研的同时开始的同时进行为宜,在系统设计开发接近尾声的时候系统实施之前,数据采集、入库工作进行完毕。1.7.3.2.2 数据补录软件开发根据业务要求、指标体系规范和系统数据要求整理数据采集软件需求功能报告、数据采集指标项,设计开发数据采集软件。1.7.3.2.3 人员要求数据采集工作组需要如下类型的人员: 数据采集标准制定人员 数据采集具体执行员 数据批量录入人员 数据检核人员 数据采集工作组负责人1.7.3.2.4 工作要求数据工作组的工作成败对于整个系统建设至关重要,因此数据采集工作组的工作人员显得尤其重要。工作组负责人必须经常保持和采集各类工作人员、应用软件开发负责人、用户方系统切换负责人等保持沟通与联系,及时将数据采集工作组发现的问题与他们取得沟通,以保证采集的数据能够满足新软件系统的要求。1.7.3.2.5 组织机构根据数据数据采集工作的特点,需要将整个工作组分为标准制定、数据采集、数据录入、数据检核四个组,由工作负责人统一协调和控制整个过程的工作。各小组的职责分工如下:工作组负责人:负责数据采集过程中对各小组人员的任务分配、工作监督、控制,以及和其他相关部门之间协调共作等。标准制定小组:负责制定数据采集的标准。数据采集小组:负责采集数据、汇集原始资料信息。数据录入小组:将采集来的数据批量录入到应用软件系统中。数据检核小组:确保数据录入准确,以及相关数据的关联关系正确。保证数据的准确性和完整性。1.7.3.3 基础数据采集数据采集的具体过程是:一、由标准制定小组,按照全国统一标准并结合本地需求,建立结构规范的数据采集标准。二、由数据采集小组工作人员按照标准进行原始数据采集,填报被采集对象的各项信息。1.7.3.4 基础数据入库基础数据采集完成后,需要将数据录入到数据库中。一、由数据录入小组将采集来的数据,通过计算机批量录入到数据库中。二、由数据检核小组对录入的数据进行系统地检查、核对,纠错等。1.8 数据校验方案数据校验通俗的说,就是为保证数据的完整性,用一种指定的算法对原始数据计算出的一个校验值。接收方用同样的算法计算一次校验值,如果和随数据提供的校验值一样,就说明数据是完整的。最简单的校验就是把原始数据和待比较数据直接进行比较,看是否完全一样这种方法是最安全最准确的,但这种做法效率比较低,东软公司总结了多年来数据校验经验,通常情况下是先对历史数据结构进行分析,对于比较规范的业务数据先导出至上面提到的中间库,再对剩下的数据通过数据积累的校验方法库进行数据校验,校验并修正数据的类型、范围以及合法性等相关数据属性,以确保数据整理的快速有效。对于源数据库、目标数据库结构有差异的数据,建立中间过渡库,中间库在原数据库平台中建立,但结构与目标数据库的结构相同。将源数据库转入中间库的过程是一个数据的重新组合和关联的过程,将是转换的中心和重点工作,需要对源数据库与新数据库的数据关系进行深入分析,对每一个数据库写出转换策略。非空处理:对于应该非空但实际为空的记录制定处理规则。取值约束处理:对于有取值范围约束的字段进行规范化处理,即将转换后的数据取值规范到该范围内。主键处理:重新对中间库进行编号。填写外键:每个数据库或多或少存在外键,外键越多,标明与其它库关联越多,这样的库应后处理;反之,外键越少的库应该先处理。唯一键处理:对要求唯一的数据项(主键、唯一键)进行唯一检测,并对检测出的不唯一的记录,制定处理规则。附加分散处理:对某些表中的某些字段进行数据规范化处理,即将不合规范的数据替换成规范的数据,几个表之间的关联处理,以及一些特殊处理等。数据一致性处理:对于有多个数据源的数据进行一致性检查, 制定处理规则。1.9 新系统对历史数据的容错性有些重要的历史数据虽然格式不能满足要求,但也要导入到新系统中来,这就要求新系统能够兼容这些数据,提供对这些历史问题数据继续进行分析修订功能。1.10 系统迁移方案为了确保新旧数据的一致性,以及确保旧系统的数据能完整、真实、合法地保存和延续,我们考虑采用两套系统同时运行的方式来做一个过渡,这种方式可以保证在出现故障时,数据至少可以在旧系统中顺利进行,同时也可以发现新系统的问题或者验证新系统的正确性,具体说来,就是一笔业务在新老系统中同时进行,考虑不影响业务处理的速度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论