大型数据中心数据清理的策略与方法_第1页
大型数据中心数据清理的策略与方法_第2页
大型数据中心数据清理的策略与方法_第3页
大型数据中心数据清理的策略与方法_第4页
大型数据中心数据清理的策略与方法_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2012-07-13#2012-07-13#2#012-07-13#大型数据中心数据清理的策略与方法中国工商银行股份有限公司数据中心(上海)杨娟娟银 行 大 型 数 据 中 心 具 有 数 据 类 型 多、 数 据 量 大、来源不唯一、处理环节多及数据安全性要求高等特点, 其 数 据 管 理 面 临 很 多 风 险。 本 文 从 数 据 清 理 角 度 探 讨 防 控 数 据 管 理 风 险 的 策 略 与 方 法, 以 期 达 到 不 断 优 化 系 统 资 源、 降 低 运 维 成 本、 提 高 运 行 效 率 和 数 据 管 理 水平的目的。账务等重要数据,因此数据的保护措施如不严密,可能导致数据泄露、遭到破坏或者丢失,进而造成客户和企 业的经济损失,损坏银行信誉。5. 数据保存方式多样,导致数据查询效率低数据中心采用多种存储设备保存不同类型的数据, 如磁盘、光盘及磁带等,针对多样的保存方式,存在数 据查询途径不一致、查询不够便捷等问题,降低了审计、 司法机构及客户数据查询效率。一、数据管理面临的风险1. 在线数据量增长快速,增加系统性能容量压力随着经济的发展,银行业务量迅猛增长,带来的显 著问题是在线数据量的急剧膨胀,对系统的性能、容量 及扩充能力提出更高要求,一旦在线数据量超出系统性 能容量处理范围,将影响系统的稳定运行,妨碍业务的 顺利开展。2. 历史数据积累,降低程序效率且浪费存储资源随着时间的推移,部分在线数据业务上已不再频繁 使用,被访问频率越来越低,使用价值也随之降低,逐 渐转变成历史数据。大量历史数据堆积在生产系统上, 一方面降低程序执行效率,影响数据服务的时效性;另 一方面由于在线数据量增加,导致大量高端存储等系统 资源浪费。3. 据质量缺陷,降低数据质量服务水平因数据量大且处理环节多等特点,存在如数据不完 整、不准确(不符合业务的需求)、不一致等数据质量 问题,甚至因程序等故障造成的数据错误删除,导致数 据丢失而不可用,无法满足业务部门或客户需求,大大 降低了数据质量服务水平。4. 数据安全隐患,增加了信息泄露或丢失风险二、 数据清理与数据生命周期数据在线生成后,随着时间推移会变成历史数据,为提高系统的运行效率及资源利用率,将历史数据从生 产系统中剥离,这个剥离的过程即为数据清理。为了满 足后续业务的查询需求,被清理的数据需转移到其他存 储设备中进行归档保存一段时间后进行销毁。以上整个 过程构成了数据的生命周期,主要包括数据在线、归档 和销毁三个阶段,具体说明见表 1。数据清理存在于在 线阶段到归档阶段和销毁阶段的各个环节,是数据生命 阶段转变的关键。表1 数据生命阶段说明数据中心保存着大量有价值的信息,如涉及客户、2012-07-13#2012-07-13#2#012-07-13#序号数据生命阶段说明举例1在线阶段数 据 产 生 与 使用阶段以银行卡为例:客户新办理 一张牡丹灵通卡,银行卡系 统中生成客户牡丹灵通卡信 息,如卡号等2归档阶段数 据 备 份 与 保存阶段客户相关卡信息被清理后保 存在其他磁带中3销毁阶段数 据 被 销 毁 至消失阶段在磁带中又保存1年后,客户 的牡丹灵通卡相关信息可被 删除或者介质销毁IT Running andMaintenance1. 数据清理的要素因数据清理与数据生命周期密切相关,本文依据数据 生命阶段总结数据清理策略关键要素及说明,具体见表 2。其中,在线阶段确定了数据清理的条件;清理实施阶段规定数据清理的具体方式;归档阶段则需明确清理三 、数据清理策略数据清理策略是对不同数据的清理实施条件、清理方式、数据保存方式等规定的集合,是数据清理实施的 基础。表2数据清理策略关键要素分类及说明要素分类说明举例可清理1年,则2012年5月18日可清理存保存的其他表数据也需进行清理平台等存1年后离线归档半年段,银行卡交易明离线归档半年后进行销毁阶段在线阶段在线保存期限永久保存数据从产生开始一直在生产系统中保 存,此类数据不需要进行清理个人基本信息从客户注册后永久在线保留,不清理数据被标记为失 效或过期后在线 保存时间数据被标记为失效或过期后在系统中 保存一段时间后需进行清理银行卡系统账户状态标记为“销户”后在线保存1年数据生成后保留 的时间数据在线生成一段时间后需进行清理银行卡交易明细2011年5月17日生成,在线保存期限下一生命阶段归档阶段数据从生产系统清理出后进入归档阶 段,进行备份并保存银行卡交易明细被清理后通过系统进行在线归档保销毁阶段数据从生产系统清理出后进入销毁阶 段,无需备份并保存,直接进行销毁临时文件生成后,直接被新的文件覆盖销毁,无需清理实施阶段清理方式数据更新数据实时更新,无效数据被自动覆盖联机清理数据在联机交易时被删除,如由用户 通过系统前台界面进行手工删除,数 据直接清理而无需保留批量清理通过批量程序清理清理工具统一清理通过系统触发批量清理程序,进行一 致清理单表的清理应用自行清理各个应用自行编写程序清理多表的清理,如清理客户信息表后,涉及客户信息清理周期通过周期性清理,确保过期数据能及 时从生产系统清理出去每月25日或每日等时间窗口实施清理的具体时间段0:001:30归档阶段归档方式在线归档查询频度仍相对较高的数据,通过数 据库形式保存数据,用户仍可以通过 系统在线查询;部分数据通过在线归 档一段时间后进入离线归档阶段在线归档工具:历史数据管理平台、电子档案管理离线归档查询频度相对较低的数据,通过光盘 或磁带等介质保存数据,用户无法在 线访问,需通过恢复光盘或磁带介质离线归档介质:光盘、磁盘等归档保存时间从生产系统剥离下的数据进行在线归 档或离线归档保存时间永久、1月、1年等下一生命阶段离线归档部分在线归档数据保存到期后进入离 线归档阶段银行卡交易明细被清理后通过系统进行在线归档保销毁阶段部分数据在线归档保存时间到期后进 入销毁阶段,离线归档数据保存到期 后均进入销毁阶段部分临时文件在线生成后直接被覆盖进入销毁阶2012-07-13#2012-07-13#IT#2I#T0#R1#u2nn-in0g 7an-d1M3ai#nte#n#an#ce#数据的归档(保存)方式及时间。2. 制定合理的清理策略要素通过合理的清理策略,一是能及时清理使用价值低 的历史数据,达到控制在线数据量、节约系统资源的目 的;二是能确保数据质量和数据安全,满足业务、司法 等对数据查询的需求。因此,在制定数据清理策略时应 综合考虑数据使用价值的大小、系统资源条件、数据质 量、安全性要求及用户需求等因素,具体分析见表 3。3. 制定数据清理制度规范数据清理策略应符合相关制度规范,制度规范为清 理策略的制定提供依据,规范中应明确不同类型数据清 理要素的规定,可按照应用、数据主题、功能特点来进 行区分,如规定经营分析类应用、主题为机构、功能为 基础数据表的数据在线保存 7 年内,进入在线归档保存15 年后进入销毁阶段。四、 数据清理管理机制表3清理策略的影响因素分析合理规范的数据清理策略是实施数据清理的基础,及时、准确、高效的数据清理工作还需辅以完整的数据 清理管理机制。1. 建立数据清理策略优化机制对数据清理策略进行持续优化,确保数据清理的及 时性。(1)优化依据。清理策略优化视数据量、版本调整及生产事件三方面的变化持续进行,具体说明见表 4。表4 优化依据分类及说明保存期限长,同时尽量需选择在线优化依据内容说明举例说明情况周期的变动情况量程序运行效率慢线归档保存时间相对较长;清理方以上三方面相互影响相互依赖,业务及应用系统功能的变化会带来版本的调整,版本的调整将引起数据结 构与数据量的变化,而版本调整不合理或数据量变化过 快,均可能导致生产事件。(2)监控方法。通过监控上述三方面的变化结果考 虑是否优化清理策略,具体方法见表 5。针对数据量变化,可建立自动化监控平台对应用表及存储性能好的设备,且在线归档序号1数据量变化数据量的大小、数据 量变化速度情况数据量连续半年变化2版本调整版本内容调整带来的 数据结构及数据生命季度版本投产3生产事件系统运行过程中发生 的因数据量大而导致 的事件因数据量大,导致批影响 因素分类说明影响的因素分析数据使 用价值数据类型按 数 据 的 来 源 可 分 为 主 数 据 源 和 辅 助 数 据 源 ; 按 数 据 主 题 可 以 分 为 机 构 类 、 客 户 类 、 协 议 类 等主数据为系统的基础数据,一般数 据使用价值较大,要求在线保存时 间和归档保存时间长,衍生数据由 主数据通过一定的统计规则和计算 模型派生而来,使用价值小,一般 在线保存时间金额归档保存时间 短;此外,按照数据的主题来划 分,对于客户类、协议类等涉及客 户信息或者客户行为或账务的数据 使用价值较大,一般要求在线保存 时间和归档保存时间较长访问频率用 户 在 一 定 时 期 内 访 问 应 用 数 据 的 次数访问频率越高数据使用价值越大, 要求在线保存期限越长,归档阶段归档方式系统资 源条件系统运行 时间系 统 运 行 时 间 段 分 为 高 峰 时 期 、 低 峰时期清理时间应尽量避开系统运行高峰 期,在非繁忙时间、并分多次进行 清理存储资源包 括 磁 盘 、 磁 带 、 光 盘 等存储资源系统资源充足的情况下在线保存期 限、归档保存期限均可适当延长系统性能C P U 、 I O 吞 吐 能 力 、 内 存等系统性能好的情况下在线保存期限 可适当延长,清理时间应尽量在系 统性能好的情况下进行数据质量要求对 数 据 的 准 确 性 、 一 致 性等要求数据质量要求高,则在线保存期限较 长;归档后尽量选择在线归档,且在式一般选择批量自动化清理安全级别要求对 数 据 安 全 保护的要求安全级别要求较高,则在线保存期 限较长,归档后尽量选择在线归档保存时间相对较长;清理方式一般 选择批量自动化清理用户需求用 户 提 出 的 特 殊 需 求 , 如 有 关 部 门 要 求 或 政 策 性要求根据用户特定需求确定数据的在线 保存期限、在线归档方式和归档保 存期限IT Running andMaintenance理实施情况、数据归档保存情况三方面进行检查,具体说明见表 6。表6 数据清理检查内容表5优化依据的监控方法长 率 较 高发 生 变 化行错误、未完全执行数据量变化情况实现监控。该监控平台能自动获取应用表的每日数据量,同时提供数据量变化情况按时间段查 询。监控的重点时间段为版本发生重大变化后及业务量 增长较快时期,对数据量增长率较高的应用表安排一次 性清理,长时间内增长较快的应用表应考虑调整在线保 存期限。版本调整涉及数据表的新增、删除等数据生命周期 以及数据结构的变化,应提前参与版本发布管理,了解 新 增 版 本 中 数 据 结 构 或 数 据 生 命 周 期 发 生 变 化 的 应 用 表,根据变化情况在版本投产前及时调整策略。持续跟踪每日生产事件,对因大数据量导致的程序 效率、数据时效性事件,进行数据清理或调整在线保存 期限的可行性分析。(3)评价指标。通过数据清理策略覆盖率(数据清理 策略覆盖率 = 已有清理策略的应用表数量 / 需制定清理策 略应用表总数)指标来评价数据清理策略的完善情况。2. 建立数据清理检查机制数据清理检查主要是对数据清理工作的准确性进行 检查,从而发现问题并及时采取整改措施,控制因数据 清理引起的数据质量及数据安全方面的风险。(1)检查内容。主要从清理策略要素的规范性、清(2)检查方法。针对每一项检查内容,设定相应的检查原则、手段及时间,具体说明见表 7。表7数据清理检查方法不 定 期 在(3)评价指标。针对每一项检查内容,建立评价指标,序号内容检查原则检查手段检查时间备注1清 理 策 略 要 素 的 规 范 性重点检查如下 三种应用:一 是数据量增长 较快的应用; 二是应用等级 较高的应用; 三是数据恢复 需求多的应用人工手动定期和不定 期定 期 可 按 月 进 行 ; 不 定 期 可 视 制 度 规 范 的 变 化 时 间 及 版 本 投 产 时 间而定2清 理 实 施情况重点检查如下 两种应用:一 是数据量增长 较快的应用; 二是应用等级 较高的应用人 工 手 动 与 自 动 化 平 台 相 结 合定期和不定 期定 期 可 按 月 进 行 ;版 本 投 产 后进行3清 理 数 据 保 管 情况重点检查如下 两种应用:一 是数据恢复需 求 较 多 的 应 用;二是应用 等级较高的应 用人工检查定期和不定 期定 期 可 按 月 进 行 ; 不 定 期 可 在 审 计 、 监 管 需 求 期间进行序号内容内容分类检查结果分类1清 理 策 略 要 素 的规范性数据清理策略各要素 是否与制度规范一致一致、不一致3清理实施情况数据清理策略是否部 署正确正确、不正确4数据清理是否按时完 成已完成、未完成5数据清理是否执行正 确已执行、未执行、执6数 据 归 档 保 存 情况归档保存的数据是否 有 效 , 是 否 满 足 司 法、审计等查询要求有效、异常序号优化依据监控手段监控时段监控范围监控结果1数 据 量 变 化自动化监 控实时检测、重 点关注版本发 生重大变化、 业务量增长较 快时期应 用 表 的 数 据 量 监 测 覆 盖 率 为100%数 据 量 增 的数据2版本调整人工手动 监控新版本投产前所 有 变 动 的版本数 据 结 构 、 数 据 生 命 周 期的表3生产事件人工手动 监控每日与 数 据 量 有 关 的 生 产事件因 数 据 量 过 大 导 致 的 生 产 事 件。2012-07-13#2012-07-13#IT#2I#T0#R1#u2nn-in0g 7an-d1M3ai#nte#n#an#ce#具体说明见表 8。表8 数据清理检查评价指标实际释放存储统计功能,并以报表形式展现,便于后续对数据清理策略实施情况的检查和评估;具备实施结果 查询、导出功能。(3)清理数据统一查询平台。清理后的数据保存(归 档)方式的多样性为数据查询带来不便,为提高数据查 询的效率,统一查询平台应具备如下功能:全面查询内 容的功能,提供的数据查询内容应全面,将进行数据清 理且有归档需求的数据均纳入管理,以便能满足各类查 询需求;便捷的查询功能,具备易用简单的查询界面和 快速简便的查询方式,查询功能便捷、人性化;数据安 全性管理功能,主要是通过用户权限设置控制不同用户 的查询权限,确保数据的安全性,并对数据的访问次数、 访问时间、访问用户等均有记录,以掌握数据的访问情况。4. 建立数据清理后评估机制(1)评估范围。主要包括清理后的系统性能评估、 应用表重组分析及对业务的影响评估,具体见表 9。表9 数据清理后评估范围总数数3. 建立数据清理自动化管理机制无论是清理策略的持续优化或是数据清理检查均需 辅以自动化工具。通过自动化管理一是可以提高数据清 理策略的制定、实施、检查等工作效率;二是可以降低 人为操作与判断带来的数据质量及安全方面的风险;三 是可以提高数据查询效率,提升客户满意度。(1)数据清理策略要素管理平台。通过建立清理策 略要素管理平台,便于对数据清理策略的维护,以避免 因策略维护错误而导致的数据错误删除,该平台需具备 如下两个功能:数据清理策略的统一录入、修改和查询 功能,清理策略制定后通过该平台录入、修改清理策略的 相关要素具体值,并对关键值的有效性进行检查,以减少 人为的输入错误,数据清理策略管理及使用人员可通过该 平台进行查询;数据清理策略导出功能,通过该平台可全 量导出数据清理策略,以便为清理的实施提供依据。(2)数据清理实施平台。通过建立清理实施平台, 统一实施数据清理,从整体上控制和跟踪数据清理的实 施效果,提高数据清理准确率,该平台需具备如下功能: 数据清理策略的导入功能,统一导入数据清理策略管理 要素平台中的策略表,并将其转换成参数表,便于后续 通过批量方式实施数据清理;实施结果统计功能,具备预计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论