




已阅读5页,还剩27页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国人民保险公司保险数据模型及业务标准化数据模型及业绩指标和风险测算分析,ETL方法介绍2004年4月15日,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,2,内容,ETL基本概念ETL过程讲解PICCETL总体架构PICCETL开发方法,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,3,ETL基本概念主要目的,将源系统数据经过抽取转换过程,最终装载到目标系统将针对日常业务操作的数据转化为针对数据仓库而存储的决策支持型数据,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,4,ETL基本概念术语解释,ETL,Extract-Transform-Load的缩写,数据抽取(Extract)、转换(Transform)、装载(Load)的过程,DW,DataWarehousing,根据Bill.Inmon的定义,“数据仓库是面向主题的、集成的、稳定的、随时间变化的,主要用于决策支持的数据库系统”,MetaData,元数据,就是描述数据的数据,指在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,5,ETL基本概念数据仓库中的位置,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,6,ETL基本概念数据质量,正确性(Accuracy):数据是否正确体现在现实或可证实的来源完整性(Integrity):数据之间的参照完整性是否存在或一致一致性(Consistency):数据是否被一致的定义或理解完备性(Completeness):所有需要的数据是否都存在有效性(Validity):数据是否在企业定义的可接受的范围之内时效性(Timeliness):数据在需要的时间是否有效可获取性(Accessbility):数据是否易于获取、易于理解和易于使用,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,7,ETL基本概念数据质量原因,业务系统不同时期数据模型不一致业务系统不同时期业务过程有变化各个源系统之间相关信息不一致遗留系统和新业务、管理系统数据集成不完备带来的不一致性源系统缺少输入验证过程,不能阻止非法格式的数据进入系统可以验证但不能改正数据,验证程序不能发现格式正确但内容不正确的错误源系统不受控制的更改,而这种更改不能及时的传播到受影响的系统数据由多个交叉的访问界面,难以统一管理数据质量问题缺少参照完整性检查低劣的源系统设计数据转换错误,比如ETL过程错误或数据迁移过程的错误源系统与数据仓库系统的数据组织方式完全不同,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,8,ETL基本概念数据转换,空值处理规范化数据格式拆分数据验证数据合法性数据替换实现数据规则过滤数据排序数据类型统一转换.,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,9,ETL过程讲解逻辑架构,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,10,ETL过程讲解Extract,设计原则为提高ETL效率,数据在进入ETL系统后的EXF文件都将转换为FlatText文件格式从ETL程序设计的灵活性和整体结构的一致性考虑,尽量采用Pull的方式,减少对源系统的影响和对其他开发队伍的依赖,并减少网络压力由于BatchWindows的限制,如果日源数据量大于5GB则必须考虑采用Push的方式以提高传送速度,如,可以由源系统将数据转换为FlatText文件后,由ETL程序采用FTP的方式进行传送EXF的文件格式接近数据源的数据结构定义在Extract过程中过滤数据仓库不需要的数据记录和字段Push和PullPush在源系统上根据定义的数据格式将每日增量数据生成数据文件,再通过FTP或文件拷贝的方式传送给ETL程序处理Pull由ETL程序通过DRDA或ODBC等数据库协议直接访问源数据库获取所需数据进行处理,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,11,ETL过程讲解数据转换过程中产生的文件,EXF(ExtractedFormat)由数据源Extract产生的文件,文件结构与Source相似,经过过滤,部分字段被忽略。CIF(CommonInterfaceFormat)CIF是ETL经过C/S/S过程产生的中间数据文件。PLF(Pre-LoadFormat)经过数据转换,用于直接加载到数据仓库的文本文件,其数据结构与数据仓库中的表定义一致。,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,12,ETL过程讲解数据转换过程中一般需要完成的操作,数据检查与稽核数据类型统一转换赋缺省值数据排序数据拆分筛选不合格的数据并记录到Rejected文件中根据加载要求,CIF文件分为Load/Append和Snapshot两类数据拷贝数据翻译数据聚合复杂计算数据匹配对于必须通过比较才能确定变化的记录的数据,通过比较产生Delta数据和新的基准数据,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,13,ETL过程讲解数据处理流程,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,14,ETL过程讲解数据对照开发流程,SourceTable,CIF,TargetTable,PLF,1,2,3,6,EXF,5,6,4,1、收集整理所有数据源,定义源数据结构(与EXF相同)2、根据物理模型设计定义数据仓库数据(与PLF相同)结构3、设计源数据表(文件)与数据仓库数据表对应关系(TableMapping),确定Pilot的数据源范围4、设计源数据字段与数据仓库字段的数据对照5、设计CIF的数据结构6、设计源数据字段EXFCIFPLF数据仓库数据字段的数据对照,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,15,PICCETL总体架构处理机制,中间数据存放机制通用方式:文本文件或者数据库表PICC:数据库表数据装载机制通用方式:全量装载、增量装载和全增量混合装载PICC:全量装载数据装载周期通用方式:日、周、旬、月、季、半年、年PICC:月以上数据映射完成机制通用方式:程序处理、工具处理以及混合处理PICC:程序处理,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,16,PICCETL总体架构应用框架,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,17,PICCETL总体架构数据抽取(Extract),从旧系统中导出20张表(详见应用框架组成部分),每个表的最后都要增加一个字段字段名称(Source_system_labe),字段数据类型(char(10),字段的值(V2001A)从新系统(车险数据库)中导出24张表(详见应用框架组成部分),每个表的最后都要增加一个字段:字段名称(Source_system_labe),字段数据类型(char(10),字段的值(V2003A)从新系统(财险数据库)中导出如下8张表(详见应用框架组成部分),每个表的最后都要增加一个字段:字段名称(Source_system_labe),字段数据类型(char(10),字段的值(V2003P)手工整理Excel表格共20张(详见应用框架组成部分)把旧系统导出的20张表数据导入到表群EXF-CoreSystem中把新系统车险数据导出的24张表数据导入到表群EXF-NewSystem中把新系统财险数据导出的8张表数据导入到表群EXF-NewSystem中把手工整理的20张Excel表数据导入到表群EXF-External中,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,18,PICCETL总体架构数据抽取(Extract),中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,19,PICCETL总体架构数据转换(1)(Transform1),在CIF第一层表中每生成一条记录产生一个唯一的记录ID进行数据类型转换进行空值替换进行数据格式统一进行新旧系统到本系统的代码映射根据业务需求对数据进行必要的转换其它一些代码的转换(例如RiskCode、KindCode替换成Product_id等)把不符合数据质量要求的记录写入相应的Reject表中,并调查原因,重新制定映射和清洗规则在CIF第二层表中每生成一条记录产生一个表内唯一的FundamentalID,注意在这个过程不进行任何整合过程,而是从CIF第一层每过来一条相关记录就生成一个FundamentalID根据数据的Mapping,生成各个数据域的值在CIF第二层表中写入相关的CIF第一层表的唯一记录ID在CIF第二层表中写入与数据级别相关的标识字段值,例如Policy_no、Cliam_no、Coverage_no等需要回写的整合过的FundamentalID,放入空值把不符合数据质量要求的记录写入相应的Reject表中,并调查原因,重新制定映射和整合规则,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,20,PICCETL总体架构数据转换(1)(Transform1),中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,21,PICCETL总体架构数据转换(2)(Transform2),进行从CIF第二层表到PLF的FundamentalEntities的整合过程,生成真正的全局唯一的FundamentalID向CIF第二层表中回写全局唯一的FundamentalID把CIF-Program表群导入到PLF相应表中把EXF-External表群导入到PLF相应表中由PLF的FundamentalEntities生成相应的AnchorEntities数据把全局唯一的AnchorEntityID回写到相应的FundamentalEntity中根据CIF第二层表中的附加字段(例如Policy_no等),生成FundamentalEntity级别的RelationshipEntity数据如果CIF第二层不足以满足生成RelationshipEntity数据的需要,则根据附加的标识CIF第一层数据来源的唯一记录字段中的值(唯一记录ID),回溯到CIF第一层表中找到相关字段的值,并据此生成相应的RelationshipEntity数据AnchorEntity级别的RelationshipEntity数据要根据AnchorEntity的ID回溯到FundamentalEntity,并进一步回溯到CIF第二层表中才能获取到根据PLF-Atomic表群生成PLF-Aanlytical表群的数据,把此过程需要临时存放的数据写入到CIF第二层的Analytical表群中把不符合数据质量要求的记录写入相应的Reject表中,并调查原因,重新制定映射和整合规则,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,22,PICCETL总体架构数据转换(2)(Transform2),中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,23,PICCETL总体架构数据装载(Load),把PLF-Atomic表群按照外键约束顺序依次倒入到EnterpriseModel的Atomic表群中把PLF-Analytical表群按照外键约束顺序依次倒入到EnterpriseMode的Analytical表群中把PLF-Dimension表群按照外键约束顺序依次倒入到EnterpriseModel的Dimension表群中,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,24,PICCETL总体架构数据装载(Load),中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,25,PICCETL开发方法开发流程,程序设计开发阶段框架程序设计与开发映射程序模板与例子设计与开发映射程序设计与开发控制程序设计与开发程序测试阶段映射程序单元测试结合框架和控制程序集成测试,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,26,PICCETL开发方法程序调用流程,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,27,PICCETL开发方法EXFCIF程序模板讲解,中国人民保险公司保险数据模型及业务标准化|保密|2020/5/11,28,PICCETL开发方法CIF(Transfo
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- Linux系统软件安装指南
- 地下空间开发技术-洞察及研究
- 基于用户社交网络的学习路径挖掘方法-洞察及研究
- 2026届安徽省蚌埠市禹会区化学九上期中检测试题含解析
- 2026届贵州省遵义市桐梓县九年级化学第一学期期末监测模拟试题含解析
- 2026届云南省曲靖市罗平县化学九上期中质量跟踪监视试题含解析
- 2026届山东省日照市宁波路学校化学九年级第一学期期末调研模拟试题含解析
- 2026届山东济宁十三中九年级英语第一学期期末达标检测试题含解析
- 2025年广告灯具项目提案报告
- 2025年心电监护仪项目立项申请报告
- 《急诊症状:抽搐》课件
- 安全培训自制课件
- 放弃继承权声明书(模板)
- 市场营销-奶茶饮品市场营销策略探析
- 工程交工技术文件说明
- 清华大学实验室安全教育考试题库(全)
- 药物临床试验-阳国平-2017年
- GB/T 602-2002化学试剂杂质测定用标准溶液的制备
- 董关鹏-沈阳课件
- 大学生活从“心”开始
- 淄博市2020年度专业技术人员继续教育公需课考试题及答案
评论
0/150
提交评论