数据仓库的数据标准化思路_第1页
数据仓库的数据标准化思路_第2页
数据仓库的数据标准化思路_第3页
数据仓库的数据标准化思路_第4页
数据仓库的数据标准化思路_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库的数据标准化思路 数据标准化数据标准化 对于大型公司而言 各个下层子公司都使用自己本地的业务系统 当这些子公司数据往上汇总到总公司时 常常出现代码不一致 数据歧义等等各种各样的问题 在这种情况下 数据标准化就变得不得不行了 典型的例子 比如医院 大型医院往往包含多个分院 而分院都是用自己的业务系统 业务数据采集汇总 后 发现数据结构及数据本身出现歧义 无法直接使用 因此 就不得不对本院及分院的业务数据进行标 准化处理 避免歧义 使数据更真实可用 简单易理解 数据标准化处理应当注意两个关键点 1 一号对应一对象 以病人为例 病人可能在各分院及本院都注册建档 因此同一病人可能在各分院都有不同的 ID 号 但数 据采集到本院 与本院数据合并后 进行标准化处理 应保证此病人具有新的唯一 ID 号 同时需保留病 人曾经的各分院及本院 ID 号 便于其他分院数据的关联 如分院的病人缴费数据需要关联原始分院号码 之后以标准化后唯一 ID 号 进入本院系统 2 事实数据标明数据来源 如病人缴费信息 因为缴费事实产生的位置不同 需要进行来源标注 分清本院及各分院 便于数据理解 及之后的查询和统计 在构建 DW 时的数据标准化处理流程上 可以考虑通过以下方式来完成 标准化准备标准化准备 在标准化处理之前 需要对 DW 表格结构进行一些处理 使得标准化过程易于实施 也保证标准化的结果 更易于理解 对于不同的表格上 所需新增的字段也不尽相同 下面分类进行说明 维表维表 比如病人信息 科室信息 员工信息 设备信息等 新加字段如下 字段名类型说明备注 ID数字代理键 主键由序列生成 新的唯一 ID 号 HISTORY IDLIST文本曾经使用的编号列表对应分院 分院 ID 号 以 分隔 START DATE日期记录生效时间拉链使用 可选 END DATE日期记录失效时间拉链使用 可选 事实表事实表 如病人缴费 医生处方 手术记录等 新加字段如下 字段名 类 型 说明备注 SOURCE ID 数 字 数据来源 本 院 分院 表示数据来源 应新增本院 分院信息维表 记录 source id 对应 的分院名 地址 热线等信息 ARCHIVE FLAG 文 本 记录是否可归 档 Y N 对于已处理完成的信息 如病人已出院 进行可 归档标记 DW 保留一段时间后 可考虑部分归档数据迁移 到二级存储 减轻压力 START TIME 日 期 记录生效时间拉链使用 可选 END DATE 日 期 记录失效时间拉链使用 可选 数据标准化处理数据标准化处理 在数据标准化的处理过程中 也应分为两步进行处理 先进行维表的代码 如 ID 号 标准化 然后将事 实表中的记录以标准化后的代码配合原来的事实信息 如缴费 及数据来源标记 哪个分院 采集到 DW 标准事实表中 维表标准化维表标准化 1 维表标准化以病人维表为例进行说明 2 将本院及各分院的维表数据采集到 DW 标准库的缓冲区 可将本院及各分院数据放置于缓冲区的不同用户 下 3 首先标准化本院数据 标准化后的数据写入标准表格 以病人身份证号进行区分 身份证号第一次出现时 取新的序列值为病人的标准化 ID 号 并将病人的原始信息 本院编号 原始 ID 号 记入 history idlist 字段 同一身份证号之后重复出现时 将病人的原始信息添加到 history idlist 字段即可 4 之后标准化分院数据 对于本院中未出现的身份证号 取新的序列值为病人的标准化 ID 号 并将病人的 原始信息 分院编号 原始 ID 号 记入 history idlist 字段 同一身份证号之后重复出现时 将病人的 原始信息添加到 history idlist 字段即可 注 在病人的原始信息记入 history idlist 字段时 可选择同时将标准化的病人 ID 号和原始 ID 号写入 一个代码转换表 便于之后分院事实表通过此代码转换表 根据原始 ID 号 找到新的标准化 ID 号 当然 分院事实表也可通过对标准化病人维表的 history idlist 字段的全文搜索 找到对应的标准化 ID 号 实 际实施中 以实施效率进行灵活调整即可 事实表标准化事实表标准化 1 将本院及分院的事实表数据采集到 DW 标准库的缓冲区 2 本院及分院事实表需与上一步生成的代码转换表关联 或搜索 history idlist 字段 根据原始病人 ID 号 找到新生成的标准化 ID 号 联合其它的事实数据 如缴费 写入到新的标准化事实表 3 本院及分院事实表数据写入 DW 标准库的同时 在标准化事实表的 source id 字段中标注事实数据来源 本院或分院的编号 DWDW 数据标准化实施数据标准化实施 在实施标准化时 可分为标准化初始化 增量标准化来实施 标准化初始化处理数据量最大 之后增量标 准化 只要采集增量数据到缓冲区即可 标准化初始化标准化初始化 标准化初始化示意图如下 初始化主要完成以下工作 1 以某个时间点为界 采集本院 分院数据到 DW 标准库缓冲区 2 在缓冲区进行数据标准化后 写入 DW 标准库 3 写入完成后 清理缓冲区 但建立了代码转换表的话 代码转换表可保留 标准化增量标准化增量 标准化增量示意图如下 标准化增量主要完成以下

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论