




已阅读5页,还剩46页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据模型的基本概念及建模方法论 ncr 中国 有限公司数据仓库事业部 崔大强技术经理 2 内容安排 数据模型相关术语 什么是数据模型 建模注意事项 数据模型方法论 3 什么是数据模型 以数学的方式对现实事物的一种抽象表达 特征 内容 描述了数据 及其之间的关系形式 反映了数据的组织与管理形式用途 数据仓库 系统建设中的数据信息的蓝图 数据仓库 系统建设的核心业务人员与it人员沟通的语言和工具 4 数据模型的分类 数据仓库项目中数据模型可以分为以下几种 conceptualdatamodel cdm 概念数据模型logicaldatamodel ldm 逻辑数据模型physicaldatamodel pdm 物理数据模型applicationdatamodel adm 应用数据模型 5 概念数据模型 conceptualdatamodel cdm 概念数据模型从全局上 宏观上介绍模型设计思路 范围和内容 主要组成元素主题主题间关系主题中的重要实体实体间的相互关系目标与用途圈定建模的范围划分建设主题理清主要业务关系构造逻辑数据模型的框架 6 定义 使用逻辑建模语言定义数据与数据之间的逻辑关系以图形化的形式反映客户的业务规则达到数据组织的设计目标 逻辑数据模型 7 逻辑数据模型 logicaldatamodel ldm 逻辑数据模型设计人员 业务人员 it人员设计目标设计蓝图 指导整个数据仓库系统的建设业务语言 业务人员与技术人员沟通的手段和方法业务视图 独立于数据库技术实现设计内容 实体 关系和属性建模方法 3nf的设计方法后续工作 物理数据模型的输入 8 物理数据模型 physicaldatamodel pdm 物理数据模型设计目标 面向物理实施的具体细节输入条件继承于逻辑数据模型依赖于所选择的数据库决定于业务需求和性能之间的平衡设计内容数据库 表和字段 索引需要作非正则化处理后续工作 etl 元数据管理和前端应用输入 9 应用数据模型 applicationdatamodel adm 应用数据模型设计目标满足最终用户对数据的访问 内容 形式要求 满足应用系统对数据的存取 性能 存储要求 主要特征面向poweruser和业务人员与具体的应用相关多维分析时一般采用星型结构或者雪花状结构的设计方法是事实表和维度表的组合 10 逻辑数据模型与物理数据模型比较 11 逻辑数据模型在数据仓库中的定位 存储和管理 采集 回答业务问题 析取 清洗 条件 剔除 家庭关系 加载 业务系统 业务系统 业务数据 外部数据 关系数据库管理系统 聚集 统计 人工智能 神经网络 多维 可视化 eis dss 电子表 对象语言 开发 企业数据仓库 从属数据集市 业务人员 it用户 数据导入 知识发现数据挖掘 信息存取工具 源数据 逻辑数据模型 应用数据模型 12 内容安排 数据模型相关术语 什么是数据模型 建模注意事项 数据模型方法论 13 逻辑数据模型基本术语 一 模型结构第三范式 3nf 结构星型结构 多星型结构 雪花型结构 模型分类概念数据模型逻辑数据模型物理数据模型应用数据模型 3nf基础数据模型 starschema 汇总数据 已知应用模型 snowflake 星型结构的演变 14 实体独立型实体依赖型实体子类实体 主题域层面 核心实体关系实体特征实体分类实体 逻辑数据模型基本术语 二 15 属性 描述真实或抽象事物相关联的特征或性质 主键 识别实体实例唯一性的属性 属性组 可选键 能识别实体实例唯一性的其他属性 属性组 外键 通过父实体到子实体关系转移到子实体的属性 非键属性 不是实体主键属性的其他属性 基础名 外键的原来名称 角色名 外键的新名称 表明取值是父实体属性的子集 鉴别器 取值决定父实体实例属于哪个子类的属性 逻辑数据模型基本术语 三 16 关系二元关系父实体的一个实例严格关系子实体的0 1或多个实例的这种关系是二元关系基数父 子实体实例的比例 如1 1 1 m识别 型 关系子实体实例唯一性的识别与父实体相关联 父实体的主键属性成为子实体的主键属性非识别 型 关系子实体不需要与父实体的关系就可以确定实例唯一性 父实体的主键属性成为子实体的非键属性 逻辑数据模型基本术语 四 17 关系确定关系父实体的一个实例对应子实体的0 1或多个实例 并且子实体的一个实例对应0或1个父实体的实例非确定关系多对多关系子类关系子类实体和所属父实体的关系完全子类群所属父实体的每个实例都能够与子类群的一个实体实例相关联不完全子类群所属父实体的每个实例不一定都有子类相关联 逻辑数据模型基本术语 五 18 logicaldatamodel ldm example entity keyattribute nonkeyattribute relationship cardinalityone to many1 m businessrule onecustomerinvoiceatleastcontainsoneinvoiceitem 逻辑数据模型基本术语 示例 19 范式理论normalform 关系数据库 原子性第一范式 每个属性的值唯一第二范式 键值依赖非键属性依赖所有的主键属性 不存在部分键属性就决定的非键属性 第三范式 完全键值依赖非键属性完全依赖且只依赖与键属性 不存在非主键属性依赖其他非主键属性的情况 bcnf第四范式第五范式 关系数据库理论中对于实体划分 实例 记录 设计的规则 thekey 1stnormalform 1nf thewholekey secondnormalform 2nf andnothingbutthekey thirdnormalform 3nf e f codd 20 违反第一范式 如果数quantity属性被定义为 不是与order相关 就是与part相关 例如 在oltp系统中常见的字段复用现象 属此类问题 110 152 21 违反第二范式 依赖了复合主键的一部分 客户经理 地域客户经理编号 22 违反第三范式 依赖了非主键属性 不参与主键的外键属性 23 正则化ldm对数据库物理实现的优势 保留了更多的业务关系更多的主索引选择最佳的数据分布更少的全表扫描更多的连接选择增强优化器使用更有利于提高性能的合并 聚合连接方法最佳的数据分离 耦合度 最佳的底层模型与用户分离最佳的数据控制每行更少的字段最佳的与应用分离更小的行最佳的数据块大小减少临时与永久日志空间减少物理i o 要考虑正则化对数据库性能的要求 24 内容安排 数据模型相关术语 什么是数据模型 建模注意事项 数据模型方法论 25 ncr数据仓库实施方法论 26 逻辑数据模型设计步骤 step1 定义业务需求与范围step2 定义实体step3 定义关系step4 定义非键属性step5 确认模型 27 step1 定义业务需求与范围 确认已经理解全部业务需求什么困难或问题需要解决 一般情况下这些问题主要关系到增加收入或降低成本等模型必须能够回答哪些业务问题 有哪些业务功能必须处理 有哪些业务限制存在 是否每一个参与人员都可以共享他们的业务需求 决定搜集需求的方法回顾已经存在的资料 例如现存的报表 新的业务需求访谈以上两种混合的方法 28 step2 定义实体 制定初始的实体池 不加区分的实体集合 为每一个实体进行定义删除超出项目范围的实体为剩下的每一个实体定义主键为可用的实体编写文档可选 使用带样本数据的表格形式与用户进行确认必须 使用er图制定最终版本的交付材料 29 step3 定义关系 识别实体间的关系对于每一个关系删除超出项目范围的关系删除间接的关系为每一个剩余的关系进行定义识别每一个可用的关系的基数 1 1 1 m m m 参照完整性确保每一个关系 pk fk参照 是完整的 有效的为模型中可用的关系编写文档 使用fk定义关系可选 使用带样本数据的表格形式与用户进行确认必须 使用er图制定最终版本的交付材料 30 step4 定义非键属性 识别并定义相关的非键属性删除超出项目范围的属性根据直觉或经验将剩余的可用属性放入一个表中逐一验证每一个可用属性的摆放位置为模型中的每一个可用属性编写文档可选 使用带样本数据的表格形式与用户进行确认必须 使用er图制定最终版本的交付材料在模型的最终交付文档中添加业务限制条件 31 step5 确认模型 1 根据需要重复以上步骤多次反复经常是必须的 需求 业务规则 操作的复杂性决定 模型中的任何变更都会带来连锁反应 因此需要非常认真的回顾与评审 实体的变更经常影响关系的定义和属性的位置摆放关系的变更经常影响属性的位置摆放属性的位置的变更可能影响其他属性的摆放 32 step5 确认模型 2 通过回答以下问题 持续地对模型的范围进行验证 这一模型组件的含义 与业务的关系是什么 这一模型组件驱动的业务需求是什么 对模型是否已经满足所有业务需求 业务问题及限制条件等 进行验证绝对不要考虑任何与物理实施相关的问题 当所有回答业务需求所必须的数据已经齐备时 停止对模型进行优化 33 主要任务 转换逻辑数据模型 ldm 为物理数据模型定义主索引 次索引非正规化处理 demoralizations 数据库建立设计优化数据库功能测试使用工具 erwin交付项目 物理数据模型 pdm 物理数据模型说明书 数据库描述语言ddl 物理数据库设计 数据仓库管理 物理数据模型 数据转换 应用开发 数据挖掘服务 系统体系结构设计 元数据管理 解决方案集成 34 物理数据模型命名规范 35 内容安排 数据模型相关术语 什么是数据模型 建模注意事项 数据模型方法论 36 建模注意事项 划分相应的主题 客户 产品 账户 事件 行销活动 渠道 地理区域 确定主题与主题之间的关系客户购买产品产生账户 使用产品触发事件运营商通过各种渠道 在不同地理区域进行个性化的行销活动确定每个主题中关键的实体和实体间的关系客户主题中 如参与人 个人 组织等实体 以及实体间的关系 参与人由个人和组织组成进入逻辑数据模型 细化概念数据模型设计 37 建模注意事项 定义数据模型的命名规则命名规范意义统一命名 减少歧义防止冗余的实体或属性的产生良好的命名规范有助于业务人员与技术人员间的沟通便于使用逻辑模型实体和属性命名方法实体名 par party 主题域大写 实体描述词采用全称属性名 accountnbr 词采用全称 首字母大写 词与词之间使用空格连接 38 ldm与pdm的区别 逻辑数据模型 ldm 内容业务模型记录业务规则和关系 与数据库无关用途 与业务人员进行沟通和理解的工具用来确认可以回答业务问题 物理数据模型 pdm 内容数据库模型表现物理数据属性 数据类型 长度 索引与数据库相关用途 支持业务系统运行解决数据存储问题解决应用处理性能问题 39 ldm实现为pdm的条件 ldm业务规则 pdm 软 硬件平台特性 应用开发策略 进行pdm设计必须考虑的因素 缺一不可 核心业务规则 软 硬件平台个性化 用户 开发商个性化 70 10 20 主要考虑因素 输入内容 影响程度 40 ldm业务规则 pdm 业务规则继承 pdm不应违反ldm中界定的业务规则包括 业务概念相同业务关系相同核心业务要素相同 ldm pdm 41 业务规则继承 举例 客户编码abc 用户编码客户编码xy 业务规则 客户的定义是xxx 实体定义 鉴别客户唯一性的标识为客户编码 主键 客户核心属性包括 a b c 属性 一个客户可以拥有多个用户 关系 识别用户所属客户的标识为客户编码 外键 客户 用户 cust idabc user idcust idxy cust user 42 软 硬件平台特性 考虑平台特色 pdm应考虑实际数据库平台的特色包括 不同数据库的数据类型 长度不同不同数据库的索引机制不同不同的数据库处理性能不同不同的硬件平台 配置处理性能不同 pdm ldm pdm 43 考虑平台特色 举例 客户编码客户姓名bc 用户编码客户编码xy 客户 用户 cust idchar 8 cust namechar 8 bc user idcust idxy cust user cust idlongintguest namechar 12 bc user idcust idxy cust user 例如 数据类型 长度不同等 44 应用开发策略 考虑应用开发策略 pdm应考虑应用系统的实施策略包括 表的横向分割 表的纵向分割 创建汇总表 临时表 属性冗余 创建主索引 可能与ldm主键不同 pdm ldm pdm 45 考虑应用开发策略 举例 客户编码客户姓名bc 用户编码客户编码xy 客户 用户 cust idcust nameb user idcust idxy cust b user cust idc cust c 横向分表 cust idabc user idcust idxya cust1 user cust idabc cust2 cust idabc cust3 1类 前1000条 2类 中2000条 3类 后1000条 共3000条 例如 横向表 纵向分表 子类 属性冗余等 46 建模注意事项 设计逻辑数据模型按照era设计流程设计逻辑数据模型确定实体entity定义实体的主键key定义部分非键属性non keyattri
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 遗传性肾癌VHL综合征型护理查房
- 特发性肺纤维化合并呼吸衰竭护理查房
- 阿尔山市2025-2026学年八年级下学期语文月考测试试卷
- 安徽省淮北市相山区2024-2025学年高一上学期第二次月考物理试题及答案
- 2025 年小升初忻州市初一新生分班考试英语试卷(带答案解析)-(外研版)
- 2025 年小升初衡水市初一新生分班考试数学试卷(带答案解析)-(冀教版)
- 工程热力学及内燃机原理2012年7月自考试题
- 甘肃省白银十中2024-2025学年八年级下学期期末物理试卷(含答案)
- 进口药品销售合同范本
- 别墅改造租房合同范本
- 初中物理新课程标准测试题及答案(四套)
- GB/T 18802.331-2024低压电涌保护器元件第331部分:金属氧化物压敏电阻(MOV)的性能要求和试验方法
- HG∕T 4693-2014 工业氟硅酸钾
- 保险公司与政府战略合作协议完整版
- (高清版)DZT 0331-2020 地热资源评价方法及估算规程
- 营销造势方法、步骤和策略
- 2024届八省八校T8联考高三第二次学业质量评价 英语试题
- 一滴血检测仪培训教程(完全版)课件
- 2024年中信信托有限责任公司招聘笔试参考题库含答案解析
- 拟写议论文分论点(最终版)
- 康复科提高药品发放及时性PDCA
评论
0/150
提交评论