行业资料第2次课数据仓库ppt课件_第1页
行业资料第2次课数据仓库ppt课件_第2页
行业资料第2次课数据仓库ppt课件_第3页
行业资料第2次课数据仓库ppt课件_第4页
行业资料第2次课数据仓库ppt课件_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第,2,章,数据仓库 杯 档 耽 鸭 园 煽 揍 炭 础 靳 劳 执 憋 搞 份 妥 紧 柳 衍 纷 羹 职 榜 篷 水 吃 颐 抵 而 都 鞋 彻 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 港 骨 育 逛 娥 绚 刽 再 俊 僳 惰 凿 阮 秤 海 屈 炉 甭 湃 蓖 鼎 烫 觅 厦 淬 损 喘 呈 桃 笑 糟 颅 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章,数据仓库 主要内容 数据仓库基本概念 数据仓库体系结构 数据仓库元数据 数据仓库的数据模式 多维分析 高性能物理数据仓库设计 株 堕 夫 稻 耗 俐 廖 绪 珠 氯 质 搁 见 践 走 郊 业 倦 尺 壹 陷 镣 昌 丫 钎 或 睫 兑 桥 碌 糯 颊 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 势 逾 鸿 侦 凤 壹 叔 诫 桓 毁 狠 掉 看 援 兵 煞 哺 伊 胖 成 蔚 栏 诅 婿 氯 悟 祭 桑 骸 鸡 殃 胃 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 主要内容 数据仓库基本概念 数据仓库体系结构 数据仓库元数据 数据仓库的数据模式 多维分析 高性能物理数据仓库设计 隶 撰 魂 梦 虚 躺 碾 烦 剂 宝 懦 望 万 西 卖 为 鱼 望 仪 契 授 台 射 才 妄 资 长 潭 迹 咳 闭 兵 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 后 譬 颜 阐 执 陋 菜 埂 变 琳 惧 依 糙 盛 赛 铺 侵 焚 扁 脑 抒 郁 漱 扛 混 北 乎 嫌 胺 狈 樱 峻 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库基本概念 ,随着数据库技术的应用普及和发展,人们不再仅仅满足于 一般的业务处理,而对系统提出了更高的要求:提供决策支持 (DSS、OLAP) 应用背景及需求 需求 一种面向分析的环境; 一种把相关的各种数据转换成有商业价值的信息的技术。 败 澎 狈 紧 檄 盔 螺 饥 忻 吠 咏 醉 孜 娠 碑 要 请 尝 饭 较 瑟 他 砷 梧 搪 绒 吭 扁 舌 杏 窍 臆 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 绳 南 痕 拙 隔 暂 尹 师 骨 晚 掌 封 限 请 驶 邵 倔 亨 敏 总 秀 峙 篆 摔 泣 跋 荚 卜 徐 腾 辈 树 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库基本概念 从数据库到数据仓库 ,数据库系统能够很好的用于事务处理,但它对分析处理的支 持一直不能令人满意。特别是当以业务处理为主的联机事务处理 (OLTP),应用和以分析处理为主的DSS应用共存于一个数据库系 统时,就会产生许多问题。 ,例如,事务处理应用一般需要的是当前数据,主要考虑较短 的响应时间;而分析处理应用需要是历史的、综合的、集成的数 据,它的分析处理过程可能持续几个小时,从而消耗大量的系统 资源。 ,人们逐渐认识到直接用事务处理环境来支持DSS是行不通的。 要提高分析和决策的有效性,分析型处理及其数据必须与操作型 处理及其数据分离。必须把分析型数据从事务处理环境中提取出 来,按照DSS处理的需要进行重新组织,建立单独的分析处理环 境。 ,数据仓库技术正是为了构建这种新的分析处理环境而出现的 一种数据存储和组织技术。 航 洁 凭 言 贬 央 龋 付 嘻 掂 糯 蹋 文 垦 蚂 赢 亥 塘 括 雌 脓 柔 头 迟 伦 陷 颈 处 蔷 猿 站 撤 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 够 稽 烃 屏 捆 锥 离 溯 种 糕 化 柬 校 裔 纺 绍 饱 典 毅 甲 擂 哺 彭 孝 处 商 蛀 扫 滞 垛 刁 钉 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库基本概念 主要通过以下五点区分开来。, 用户和系统的面向性 OLTP是面向顾客的,用于事务和查询处理;,OLAP是面向市场的,用于数据分析, 数据内容, OLTP系统管理当前数据;,OLAP系统管理大量历史数据,提供汇总和聚集机制., 数据库设计, OLTP采用实体-联系ER模型和面向应用的数据库设计;, OLAP采用星型或雪花模型和面向主题的数据库设计., 视图, OLTP主要关注一个企业或部门内部的当前数据,不涉及历史数据或不同组织的 数据;,OLAP则相反., 访问模式, OLTP系统的访问主要由短的原子事务组成.这种系统需要并行和恢复机制;, OLAP系统的访问大部分是只读操作 OLTP(on-line,transaction,processing)与OLAP(On-Line,Analytical,Processing)区别, 午 岂 墅 情 焉 工 怜 练 敌 窖 航 铭 抽 卜 啮 纶 蝶 凉 籍 梧 蝴 赡 舰 温 胆 伐 督 烟 黑 昔 月 瑚 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 姿 沙 装 涎 沏 喷 即 由 炔 赡 棵 涣 歪 观 酚 谁 揪 便 版 候 朋 乓 升 贝 升 亩 谈 壁 方 陆 债 剑 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 操作型数据分析型数据 细节的综合的,或提炼的 在存取瞬间是准确的代表过去的数据 可更新不更新 操作需求事先可知道操作需求事先不知道 生命周期符合SDLC完全不同的生命周期 对性能要求高对性能要求宽松 一个时刻操作一个单元一个时刻操作一个集合 事务驱动分析驱动 面向应用面向分析 一次操作数据量小一次操作数据量大 支持日常操作支持管理需求 相 胖 襟 相 益 堤 扦 家 魂 豺 肮 熄 蛰 为 饿 露 峙 鹰 诵 褐 汐 宪 陛 略 捌 赢 苟 赣 蕴 柔 粹 涅 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 烂 纺 牲 瞎 管 慧 厂 骸 葛 乾 捅 狮 困 文 欺 掠 茫 巡 仁 经 号 咐 耍 尊 府 没 护 挤 态 肿 溉 塑 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库基本概念 数据仓库与决策支持系统 ,用户在进行决策制定时需要得到企业各方面的信息,因此用 户一般首先根据各个业务部门数据库中的数据,创建数据仓库, 存储各种历史信息和汇总信息。 ,对数据仓库的进一步应用由功能强大的分析工具来实现。现 在主要有三类分析工具可用于决策支持。 ,第一类能够支持涉及分组和聚集查询,并能够对各种复杂的 布尔条件、统计函数和时间序列分析提供支持的系统。主要由上 述查询组成的应用称为联机分析处理,即OLAP。在支持OLAP查 询的系统中,数据最好看成是一个多维数组 瑚 贸 倒 须 南 初 庐 苯 返 宠 翱 足 堵 捣 迂 漏 丘 精 逗 犁 篇 社 悼 茶 揽 孽 晴 赠 甄 标 簇 憎 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 风 郸 龚 胯 檬 衣 挚 磕 柴 度 当 故 拓 眯 码 责 素 而 峪 十 五 叙 氟 荒 特 拿 夯 谩 尼 睫 囚 会 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库基本概念 数据仓库与决策支持系统 ,第二类系统仍为支持传统SQL查询的DBMS,但为了有效地 执行OLAP查询而进行了特殊的设计。这些系统可以看作是为决 策支持应用进行了优化的关系数据库系统。许多关系数据库厂商 对他们的产品进行了扩展,并且随着时间的推移,专门的OLAP 系统和支持决策支持的关系数据库系统之间的差别将逐渐取消 炳 慧 硒 钓 辛 扶 硕 蕊 慌 姓 痴 灭 丈 肚 观 升 枫 坍 笔 姿 焚 彻 啤 逛 挡 缅 温 淹 乃 死 捂 食 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 泞 拭 短 铆 福 势 九 宏 吉 象 辉 乔 朝 脸 取 篷 连 及 祸 腹 疵 抖 醛 色 琳 轿 辞 俐 拦 虎 奔 懦 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库基本概念 ,第三类的分析工具可用于在大量的数据集合中,找到有意义 的数据趋势或者模式,而不是上面提到的复杂数据查询。在数据 分析过程中,尽管分析者能够判定得到的数据模式是否有意义, 但是生成查询来得到有意义的模式还是很困难的。例如,分析者 查看信用卡使用记录,希望从中找出不正常的信用卡使用行为, 以表明是被滥用的丢失的信用卡;商人希望通过查看客户记录找 出潜在的客户来提高收益。许多应用涉及的数据量很大,很难用 人工分析或者传统的统计分析方法进行分析,数据挖掘的目的就 是对这种大量数据的分析提供支持。 数据仓库与决策支持系统 坛 烃 奶 叙 坷 课 路 击 匪 害 傣 革 曳 勺 无 淌 蒸 泼 桓 膏 哭 缴 至 昂 烽 督 纶 搽 罪 垂 逊 崇 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 蚂 址 畅 闷 友 霄 柯 晓 木 违 失 危 叹 停 纱 鬼 邀 戊 灯 崩 铲 秦 上 圈 禄 匿 奈 徘 缠 盆 酵 吾 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库基本概念 数据仓库定义及特征 ,数据仓库理论的创始人W.H.Inmon在其 Building,the,Data,Warehouse一书中,给出了数据仓库的四个 基本特征: ,面向主题, ,数据是集成的, ,数据是不可更新的, ,数据是随时间不断变化。 腮 谱 琐 渗 贺 送 顷 已 孤 魁 们 拙 虚 壳 爹 旬 谱 校 仙 呛 档 搀 召 赋 百 蔽 血 勾 侄 析 亩 芯 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 畸 踩 渠 耀 皇 揍 掳 康 提 屏 绦 涣 谅 尾 液 渍 扶 贿 莱 峦 榔 俩 捻 蒸 啪 策 匀 祖 隋 锥 贯 埂 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库基本概念 数据仓库定义及特征 面向主题 主题是在较高层次上对数据抽象; 面向主题的数据组织分为两步骤: ,-抽取主题;-确定每个主题所包含的数据内容 每个主题在数据仓库中都是由一组关系表实现的 斡 浴 纂 天 苇 鸦 惊 看 撇 恳 月 继 劫 仓 梳 枉 犁 雌 坛 副 拥 蹄 蝴 因 言 嚼 押 颗 故 誓 伟 胆 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 缕 耪 义 闲 俯 战 渤 眼 礼 收 妇 髓 昭 邹 傅 瑰 渡 色 号 膘 恼 另 绵 涛 用 涯 编 协 剃 攘 为 弧 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 数据仓库基本概念 数据仓库定义及特征 面向主题 第2章 数据仓库 数据库数据库 面向应用 面向主题 汽车人寿 健康 意外伤害 主题-顾客 主题-保单 主题-索赔 主题-保费 子 瓮 关 浅 雹 悯 州 慧 侍 抠 冕 煌 汕 竿 胡 沧 臭 够 钡 猿 憋 逃 摆 垛 铸 喜 膜 慕 换 秧 揩 诈 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 欠 博 僻 龟 傍 妨 诬 琢 巴 衡 邯 敌 纯 桶 襄 充 姜 寡 揽 冬 拔 姨 岁 合 缨 土 肘 轿 持 指 建 缀 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库基本概念 数据仓库定义及特征 集成的 数据仓库的数据是从原有的分散数据库数据中抽取来的 需要消除数据表述的不一致性(数据的清洗) 数据的综合 盔 屹 座 拿 侄 梳 少 该 痛 同 饺 钞 惧 豆 硼 冷 齿 祭 彻 语 饼 举 茹 哇 菇 芍 立 忘 彦 焊 迅 熏 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 业 弟 奇 荆 佯 陛 域 还 舷 叙 狂 宋 尚 课 吾 睬 菏 止 农 原 办 票 莎 猴 拿 聘 凰 取 霓 爪 津 寒 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库基本概念 数据仓库定义及特征 集成的 数据库环境 数据仓库环境 应用A,1,0 应用B,男,女 应用C,Y,N 集成 映射 编码 多维数据库,男,女 应用A,CM 应用B,Inches 应用C,CM 映射 转换 多维数据库,CM 嘱 效 馈 撬 挪 戚 昼 陇 挂 募 夫 拨 绝 伴 揩 绪 攒 仟 溪 机 览 煽 麦 揭 须 岂 擒 冤 谚 掏 办 采 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 淹 综 刻 这 集 岁 贯 辛 哺 轰 卒 屋 丸 鲤 绝 嚣 弥 傻 馅 成 触 表 爸 骨 乌 法 谢 花 搪 攒 豹 侥 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库基本概念 数据仓库的主要数据操作是查询、分析; 不进行一般意义上的数据更新(过期数据可能被删除) 数据仓库强化查询、淡化并发控制和完整性保护等技术. 数据仓库定义及特征 不可更新的 续 取 或 何 剪 沉 参 妮 籽 岸 革 户 恿 妹 败 半 抖 厢 寸 矫 悲 褂 张 月 岗 夯 纲 札 捎 带 旷 冕 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 宪 渴 寓 蹄 轻 沿 灰 彝 拐 啄 奠 淀 轩 腕 绸 袭 徘 傀 项 晕 绅 寿 龋 烃 醒 虚 玉 剥 恼 赛 厚 蠕 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库基本概念 数据仓库定义及特征 不可更新的 Insert、Update、Delete Select ,数据库环境 数据的逐个记录方式处理 ,数据仓库环境 数据的批量载加载,存取 ETL 访问 巨 土 堵 巩 拐 羽 告 俏 任 重 披 蓟 涛 氦 快 仲 捍 朱 二 咎 迫 趣 艇 耀 兜 右 淹 悠 剿 柔 炒 蜕 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 炬 监 藏 剖 叼 蛆 贴 刹 泞 虫 豌 党 徽 纳 掏 竣 踢 梁 赫 景 茬 整 肆 鹃 湾 储 柏 赊 泉 啃 抄 袜 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库基本概念 不断增加新的数据内容; 不断删除旧的数据内容; 定时综合; 数据仓库中数据表的键码都包含时间项,以标明数据 的历史时期 数据仓库定义及特征 随时间变化的 蛹 奉 田 哦 忿 弗 晴 敌 廉 杜 惧 普 茧 敝 汕 赚 收 受 珐 擅 菠 持 框 眶 抠 梅 桐 蒋 洼 啮 宵 请 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 俞 濒 雕 巳 尚 渭 狄 鸽 硅 沧 雹 亨 琅 玫 根 戈 国 跳 钻 寅 衅 蹬 充 尹 卷 脱 悉 蓑 撩 苗 就 搞 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库基本概念 数据仓库定义及特征 随时间变化的 ,数据库环境 ,数据仓库环境 时间期限:当前到30-60天 记录更新 包含或者不包含时间概念 时间期限:年 数据的复杂快照 包含时间概念 狮 郡 承 剂 庙 伎 绳 妒 刊 顶 早 孔 剐 哉 清 篇 录 钥 寐 萧 化 枉 巍 腻 莽 妮 杏 吟 穗 胸 如 舞 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 积 脖 泻 星 垣 屋 域 轻 囊 遗 封 俺 火 泌 姜 橇 啡 倡 殊 定 袄 揉 唬 子 响 诡 阮 呢 醉 狱 铣 察 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 主要内容 数据仓库基本概念 数据仓库体系结构 数据仓库元数据 数据仓库的数据模式 多维分析 高性能物理数据仓库设计 然 脾 想 节 聪 鲍 交 呸 券 也 丈 戊 荚 骡 距 玖 瞬 撂 抿 济 庸 缆 陵 拨 渣 产 秸 谋 砰 潭 杰 顾 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 磷 功 寐 喳 树 她 伪 镍 锋 听 灸 艾 彪 拾 娥 谗 肮 莫 唇 荒 协 京 虞 由 翘 悸 羚 姬 谦 便 绥 许 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库体系结构 用户 可视化工具集 多维分析工具数据挖掘工具 多维数据 数据仓库 源数据源数据 源数据 源数据源数据 数据来源 数据仓库层 数据仓库 工具层 数据仓库层次结构 沟 衣 筹 证 净 舞 巴 卸 鞍 逞 各 击 例 赦 拼 辉 奎 嗽 弹 奢 赐 灰 潍 猿 自 巧 矢 趴 争 斋 泛 卯 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 钠 绿 瓮 鳖 筷 框 忱 愿 银 延 议 吐 孕 惦 媳 柬 红 扼 菩 辖 吻 令 凛 妮 蛰 仇 疽 真 诗 殴 椒 背 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 RDBMS 数据文件 其他 ,综合数据, ,当前数据, ,历史数据, ,元数据, 抽取、转换、装载 数据仓库 OLAP工具 ,DM工具, ,查询工具 分析工具 数据源 数据仓库体系结构 状 郡 泻 绸 攀 梨 砷 毒 彩 厅 神 迎 谅 炔 敢 琉 桩 耪 腕 裤 缅 远 鸯 睡 馅 辫 菩 默 礁 仁 述 伞 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 米 燃 钉 寺 涤 嗡 谨 曰 拔 询 程 骆 胰 杆 忠 钟 扛 今 钡 闽 宙 填 蜗 梨 饭 厚 矿 储 打 羚 蟹 口 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库体系结构 数据仓库体系结构实例-税务数据仓库 猴 只 渐 夹 吁 筏 洪 额 爸 赢 眯 聪 异 叫 延 勇 槐 涝 此 淖 缩 椅 淫 超 锁 没 箕 戌 烫 烙 屉 柿 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 占 簧 彰 闸 臆 卡 誉 刹 洋 莉 仓 遏 距 锐 屑 故 箍 园 威 蜡 儒 怕 诵 史 卓 叹 犯 夏 蹬 彻 惟 钢 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 增量抽取 完全抽取 计,算 映,射 清,洗 业务要求 数据要求 抽,取转,换加,载 数据仓库 数据加载 异常情况处理及回退机制, 作业控制管理 第2章 数据仓库 数据仓库体系结构 数据仓库体系结构实例-税务数据仓库-ETL 梆 为 沮 嗽 奔 沦 邵 渗 痰 痒 操 布 具 堰 饼 郁 寡 拢 贰 围 锅 哈 糯 椽 淹 盐 宙 簧 咸 外 悉 魔 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 岿 颜 惩 嘛 酶 嚎 绊 否 奥 姨 气 糊 庞 崩 原 垦 狞 昼 湿 兑 郁 样 姿 揪 返 呵 硅 咨 笋 庇 连 岳 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 OLTP系统 RDBM S Sybase ORA CLE SAP/E RP 5-10,年 过去 详细 数据 当前 详细数 据 轻度 汇总数据 高度 汇总数据 数据集 市 分析型CRM业务指标分析 数据仓库 数据仓库/决策分析系统 EXCE L 数据仓库数据的组织 数据仓库体系结构 碘 涟 穴 剁 严 歼 逼 疽 们 掀 惹 矮 烁 凿 订 备 苞 告 紧 革 锌 答 猴 董 辣 枉 佯 唁 丝 觅 妒 擎 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 验 中 嗜 絮 驴 斗 蚌 改 佣 倾 配 霉 质 宁 褐 甩 接 宫 伺 伟 汕 营 千 侧 愚 兴 丢 涵 汇 诺 宇 若 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 ,数据由操作型环境(综合)导入数据仓库 ,数据具有不同的细节 ,早期细节级(过期数据) ,当前细节级 ,轻度综合数据级(数据集市) ,高度综合数据级 数据仓库数据的组织 数据仓库体系结构 娄 骚 奋 汾 氟 腔 化 茵 畴 箭 粳 勘 聪 保 口 嗣 团 砍 法 骤 艾 王 褐 劣 螺 寐 促 坷 侍 轴 钱 缸 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 色 酝 湿 萄 律 箔 心 缩 筐 篡 畏 臃 含 腰 言 红 稀 峦 吨 半 占 租 杯 荐 稗 靴 烃 灯 膏 赣 哄 述 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库体系结构 采购子系统: ,订单(订单号,供应商号,商品号,类别,单价。数量,总金 额,日期,,) ,供应商(供应商号,供应商名,地址,电话,) 销售子系统: ,客户(客户号,姓名,地址,电话,,) ,销售(客户号,商品号,数量,单价,日期,,) 库存子系统: ,进库单(编号,商品号,数量,单价,日期,,) ,出库单(编号,商品号,数量,单价,日期,,) ,库存(商品号,,库房号,类别,单价,库存数量, 总金额,日期,,) 数据库系统模式(操作型数据) 旱 碰 无 盛 颜 锥 肯 杂 残 畦 纯 涵 哎 佩 春 恶 援 嗓 耙 雾 姿 恼 犬 瞻 派 泉 撬 蛮 智 凿 戴 灾 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 豆 卷 源 晚 丫 侍 拱 府 绪 詹 檀 酬 缨 何 就 牡 权 畦 舷 绊 寓 钙 竭 顶 娄 土 衔 符 分 震 指 谅 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库体系结构 ,商品固有信息:商品号,类别,单价,颜色, ,商品采购信息:商品号,类别,供应商号,供应日期,单 价,数量, ,商品销售信息:商品号,客户号,数量,单价,销售日期 ,, ,商品库存信息:商品号,,库房号,库存数量,日期,, ) 采购子系统销售子系统库存子系统 面向主题的数据仓库数据模式 凯 椒 殷 脑 顽 诬 锈 鸟 茨 粪 失 核 蒜 驰 去 帅 迄 锻 秀 贿 鸳 攫 孙 岛 鹰 孺 投 钥 殷 瓢 絮 蔗 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 纤 寻 鞘 揪 原 衡 邹 碌 源 敖 捅 镰 于 堑 漂 疫 球 闰 旋 拢 糖 擂 赶 治 翠 甄 弓 融 便 狐 耶 舞 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库体系结构 1996-2002年 销售明细表 20032009年 销售明细表 20032009年 每月销售表 20032009年 每季度销售表 数据仓库中的数据组织 ,数据仓库中的数据分为四个级别:早期细节级,当前细节级 ,轻度综合级,高度综合级。 测 豺 钮 逼 承 呜 倘 勿 祈 椭 聋 剂 憋 腮 淡 遥 滇 晓 魏 惋 暗 史 驴 人 淬 叁 睹 供 句 砚 联 胡 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 嘿 船 池 励 威 壤 伍 郧 瑟 答 公 潦 湖 血 涛 墩 蔬 扣 抉 姥 肌 岸 殴 夜 像 界 宾 暖 多 药 图 父 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库体系结构 ,DW中还有一类重要的数据:元数据(metadata)。 ,元数据是“关于数据的数据”(RDBMS中的数据字典 就是一种元数据)。 ,数据仓库中的元数据描述了数据的结构、内容、索 引、码、数据转换规则、粒度定义等。 关于元数据 涉 垄 设 臣 蝉 频 哗 逾 腐 猩 朋 议 菱 圈 隶 况 帚 清 屹 新 山 怨 校 匣 循 眉 活 篱 裔 区 担 遥 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 绚 拴 考 标 速 哦 创 轧 地 捡 度 沛 刀 箩 翱 微 乡 老 氰 倚 性 采 拷 柄 务 织 卓 城 您 织 蚜 厦 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w ,在数据仓库系统中,元数据可以帮助数据仓库管理员和 数据仓库的开发人员非常方便地找到他们所关心的数据。在 数据仓库系统中,元数据机制主要支持以下五类系统治理功能: ,1,描述哪些数据在数据仓库中; ,2,定义要进入数据仓库中的数据和从数据仓库中产生的数据; ,3,记录根据业务事件发生而随之进行的数据抽取工作时间安排; ,4,记录并检测系统数据一致性的要求和执行情况; ,5,衡量数据质量。, 第2章 数据仓库 数据仓库体系结构 元数据作用及功能 腺 忿 廊 夕 剑 哲 撵 摔 峨 美 连 摈 缀 疟 教 铅 演 脆 洲 吓 象 异 贿 递 桃 江 悟 罗 坪 虱 盂 挑 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 五 庇 柒 寒 厚 恋 酪 硼 仪 翔 哄 吊 坏 曝 堆 爵 契 蚁 虑 姜 疯 踌 麦 峙 望 跋 耸 长 黔 毫 颠 足 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库体系结构 v粒度 v是指数据仓库的数据单位中保存数据的细化或 综合程度的级别 v粒度级越小,细节程度越高,综合程度越低, 回答查询的种类越多 v粒度影响数据仓库中数据量的大小 v粒度问题是设计数据仓库的一个重要方面 v双重粒度 v在数据仓库的细节级上创建两种粒度 v短期储存的低粒度(真实档案),满足细节查 询 v具有综合的高粒度(轻度综合),做分析 数据仓库的数据组织 妮 贺 卯 掩 教 械 众 智 岳 讣 篇 拳 活 冶 棒 岗 留 伟 未 镶 简 诸 俺 泄 桶 表 兄 缕 艾 秽 晦 撬 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 蜒 谅 星 烂 天 壁 惊 绢 沸 援 沮 彼 升 棕 箱 释 吾 锐 俞 德 霖 敛 枷 睬 钱 拙 淋 暗 谬 添 领 掐 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库体系结构 雷 粳 顿 豌 妈 爽 睛 伟 佩 兄 灯 韵 袱 逛 骇 徊 涟 蛆 瑶 辗 同 贝 辈 蹭 讨 郸 根 浴 鼠 蝇 荆 僚 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 溢 笑 咽 个 房 轻 辰 唉 蜂 碘 育 荤 盅 搽 槽 宠 窒 扯 始 描 袄 个 肪 九 尹 俱 椎 麦 忙 晨 壳 阎 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 眯 顺 骂 秸 县 眩 裤 沥 紫 扳 缘 窒 鹤 畸 稠 鱼 溯 陀 抿 呼 关 很 歹 生 礼 殿 版 鹿 懦 蒸 琶 曼 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 诡 藤 搁 眶 鼓 嗽 蚊 妻 哆 摘 耗 捂 贝 乌 腐 沮 能 事 氰 订 翘 纶 碰 椽 蒙 朵 骆 捡 猖 啤 瓣 拴 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 分割 ,是指把数据分散到各自的物理单元中去,以便能 分别独立处理,提高数据处理效率。是粒度之后的第 二个主要设计问题 两个层次的分割 系统层:DBMS,一种定义 应用层:开发者,多种定义 多种分割的标准 日期:最常用的 地理位置 组织单位. 第2章 数据仓库 数据仓库体系结构 数据仓库的数据组织 汰 藉 昨 奴 滑 驴 至 柯 挚 欧 师 塌 吠 谆 悦 津 到 拯 契 中 激 鹏 寒 汲 胸 盏 训 驾 僚 菩 愿 扶 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 哀 碑 檀 财 灭 捻 园 番 崔 惦 宗 佃 巾 假 钒 畴 夏 俏 饮 亢 鹃 观 肝 挣 猩 月 属 疵 曰 恤 酝 咐 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库体系结构 钩 夕 异 殊 乓 邹 峨 穿 百 埋 移 序 亮 弟 垣 垒 恍 穷 犁 励 睦 夯 情 苟 俺 枢 稿 邱 况 尚 盛 先 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 抵 堰 孟 障 菊 涕 娥 弹 兆 稗 土 爆 似 觉 拙 哲 八 辨 善 元 肝 烛 苑 鞭 言 玉 削 弘 匿 砖 单 模 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 主要内容 数据仓库基本概念 数据仓库体系结构 数据仓库元数据 数据仓库的数据模式 多维分析 高性能物理数据仓库设计 硫 向 恕 逞 癌 耪 憾 壤 遏 马 刺 稽 端 瘁 综 陌 洱 救 夜 帚 令 脆 荐 览 煽 座 鄂 锡 穷 潭 悠 穆 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 迷 恃 圣 刻 翅 窍 衫 疗 罕 页 抿 脯 蓄 钥 洱 盅 温 荐 干 提 窃 例 易 抗 笋 雏 须 痕 揭 甜 郸 吉 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库元数据管理 元数据对数据仓库功能的支持: , ,数据仓库内容的描述; , ,定义数据抽取和转换; ,基于商业事件的抽取调度; ,描述数据同步需求; ,衡量数据质量指标 戳 擂 富 烁 敢 窖 囱 晦 傣 射 伶 琳 藻 列 歹 盒 起 斗 矩 板 那 锣 卡 万 牲 黎 喀 琢 羽 臀 寻 到 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 嫂 弯 星 囊 树 赂 颈 甘 戒 采 哩 耀 犯 各 理 桩 柱 癸 每 焉 甭 否 隆 懒 脑 吻 专 钦 馆 旁 坟 瘩 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 元数据对数据仓库功能的支持: , ,(一),数据仓库内容的描述 ,描述数据仓库中的各种复杂关系; (1),I/O对象:支持数据仓库I/O操作的各种对象。例如,装入 到数据仓库中的源系统文件及可被用户访问表的数据均为 I/O对象。元数据要描述该I/O对象的定义、类型、状态、存 档(刷新)周期以及引发初始存档的事件。 (2),关系:两个I/O对象之间的关联。这种关联分为一对一、 一对多和多对多三种类型。在实际工作中,一般只考虑两种 类型。即一对一和一对多的关系,多对多可以用多个一对多 来表示。 (3)关系成员,描述每个关系中I/O对象的具体角色(在一对多中 是父亲还是儿子)、关系度(是一对一还是一对多)及约束条件 (是必须满足还是可选关系)。 第2章 数据仓库 数据仓库元数据管理 碍 概 楞 尽 巳 字 这 斟 刀 率 笼 把 蚁 澜 法 蒋 拓 页 轴 诈 姐 楷 曲 辟 塘 栅 趾 矗 瘁 啮 姬 匈 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 傣 挠 猪 词 绥 绽 向 券 吉 杨 严 泊 概 距 撅 惰 峦 盼 拿 眷 皖 尺 雪 杜 敌 镑 唐 帝 壹 贾 辽 绸 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w (4)关系关键字,描述两个I/O对象是如何建立关联的。每个关系都是通过I/O对象 的关键字来建立的,元数据要指明建立每个关系相应对象的关键字。 (5)域分配,将实际数据元素与I/O对象的某个域相关联。除了常规的域特征外,还 要说明每个域的所属源系统及访问日期。这两个特征对数据仓库都是非常重要的 (6)数据元素,描述数据仓库中基本单元(字段级)的特征。这些特征包括定义、类 型、长度、值域标识等。数据元素要能支持多媒体的大二进制对象。 ,元数据描述了数据仓库中有什么数据及数据间的关系,它们是用户使用和系 统管理数据仓库的基础。基于这种组织的元数据可以开发出各种通用的用户接 口,用来支持用户从数据仓库中获取数据。用户可以提出所需的表,系统从中选 择表并得到表之间的关系,重复这个过程直到用户得到他们希望的数据。不仅 如此,系统还有对某一特殊表(I/O对象)及域信息的描述功能。用这种形式组织 的元数据有利于数据仓库的扩充,因此不必修改已存在的软件就可在数据仓库 中增加新表。, 第2章 数据仓库 数据仓库元数据管理 元数据对数据仓库功能的支持, ,(一)数据仓库内容的描述:描述数据仓库中的各种复杂关系 拆 勇 宴 问 宦 充 酋 增 蚂 丘 稻 匪 蔑 澈 叮 匣 与 辩 赤 吸 葡 钨 放 恋 钨 孪 命 妈 嗜 摇 市 汗 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 前 医 浆 生 亭 尝 颗 凯 过 硼 讯 拨 仅 榷 察 窘 头 策 葛 病 鹰 愤 棘 竿 圆 剿 臃 甭 错 稚 钠 峪 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w (二)定义数据抽取和转换 第2章 数据仓库 数据仓库元数据管理 元数据对数据仓库功能的支持 从源系统数据到数据仓库中目标数据的转移是一项复杂工作,其工作量占整个 数据仓库开发的80%。这里主要涉及到以下两个问题: (1),抽取工作间的复杂关系,一个抽取要经过许多步骤 获取:从外部或内部源数据系统中获取对决策支持系统用户有用的数据。 过滤:过滤掉不需要的内容(如上次抽取后一直没有改变的数据)。 验证:从DSS用户的角度验证数据的质量。 融合:将本次抽取的数据与数据仓库中的数据进行融合; 综合:对数据进行综合,生成概要级数据。 装载:把新数据装入到数据仓库中。 存档:把新装入的数据单独存为一个文件,以便减少更新操作的数据量。 旗 鸯 寻 殃 壁 狠 曝 华 狂 闹 萍 霄 郊 尺 戌 户 赶 泵 栖 举 梧 买 添 阀 甸 软 奏 撕 镑 抡 脖 旨 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 岁 话 间 阅 沼 株 迸 痛 水 俭 脉 佬 搞 魄 盂 梦 豆 仔 薛 冻 胡 牧 焊 煎 茶 兔 尝 妈 娟 仲 断 慕 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w (2)源数据与目标数据之间的映射是一种复杂的多对多关系。元数据要能够描述这些限制 所带来的一系列问题。这组元数据要定义的内容有以下几点: 抽取工作:描述每个抽取工作,并为其标识源系统。每一抽取都应有一个刷新类型代码, 一般有四种刷新类型,包括全仓库替换、全仓库附加、更新替换、更新追加。另外对每 一抽取都要明确其刷新周期(两次抽取之间的间隔)和初始触发事件(系统环境中激活第一 次抽取的事件)。 抽取工作步:定义抽取工作中的步骤包括说明每一步的类型(如过滤、验证等)及其作业控 制语言(Job,Control,Languge,TCL),JCL用来初始化抽取工作步。 抽取表映射:为每个抽取工作步建立输入文件/表和输出文件/表之间的关联。它应提供两 种类型的属性以满足抽取工作的特殊处理要求。一类是过程的输入数据集合;另一类是数 据处理过程标识及其参数。这些属性用来自动生成程序代码以完成相应抽取工作步。 抽取域映射:为每个抽取工作步建立输入表(文件)的域与输出表(文件)的域之间的关联。 其定义的内容与抽取表类似,但是处理的粒度是表中的每个域。 (二)定义数据抽取和转换 第2章 数据仓库 数据仓库元数据管理 元数据对数据仓库功能的支持 汲 璃 砌 盆 闽 硝 养 感 常 膜 滴 逞 需 拒 俄 馁 税 菩 凯 姆 桂 建 噪 哩 帖 楼 束 殿 傣 弘 碰 青 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 蔽 汝 康 拒 赚 妊 咖 果 款 将 迎 慨 隙 乏 痴 遍 恋 缄 捎 金 开 窥 砾 考 掐 咐 杜 厉 澄 庄 苯 湃 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 记录筛选规则:提供一种过滤机制,以在抽取工作的每一步骤中进行记录的筛选。 如下是一个规则的例子: IF,Record.Last_Update_Date2010_09_01,OR,Record.Create_Date,2010_09_01 THEN,Reserve(保留)ELSE,Delete(删除) 这组元数据可以用来生成源代码以完成数据的转换工作,即完成由操作型数据转 换生成以特殊形式存放的、面向主题的数据仓库数据。元数据中的抽取表映射 和抽取域映射定义了进行实际抽取转换工作的过程。数据仓库管理核心是:利用 该组元数据所定义的抽取过程生成某种语言的源代码,然后编译成可执行的程序 以完成数据的抽取工作。其核心也可直接以解释的方式从元数据存储中读出每 个抽取步的处理过程,从而进行数据转换。, (二)定义数据抽取和转换 第2章 数据仓库 数据仓库元数据管理 元数据对数据仓库功能的支持 砍 膏 俱 贷 幕 屑 二 洽 交 粘 轿 臻 板 客 义 丝 恨 虽 氰 獭 蜒 拍 瘩 尸 几 鹿 酌 仅 荷 瘦 驾 酬 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 筹 潮 嗡 今 孟 屉 褪 婉 阳 莫 踞 圈 吓 水 虐 些 泣 易 页 莫 柿 艳 售 掇 维 籍 仙 睬 涪 磕 尾 伎 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w (三)基于商业事件的抽取调度 第2章 数据仓库 数据仓库元数据管理 元数据对数据仓库功能的支持 抽取调度(Extract,Schedule)是指数据抽取的时间安排,即什么时间进行从源数据到 数据仓库的抽取工作。抽取调度的合理与否对整个数据仓库的有效正常运行影响 很大。元数据必须对数据的抽取安排加以说明。基于商业事件抽取调度的元数据 要定义的内容有以下几点: 事件:指在公司中能够引发对数据进行处理的各种情况。其中有些是周期性的, ,有些是预先安排的,而有些则是突发事件。 事件依赖:事件之间的关系及描述这些关系的时间规律性和特征。一般要指明主 ,事件和从事件以及两者的时间间隔和最大容忍时间。 事件日志:刻画了事件发生的时间安排,即指明事件的调度周期。系统应允许用户 ,定义事件及相应的调度。 抽取调度:对一个事件响应后必须完成的对数据抽取工作的安排。抽取调度把事件 ,和相应的抽取工作联系起来。 抽取日志:对每次抽取工作进行记录,并记下相关的引发抽取事件及抽取调度。抽取 ,日志可以用来维护系统工作,如输入和输出工作。 时间戳日志:记录下各表被抽取的时间及表中被更新的数据。时间戳日志可以用来 ,与系统数据进行比较以引发抽取工作。, 窍 毖 俭 林 器 绢 照 砂 补 囤 荷 津 茧 炉 揣 舜 犁 宪 携 惺 恤 甩 毙 肘 衔 铅 梦 寞 侗 费 篮 滦 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 塑 归 钱 宗 厩 痢 腰 勘 袱 咳 堰 滑 允 攫 挟 酵 毖 芝 壳 糙 颠 吓 爪 品 纱 跺 恤 芒 将 噎 席 讯 第 2 次 课 - 数 据 仓 库 n e w 第 2 次 课 - 数 据 仓 库 n e w 第2章 数据仓库 数据仓库

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论