数据仓库复习提纲_第1页
数据仓库复习提纲_第2页
数据仓库复习提纲_第3页
数据仓库复习提纲_第4页
数据仓库复习提纲_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

孤单的微积分编辑 数据库应用技术 数据仓库与数据挖掘复习提纲 说明 考试形式 闭卷 考试题型 填空 选择 判断 名词解释 简答题 综合题 由于试题是随机从试题 库中抽取 有可能抽取的试题中不会全部包含上述的所有题型 另外 本提纲仅针对试题中的名词解释 简答题和综合题提供复习参考 不包括填空 选择 判断等其它题型的参考 一 名词解释 1 数据仓库 是面向主题的 综合的 不同时间的 稳定的数据的集合 用以支持经营 管理中的决策制定过程 2 数据挖掘 就是从大量数据中获取有效的 新颖的 潜在有用的 最终可以理解的模 式的过程 简单的说是从大量数据中提取或挖掘知识 又被称为数据库中的知识发现 3 操作数据存储 是一种 DW 的混合形式 它面向主题的 及时的 最近的和集成的信 息 用于支持企业的日常的全局应用和决策制定 其中数据可以作为 DW 的通用数据 源 4 OLAP 是数据库系统主要应用 支持复杂的分析操作 侧重决策支持 且提供直观易 懂的结果 5 商业智能 是数据仓库 DW 联机分析处理 OLAP 数据挖掘等技术与资源管理 系统 ERP 结合起来应用于商业活动实际过程中 实现了技术服务于决策的目的 二 简答题 1 试叙述数据仓库系统与传统数据库系统的区别 1 操作型数据库中的数据针对事务处理任务 各个业务系统之间各自分离 而数据仓 库中的数据是按照一定的主题域进行组织的 2 操作型数据库通常与某些特定的应用相关 数据库之间相互独立 并且往往是并构 的 而数据仓库中的数据在对原有分期的数据库数据做抽取 清理的基础上经过系统的加 工 汇总和整理得到的 3 操作型数据库中的数据通常实时更新 数据根据需要及时发生变化 数据仓库的数 据主要用于决策分析 对涉及的数据操作主要是数据查询和定期更细 一旦某个数据加载 到数据仓库以后 一般情况下将作为数据档案长期保存 4 操作型数据库主要关心当前某一个时间段内的数据 而数据仓库中的数据通常包含 较久远的历史单位 因此总是包括一个时间维 以便可以研究趋势和变化 2 试叙述数据仓库设计的步骤及每一步完成的工作 1 概念模型 界定系统的边界 确定主要的主题域 2 技术准备工作 技术评估 技术环境准备 3 逻辑模型设计 分析主题域 粒度层次的划分 确定数据分割策略 关系模式定义 定义记录系统 4 物理模型设计 确定数据存储结构 确定索引策略 确定数据存放位置 确定存储 孤单的微积分编辑 分配 5 数据仓库生成 设计接口和数据装入 6 数据仓库的使用和维护 建立 DSS 不断理解需求和完善系统 维护 DW 3 OLAP 与 OLTP 的区别有哪些 它们适合于运行在同一个服务器上吗 为什么 OLTPOLTPOLAPOLAP 用户用户操作人员 低层管理人员决策人员 高级管理人员 功能功能日常操作处理分析决策 DBDB 设计设计面向应用面向主题 数据数据当前的 最新的细节的 二维的分立的 历史的 聚集的 多维的集成的 统一的 存取存取读 写数十条记录读上百万条记录 工作单位工作单位简单的事务复杂的查询 用户数用户数上千个上百万个 DBDB 大小大小 100MB GB100GB TB 时间要求时间要求具有实时性对时间的要求不严格 主要应用主要应用数据库数据仓库 4 为什么要进行数据的预处理及其方法 适当举例即可 1 在现实社会中 存在着大量的 脏 数据 1 不完整性 缺少感兴趣的属性 感兴趣的属性缺少部分属性值 仅仅包含聚合数据 没有详细数据 2 噪音数据 数据中包含错误的信息 存在着部分偏离期望值的孤立点 3 不一致性 数据结构的不一致性 Label 的不一致性 数据值的不一致性 2 数据挖掘的数据源可能是多个互相独立的数据源 关系数据库 多维数据库 Data Cube 文件 文档数据库 3 数据转换 为了数据挖掘的方便 4 海量数据的处理 数据归约 在获得相同或者相似结果的前提下 数据预处理的方法 1 数据清理 填入缺失数据 平滑噪音数据 确认和去除孤立点 解决不一致性 2 数据集成 多个数据库 Data Cube 和文件系统的集成 3 数据转换 规范化 聚集等 4 数据归约 在可能获得相同或相似结果的前提下 对数据的容量进行有效的缩减 5 数据离散化 对于一个特定的连续属性 尤其是连续的数字属性 可以把属性值划分成若干区间 以区 间值来代替实际数据值 以减少属性值的个数 孤单的微积分编辑 5 在现实世界的数据中 元组在某些属性上缺少值是常有的 描述处理该问题的各种方法 6 对于类特征化 基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同 是什么 讨论哪种方法最有效 在什么条件下最有效 7 数据仓库和数据集市的区别是什么 数据仓库的体系环境具有什么特点 有哪些建立数 据仓库体系化环境的方法 它们各有何优劣 8 为了提高数据仓库的性能 可以在哪些方面作一些努力 在各个方面分别采用什么样 的技术 这些技术易于实现吗 9 数据仓库中的数据是数据库中数据的简单堆积吗 它有哪些常用的数据组织方式 1 简单堆积文件 2 轮转综合文件 3 简单直接文件 4 连续文件 10 一般来说 数据仓库采用什么样的数据模型 与 OLTP 的数据库模型相比 这些模型 有什么特点 11 数据仓库的设计包括哪些内容 收集 分析和确认业务分析需求 分析和理解主题和元数据 事实及其量度 粒度和维度 的选择与设计 数据仓库的物理存储方式的设计等 12 在内容和使用者方面 数据仓库环境中的元数据与操作型环境中的元数据有何异同 内容 1 DW 的主题描述 主题名 公共码键 描述信息等 2 外部数据和非结构化数据的描述 外部数据源名 存储地点 存储内容描述 3 记录系统定义 主题名 属性名 数据源系统 源表名 源属性名 4 逻辑模型的定义 关系名 属性 1 属性 n 5 数据进入 DW 的转换规则 6 数据的抽取历史 7 粒度的定义 8 数据分割的定义 9 广义索引 广义索引名 属性 1 属性 n 10 有关存储路径和结构的描述 定义 元数据是关于数据的数据 它描述了数据的结构 内容 码 索引等项内容 功能 1 元数据为决策人员访问 DW 提供直接或辅助信息 2 元数据描述和管理从 DBS 到 DW 的数据转换 3 元数据要管理 DW 中的数据 13 什么是维 维层次 维成员 举例说明 维 观察数据的特定角度 比如时间维 维层次 数据的维可以存在细节程度不同的多个描述方面 比如时间维可以由日期 月份 季度 年等不同的层次来描述 维成员 维的一个取值称为该维的一个维成员 若一个维是多层次的 则该维的维成员是 在不同维层次的取值的组合 比如 2014 年夏季 6 月 22 日 14 OLAP 提供哪些基本操作 1 切片 选定二维数组的一个二维子集的动作 2 切块 选定二维数组的一个三维子集的动作 3 旋转 改变一个页面显示的维方向的操作 4 上卷 通过一个维的概念分层向上攀升或者通过维归约 在数据立方体上进行聚集 孤单的微积分编辑 5 下钻 下钻是上卷的逆操作 它由不太详细的数据到更详细的数据 下钻可以通过 沿维的概念分层向下或引入新的维来实现 6 查询多维数据库的星型网查询模型 多维数据库查询也可以基于星型网模型 星型 网由从中点发出的射线组成 其中每一条射线代表一个维概念分层 15 OLAP 服务器有哪些实现方法 它们的优劣是什么 1 关系 OLAP ROLAP 服务器 优势 没有大小限制 现有的关系数据库技术可以沿用 可以通过 SQL 实现详细数据与概 要数据的存储 现有数据库已经对 OLAP 做了很多优化 包括并行存储 并行查询 并行 数据管理 基于成本的查询优化 位图索引 SQL 的 OLAP 扩展等大大提高了 OLAP 的速 度 缺点 一般比 MDD 相应的速度慢 不支持有关预计算的读写操作 SQL 无法完成部分计 算 无法完成多行的计算 无法完成维之间的计算 2 多维 OLAP MOLAP 服务器 优势 性能好 相应速度快 专为 OLAP 所设计支持高性能的决策支持计算 如 复杂的 跨维的计算 多用户的读写操作 行级的计算 缺点 增加系统复杂度 增加系统培训及维护费用 受操作系统平台中文件大小的限制 难以达到 TB 级 10 20G 需要进行预计算 可能导致数据爆炸 无法支持维的动态变化 缺乏数据模型和数据访问的标准 3 混合 OLAP HOLAP 服务器 16 为什么不能依靠传统的业务处理系统决策分析 1 所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性 并不太关心 数据查询的方便与快捷 2 业务数据往往被存放于分散的衣钩环境中 不易统一查询问题 而且还有大量的历 史数据处于脱机状态 形同虚设 3 业务数据的数据库模式针对事务处理系统而设计 数据的格式和描述方式并不太适 合非计算机专业人员进行业务上的分析和统计 17 自然演化体系结构中存在的问题 1 蜘蛛网 问题 2 数据缺乏可信性 a 数据无时机 b 数据算法上的差异 c 抽取的多层 d 外 部数据问题 3 生产问题 生产率低 4 从信息到数据的转换不可行性 a 集成化问题 b 没有足够的历史数据 18 试述建立多维数据库的过程 1 选择主题域及其主题域的商业过程 2 确定事实表的粒度 3 区分每一个事实表的维层次 4 区分事实表的度量 5 确定每一个维表的属性 6 让用户验证数据类型 19 数据挖掘的主要方法 统计分析方法 决策树 人工神经网络 基因算法 粗糙集 联机分析处理技术 20 数据挖掘中的数据分类是个两步过程 简述每步过程 1 学习 建立一个模型 描述预定的数据类集或概念集 该模型是通过分析由属性描 孤单的微积分编辑 述的 DB 元组而构造的 假定每个元组属于一个预定义的类 由类标号属性确定 为建立 模型所使用的元组形成训练数据集 其中的单个元组称作训练样本 并随机地由样本群选 取 由于提供了每个训练样本的类标号 该步也称作有指导的学习 2 分类 首先评估模型 分类法 的预测准确率 保持方法是一种使用类标号样本测 试集的简单方法 这些样本随机选取 并独立于训练样本 模型在给定测试集上的准确率 是正确被模型分类的测试样本的百分比 对于每个测试样本 将已知的类标号与该样本的 学习模型类预测比较 21 试述商业智能系统的演化过程 1 第一代 基于主机的查询与报表 面向专家 早期的商务信息系统使用批处理应用程序为商业用户提供它们所需的信息 第一代的商务信息系统只能被诸如业务分析人员之类的熟悉数据且有相当计算机经验的人 员使用 管理人员很少能够使用这些早期的系统 他们必须依靠信息提供者来解答他们的问题 并 给他们所需要的信息 2 第二代 数据仓库 第二代信息系统应用了数据仓库技术 从而使性能有了一个飞跃 3 第三代 商业智能 数据仓库仍然不能完全解决商业用户的需求问题 22 ODS 与 DW 的区别 1 存放的数据内容不同 最大差别 ODS 当前或接近当前数据 细节数据 可联机更新 DW 历史数据 细节数据和综合数据 不可变快照 2 数据量是不同等级 3 技术支持不同 ODS 要支持面向记录的联机更新 又要保证数据与源数据库系统中数据的一致性 需要 的技术支持同面向应用的 DBS 的一样复杂 DW 只需支持装入和存取 4 面向的需求不同 ODS 满足企业的全局应用 企业级 OLTP 和即时 OLAP 或作为 DW 的通用数据源 DW 长期趋势分析或战略决策 5 用户不同 ODS 企业的中层管理者 DW DSS 分析员或企业高级决策者 23 ODS 的作用 1 在 ODS 上可实现企业级的 OLTP 2 在 ODS 上可实现即时 OLAP 3 分层 ODS 体系 24 ODS 在 DB ODS DW 三层体系结构的作用 1 一方面 在原来独立的各个 DB 基础上建立了一个一致的 面向主题的数据环境 使原有的 DBS 得到改造 2 另一面 ODS 将 DW 和 DB 隔离开 使 DW 卸去数据集成 结构转换等一系列负担 使往 DW 的数据追加通过 ODS 进行从而变得异常简单 大大简化了 DW 的数据传输接口 及 DW 管理数据的复杂度 孤单的微积分编辑 3 由于数据已经过 ODS 集成 并且是面向主题组织的 所以所作的变换仅限于数据模 式上某些差异的转换 以及对码结构的改造 这样使得 DW 与操作型环境的界面变得简单了 25 概念分层最常用的两种类型 1 概念分层 以 DB 模式中属性的全序或偏序来定义的概念分层称作模式分层 2 集合分组分层 通过将给定维或属性的值离散化或分组来定义概念分层 26 试述维层次和类的概念有什么不同 1 维层次和类表达的意义不同 维层次 是维所描述的变量的不同综合层次 类 某一子集维成员的共同特征 2 在层次和类上进行分析的动作不同 按维层次关系分析 从维低层到高层的数据综合分析 从维高层到低层的数据钻取分析 按维成员的类分析 分类 选择类属性分类 归纳 归纳出类的共同特征 三 计算题 1 假设有如下的 雇员基本信息 表的结构及数据 其中属性 工资 为类别标识属性 属性 部门 职位 年龄 作为决策属性集 其中属性 年龄 与 工资 以离 散化 表中给出的是离散化后的数据 属性 工资 列中同时给出了相应元组的类别 属性 部门部门职位职位年龄年龄工资工资 销售部高级 31 4041K 55K C2 销售部初级 21 3026K 40K C3 销售部初级 31 4026K 40K C3 系统部初级 21 3041K 55K C2 系统部高级 31 4056K 70K C1 系统部初级 21 3041K 55K C2 系统部高级 41 5056K 70K C1 市场部高级 31 4041K 55K C2 市场部初级 31 4041K 55K C2 秘书处高级 41 5026K 40K C3 秘书处初级 21 3026K 40K C3 根据示例中的类别标识属性的取值 将该示例分为 3 类 即 m 3 分别是 c1 c2 c3 训练样本数据集 S 中 共有 11 个元组 其中 c1 c2 c3 类所对应的子集 R1 R2 R3 中元组的个数分别为 r1 2 r2 5 r3 4 计算得到集合 S 的关于分类的期望信息量 对每一个决策属性计算其期望信息量 即熵值 对属性 部门 有 孤单的微积分编辑 当部门 销售部 时 s11 0 s21 1 s31 2 I s11 s21 S31 0 918 当部门 系统部 时 s12 2 s22 2 s32 0 I s12 s22 S32 1 当部门 市场部 时 s13 0 s23 2 s33 0 I s13 s23 S33 0 当部门 秘书处 时 s14 0 s24 0 s34 2 I s14 s24 S34 0 由此得出属性 部门 的熵值 因此属性 部门 的信息增益为 Gain 部门 I r1 r2 r3 E 部门 0 881 同理 可以分别得到属性 职位 及 年龄 的信息增益 Gain 职位 0 243 Gain 年龄 0 326 由于属性 部门 具有最大的信息增益值 故而选择该属性作为决策树的根节点 对应每一个分枝 重复上述步骤 例如 对于分枝 属性部门 销售部 来说 可以 生成下表给出的子集 对该子集重复上述属性选择操作 依次对其他分枝进行相同操 作 可得到一个完整的决策树 之后就可以对该决策树进行剪枝操作了 部门部门职位职位年龄年龄工资工资 销售部高级 31 4041K 55K C2 销售部初级 21 3026K 40K C3 销售部初级 31 4026K 40K C3 决策树 通过简单贝叶斯分类对未知数据进行分类 P C1 2 11 0 1818 P C2 5 11 0 4545 P C3 4 11 0 3636 P 部门 系统部 C1 2 2 1 P 部门 系统部 C2 2 5 0 4 P 部门 系统部 C3 0 4 0 P 职位 高级 C1 2 2 1 P 职位 高级 C2 2 5 0 4 P 职位 高级 C3 1 4 0 25 P 年龄 21 30 C1 0 P 年龄 21 30 C2 2 5 0 4 P 年龄 21 30 C3 2 4 0 5 孤单的微积分编辑 有上述结果可导出 P X C1 0 P X C2 0 4 0 4 0 4 0 064 P X C3 0 P X C1 P C1 0 P X C2 P C2 0 064 0 4545 0 029 P X C1 P C3 0 简单贝叶斯分类方法的预测结果是该未知训练样本数据有可能属于 C2 类 该结果表示 对于年龄在 21 30 岁之间 所属部门是系统部同时其职位属于高级的员工的工资水平 最有可能在 41K 55K 之间 2 假设现有如下所示的一个事务数据库 数据库中有 10 个事务 即 D 10 假定这些事 务中的项按顺序存放 最小支持度 minsup 20 最小置信度阈值 minconf 65 求出 强关联规则 TIDTID 项列表项列表 T1T11 2 5 T2T21 2 T3T32 4 T4T41 2 4 T5T51 3 T6T61 2 3 5 T7T71 2 3 T8T82 5 T9T92 3 4 T10T103 4 利用 Apriori 算法产生频繁项集的过程如下 1 由 I 1 2 3 4 5 的所有项目直接产生 1 候选项集 C1 计算其支持度 去除支持 度小于 supmin 的项集 形成 1 频繁集 L1 如下表所示 项集项集 C1C1支持度支持度项集项集 L1L1支持度支持度 1 6 10 1 6 10 2 8 10 2 8 10 3 5 10 3 5 10 4 4 10 4 4 10 5 3 10 5 3 10 2 为发现频繁 2 项集 L2 首先利用 L1 中的各项目组合连接 来产生 2 候选集 C2 然后扫描记录集 以获得 C2 中各项集的支持度 去除支持度小于 supmin 的项集 形成 2 频繁集 L2 如下表所示 项集项集 C2C2支持度支持度项集项集

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论