




已阅读5页,还剩6页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库与数据挖掘复习大纲 考试时间与地点: 课程名称课程名称 任课任课 老师老师 班级班级 人数人数 考试合班考试合班 数数 考试考试 周数周数 周几周几 第几节第几节 考试地点考试地点 数据仓库与数据挖掘 吴静 12 信技 1-2 54 2 11 5 3-4 L1208 考试题型:一、单项选择题(102 分=20 分) 二、判断题(102 分=20 分) 三、简答题(56 分=30 分) 四、分析计算题(310 分=30 分) 考试范围: 第一讲第一讲 数据挖掘概述数据挖掘概述 考点:考点: 1、数据挖掘、知识发现(KDD)基本概念; 2、数据挖掘的过程; 3、数据挖掘过技术的三个主要部分。 复习参考题:复习参考题: 一、填空题 (1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、 数据选择、 数据变换、数据挖掘、模式评估 和 知识表示 。 (2) 数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理 。 (3) 当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器 学习。 (4) 在万维网(WWW)上应用的数据挖掘技术常被称为:WEB 挖掘 。 (5) 孤立点是指:一些与数据的一般行为或模型不一致的孤立数据 。 二、单选题 (1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:B A、所涉及的算法的复杂性; B、所涉及的数据量; C、计算结果的表现形式; D、是否使用了人工智能技术 (2)孤立点挖掘适用于下列哪种场合?D A、目标市场分析 B、购物篮分析 C、模式识别 D、信用卡欺诈检测 (3)下列几种数据挖掘功能中, ( D )被广泛的应用于股票价格走势分析 。 A. 关联分析 B.分类和预测 C.聚类分析 D. 演变分析 (4)下面的数据挖掘的任务中, ( B )将决定所使用的数据挖掘功能 。 A、选择任务相关的数据 B、选择要挖掘的知识类型 C、模式的兴趣度度量 D、模式的可视化表示 (5)下列几种数据挖掘功能中, (A )被广泛的用于购物篮分析 。 A、关联分析 B、分类和预测 C、聚类分析 D、演变分析 (6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据 挖掘功能是( B) 。 A.关联分析 B.分类和预测 C. 演变分析 D. 概念描述 (7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖 掘功能是( C ) 。 A.关联分析 B.分类和预测 C.聚类分析 D. 孤立点分析 E. 演变分析 (8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用 的数据挖掘功能是( E ) A.关联分析 B.分类和预测 C. 孤立点分析 D. 演变分析 E. 概念描述 三、简答题 1、何谓数据挖掘?它有哪些方面的功能? 答:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们 事先不知道的、 但又是潜在有用的信息和知识的过程称为数据挖掘。 相关的名称有知识发现、 数据分析、数据融合、决策支持等。 数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点 分析以及偏差分析等。 2、一个典型的数据挖掘系统应该包括哪些组成部分? 答:一个典型的数据挖掘系统应该包括以下部分: (1)数据库、数据仓库或其他信息库; (2)数据库或数据仓库服务器; (3)知识库; (4)数据挖掘引擎; (5)模式评估模块; (6)图形用户界面。 3、 请列举数据挖掘应用常见的数据源。(或者说, 我们都在什么样的数据上进行数据挖掘) 答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。 其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、 多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文 本数据库和万维网(WWW)等。 4、在哪些情况下,我们认为所挖掘出来的模式是有趣的? 答:一个模式是有趣的,如果(1) 它易于被人理解 ; (2)在某种程度上,对于新的或测试 数据是有效的; (3)具有潜在效用; (4)新颖的; (5)符合用户确信的某种假设。 5、根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别? 答:根据挖掘的知识类型, 数据挖掘系统可以分为特征分析,区分,关联分析, 分类聚类, 孤立点分析/演变分析,偏差分析,多种方法的集成和多层级挖掘等类型。 第二讲第二讲 数据的认识及预处理数据的认识及预处理 考点:考点: 1、什么是数据预处理,为什么要对数据进行预处理? 2、数据预处理的方法有哪些? 3、在数据预处理过程中度量中心趋势里中位数、众数等如何求取的? 4、度量数据离散度时如何求取极差、五数概括(基于四分位数) 、中间四分位数极差和 标准差? 5、在消除数据的噪声时,采用的分箱技术中如何对数据进行等频(等深)划分,如何 进行等宽划分? 6、什么是数据变换?如何使用“最小最大规范化规范化”方法、 “ z-score 规范化” 方法以及 “小数定标规范化” 这三种方法将数据按比例缩放, 使之落入一个小的特定区间里。 复习参考题:复习参考题: 一、填空题 (1)进行数据预处理时所使用的主要方法包括:数据清理、数据集成、数据变换 和 数 据规约。 (2)处理噪声数据的方法主要包括:分箱、聚类、计算机和人工检查结合、回归 。 (3)模式集成的主要问题包括:整合不同数据源中的元数据,实体识别问题 。 (4)数据概化是指: 沿概念分层向上概化。 (5)数据压缩可分为:有损压缩和无损压缩两种类型。 (6)进行数值归约时,三种常用的有参方法是:线性回归方法,多元回归 和对数线性 模型 。 (7)数据离散度的最常用度量是五数概括、中间四分位数区间 和标准差。 二、单选题 (1)数据归约的目的是( C ) 。 A、填补数据种的空缺值 B、集成多个数据源的数据 C、得到数据集的压缩表示 D、规范化数据 (2)下面哪种数据预处理技术可以用来平滑数据,消除数据噪声? A.数据清理 B.数据集成 C.数据变换 D.数据归约 (3)进行数据规范化的目的是( A ) 。 A.去掉数据中的噪声 B.对数据进行汇总和聚集 C.使用概念分层,用高层次概念替换低层次“原始”数据 D.将属性按比例缩放,使之落入一个小的特定区间 (4)数据的噪声是指( D ) 。 A、孤立点 B、空缺值 C、测量变量中的随即错误或偏差 D、数据变换引起的错误 (5)那种数据变换的方法将数据沿概念分层向上汇总 C 。 A、平滑 B、聚集 C、数据概化 D、规范化 (6) ( C )通过将属性域划分为区间,从而减少给定连续值的个数。 A.概念分层 B.离散化 C.分箱 D. 直方图 三、分析计算题 1、假设医院检测随机选择的 18 个成年人年龄和身体脂肪数据,得到如下结果: (a)计算年龄和脂肪百分比的均值、中位数和标准差 (b)绘制年龄和脂肪百分比的盒图 (c)根据 Z-score 规范化来规范化这两个属性 答: 2、 假定用于分析的数据包含属性 age.数据元组 age 值(以递增序)是: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70。 (a) 使用 min-max 规范化将 age 值 35 变换到0.0,1.0区间。 (b) 使用 z-score 规范化变换 age 值 35,其中 age 的标准差为 12.94 岁。 (c) 使用小数定标规范化变换 age 值 35。 (d) 对于给定的数据,你愿意使用哪种方法?陈述你的理由。 答: 3、假设 12 个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92, 204,215。使用如下每种方法将其划分成三个箱。 (a) 等频(等深)划分。 (b) 等宽划分。 (c) 聚类。 答: 第三讲第三讲 数据仓库数据仓库、数据立方体以及、数据立方体以及 OLAP 技术技术 考点:考点: 1、什么是数据仓库,它的特点以及功能? 2、在数据仓库中提供的是联机分析处理(OLAP)工具,它与 OLTP 有什么区别? 3、传统的数据库系统与数据仓库的区别? 4、什么是粒度?它对数据仓库有什么影响?按粒度组织数据的方式有哪些? 5、什么是数据立方体?什么是维? 6、OLAP 的基本操作有哪些? 复习参考题:复习参考题: 一、填空题 (1)数据仓库的多维数据模型可以有三种不同的形式,分别是:星形模式、雪花模式 和事实星座模式 。 (2)给定基本方体,方体的物化有三种选择:不物化、部分物化和全物化 。 (3) 著名的数据仓库系统设计师W. H. Inmon认为, 数据仓库与其他数据存储系统的区别 的 四个特征是:面向主题、数据集成、随时间而变化和数据不易丢失 。 (4)在数据访问模式上,数据仓库以 事务操作为主,而日常应用数据库则以 只读查询 为 主。 (5)数据立方体度量可以根据其所使用的聚集函数分为三类,分别是:分布的、代数的和 整体的。 (6)关于数据仓库的设计,四种不同的视图必须考虑,分别是:自顶向下视图、数据源视 图、数据仓库视图、商务查询视图。 (7) OLAP服务器的类型主要包括: 关系OLAP服务器(ROLAP)、 多维OLAP服务器(MOLAP) 和混合 OLAP 服务器(HOLAP)。 (8)求和函数 sum( )是一个分布的 的函数。 (9)方体计算的主要挑战是 海量数据 和 有限的内存和时间之间的矛盾。 二、单选题 (1)下面的数据操作中,哪些操作不是多维数据模型上的 OLAP 操作(B) 。 A、上卷(roll-up) B、选择(select) C、切片(slice) D、转轴(pivot) (2)以下哪个范围是数据仓库的数据库规模的一个合理范围 (D) 。 A、1100M B、100M10G C、101000G D、100GB 数 TB (3)存放最低层汇总的方体称为:C A、顶点方体 B、方体的格 C、基本方体 D、维 (4)哪种 OLAP 操作可以让用户在更高的抽象层,更概化的审视数据?A A、上卷 B、下钻 C、切块 D、转轴 (5)平均值函数 avg()属于哪种类型的度量?B A、分布的 B、代数的 C、整体的 D、混合的 三、多选题 (1)OLAP 系统和 OLTP 系统的主要区别包括( ABD ) 。 A、OLTP 系统主要用于管理当前数据,而 OLAP 系统主要存放的是历史数据; B、在数据的存取上,OLTP 系统比 OLAP 系统有着更多的写操作; C、对 OLTP 系统上的数据访问量往往比对 OLAP 系统的数据访问量要大得多; D、OLAP 系统中往往存放的是汇总的数据,而 OLTP 系统中往往存放详细的数据。 (2)从结构的角度看,数据仓库模型包括以下几类:ABC A、企业仓库 B、数据集市 C、虚拟仓库 D、信息仓库 (3)数据仓库的三层架构主要包括以下哪三部分?BCD A、数据源 B、数据仓库服务器 C、OLAP 服务器 D、前端工具 (4)以下哪些是数据仓库的主要应用?ACD A、信息处理 B、互联网搜索 C、分析处理 D、数据挖掘 四、分析与计算题 1、何谓数据仓库?为什么要建立数据仓库? 答:数据仓库是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳 定性)、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成信息。 建立数据仓库的目的有 3 个: 一、 是为了解决企业决策分析中的系统响应问题, 数据仓库能提供比传统事务数据库更 快的大规模决策分析的响应速度。 二、是解决决策分析对数据的特殊需求问题。决策分析需要全面的、正确的集成数据, 这是传统事务数据库不能直接提供的。 三、 是解决决策分析对数据的特殊操作要求。 决策分析是面向专业用户而非一般业务员, 需要使用专业的分析工具, 对分析结果还要以商业智能的方式进行表现, 这是事务数据库不 能提供的。 2、何谓粒度?它对数据仓库有什么影响?按粒度组织数据的方式有哪些? 答: 粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。 粒度影响存放在 数据仓库中的数据量的大小, 同时影响数据仓库所能回答查询问题的细节程度。 按粒度组织 数据的方式主要有: 简单堆积结构 轮转综合结构 简单直接结构 连续结构 3、假定 BigUniversity 的数据仓库包含如下 4 个维: student(student_name, area_id, major, status, university) course(course_name, department) semester(semester, year) instructor(dept, rank) 2 个度量:count 和 avg_grade。 在最低概念层,度量 avg_grade 存放学生的实际课程成绩。在较高概念层,avg_grade 存放给定组合的平均成绩。 (a) 为数据仓库画出雪花模式图。 (b) 由基本方体student, course, semester, instructor开始,为列出 Big_University 每个学 生的 CS 课程的平均成绩,应当使用哪些 OLAP 操作(如,由学期上卷到学年) 。 (c) 如果每维有 5 层(包括 all) ,如 student buys(X, “coke”)是一个 C A、单维关联规则 B、多维关联规则 C、混合维关联规则 D、不是一个关联规则 三、问答及分析计算 1、 请解释一下在数据挖掘关联规则中什么是支持度和可信度,以及关联规则。 答: 支持度: 规则 AB 的支持度指的是所有事件中 A 与 B 同地发生的的概率,即 P(A B),是 AB 同时发生的次数与事件总次数之比。支持度是对关联规则重要性的衡量。 可信度: 规则AB的可信度指的是包含A项集的同时也包含B项集的条件概率P(B|A), 是 AB 同时发生的次数与 A 发生的所有次数之比。可信度是对关联规则的准确度的衡量。 关联规则:同时满足最小支持度阈值和最小可信度阈值的规则称之为关联规则。 2、数据库有 4 笔交易,设 minsup=60%, minconf=80%。 用 Apriori 算法找出所有频繁项集,列出所有关联规则。 (参考课本以及课堂教学例子) 第五讲第五讲 分类分类 考点考点 1、什么是分类?解决分类问题的一般方法? 2、在常用的分类方法中决策树技术发现规则的核心是?什么是决策树?如何用决策树进行 分类? 3、在决策树算法中有 CLS,ID3,C4.5,CART 等方法,简述 ID3 算法的基本思想及其主算法的 基本步骤。 4、什么是属性的信息增益,熵? 5、分类模型的误差有哪些? 6、什么是过度拟合?解决的办法? 复习参考题:复习参考题: 一、填空题 (1)通过对数据进行预处理,可以提高分类和预测过程的准确性、有效性和可伸缩性 。 (2)防止分类中的过分适应的两种方法分别是:先剪枝、后剪枝。 二、单选题 (1)下面哪种分类方法是属于神经网络学习算法?( C ) A、判定树归纳 B、贝叶斯分类 C、后向传播分类 D、基于案例的推理 (2)下面哪种分类方法是属于统计学的分类方法?( B ) A、判定树归纳 B、贝叶斯分类 C、后向传播分类 D、基于案例的推理 (3)下列哪个描述是正确的?( C ) A、分类和聚类都是有指导的学习 C、分类是有指导的学习,聚类是无指导的学习 B、分类和聚类都是无指导的学习 D、分类是无指导的学习,聚类是有指导的学习 三、问答题 1、分类知识的发现方法主要有哪些?分类过程通常包括哪两个步骤? 答:分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集 法和遗传算法。分类的过程包括 2 步:首先在已知训练数据集上,根据属性特征, 为每一种类别找到一个合理的描述或模型,即分类规则;然后根据规则对新数据进 行分类。 2、什么是决策树?如何用决策树进行分类? 答:决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。它是利用 信息论原理对大量样本的属性进行分析和归纳而产生的。决策树的根结点是所有样 本中信息量最大的属性。树的中间结点是以该结点为根的子树所包含的样本子集中 信息量最大的属性。决策树的叶结点是样本的类别值。 决策树用于对新样本的分类,即通过决策树对新样本属性值的测试,从树的根 结点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结 点表示的类别就是新样本的类别。决策树方法是数据挖掘中非常有效的分类方法。 3、在判定树归纳中,为什么树剪枝是有用的? 答:当判定树创建时,由于数据中的噪声和孤立点,许多分枝反应的是训练数据中的 异常。剪枝方法处理这种过分适应数据的问题。通常,这种方法使用统计度量,剪去 最不可靠的分枝,这将导致较快的分类,提高树独立于测试数据正确分类的可靠性。 四、分析题 1、根据以下训练样本,计算年龄属性的信息增益值 I(16,4)=(4/16)*log2(4/16)+(12/16)*log2(12/16)=0.8113 E(年龄)=(6/16)*I(6,1)+(10/16)*I(10,3)=0.7946 Gain(年龄)=I(16,4)-E(年龄)=0.0167 第六讲第六讲 聚类分析聚类分析 考点:考点: 1、什么的聚类?它和分类的区别在哪? 2、聚类的主要算法中K-平均算法(k-means)的输入、输出及聚类过程是如何实 现的? 复习参考题:复习参考题: 一、填空题 (1)在数据挖掘中,常用的聚类算法包括:划分方法、层次的方法、基于密度的方法、基 于网格的方法和基于模型的方法。 (2)聚类分析常作为一个独立的工具来获得数据分布的情况 。 (3)一个好的聚类分析方法会产生高质量的聚类,具有两个特征:高类内相似度、低类间 相似度 。 (4)许多基于内存的聚类算法所常用的两种数据结构是数据矩阵、相异度矩阵 。 (5)基于网格的聚类方法的优点是:处理数度快。 (6)孤立点产生的主要原因包括:度量或执行错误、数据变异的结果 。 (7)在基于统计的孤立点检测中,常用于不一致性检验的参数包括:数据分布、分布参数、 预期的孤立点数 。 二、单选题 (1)下面那种数据挖掘方法可以用来检测孤立点?C 。 A.概念描述 B.分类和预测 C.聚类分析 D.演变分析 (2)以下哪个指标不是表示对象间的相似度和相异度 C 。 A、Euclidean 距离 B、Manhattan 距离 C、Eula 距离 D、Minkowski 距离 (3)以下哪种聚类方法可以发现任意形状的聚类?C A、划分的方法 B、基于模型的方法 C、基于密度的方法 D、层次的方法 三、问答题 1、何谓聚类?它与分类有什么异同? 答:聚类是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一 个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。 聚类与分类不同,聚类要划分的类是未知的,分类则可按已知规则进行;聚类是一种无 指导学习,它不依赖预先定义的类和带类标号的训练实例,属于观察式学习,分类则属于有 指导的学习,是示例式学习。 2、简述 ID3 算法的基本思想及其主算法的基本步骤。 答:首先找出最有判别力的因素,然后把数据分成多个子集,每个子集又选择最有判别 力的因素进一步划分, 一直进行到所有子集仅包含同一类型的数据为止。 最后得到一棵决策 树,可以用它来对新的样例进行分类。 主算法包括如下几步: 从训练集中随机选择一个既含正例又含反例的子集(称为窗口); 用“建树算法”对当前窗口形成一棵决策树; 对训练集(窗口除外)中例子用所得决策树进行类别判定,找出错判的例子; 若存在错判的例子,把它们插入窗口,重复步骤,否则结束。 四、分析计算 1、给定两个向量对象,分别表示为 p1(22,1,42,10),p2(20,0,36,8): (a) 计算两个对象之间的欧几里得距离; (b) 计算两个对象之间的曼哈顿距离 ; (c) 计算两个对象之间的切比雪夫距离 ; (d) 计算两个对象之间的闵可夫斯基距离,用 x=3。 答:(a) 计算两个对象之间的欧几里得距离: (b) 计算两个对象之间的曼哈顿距离: (d)计算两个对象之间的闵可夫斯基距离,其中参数 r=3: 2、假设数据挖掘的任务是将如下的八个点(用(x,y)代表位置)聚类为三个类。 A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9) 距离函数是 Euclidean(欧几里得)函数。假设初始我们选择 A1,B1,和 C1 为每个簇的 中心,用 k-means(K-平均算法)算法来给出: (a) 在第一次循环执行后的三个簇中心 (b) 最后的三个簇 思路思路:K 均值算法的过程为 (1) 选择 K 个点作为初始质点。 (2) repeat (3) 每个点指派到最近的质心,形成 K 个簇。 (4) 重新计算每个簇的质心、 (5)until 质心不发生变化。 A1,B1,C 作为初始质点,距离函数是 Euclidean 函数,指派点到最近的质心,方法为计算其 他点到质点的欧几里得距离。计算距离如下: A1-A2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 社区大数据与社区信息化创新驱动发展战略基础知识点归纳
- 2025版企业贷款合同模板
- 商业空间能耗分析基础知识点归纳
- 2025合同范本货物采购合同模板
- 2025建筑设备安装合同模板
- 2025合法的附条件借款合同范本
- 公司意识形态管理制度
- 2025年模具行业数字化设计仿真技术国际合作与交流报告
- 2025年K2教育STEM课程实施对学生科学探究能力培养的效果评估报告
- 产业互联网驱动下农产品流通的数字化转型研究:理论与策略
- 石材养护报价表范本
- 呈阅件(清流县城市管理办法)
- 公务员职务与及职级并行规定课件
- 红河县年产50吨珍珠棉建设项目环评报告
- 术中大出血的抢救及护理配合
- 商务英语听说-对外经济贸易大学中国大学mooc课后章节答案期末考试题库2023年
- 第十二讲 建设社会主义生态文明PPT习概论2023优化版教学课件
- 国家湿地公园总体规划导则
- 阆中张飞牛肉名称的来历
- 2021上半年江津区社区专职工作者《综合基础知识》试题
- 2023上海虹口区初三语文一模作文写作指导及范文:这也是我的舞台
评论
0/150
提交评论