




已阅读5页,还剩34页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘作业第一章 引言一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤: 、 、 、 、 、 和 (2) 数据挖掘的性能问题主要包括: 、 和 (3) 当前的数据挖掘研究中,最主要的三个研究方向是: 、 和 (4) 在万维网(WWW)上应用的数据挖掘技术常被称为: (5) 孤立点是指: 二、单选题(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:A、所涉及的算法的复杂性;B、所涉及的数据量;C、计算结果的表现形式;D、是否使用了人工智能技术(2)孤立点挖掘适用于下列哪种场合?A、目标市场分析B、购物篮分析C、模式识别 D、信用卡欺诈检测(3)下列几种数据挖掘功能中,()被广泛的应用于股票价格走势分析A. 关联分析 B.分类和预测 C.聚类分析 D. 演变分析(4)下面的数据挖掘的任务中,( )将决定所使用的数据挖掘功能A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示(5)下列几种数据挖掘功能中,()被广泛的用于购物篮分析A、关联分析 B、分类和预测 C、聚类分析 D、演变分析(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是()A.关联分析 B.分类和预测 C. 演变分析 D. 概念描述(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是()A.关联分析 B.分类和预测 C.聚类分析 D. 孤立点分析 E. 演变分析(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是()A.关联分析 B.分类和预测 C. 孤立点分析D. 演变分析 E. 概念描述三、简答题(1)什么是数据挖掘?(2)一个典型的数据挖掘系统应该包括哪些组成部分?(3)请简述不同历史时代数据库技术的演化。(4)请列举数据挖掘应用常见的数据源。(或者说,我们都在什么样的数据上进行数据挖掘)(5)什么是模式兴趣度的客观度量和主观度量?(6)在哪些情况下,我们认为所挖掘出来的模式是有趣的?(7)根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?第2章 数据预处理一、 填空题(1)进行数据预处理时所使用的主要方法包括: 、 、 和 (2)处理噪声数据的方法主要包括: 、 、 和 (3)模式集成的主要问题包括: 和 (4)数据概化是指: (5)数据压缩可分为: 和 两种类型。(6)进行数值归约时,三种常用的有参方法是: 、 和 (7)数据离散度的最常用度量是 、 和 二、单选题(1)数据归约的目的是( )A、填补数据种的空缺值B、集成多个数据源的数据C、得到数据集的压缩表示 D、规范化数据(2)下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?A.数据清理B.数据集成C.数据变换D.数据归约(3)进行数据规范化的目的是()A.去掉数据中的噪声 B.对数据进行汇总和聚集 C.使用概念分层,用高层次概念替换低层次“原始”数据 D.将属性按比例缩放,使之落入一个小的特定区间(4)数据的噪声是指( )A、孤立点B、空缺值C、测量变量中的随即错误或偏差D、数据变换引起的错误(5)那种数据变换的方法将数据沿概念分层向上汇总A、平滑B、聚集C、数据概化D、规范化(6)()通过将属性域划分为区间,从而减少给定连续值的个数。 A.概念分层 B.离散化 C.分箱 D. 直方图三、多选题(1)下面哪些问题是我们进行数据预处理的原因?A.数据中的空缺值 B.噪声数据C.数据中的不一致性 D.数据中的概念分层(2)下面的度量中,哪些是数据离散度的度量?A.中位数B.标准差C.模D.中间四分位数区间(3)数据清理的目的是处理数据中的( )A、空缺值B、噪声数据C、不一致数据D、敏感数据(4)下列哪些是数据变换可能涉及的内容?A、数据压缩B、数据概化C、维归约D、规范化(5)以下哪些原因可能引起空缺值A、设备异常B、命名规则的不一致C、与其他已有数据不一致而被删除D、在输入时,有些数据因为得不到重视而没有被输入四、简答题(1)常用的数值属性概念分层的方法有哪些? (2)典型的生成分类数据的概念分层的方法有哪些?(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。(4)常见的数据归约策略包括哪些?第四章 数据挖掘原语、语言和系统结构一、填空题(1)概念分层有四种类型,分别是: 、 、 和 (2)常用的四种兴趣度的客观度量是: 、 、 和 (3)同时满足 和 的关联规则称为强关联规则。二、单选题(1)以下DMQL片断: mine associations as buyingHabitsmatching P(X : customer, W) Q(X, Y) = buys (X, Z)所指定的挖掘知识类型是:A、特征化B、区分C、关联D、分类(2)以下哪种数据挖掘系统与数据库/数据仓库系统集成方式将会使数据挖掘系统达到最好的性能?A、不耦合B、松散耦合C、半紧密耦合D、紧密耦合三、多选题(1)以下哪些OLAP操作是和概念分层紧密相关的?A、上卷B、切片C、下钻D、切块四、简答题(1)定义数据挖掘任务的原语,主要应该包括哪些部分?(2)为什么需要数据挖掘原语和语言来指导数据挖掘?(3)描述如下将数据挖掘系统与数据库或数据仓库系统集成的结构之间的差别:不耦合、松散耦合、半紧密耦合和紧密耦合。(4)数据挖掘的GUI可能包含哪些部分?第五章 概念描述:特征化与比较一、填空题(1)概念描述由 和 组成。(2)一般来说,进行类比较的过程应该包括以下几个步骤: 、 、 和 (3)从数据分析的角度看,数据挖掘可以分为两类: 和 (4)属性相关分析的基本思想是计算某种度量,用于量化属性与给定类或概念的相关性。可采用的度量包括: 、 、 和 (5)数据离散度的最常用度量包括: 、 和 二、单选题(1)类比较的过程中,我们在哪个步骤得到主目标类 关系/方体 和 主对比类 关系/方体?A、数据收集B、维相关分析C、同步概化D、导出比较的表示(2)哪种图形显示方法常用于描述两个变量间的依赖模式?A、直方图B、分位数图C、散布图D、LOESS曲线(3)哪种图形显示方法常用于确定两个量化的变量之间看上去是否有联系、模式或者趋势?A、直方图B、分位数图C、散布图D、LOESS曲线(4)哪种图形显示方法用于显示所有的数据,允许用户评估总的情况和不寻常情况的出现?A、直方图B、分位数图C、散布图D、LOESS曲线(5)中心趋势度量模(mode)是指A、算术平均值B、数据集中出现频率最高的值C、最大值D、最小值三、多选题(1)下面哪些是常用的数据概化方法?A、离散化 B、数据立方体(OLAP技术)C、判定归纳树 D、面向属性的归纳(2)使用数据立方体方法进行数据概化的优点包括:A、数据概化的一种有效实现B、可以计算各种不同的度量值C、受数据类型和度量类型的约束比较少D、概化和特征分析通过一系列的数据立方体操作完成,简单高效(3)以下哪些是属于中心趋势的度量A、平均值B、标准差C、五数概括D、中位数四、简答题(1)简述类比较的过程。(2)简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。(3)简述概念描述的属性相关分析的基本步骤。(4)简要叙述概念描述和OLAP之间的主要区别。(5)为什么进行属性相关分析?(6)简述进行概念描述时,面向数据库的方法和机器学习的主要区别。(7)什么是概念描述的增量挖掘?第六章 大型数据库中的关联规则挖掘一、填空题(1)关联规则挖掘中,两个主要的兴趣度度量是: 和 (2)Aprior算法包括 和 两个基本步骤(3)项集的频率是指 (4)大型数据库中的关联规则挖掘包含两个过程: 和 (5)根据规则中所处理的值类型,关联规则可分为: 和 (6)Apriori性质是指: (7)挖掘多维关联规则的技术可以根据量化属性的处理分为三种基本方法: 、 和 (8)对于频繁项集挖掘,在挖掘过程中使用的约束包括以下五种类型: 、 、 、 和 (9)在多维关联规则挖掘中,我们搜索的不是频繁项集,而是 二、单选题(1)下列几种数据挖掘功能中,()被广泛的用于购物篮分析。 A、关联分析 B、分类和预测 C、聚类分析 D、演变分析(2)支持度(support)是衡量兴趣度度量( )的指标。 A、实用性B、确定性C.、简洁性D、新颖性(3)置信度(confidence)是衡量兴趣度度量( )的指标。 A、简洁性B、确定性C.、实用性D、新颖性(4)根据关联分析中所处理的值类型,可以将关联规则分类为:()A、布尔关联规则和量化关联规则 B、单维关联规则和多维关联规则C、单层关联规则和多层关联规则 D、简答关联规则和复杂关联规则(5)规则:age(X,”19-25”) buys(X, “popcorn”) = buys(X, “coke”)是一个A、单维关联规则B、多维关联规则C、混合维关联规则D、不是一个关联规则三、多选题(1)根据关联分析中所涉及的抽象层,可以将关联规则分类为:()A、布尔关联规则 B、单层关联规则C、多维关联规则D、多层关联规则(2)根据关联分析中所涉及的数据维,可以将关联规则分类为:()A、布尔关联规则 B、单维关联规则C、多维关联规则D、多层关联规则(3)Apriori算法所面临的主要的挑战包括:A、会消耗大量的内存 B、会产生大量的候选项集C、对候选项集的支持度计算非常繁琐 D、要对数据进行多次扫描四、简答题(1)对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点?(2)给出一个例子,表明强关联规则中的项可能实际上是负相关的。(3)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。(4)什么是简洁性约束?第6章 分类和预测一、填空题(1)通过对数据进行预处理,可以提高分类和预测过程的 、 和 (2)防止分类中的过分适应的两种方法分别是: 和 二、单选题(1)下面哪种分类方法是属于神经网络学习算法?() A、判定树归纳 B、贝叶斯分类 C、后向传播分类 D、基于案例的推理(2)下面哪种分类方法是属于统计学的分类方法?() A、判定树归纳 B、贝叶斯分类 C、后向传播分类 D、基于案例的推理(3)下列哪个描述是正确的?()A、分类和聚类都是有指导的学习 C、分类是有指导的学习,聚类是无指导的学习B、分类和聚类都是无指导的学习 D、分类是无指导的学习,聚类是有指导的学习三、简答题(1)简述判定树分类的主要步骤。(2)在判定树归纳中,为什么树剪枝是有用的?(3)为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类的主要思想。(4)请简述判定树归纳算法的基本策略。(5)对分类和预测方法进行比较和评估的标准都有哪些?(6)简述数据分类的两步过程。(7)简述后向传播分类的优缺点。四、算法题(1)使用判定树归纳算法,根据顾客年龄age(分为3个年龄段:23),收入income(取值为high,medium,low),是否为student(取值为yes和no),信用credit_rating等级(取值为fair和excellent)来判定用户是否会购买PC Game,即构建判定树buys_PCGame,假设现有的数据经过第一次划分之后得到如下图所示结果,并根据该结果对每一个划分中的各个属性计算信息增益对age23的顾客:Gain(income)=0.042,Gain(student)=0.462,Gain(credit_rating)=0.155请根据以上结果绘制出判定树buys_PCGame,来判定用户是否会购买PC Game。age 23incomestudentcredit_ratingclassIncomestudentcredit_ratingclasshighnofairnohighnofairnomediumyesfairnohighyesexcellentyeshighnofairnomediumyesfairyesmediumyesexcellentyeslowyesfairyeslownoexcellentyeslownoexcellentnoincomestudentcredit_ratingclasshighnofairyesmediumyesfairyeshighnofairyesmediumyesexcellentyes第7章 聚类分析一、填空题(1)在数据挖掘中,常用的聚类算法包括: 、 、 、基于网格的方法和基于模型的方法。(2)聚类分析常作为一个独立的工具来获得 (3)一个好的聚类分析方法会产生高质量的聚类,具有两个特征: 和 (4)许多基于内存的聚类算法所常用的两种数据结构是 和 (5)基于网格的聚类方法的优点是: (6)孤立点产生的主要原因包括: 和 (7)在基于统计的孤立点检测中,常用于不一致性检验的参数包括: 、 和 二、单选题(1)下面那种数据挖掘方法可以用来检测孤立点? A.概念描述B.分类和预测C.聚类分析D.演变分析(2)以下哪个指标不是表示对象间的相似度和相异度A、Euclidean距离B、Manhattan距离C、Eula距离D、Minkowski距离(3)以下哪种聚类方法可以发现任意形状的聚类?A、划分的方法B、基于模型的方法C、基于密度的方法D、层次的方法三、简答题(1)数据挖掘对聚类分析有哪些要求?(2)简述基于划分的聚类方法。划分的准则是什么?(3)列举孤立点挖掘的常见应用。(4)简单地描述如何计算由如下类型的变量描述的对象间的相异度:a) 不对称的二元变量b) 标称变量c) 比例标度型(ratio-scaled)变量d) 数值型的变量(5)给出一个特定的聚类方法如何被综合使用的例子,例如,什么情况下一个聚类算法被用作另一个算法的预处理步骤。第九章 电子商务与数据挖掘一、填空题(1)Web数据挖掘通常包括 、 和 三种形式。(2)进行Web Usage Mining主要是通过对系统日志信息的数据挖掘,常用的数据源包括: 、 和 。二、简答题(1)列举WEB日志的字段。(2)跟其他应用领域相比,在电子商务中进行数据挖掘有哪些优势?(3)列举WEB使用挖掘(Web Usage Mining)的应用。(4)基于Web日志的用户访问模式挖掘有什么缺点?(5)电子商务中进行数据挖掘有哪些难点?作业答案第一章 引言一、填空题(1)数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示(2)算法的效率、可扩展性和并行处理(3)统计学、数据库技术和机器学习(4)WEB挖掘(5)一些与数据的一般行为或模型不一致的孤立数据二、单选题(1)B;(2)D;(3)D;(4)B;(5)A;(6)B;(7)C;(8)E;三、简答题(1)什么是数据挖掘? 答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。(2)一个典型的数据挖掘系统应该包括哪些组成部分?答:一个典型的数据挖掘系统应该包括以下部分:数据库、数据仓库或其他信息库数据库或数据仓库服务器知识库数据挖掘引擎模式评估模块图形用户界面(3)请简述不同历史时代数据库技术的演化。 答:1960年代和以前:研究文件系统。 1970年代:出现层次数据库和网状数据库。 1980年代早期:关系数据模型, 关系数据库管理系统(RDBMS)的实现 1980年代后期:出现各种高级数据库系统(如:扩展的关系数据库、面向对象数据库等等)以及面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等。 1990年代:研究的重点转移到数据挖掘, 数据仓库, 多媒体数据库和网络数据库。 2000年代:人们专注于研究流数据管理和挖掘、基于各种应用的数据挖掘、XML数据库和整合的信息系统。(4)请列举数据挖掘应用常见的数据源。(或者说,我们都在什么样的数据上进行数据挖掘) 答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。(5)什么是模式兴趣度的客观度量和主观度量? 答:客观度量指的是基于所发现模式的结构和关于它们的统计来衡量模式的兴趣度,比如: 支持度、置信度等等;主观度量基于用户对数据的判断来衡量模式的兴趣度,比如:出乎意料的、新颖的、可行动的等等。(6)在哪些情况下,我们认为所挖掘出来的模式是有趣的? 答:一个模式是有趣的,如果(1) 它易于被人理解 ;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设。(7)根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别? 答:根据挖掘的知识类型,数据挖掘系统可以分为特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析,多种方法的集成和多层级挖掘等类型。第二章 数据仓库和数据挖掘的OLAP技术一、 填空题(1) 星形模式、雪花模式和事实星座模式(2) 不物化、部分物化和全物化(3) 面向主题、数据集成、随时间而变化和数据不易丢失(4) 事务操作,只读查询(5) 分布的、代数的和整体的(6) 自顶向下视图、数据源视图、数据仓库视图、商务查询视图(7) 关系OLAP服务器(ROLAP)、多维OLAP服务器(MOLAP)和混合OLAP服务器(HOLAP)(8) 分布的(9) 海量数据,有限的内存和时间二、单选题(1)B;(2)D;(3)C;(4)A;(5)B三、多选题(1)ABD;(2)ABC;(3)BCD;(4)ACD;四、简答题(1)为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。答:使用一个独立的数据仓库进行OLAP处理是为了以下目的:(1)提高两个系统的性能操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复杂的 OLAP查询, 多维视图,汇总等OLAP功能提供了优化。(2)两者有着不同的功能操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降低OLAP的性能。(3)两者有着不同的数据数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。(2)为什么说数据仓库具有随时间而变化的特征? 答:(1)数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统主要保存当前数据,而数据仓库从历史的角度提供信息(比如过去 5-10 年)。(2)数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。(3)试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(update-driven),而不愿使用查询驱动(query-driven)的方法? 答:因为对于多个异种信息源的集成,查询驱动方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源,是一种低效的方法,并且对于频繁的查询,特别是需要聚集操作的查询,开销很大。而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中,进行查询的同时并不影响局部数据源上进行的处理。此外,数据仓库存储并集成历史信息,支持复杂的多维查询。(4)请简述几种典型的多维数据的OLAP操作 答:典型的OLAP操作包括以下几种 上卷:通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集; 下钻:上卷的逆操作,由不太详细的数据得到更详细的数据;通常可以通过沿维的概念分层向下或引入新的维来实现; 切片:在给定的数据立方体的一个维上进行选择,导致一个子方; 切块:通过对两个或多个维执行选择,定义子方; 转轴:转动数据的视角,提供数据的替代表示; 钻过:执行涉及多个事实表的查询; 钻透:使用关系SQL机制,钻到数据立方体的底层,到后端关系表(5)为什么说相对于日常的应用数据库,数据仓库中的数据更加不容易丢失? 答:(1)尽管数据仓库中的数据来自于操作数据库,但它们却是在物理上分离保存的,操作数据库的更新操作不会出现在数据仓库环境下。(2)数据仓库不需要事务处理,恢复,和并发控制等机制。(3)数据仓库只需要两种数据访问:数据的初始转载和数据访问(读操作)。(6)假定Big_University的数据仓库包含如下4个维:student, course, semester和instructor;2个度量:count和avg_grade。在最低得到概念层(例如,对于给定的学生、课程、学期和教师的组合),度量avg_grade存放学生的实际成绩。在较高的概念层,avg_grade存放给定组合的平均成绩。(a) 为数据仓库画出雪花模式图。(b) 由基本方体student, course, semester, instructor开始,为列出Big_University每个学生的CS课程的平均成绩,应当使用哪些OLAP操作(如,由学期上卷到学年)。(c) 如果每维有5层(包括all),如student major status university all, 该数据方包含多少方体(包含基本方体和顶点方体)?(7)在数据仓库中,元数据的主要用途包括哪些? 答:在数据仓库中,元数据的主要用途包括:(1) 用作目录,帮助决策支持系统分析者对数据仓库的内容定义(2) 作为数据仓库和操作性数据库之间进行数据转换时的映射标准(3) 用于指导当前细节数据和稍加综合的数据之间的汇总算法,指导稍加综合的数据和高度综合的数据之间的汇总算法。(8)数据仓库后端工具和程序包括哪些? 答:数据仓库后端工具主要指的是用来装入和刷新数据的工具,包括:(1) 数据提取:从多个外部的异构数据源收集数据(2) 数据清理:检测数据种的错误并作可能的订正(3) 数据变换:将数据由历史或主机的格式转化为数据仓库的格式(4) 装载:排序、汇总、合并、计算视图,检查完整性,并建立索引和分区(5) 刷新:将数据源的更新传播到数据仓库中五、计算题(1) 答:a. 内存空间需求量最小的块计算次序和内存空间需求量最大的块计算次序分别如下图所示:b. 这两个次序下计算二维平面所需要的内存空间的大小:内存空间需求最小的次序:10,0001,000(用于整个BC平面)(100,000/10)1,000(用于AC平面的一行)(100,000/10)(10,000/10)(用于AB平面的一格)=30,000,000内存空间需求量最大的块计算次序:100,00010,000(用于整个AB平面)100,000(1,000/10)(用于AC平面的一行)(10,000/10)(1,000/10)=1,010,100,000第三章 数据预处理一、 填空题(1) 数据清理、数据集成、数据变换、数据规约(2) 分箱、聚类、计算机和人工检查结合、回归(3) 整合不同数据源中的元数据,实体识别问题(4) 沿概念分层向上概化(5) 有损压缩,无损压缩(6) 线性回归方法,多元回归,对数线性模型(7) 五数概括、中间四分位数区间、标准差二、单选题(1)C;(2)A;(3)D;(4)C;(5)C;(6)B三、多选题(1)ABC;(2)BD;(3)ABC;(4)BD;(5)ACD四、简答题(1)常用的数值属性概念分层的方法有哪些? 答:常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。(2)典型的生成分类数据的概念分层的方法有哪些? 答:典型的生成分类数据的概念分层的方法包括:(1)由用户或专家在模式级显示的说明属性的部分序;(2)通过显示数据分组说明分层结构的一部分。(3)说明属性集,但不说明它们的偏序,然后系统根据算法自动产生属性的序,构造有意义的概念分层。(4)对只说明部分属性集的情况,则可根据数据库模式中的数据语义定义对属性的捆绑信息,来恢复相关的属性。(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。 答:处理空缺值的方法有:(1) 忽略元组。当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。(2) 人工填写空缺值。这种方法工作量大,可行性低(3) 使用一个全局变量填充空缺值:比如使用unknown或-(4) 使用属性的平均值填充空缺值(5) 使用与给定元组属同一类的所有样本的平均值(6) 使用最可能的值填充空缺值。如使用像Bayesian公式或判定树这样的基于推断的方法(4)常见的数据归约策略包括哪些? 答:数据归约策略包括:(1) 数据立方体聚集(2) 维归约(3) 数据压缩(4) 数值归约(5) 离散化和概念分层产生第四章 数据挖掘原语、语言和系统结构一、填空题(1)模式分层,集合分组分层,操作导出的分层,基于规则的分层(2)简单性、确定性、实用性、新颖性(3)最小置信度临界值、最小支持度临界值二、单选题(1)C;(2)D三、多选题(1)AC四、简答题(1)定义数据挖掘任务的原语,主要应该包括哪些部分? 答:一个定义数据挖掘任务的原语主要应该包括以下部分的说明:说明数据库的部分或用户感兴趣的数据集;要挖掘的知识类型;用于指导挖掘的背景知识;模式评估、兴趣度量;如何显示发现的知识。(2)为什么需要数据挖掘原语和语言来指导数据挖掘? 答:如果不使用数据挖掘原语和语言来指导数据挖掘(1) 会产生大量模式(重新把知识淹没)(2) 会涵盖所有数据,使得挖掘效率低下(3) 大部分有价值的模式集可能被忽略(4) 挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用性令人不感兴趣。(3)描述如下将数据挖掘系统与数据库或数据仓库系统集成的结构之间的差别:不耦合、松散耦合、半紧密耦合和紧密耦合。 答:不耦合:DM系统不利用DB/DW系统的任何功能。这种集成结构简单,但是没有利用数据库的功能意味着信息分析处理借助第三方工具,这使得系统的构建和集成变得很困难。 松散耦合:DM系统将使用DB/DW系统的某些功能。这种集成结构简单地利用DB/DW提供的数据查询功能,没有使用DB/DW的后台优化,算法大部分是基于内存的,性能和可扩展性差。 半紧密耦合:除了将DM系统连接到一个DB/DW系统之外,一些基本数据挖掘原语(通过分析频繁遇到的数据挖掘功能确定)可以在DB/DW系统中实现。如此一来,一些中间的挖掘结果可以在DB/DW上实现计算或有效的即时计算,性能会有较大提高。 紧密耦合:DM系统平滑的集成到DB/DW系统中。数据挖掘子系统被视为信息挖掘子系统的一部分,数据挖掘查询和功能根据DB或DW系统的挖掘查询分析、数据结构、索引模式和查询处理方法优化。这种结构提供了一个统一的信息处理平台,功能、性能等方面都会达到一个高水平。(4)数据挖掘的GUI可能包含哪些部分? 答:数据挖掘的GUI可能包含以下部分:(1) 数据收集和数据查询编辑(2) 发现模式的表示(3) 分层结构说明和操纵(4) 数据挖掘原语的操作(5) 交互的多层挖掘(6) 其他各种信息第五章 概念描述:特征化与比较一、填空题(1)特征化、区分(2)数据收集、维相关分析、同步概化、导出比较的表示(3)描述性挖掘和预测性挖掘(4)信息增益、Gini索引、不确定性和相关系数(5)五数概括、中间四分位数区间、标准差二、单选题(1)C;(2)D;(3)C;(4)B;(5)B三、多选题(1)BD;(2)ABD;(3)AD四、简答题(1)简述类比较的过程。 答:类比较的过程一般包括以下四个步骤:(1)数据收集通过查询处理收集数据库中相关的数据,并将其划分为一个目标类和一个或多个对比类;(2)维相关分析使用属性相关分析方法,使我们的任务中仅包含强相关的维;(3)同步概化同步的在目标类和对比类上进行概化,得到主目标类关系/方体 和 主对比类关系/方体;(4)导出比较的表示用可视化技术表达类比较描述,通常会包含“对比”度量,反映目标类与对比类间的比较。(2)简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。 答:面向属性归纳的基本思想是:首先使用关系数据库查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性概化)。聚集通过合并相等的广义元组,并累计他们相应的技术值进行。这压缩了概化后的数据集合。结果广义关系可以映射到不同形式,如图表或规则,提供用户。使用属性删除的情况:如果初始工作关系的一个属性上有大量的不同值,但是(1)在此属性上没有概化操作符,或(2)它的较高层概念用其他属性表示;使用属性概化的情况:如果初始工作关系的一个属性上有大量的不同值,并且该属性上存在着概化操作符。(3)简述概念描述的属性相关分析的基本步骤。 答:(1)数据收集:通过查询处理,收集目标类和对比类的数据; (2)使用保守的AOI进行预相关分析:这一步识别属性和维的集合,选择的相关性度量用于他们; (3)使用选定的相关分析度量删除不相关和弱相关属性:使用选定的相关分析度量,评估候选关系中的每个属性; (4)使用AOI产生概念描述:使用一组不太保守的属性概化临界值进行AOI。(4)简要叙述概念描述和OLAP之间的主要区别。 答:两者的主要区别有:(1) 概念描述可以处理复杂数据类型的属性及其聚集,而实际使用的OLAP系统中,维和度量的数据类型都非常有限(非数值型的维和数值型的数据),表现为一种简单的数据分析模型。(2) OLAP是一个由用户控制的过程,而概念描述是一个更加自动化的过程。(5)为什么进行属性相关分析? 答:数据仓库和OLAP系统中的多维数据分析缺乏一个自动概化过程,这使得这个过程中需要有很多用户干预。用户必须告诉系统哪些维或属性应当包含在类分析中。如果选择的属性太少,则造成挖掘的描述结果不正确;属性太多,浪费计算、淹没知识。通过属性相关分析,可以更容易地发现属性之间的相关性,滤掉统计上不相关或弱相关的属性,保留对手头数据挖掘任务最相关的属性。(6)简述进行概念描述时,面向数据库的方法和机器学习的主要区别。 答:面向数据库的方法指的是面向大型数据库的概念描述的概化方法,使用基于数据立方体的方法或面向属性的归纳的方法。机器学习使用示例学习的范例,在概念集或标定训练样本集上进行,通过检验这些集合在学习中导出关于描述类的假定。(7)什么是概念描述的增量挖掘? 答:增量挖掘根据数据库中新增的数据DB来修正挖掘的结果,而不是重新从修正过的数据库中进行挖掘而得到结果。第六章 大型数据库中的关联规则挖掘一、填空题(1)支持度和置信度(2)连接和剪枝(3)包含项集的事务数(4)找出所有频繁项集、由频繁项集产生强关联规则(5)布尔关联规则、量化关联规则(6)频繁项集的所有非空子集也必须是频繁的(7)量化属性的静态离散化、量化关联规则、基于距离的关联规则(8)反单调的、单调的、简洁的、可转变的、不可转变的(9)频繁谓词集二、单选题(1)A;(2)A;(3)B;(4);(5)C三、多选题(1)BD;(2)BC;(3)ABD四、简答题(1)对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点? 答:具有递减支持度的多层关联规则挖掘中使用的搜索策略包括: 逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝。考察每一个节点,不管其父节点是否频繁。特点是条件很松,可能导致在低层考察大量非频繁的项,找出一些不重要的关联; 层交叉k-项集过滤:一个第i层的k-项集被考察,当且仅当它在第(i-1)层的对应父节点的k-项集是频繁的。特点是限制太强,有些有价值的模式可能被该方法过滤掉; 层交叉单项过滤:一个第i层的项被考察,当且仅当它在第(i-1)层的父节点是频繁的。它是上述两个极端策略的折中。(2)给出一个例子,表明强关联规则中的项可能实际上是负相关的。 答:例如教材数据挖掘:概念与技术中例6.6和表6.4。(3)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。 答:对所有层都使用一致的最小支持度,优点在于:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索;缺点在于:最小支持度值设置困难,如果设置太高,将丢掉出现在较低抽象层中有意义的关联规则,如果设置太低,会在较高层产生太多的无兴趣的规则。(4)什么是简洁性约束? 答:一个约束被称为简洁的,如果我们可以列出并仅仅列出所有确保满足该约束的集合。利用简洁性约束,我们可以在计数前进行剪枝,从而避免产生测试方式的过大开销。第七章 分类和预测一、填空题(1)准确性、有效性和可伸缩性(2)先剪枝、后剪枝二、单选题(1)C;(2)B;(3)C三、简答题(1)简述判定树分类的主要步骤。 答:首先是生成判定树。分为2个步骤:(1) 归纳生成判定树。开始时,所有的训练样本都在根节点,然后递归的通过选定的离散值属性,来划分样本,直至满足停止条件。(2) 树剪枝。许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝接下来在判定树的使用中,对于某一未知样本,通过将样本的属性值与判定树相比较来判断其类别归属。(2)在判定树归纳中,为什么树剪枝是有用的? 答:当判定树创建时,由于数据中的噪声和孤立点,许多分枝反应的是训练数据中的异常。剪枝方法处理这种过分适应数据的问题。通常,这种方法使用统计度量,剪去最不可靠的分枝,这将导致较快的分类,提高树独立于测试数据正确分类的可靠性。(3)为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类的主要思想。 答:朴素贝叶斯分类被称为“朴素”的原因是计算元组的类条件出现概率时,做了类条件独立的朴素假定。贝叶斯分类的主要思想参考教材数据挖掘:概念与技术7.4.2小节。(4)请简述判定树归纳算法的基本策略。 答:1. 树以代表训练样本的单个节点开始2. 如果样本都在同一个类,则该节点成为树叶,并用该类标记3. 否则,算法使用基于熵的度量信息增益作为指导信息,选择能够最好的将样本分类的属性;该属性成为节点的“测试”或“判定”属性。(使用分类属性)4. 对测试属性每个已知的值,创建一个分支,并以此划分样本5. 算法使用同样的过程,递归的形成每个划分上的样本判定树。一旦一个属性出现在一个节点上,就不在该节点的任何子节点上出现6. 递归划分步骤停止的条件有:(1)给定节点的所有样本属于同一类(2)没有剩余属性可以用来进一步划分样本使用多数表决(3)没有剩余的样本(5)对分类和预测方法进行比较和评估的标准都有哪些?答:(1)导出分类法后,再使用训练数据评估分类法,这种方法可能错误的导致乐观的估计。 (2)保持方法:给定数据随机划分为两个集合:训练集(2/3)和测试集(1/3)。训练集导出分类法,测试集对其准确性进行评估。随机子选样是保持方法的一个变形,将保持方法重复k次,然后取准确率的平均值。 (3)k-折交叉确认:初始数据被划分为k个不相交的,大小大致相同的子集S1,S2Sk。进行k次训练和测试,第i次时,以Si做测试集,其他做训练集。准确率为k次迭代正确分类数除以初始数据集样本总数。(6)简述数据分类的两步过程。 答:第一步,建立一个模型,描述预定数据类集和概念集。训练数据集由为建立模型而被分析的数据元组形成,其中每个元组属于一个预定义的类,由一个类标号属性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 智能制造项目贷款合同续签与智能制造技术合作协议
- 离婚子女户口迁移服务合同及监护权变更协议
- 住宅小区物业员工消防安全管理与培训合同
- 含铝废渣综合利用项目建筑工程方案
- 国企读书日活动策划方案
- 2025年新能源汽车电池管理系统智能化与车辆智能导航报告
- 2025年新能源行业供应链绿色物流技术应用报告
- Unit 3 Get off the bed!说课稿-2025-2026学年小学英语Starter B新概念英语(青少版)
- DB65T 4397-2021 戈壁地酸枣直播造林技术规程
- 5. 机械能守恒定律教学设计-2025-2026学年高中物理教科版必修2-教科版2004
- 借物喻人的作文五年级完美版
- 数据采集效率提升-洞察阐释
- 蜜蜂认养协议书
- 人教版五年级上册数学第二单元测试卷(含答案)
- 2025-2030中国铝合金门窗行业发展分析及投资前景与战略规划研究报告
- 矿泉水定制合同协议
- 临床技术操作规范麻醉学分册
- CNAS-CC121-2017 环境管理体系审核及认证的能力要求
- 粉刷石膏合同协议
- 电力工程项目中八大员的具体职责
- 纪念九·一八:致敬那场永不妥协的抗争-主题班会课件
评论
0/150
提交评论