2024年商业经济行业技能考试-数据挖掘工程师笔试参考题库含答案_第1页
2024年商业经济行业技能考试-数据挖掘工程师笔试参考题库含答案_第2页
2024年商业经济行业技能考试-数据挖掘工程师笔试参考题库含答案_第3页
2024年商业经济行业技能考试-数据挖掘工程师笔试参考题库含答案_第4页
2024年商业经济行业技能考试-数据挖掘工程师笔试参考题库含答案_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

“人人文库”水印下载源文件后可一键去除,请放心下载!(图片大小可任意调节)2024年商业经济行业技能考试-数据挖掘工程师笔试参考题库含答案“人人文库”水印下载源文件后可一键去除,请放心下载!第1卷一.参考题库(共75题)1.关于混合模型聚类算法的优缺点,下面说法正确的是()。A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理B、混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布C、混合模型很难发现不同大小和椭球形状的簇D、混合模型在有噪声和离群点时不会存在问题2.数据仓库的()通常采用星型图法来进行设计,要求将星型的各类逻辑实体完整地描述出来。3.Web挖掘包括哪些步骤?4.聚类分析常作为一个独立的工具来获得()5.下面哪种不属于数据预处理的方法?()A、变量代换B、离散化C、聚集D、估计遗漏值6.模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。7.数据概化是指:()8.划分聚类方法对数据集进行聚类时包含什么要点?9.以下哪项关于决策树的说法是错误的?()A、冗余属性不会对决策树的准确率造成不利的影响B、子树可能在决策树中重复多次C、决策树算法对于噪声的干扰非常敏感D、寻找最佳决策树是NP完全问题10.下面属于维归约常用的线性代数技术的有()。A、主成分分析B、特征提取C、奇异值分解D、特征加权E、离散化11.噪声和伪像是数据错误这一相同表述的两种叫法。12.规则:age(X,”19-25”)∧buys(X,“popcorn”)=>buys(X,“coke”)是一个()。A、单维关联规则B、多维关联规则C、混合维关联规则D、不是一个关联规则13.简述维度归约和特征变换。14.关于OLAP的特性,下面正确的是() (1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性A、(1)(2)(3)B、(2)(3)(4)C、(1)(2)(3)(4)D、(1)(2)(3)(4)(5)15.通过数据挖掘过程所推倒出的关系和摘要经常被称为:()。A、模型B、模式C、模范D、模具16.遗传算法与传统寻优算法相比有什么特点?17.下面哪些属于可视化高维数据技术?()A、矩阵B、平行坐标系C、星形坐标D、散布图E、Chernoff脸18.分类的定义是什么?19.何谓OLTP和OLAP?它们的主要异同有哪些?20.以下哪个指标不是表示对象间的相似度和相异度?()A、Euclidean距离B、Manhattan距离C、Eula距离D、Minkowski距离21.Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。22.以下哪个聚类算法不是属于基于原型的聚类()。A、模糊c均值B、EM算法C、SOMD、CLIQUE23.为什么要建立数据仓库?24.分类器设计阶段包含三个过程:划分数据集、分类器构造和()25.当维表中的主键在事实表中没有与外键关联时,这样的维称为()。它于事实表并无关系,但有时在查询限制条件中需要用到。26.两个文档向量d1和d2的值为:d1=(1,0,3,0,2),d2=(3,2,0,0,1),则它们的余弦相似度为:()27.对于下图所示的正倾斜数据,中位数、平均值、众数三者之间的关系是()A、中位数=平均值=众数;B、中位数>平均值>众数;C、平均值>中位数>众数;D、众数>中位数>平均值28.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:()。A、有放回的简单随机抽样B、无放回的简单随机抽样C、分层抽样D、渐进抽样29.数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:()、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。30.数据变换的内容是什么?31.常用的数值属性概念分层的方法有哪些?32.以下哪些是数据仓库的主要应用?()A、信息处理B、互联网搜索C、分析处理D、数据挖掘33.聚类分析可以看作是一种非监督的分类。34.BIRCH是一种()。A、分类器B、聚类算法C、关联分析算法D、特征选择算法35.下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?()A、数据清理B、数据集成C、数据变换D、数据归约36.ROLAP是基于()的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。37.以下哪些分类方法可以较好地避免样本的不平衡问题,()。A、KNNB、SVMC、BayesD、神经网络38.根据关联分析中所涉及的数据维,可以将关联规则分类为()。A、布尔关联规则B、单维关联规则C、多维关联规则D、多层关联规则39.数据仓库的数据量通常较大,且数据一般很少更新,可以通过设计和优化()结构来提高数据存取性能。40.下面属于数据集的一般特性的有:()。A、连续性B、维度C、稀疏性D、分辨率E、相异性41.关于OLAP和OLTP的区别描述,不正确的是()A、OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同B、与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务C、OLAP的特点在于事务量大,但事务内容比较简单且重复率高D、OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的42.简述Apriori算法的思想,谈谈该算法的应用领域。43.簇有效性的面向相似性的度量包括()。A、精度B、Rand统计量C、Jaccard系数D、召回率44.下面选项中t不是s的子序列的是()。A、s=,t=B、s=,t=C、s=,t=D、s=,t=45.方体计算的主要挑战是()和()之间的矛盾。46.著名的数据仓库系统设计师W.H.Inmon认为,数据仓库与其他数据存储系统的区别的四个特征是:()、()、()和()47.数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于()。A、所涉及的算法的复杂性B、所涉及的数据量C、计算结果的表现形式D、是否使用了人工智能技术48.什么是技术元数据?主要包含的内容是什么?49.简述你对数据仓库未来发展趋势的看法。50.先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。51.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()A、分类B、聚类C、关联分析D、隐马尔可夫链52.以下哪种方法不属于特征选择的标准方法:()。A、嵌入B、过滤C、包装D、抽样53.简述数据挖掘的对象。54.基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。55.下面哪个不属于数据的属性类型:()。A、标称B、序数C、区间D、相异56.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?()A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘57.数据集分为三类:()。58.数据仓库的概念模型通常采用信息包图法来进行设计,要求将其5个组成部分()全面地描述出来。59.数据清理的目的是什么?60.什么是关于数据仓库映射的元数据?61.为什么要关注离群点?62.怎样从历史数据中训练出结点之间的条件概率或联合条件概率?63.何谓相异度矩阵?它有什么特点?64.简述缺失值的处理方法。65.依据类信息可利用的程度,离群点挖掘可分为哪三种基本方法?66.项集的频率是指()67.关于基本数据的元数据是指()A、基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息B、基本元数据包括与企业相关的管理方面的数据和信息C、基本元数据包括日志文件和简历执行处理的时序调度信息D、基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息68.聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。69.分类知识的发现方法主要有哪些?分类过程通常包括哪两个步骤?70.简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。71.简述数据预处理方法和内容。72.决策树是一种树形结构,包括()和()三个部分。73.Apriori算法的计算复杂度受()影响。A、支持度阀值B、项数(维度)C、事务数D、事务平均宽度74.通过聚集多个分类器的预测来提高分类准确率的技术称为()。A、组合(ensemble)B、聚集(aggregate)C、合并(combination)D、投票(voting)75.使用星型模式可以从一定程度上()查询效率。因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。第2卷一.参考题库(共75题)1.根据规则中所处理的值类型,关联规则可分为:()和()2.下面哪种分类方法是属于统计学的分类方法?()A、判定树归纳B、贝叶斯分类C、后向传播分类D、基于案例的推理3.什么是数据仓库的3层数据结构?4.支持度(support)是衡量兴趣度度量()的指标。A、实用性B、确定性C、简洁性D、新颖性5.维度可以根据其变化快慢分为元变化维度、()维度和剧烈变化维度三类。6.简述K-means算法的基本操作步骤(包括算法的输入和输出)。7.简述数据挖掘的任务。8.以下两种描述分别对应哪两种对分类算法的评价标准?() (1)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (2)描述有多少比例的小偷给警察抓了的标准。A、Precision,RecallB、Recall,PrecisionC、Precision,ROCD、Recall,ROC9.根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是()。A、关联分析B、分类和预测C、演变分析D、概念描述10.为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类优缺点。11.下面的数据挖掘的任务中,()将决定所使用的数据挖掘功能。A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示12.从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。13.假设描述学生的信息包含属性:性别,籍贯,年龄。有两条记录p、q及两个簇C1、C2的信息如下,分别求出记录和簇彼此之间的距离。(k-means算法的拓展) p={男,广州,18},q={女,深圳,20} C1={男:25,女:5;广州:20,深圳:6,韶关:4;19} C2={男:3,女:12;汕头:12,深圳:1,湛江:2;24}14.考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是()。A、2B、3C、3.5D、515.列举离群点挖掘的常见应用。16.分类问题中常用的评价准则有精确度、查全率和查准率和()17.如下哪些不是基于规则分类器的特点,()。A、规则集的表达能力远不如决策树好B、基于规则的分类器都对属性空间进行直线划分,并将类指派到每个划分C、无法被用来产生更易于解释的描述性模型D、非常适合处理类分布不平衡的数据集18.数据的噪声是指()。A、孤立点B、空缺值C、测量变量中的随即错误或偏差D、数据变换引起的错误19.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?()A、探索性数据分析B、建模描述C、预测建模D、寻找模式和规则20.定义下列数据挖掘功能: 关联、分类、聚类、演变分析、离群点检测 使用你熟悉的生活中的数据,给出每种数据挖掘功能的例子。21.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()。A、1,2,3,4B、1,2,3,5C、1,2,4,5D、1,3,4,522.可视化技术对于分析的数据类型通常不是专用性的。23.Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。24.比较数据挖掘与OLAP的差异?25.元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为()和业务元数据两类。26.关于OLAP和OLTP的说法,下列不正确的是()A、OLAP事务量大,但事务内容比较简单且重复率高B、OLAP的最终数据来源与OLTP不一样C、OLTP面对的是决策人员和高层管理人员D、OLTP以应用为核心,是应用驱动的27.数据仓库的多维数据模型可以有三种不同的形式,分别是:()、()和()28.下列关于分类和聚类哪个描述是正确的?()A、分类和聚类都是有指导的学习B、分类和聚类都是无指导的学习C、分类是有指导的学习,聚类是无指导的学习D、分类是无指导的学习,聚类是有指导的学习29.下列哪个不是专门用于可视化时间空间数据的技术:()。A、等高线图B、饼图C、曲面图D、矢量场图30.商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是一个学习型系统,能自动适应商务不断变化的要求。31.在数据访问模式上,数据仓库以()为主,而日常应用数据库则以()为主。32.非频繁模式()。A、其支持度小于阈值B、都是不让人感兴趣的C、包含负模式和负相关模式D、对异常数据项敏感33.雪花型模式是对()维表的进一步层次化和规范化来消除冗余的数据。34.确定了数据仓库的粒度模型以后,为提高数据仓库的使用性能,还需要根据拥护需求设计()35.按照事实表中度量的可加性情况,可以把事实表对应的事实分为4种类型:()、快照事实、线性项目事实和事件事实。36.OLAP技术的核心是()A、在线性B、对用户的快速响应C、互操作性D、多维分析37.只有非零值才重要的二元属性被称作:()。A、计数属性B、离散属性C、非对称的二元属性D、对称属性38.一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:()。A、一年级B、二年级C、三年级D、四年级39.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:()。A、18.3B、22.6C、26.8D、27.940.数据仓库常见的存储优化方法是什么?41.数据聚合的目的是什么?42.数据仓库就是一个面向主题的、集成的、()、反映历史变化的数据集合。43.“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个()的速度交换数据和业务规则。44.基于网格的聚类方法的优点是:()45.数据分类模型的常用表示形式包括()、()等。46.数据归约的目的是()。A、填补数据种的空缺值B、集成多个数据源的数据C、得到数据集的压缩表示D、规范化数据47.数据挖掘的性能问题主要包括:()、()和()48.简述基于划分的聚类方法。划分的准则是什么?49.下列几种数据挖掘功能中,()被广泛的应用于股票价格走势分析。A、关联分析B、分类和预测C、聚类分析D、演变分析50.OLAP服务器的类型主要包括:()、()和()51.如果规则集中的规则按照优先级降序排列,则称规则集是()。A、无序规则B、穷举规则C、互斥规则D、有序规则52.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。53.何谓数据挖掘?它有哪些方面的功能?54.假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:()。A、0.821B、1.224C、1.458D、0.71655.()都属于簇有效性的监督度量。A、轮廓系数B、共性分类相关系数C、熵D、F度量56.如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为()。A、无序规则B、穷举规则C、互斥规则D、有序规则57.在多维关联规则挖掘中,我们搜索的不是频繁项集,而是()58.简述数据仓库系统设计过程?59.()将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。A、MIN(单链)B、MAX(全链)C、组平均D、Ward方法60.简述k-means算法,层次聚类算法的优缺点。61.常见的聚类算法可以分为几类?62.层次聚类方法包括哪些?63.下表所示的相依表汇总了超级市场的事务数据。其中hotdogs指包含热狗的事务,指不包含热狗的事务。hamburgers指包含汉堡的事务,指不包含汉堡的事务。 假设挖掘出的关联规则是“hotdogs=>hamburgers”。给定最小支持度阈值25%和最小置信度阈值50%,这个关联规则是强规则吗? 计算关联规则“hotdogs=>hamburgers”的提升度,能够说明什么问题?购买热狗和购买汉堡是独立的吗?如果不是,两者间存在哪种相关关系?64.在项目实施时,根据事实表的特点和拥护的查询需求,可以选用()、业务类型、区域和下属组织等多种数据分割类型。65.一个典型的数据挖掘系统应该包括哪些组成部分?66.()是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。A、边界点B、质心C、离群点D、核心点67.简述离群点挖掘问题的构成。68.数据从集结区加载到数据仓库中的主要方法是什么?69.为什么说相对于日常的应用数据库,数据仓库中的数据更加不容易丢失?70.如果规则不满足置信度阈值,则形如的规则一定也不满足置信度阈值,其中是X的子集。71.维度表一般又主键、分类层次和描述属性组成。对于主键可以选择两种方式:一种是采用自然键,另一种是采用()72.业务元数据主要包含的内容是什么?73.平均值函数avg()属于哪种类型的度量?()A、分布的B、代数的C、整体的D、混合的74.简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作()。A、层次聚类B、划分聚类C、非互斥聚类D、模糊聚类75.数据挖掘的预测建模任务主要包括哪几大类问题?()A、分类B、回归C、模式发现D、模式匹配第1卷参考答案一.参考题库1.参考答案:B2.参考答案:逻辑模型3.参考答案:数据清理(可能有占全过程的60%的工作量);将数据存入数据仓库;建立数据立方体;选择用来进行数据挖掘的数据;数据挖掘(选择适当的算法来找到感兴趣的模式);展现挖掘结果;将模式或者知识应用或者存入知识库。4.参考答案:数据分布的情况5.参考答案:D6.参考答案:错误7.参考答案:沿概念分层向上概化8.参考答案:选种某种距离作为数据样本减的相似性度量、选择评价聚类性能的准则函数和选择某个初始分类,之后用迭代的方法得到聚类结果,使得评价聚类的准则函数取得最优值。9.参考答案:C10.参考答案:A,C11.参考答案:错误12.参考答案:B13.参考答案:维度归约和特征变换:维度归约可以删除不相关的特征并降低噪声,降低维度灾难风险,降低数据挖掘的时间复杂度和空间复杂度,特征变幻可以反应出数据的不同视角的不同特征。14.参考答案:D15.参考答案:A,B16.参考答案: ①遗传算法为群体搜索,有利于寻找到全局最优解; ②遗传算法采用高效有方向的随机搜索,搜索效率高; ③遗传算法处理的对象是个体而不是参变量,具有广泛的应用领域; ④遗传算法使用适应值信息评估个体,不需要导数或其他辅助信息,运算速度快,适应性好; ⑤遗传算法具有隐含并行性,具有更高的运行效率。17.参考答案:A,B,C,E18.参考答案:分类是数据挖掘中的主要手段,其任务是对数据集进行学习并构造一个拥有预测功能的分类模型,用于预测未知样本的类标号,把类标号未知的样本映射到某个预先给定的类标号中。19.参考答案: OLTP即联机事务处理,是以传统数据库为基础、面向操作人员和低层管理人员、对基本数据进行查询和增、删、改等的日常事务处理。 OLAP即联机分析处理,是在OLTP基础上发展起来的、以数据仓库基础上的、面向高层管理人员和专业分析人员、为企业决策支持服务。 OLTP和OLAP的主要区别如下表: 20.参考答案:C21.参考答案:错误22.参考答案:D23.参考答案: 建立数据仓库的目的有3个: 一是为了解决企业决策分析中的系统响应问题,数据仓库能提供比传统事务数据库更快的大规模决策分析的响应速度。 二是解决决策分析对数据的特殊需求问题。决策分析需要全面的、正确的集成数据,这是传统事务数据库不能直接提供的。 三是解决决策分析对数据的特殊操作要求。决策分析是面向专业用户而非一般业务员,需要使用专业的分析工具,对分析结果还要以商业智能的方式进行表现,这是事务数据库不能提供的。24.参考答案:分类器测试25.参考答案:退化维26.参考答案:5/1327.参考答案:C28.参考答案:D29.参考答案:两层架构30.参考答案:数据泛化(把学科分为理学和工学,忽略细节),规范化,特征构造(集中数据特征构造新的特征,减少特征维数),数据离散化(出现了熵计算)。31.参考答案:分箱、直方图分析,聚类分析,基于熵的离散化和通过自然划分分段。32.参考答案:A,C,D33.参考答案:正确34.参考答案:B35.参考答案:A36.参考答案:关系数据库37.参考答案:A38.参考答案:B,C39.参考答案:索引40.参考答案:B,C,D41.参考答案:C42.参考答案: 思想:其发现关联规则分两步,第一是通过迭代,检索出数据源中所有烦琐项集,即支持度不低于用户设定的阀值的项即集,第二是利用第一步中检索出的烦琐项集构造出满足用户最小信任度的规则,其中,第一步即挖掘出所有频繁项集是该算法的核心,也占整个算法工作量的大部分。 在商务、金融、保险等领域皆有应用。43.参考答案:B,C44.参考答案:C45.参考答案:海量数据;有限的内存和时间46.参考答案:面向主题;数据集成;随时间而变化;数据不易丢失47.参考答案:B48.参考答案:49.参考答案:在数据抽取方面,未来的技术发展将集中在系统集成化方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理,使系统更便于管理和维护。在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,作为数据仓库服务器产品与数据库服务器并驾齐驱。在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,并与Internet/Web技术紧密结合。50.参考答案:错误51.参考答案:B52.参考答案:D53.参考答案:关系数据库(借助集合代数等概念和方法来处理数据库中的数据)、数据仓库(数据集合,用于支持管理决策)、事务数据库(每个记录代表一个事务)、空间数据库、事态数据库和时间序列数据库、流数据、多媒体数据库、文本数据库、万维数据库。54.参考答案:正确55.参考答案:D56.参考答案:C57.参考答案:记录数据,基于图形的数据和有序的数据集58.参考答案:包括名称、维度、类别、层次和度量59.参考答案:试图填充缺失数据,去除噪声并识别离群点,纠正数据中的不一致值。60.参考答案: 数据仓库的元数据除对数据仓库中数据的描述(数据仓库字典)外,还有以下三类元数据: (1)关于数据源的元数据 (2)关于抽取和转换的元数据 (3)关于最终用户的元数据61.参考答案:在一些应用领域中,识别离群点是许多工作的基础和前提。一般地,离群点可能对应于稀有事件或异常行为,所以,离群点的挖掘会给我们带来新的视角和发现,离群点往往具有特殊的意义和很高的实用价值,需要对其进行认真审视和研究,因为它们表示一种偏差或新的模式的开始,这可能会对用户带来危害,或造成巨大损失。62.参考答案:要训练条件概率P(B|A),可以在历史数据中统计A发生的次数T(A),然后统计在A发生的数据中B发生的次数T(A,B),条件概率P(B|A)=T(B)/T(A)。要训练联合条件概率P(C|A,B),可以在历史数据中统计A、B共同发生的次数T(A,B),然后在A、B共同发生的数据中统计C发生的次数T(A,B,C),联合条件概率P(C|A,B)=T(A,B,C)/T(A,B)。以上的符号A、B、C可以表示某个事件,也可以表示该事件的相反事件。63.参考答案: 相异度矩阵是用于存储所有对象两两之间相异度的矩阵,为一个nn维的单模矩阵。 其特点是d(i,j)=d(j,i),d(i,i)=0,d(j,j)=0。如下所示: 64.参考答案:(分析时)忽略元组,(分析时)忽略属性列,(估计缺失值)人工填写缺失数据,(估计缺失值)自动填充缺失数据。65.参考答案:(1)无监督的离群点检测法; (2)有监督的离群点检测法; (3)半监督的离群点。 主要处理的问题:全局观点和局部观点,点的离群程度,离群点的数量及时效性。66.参考答案:包含项集的事务数67.参考答案:D68.参考答案:错误69.参考答案: 分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。 分类的过程包括2步:首先在已知训练数据集上,根据属性特征,为每一种类别找到一个合理的描述或模型,即分类规则;然后根据规则对新数据进行分类。70.参考答案:优点:搜索是容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索。缺点:最小支持度设置困难,太高则将丢掉出现在较低抽象层中有意义的关联规则;太低则会在较高层产生太多的无兴趣的规则。71.参考答案:①数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。②数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中。需要注意不同数据源的数据匹配问题、数值冲突问题和冗余问题等。③数据变换:将原始数据转换成为适合数据挖掘的形式。包括对数据的汇总、聚集、概化、规范化,还可能需要进行属性的重构。④数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。72.参考答案:决策节点,分支节点;页节点73.参考答案:A,B,C,D74.参考答案:A75.参考答案:提高第2卷参考答案一.参考题库1.参考答案:布尔关联规则;量化关联规则2.参考答案:B3.参考答案:数据是从企业内外部的各业务处理系统(操作型数据)流向企业级数据仓库(EDW)或操作型数据存储区(ODS),在这个过程中,要根据企业(或其他组织)的数据模型和元数据库对数据进行调和处理,形成一个中间数据层,然后再根据分析需求,从调和数据层(EDW、ODS)将数据引入导出数据层,如形成满足各类分析需求的数据集市。4.参考答案:A5.参考答案:缓慢变化6.参考答案:7.参考答案:分类分析(按照某种规则),聚类分析(具有共性),回归分析,关联分析(具有关联规则),离群点检测(发现与众不同的数据),演化分析(随时间变化的数据对象的趋势),序列模式挖掘(分析前后序列模式)。8.参考答案:A9.参考答案:B10.参考答案:基于贝叶斯定理的推断需要大量训练数据以覆盖类条件概率空间,引入了很大开销。朴素贝叶斯分类做了类条件独立假设,大幅降低了计算开销。他的优点是容易实现并在大多数情况下可以取得较好的结果;他的缺陷是类条件独立在实际应用缺乏准确性,因为变量之间经常存在依赖关系,这种依赖关系影响了朴素贝叶斯分类器的准确性。11.参考答案:B12.参考答案:错误13.参考答案:取x=1,得到的各距离如下: d(p,q)=1+1+20-18=4 d(p,C1)=(1-25/30)+(1-20/30)+(19-18)=1.5 d(p,C2)=(1-3/15)+(1-0/15)+(24-18)=7.8 d(q,C1)=(1-5/30)+(1-6/30)+(20-19)=79/30 d(q,C2)=(1-12/15)+(1-1/15)+(24-20)=77/15 d(C1,C2)=[1-(25*3+5*12)/(30*15)]+[1-(6*1)/(30*15)]+(24-19)=1003/15014.参考答案:C15.参考答案: 1,欺诈检测; 2,网络入侵; 3,故障诊断; 4,可疑金融交易监控16.参考答案:集合均值17.参考答案:A,C18.参考答案:C19.参考答案:A20.参考答案:关联是指发现样本间或样本不同属性间的关联。例如,一个数据挖掘系统可能发现的关联规则为:。其中,X是一个表示学生的变量。该规则指出主修计算机科学并且拥有一台个人计算机的学生所占比例为12%,同时,主修计算机专业的学生有98%拥有个人计算机。 分类是构造一系列能描述和区分数据类型或概念的模型(或功能),分类被用作预测目标数据的类的标签。例如,通过对过去银行客户流失与未流失客户数据的分析,得到一个预测模型,预测新客户是否可能会流失。 聚类是将数据划分为相似对象组的过程,使得同一组中对象相似度最大而不同组中对象相似度最小。例如,通过对某大型超市客户购物数据进行聚类,将客户聚类细分为低值客户、高值客户以及普通客户等。 数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析。 离群点检测就是发现与众不同的数据。可用于发现金融领域的欺诈检测。21.参考答案:C22.参考答案:错误23.参考答案:错误24.参考答案: OLAP的典型应用,通过商业活动变化的查询发现的问题,经过追踪查询找出问题出现的原因,达到辅助决策的作用。 数据挖掘任务在于聚类(如神经网络聚类)、分类(如决策树分类)、预测等。25.参考答案:技术元数据26.参考答案:A27.参考答案:星形模式;雪花模式;事实星座模式28.参考答案:C29.参考答案:B30.参考答案:正确31.参考答案:事务操作;只读查询32.参考答案:A,D33.参考答案:星型模式34.参考答案:聚合模型35.参考答案:事务事实36.参考答案:D37.参考答案:C38.参考答案:A39.参考答案:A40.参考答案:表的归并与簇文件;反向规范化,引入冗余;表的物理分割。41.参考答案:将两个或多个数据源中的数据,存放在一个一致的数据存储设备中。42.参考答案:相对稳定的43.参考答案:接近实时44.参考答案:处理速度快45.参考答案:分类规则;决策树和数学公式46.参考答案:C47.参考答案:算法的效率;可扩展性;并行处理48.参考答案:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论