2024年商业经济行业技能考试-数据挖掘工程师笔试历年真题荟萃含答案_第1页
2024年商业经济行业技能考试-数据挖掘工程师笔试历年真题荟萃含答案_第2页
2024年商业经济行业技能考试-数据挖掘工程师笔试历年真题荟萃含答案_第3页
2024年商业经济行业技能考试-数据挖掘工程师笔试历年真题荟萃含答案_第4页
2024年商业经济行业技能考试-数据挖掘工程师笔试历年真题荟萃含答案_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2024年商业经济行业技能考试-数据挖掘工程师笔试历年真题荟萃含答案(图片大小可自由调整)第1卷一.参考题库(共30题)1.决策树是一种树形结构,包括()和()三个部分。2.数据清理的目的是处理数据中的()。A、空缺值B、噪声数据C、不一致数据D、敏感数据3.数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于()填充数据仓库,增量抽取用于进行数据仓库的维护。4.关联知识5.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。6.以下哪项关于决策树的说法是错误的?()A、冗余属性不会对决策树的准确率造成不利的影响B、子树可能在决策树中重复多次C、决策树算法对于噪声的干扰非常敏感D、寻找最佳决策树是NP完全问题7.什么是数据仓库的数据ETL过程?8.进行数据规范化的目的是()。A、去掉数据中的噪声B、对数据进行汇总和聚集C、使用概念分层,用高层次概念替换低层次“原始”数据D、将属性按比例缩放,使之落入一个小的特定区间9.数据挖掘对聚类的数据要求是什么?10.关于基本数据的元数据是指()A、基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息B、基本元数据包括与企业相关的管理方面的数据和信息C、基本元数据包括日志文件和简历执行处理的时序调度信息D、基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息11.为什么要进行维归约?12.有关数据仓库的开发特点,不正确的描述是:()。A、数据仓库开发要从数据出发B、数据仓库使用的需求在开发出去就要明确C、数据仓库的开发是一个不断循环的过程,是启发式的开发D、在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式13.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。14.数据压缩可分为:()和()两种类型。15.为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类优缺点。16.以下哪种方法不属于特征选择的标准方法:()。A、嵌入B、过滤C、包装D、抽样17.简述数据仓库ETL软件的主要功能和对产生数据的目标要求。18.()这些数据特性都是对聚类分析具有很强影响的。A、高维性B、规模C、稀疏性D、噪声和离群点19.具有较高的支持度的项集具有较高的置信度。20.简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。21.广义知识22.数据仓库的概念模型通常采用信息包图法来进行设计,要求将其5个组成部分()全面地描述出来。23.数据仓库后端工具和程序包括哪些?24.数据仓库就是一个面向主题的、集成的、()、反映历史变化的数据集合。25.简述决策树的构建。26.简述数据的定义及类型。27.以下哪个范围是数据仓库的数据库规模的一个合理范围?()A、1-100MB、100M-10GC、10-1000GD、100GB-数TB28.什么是叶节点?29.已知数据元组中age的值如下(按递增序): 13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。 (a)使用min-max规范化,将age值35转换到[0.0,1.0]区间。 (b)使用z-score规范化转换age值35,其中,age的标准偏差为12.94年。 (c)使用小数定标规范化转换age值35。30.简述数据挖掘的过程。第1卷参考答案一.参考题库1.参考答案:决策节点,分支节点;页节点2.参考答案:A,B,C3.参考答案:最初4.参考答案:是反映一个事件和其他事件之间依赖或相互关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。5.参考答案:错误6.参考答案:C7.参考答案: 数据的ETL过程就是负责将操作型数据转换成调和数据的过程。数据调和是构建一个数据仓库中最难的和最具技术挑战性的部分。在为企业级数据仓库填充数据的过程中,数据调和可分为两个阶段:一是企业级数据仓库(EDW)首次创建时的原始加载;二是接下来的定期修改,以保持EDW的当前有效性和扩展性。 整个过程由四个步骤组成:抽取、清洗、转换、加载和索引。事实上,这些步骤可以进行不同的组合,如,可以将数据抽取与清洗组合为一个过程,或者将清洗和转换组合在一起。8.参考答案:D9.参考答案: (1)可伸缩性 (2)处理不同类型属性的能力 (3)发现任意形状的聚类 (4)使输入参数的领域知识最小化 (5)处理噪声数据的能力 (6)对于输入顺序不敏感 (7)高维性 (8)基于约束的聚类 (9)看解释性和可利用性10.参考答案:D11.参考答案:维归约可以去掉不重要的属性,减少数据立方体的维数,从而减少数据挖掘处理的数据量,提高挖掘效率。12.参考答案:A13.参考答案:正确14.参考答案:有损压缩;无损压缩15.参考答案:基于贝叶斯定理的推断需要大量训练数据以覆盖类条件概率空间,引入了很大开销。朴素贝叶斯分类做了类条件独立假设,大幅降低了计算开销。他的优点是容易实现并在大多数情况下可以取得较好的结果;他的缺陷是类条件独立在实际应用缺乏准确性,因为变量之间经常存在依赖关系,这种依赖关系影响了朴素贝叶斯分类器的准确性。16.参考答案:D17.参考答案:ETL软件的主要功能: 数据的抽取,数据的转换,数据的加载; 对产生数据的目标要求: 详细的、历史的、规范化的、可理解的、即时的、质量可控制的。18.参考答案:A,B,C,D19.参考答案:错误20.参考答案:优点:搜索是容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索。缺点:最小支持度设置困难,太高则将丢掉出现在较低抽象层中有意义的关联规则;太低则会在较高层产生太多的无兴趣的规则。21.参考答案:通过对大量数据的归纳、概括和抽象,提炼出带有普遍性的、概括性的描述统计的知识。22.参考答案:包括名称、维度、类别、层次和度量23.参考答案: 1,数据提取:从多个外部的异构数据源收集数据; 2,数据清理:检测数据中的粗偶并作可能的订正; 3,数据变换:将数据由历史或主机的格式转化为数据仓库的格式; 4,装载:排序、汇总、合并、计算视图、检查完整性,并建立索引和分区; 5,刷新:将数据源的更新传播到数据仓库中。24.参考答案:相对稳定的25.参考答案:1)属性的选择(很重要,一般要最大限度地增大样本集纯度) 2)获得大小适合的决策树 3)使用ID3等经典算法构建决策树26.参考答案:数据及数据类型:数据是数据库存储的基本对象,数据类型:标称属性,序数属性,区间属性,比率属性。27.参考答案:D28.参考答案:每个叶节点对应一个类标号,表示一种可能的分类结果。29.参考答案:(a)已知最大值为70,最小值为13,则可将35规范化为: (b)已知均值为30,标准差为12.94,则可将35规范化为: (c)使用小数定标规范化可将35规范化为:35/100=0.3530.参考答案:数据清洗,数据集成(考虑数据一致性和冗余),数据选择,数据转换,数据挖掘,模式评估,知识表示。第2卷一.参考题库(共30题)1.通过聚集多个分类器的预测来提高分类准确率的技术称为()。A、组合(ensemble)B、聚集(aggregate)C、合并(combination)D、投票(voting)2.简述数据清理的基本内容。3.考虑下表所示二元分类问题的数据集。 (1)计算按照属性A和B划分时的信息增益。决策树归纳算法将会选择哪个属性? (2)计算按照属性A和B划分时Gini系数。决策树归纳算法将会选择哪个属性?4.下表所示的相依表汇总了超级市场的事务数据。其中hotdogs指包含热狗的事务,指不包含热狗的事务。hamburgers指包含汉堡的事务,指不包含汉堡的事务。 假设挖掘出的关联规则是“hotdogs=>hamburgers”。给定最小支持度阈值25%和最小置信度阈值50%,这个关联规则是强规则吗? 计算关联规则“hotdogs=>hamburgers”的提升度,能够说明什么问题?购买热狗和购买汉堡是独立的吗?如果不是,两者间存在哪种相关关系?5.连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和()6.下面关于Jarvis-Patrick(JP)聚类算法的说法不正确的是()。A、JP聚类擅长处理噪声和离群点,并且能够处理不同大小、形状和密度的簇B、JP算法对高维数据效果良好,尤其擅长发现强相关对象的紧致簇C、JP聚类是基于SNN相似度的概念D、JP聚类的基本时间复杂度为O(m)7.聚类分析中常见的数据类型有哪些?8.比较数据挖掘与OLAP的差异?9.什么是数据仓库的3层数据结构?10.关于混合模型聚类算法的优缺点,下面说法正确的是()。A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理B、混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布C、混合模型很难发现不同大小和椭球形状的簇D、混合模型在有噪声和离群点时不会存在问题11.下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?()A、数据清理B、数据集成C、数据变换D、数据归约12.常用的数值属性概念分层的方法有哪些?13.简述K-平均算法的输入、输出及聚类过程(流程)。14.关联规则15.下列几种数据挖掘功能中,()被广泛的用于购物篮分析。A、关联分析B、分类和预测C、聚类分析D、演变分析16.ROLAP17.数据库中的知识挖掘(KDD)包括以下七个步骤:()、()、()、()、()、()和()18.存放最低层汇总的方体称为()。A、顶点方体B、方体的格C、基本方体D、维19.何谓相异度矩阵?它有什么特点?20.当维表中的主键在事实表中没有与外键关联时,这样的维称为()。它于事实表并无关系,但有时在查询限制条件中需要用到。21.模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。22.数据集分为三类:()。23.何谓数据仓库?为什么要建立数据仓库?24.Aprior算法包括()和()两个基本步骤25.孤立点挖掘适用于下列哪种场合?()A、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测26.典型聚类方法有哪些?27.下面属于定量的属性类型是:()。A、标称B、序数C、区间D、相异28.以下是一个商场所销售商品的价格清单(按递增顺序排列,括号中的数表示前面数字出现次数) 1(2)、5(5)、8(2)、10(4)、12、14(3)、15(5)、18(8)、20(7)、21(4)、25(5)、28、30(3)。 请分别用等宽的方法和等高的方法对上面的数据集进行划分。29.分别说明利用支持度、置信度和提升度评价关联规则的优缺点。30.规则:age(X,”19-25”)∧buys(X,“popcorn”)=>buys(X,“coke”)是一个()。A、单维关联规则B、多维关联规则C、混合维关联规则D、不是一个关联规则第2卷参考答案一.参考题库1.参考答案:A2.参考答案:①尽可能赋予属性名和属性值明确的含义;②统一多数据源的属性值编码;③去除无用的惟一属性或键值(如自动增长的id);④去除重复属性(在某些分析中,年龄和出生日期可能就是重复的属性,但在某些时候它们可能又是同时需要的);⑤去除可忽略字段(大部分为空值的属性一般是没有什么价值的,如果不去除可能造成错误的数据挖掘结果);⑥合理选择关联字段(对于多个关联性较强的属性,重复无益,只需选择其中的部分用于数据挖掘即可,如价格、数据、金额);⑦去掉数据中的噪音、填充空值、丢失值和处理不一致数据。3.参考答案:按照属性A和B划分时,数据集可分为如下两种情况: 按照属性A划分样本集分别得到的两个子集(A取值T和A取值F)的信息熵分别为: 按照属性B划分样本集分别得到的两个子集(B取值T和B取值F)的信息熵分别为: 因此,决策树归纳算法将会选择属性A。 (2) 划分前的Gini值为G=1-0.42-0.62=0.48 按照属性A划分时Gini指标: 因此,决策树归纳算法将会选择属性B。4.参考答案: 故这个关联规则是强规则。 S({hamburgers})=2500/5000=50% 提升度=1.334 提升度大于1,表明hot dogs和hamburgers不是互相独立的,二者之间存在正相关关系。5.参考答案:明考斯基距离6.参考答案:D7.参考答案:常见数据类型有区间标度变量、比例标度型变量、二元变量、标称型、序数型以及混合类型等。8.参考答案: OLAP的典型应用,通过商业活动变化的查询发现的问题,经过追踪查询找出问题出现的原因,达到辅助决策的作用。 数据挖掘任务在于聚类(如神经网络聚类)、分类(如决策树分类)、预测等。9.参考答案:数据是从企业内外部的各业务处理系统(操作型数据)流向企业级数据仓库(EDW)或操作型数据存储区(ODS),在这个过程中,要根据企业(或其他组织)的数据模型和元数据库对数据进行调和处理,形成一个中间数据层,然后再根据分析需求,从调和数据层(EDW、ODS)将数据引入导出数据层,如形成满足各类分析需求的数据集市。10.参考答案:B11.参考答案:A12.参考答案:分箱、直方图分析,聚类分析,基于熵的离散化和通过自然划分分段。13.参考答案:14.参考答案:同时满足最小支持度阈值和最小可信度阈值的规则称之为关联规则。15.参考答案:A16.参考答案:是基于关系数据库存储方式的,在这种结构中,多维数据被映像成二维关系表,通常采用星型或雪花型架构,由一个事实表和多个维度表构成。17.参考答案:数据清理;数据集成;数据选择;数据变换;数据挖掘;模式评估;知识表示18.参考答案:C19.参考答案: 相异度矩阵是用于存储所有对象两两之间相异度的矩阵,为一个nn维的单模矩阵。 其特点是d(i,j)=d(j,i),d(i,i)=0,d(j,j)=0。如下所示: 20.参考答案:退化维21.参考答案:错误22.参考答案:记录数据,基于图形的数据和有序的数据集23.参考答案:数据仓库是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成信息。 建立数据仓库的目的有3个: 一是为了解决企业决策分析中的系统响应问题,数据仓库能提供比传统事务数据库更快的大规模决策分析的响应速度。 二是解决决策分析对数据的特殊需求问题。决策分析需要全面的、正确的集成数据,这是传统事务数据库不能直接提供的。 三是解

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论