版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1题20.建立数据仓库的主要目的是()。A规范管理数据B日常事务处理C更新数据方便D联机分析与决策支持第2题19.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?_______A探索性数据分析B建模描述C预测建模D寻找模式和规则第3题18下列哪项活动是数据挖掘活动_______。A根据历史中奖号码预测福利彩票下期中奖号码B计算公司的年销售额和盈利;C监测病人的异常心率变化情况;D预测掷色子的点数;第4题17.建立数据仓库的主要目的是A规范管理数据B日常事务处理C更新数据方便D联机分析与决策支持第5题15.航空公司高价值客户的分析是数据挖掘任务。第6题14.新冠肺炎病毒传播的未来感染人数预测是数据挖掘任务。第7题13.春天树林里植物的分类信息是数据挖掘任务。第8题12.计算公司的总销售额是数据挖掘任务。第9题11.提取声波的频率进行分析是数据挖掘任务。第10题10.监视地震活动的地震波预测地震是数据挖掘任务。第11题9.监视病人心率的异常变化是数据挖掘任务。第12题8.根据可赢利性划分公司的顾客是数据挖掘任务。第13题7.使用历史记录预测某公司未来的股票价格是数据挖掘任务。第14题6.预测掷一对骰子的结果是数据挖掘任务。第15题5.按学生的标识号对学生数据库排序是数据挖掘任务。第16题4.根据性别划分公司的顾客是数据挖掘任务。第17题3.文本数据不属于何种类型的数据?A结构化B半结构化C非结构化D不清楚第18题2.你认为下面哪种数据对于数据挖掘算法来说最简单最友好?A来源于关系型数据库的数据B来源于数据仓库的数据C来源于视频和音频的数据D来源于图形图像的数据第19题1.目前数据分析与挖掘领域的现实情况描述不正确的是()A信息爆炸B数据爆炸C信息贫瘠D数据收集能力远远超过人们的分析和理解能力第20题如果以上学期我校概率论与数理统计的考试成绩为分析对象,想要实现教学效果好的老师名单,是不是数据挖掘任务?第1题6.经典的数据挖掘算法与机器学习算法存在很多内容交叉部分。第2题5.头条APP通过用户浏览网页的记录,给用户推荐其感兴趣的新闻,属于()类型的挖掘任务。A分类与预测B关联挖掘C聚类分析D回归分析第3题4.若已有某网店所有客户的购买数据记录,想要通过增加销售量进行商品的捆绑销售,则适合使用()类型的分析方法。A分类与预测B关联挖掘C回归分析D聚类第4题3.若已有往届学生学习的在线记录、课堂表现、平时作业情况以及最后考试成绩的等级数据,则根据一个当前学生的学情,分析该学生最后考试能取得什么类型的成绩,属于()类型的挖掘任务。A分类与预测B聚类C关联挖掘D回归分析第5题2.如果把全体同学某门课程考试成绩进行分析,想要把所有同学的成绩分成3个类别,这属于()类型的挖掘任务。A分类与预测B聚类C关联分析D回归分析第6题1.如果想把某次高等数学考试成绩进行三个类别的划分,这是一个()类型的挖掘任务。A分类与预测B关联挖掘C聚类D回归分析1.3-1.4开放数据获取来源-数据挖掘常见误区
习题第1题5.预测彩票中奖号码,是数据挖掘任务.第2题4.一般而言,从网络上获取的开放数据是否需要声明版权归属?A需要B不需要第3题3.数据挖掘得到的数据结论比数据分析得到的结论要更加隐藏。第4题2.统计的幸存者偏见是指
采集的数据刚好和要分析的目标背道而驰。第5题1.一般,针对一个分类型的数据挖掘任务只有一种解决方法。1.5数据挖掘中的隐私保护
习题第1题1.现在有一个大创项目选题,拟利用学生的食堂消费记录圈定需要进行资助的学生名单,你觉得这样的选题会不会侵犯个人隐私?A会侵犯隐私B不会侵犯隐私第2题如果以上学期我校概率论与数理统计的考试成绩为分析对象,想要实现教学效果好的老师名单,是不是数据挖掘任务?第3题5.以上学期我校概率论与数理统计的考试成绩为分析对象,想要实现教学效果好的老师名单,如果直接拿教务系统的成绩表进行直接分析会侵犯哪些群体的个人隐私?A教师个人隐私B学生个人隐私C两者都有D不侵犯个人隐私第4题2.手机通信服务商打包出售我校大学生的手机CDMA通信数据,是否侵犯个人隐私?A侵犯个人隐私B不侵犯个人隐私2.1数据对象和数据属性--习题第1题下面不属于数据集的一般特性的有:_______A连续性B维度C稀疏性D分辨率第2题下面属于数据集的一般特性的有A连续性B维度C稀疏性D分辨率E相异性正确答案:BCD第3题对于数据挖掘中的原始数据,存在的问题有A不一致B重复C不完整D含噪声E维度高正确答案:ABCD第4题关于基本数据的元数据是指A基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B基本元数据包括与企业相关的管理方面的数据和信息;C基本元数据包括日志文件和简历执行处理的时序调度信息D基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息第5题如果刻画学生的学院所属,学院类别共有10个,那么学生所在学院这个属性转换为ont-hot编码需要占据()位长度A9B10C19D1024第6题按照A,B,C,D四个等级打分的考试成绩属于()A连续性数值型B离散性数值型C序数型D标称型第7题属于定量的属性类型是()A标称B序数C区间D相异第8题只有非零值才重要的二元属性被称为()A计数属性B离散属性C非对称的二元属性D对称属性第9题下面哪个不属于数据的属性类型A标称B序数C区间D相异第10题将学生的性别设计为Male和Female,那么此时性别属性是()?A名义型变量B有序型变量C区间标称型变量D比率型变量2.2数据的统计描述--习题第1题你认为:最大或最小的截尾平均方法、均值方法、alpha截尾均值法(alpha取值在10%-30%),哪一种更具备对离群异常点的干扰能力。()A最大或最小的截尾平均方法B均值方法Calpha截尾均值法D不确定,需要具体情况具体分析第2题设样本数据为X=[[0,0,2],[1,0,3],[2,1,0],[0,0,1]],如果使用one-hot对其进行编码,则X的第一个特征属性对应的onehot编码长度是()A2B3C4D5第3题考虑值集{1,2,3,4,5,90},其40%截尾均值是_______A2B3C3.5D5第4题关于正态分布,下列说法错误的是:A正态分布具有集中性和对称性B正态分布的均值和方差能够决定正态分布的位置和形态C正态分布的偏度为0,峰度为1D标准正态分布的均值为0,方差为1第5题一所大学内的各年级人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:A一年级B二年级C三年级D四年级第6题6.设样本数据为X=[[0,0,2],[1,0,3],
[2,1,0],
[0,0,1]
],如果使用one-hot对其进行编码,则X的对应的onehot编码长度是()A10B9C8D112.3数据可视化--习题第1题如果对某列数据进行帕累托贡献度分析,那么A要对数据做升序排序B要对数据做降序排序C不需要排序D必须要进行数据采样第2题下面哪些属于可视化高维数据技术A矩阵B平行坐标系C星形坐标D散布图EChernoff脸正确答案:ABCE第3题使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?A探索性数据分析B建模描述C预测建模D寻找模式和规则第4题下列哪个不是专门用于可视化时间空间数据的技术A等高线图B饼图C曲面图D矢量场图第5题数据可视化工作在数据分析与挖掘中的作用A只对数据分析和挖掘的结果进行展示,起到了锦上添花的作用B很简单的工作C很容易学会D贯穿这个数据分析和挖掘的过程第6题1.只要对数据进行了可视化,一般可以通过可视化的图形规律得出相关的结论。A正确B错误2.4数据相似性度量--习题第1题设有A单位职工小张,考核排名名次为101/551(共551人,排名101);B单位职工小王,考核排名名次为81/301。已知A,B两单位不同,且考核排名方法也不尽相同,那么需要评价小张和小王之间的差距值,下面哪个比较准确()A101-81B(101-81)/301C(101-1)/(551-1)-(81-1)/(301-1)D(101-81)/(551-301)第2题设有n个p维度的对象,则相异度矩阵M存储两两对象之间的相似性,其表现形式是一个()的矩阵。An×n维Bn×p维Cp×p维Dp×n维第3题如果数据有很多列,需要找出重复的列,最优方案是____A通过相关系数矩阵查B任两列做散点图观察C通过循环比较每个值D任两列做差,每个差均为0第4题你觉得音频数据是否能进行相似性检索?A可以B不可以C不知道第5题
3.使用平均绝对偏差比使用标准差更稳健。A对B错第6题设有两个数据对象X和Y,其中X,Y都是3维向量[p1,p2,p3],p1为连续型数值变量,p2为名义型变量,p3为序数型变量,则X和Y之间的相似度是否可以评价?()A可以,但是需要知道每个维度的相似度权重分配B可以直接计算,不需要其他变量辅助C不可以计算,因为单位量制不统一D无法判断3.1数据清洗--习题第1题设有数据集X为4,8,9,15,21,21,24,25,36,42,57,88,如果将X按照等频划分方法,划分成6个桶,则24属于第几个桶?()A3B4C5D6第2题设有数据集X为4,8,9,15,21,21,24,25,36,42,57,88,如果将X按照等宽划分方法,划分成7个桶,则24属于第几个桶?()A2B3C4D5第3题在数据预处理里,对缺失值做插补,不属于数据插补方法的是()A固定值插补B中位数插补C均值插补D随机数插补第4题在数据清洗中,增量抽取机制不适用于(
)特点的数据表A源表变化数据相对数据总量较小B标表需要记录过期信息或者冗余信息C业务系统能直接提供增量数据D源表变化数据不规律第5题在数据清洗中,对“脏”数据源需要进行操作处理,不包括以下哪个方面A完全清除某些输入字段B自动替换掉某些错误数据值C对分配和调整的规则进行完备的文档记录D补入一些丢失的数据第6题在数据清洗中,数据排重需要技巧,排重依据是()A准确性B唯一性C可靠性D完整性第7题噪声数据主要是包含错误数据、假数据和()A异常数据B真实数据C污染数据D都对3.2数据集成与数据转换习题第1题在多数据源数据集成时,若数据源1的数据模式为(工号,电话号码,住址,出生年月),数据源2的数据模式为(工号,电话号码,住址所在省,住址所在市,住址所在街道,年龄)。如果将数据源1和数据源2的数据模式直接合并,下面哪种描述是不正确的?()A数据源1的住址和数据源2中3个住址相关属性需要进行进行模式集成B年龄和出生年月存在数据冗余的问题C这两个模式需要删除冗余字段,才能进行较好的系统集成D模式集成可以不删除字段,也可以删除字段第2题特征二值化的核心在于设定一个()A元素B阈值C关键值D数组第3题z-score规范化函数的值域是()A(-∞,+∞)B[-1,1]C[min,max],min和max为指定值D[-pi,pi],pi为3.1415926第4题将[10,30,50,80,100]进行最小-最大规范化,则80对应的数值为()A0.8B0.445C0.778D0.7第5题假定A的取值范围[-1035,917],则917通过小数定标法被规范化为()A0.917B0.0917C9.17D0.009173.3数据规约习题第1题数据压缩是指在(
)前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法A不丢失所有信息的B不丢失真实信息的C以上三个都是第2题PCA将数据投射到一个低维子空间实现降维,是数据规约的一种常用方法。第3题针对数据立方体的相关操作,不正确的是()A数据立方体的聚集是将n维的数据降低到n-1或者更少的维度上BOLAP是数据立方体的一种常见的简单分析方法C数据立方体的上卷操作等价于维度规约D数据立方体的聚集只是数据规约的一种方式第4题使用属性子集选择的维度规约方法,下列说法正确的是()A属性子集选择方法一定会造成信息丢失B使用属性子集选择方法后产生的数据分布与原始分布一致C属性子集选择的穷举法在任何时候都是不可取的D属性子集选择方法和PCA类似,都属于降维的方法第5题下列关于数据规约说法正确的是()A通过将数据进行分层采样,此时实现的是数据量减少,但是数据的维度不变B通过PCA方法,此时数据量减少,数据维度不变C使用数据子集选择方法,此时数据量减少,数据维度减少D数据规约技术需要同时考虑降低数据数量和数据维度两个方面3.4数据离散化与概念分层习题第1题当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?A分类B聚类C关联分析D隐马尔可夫链第2题假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频划分时,15在第几个箱子内?A第二个B第三个C第四个第3题有关概念分层技术,下列说法正确的是()A3-4-5自然划分方法,需要提前知道数据的类别标签B基于熵的划分方法,需要提前知道数据的类别标签C等深分箱技术需要知道数据的值域范围和分箱数目及数据个数D等频分箱技术需要知道数据的值域范围和分箱数目第4题下面哪些操作不属于概念分层?()A将工资分为高收入人群、中收入人群和低收入人群B将老师分为青年老师和中年老师C将工资收入精确到整数位D按照频率直方图将考试成绩分为优秀,良好和合格第5题现有一份问卷,调查大学生生源地、年龄、性别与每个月零花钱之间的关系,那么可能会牵涉到的数据离散化操作包括如下哪些?A城市抽象到省份B数据区间抽象为高、中、低C年龄抽象为A,B,C三个层次D性别也需要进一步概念分层正确答案:ABC4.1-4.2分类与预测:基本概念--习题第1题在进行决策树算法的时候,下面的结论不正确的是()A决策树算法针对属性进行计算,所以一定会终止,所以不用考虑决策树的终止性问题;B一个数据集的决策树可能不唯一;C决策树进行属性分裂的时候有可能某个分支不需要用上所有类别属性进行规则式的建立DCART算法也是决策树算法。第2题有监督学习和无监督学习体现在样本上的区别在于()A样本是否存在连续数值属性;B样本是否存在分类标签;C样本是否进行了概念离散化;D样本量是否超过50.第3题银行根据客户以往贷款记录情况,将客户分为低风险客户和高风险客户。对一个新来的申请者,银行计算风险,决定接受或拒绝该申请。这属于()算法的应用A聚类B分类C关联D回归第4题点击率的预测是一个数据比例不平衡问题(比如训练集中样本呈阴性的比例为99%,阳性的比例是1%),如果我们用这种数据建立模型并使得训练集的准确率高达99%。我们可以得出结论是:()A模型的准确率非常高,我们不需要进一步探索;B模型不好,我们应建一个更好的模型;C无法评价模型;D以上都不正确第5题分类通常会把模型数据集拆分成两个部分,其中一个部分用来评估模型好与不好,这个部分叫做()。A训练集B测试集C已知数据D未知数据4.3决策树分类--习题第1题决策树的叶子节点对应样本的哪个属性值()?A样本的任意一个属性;B样本的离散取值属性;C样本的熵为0的属性;D样本的类别标签。第2题下列关于熵的论述,不正确的是()A熵是刻画信息系统混杂程度的指标B熵为0表示确定性系统;C熵为1表示确定性系统;D熵的取值范围是0到正无穷,包含0.第3题ID3算法在构造决策树时,下列说法不正确的是()A属性值可以是区间型变量;B属性值可以是名义型变量;C属性值可以是序数型变量D属性值可以是离散取值的整数。第4题在进行决策树算法的时候,下面的结论不正确的是()A决策树算法针对属性进行计算,所以一定会终止,所以不用考虑决策树的终止性问题;B一个数据集的决策树可能不唯一;C决策树进行属性分裂的时候有可能某个分支不需要用上所有类别属性进行规则式的建立DCART算法也是决策树算法。第5题在ID3算法中信息增益是指()。A信息的溢出程度B信息的增加效益C熵增加的程度最大D熵减少的程度最大第6题.以下哪些算法是分类算法_______ADBSCANBC4.5CK-MeanDEM4.4朴素贝叶斯分类--习题第1题下面哪个不是库函数sklearn中的naive_bayes相关方法调用函数?()ABernoulliNBBGaussianNBCMultinomialNBDNB()第2题已知P(A∩B|X)=1/6,P(A|Y)=1/3,P(B|Y)=1/2,P(R∩B)=1/6,P(A)=1/3,P(B)=1/2,则可得下列哪些结论()AA,B相互独立;BA,B在条件X下是条件独立的CA,B不是相互独立事件;DA,B不是条件独立事件。正确答案:AB第3题朴素贝叶斯分类器的特点是:假设样本各维属性独立第4题Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。第5题数据挖掘中NaiveBayes属于什么方法?()A聚类B分类C关联规则挖掘D时间序列挖掘4.5决策树方法的分析比较--习题第1题C4.5算法以()作为属性分裂的选择依据。A信息增益B信息增益率CGini指标DA和B第2题下面关于ID3算法中说法错误的是AID3算法要求特征必须离散化B信息增益可以用熵,而不是GINI系数来计算C选取信息增益最大的特征,作为树的根节点DID3算法是一个二叉树模型第3题关于决策树节点划分根据之一是信息增益越大越好第4题以下哪些算法是基于规则的分类器AC4.5BKNNCNaiveBayesDANN第5题5.哪种算法得到的决策树是二叉树?()A通过ID3算法得到的决策树;B通过C4.5算法得到的决策树;C通过CART算法得到的决策树;DA,B和C都对。第6题6.下列哪些算法可以处理属性值存在连续型数值的样本决策树构建?AID3算法;BC4.5算法CKmeans算法DCART算法正确答案:BD4.6KNN分类算法--习题第1题已知KNeighborsClassifier()函数的形参默认值如下:KNeighborsClassifier(n_neighbors=5,weights=’uniform’,algorithm=’auto’,leaf_size=30,p=2,metric=’minkowski’,metric_params=None,n_jobs=1,**kwargs),如果想从周边的3个邻居的类别来推荐样本的类别,使用闵可夫斯基距离,则下列调用正确的是()Aknn=KNeighborsClassifier(n_neighbors=3)Bknn=KNeighborsClassifier(n_neighbors=3,metric=’minkowski’)Cknn=KNeighborsClassifier()Dknn=KNeighborsClassifier(n_neighbors=3,p=2metric=’minkowski’)正确答案:AB第2题下列选项中,关于KNN算法说法不正确是A能找出与待测样本相近的K个样本Bsklearn中的KNeighborsClassifier默认使用欧氏距离度量C实现过程相对简单,但是可解释性不强D效率很高第3题KNN算法的时间复杂度和存储空间会随着训练集规模和特征维数的增大而快速增加第4题已知KNeighborsClassifier()函数的形参默认值如下:KNeighborsClassifier(n_neighbors=5,weights=’uniform’,algorithm=’auto’,leaf_size=30,p=2,metric=’minkowski’,metric_params=None,n_jobs=1,**kwargs),其中metric属性和p值联合一起,可以实现不同的距离选择,以下说法正确的是()Ap=1,相当于使用曼哈顿距离Bp=2,相当于使用欧几里得距离C对于p不等于1或2的其他整数,使用的是闵可夫斯基距离DKNeighborsClassifier默认选择的欧几里得距离正确答案:ABCD第5题下列哪个距离度量不在KNN算法中体现A闵可夫斯基距离B欧氏距离C余弦距离D波曼哈顿距离第6题假设通过knn=KNeighborsClassifier()建立模型,并使用knn.fit(Xtrain,Ytrain)训练模型,要想输出测试集Xtest对应的类别值,则需要使用如下哪一条指令?()Aprint(knn.predict(Xtest))Bknn.predict(Xtest)Cprint(knn.predict_proba(Xtest))Dprint(knn.score(Xtest))4.7分类与预测算法的性能评价方法-习题第1题从股票预测的场景出发,人们可能更加注重下列哪个指标()A精度precision=TP/(TP+FP)B召回率recall=TP/(TP+FN)CF-scoreD正确率accuracy=(TP+TN)/(P+N)第2题哪些选项对K折交叉验证的描述是正确的A增大K将导致交叉验证结果时需要更多的时间B更大的K值相比于小K值将对交叉验证结构有更高的信心C如果K=N,那么其称为留一交叉验证,其中N为验证集中的样本数量正确答案:ABC第3题以下两种描述分别对应哪两种对分类算法的评价标准?(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。(b)描述有多少比例的小偷给警察抓了的标准。APrecision,RecallBRecall,PrecisionCPrecision,ROCDRecall,ROC第4题从癌症筛查的场景出发,人们可能更加注重下列哪个指标()A精度precision=TP/(TP+FP)B召回率recall=TP/(TP+FN)CF-scoreD正确率accuracy=(TP+TN)/(P+N)第5题2.在变量选择过程中,下列哪些方法可用于检查模型的性能?a.多重变量用于同一个模型b.模型的可解释性c.特征的信息d.交叉验证Aa和dBa,b和cCa,b和dD以上全部5.1基本概念--习题第1题5.若将X称为预测变量,Y称为解释变量,则在画两个变量的散点图时,下列哪个叙述是正确的()A预测变量在X轴上,解释变量在Y轴上;B解释变量在X轴上,预测变量在Y轴上;C可以选择两个变量中的任意一个变量在X轴上D可以选择两个变量中的任意一个变量在Y轴上第2题4.一位母亲记录了儿子3-9岁的身高,由此建立的身高与年龄的回归直线方程为Y=7.19x+73.93,据此可以预测这个孩子10岁的身高,则下列描述正确的是()A身高一定是145.83厘米B身高超过146厘米C身高低于145厘米D身高在145.83厘米左右第3题3.已知直线回归方程为Y=2-1.5X,则变量X增加一个单位时,()AY平均增加1.5个单位BY平均增加2个单位CY平均减少1.5个单位DY平均减少2个单位第4题2.在对两个变量X,Y进行线性回归分析时,有下列步骤:(1)对所求的回归直线方程进行解释;(2)收集样本数据;(3)求线性回归方程;(4)求未知参数;(5)根据所搜集的数据绘制散点图。如果根据可行性要求作出X,Y具有线性相关的结论,则下列操作顺序正确的是()A(1)(2)(5)(4)(3)B(3)(2)(4)(5)(1)C(2)(4)(3)(1)(5)D(2)(5)(4)(3)(1)第5题1.在回归与相关分析中,因变量值随自变量值的增大(减小)而减小(增大)的现象叫做________。A正相关;B负相关;C正比例D反比例5.2线性回归编程案例--习题第1题4.针对回归分析而言,残差平方和()A越大越好,没有上界B越小越好,最小为0C取值大小与回归方程的质量无关D残差平方和就是均方差mse第2题3.针对下面四种说法,下列结论正确的是()(1)函数关系是一种确定性关系;(2)相关关系是一种非确定性关系;(3)回归分析是对具有函数关系的两个变量进行统计分析的一种方法;(4)回归分析是对具有相关关系的两个变量进行统计分析的一种方法。A(1)(2)B(1)(2)(3)C(1)(2)(4)D(1)(2)(3)(4)第3题2.在回归分析中,将所有样本数据点和它们在回归直线上相应未知的差异平方相加,可以得到()A总偏差平方和B残差平方和C回归平方和D相关系数r第4题1.某同学由X与Y之间的一组数据求得两个变量间的线性回归方程为Y=bX+a,已知数据X的平均值为2,数据Y的平均值为3,则A回归直线必过点(2,3)B回归直线一定不过点(2,3)C点(2,3)在回归直线上方D点(2,3)在回归直线下方5.3逻辑回归--习题第1题2.以下关于逻辑回归的说法不正确的是A逻辑回归必须对缺失值做预处理;B逻辑回归要求自变量和目标变量是线性关系C逻辑回归比决策树,更容易过度拟合D逻辑回归只能做2值分类,不能直接做多值分类第2题1.数据挖掘中逻辑回归属于什么方法?()A线性回归B分类C关联规则挖掘D时间序列挖掘5.4岭回归--习题第1题1.在岭回归模型中,回归系数的先验分布是()A拉普拉斯分布B正态分布C正态分布与拉普拉斯的混合分布D指数分布5.5线性回归--习题第1题CART决策树是一棵()A二叉树B多叉树C回归方程第2题决策树分类方法中,CART算法使用的分裂准则是:A信息增益B增益比率C基尼系数D分类错误率第3题CART树构建时,终止条件包括()A节点是纯结点,即所有的记录的目标变量值相同B树的深度达到了预先指定的最大值C混杂度的最大下降值小于一个预先指定的值D节点的记录量小于预先指定的最小节点记录量E一个节点中的所有记录其预测变量值相同正确答案:ABCDE第4题2.CART分类回归树是一种典型的二叉决策树,可以做分类或者回归。第5题3.CART决策树分为分类树和回归树,当因变量Y为离散变量时为分类树,当因变量Y为连续变量时为回归树5.6.1线性回归的延伸-人工神经网络--习题第1题关于人工神经网络的描述错误的是()A至少含有一个隐藏层的多层神经网B可以处理冗余特征C训练ANN是一个很耗时的过程D神经网络对训练数据中的噪声非常敏感第2题一个具有2个节点的输入端、一个包含2个节点的隐层、一个含有1个节点输出层,则该全连接人工神经网络需要确定的系数个数是()A6B4C5D7第3题一个完整的人工神经网络包括()A一层输入层B多层分析层C多层隐藏层D两层输出层正确答案:AC第4题关于人工神经网络中的说法,以下不正确的是()A人工神经网络可以进行线性回归和拟合;B人工神经网络可以进行分类操作;C人工神经网络可以实现无监督学习;D人工神经网络不能实现有监督学习。第5题5.如图中的一个两层全连接人工神经网络,其实质是一个非线性变化函数。5.6.2-5.6.3神经网络的训练和设计原则--习题第1题有关损失函数,说法正确的是()A同一个算法的损失函数不是唯一的;B损失函数是一个标量;C选择损失函数时,挑选对参数(w,b)可微的函数;D损失函数越小越好正确答案:ABCD第2题一般,样本的输出类别数对应()A输出层的节点数B隐层的节点数C输入层的节点数第3题一般,数据样本的属性特征数对应()A隐层的节点数B输出层的节点数C输入层的节点数第4题对于人工神经网络的学习算法,需要人为手动操作的调参包括:A调整网络拓扑构建,如输入、输出、隐层的节点数目;B调整激活函数的种类;C调整损失函数;D调整偏置节点的权重;正确答案:ABC第5题下面_________属于神经网络常用的激活函数ASigmoidBtanhCReLUDSoftmax正确答案:ABCD第6题在线性模型的训练中,我们一般将模型参数全部初始化为0,对于神经网络也是如此。A对B错第7题人工神经网络训练的目的就是使得损失函数最小化。A对B错5.6.4-5.6.5-5.6.6过拟合与正则化、交叉验证和小结--习题第1题在一个神经网络中,下面哪种方法可以用来处理过拟合?ADropoutB分批归一化(BatchNormalization)C正则化(regularization)D都可以第2题数据增强也是一种深度神经网络正则化技术。A对B错第3题减少神经网络过拟合可以通过增加网络的神经元个数或层数解决。A对B错第4题4.集成学习的模型平均是减小泛化误差的一种可靠方法。6.1基本概念--习题第1题支持度是衡量关联规则重要性的一个指标第2题置信度()是衡量兴趣度度量(
)的指标A简洁性B确定性C实用性D新颖性第3题维克托▪迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘AK-meansBBayesNetworkCC4.5DApriori第4题以下属于关联分析的是ACPU性能预测B购物篮分析C自动判断鸢尾花类别D股票趋势建模第5题小王养了一头猪和一只鸡,一天,猪问鸡:“主人去哪里了”,猪含泪答道:“去买粉条了”。鸡很同情的说:“老弟,来世再见。”以上对话体现了数据分析方法中的()A关联挖掘B自然语言处理C文本挖掘D聚类第6题()表示在先决条件X发生的情况下,由关联规则“X→Y”推出Y的概率A支持度B置信度C关联度DA和B第7题不满足给定评价度量的关联规则是无趣的第8题关联规则可以用枚举的方法产生第9题给定关联规则A→B,意味着:若A发生,B也会发生第10题可信度是对关联规则的准确度的衡量第11题银行根据客户以往贷款记录情况,将客户分为低风险客户和高风险客户。对一个新来的申请者,银行计算风险,决定接受或拒绝该申请。这属于()算法的应用A聚类B分类C关联D回归6.2闭项集和极大频繁项集--习题第1题满足最小支持度阈值的所有项集称为()A项B项集C频繁项集D频繁K项集第2题设X={1,2,3}是频繁项集,则可由X最多可产生____个关联规则A4B5C6D7第3题考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}。假定数据集中只有5个项,采用合并策略,由候选产生过程得到频繁4-项集不包含________A1,2,3,4B1,2,3,5C1,2,4,5D1,3,4,5第4题频繁闭项集可用来无损还原频繁项集第5题若{A,B}是极大频繁项集,则下列可能属于频繁项集的是A{A}B{B}C{B,C}D{A,B,C}第6题若{A,B}是极大频繁项集,则下列一定属于频繁项集的是A{A}或{B}B{A,C}C{B,C}D{A,B,C}E{C1,B1}F{A1,A2,A3}第7题若{A,B}是极大频繁项集,则下列一定不属于频繁项集的是A{A}B{B}C{B,C}D{A,B,C}第8题对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是()[注:分别以1、2、3代表之]A3可以还原出无损的1B2可以还原出无损的1C3与2是完全等价的D2与1是完全等价的第9题非频繁模式()A其置信度小于支持度阈值B令人不感兴趣C包含负模式和负相关模式D对异常数据项敏感第10题对于项集来说,置信度没有意义第11题已知事务数据库的项集频数统计如图所示,则以下属于闭项集的是:A{A,B}B{A,B,C}C{A,B,D}D{B,C,D}正确答案:ACD6.3-6.5Apriori算法及其应用--习题第1题Apriori算法使用哪个指标筛选项目集()?A交易编号(TransactionID);B最小支持度(MinimumSupport);C最小置信度(MinimumConfidence);D购买数量;第2题维克托▪迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘_______AK-meansBBayesNetworkCID3DApriori第3题Apriori算法产生的关联规则总是确定的.第4题Apriori算法是一种典型的关联规则挖掘算法。第5题以下哪个会降低Apriori算法的挖掘效率A支持度阈值增大B项数减少C事务数减少D减小硬盘读写速率第6题Apriori算法的加速过程依赖于以下哪个策略(
)A抽样B剪枝C缓冲D并行第7题7.以下选项中,哪个有可能是Apriori算法所挖掘出来的结果?()A买计算机同时会购买相关软件B买打印机后过三个月会买墨水C卖便携计算机较台式机所获得额外利益D以上皆均不是第8题假设使用如下公式从由频繁k项集产生潜在的频繁K+1候选集已知={{1,2},{1,3},{1,5},{2,3}},则通过上述方法可以得到为()A{{1,2,3},{1,2,5},{1,3,5}}B{{1,2,3},{1,2,5}}C{{1,2,3}}D{{1,2,3},{1,2,5},{2,3,5}}第9题9.已知事务数据库如图所示,conf(I1→I2,I3)为()A0.8B1C0.75D0.7第10题10.已知事务数据库如图所示,设Min_supp=50%,min_conf=50%.则该事务数据库中包含3项集的强规则有()条。A5B4C6D36.6关联挖掘的常见误区--习题第1题给定关联规则A->B,说明A发生,B一定发生。第2题高置信度的规则不一定是合理的。第3题啤酒和尿布的故事是聚类分析的典型案例。第4题4.表中给出了某超市的事务数据,其中hotdogs表示包含热狗的事务,表示不包含热狗的事务,hamburgers表示包含汉堡包的事务,而表示不包含汉堡包的事务,给定最小支持度阈值为25%,最小支持度阈值为50%,则的支持度是多少?A0.8B0.67C0.4D0.5第5题5.表中给出了某超市的事务数据,其中hotdogs表示包含热狗的事务,表示不包含热狗的事务,hamburgers表示包含汉堡包的事务,而表示不包含汉堡包的事务,给定最小支持度阈值为25%,最小支持度阈值为50%,则的置信度是多少?A0.8B0.67C0.4D0.5第6题6.表中给出了某超市的事务数据,其中hotdogs表示包含热狗的事务,表示不包含热狗的事务,hamburgers表示包含汉堡包的事务,而表示不包含汉堡包的事务,给定最小支持度阈值为25%,最小支持度阈值为50%,则的置信度是多少?A0.8B0.67C0.75D0.56.7FP-Growth算法--习题第1题关联规则的经典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高第2题下列属于无监督学习算法的是()ACARTBFP-GrowthCAprioriDRandomForest正确答案:BC第3题FP-Growth只能用于发现频繁项集,不能用于发现关联规则。第4题4.如图所示的FP树,则项集{fcabm}是不是一个频繁项集?()第5题5.如图所示的FP树,则树中有()个频繁项集?A6B5C4D37.1聚类概述--习题第1题
1.如果不考虑外部信息,聚类结构的有良性度量应当采用()A均方差B方差C中位数D均值第2题2.分类算法就是按照某种标准给对象贴标签,再根据标签来归类,以下属于分类算法的是()。ADBSCANBC4.5CK-MeanDEM第3题3.无监督学习中应用最广的是()。A分类算法B聚类算法C关联算法D时序分析算法第4题4.聚类方法中,需要衡量对象之间的相似程度或距离,下列哪些指标可以用于距离评价()A闵可夫斯基距离
B欧几里得空间距离C余弦相似度D曼哈顿距离E线性相关性正确答案:ABCD第5题5.如果教师把《数据挖掘技术》考试成绩分为优秀(90以上),良好(80-90),及格(60-80),不及格(60以下),这属于聚类算法。第6题6.任课教师汇总了某专业200学生的16门课考试成绩,将200名学生按照16门功课的成绩表现分成三个区域,则这种操作属于聚类挖掘。7.2聚类的划分方法--习题第1题
1.K均值可以很好得处理不同密度得数据。第2题2.聚类方法中,以下哪种方法需要指定聚类个数。()A层次聚类BK均值聚类
C基于密度的聚类D基于网格的聚类第3题3.已知8个点A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C3(4,9)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 福建体育职业技术学院《治安学》2025-2026学年期末试卷
- 集美工业职业学院《语法学》2025-2026学年期末试卷
- 厦门华天涉外职业技术学院《现代金融统计》2025-2026学年期末试卷
- 骨外科考研试题及答案
- 徐州医科大学《电子测量原理》2025-2026学年期末试卷
- 乳制品充灌工10S执行考核试卷含答案
- 社会经济咨询公司年度工作总结报告
- 金箔制作工风险评估知识考核试卷含答案
- 起重工班组协作考核试卷含答案
- 炭素煅烧操作工QC管理强化考核试卷含答案
- 北京市2025北京市体育科学研究所招聘7人笔试历年参考题库典型考点附带答案详解
- 县教育局2026年中小学生安全教育周活动总结
- 清明细雨-在追思中看清自己的方向-2025-2026学年高三下学期主题班会
- 2026年中考英语专题复习:完形填空 专项练习题汇编(含答案 解析)
- 2026年上海数据交易所“金准估”估值模型与大宗标准定价法应用
- 教科版三年级下册科学实验报告(20 篇)
- 2026年成都辅警招聘笔试题库含答案
- 2026年教师资格认证教育心理学试题集及答案解析
- 2025年10月自考00292市政学试题及答案
- GB/T 24810.1-2026起重机限制器和指示器第1部分:通则
- 肾癌的转移-图文
评论
0/150
提交评论