CDA_LEVEL_2试题及答案_第1页
CDA_LEVEL_2试题及答案_第2页
CDA_LEVEL_2试题及答案_第3页
CDA_LEVEL_2试题及答案_第4页
CDA_LEVEL_2试题及答案_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

CDALEVEL建模分析师_模拟题:一、单项选择题(每小题0.5分,共30分)1、答案(D)在使用历史数据构造训练集(Train)集、验证(Validation)集和检验(Test)时,以下哪个样本量分配方案比较适合?A.训练50%,验证0%,检验50%B.训练100%,验证0%,检验0%C.训练0%,验证100%,检验0%D.训练60%,验证30%,检验10%2、答案(A)一个累积提升度曲线,当深度(Depth)等于0.1时,提升度为(Lift)为3.14,以下哪个解释正确?A.根据模型预测,从最高概率到最低概率排序后,最高的前10%中发生事件的数量比随机抽样的响应率高3.14B.选预测响应概率大于10%的样本,其发生事件的数量比随机抽样的响应率高3.14C.根据模型预测,从最高概率到最低概率排序后,最高的前10%中预测的精确度比随机抽样高3.14D.选预测响应概率大于10%的样本,其预测的精确度比随机抽样高3.143、答案(C)在使用历史数据构造训练(Train)集、验证(Validation)集和检验(Test)集时,训练数据集的作用在于A.用于对模型的效果进行无偏的评估B.用于比较不同模型的预测准确度C.用于构造预测模型D.用于选择模型4、答案(D)在对历史数据集进行分区之前进行数据清洗(缺失值填补等)的缺点是什么?A.增加了填补缺失值的时间B.加大了处理的难度C.无法针对分区后各个数据集的特征分别做数据清洗D.无法对不同数据清理的方法进行比较,以选择最优方法5、答案(C)关于数据清洗(缺失值、异常值),以下哪个叙述是正确的?A.运用验证数据集中变量的统计量对训练集中的变量进行数据清洗B.运用验证数据集中变量的统计量对验证集中的变量进行数据清洗C.运用训练数据集中变量的统计量对验证集中的变量进行数据清洗D.以上均不对6、答案(B)当一个连续变量的缺失值占比在85%左右时,以下哪种方式最合理A.直接使用该变量,不填补缺失值B.根据是否缺失,生成指示变量,仅使用指示变量作为解释变量C.使用多重查补的方法进行缺失值填补D.使用中位数进行缺失值填补7、答案(B)构造二分类模型时,在变量粗筛阶段,以下哪个方法最适合对分类变量进行粗筛A.相关系数B.卡方检验C.方差分析D.T检验8、答案(A)以下哪个方法可以剔除多变量情况下的离群观测A.变量中心标准化后的快速聚类法B.变量取百分位秩之后的快速聚类法C.变量取最大最小秩化后的快速聚类法D.变量取Turkey转换后的快速聚类法9、答案(C)以下哪种变量筛选方法需要同时设置进出模型的变量显著度阀值A.向前逐步法B.向后逐步法C.逐步法D.全子集法10、答案(A)以下哪个指标不能用于线性回归中的模型比较:A.R方B.调整R方C.AICD.BIC11、答案B.将复杂的地址简化成北、中、南、东四区,是在进行?A.数据正规化(Normalization) B.数据一般化(Generalization) C.数据离散化(Discretization) D.数据整合(Integration)12、【答案(A)】当类神经网络无隐藏层,输出层个数只有一个的时候,倒传递神经网络会变形成为?A.罗吉斯回归 B.线性回归 C.贝氏网络 D.时间序列13、答案B.请问Apriori算法是用何者做项目集(Itemset)的筛选?A.最小信赖度(MinimumConfidence)B.最小支持度(MinimumSupport)C.交易编号(TransactionID)D.购买数量14、答案B.有一条关联规则为AB,此规则的信心水平(confidence)为60%,则代表:A.买B商品的顾客中,有60%的顾客会同时购买AB.买A商品的顾客中,有60%的顾客会同时购买BC.同时购买A,B两商品的顾客,占所有顾客的60%D.两商品A,B在交易数据库中同时被购买的机率为60%15、【答案(B)】下表为一交易数据库,请问AC的支持度(Support)为:A.75% B.50% C.100% D.66.6%TID ItemsBought1 A,B,C2 A,C3 A,D4 B,E,F16、【答案(D)】下表为一交易数据库,请问AC的信赖度(Confidence)为:A.75% B.50% C.100% D.66.6%TID ItemsBought1 A,B,C2 A,C3 A,D4 B,E,F17、答案D.倒传递类神经网络的训练顺序为何?(A:调整权重;B:计算误差值;C:利用随机的权重产生输出的结果)A.BCA B.CAB C.BAC D.CBA18、答案C.在类神经网络中计算误差值的目的为何?A.调整隐藏层个数B.调整输入值C.调整权重(Weight)D.调整真实值19、答案A.以下何者为Apriori算法所探勘出来的结果?A.买计算机同时会购买相关软件B.买打印机后过一个月会买墨水夹C.买计算机所获得的利益D.以上皆非20、答案D.如何利用体重以简单贝式分类(NaiveBayes)预测性别?A.选取另一条件属性B.无法预测C.将体重正规化为01之间D.将体重离散化21、答案B.NaiveBayes是属于数据挖掘中的什么方法?A.分群 B.分类 C.时间序列 D.关联规则22、答案B.简单贝式分类(NaiveBayes)可以用来预测何种数据型态?A.数值 B.类别 C.时间 D.以上皆是23、答案B.如何以类神经网络仿真罗吉斯回归(LogisticRegression)?A.输入层节点个数设定为3B.隐藏层节点个数设定为0C.输出层节点个数设定为3D.隐藏层节点个数设定为124、答案B.请问以下何者属于时间序列的问题?A.信用卡发卡银行侦测潜在的卡奴B.基金经理人针对个股做出未来价格预测C.电信公司将人户区分为数个群体D.以上皆是25、答案D.小王是一个股市投资人,手上持有某公司股票,且已知该股过去历史数据如下表所示,今天为预测2/6的股价而计算该股3日移动平均,请问最近的3日移动平均值为多少?日期 股价2/1 102/2 122/3 132/4 162/5 19A.11 B.13 C.14 D.1626、答案C.下列哪种分类算法的训练结果最难以被解释?A.NaiveBayesB.LogisticRegressionC.NeuralNetworkD.DecisionTree27、答案B.数据遗缺(NullValue)处理方法可分为人工填补法及自动填补法,下列哪种自动填补法可得到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论