数据挖掘原理与应用试题及答案汇总试卷1~12_第1页
数据挖掘原理与应用试题及答案汇总试卷1~12_第2页
数据挖掘原理与应用试题及答案汇总试卷1~12_第3页
数据挖掘原理与应用试题及答案汇总试卷1~12_第4页
数据挖掘原理与应用试题及答案汇总试卷1~12_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘原理与应用试题及答案试卷一答案:解:BADDA二、解:二、解:,I, _count®=a,)xcount(B=b)UJ-■ •en300x450 ~ en300x450 ~ =901500e!2I?。。*45。=3601500300x1050 二2101500e221200x1250 … =8401500所以(25°-9。产(25°-9。产+(5。一21所90210(200-360)2+ 360+(1000-8W840=284.44+121.90+71.11+30.48=507.93三、解:分类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。四、解:Root(FP-Tree(不唯一))RootFP-TreeK:5Y:10:1

K:5Y:10:1itemconditionalpatternbaseconditionaltreefrequentpatterny{{k,e,m,o:l},{k,e,o:l},{k,m:l}}k:3{k,y:3}o{{k,e,m:l},{k,e:2}k:3,e:3{k,o:3},{e,o:3},{k,e,o:3}m{{k,e:2},{k:l}}k:3{k,m:3}e{#:4}}k:4{k,e:4}五、解:(1)在数据集中有20个正样本和500个负样本,因此在根结点处错误率为TOC\o"1-5"\h\z_, /20 500、 20t—1-max\ , )—520 520 520如果按照属性X划分,则:x=oX=1X=2+01010-2000300TOC\o"1-5"\h\zEx=o=O/31O=O Ex=i=0/10=0 Ex=2=10/310200 10 310 10_10A- 520 520 520 310 520如果按照属性丫划分,贝ij:Y=0Y=1Y=2+02()0-20()10020()Ey=o=O/2OO=O120aEy=o=O/2OO=O120ax=E-~\ 52020=0120因此X被选为第一个分裂属性,因为X=0和X=1都是纯节点,所以使用丫属性去分割不纯节点X=2。丫=0节点包含100个负样本,丫=1节点包含10个正样本和100个负样本,丫=2节点100个负样本,所以子节点被标记为“.”。整个结果为:'+,X=1类标记=<、-淇他

预测类+-实际类+1010-0500510 10accuracy: =0.9808, aprecision:—=1.0520 1010 2*0.5*1.0recall:—=0.5, F-measure: =0.666620 1.0+0.5(3)由题可得代价矩阵为预测类+-实际类+0500/20=2.5-10决策树在(1)之后还有3个叶节点,X=2AY=0,X=2AY=1,X=2AY=2o其中X=2八丫=1是不纯节点,误分类该节点为“+”类的代价为:10*0+100*1=100,误分该节点为"-”类的代价为:10*25+100*0=250。所以这些节点被标记为“+”类。分类结果为:'+ X=1v(X=2/\Y=l)类标记="、-其他六、解:比如第一次聚类,两个聚簇的中心坐标如下:聚类中心坐标% 工(A、B)(C、D)第二步:计算某个样品到各类中心的欧氏平方距离,然后将该样品分配给最近的一类。对于样品有变动的类,重新计算它们的中心坐标,为下一步聚类做准备。先计算A到两个类的平方距离:J2(A,(AB))=(5-2)2+(3-2)2=10片(4(8))=(5+1尸+(3+2尸=61由于A到(A、B)的距离小于到(C、D)的距离,因此A不用重新分配。计算B到两类的平方距离:</2(B,(AB))=(-l-2)2+(l-2)2=10/(氏(CD))=(-1+1尸+(1+2产=9由于B到(A、B)的距离大于到(C、D)的距离,因此B要分配给(C、D)类,得到新的聚类是(A)和(B、C、D)»更新中心坐标如下表所示。聚类中心坐标(A)53(B、C、D)-1-1第三步:再次检查每个样品,以决定是否需要重新分类。计算各样品到各中心的距离平方,结果见下表。聚类样品到中心的距离平方A BC D(A)0404189(B、C、D)52455到现在为止,每个样品都已经分配给距离中心最近的类,因此聚类过程到此结束。最终得到K=2的聚类结果是A独自成一类,B、C、D聚成一类。七、解:假警告率=(99%*1%)/(99%*1%+1%*99%)=50%检测率=(1%99%)/(1%)=99%八、解:(1)图1中,对象p,q,pl是核心对象:图2中,对象p,q,o是核心对象。因为他们的-领域内斗至少包含3(MinPts)个对象。(2)图1中,对象p是从对象pl直接密度可达的,反之亦然;对象q是从对象pl直接密度可达的,反之亦然。图2中,对象p,q,。中不存在直接密度可达的对象。(3)图1中,对象p,q,pl相互间是密度可达的;图2中,对象p,q,。相互间是密度可达的。(4)图1中,对象p,q,pl相互间是密度相连的;图2中,对象p,q,。相互间是密度相连的。九、解:(1)均值2.29,方差1.51(2)离群点24.0试题二答案一、解:d=7(20-22)2+(0-I)2+(36-42)2+(8-10)2=375 Hi〜o(*▽*)7* d=V(20-22)3+(0-I)3+(36-42)3+(8-10)3=V233 J(i,j)=max| |,所以d=max{2,l,6,2}=6 二、解:Hadoop基于分布式文件系统HDFS的分布式批处理计算框架。适用于数据量大,SPMD(单程序多数据)的应用。Spark基于内存计算的并行计算框架。适用于需要迭代多轮计算的应用。MPI基于消息传递的并行计算框架。适用各种复杂应用的并行计算。支持MPMD(多程序多数据),开发复杂度高三、解:最小支持度计数为560%=3Apriori:

四、解:< {1} {2} {3}{4} ><{1}{25}{3}>< {1} {5} {34}>< {2} {3} {4}{5} ><{25}{34}>五、解:9a5R(1)Info(D)= log.? log2—=0.94014 214 14 2144 24 2InfOincm'D)=—X(--log22 2 , 2、 6 /4 , log2—)+—x(——log24 4 24 14 6 22. 2、——log2一)6 26+Ax(-2io+Ax(-2iog2214 4 24-log,-)=0.91114 24Gainkincome)=Infc^D}-Infoincom(.D}=0.940-0.9111=0.029 (2) 4 44 4SplitInfoinco^D}=--Xlog2—6 6 4 4—xlog? xlog?—=1.55714 214 14 214GainRatio^income)—Gain^income)/SplitInfoincom^D}—0.029/1.557=0.019(3) 10 4⑵=-Gini(D)+-Gini(D>=0.443六、解:每个类的先验概率P(G)为: P(buys-computer=yes)=9/14P(buys-computer=no)=5/14条件概率为: P(age=youth|buys-computer=yes)=2/9P(age=youth|buys-computer=no)=3/5P(income=medium|buys-computer=yes)=4/9P(income=medium|buys-computer=no)=2/5P(student=yes|buys-computer=yes)=6/9P(student=yes|buys-computer=no)=1/5P(credit=fair|buys-computer=yes)=6/9P(credit=fair|buys-computer=no)=2/5使用上面的概率,得到:P(X|buys-computer=yes)=P(age=youth|buys-computer=yes)XP(income=medium|buys-computer=yes)XP(student=yes|buys-computer=yes)XP(credit=fair|buys-computer=yes)=32/729 类似的,P(X|buys-computer=no)=l2/625 为了找出最大化P(X|Ci)P(Ci),计算P(X|buys-computer=yes)P(buys-computer=yes)=16/567=0.028 P(X|buys-computer=no)P(buys-computer=no)=6/875=0.007

因此,对于元组X,朴素贝叶斯分类预测元组X的类为buys-computer=yes 七、解:TPFPTNFNTPRFPRp10540.20N1I440.20.2P2i430.40.2P3i420.60.2N32320.60.4P42310.80.4N43210.80.6N44110.80.8N45010.81P550011八、解:k-均值和k.中心点算法都可以进行有效的聚类。(1)k-均值优点:高效,k.均值算法复杂度为O(tkn),n是对象数目,k是聚类数目,t是迭代次数,一般的k,t«n;缺点:1)局部最优解;2)只适用于连续的固定的n维数据3)需要先确定聚类数目k;4)对噪音和离群点比较敏感:5)只适用于凸型数据聚类。k-中心点优点:1)可适用于范围可变的数据;2)能够处理对噪声或离群点。缺点:1)局部最优解2)只适用于数据集较小的数据集,对较大的数据集不适用(计算的复杂性)算法复杂度为O(k(n-k)2).3)需要先确定聚类数目k;4)只适用于凸型数据聚类(2)层次化聚类方法优点:没有局部极小问题或是很难选择初始点的问题缺点:计算存储的代价昂贵。试题三答案:一、解:BCACCBCAAABABBD二、解:ABCACDABCDADABCD三、解:g(D,A)=H(4/10,6/10)-7/10*H(4/7,3/7)-3/10*H(l,0)g(D,B)=H(4/10,6/10)-4/10*H(3/4,1/4)-6/10*H(5/6,1/6)信息增益表示特征X使得类y的不确定性减少的程度四、解:这属于聚类分析。因为这是无监督的学习,事先不知道各个类别的标准。而分类分析属于有监督的学习,事先知道分类的标准。两者的区别主要是数据中是否有类标号。从数据方面来说,分类挖掘的数据必须有类标号,也就是有专家参与。五、解:(1):平均值是25.08,20%的截断均值(两端各去掉两个数以后的平均值)是18.8,中位数是19o(2)规范化后,转换后的值为(0,1,0.31)(3)深度为4进行划分,得到三个箱(6,7,9,11),(12,18,20,21),(25.35,37,100)边界值平滑后的结果为(6,6,11,11),(12,12,21,21),(25,25,25,100)六、解:欠拟合的原因:模型复杂度过低,不能很好的拟合所有的数据,训练误差大;避免欠拟合:增加模型复杂度,如采用高阶模型(预测)或者引入更多特征(分类)等。过拟合的原因:模型复杂度过高,训练数据过少,训练误差小,测试误差大;避免过拟合:降低模型复杂度,如加上正则惩罚项,如LI,L2,增加训练数据等。七、解:剑桥分析有三大法宝:心理学模型、大数据分析、定向广告。首先,他们从各种地方获取个人数据,比如土地登记信息、汽车数据、购物数据、优惠券、俱乐部会员,以及FB账户信息等。再把这些信息与选民名册等大数据整合到一起,一起放进已研发出的心理学模型中,原先的数字足迹变成了完整又具体的大活人,他们有担忧、有需求、有兴趣、有癖好,还附带手机号码、信用卡类型、电子邮箱和家庭住址。接下来,你就可以根据自己的需求,向这些早已被你研究透的人们灌输思想了。在川普和希拉里展开第三场电视辩论的时候,剑桥分析用川普的观点在FB上精心测试了17.5万个版本的广告,然后跟踪人们在网络上的举动和兴趣,恰如其分地投放4到5万条,不同版本的差别都仅仅是细节:比如标题、颜色、照片、视频……然后就是等待猎物的反馈:比如某人是宾夕法尼亚州一个摇摆不定的选民,他有没有点击关于希拉里邮件门的帖子呢?点了,就显示更多的内容,看看希拉里是如何失职的。没点?自动脚本就换个标题,或者换个切入点~ ■比如这个人容易听信权威,标题就自动更正为:《情报部门高官一致认为:希拉里邮件门事件危及国家安全》。总之就是反复向你投放他们想让你看到的内容,直到你最终被他们洗脑。试题四答案一、解:CCDCCADACDCDCDA二、解:BDABCDBCEADABCDABDCACDABCBCBDCC三、解:(1)被评为垃圾邮件的发信邮件地址,信的内容,信的格式(长度,段落等)(2)准确率为1%,召回率为1.01%(3)对正样本进行上采样,或者对正样本加大的权重四、解:d(p,q)=1+1+(20-18)=4d ( p , Cl ) = ( 1-25/30) + (1-20/30 ) + (20-18 )=2.5d ( p , C2 ) = ( 1-3/15) + (1-0/15) + ( 24-18) =7.8d ( q , Cl ) = ( 1-5/30) + (1-4/30) + ( 20-20) =1.7d ( q , C2 ) = ( 1-12/15) + (1-2/15) + (24-20)=5.07d(Cl,Cl)=(1-(25*3+5*12)/30*15)+(1-(6*1+4*2)/15*30)+(24-20)=5.67五、解:K-means算法通过最小化平方距离,通过迭代发现K个聚簇,在每次迭代中,需要计算均值点,通过每个点与均值点的距离来重新调整聚类。选择聚类中心通过计算每个聚簇中所有点在每个维度的平均值来获得。试题五答案一、解:TOC\o"1-5"\h\z.离群点可以是合法的数据对象或者值。 (T).离散属性总是具有有限个值。 (F).关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。 (F).K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。(F).如果一个对象不属于任何簇,那么该对象是基于聚类的离群点。(T)二、解:P(青年I购买)=2/9=0.222P(收入中等|购买)=4/9=0.444P(学生|购买)=6/9=0.667P(信用中|购买)=6/9=0.667P(X|购买)=0.222X0.444X0.667X0.667=0.044P倩年I不买)=3/5=0.6P(收入中等|不买)=2/5=0.4P(学生|不买)=1/5=0.2P(信用中|不买)=2/5=0.4P(X|不买)=0.6X0.4X0.2X0.4=0.019p(c)=9/14=0.643P(Ct「P(Ct「不买)=5/14=0.357P(购买|XP(购买|X)=0.044X0.643=0.028(1分)P(不买IX)=0.019X0.357=0.007(1分)试题六答案第一题.单选题AACBACDBADCCDCBACBCC第二题,多选题ABADABCDEABCDEBD第三题.判断题TTTFTFTFTFFFTFTFFTFF试题七答案第一题.单选题ABADBCABAAABDCDCADDDCDACBDACCC第二题.多选题CDBCABCDADABACACDBCDEABCDBCD试题八答案第一题.单选题ABACBBDCBBAAAABACBCB第二题.多选题ABCABCDABCABABDBCBCABCDABCBCDABCABABCBCD试题九答案一、单选题BACDCBCADAABCDCABBBCBBACCCCDAC二、不定项选择题CDABCACBCDABCACDABDDACACDSupport(看乒乓球f试题八答案第一题.单选题ABACBBDCBBAAAABACBCB第二题.多选题ABCABCDABCABABDBCBCABCDABCBCDABCABABCBCD试题九答案一、单选题BACDCBCADAABCDCABBBCBBACCCCDAC二、不定项选择题CDABCACBCDABCACDABDDACACDSupport(看乒乓球f看篮球)=2000/5000=40%Confidence(看乒乓球一看篮球)=2000/3000=66.7%/沈;P(看乒乓球^看篮球)

lJ-P(看乒乓球)P(看篮球)2000/50003000/5000*3750/5000=0.89P(h+|D)=P(九+)P(D|h+)P(。)nn(03*0.2*0.2)=o-2*-7(^0.0096/P(D)P(。)=0.8*(0.01*0.01*0.2)P(D)(2分)=0.000016/P(D)P(/i+⑼>P(h-|D)答:该邮件是垃圾邮件五、c(ABCfD)2c(AB->CD)>c(AtBCD)c(ABC-D)=support({A}u{B}u{C}u{D})/support({A}u{B}u{C})c(AB->CD)=support({A}u{B}u{C)u{D})/support({A)u{B})c(A->BCD)=support({A}o{B}u{C}o{D})/support({AJ)很显然:support({A}u{B)u{C})<support({A}u{B})<support({A})因此:c(ABC D)>c(ABCD)>c(ABCD)六、神经网络使用激活函数能够增加模型的非线性映射,提高网络的拟合和表达能力;;/3)={(1+6-工尸}'-2(_「)e~x(1+e-/产e~~x1+eT11+e-x=/W(i-/W)/(0)=/(0)(l-/(0))=七:问题i解答:小梅采用OneHotEncoder独热编码,而小雷采用的是LabelEncoder标签编码(即用某一个数字代表一种类型,如1代表一线城市,2代表二线城市,3代表三线城市)。如果模型损失函数对变量的数值大小是敏感的,如SVM、LR、GLM等,为模型A:如果模型损失函数对变量数据大小不敏感,数值的存在意义是为了排序,如各种树模型,则为模型屏显然该题用的LR模型对变量数值大小是敏感的,所以小梅的编码方式更合适。问题2解答:beta为机器学习模型中的截距,如果设置为I,与事实相比过大,可能需要模型训练更长时间。所以小梅更好,能在短时间找到最优的模型参数。问题3解答:在训练样本中拟合的很好,但是在测试样本中效果比较差,属于过拟合问题。该损失函数使用的是经验风险最小化,不是结构风险最小化,泛化能力差,容易过拟合。(结构风险=经验风险+置信风险,置信风险是一个减函数,整个公示反映了经验风险和真实误差的差距上界,表征了根据经验风险最小化原则得到的模型的泛化能力。称为泛化误差上界。)问题4解答:AUC最大的应用应该就是点击率预估(CTR)的离线评估。其计算过程如下:得到结果数据,数据结构为:(输出概率,标签真值);对结果数据按输出概率进行分组,得到(输出概率,该输出概率下真实正样本数,该输出概率下真实负样本数)。这样做的好处是方便后面的分组统计、阈值划分统计等;对结果数据按输出概率进行从大到小排序;从大到小,把每一个输出概率作为分类阈值,统计该分类阈值下的TPR和FPR;微元法计算ROC曲线面积、绘制ROC曲线。试题十答案一、单选题ADDBDCABDCCBBCBCCAACDDCCCCCAAB二、判断题FFTTFFTFTF三、不定项选择题BCDABCABDABCABC四、答:聚类算法主要有:层次的方法(hierarchicalmethod)>划分方法(partitioningmethod)、基于密度的方法(density-basedmethod)、基于网格的方法(grid-basedmelhod)、基于模型的方法(model-basedmethod)等。其中,前两种算法是利用统计学定义的距离进行度量。K-Means算法的计算原理如下:首先从〃个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。在算法中,一般都采用均方差作为标准测度函数,算法收敛后各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。五、答:在模型建立的时候,如果一味的追求提高对训练数据的预测能力,所选模型的复杂度往往会比真实的模型高,这种现象称之为过拟合。从原理上来说,过拟合是对训练数据的过度学习,得到的模型参数太多太复杂,所建立模型太过于依赖训练数据,从而导致模型放在预测数据上时反而得不到很好的效果。因此在模型建立和选择时,不仅仅要考虑在训练集上准确率高,更重要的是在测试集上的准确性。防止过拟合最常用的方法就是模型的正则化,即在模型的经验风险后面加上一个正则项(惩罚项),正则项一般是模型复杂度的单调递增函数,模型越复杂,正则项也越大。通过添加正则项强迫机器去学习尽可能简单的模型。正则化的作用就是选择经验风险和模型复杂度都比较小的模型。正则化符合奥卡姆剃刀原则:在所有可以选择的模型中,能够很好地解释已知数据同时十分简单的模型才是最好的模型。六、1)年龄均值=(23+23+27+27+39+41+47+49+50+52+54+54+56+57+58+58+60+61)/18=836/18=46.44年龄中位数=(50+52)/2=51标准差=方差的平方根=开根号(l/n-l[E(Xi)2-l/n-l(EXi)。)注意这里是抽样(即估算样本方差),根号内除以(n-1)=开根号1/17[2970.44]=13.22脂肪百分比均值=28.78,中位数=30.7,标准差=9.252)绘制年龄和脂肪百分比的盒图

3)根据这两个属性,绘制散布图4)根据z-score规范化来规范化这两个属性age232327273941474950z-age-1.83-1.83-1.51-1.51-0.58-0.420.040.200.28%fat9.526.57.817.831.425.927.427.231.2z-%fat-2.14-0.25-2.33-1.220.29-0.32-0.15-0.180.27age525454565758586061z-age0.430.590.590.740.820.900.901.061.13%fat34.642.528.833.430.234.132.941.235.7z-%fat0.651.53().0().510.1G0.59().461.380.775)计算得到相关系数为0.82公式如下,两个属性变量呈正相关,、cov(X,Y)七:

1)节点4、5、6的净输入7,和输出Oj为:单前净输入(输出g40.2+0-0.5-0.4=-0.7l+(l+e07)=03325-03+0+0.2+0.2=0.11+(1+e。」)=0.5256(-O.3)(O.332M-O.2)(O.525)+0.1=-0.1051+(1-t-eoio5)=0.4742)节点4、5、6的误差Es为:单元jErr}6(0.474)(1-0.474)(1-0.474)=0.13115(O.525)(1-0.525)(0.1311)(-0.2)=-0.00654(0332)(1-0.332X0.1311)(-03)=-0.00873)更新后的权值和偏置为:权或偏置新值%"J“一化仇-0.3+(0.9)(0.1311)(0.332)=-0.2610.2+(0.9)(0.1311)(0.525)=-0.1380.2+(0.9)(-0,0087)(1)=0.1920.3+(0.9)(0.0065)(1)=-0.3060.4+(0.9)(-0.0087)(0)=0.40.1+(0.9)(-0.0065X0)=0.10.5+(0.9)(-0.0087)(1)=-0.5080.1+(0.9)(-0.0065)(1)=0.1940.1+(0.9)(0.1311)=0.2180.2+(0.9)(-0.0065)=0.1940.44-(0.9)(-0.0087)=-0.4084)根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话,那么即使这个结果是0.99,在经过足够多层传播之后,误差对输入层的偏导会趋于0,简言之,随着网络层数的增加,误差反向传播的梯度更新信息会朝着指数衰减的方式减少,这就是梯度消失。数据挖掘原理与应用试题及答案一、(30分,总共30题,每题答对得1分,答错得0分)单选题1、当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离(A)A、聚类;B、关联分析;C,分类;D、隐马尔科夫2、朴素贝叶斯是一种特殊的贝叶斯分类器,特征变量是X,类别标签是C,它的一个假定是:(C)A、各类别的先验概率P(C)是相等的B、以0为均值,sqr(2)/2为标准差的正态分布C、特征变量X的各个维度是类别条件独立随机变量D、P(X|C)是局斯分布3,下列说法错误的是(A)Krieans算法能够解决有离群点的聚类问题K-modes能够解决离散数据的聚类问题K-means^能够解决初始点影响聚类效果的问题K中心点能够解决有离群点的聚类问题4、只有非零值才重要的二元属性被称作:(C)A、计数属性 B、离散属性C,非对称的二元属性 D、对称属性5,以下哪些方法不可以直接来对文本分类(A)A、KmeansB,决策树C,支持向量机 D、KNN6、在logistic分类中,LI正则化和L2正则化的引入为了解决什么问题?(C)A、数据量不充分 B、训练数据不匹配C,训练过拟合 D、训练速度太慢7、标称类型数据的可以实现数学计算(A)A、众数B、中位数C,均值D、方差8、对于数据组:200,300,500,700,1000,使用最小-最大规范化,将数据规约到区间[5,10],其中数据500将变换为(C)A、7.375B、5.52C、6.875D、79、主成分分析(PCA)中各因子的关系是(A、互相独立 B、线性相关A)C、非线性相关D、都有可能10、数据科学家可能会同时使用多个算法(模型)进行预测,并且最后把这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是(B)A、单个模型之间有高相关性B、单个模型之间有低相关性C、在集成学习中使用“平均权重”而不是“投票”会比较好D、单个模型都是用的一个算法11,训练神经网络时,以下哪种激活函数最容易造成梯度消失:(B)

A、tanhA、tanhB、sigmoidC、ReLUD、leakyReLU12、在训练Lass。回归模型时,训练数据集有N个特征(XI,X2,…,XN)»在模型调优阶段的数据预处理时,无意将某个特征XX扩大了20倍,然后用相同的正则化参数对Lasso回归进行修正。那么,下列说法正确的是?(B)A、特征XX很可能被排除在模型之外B、特征XX很可能还包含在模型之中C、无法确定特征XX是否被舍弃D、其磔项说法髀对13、以下模型中,在数据预处理时,不需要考虑归一化处理的是:(C)A,logistic回归B、SVMC、树形模型 D、神经网络14、关于数据预处理,以下说法错误的是(B)A、可以通过聚类分析方法找出离群点。B、数据质量的三个基本属性(指标)是:正确性、精确性和完整性。C、聚类和回归算法可在数据预处理中做数据规约操作。D、数据集成包括内容集成和结构集成。15、如果对相同的数据进行逻辑回归,将花费更少的时间,并给出比较相似的精度(也可能不一样),怎么办?(假设在庞大的数据集上使用Logistic回归模型。可能遇到一个问题,Logistic回归需要很长时间才能训练。)(D)A、阳氐学习率,减少迭代次数 B、降低学习率,增加迭代次数C、提高学习率,增加迭代次数 D、增加学习率,减少迭代次数16、小明想使用逻辑回归预测用户点击某广告可能性,使用了变量xl,x2作为输入特征,两个变量量纲差异巨大,且xl本身呈双峰分布,两个分布中心数值差异巨大,请问小明应该怎么做特征工程(D)A,对xl,x2做min-max归一化B、对xl做z-score归一化,对x2做min-max归一化C、对xl,x2做z-score归一化D、以上皆不对17、关于逻辑回归和SVM算法,说法不正确的是(A)A、逻辑回归的目标是最小化后验概率B、逻辑回归可以用于预测事件发生概率的大小C、SVM的目标是最小化结构风险D、SVM可以有效避免模型过拟合18、以下关于逻辑回归的说法不正确的是?(C)A、逻辑回归必须对缺失值做预处理;B、逻辑回归要求自变量和目标变量是线性关系;C、逻辑回归比决策树,更容易过度拟合;D、逻辑回归只能做2值分类,不能直接做多值分类;19、有如下6条记录的数据集:tl=[0,P,B],t2=[P,B,M],t3=[M,A],t4=[0,P,M],t5=[0,P,B,A],t6-[0,P, 则支持度大于50%的频繁3项集为(A)

A、OPBBA、OPBB、OPMC、PBMD、OBM20、通常可以通过关联规则挖掘来发现啤酒和尿布的关系,那么如果对于一条规则A-B,如果同时购买A和B的顾客比例是4/7,而购买A的顾客当中也购买了B的顾客比例是1/2,而购买B的顾客当中也购买了A的顾客比例是1/3,则以下对于规则AfB的支持度(support)和置信度(confidence)分别是多少?(C)A、4/7,1/3 B、3/7,1/2C、4/7,1/2 D、4/7,2/321、下面关于关联规则的描述错误的是(D)A、关联规则经典的算法主要有Apriori算法和FP-growth算法B、FP-growth算法主要采取分而治之的策略C、FP-growth对不同长度的规则都有很好的适应性D、Apriori算法不需要重复的扫描数据库22、DBSCAN算法适用于哪种样本集(C)A、凸样本集B、非凸样本集C、凸样本集与非凸样本集 D、无法判断23、在k-均值算法中,以下哪个选项可用于获得全局最小?(D)A、尝试为不同的质心(centroid)初始化运行算法B、调整迭代的次数C、找到集群的最佳数量D、以上所有24、两个种子点A(T,0),B(-l,6),其余点为(0,0),(2,0),(0,6),(2,6),利用Kmeans算法,点群中心按坐标平均计算。最终同类点到种子点A和同类点到种子点B的距离和分别为(B)A、1,1B、2,2C、4,4D、6,625、一般情况下,KNN最近邻方法在(D)情况下效果最好A、样本呈现团状分布 B、样本呈现链状分布C、样本较多但典型性不好 D、样本较少但典型性好26、在使用朴素贝叶斯进行文本分类时,待分类语料中,有部分语句中的某些词汇在训练语料中的A类中从未出现过,下面哪些解决方式是正确的(C)A、按照贝叶斯公式计算,这些词汇并未在A类出现过,那么语句属于A类的概率为零。B、这种稀疏特征属于噪音,它们的加入会严重影响到分类效果,把这类特征从所有类别中删掉。C、这种特征可能会起到作用,不易简单删掉,使用一些参数平滑方式,使它起到作用。D、这种稀疏特征出现在的类别,该句更有可能属于该类,应该把特征从它未出现的类别中删掉。27、下面关于贝叶斯分类器描述错误的是(B)A、以贝叶斯定理为基础B、是基于后验概率,推导出先验概率C、可以解决有监督学习的问题D、可以用极大似然估计法解贝叶斯分类器28、我们想在大数据集上训练决策树,为了使用较少时间,我们可以(C)

A、增加树的深度C、减少树的深度A、增加树的深度C、减少树的深度D、减少树的数量29、在使用数据挖掘解决现实问题时,有时出现分类问题的正负样本集不均衡的现象,在这种情况下,以下哪种指标不合理?(B)A,FmeasureB、AccuracyC、AUC D、Gmean30、神经网络模型是受人脑的结构启发发明的。神经网络模型由很多的神经元组成,每个神经元都接受输入,进行计算并输出结果,那么以下选项描述正确的是(D)A、每个神经元只有一个单一的输入和单一的输出B、每个神经元有多个输入而只有一个单一的输出C、每个神经元只有一个单一的输入而有多个输出D、每个神经元有多个输入和多个输出二、(20分,总共10题,每题全对得2分,漏选得1分,错选得。分)不定项选择题1、采用决策树分类算法,连续数据如何处理?(AB)A、连续数据离散化 B、选择最佳划分点分裂C、连续数据每2个值之间形成分裂 D、以上均不正确2、主成分分析(PCA)是一种重要的降维技术,以下对于PCA的描述正确的是:(ABC)A、主成分分析是一种无监督方法B、主成分数量一定小于等于特征的数量C、各个主成分之间相互正交D、原始数据在第一主成分上的投影方差最小3、影响基本K-均值算法的主要因素有(ABD)oA,样本输入页序 B、模式相似性测度C,聚类准则 D、初始类中心的选取4、关于K均值和DBSCAN的比较,以下说法正确的是(ABC)A、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念B、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。C、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇D、K均值丢弃被它识别为噪声的时象,而DBSCAN一般聚类所有对象5、贝叶斯分类器的训练中,最大似然法估计参数的过程包括以下哪些步骤(ABCD)A、写出似然函数B、求导数,令偏导数为0,得到似然方程组C、对似然函数取对数,并整理D、解似然方褶且,得到所有参数即为所求6、决策树中属性选择的方法有?(BCD)A、信息值 B、信息增益C、信息增益率 D、GINI系数7、在数据挖掘中需要划分数据集,常用的划分测试集和训练集的划分方法有哪些(ABC)A、留出法B、交叉验证法 C、自助法D、评分法8、下列有关机器学习中L1正则化和L2正则化说法正确的是?(AD)A、使用L1可以得到稀疏的权值B、使用L2可以得到稀疏的权值C、使用L1可以得到平滑的权值D、使用L2可以得到平滑的权值9、下列哪些因素会对BP神经网络的训练效果产生影响(ABCD)A、权值初始值 B,阈值初始值C,学习率 D,隐层神经元个数10、下列关于随机森林和Adaboost说法正确的是(ACD)A、和Adaboost相比,随机森林对错误和离群点更鲁棒B、随机森林准确率不依赖于个体分类器的实例和他们之间的依赖性C、随机森林对每次划分所考虑的属性数很偏感D、Adaboost初始时每个训练元组被赋予相等的权重三、(10分,总共10题,每题答对得1分,答错得0分)判断题,正确的用“T”,错误的用“F”1、具有较高的支持度的项集具有较高的置信度。(错)2、利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。(对)3、可以利用概率统计方法估计数据的分布参数,再进一步估计待测试数据的概率,以此来实现贝叶斯分类。(对)4、数据库中某属性缺失值比较多时,数据清理可以采用忽略元组的方法。(错)5、K-means++自睇解决初始点影响聚类效果的问题。(对)6、逻辑回归等同于一个使用交叉墉loss,且没有隐藏层的神经网络。(对)7、朴素贝叶斯分类器不存在数据平滑问题。(错)8、逻辑回归分析需要对离散值做预处理,决策树则不需要。(对)9、在AdaBoost算法中,所有被分错的样本的权重更新比例相同。(对)10、分类和回归都可用于预测,分类的输出是连续数值,而回归的输出是离散的类别值。(错)四、(10分)假设正常对象被分类为离群点的概率是0.01,而离群点被分类为离群点概率为0.99,如果99%的对象都是正常的,那么检测率和假警告率各为多少?(使用下面的定义)

检测率=假警告率=检测出的离群点个数

离群点的总数检测率=假警告率=假离群点的个数被分类为离群点的个数观察发现,每天有10%观察发现,每天有10%概率需求40份,30%概率需求50份,40%概率需求40份,20%概率需求70份,做出下方部分决策树:五、(10分)小明开家餐厅卖炒饭,每份炒饭售价10元,成本8元,每天需要以10份为单位提前准备炒饭,按每天可能需求40,50,60,70彳分炒饭做出下方支付矩阵:•兴建S装炒坂的供应量40份50份60份70份40份80元。元-80元-160元50份80元100元20元-60元60份80元100元120元40元70份80元100元120元140元请计算准备50份炒饭的利润的期望值?六、(10分)从某超市顾客中随机抽取5名,他们的购物篮数据的二元0/1表示如下:面包牛奶尿布啤酒鸡蛋可乐

11100002101110301110141111005111001某学生依据此数据做关联分析,考虑规则{牛奶,尿布}->{啤酒},请计算该规则的支持度(support).置信度(confidence)。七、(10分)下表的数据集包含两个属性X与丫,两个类标号“+”和。每个属性取三个不同值策略:0,1或2。”+”类的概念是丫=1, 类的概念是烂0andX=2。XY实例擞+-00010010002001001110021101000201001200220100⑴建立该数据集的决策树。该决策树能捕捉至甘+”和”的概念吗?(注意:纯性度量采用ClassificationError,Error©=1-max|t))(2)决策树的准确率、精度、召回率和Fl各是多少?(注意:精度,召回率和F1量均是对“+”类的定义)四、解:TOC\o"1-5"\h\z假警告率=(99%*1%)/(99W:l%+l%*99%)=50% 5检测率=(1%99%)/(1%)=99% 5五、解:需求40的利润:0.1*0=0 2

需求50的利润:0.3*100=30 2需求60的利润:0.4*100=40 2需求70的利润:0.2*100=20 2利润期望值:30+40+20=90 2六、解:支持度:{牛奶,尿布,啤酒}都出现的个数/事务数=2/5 5置信度:{牛奶,尿布,啤酒}都出现的个数/{牛奶,尿布}出现的个数=2/3 5七、解:(1)4在数据集中有20个正样本和500个负样本,因此在根结点处错误率为E=l-max(1分)x=oX=1X=2+01010-2000300如果按照属性X划分,5JIJE=l-max(1分)x=oX=1X=2+01010-2000300如果按照属性X划分,5JIJ:Ex=0=0/310=0Ex=l=0/10=0Ex=2=10/310△x=£-200 *052010 31010 10 *0 * = (1分)520 520310520YRY=1Y=2+0200-200100200如果按照属性丫划分,则:EY=0=0/200=0EY=l=20/120EY=2R/200=012052020 ■=0120(1分)因此X被选为第一个分裂属性,因为X=0和X=1都是纯节点,所以使用Y属性去分割不纯节点X=2。YR节点包含100个负样本,Y=1节点包含10个正样本和100个负样本,丫二2节点100个负样本,所以子节点被标记为“Jo整个结果为:(2分)+,X=1其他(2)(每个1分,总计5分)预测类+-实际类+1010-0500•,1°

precision:—•,1°

precision:—=1.0

1052010recal10recal1:—=0.5,20F-measure: =0.66661.0+0.5数据挖掘原理与应用试题及答案试卷一、(30分,总共30题,每题答对得1分,答错得0分)单选题1、在ID3算法中信息增益是指(D)A、信息的溢出程度 B、信息的增加效益C、端增加的程度最大 D、烯减少的程度最大2、下面哪种情况不会影响kmeans聚类的效果?(B)A、数据点密度分布不均B、数据点呈圆形状分布C、数据中有异常点存在D、数据点呈非凸形状分布3、下列哪个不是数据对象的别名(C)A、样品B、实例C、维度D、元组4、人从出生到长大的过程中,是如何认识事物的?(D)A、聚类过程B、分类过程C、先分类,后聚类D、先聚类,后分类5、决策树模型中应如何妥善处理连续型属性:(C)A、直接忽略 B、利用固定阈值进行离散化C、根据信息增益选择阈值进行离散化D、随机选择数据标签发生变化的位置进行离散化6、假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70.问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:(A)A、18.3B,22.6C、26.8D、27.97、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A,根据内容检索 B、建模描述C、预测建模 D、寻找模式和规则8、如果现在需要对一组数据进行样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量,应该采取(A)A,聚类分析 B、回归分析C、相关分析D、判别分析9、时间序列数据更适合用(A)做数据规约。A、小波变换 B、主成分分析 C、决策树 D、直方图10、下面哪些场景合适使用PCA?(A)A、阳氐数据的维度,节约内存和存储空间B、降低数据维度,并作为其它有监督学习的输入C、获得更多的特征D、替代线性回归11、数字图像处理中常使用主成分分析(PCA)来对数据进行降维,下列关于PCA算法错误的是:(C)A、PCA算法是用较少数量的特征对样本进行描述以达到降低特征空间维数的方法;B、PCA本质是KL-变换;C、PCA是最小绝对值误差意义下的最优正交变换:D、PCA算法通过对协方差矩阵做特征分解获得最优投影子空间,来消除模式特征之间的相关性、突出差异性;12、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A,频繁模式挖掘 B,分类和预测C、数据预处理 D、数据流挖掘13、假设使用维数降低作为预处理技术,使用PCA将数据减少到k维度。然后使用这些PCA预测作为特征,以下哪个声明是正确的?(B)A、更高的“k”意味着更正则化 B、更高的“k”意味着较少的正则化C,都不对 D、都正确14、为节省神经网络模型的训练时间,神经网络模型的权重和偏移参数一般初始化为(D)A、0B、0.5C、1D,随机值15、在逻辑回归输出与目标对比的情况下,以下评估指标中哪一项不适用?(D)A、AUC-ROCB、准确度C、LoglossD、均方误差16、假设对数据提供一个逻辑回归模型,得到训练精度X和测试精度Yo在数据中加入新的特征值,则下列哪一项是正确的?提示:其余参数是一样的。(B)A,训练精度总是下降 B、训练精度总是上升或不变C,测试精度总是下降 D、测试精度总是上升或不变17、SVM(支持向量机)与LR(逻辑回归)的数学本质上的区别是什么?(A)A、损失函数 B、是否有核技巧 C、是否支持多分类 D、其余选项皆错18、逻辑回归为什么是一个分类算法而不是回归算法?(A)A、是由于激活函数sigmod把回归问题转化成了二分类问题B、是由于激活函数maxsoft把回归问题转化成了二分类问题C、是由于激活函数tanh把回归问题转化成了二分类问题D、是由于激活函数Relu把回归问题转化成了二分类问题19、以下关于逻辑回归说法错误的是:(C)A、特征归一化有助于模型效果B、逻辑回归是一种广义线性模型C、逻辑回归相比最小二乘法分类器对异常值更敏感D、逻辑回归可以看成是只有输入层和输出层且输出层为单一神经元的神经网络20、Apriori算法的计算复杂度受(D)影响A,项数(维度) B、事务平均宽度 C、事务数D、支持度阀值21、考虑下面的频繁3-项集的集合:{1.2.3},{1.2.4},{1.2.5},{1.3.4},{1.3.5},{2.3.4},{2.3.5},{3.4.5}«假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含(C)A、1.2.3.4B、1.2.3.5C、1.2.4.5D、1.3.4.522、在关联规则中,有三个重要的指标,支持度(support),置信度(confident),作用度(lift),则对于规则X->Y的三个指标说法错误的是(N表示所有的样本item数目):(C)A、support=freq(X,Y)/NB、confident=freq(X,Y)/freq(x)C,lift=freq(X,Y)/freq(Y)D、lift=freq(X,Y)*N/(freq(X)*freq(Y))23、在基本K均值算法里,当邻近度函数采用(A)的时候,合适的质心是簇中各点的中位数。A、曼哈顿距离 B、平方欧几里德距离C、余弦距离D、Bregman散度24、一共5个点A(0,0),B(l,0.3),C(3,0.5),D(2,1),E(1.8,1.5),采用Kmeans方法如果选取A,D为种子点,B,C,E分别属于(A)种子点A、A,D,DB、A,A,DC、D,D,AD、D,A,D25、图像中应用的kmeans算法,以下说法错误的是:(D)A、kmeans算法有效的前提假设是数据满足高斯分布B、kmeans需要手工指定类别的数目KC、对于多维实数数据,kmeans算法最终一定是收敛的D、kmeans算法可以直接得到类别分布的层级关系26、以下关于KNN的描述,不正确的是(A)A、KNN算法只适用于数值型的数据分类B、KNN算法对异常值不敏感C、KNN算法无数据输入假定D、其他说法都正确27、假定某同学使用贝叶斯分类模型时,由于失误操作,致使训练数据中两个维度重复表示。下列描述中正确的是:(B)A、被重复的在模型中作用被加强B、模型效果精度降低C、如果所有特征都被重复一遍,则预测结果不发生变化D,以上均正确28、在其他条件不变的前提下,以下哪种做法容易引起模型中的过拟合问题?(D)A、增加训练集量B、减少神经网络隐藏层节点数C、删除稀疏的特征I)、SVM算法中使用高斯核/RBF核代替线性核29、下列哪一项在神经网络中引入了非线性(B)A、SGD B、激活函数 C、卷积函数 D、都不正确30、下列哪个神经网络结构会发生权重共享(D)A、卷积神经网络 B、循环神经网络C,全连接神经网络 D、选项A和B二、(20分,总共10题,每题全对得2分,漏选得1分,错选得0分)不定项选择题1、下列哪些是非监督数据离散化方法(ABC)A,等宽法B,等频法C、聚类法D、决策树法(ABC2、在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法有:(ABCA、忽略元组 B、使用属性的平均值填充空缺值C、使用一个全局常量填充空缺值 D、使用最可能的值填充空缺值3、序数类型数据的可以实现数学计算 (AB)A、众数B、中位数C,均值D、方差4、应用PCA后,以下哪项可以是前两个主成分?(CD)(0.5,0.5,0.5,0.5)和(0.71,0.71,0,0)(0.5,0.5,0.5,0.5)和(0,0,-0.71,0.71)C、(0.5,0.5,0.5,0.5)和(0.5,0.5,-0.5,-0.5)D、(0.5,0.5,0.5,0.5)和(-0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论