版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘工程师笔试及答案一、单项选择题(每题2分,共20分)1.在Apriori算法中,若最小支持度阈值设为0.05,则下列哪一项描述正确?A.所有频繁1项集的支持度均大于0.05B.所有非频繁1项集的支持度均小于0.05C.所有频繁k项集的支持度均大于等于0.05D.所有非频繁k项集的支持度均小于等于0.05答案:C2.给定数据集D={1,2,3,4,5,6,7,8,9,10},采用等宽分箱法分为5箱,则第3箱的区间是:A.[5.0,6.8]B.[5.0,7.0)C.[5.2,7.0)D.[5.0,7.0]答案:B3.在随机森林中,关于OOB误差的叙述,正确的是:A.OOB误差随树的数量线性下降B.OOB误差是训练集上的误差C.OOB误差可用于变量重要性评估D.OOB误差与袋外样本无关答案:C4.下列哪种距离度量对异常值最不敏感?A.欧氏距离B.曼哈顿距离C.切比雪夫距离D.余弦相似度答案:B5.在Kmeans聚类中,若初始中心点选择不当,最可能导致的后果是:A.聚类结果为空B.聚类结果陷入局部最优C.聚类结果无法收敛D.聚类结果维度爆炸答案:B6.在梯度提升树(GBDT)中,Shrinkage参数的作用是:A.控制树的最大深度B.控制每棵树对最终模型的贡献率C.控制叶子节点最小样本数D.控制特征抽样比例答案:B7.下列关于PCA的叙述,错误的是:A.主成分方向是协方差矩阵的特征向量B.主成分之间正交C.第一主成分解释方差最大D.主成分数量必须小于原始特征数答案:D8.在文本挖掘中,TFIDF公式里IDF的作用是:A.提升高频词权重B.降低高频词权重C.提升文档长度D.降低文档差异答案:B9.若某二分类模型的ROC曲线下面积AUC=0.83,则其对应的Gini系数为:A.0.66B.0.34C.0.83D.0.17答案:A10.在SparkMLlib中,下列哪类算法默认采用LBFGS优化器?A.ALSB.Word2VecC.LogisticRegressionD.KMeans答案:C二、多项选择题(每题3分,共15分,多选少选均不得分)11.下列哪些方法可用于处理类别不平衡?A.SMOTE过采样B.代价敏感学习C.集成BaggingD.阈值移动答案:A,B,D12.关于Hadoop与Spark的对比,正确的有:A.Spark基于内存计算B.MapReduce任务中间结果落盘C.Spark仅支持批处理D.HadoopYARN可为Spark提供资源调度答案:A,B,D13.在特征选择中,属于过滤式(Filter)方法的有:A.卡方检验B.互信息C.Lasso回归D.方差选择法答案:A,B,D14.下列哪些操作会导致数据泄露(DataLeakage)?A.先整体标准化再划分训练测试集B.用未来特征预测过去标签C.交叉验证前做特征选择D.用训练集均值填充测试集缺失值答案:A,B,C15.关于深度学习中的BatchNormalization,正确的有:A.可加速收敛B.可替代DropoutC.在卷积层与激活层之间使用D.测试阶段使用移动平均的均值方差答案:A,C,D三、填空题(每空2分,共20分)16.给定事务数据库,项集{牛奶,面包}的支持度计数为50,总事务数为1000,则支持度为____%。答案:517.在信息论中,若随机变量X的熵H(X)=0,则X的取值具有____性。答案:确定18.若某决策树使用基尼指数作为划分标准,则节点基尼指数越小,表示节点____越高。答案:纯度19.在Word2Vec中,Skipgram模型的训练目标是最大化给定中心词预测____的概率。答案:上下文词20.若LSTM的遗忘门输出接近0,则上一时刻的细胞状态C_{t1}将被____。答案:丢弃21.在关联规则中,置信度计算公式为____。答案:支持度(A∪B)/支持度(A)22.若采用5折交叉验证,数据集大小为10000,则每折用作训练的样本数约为____。答案:800023.在XGBoost中,控制叶子节点权重的正则项参数是____。答案:lambda24.若某连续特征服从标准正态分布,则其数值落在[μ2σ,μ+2σ]的概率约为____%。答案:95.4525.在PageRank算法中,阻尼系数d通常取值为____。答案:0.85四、简答题(共30分)26.(6分)简述Kmeans++算法与原始Kmeans在初始化策略上的差异,并说明其对聚类效果的影响。答案:Kmeans++改进了随机选中心的方式,步骤如下:1)随机选取第一个中心;2)对于每个非中心点,计算其与最近中心的距离D(x);3)以概率D(x)²/ΣD(x)²选取下一个中心;4)重复直至选满k个。该策略使初始中心彼此远离,降低陷入局部最优概率,实验表明其收敛速度提升约20%~50%,SSE(误差平方和)平均下降10%以上。27.(6分)写出ID3算法使用信息增益选择划分属性的完整公式,并解释为何C4.5改用增益率。答案:信息增益Gain(D,a)=Ent(D)∑(v=1→V)|D^v|/|D|·Ent(D^v),其中Ent(D)=∑(k=1→|y|)p_klog₂p_k。信息增益偏向取值数目多的属性,增益率Gain_ratio(D,a)=Gain(D,a)/IV(a),IV(a)=∑(v=1→V)|D^v|/|D|log₂|D^v|/|D|,通过除以固有值IV(a)惩罚取值多的属性,提升泛化能力。28.(6分)说明FPGrowth算法为何比Apriori高效,并指出其内存消耗瓶颈。答案:FPGrowth采用压缩的FPtree结构,避免候选集生成与多次扫描数据库,只需两次扫描:第一次统计频繁1项集,第二次构建FPtree;挖掘时通过条件模式基递归增长频繁项,时间复杂度由Apriori的O(2^m)降至O(m·|DB|)。瓶颈在于FPtree需常驻内存,当数据稀疏或最小支持度极低时,树节点爆炸,内存占用可能超过Apriori。29.(6分)解释过拟合与欠拟合的成因,并各给出两种缓解措施。答案:过拟合成因:模型复杂度过高、训练数据不足、噪声过大。缓解:①正则化(L1/L2);②早停;③Dropout;④数据增强。欠拟合成因:模型复杂度不足、特征表达能力弱、训练不充分。缓解:①增加模型复杂度(如提升树深度);②构造高阶特征;③减少正则化强度;④延长训练迭代。30.(6分)描述MapReduce实现朴素贝叶斯分类器训练过程的Map与Reduce阶段具体键值对设计。答案:Map阶段:输入<文本行偏移,行文本>,解析为(标签,特征列表)。对每对(标签,特征),输出键值对<(“Y=标签”,1)>与<(“Y=标签,X_i=特征值”,1)>。Combiner局部聚合:统计同一键的计数。Reduce阶段:对键“Y=标签”求和得类别先验计数;对键“Y=标签,X_i=特征值”求和得似然计数;最终输出<(“Y=标签”,N_y)>与<(“Y=标签,X_i=特征值”,N_y,xi)>,供后续概率估计。五、计算与分析题(共35分)31.(10分)给定如下训练集,使用朴素贝叶斯预测测试样本X=(天气=晴,温度=冷,湿度=高,风速=强)的“是否打球”标签。训练集(10条):编号天气温度湿度风速打球1晴热高弱否2晴热高强否3阴热高弱是4雨温和高弱是5雨冷正常弱是6雨冷正常强否7阴冷正常强是8晴温和高弱否9晴冷正常弱是10雨温和正常弱是要求:使用拉普拉斯平滑(加1平滑),写出详细计算过程,并给出最终分类结果。答案:1)先验概率:P(是)=6/10,P(否)=4/10。2)似然概率(平滑):天气=晴:P(晴|是)=(2+1)/(6+3)=3/9=1/3P(晴|否)=(3+1)/(4+3)=4/7温度=冷:P(冷|是)=(3+1)/(6+3)=4/9P(冷|否)=(1+1)/(4+3)=2/7湿度=高:P(高|是)=(2+1)/(6+2)=3/8P(高|否)=(3+1)/(4+2)=4/6=2/3风速=强:P(强|是)=(1+1)/(6+2)=2/8=1/4P(强|否)=(2+1)/(4+2)=3/6=1/23)联合似然×先验:P(X|是)P(是)=(1/3)(4/9)(3/8)(1/4)(6/10)=0.00278P(X|否)P(否)=(4/7)(2/7)(2/3)(1/2)(4/10)=0.010884)归一化:P(是|X)=0.00278/(0.00278+0.01088)=0.203P(否|X)=0.797结论:预测为“否”。32.(10分)某电商用户商品评分矩阵如下(缺失值用?表示)。采用基于物品的协同过滤,使用余弦相似度,邻居数上限为2,预测用户U3对物品I3的评分。用户\物品I1I2I3I4U153?1U24?42U332?4U4434?要求:写出相似度计算、邻居选择、预测公式及最终结果,保留2位小数。答案:1)计算物品I3与其他物品的余弦相似度(仅基于共同评分用户):I3与I1:共同用户U2,U4sim(I3,I1)=(4×4+4×4)/√(4²+4²)√(4²+4²)=32/32=1.00I3与I2:共同用户U4sim(I3,I2)=(4×3)/√(4²)√(3²)=12/(4×3)=1.00I3与I4:共同用户U2sim(I3,I4)=(4×2)/√(4²)√(2²)=8/(4×2)=1.002)邻居选择:取相似度最高的2个邻居,可任取,此处选I1、I2。3)预测公式:r̂_{U3,I3}=r̄_{I3}+[sim(I3,I1)(r_{U3,I1}r̄_{I1})+sim(I3,I2)(r_{U3,I2}r̄_{I2})]/(|sim|)r̄_{I3}=(4+4)/2=4r̄_{I1}=(4+3+4)/3=3.67r̄_{I2}=(3+2+3)/3=2.67r_{U3,I1}=3,r_{U3,I2}=2r̂=4+[1×(33.67)+1×(22.67)]/2=4+(0.670.67)/2=40.67=3.33结论:预测评分为3.33。33.(15分)某二分类任务采用逻辑回归,特征维度d=20,训练集N=10000,测试集N=2000。实验记录如下:实验正则化特征标准化训练AUC测试AUC1None否0.970.812L2否0.920.873L2是0.900.89(1)分析实验1过拟合原因,写出两种改进策略并说明原理。(6分)(2)解释为何实验3相比实验2测试AUC提升,但训练AUC下降。(4分)(3)若改用随机森林,树数T=500,最大深度不限,最小叶子节点样本为1,预测训练AUC≈1,测试AUC≈0.85。请给出两种抑制过拟合的参数调整方案,并预测调整后测试AUC变化趋势。(5分)答案:(1)实验1无正则化且特征未标准化,导致某些数值大的特征权重过大,模型过度拟合训练噪声。改进:①加入L2正则,惩罚大权重,降低模型复杂度;②实施特征标准化,使各特征处于同一尺度,避免梯度下降被单一特征主导。(2)标准化后,特征尺度一致,梯度下降收敛更稳定,权重估计更
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年防震减灾知识竞赛试卷及答案(一)
- 生态环境影响责任履行承诺书4篇范文
- 职业病防护责任承诺书4篇
- 项目团队绩效管理工具集
- 精神卫生保障承诺书5篇
- 2026北京兴宾通人力资源管理有限公司面向社会招聘劳务派遣人员4人备考题库附参考答案详解(基础题)
- 安徽财经大学《法语写作》2024 - 2025 学年第一学期期末试卷
- 2026云南红河州个旧市医疗卫生共同体贾沙分院招聘编外工作人员1人备考题库附参考答案详解(能力提升)
- 生态保护贡献责任声明书5篇
- 2026上半年贵州事业单位联考德江县招聘36人备考题库附参考答案详解(a卷)
- 2026湖北十堰市丹江口市卫生健康局所属事业单位选聘14人参考考试题库及答案解析
- 手术区消毒和铺巾
- 企业英文培训课件
- 土方回填安全文明施工管理措施方案
- 危废处置项目竣工验收规范
- (正式版)DBJ33∕T 1307-2023 《 微型钢管桩加固技术规程》
- 2025年宠物疫苗行业竞争格局与研发进展报告
- 企业安全生产责任培训课件
- 绿化防寒合同范本
- 2025年中国矿产资源集团所属单位招聘笔试参考题库附带答案详解(3卷)
- 中国昭通中药材国际中心项目可行性研究报告
评论
0/150
提交评论