2026年人工智能数据挖掘易错试题

上传人：1*** IP属地：四川上传时间：2026-04-09 格式：DOCX 页数：12 大小：42.05KB 积分：12 举报 版权申诉

已阅读5页，还剩7页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2026年人工智能数据挖掘易错试题1.单项选择题（每题2分，共20分）1.1在K-means聚类中，若某次迭代后所有簇的质心不再移动，下列哪一项一定成立？A.所有样本到其所属簇质心的距离之和达到全局最小B.所有样本到其所属簇质心的距离之和达到局部最小C.所有样本到全局质心的距离之和达到局部最小D.所有簇的SSE（SumofSquaredErrors）等于01.2给定一个高度不平衡的二分类数据集（正类占1%，负类占99%），使用准确率（Accuracy）作为评估指标的主要风险是：A.模型会过拟合正类B.模型会过拟合负类C.即使模型全部预测为负类，准确率仍高达99%D.精确率（Precision）一定等于召回率（Recall）1.3在Apriori算法中，若频繁3-项集L₃={{A,B,C},{A,B,D},{A,C,D},{B,C,D}}，则候选4-项集C₄的大小为：A.0B.1C.2D.41.4使用PCA降维时，若保留前k个主成分，则重构误差最小的解释是：A.前k个主成分的方差贡献率之和最大B.前k个主成分的协方差矩阵行列式最大C.前k个主成分对应的特征值之和最小D.所有主成分的方差贡献率相等1.5在随机森林中，关于“Out-of-Bag(OOB)误差”的描述，错误的是：A.无需额外验证集即可估计泛化误差B.每棵树的OOB样本用于计算该树的训练误差C.OOB误差是每棵树对其未参与训练的样本投票后的整体误差D.OOB估计与交叉验证结果通常高度相关1.6当使用梯度提升树（GBDT）时，若学习率设置过大，最不可能出现的现象是：A.训练误差快速下降但验证误差震荡B.模型在训练集上无法收敛C.模型陷入局部最小值D.过拟合速度加快1.7在文本挖掘中，TF-IDF值对下列哪种词最可能给出最高权重？A.在单篇文档中出现频率高且在整个语料库中出现频率高的词B.在单篇文档中出现频率高且在整个语料库中出现频率低的词C.在单篇文档中出现频率低且在整个语料库中出现频率高的词D.在单篇文档中出现频率低且在整个语料库中出现频率低的词1.8若使用线性核的SVM对线性不可分数据进行分类，下列措施中最无效的是：A.增加惩罚参数CB.采用RBF核C.进行特征多项式扩展D.使用软间隔1.9在深度自编码器中，若隐含层维度大于输入层维度，且未加入正则化，最容易出现：A.梯度消失B.梯度爆炸C.恒等映射导致无效特征提取D.死神经元1.10对于流式数据，使用HoeffdingTree算法时，若分裂评价函数连续多次判定同一特征最佳，但仍不分裂，最可能的原因是：A.内存溢出B.未满足Hoeffdingbound置信区间C.特征取值缺失D.数据分布突变2.多项选择题（每题3分，共15分；多选少选均不得分）2.1下列哪些操作会显著增加Word2Vec词向量的“语义线性性”？A.增大窗口尺寸B.采用NegativeSamplingC.对高频词进行SubsamplingD.增加向量维度2.2关于SMOTE过采样，下列说法正确的是：A.在特征空间进行插值B.可能产生噪声样本C.会降低多数类样本数量D.对高维稀疏数据效果通常较差2.3在GraphNeuralNetwork中，消息传递机制包含哪些步骤？A.AggregateB.UpdateC.PoolD.Readout2.4使用贝叶斯优化进行超参数调优时，采集函数（AcquisitionFunction）可选择：A.PI(ProbabilityofImprovement)B.EI(ExpectedImprovement)C.UCB(UpperConfidenceBound)D.MSE(MeanSquaredError)2.5下列哪些方法可用于检测孤立点（Outlier）？A.LOFB.One-ClassSVMC.DBSCAND.IsolationForest3.判断题（每题1分，共10分；正确打“√”，错误打“×”）3.1在EM算法中，E步计算的是隐变量的后验概率。3.2使用Dropout时，测试阶段仍需以概率p随机失活神经元。3.3L1正则化比L2更易产生稀疏解。3.4在PageRank中，阻尼系数α通常设为0.5。3.5若两个随机变量独立，则它们的互信息一定为0。3.6对同一数据集，k-NN的k值越大，决策边界越平滑。3.7在关联规则中，若规则A→B的置信度为1，则支持度也一定为1。3.8使用BatchNormalization可以减缓内部协变量偏移。3.9在深度强化学习中，Q-learning属于策略梯度方法。3.10当CNN的卷积核全部初始化为0时，网络仍可正常训练。4.填空题（每空2分，共20分）4.1给定二维数据X={(1,2),(2,3),(3,4)}，其协方差矩阵的迹为________。4.2若某频繁项集的支持度为0.01，事务总数为10⁶，则该项集出现的事务条数为________。4.3在t-SNE中，控制困惑度（Perplexity）参数可近似理解为调节有效________数。4.4使用RBF核的SVM，其核函数公式为K(x,y)=exp(−γ∥x−y∥²)，其中γ>0控制________。4.5若某GBDT模型共迭代T次，每次使用残差拟合一棵深度为d的回归树，则整体模型的最大叶子节点数为________。4.6在Transformer中，ScaledDot-ProductAttention的缩放因子为________。4.7若某卷积层输入张量尺寸为32×32×3，使用64个5×5卷积核，stride=1，padding=2，则输出特征图尺寸为________。4.8当使用EarlyStopping时，一般监控的指标为验证集上的________。4.9在HMM中，评估问题通常采用________算法解决。4.10若某深度学习模型使用ReLU激活，则其在负半轴的梯度为________。5.简答题（每题6分，共18分）5.1解释“维度灾难”在k-NN中的具体表现，并给出两种缓解措施。5.2简述XGBoost相对于传统GBDT的三项主要改进，并说明其带来的好处。5.3描述Self-Attention机制如何捕捉长距离依赖，并指出其与RNN相比的两项优势。6.计算与推导题（共17分）6.1（7分）给定一维数据集{−3,−2,0,2,3}，假设初始簇中心为−2与2，运行一次K-means迭代，要求：(1)写出簇分配结果；(2)计算新的簇中心；(3)计算本次迭代的SSE。6.2（10分）某电商采用UpliftModel评估优惠券效果，随机实验得到以下数据：组别人数购买人数实验组(T)1000120对照组(C)100080实验组未处理(T⁰)500（假设）40对照组处理(C¹)500（假设）90(1)计算平均处理效应（ATE）；(2)计算条件平均处理效应（CATE）在“高价值用户”子群（占总体20%，实验组转化率15%，对照组转化率5%）的数值；(3)若采用Two-Model方法，请写出uplift的估计公式，并解释其偏差来源。7.综合应用题（共20分）7.1某市地铁闸机每分钟记录乘客刷卡时间戳，形成高维稀疏矩阵。现需检测异常滞留行为（如闸机口徘徊）。请：(1)给出特征工程方案（至少三项特征）；(2)选择两种算法并说明理由；(3)设计评估指标，解释为何不用Accuracy；(4)给出线上部署的实时流程图（文字描述即可）。8.答案与解析8.1单项选择题1.B2.C3.B4.A5.B6.C7.B8.A9.C10.B解析示例：1.4PCA重构误差最小等价于保留最大方差方向，故选A。1.9无正则化时，网络可将隐含层学得与输入层一致，形成恒等映射，失去压缩意义。8.2多项选择题2.1ACD2.2ABD2.3ABD2.4ABC2.5ABCD解析示例：2.3消息传递经典三步：Aggregate、Update、Readout；Pool属于图级任务可选步骤。8.3判断题3.1√3.2×3.3√3.4×（应为0.85）3.5√3.6√3.7×3.8√3.9×3.10×8.4填空题4.12.33（计算协方差矩阵迹为tr(Σ)=σ₁₁+σ₂₂=2.5+0.166≈2.67，保留两位小数2.67）4.210⁴4.3邻居4.4样本间相似度的衰减速度4.5T·2^{d−1}4.6√d_k4.732×32×644.8损失或指标（如loss、AUC）4.9Forward-Backward4.1008.5简答题要点5.1维度灾难表现：距离度量失效、存储爆炸、过拟合。缓解：降维(PCA)、近似最近邻(ANN)。5.2改进：二阶导近似、正则项、并行块结构。好处：加速、防过拟合、可扩展。5.3Self-Attention通过全局点积直接建模任意位置关联；优势：并行、长依赖无梯度消失。8.6计算题详细步骤6.1(1)簇1：{−3,−2,0}，簇2：{2,3}(2)新中心：−5/3≈−1.67，2.5(3)SSE=(0.44+0.44+2.78)+(0.25+0.25)=4.166.2(1)ATE=P(T)−P(C)=120/1000−80/1000=0.04(2)CATE=15%−5%=0.10(3)Two-Model：τ

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2026年人工智能数据挖掘易错试题

文档简介

温馨提示

最新文档

评论

2026年人工智能数据挖掘易错试题

文档简介

温馨提示

最新文档

评论

相关文档