数据挖掘试题及答案_第1页
数据挖掘试题及答案_第2页
数据挖掘试题及答案_第3页
数据挖掘试题及答案_第4页
数据挖掘试题及答案_第5页
已阅读5页,还剩10页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘试题及答案一、单项选择题(每题2分,共20分。每题只有一个正确答案,请将正确选项的字母填入括号内)1.在Apriori算法中,若最小支持度阈值设为0.3,事务数据库中总事务数为1000,则下列哪一项的频繁1项集一定成立?A.出现次数为280的项B.出现次数为300的项C.出现次数为320的项D.出现次数为290的项(答案:C)2.关于决策树中信息增益率的描述,下列说法正确的是:A.信息增益率对可取值数目较多的属性有天然偏好B.信息增益率等于信息增益除以属性的固有值C.信息增益率一定大于信息增益D.信息增益率无法处理连续属性(答案:B)3.在Kmeans聚类中,若初始簇中心选择不当,最可能导致的后果是:A.聚类结果簇内平方和增大B.算法无法收敛C.簇间距离显著增大D.聚类结果必然出现空簇(答案:A)4.下列关于朴素贝叶斯分类器的假设,哪一项是其核心前提?A.特征之间完全相关B.特征之间条件独立C.类先验概率服从均匀分布D.特征服从多元高斯分布(答案:B)5.在FPgrowth算法中,FPtree的构建顺序依据的是:A.支持度降序B.支持度升序C.字母字典序D.事务出现顺序(答案:A)6.当使用DBSCAN聚类时,若参数Eps设置过大,最可能出现的局面是:A.大量噪声点被单独成簇B.整个数据集被合并为单一簇C.簇数量急剧增加D.核心点数量降为零(答案:B)7.在AdaBoost算法中,被前一轮错误分类的样本在下一轮会:A.权重被减小B.权重被增大C.被直接剔除D.权重不变(答案:B)8.下列哪种技术最适合处理高维稀疏文本数据的特征选择?A.卡方检验B.互信息C.方差选择法D.递归特征消除(答案:A)9.在关联规则挖掘中,若规则X→Y的置信度为0.8,则下列说法一定成立的是:A.support(X∪Y)=0.8B.support(X∪Y)/support(X)=0.8C.support(Y)=0.8D.lift(X→Y)=0.8(答案:B)10.使用PCA降维时,若保留前k个主成分,则重构误差与k的关系是:A.随k增加而单调不减B.随k增加而单调不增C.与k无关D.先增后减(答案:B)二、多项选择题(每题3分,共15分。每题有两个或两个以上正确答案,多选、少选、错选均不得分)11.以下哪些措施可以缓解决策树的过拟合?A.预剪枝B.后剪枝C.增加最大深度D.设置最小样本分裂数(答案:A、B、D)12.关于支持向量机(SVM),下列说法正确的有:A.核函数可将非线性问题映射到高维线性可分空间B.软间隔允许少量误分类C.目标函数仅最小化间隔D.支持向量是距离超平面最近的样本(答案:A、B、D)13.在协同过滤推荐系统中,可能遇到的典型问题包括:A.冷启动B.稀疏性C.可扩展性D.过拟合(答案:A、B、C)14.以下哪些算法属于集成学习范畴?A.RandomForestB.GradientBoostingDecisionTreeC.XGBoostD.Kmeans++(答案:A、B、C)15.下列哪些指标可用于评估二分类模型性能?A.ROCAUCB.F1scoreC.轮廓系数D.PRAUC(答案:A、B、D)三、填空题(每空2分,共20分)16.在ID3算法中,用于选择划分属性的指标是________,其计算公式为________。(答案:信息增益;Gain(D,a)=Ent(D)∑(|D^v|/|D|)·Ent(D^v))17.若事务数据库中共有5000条事务,项集{A,B}出现1000次,项集{A}出现2000次,则规则A→B的置信度为________,提升度为________。(答案:0.5;1.25)18.Kmeans算法的目标函数即________,其数学表达式为________。(答案:簇内平方和;J=∑_{i=1}^k∑_{x∈C_i}||xμ_i||^2)19.在PageRank公式R(p)=d∑_{q∈M_p}R(q)/L(q)+(1d)/N中,阻尼系数d通常取值为________,其作用是________。(答案:0.85;模拟用户随机跳转,防止排名泄露)20.若某数据集包含100个特征,使用PCA降维后保留95%的累计解释方差,则新特征空间的维度________(一定/不一定)________原维度。(答案:不一定;小于)四、判断题(每题1分,共10分。正确打“√”,错误打“×”)21.在朴素贝叶斯中,若某个特征值在训练集中未与某类别同时出现,则后验概率一定为零。(答案:×)22.使用欧氏距离度量时,Kmeans对特征的尺度敏感。(答案:√)23.Apriori性质表明:非频繁项集的所有超集也一定是非频繁的。(答案:√)24.随机森林的基学习器之间不存在任何相关性。(答案:×)25.在SVM中,使用高斯核时,γ参数越大,决策边界越平滑。(答案:×)26.当数据呈凸形分布时,单链接层次聚类比全链接更容易产生“链式”簇。(答案:√)27.EM算法在每一步迭代中都能保证似然函数值单调不减。(答案:√)28.协同过滤中的矩阵分解技术属于无监督学习方法。(答案:√)29.使用梯度提升树时,增加学习率可以提高模型的鲁棒性,降低过拟合风险。(答案:×)30.在关联规则中,若lift(X→Y)=1,则X与Y相互独立。(答案:√)五、简答题(每题8分,共24分)31.简述FPgrowth算法与Apriori算法在挖掘频繁项集时的核心差异,并指出FPgrowth如何避免重复扫描整个数据库。答案:Apriori采用“生成测试”范式,每轮迭代需扫描完整数据库计算候选集支持度,产生大量候选;FPgrowth通过两次扫描构建FPtree,将事务压缩到一棵前缀树中,后续挖掘仅在树结构上进行条件模式基递归挖掘,无需重复扫描原始数据库,从而显著减少I/O开销。32.解释什么是“维数灾难”,并给出三种在实际数据挖掘项目中缓解该问题的具体技术手段。答案:维数灾难指随着特征维度增加,数据稀疏性指数级上升,导致距离度量失效、模型复杂度爆炸、过拟合加剧。缓解手段:1)特征选择——使用卡方检验、互信息、Lasso等筛选重要特征;2)特征提取——采用PCA、LDA、tSNE等降维方法生成低维稠密表示;3)正则化——在模型目标函数中加入L1或L2惩罚,抑制冗余特征权重。33.描述GradientBoostingDecisionTree(GBDT)的负梯度拟合思想,并说明为何常用CART回归树而非分类树作为基学习器。答案:GBDT以加法模型组合弱学习器,每一步通过当前模型的负梯度(伪残差)作为新训练目标,拟合残差使损失函数最快下降。回归树可输出连续值,直接拟合负梯度数值;而分类树输出离散类别,无法表示连续残差,故采用CART回归树。六、计算与分析题(共36分)34.(10分)给定如下事务表,最小支持度计数为2,最小置信度为60%,使用Apriori算法挖掘所有频繁3项集并列出置信度≥60%的关联规则。T1:{A,B,C}T2:{A,B,D}T3:{A,C,D}T4:{B,C,D}T5:{A,B,C,D}答案:频繁1项集:{A}:4,{B}:4,{C}:4,{D}:4频繁2项集:{A,B}:3,{A,C}:3,{A,D}:3,{B,C}:3,{B,D}:3,{C,D}:3频繁3项集:{A,B,C}:2,{A,B,D}:2,{A,C,D}:2,{B,C,D}:2频繁4项集:{A,B,C,D}:1(不频繁)满足置信度≥60%的3项集规则:A∧B→C:conf=2/3≈66.7%A∧C→B:conf=2/3≈66.7%B∧C→A:conf=2/3≈66.7%A∧B→D:conf=2/3≈66.7%A∧D→B:conf=2/3≈66.7%B∧D→A:conf=2/3≈66.7%A∧C→D:conf=2/3≈66.7%A∧D→C:conf=2/3≈66.7%C∧D→A:conf=2/3≈66.7%B∧C→D:conf=2/3≈66.7%B∧D→C:conf=2/3≈66.7%C∧D→B:conf=2/3≈66.7%(共12条,列出任意6条即得满分)35.(12分)某电商使用逻辑回归预测用户是否购买高端耳机(正类)。训练集规模10000条,特征30维,经5折交叉验证得到平均性能:准确率88%,召回率70%,F1=0.78,AUC=0.83。(1)指出召回率70%的业务含义,并分析可能带来的商业损失。(2)若希望将召回率提升至85%,给出两种可实施的技术方案并说明预期副作用。(3)给出一种不依赖阈值的评估指标,并解释为何适合本场景。答案:(1)召回率70%表示实际会购买的高端耳机用户中,有30%被模型误判为不买,导致营销邮件未触达,预估损失:30%×10000×0.1(假设高端耳机利润500元)≈15万元潜在收入流失。(2)方案一:降低分类阈值,如从0.5降至0.3,副作用是假正率上升,营销成本增加,用户可能收到无关邮件引起反感;方案二:代价敏感学习,为正类设置更高权重(如scale_pos_weight=3),副作用是模型对负类误判容忍度下降,整体准确率可能下降。(3)采用AUC=0.83,不依赖阈值即可衡量排序能力,适合电商按得分从高到低逐批投放营销资源,无需事先确定转化阈值。36.(14分)某城市交通传感器每5分钟采集一次路段速度,形成矩阵V∈R^{m×n},m=144(一天288个5分钟间隔),n=200路段。现需压缩数据并检测异常。(1)给出使用PCA进行压缩的详细步骤,并说明如何确定主成分个数k。(2)若保留k=50,求压缩比(原始存储量/压缩后存储量)。(3)基于PCA结果,给出一种实时异常路段检测方法,并写出判定公式。答案:(1)步骤:①中心化处理,每列减去均值;②计算协方差矩阵C=V^TV/(m1);③对C特征分解,得特征值λ_1≥…≥λ_n及对应特征向量;④按累计解释方差≥95%或拐点法选k;⑤投影得低维表示Z=VU_k,U_k为前k个特征向量矩阵。(2)原始存储量=144×200×4字节≈115.2kB;压缩后需存储均值向量(200×4)、U_k(200×50×4)、Z(144×50×4),合计≈(0.8+40+28.8)=69.6kB;压缩比=115.2/69.6≈1.66。(3)实时异常检测:对新向量x,先中心化,再投影z=U_k^T(xμ),重构x̂=U_kz+μ;计算重构误差e=||xx̂||^2,若e>η(η可由验证集95%分位确定),则判定为异常路段。公式:e=||(IU_kU_k^T)(xμ)||^2>η。七、综合设计题(共15分)37.某视频平台拟构建“潜在付费用户”预测模型,训练数据包含用户近30天行为日志(播放、点赞、评论、分享、上传、收藏、关注、充值记录)及画像(年龄、性别、设备、地域、注册时长)。数据规模:样本500万,正类(付费)占比5%,特征经Onehot后维度10万+,高度稀疏。要求:(1)给出完整的特征工程方案,需涵盖缺失值、异常值、高基数类别、时间序列、类别不平衡处理;(2)选择并论证一种适合该场景的模型及训练策略,说明如何调参、评估、部署;(3)列出线上A/B实验关键指标与统计检验方法。答案:(1)特征工程:缺失值——数值型用1+指示变量,类别型用“unknown”;异常值——播放时长用IQR截断,上传次数用99%分位封顶;高基数类别——地域到城市级,设备ID用HashingTrick(2^18桶),作者ID按付费率目标编码+交叉验证折外编码;时间序列——提取播放频次衰减(近1/3/7天)、最后一次充值距今天数、凌晨/工作日/周末播放占比;类别不平衡——负样本下采至1:5,再采用带class_weight的模型或focalloss。(2)模型:选用带L2正则的LogisticRegression+FollowtheRegularizedLeader(FTRL)在线学习,原因:高维稀疏下线性模型速度快、可解释、便于实时更新。训练策略:①初训用SparkMLlib分布

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论