版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘面试题及答案单选题(每题2分,共20分)1.在Apriori算法中,若最小支持度阈值设为0.02,事务数据库含1000000条记录,则频繁1项集必须出现的次数至少为A.10000 B.20000 C.2000 D.200答案:B2.给定信息增益率最大的特征先被选中,则该特征在C4.5树节点划分后,其子节点熵的期望将A.一定下降 B.一定上升 C.可能不变 D.先升后降答案:A3.使用MinHash估计Jaccard相似度,若两集合真实Jaccard=0.8,签名长度k=400,则估计值方差约为A.0.0004 B.0.0008 C.0.0016 D.0.0032答案:A4.在kmeans++初始化中,点x被选为下一个中心的概率正比于A.x到已选中心的最小平方距离 B.x到所有已选中心的平均距离 C.x的密度 D.x的坐标模长答案:A5.若PCA将10维数据降到2维,保留方差占比85%,则主成分方向对应协方差矩阵的A.最大两个特征值 B.最小两个特征值 C.最大两个奇异值 D.最小两个奇异值答案:A6.在AdaBoost第t轮,样本i的权重Dt(i)=0.4,分类器ht对i误分,则更新后权重Dt+1(i)将A.增大 B.减小 C.不变 D.置零答案:A7.若LSTM遗忘门偏置初始化为大正值(如5.0),则网络初期倾向A.保留长期状态 B.快速遗忘 C.梯度爆炸 D.梯度消失答案:A8.在SparkMLlib中,ALS推荐算法默认采用A.交替最小二乘 B.随机梯度下降 C.坐标下降 D.LBFGS答案:A9.若使用FPGrowth发现频繁项集,当事务数据库中所有事务长度均为1时,FP树将A.仅含单分支 B.深度为1 C.退化为空树 D.无法构建答案:B10.在孤立森林中,异常分数s(x)接近1表明A.x极可能是异常 B.x极可能是正常 C.x位于簇中心 D.x未被分割答案:A多选题(每题3分,共15分,多选少选均不得分)11.以下哪些技术可直接处理高维稀疏文本特征A.HashingTF B.Word2VecSkipgram C.BM25 D.L1正则逻辑回归答案:ACD12.关于GBDT与XGBoost,下列说法正确的是A.GBDT仅用一阶导数 B.XGBoost支持特征子采样 C.XGBoost支持自定义目标函数 D.GBDT无法处理缺失值答案:ABC13.在关联规则挖掘中,提高最小置信度可导致A.规则数目减少 B.规则支持度下降 C.规则兴趣度一定上升 D.计算时间缩短答案:AD14.以下哪些距离满足三角不等式A.编辑距离 B.余弦距离 C.欧氏距离 D.Jaccard距离答案:AC15.若使用深度自编码器做异常检测,潜在合理策略包括A.重构误差阈值法 B.潜在空间密度估计 C.潜在空间OneClassSVM D.直接取潜在空间均值向量答案:ABC填空题(每空2分,共20分)16.若事务数据库含项{a,b,c,d},事务T1={a,b,c},T2={a,c,d},则项集{a,c}的支持度为________,置信度为________。答案:0.5,1.017.在PageRank幂迭代中,阻尼系数d通常取________,其作用是________。答案:0.85,防止悬挂节点导致rank泄漏并保证收敛18.若使用5折交叉验证,数据集含1250条样本,则每折训练集大小为________,验证集大小为________。答案:1000,25019.在SVM中,若RBF核参数γ→∞,则模型会________,易出现过拟合;若γ→0,则决策边界趋近________。答案:复杂化,线性20.若Lasso回归目标函数为min‖y−Xβ‖²+λ‖β‖₁,当λ→∞时非零系数个数将趋近________。答案:0简答题(共30分)21.(封闭型,6分)写出ID3算法选择划分属性的信息增益公式,并说明为何信息增益偏好多值属性。答案:Gain(D,A)=Ent(D)−∑v=1V|Dv|/|D|·Ent(Dv),其中Ent(D)=−∑k=1Kpklog2pk。多值属性V大,划分后子集更纯,Ent(Dv)趋零,第二项小,增益大,故偏好。22.(开放型,8分)某电商日志含用户点击、加购、下单三类事件,请设计一个特征工程方案,用于预测“未来7日是否下单”。要求:1.说明特征类别;2.给出至少6个具体特征;3.解释为何有效。答案:1.特征类别:统计特征、序列特征、时间衰减特征、交叉特征。2.具体特征:①最近30天点击次数;②最近7天加购商品数;③最近一次下单距今天数;④点击加购转化率;⑤用户活跃时段熵;⑥商品类目偏好向量(加权平均)。3.解释:①②反映活跃度;③衡量购买周期;④揭示转化意愿;⑤捕捉规律性;⑥刻画兴趣广度。组合后梯度提升树可捕获非线性关系。23.(封闭型,6分)给定二维数据{(1,1),(2,2),(3,3),(4,4),(5,5)},使用kmeans初始化中心为(1,1)、(5,5),请写出一次迭代后的新中心坐标。答案:第一次分配:簇1={(1,1),(2,2)},簇2={(3,3),(4,4),(5,5)};新中心:簇1(1.5,1.5),簇2(4,4)。24.(开放型,10分)某金融公司需构建实时欺诈检测系统,数据流每秒10000条交易,特征维700。请给出技术选型、模型更新策略、冷启动方案、评估指标,并说明如何控制假负率。答案:技术选型:Kafka→Flink→Redis特征缓存→XGBoost在线推理。模型更新:滑动窗口统计漂移,若PSI>0.2触发日级重训;采用warmstart增量更新。冷启动:先用规则引擎(黑名单、速度阈值)拦截,同步收集标签,3天后训练初版模型。评估:Precision@Top1%优先,兼顾Recall;业务容忍假负率<0.5%,通过调整阈值使Recall≥99.5%,引入代价敏感学习,欺诈权重设为正常样本100倍,并用FocalLoss缓解不平衡。应用题(共35分)25.(计算类,10分)给定混淆矩阵如下,请计算Accuracy、Precision、Recall、F1、AUC(需给出ROC坐标点并手写梯形积分)。真实\预测 正 负正 80 20负 10 190答案:Accuracy=(80+190)/300=0.9;Precision=80/(80+10)=0.889;Recall=80/(80+20)=0.8;F1=2×0.889×0.8/(0.889+0.8)=0.842。ROC点:TPR=0.8,FPR=10/(10+190)=0.05;梯形积分AUC=0.5×(1+0.8)×0.05+0.5×(0.8+0)×0.95=0.925。26.(分析类,12分)某视频平台采用矩阵分解做推荐,隐因子k=50,正则化λ=0.1,学习率0.005,迭代30次后,训练RMSE=0.81,验证RMSE=1.32。请分析可能原因,给出3条改进措施并说明预期效果。答案:原因:过拟合,k过大或λ过小;数据泄漏或验证集分布偏移;学习率过低陷入局部最优。改进:①λ增至0.5,预期验证RMSE降至1.15;②增加偏置项(userbias、itembias、globalbias),预期再降0.05;③采用早停+学习率衰减,预期最终验证RMSE≈1.08。27.(综合类,13分)某市政府开放出租车GPS数据,字段:车辆ID、时间戳、经纬度、载客状态、速度。任务:挖掘“异常聚集点”(可能黑车聚集)。请给出完整数据挖掘流程,含数据清洗、特征构建、算法选择、参数调优、结果解释、可视化方案,并评估潜在伦理风险。答案:流程:1.清洗:剔除漂移点(速度>120km/h)、重复记录、缺失坐标;2.特征:①网格化(500m×500m)小时级载客事件计数;②空驶率;③车辆数;④平均等待时长;⑤熵值(车辆ID分布)。3.算法:采用IsolationForest+DBSCAN双阶段,先全局异常打分>0.7且局部密度ρ>Q3+1.5IQR判为聚集点。4.调优:网格搜索IsolationForest树数t∈[200,500,1000],样本子采样率s∈[0.6,0.8,1.0],F1最优选t=500,s=0.8。5.解释:输出top10热点,附时空热力图,关联POI发现“火车站”夜间异常高。6.可视化:Kepler.gl动画展示22:0004:00热点动态。7.伦理:避免公开车牌,聚合输出,防止歧视特定群体;设置申诉通道,定期审计算法偏差,确保透明度。编程题(共30分)28.(Python,15分)请用pandas与sklearn实现:输入CSV含user_id,item_id,rating,完成80/20随机划分,使用Surprise库SVD训练,输出测试RMSE与最佳参数组合(网格搜索:n_factors∈[20,50,100],lr_all∈[0.001,0.005,0.01],reg_all∈[0.01,0.1])。要求代码可运行,注释清晰,结果保留三位小数。答案:```pythonimportpandasaspdfromsurpriseimportDataset,Reader,SVD,GridSearchCV,accuracyfromsurprise.model_selectionimporttrain_test_splitdf=pd.read_csv('ratings.csv')reader=Reader(rating_scale=(1,5))data=Dataset.load_from_df(df[['user_id','item_id','rating']],reader)train,test=train_test_split(data,test_size=0.2,random_state=42)param_grid={'n_factors':[20,50,100],'lr_all':[0.001,0.005,0.01],'reg_all':[0.01,0.1]}gs=GridSearchCV(SVD,param_grid,measures=['rmse'],cv=3,n_jobs=1)gs.fit(train)best_model=gs.best_estimator['rmse']predictions=best_model.test(test)rmse=accuracy.rmse(predictions)print(f'BestRMSE:{rmse:.3f}')print('Bestparams:',gs.best_params['rmse'])```29.(SQL,15分)现有表events(user_idSTRING,event_timeTIMESTAMP,event_typeSTRING,item_idSTRING),需计算“用户最近两次点击间隔秒数”,输出列:user_id,gap_sec。要求单条SQL,禁止窗口函数row_number,允许使用自连接。答案:```sqlSELECTe1.user_id,UNIX_TIMESTAMP(e2.event_time)UNIX_TIMESTAMP(e1.event_time)ASgap_secFROM(SELECTuser_id,event_time,MAX(event_time)ASmax_timeFROMeventsWHEREevent_type='click'GROUPBYuser_id)tJOINeventse1ONe1.user_id=t.user_idANDe1.event_time<t.max_timeANDe1.event_type='click'JOINeventse2ONe2.user_id=t.user_idANDe2.event_time=t.max_timeWHEREe1.event_time=(SELECTMAX(event_time)FROMeventsWHEREuser_id=t.user_idANDeven
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年丽水学院单招职业适应性测试题库及答案详解(夺冠系列)
- 2026年云南省楚雄彝族自治州单招职业倾向性测试题库含答案详解(完整版)
- 2026年上海电力大学单招职业技能测试题库含答案详解(模拟题)
- 2026年乐山职业技术学院单招职业适应性考试题库带答案详解(夺分金卷)
- 2026年云南经贸外事职业学院单招职业倾向性考试题库带答案详解(模拟题)
- 2026年上海应用技术大学单招职业技能考试题库及答案详解(名校卷)
- 2026年义乌工商职业技术学院单招职业倾向性测试题库含答案详解(基础题)
- 2026年三门峡社会管理职业学院单招职业适应性考试题库含答案详解(达标题)
- 2026年三亚航空旅游职业学院单招职业适应性测试题库附参考答案详解(达标题)
- 2026年云南理工职业学院单招职业技能测试题库及答案详解(典优)
- 深圳市罗湖区2025-2026学年高三第一学期开学质量检测数学
- 2025年广东中考历史试卷真题解读及答案讲评课件
- 输血反应的紧急处理和护理原则
- 全膝关节置换术患者心理因素关联探究:疼痛信念、自我效能与睡眠质量
- 后循环缺血护理常规课件
- T-HAS 148-2025 工厂化菌糠栽培双孢蘑菇技术规程
- 宇树科技在服务机器人市场的竞争策略 课件
- 农村兄弟二人分家协议书范文
- 两办意见八硬措施煤矿安全生产条例宣贯学习课件
- 高考3500词乱序版
- 【课内词汇背背背】鲁科版(三起 五四制) 小学英语 三年级(上册+下册) 词汇表(pdf版)
评论
0/150
提交评论