版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年数据挖掘技能实操练习题及答案1.单选题(每题1分,共20分)1.1在Apriori算法中,若最小支持度阈值设为0.03,事务库共含20000条事务,则频繁1项集必须出现的最低次数是A.500B.600C.700D.800答案:B1.2使用Python的pandas读取CSV时,若文件采用UTF16LE编码且首行无列名,应使用的参数组合是A.encoding='utf16le',header=NoneB.encoding='utf16',header=0C.encoding='utf8',skiprows=1D.encoding='utf16le',names=None答案:A1.3在Kmeans聚类中,若样本维度为p,簇数k=5,则一次迭代后质心更新的时间复杂度为A.O(p)B.O(kp)C.O(np)D.O(nkp)答案:B1.4下列关于XGBoost中γ(gamma)参数的描述,正确的是A.控制叶子节点最小样本数B.控制分裂所需最小损失减少量C.控制L2正则化强度D.控制学习率答案:B1.5对高维稀疏文本矩阵进行特征降维,优先选择A.PCAB.LDAC.TruncatedSVDD.KernelPCA答案:C1.6在SparkMLlib中,下列对象用于保存训练后的模型的是A.PipelineB.TransformerC.EstimatorD.Model答案:D1.7若某分类模型在测试集上的混淆矩阵为[[80,20],[10,90]],则其F1score为A.0.82B.0.85C.0.88D.0.91答案:C1.8使用SQL进行时间序列滑窗统计时,窗口范围为前3行到当前行,应使用的子句是A.ROWSBETWEEN3PRECEDINGANDCURRENTROWB.RANGEBETWEENINTERVAL'3'DAYPRECEDINGANDCURRENTROWC.ROWSBETWEENUNBOUNDEDPRECEDINGAND3FOLLOWINGD.RANGEBETWEEN3PRECEDINGANDCURRENTROW答案:A1.9在Python中,使用numpy将一维数组a转换为列向量的正确方式是A.a[np.newaxis,:]B.a[:,np.newaxis]C.a.TD.a.reshape(1)答案:B1.10若某决策树采用基尼系数作为划分准则,节点A的基尼系数为0.5,划分后两个子节点的基尼系数分别为0.2与0.3,样本占比分别为0.4与0.6,则划分增益为A.0.12B.0.20C.0.24D.0.30答案:A1.11在TensorFlow2.x中,关闭eagerexecution的代码是A.pat.v1.disable_eager_execution()B.tf.eager.disable()C.tf.disable_v2_behavior()D.tf.config.run_functions_eagerly(False)答案:A1.12下列关于孤立森林(IsolationForest)的陈述,错误的是A.适用于高维异常检测B.基于集成随机树C.异常点通常具有更短的路径D.对多维尺度敏感,需先做标准化答案:D1.13在Hive中,将表tab的分区字段dt从STRING改为DATE,正确语法是A.ALTERTABLEtabPARTITION(dtDATE)B.ALTERTABLEtabCHANGEdtdtDATEC.ALTERTABLEtabREPLACECOLUMNS(dtDATE)D.需重建表并迁移数据答案:D1.14使用Python的scipy.stats进行两独立样本t检验,若p=0.032,显著性水平α=0.05,则A.拒绝原假设B.接受原假设C.无法判断D.需补充效应量答案:A1.15在推荐系统中,采用SVD++模型时,用户偏置项更新公式中的学习率通常A.随迭代指数衰减B.固定不变C.随误差平方放大D.随正则系数减小答案:A1.16若某深度学习模型使用ReLU激活,学习率过大最可能导致的训练现象是A.梯度消失B.梯度爆炸C.死神经元D.过拟合答案:C1.17在MongoDB聚合框架中,用于将数组字段拆分为多条文档的阶段是A.$groupB.$unwindC.$projectD.$lookup答案:B1.18使用Python的sklearn.metrics.roc_auc_score时,若输入y_true包含多类,需设置A.average='micro'B.multi_class='ovr'C.multi_class='ovo'D.必须二值化答案:B1.19在HadoopMapReduce中,下列组件负责将map输出按键分区的是A.RecordReaderB.PartitionerC.CombinerD.OutputFormat答案:B1.20若某时间序列采用ARIMA(1,1,1)模型,其残差通过LB检验显示p=0.18,则A.残差为白噪声,模型充分B.残差非白噪声,需增加阶数C.需进行ARCH检验D.需做季节差分答案:A2.多选题(每题2分,共20分;多选少选均不得分)2.1关于LightGBM中的leafwise生长策略,下列说法正确的有A.比levelwise更易过拟合B.需配合最大深度限制C.分裂增益计算与样本权重无关D.训练速度通常更快答案:ABD2.2使用Python的pandas进行数据清洗时,下列方法可用于缺失值插值的有A.df.fillna(method='pad')B.erpolate(limit_direction='both')C.df.replace(np.nan,df.mean())D.df.dropna(how='all')答案:ABC2.3在SparkDataFrame中,下列函数属于窗口函数的有A.row_number()B.lag(col,1)C.collect_list(col)D.rank()答案:ABD2.4下列属于无监督特征选择方法的有A.VarianceThresholdB.SelectKBestC.RecursiveFeatureEliminationD.MissingValueRatio答案:AD2.5关于深度学习中的BatchNorm层,在推理阶段的行为包括A.使用移动平均的均值与方差B.继续计算当前batch统计量C.参数γ与β不再更新D.可提升模型泛化能力答案:ACD2.6使用SQL进行RFM分析时,计算R值(最近一次购买距今天数)需用到的函数有A.DATEDIFFB.CURRENT_DATEC.MIND.MAX答案:ABD2.7下列关于Elasticsearch映射(mapping)的描述,正确的有A.text类型默认会分词B.keyword类型用于精确匹配C.已存在的字段类型可任意更改D.支持嵌套对象类型答案:ABD2.8在Python的matplotlib中,设置全局中文字体避免乱码的方法包括A.plt.rcParams['font.family']='SimHei'B.plt.rcParams['axes.unicode_minus']=FalseC.在系统安装字体后无需重启内核D.使用sns.set_style('whitegrid')答案:AB2.9下列属于图神经网络(GNN)中消息传递机制的有A.GraphSAGEmeanB.GCNC.GATD.DeepWalk答案:ABC2.10使用Python的statsmodels进行线性回归诊断时,可调用方法包括A.model.summary()B.sm.graphics.qqplot(resid)C.sm.stats.jarque_bera(resid)D.sm.stats.durbin_watson(resid)答案:ABCD3.填空题(每空2分,共20分)3.1在Python中,使用sklearn.preprocessing.RobustScaler时,默认用于计算尺度统计量的分位差是________分位与________分位。答案:25%,75%3.2若某FPGrowth算法的最小支持度计数为100,事务库中商品牛奶出现次数为150,则牛奶________(填“是”或“否”)加入频繁1项集。答案:是3.3在Hive中,将表tab的存储格式由TextFile改为ORC且采用压缩编码为SNAPPY,需使用的完整DDL语句关键字为STOREDASORCtblproperties("________"="SNAPPY")。答案:press3.4使用Python的numpy实现矩阵A与B的哈达玛积(逐元素乘积)的表达式为________。答案:AB3.5在XGBoost中,控制每棵树最小样本权重的参数名称为________。答案:min_child_weight3.6若某深度学习模型使用Adam优化器,其超参数β1的默认取值为________。答案:0.93.7在SQL中,计算用户留存率时,次日留存率的分子为________天后仍活跃的用户数。答案:13.8使用Python的seaborn绘制热力图时,关闭颜色条显示需设置参数________=False。答案:cbar3.9在Kafka中,保证消息全局有序需设置topic的分区数为________。答案:13.10若某随机森林模型共含500棵树,某样本被OOB预测为类别A的次数为420,则其OOB投票概率为________%。答案:844.简答题(共30分)4.1(封闭型,6分)简述DBSCAN算法中核心对象、边界对象与噪声点的定义,并给出当MinPts=4时,某点邻域内恰好含3个点的对象类型。答案:核心对象:邻域内点数≥MinPts;边界对象:邻域内点数<MinPts但属于某核心对象的邻域;噪声点:非核心也非边界。当MinPts=4且邻域含3个点时,该对象若落在核心对象邻域内则为边界点,否则为噪声点。4.2(开放型,8分)某电商公司每日新增订单表约2亿行,需实时统计过去30分钟各品类销售额。请给出基于Flink的完整技术方案,包括数据源接入、时间语义、窗口类型、状态后端及ExactlyOnce保障措施。答案:1)数据源:Kafkatopic'orders',采用JSON格式,事件时间字段event_time。2)时间语义:EventTime,通过assignTimestampsAndWatermarks生成单调递增水位线,允许乱序5秒。3)窗口:滑动窗口SlidingEventTimeWindows.of(Time.minutes(30),Time.minutes(1)),每1分钟输出一次过去30分钟统计。4)状态后端:RocksDBStateBackend,启用增量检查点,设置checkpoint间隔30秒,超时10分钟。5)ExactlyOnce:checkpoint+KafkaSink两阶段提交,设置deliveryGuarantee=EXACTLY_ONCE,事务超时>checkpoint间隔。6)代码框架:DataStream<Order>src=env.addSource(newFlinkKafkaConsumer<>(...)).assignTimestampsAndWatermarks(WatermarkStrategy.<Order>forBoundedOutOfOrderness(Duration.ofSeconds(5))...)src.keyBy(Order::getCategory).window(SlidingEventTimeWindows.of(Time.minutes(30),Time.minutes(1))).aggregate(newSumAggregate(),newWindowResultFunction()).addSink(newFlinkKafkaProducer<>(...));4.3(封闭型,6分)给定线性回归模型y=Xβ+ε,ε~N(0,σ²I),证明最小二乘估计量β̂的协方差矩阵为σ²(XᵀX)⁻¹。答案:β̂=(XᵀX)⁻¹Xᵀy=(XᵀX)⁻¹Xᵀ(Xβ+ε)=β+(XᵀX)⁻¹Xᵀε,故Cov(β̂)=Cov[(XᵀX)⁻¹Xᵀε]=(XᵀX)⁻¹XᵀCov(ε)X(XᵀX)⁻¹=σ²(XᵀX)⁻¹。4.4(开放型,10分)某金融风控模型采用XGBoost,训练集正负样本比例1:99,模型在测试集上KS=0.45但PRAUC仅0.08。请分析可能原因并提出至少四条改进措施,需给出具体实现细节。答案:原因:类别极度不平衡导致概率阈值偏移,PRAUC对少数类敏感;模型输出概率整体偏低,Precision计算受分母FP放大。改进:1)采用ScalePosWeight=99,调整正负样本权重,重新训练;2)使用focalloss自定义目标函数,γ=2,α=0.25,在XGBoostobj参数内实现:deffocal_loss(pred,dtrain):y=dtrain.get_label()p=1/(1+np.exp(pred))grad=y(1p)γnp.log(p+1e7)+(1y)pγnp.log(1p+1e7)...3)阈值移动:在验证集上搜索最优阈值,最大化F1,将默认0.5改为0.15;4)采用SMOTENC对少数类过采样,合成样本比例1:5,再训练;5)引入代价敏感矩阵,将Recall权重设为5,使用自定义评估函数early_stopping。5.应用题(共60分)5.1计算题(15分)某超市对6种商品进行关联分析,事务库如下:T1:{牛奶,面包,黄油}T2:{面包,尿布,啤酒,鸡蛋}T3:{牛奶,面包,尿布,啤酒}T4:{面包,啤酒}T5:{牛奶,面包,尿布,啤酒,鸡蛋}最小支持度计数为2,求:(1)所有频繁1项集;(2)频繁2项集及支持度计数;(3)由频繁2项集生成的所有强关联规则(置信度≥60%),并列出置信度。答案:(1){牛奶:3},{面包:5},{黄油:1},{尿布:3},{啤酒:4},{鸡蛋:2}→频繁1项集:牛奶、面包、尿布、啤酒、鸡蛋。(2)候选2项集:C₂={牛奶,面包},{牛奶,尿布},{牛奶,啤酒},{面包,尿布},{面包,啤酒},{面包,鸡蛋},{尿布,啤酒},{尿布,鸡蛋},{啤酒,鸡蛋}。支持度计数:{牛奶,面包}:3,{牛奶,尿布}:2,{牛奶,啤酒}:2,{面包,尿布}:3,{面包,啤酒}:4,{面包,鸡蛋}:2,{尿布,啤酒}:3,{尿布,鸡蛋}:1,{啤酒,鸡蛋}:2。频繁2项集:全部除{尿布,鸡蛋}。(3)规则示例:{牛奶}→{面包}:3/3=100%{面包}→{牛奶}:3/5=60%{啤酒}→{面包}:4/4=100%{尿布}→{啤酒}:3/3=100%{鸡蛋}→{面包}:2/2=100%{啤酒}→{尿布}:3/4=75%共12条满足置信度≥60%。5.2分析题(15分)某视频平台提供用户观看时长数据(秒)与是否订阅(0/1),建立逻辑回归后得到部分系数:(Intercept)=6.2,watch_time=0.002,age=0.04,genderMale=0.3。(1)解释watch_time系数含义;(2)计算当watch_time=1500秒,age=25,gender=Male时的订阅概率;(3)若watch_time提升10%,求对odds的相对变化率。答案:(1)在控制age与gender条件下,watch_time每增加1秒,logodds增加0.002。(2)z=6.2+0.0021500+0.0425+0.3=6.2+3+1+0.3=1.9,p=1/(1+e^1.9)=0.130。(3)原odds=exp(0.002watch_time+...),新odds=exp(0.0021.1watch_time+...),相对变化=exp(0.0020.1watch_time)1=exp(0.0002watch_time)1,代入watch_time=1500得exp(0.3)1=34.99%。5.3综合题(30分)某城商行需构建信用卡欺诈检测模型,数据描述:训练集:正例5000,负例495000,共50万;特征100维,含数值与类别,类别已做targetencoding;评估指标:F1@Recall≥80%,且FalsePositiveRate≤5%。任务:(1)给出完整建模流程,包括采样、特征筛选、算法选择、超参优化、阈值调整、模型解释;(2)写出核心Python代码(含数据读取、模型训练、评估、保存);(3)若线上数据漂移导致Recall下降10%,给出监控与自动再训练方案。答案:(1)流程:a)采样:采用分层采样,训练集保留全部正例,负例随机下采至15万,再使用SMOTE+ENN混合采样使正例增至2万,负例13万;b)特征筛选:结合BorutaSHAP与L1正则,剔除20维低贡献特征;c)算法:CatBoost,内置类别处理,对不平衡友好;d)超参:Optuna贝叶调参,搜索空间:depth∈[4,10],learning_rate∈[0.01,0.3],l2_leaf_reg∈[1,10],scale_pos_weight∈[6,10],采用5折StratifiedKFold,优化目标F1;e)阈值:在验证集上采用PR曲线,选择Recall≥80%下最大Precision对应阈值0.237;f)解释:使用SHAP值输出全局与局部解释,监控Top20特征。(2)代码:```pythonimportpandasaspd,numpyasnp,optuna,shapfromcatboostimportCatBoostClassifier,Poolfromsklearn.model_selectionimportStratifiedKFoldfromsklearn.metricsimportf1_score,recall_score,roc_auc_scorefrombineimportSMOTEENNtrain=pd.read_parquet('train.parquet')X,y=train.drop('label',1),train.labelsm=SMOTEENN(sampling_strategy=0.15,random_state=42)X_res,y_res=sm.fit_resample(X,y)defobjective(trial):params=dict(depth=trial.suggest_int('depth',4,10),learning_rate=trial.suggest_float('lr',0.01,0.3,log=True),l2_leaf_reg=trial.suggest_int('l2',1,10),scale_pos_weight=trial.suggest_int('spw',6,10),eval_metric='F1',random_seed=42,verbose=False)cv=StratifiedKFold(5,shuffle=True,random_state=42)f1s=[]fortr,vaincv.split(X_res,y_res):model=CatBoostClassifier(params)model.fit(X_res.iloc[tr],y_res.iloc[tr],eval_set=(X_res.iloc[va],y_res.iloc[va]),
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农村统计员考核制度
- 九年级中考考核制度
- 江苏省淮安市淮阴中学2026届生物高一下期末经典模拟试题含解析
- 检验科质控考核制度
- 财务岗位内部考核制度
- 2026届江苏省扬州、泰州、淮安、南通、徐州、宿迁、连云港市高一数学第二学期期末调研模拟试题含解析
- 2026届江西省南昌市第八中学高一生物第二学期期末教学质量检测试题含解析
- 可变数据印刷安全审核员岗位招聘考试试卷及答案
- 2025 八年级道德与法治下册法治公平制度保障解析课件
- 救援防护靴耐磨检测员岗位招聘考试试卷及答案
- 智能网联汽车感知技术与应用 课件 项目1 智能网联汽车感知技术概述
- 低空经济在红河州乡村振兴中的实践与探索报告2025
- 港口复工复产安全培训课件
- 2023年高考历史真题新课标卷及解析
- 歌颂内蒙古的诗歌
- uom理论考试题库及答案2025
- 2025年文字排版与设计考试试题及答案
- 新能源充电桩施工方案
- 2015-2024年十年高考地理真题分类汇编专题03 地球上的大气(原卷版)
- 瘢痕早期预防胜于治疗
- DLT 572-2021 电力变压器运行规程
评论
0/150
提交评论