2026年人工智能训练师特征选择实操考核试题_第1页
2026年人工智能训练师特征选择实操考核试题_第2页
2026年人工智能训练师特征选择实操考核试题_第3页
2026年人工智能训练师特征选择实操考核试题_第4页
2026年人工智能训练师特征选择实操考核试题_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年人工智能训练师特征选择实操考核试题1单选题(每题2分,共20分)1.1在信用卡违约预测任务中,原始特征含“近6个月平均消费金额”与“近6个月消费笔数”。若二者Pearson相关系数达0.92,下列哪种特征选择策略最可能提升模型泛化能力?A.保留二者并引入交互项B.仅保留“平均消费金额”C.仅保留“消费笔数”D.对二者做PCA降维后保留第一主成分1.2使用L1正则化逻辑回归进行特征筛选时,增大正则化系数λ会导致:A.更多特征系数被压缩至接近零B.特征系数标准差一定减小C.训练集AUC一定单调上升D.测试集AUC一定单调上升1.3在文本分类任务中,原始TF-IDF矩阵维度为50000×200000。若采用卡方检验(χ²)进行特征过滤,设定保留特征数k=5000,则最终矩阵维度为:A.50000×5000B.5000×200000C.50000×200000D.5000×50001.4基于互信息(MutualInformation)做特征排序时,若某离散特征与标签的互信息值为0,则:A.该特征与标签独立B.该特征方差为0C.该特征一定无预测能力D.该特征与标签线性相关1.5在梯度提升树(GBDT)中,使用“特征重要性”作为筛选依据时,下列哪项描述正确?A.重要性为零的特征对验证集增益一定为零B.重要性可解释为该特征在所有树中用于分裂带来的总增益C.重要性计算与损失函数无关D.重要性高的特征一定与标签因果相关1.6对高维基因组数据(p=20000,n=200)采用递归特征消除(RFE)+SVM-RBF时,最易出现的风险是:A.欠拟合B.计算复杂度低C.过拟合D.特征间共线性消失1.7使用方差阈值(VarianceThreshold)过滤时,若设定阈值为0.0,则:A.所有常数特征被移除B.所有零方差特征被移除C.所有离散特征被移除D.所有连续特征被移除1.8在图像分类任务中,采用预训练ResNet50提取2048维向量后,再使用LASSO做二次筛选。若λ取最小均方误差对应值,则:A.一定出现维度灾难B.可能保留少于100维特征C.一定保留全部2048维D.一定需要GPU加速1.9基于SHAP值进行特征选择时,下列哪项操作可直接得到全局特征重要性?A.对每条样本的SHAP值取绝对值后按特征维度求和B.对每条样本的SHAP值取平方后按样本维度求和C.对每条样本的SHAP值取对数后按特征维度求平均D.对每条样本的SHAP值取sigmoid后按样本维度求平均1.10在流式数据场景(特征维度动态增长)中,最适合的在线特征选择算法是:A.OnlineStreamingFeatureSelection(OSFS)B.BatchRidgeRegressionC.OfflinePCAD.K-meansClustering2多选题(每题3分,共15分;多选少选均不得分)2.1下列哪些指标可直接用于过滤式特征选择?A.F-scoreB.GiniIndexC.ReliefFD.SilhouetteCoefficient2.2关于嵌入式特征选择,下列说法正确的有:A.RandomForest的“meandecreaseimpurity”属于嵌入式方法B.L1正则化在SVM中可实现特征稀疏化C.ElasticNet同时结合L1与L2惩罚D.GBDT的“featureimportance”属于过滤式方法2.3在Pythonsklearn中,以下哪些类支持`.fit_transform(X,y)`接口且y为必需参数?A.SelectKBest(score_func=mutual_info_classif)B.RFE(estimator=LogisticRegression())C.SelectFromModel(estimator=LassoCV())D.VarianceThreshold()2.4下列哪些技术可缓解特征选择过程中的信息泄漏(dataleakage)?A.在训练集上计算统计量,再映射到验证集B.采用嵌套交叉验证C.将特征选择与模型训练放在同一CV折内D.使用未来信息填充缺失值2.5关于基于深度学习的自动特征选择,下列说法正确的有:A.Attention权重可直接用于特征排序B.ConcreteDropout可估计特征不确定性C.LASSO与神经网络无法结合D.可微分特征选择(DFS)通过Gumbel-Softmax实现离散采样3判断题(每题1分,共10分;正确打“√”,错误打“×”)3.1使用皮尔逊相关系数做特征选择时,只能捕获线性关系。3.2在文本特征选择中,DF(DocumentFrequency)越小越应该被保留。3.3基于树模型的特征重要性对特征尺度敏感。3.4过滤式方法的速度通常快于包裹式方法。3.5当特征与标签呈U型关系时,互信息可能大于线性相关系数。3.6在RFE中,若基模型为线性回归,则每次迭代需重新训练模型。3.7使用SelectFromModel(LassoCV())时,特征选择阈值可设为“median”。3.8对高维稀疏文本数据,卡方检验比互信息更稳健。3.9特征选择一定可以降低模型方差。3.10在联邦学习场景下,各参与方可在本地单独做特征选择后再聚合模型。4填空题(每空2分,共20分)4.1若某连续特征x与二分类标签y的点二列相关系数(point-biserial)为0.6,则x的方差为4,y的方差为0.25,则x与y的协方差为________。4.2在Python中,使用sklearn.feature_selection.f_classif返回的两个数组分别对应________与________。4.3采用ReliefF算法时,最近邻样本数k默认设为________。4.4若L1正则化逻辑回归的目标函数为J(w)=则对权重wj的次梯度(sub-gradient)在w4.5使用SelectKBest(mutual_info_classif,k=100)后,若原始特征维度为5000,则输出矩阵形状为________。4.6在GBDT中,某特征用于分裂的总增益为128,覆盖样本数为1024,则该特征重要性按“gain”计算得分为________。4.7若方差阈值设定为0.01,某布尔特征取值为{0,1},样本量n=1000,其中900个0、100个1,则该特征________(填“会”或“不会”)被移除。4.8在RFE中,若基模型为SVM,每次移除特征比例为10%,初始特征1000维,则需迭代________轮才能降至约350维。4.9使用SHAP的KernelExplainer时,背景样本集建议不少于________条以保证估计稳定。4.10在图像数据增强场景,若采用随机裁剪后特征选择,则需在________集上做特征选择以避免泄漏。5计算与实操题(共35分)5.1互信息计算(8分)给定离散特征X与二分类标签Y的联合分布表:X\Y01A3010B2040计算I(X;Y)(以2为底,保留3位小数)。5.2L1正则化路径(10分)设训练集(xi,yi∑i=1采用L1正则化线性SVM,目标函数P(w)=其中A=\sumxix(1)当λ=6时,求最优w的稀疏模式(即哪些分量为零)。(2)若λ从0连续增大,求第一个使w2变为0的临界λ5.3嵌入式选择代码补全(7分)以下代码旨在用LightGBM做特征选择并输出前20个重要特征名称,请补全空缺处(每空1分)。```pythonimportlightgbmaslgbfromsklearn.datasetsimportload_breast_cancerfromsklearn.model_selectionimporttrain_test_splitX,y=load_breast_cancer(return_X_y=True,as_frame=True)X_tr,X_te,y_tr,y_te=train_test_split(X,y,test_size=0.2,random_state=42)train_set=lgb.Dataset(X_tr,label=y_tr,free_raw_data=False)params={'objective':'binary','metric':'auc','boosting_type':'gbdt','num_leaves':31,'learning_rate':0.05,'feature_fraction':0.9,'verbose':-1}model=lgb.train(params,train_set,num_boost_round=100)importance=model.feature_importance(importance_type=____(A)____)top_feats=[X.columns[i]foriinnp.argsort(importance)[____(B)____]]print(top_feats[____(C)____])```空A:________;空B:________;空C:________。5.4流式特征选择模拟(10分)假设特征按流依次到达,共1000维,标签为二分类。采用OSFS算法,设定最大条件独立检验次数为500。已知前5维特征的G-testp值分别为:0.003,0.12,0.004,0.65,0.02,显著性水平α=0.01。(1)写出OSFS在第5维到达后已选特征索引集合。(2)若后续第6维与已选集合中每一维的条件独立检验p值均大于0.01,则第6维是否进入已选集合?(3)简述该算法在内存占用上的优势(不超过50字)。6综合设计题(20分)某电商平台的实时推荐系统需从原始2000维用户行为特征中筛选出不超过100维用于在线排序模型(GBDT+LR)。数据特点:特征含连续、离散、高基数ID类(如商品ID);样本量日均5亿,特征动态新增;延迟要求:特征选择阶段≤10分钟;标签为“是否点击”。请设计一套端到端特征选择方案,要求:(1)说明采用的三级筛选策略(过滤→嵌入→在线更新),并给出每级所用算法与理由;(2)给出关键参数(如互信息阈值、GBDT最大深度、L1正则化λ范围);(3)描述如何验证特征子集有效性,包括离线指标与线上A/B实验;(4)阐述如何防止信息泄漏与数据穿越(不超过100字)。7答案与解析7.1单选题1.1B高共线性导致冗余,保留一笔数即可降低方差。1.2Aλ越大,惩罚越强,更多系数被压至0。1.3ASelectKBest按列(特征)过滤,保留k列。1.4A互信息为0等价于独立。1.5B重要性定义为总增益。1.6C高维小样本易过拟合。1.7B零方差特征被移除。1.8BLASSO可稀疏至百维内。1.9A全局重要性为|SHAP|按特征求和。1.10AOSFS专为在线设计。7.2多选题2.1ACF-score与ReliefF为过滤式。2.2ABCD错,GBDT重要性属嵌入式。2.3ABSelectKBest与RFE需y。2.4ABC、D会引入泄漏。2.5ABDC错,LASSO可与神经网络结合。7.3判断题3.1√3.2×DF过小可能为噪声。3.3×树模型对尺度不敏感。3.4√3.5√3.6√3.7√3.8√3.9×可能去除有用信息导致偏差上升。3.10×需统一标准,否则分布漂移。7.4填空题4.10.6×√4×√0.25=0.64.2F值、p值4.3104.41+λ4.5(n_samples,100)4.61284.7不会方差=0.09>0.014.89轮1000×0.9^9�387,1000×0.9^10�3494.91004.10训练7.5计算与实操题5.1互信息边际:P(Y=0)=50/100=0.5,P(Y=1)=0.5P(X=A)=0.4,P(X=B)=0.6I(X;Y)=∑∑P(x,y)log₂[P(x,y)/(P(x)P(y))]=0.3log₂(0.3/0.2)+0.1log₂(0.1/0.2)+0.2log₂(0.2/0.3)+0.4log₂(0.4/0.3)=0.3×0.585+0.1×(-1)+0.2×(-0.585)+0.4×0.415=0.1755-0.1-0.117+0.166≈0.1255.2L1路径(1)当λ=6,考虑次梯度条件:对w₂,梯度为A₂₂w₂+A₂₁w₁+A₂₃w₃-b₂+λsign(w₂)=3w₂+0w₁-1w₃+5+λsign(w₂)令w₂≠0,则3w₂-w₃+5±λ=0;同时w₁、w₃同理。通过KKT可证当λ≥5时w₂=0,故λ=6时w₂=0,稀疏模式[?,0,?]。(2)临界λ=5。5.3代码A:'gain'B:::-1C::205.4流式(1){1,3,5}(2)不进入(3)只存储

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论