版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
监督学习回归实战-天气预测特征选择与模型优化CONTENTSOrderNow01任务描述02知识储备03任务实施04任务评价/01任务描述任务描述任务:天气预测在天气预测项目中,经过初步的模型训练,发现模型的性能仍有提升空间。本任务旨在通过特征选择和模型优化,进一步提升模型的预测精度和泛化能力。/02知识储备特征选择包装法02嵌入法0301过滤法过滤法接近0两个变量之间没有明显的线性关系;03接近1两个变量之间存在强烈的正相关关系;01接近-1强烈的负相关;02相关系数:计算特征与目标变量之间的线性相关性,特别适用于连续型数据,取值范围在-1到1之间。过滤法:在模型训练之前,就对特征进行评估和筛选,而且不依赖于具体的机器学习算法。包装法后向消除从包含所有特征的模型开始,每次移除对模型性能贡献最小的特征,同样重新训练和评估,重复操作直到达到预定要求。03递归特征消除RFE从全特征集开始,先使用所有特征训练一个模型,然后计算每个特征的重要性,根据重要性对特征进行排序,把重要性最低的特征移除,再重新训练模型,不断重复这个过程,直到达到预设的特征数量。01前向选择从一个空的特征集合开始,逐步向其中添加新的特征,每次都选择一个对模型性能提升最大的特征加入当前集合,添加后重新训练并评估模型性能,不断重复直至满足停止条件。02包装法:通过训练模型来评估特征子集的性能,使用特定的机器学习算法作为评估标准,在特征子空间中搜索最优的特征组合。嵌入法Lasso回归Lasso回归属于线性回归模型,它通过引入L1正则化项来实现特征选择。在线性回归的目标函数里加入L1正则化项后,会使得部分特征的系数变为001随机森林计算每个特征在所有决策树中节点分裂时减少的不纯度的平均值通过随机交换袋外数据中某个特征的值,重新预测并计算准确率的下降程度。02嵌入法:将特征选择过程巧妙地嵌入到模型训练当中,借助模型自身的机制来选择重要特征。适用场景过滤法数据规模大、特征极多的场景能够快速预处理以降低计算成本。01包装法数据规模较小、追求模型最优性能情况下,能针对性适配特定模型。02嵌入法在模型训练中通过正则化等机制自动学习特征重要性并完成筛选,适合希望平衡效率与性能的中等规模数据场景。03特征选择1fromsklearn.feature_selectionimportRFE2rfe=RFE(estimator=RandomForestRegressor(),n_features_to_select=3)3X_train_selected=rfe.fit_transform(X_train_scaled,y_train)4X_test_selected=rfe.transform(X_test_scaled)5print(rfe.support_)6selected_features=[nameforname,selectedinzip(features,rfe.support_)ifselected]7print("Selectedfeaturenames:",selected_features)模型优化正则化02交叉验证0301超参数调优超参数调优超参数是在模型训练之前就需要设置的参数,它们无法通过训练数据直接学习得到。超参数调优的目标,就是找到一组最优的超参数,让模型的性能达到最佳状态。穷举搜索方法,它会遍历所有可能的超参数组合,通过交叉验证的方式试验每一种组合,最后选出最优的参数组合。网格搜索01从参数的分布中随机选取参数组合进行评估。随机搜索02正则化正则化是一种用于防止模型过拟合的重要技术,原理是在损失函数中加入正则化项,以此来限制模型参数的大小。通过在损失函数中加入模型参数的绝对值之和作为正则化项,会将部分参数压缩为0,从而实现特征选择L1正则化01损失函数中加入模型参数的平方和作为正则化项,它会惩罚参数的平方和,让所有参数的值都趋向于较小的值,但不会把参数压缩为0L2正则化02交叉验证04重复随机划分交叉验证通过多次随机划分数据集为训练集和测试集来评估模型性能,它的灵活性较高,但随机性较大,结果可能不太稳定。01K折交叉验证把数据集划分为K个大小相近的子集,每次选择其中的K-1个子集作为训练集,剩下的1个子集作为验证集,这个过程重复K次,最后取K次验证结果的平均值03留一交叉验证是K折交叉验证的一种特殊情况,其中K等于数据集的样本数量,每次只留出一个样本作为验证集,其余所有样本作为训练集留一交叉验证02分层交叉验证适用于分类问题,它在划分数据时会保证每个子集中各类样本的比例与原始数据集中的比例一致,避免因数据划分不均衡而导致的模型性能评估偏差。/03任务实施特征值选择1fromsklearn.feature_selectionimportRFE2rfe=RFE(estimator=RandomForestRegressor(),n_features_to_select=3)3X_train_selected=rfe.fit_transform(X_train_scaled,y_train)4X_test_selected=rfe.transform(X_test_scaled)5print(rfe.support_)6selected_features=[nameforname,selectedinzip(features,rfe.support_)ifselected]7print("Selectedfeaturenames:",selected_features)模型优化1.fromsklearn.model_selectionimportGridSearchCV2.param_grid={3.'n_estimators':[50,100,200],4.'max_depth':[None,10,20],5.'min_samples_split':[2,5,10],6.'min_samples_leaf':[1,2,4]7.}8.rf_regressor=RandomForestRegressor(random_state=42)9.grid_search=GridSearchCV(estimator=rf_regressor,param_grid=param_grid,cv=5,scoring='neg_mean_squared_error')10.grid_search.fit(X_train_selected,y_train)11.best_params=grid_search.best_params_12.print(f'BestParameters:{best_params}')模型优化评估1rf_regressor_optimized=RandomForestRegressor(**best_params,random_state=42)2rf_regressor_optimized.fit(X_train_selected,y_train)3y_pred_train_optimized=rf_regressor_optimized.predict(X_train_selected)4y_pred_test_optimized=rf_regressor_optimized.predict(X_test_selected)5train_mse_optimized=mean_squared_error(y_train,y_pred_train_optimized)6train_r2_optimized=r2_score(y_train,y_pred_train_optimized)7test_mse_optimized=mean_squared_error(y_test,y_pred_test_optimized)8test_r2_optimized=r2_score(y_test,y_pred_test_optimized)9print(f'OptimizedTrainMSE:{train_mse_optimized},OptimizedTestMSE:{test_mse_optimized}')10print(f'OptimizedTrainR^2:{train_r2_optimized},OptimizedTestR^2:{test_r2_optimized}')对比分析01均方误差(MSE)的改进训练集上的MSE从0.0828降低到0.0579,表明优化后的模型在训练数据上的预测误差更小。测试集上的MSE从0.7923降低到0.5948,表明优化后的模型在未见过的数据上的预测误差也有所减小,泛化能力更强。02R²分数的改进训练集上的R²分数从0.99936提高到0.99
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年GRE《语文》真题回忆版
- 2026年信息化系统升级改造规范
- 2026年金融历年真题汇编
- 生产现场用电安全管理专项自查报告
- 2026年教师资格证(高中)《保教知识与能力》考前押题卷
- 2026年软件开发测试工作计划
- 航道养护设备清单
- 锌合金牺牲阳极在海洋工程中的应用详解
- 那曲市护士招聘笔试题及答案
- 龙岩市教师招聘笔试题及答案
- 2026广东东莞市松山湖管委会招聘24人考试备考试题及答案解析
- 2026内蒙古电力集团蒙电资本控股有限责任公司市场化选聘业务总监1人笔试历年常考点试题专练附带答案详解
- 2026内蒙古呼和浩特土左旗招聘社区专职网格员52人笔试参考试题及答案详解
- 感染科护理护理创新思维与实践
- 2026年银行竞聘面试无领导小组讨论案例集含答案
- 北京市2025中国国家话剧院应届毕业生招聘11人笔试历年参考题库典型考点附带答案详解
- (二模)2026年深圳市高三年级第二次调研考试英语试卷(含答案)
- 2026上海市闵行区区管国企招聘42人备考题库附答案详解(夺分金卷)
- 成都天府国际生物城发展集团有限公司招聘笔试题库2026
- 厦门市民族与宗教事务局补充招考1名非在编人员模拟预测(共500题)笔试参考题库+答案详解
- GB/T 2831-2009光学零件的面形偏差
评论
0/150
提交评论