版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
监督学习回归实战-天气预测随机森林回归应用CONTENTSOrderNow01任务描述02知识储备03任务实施04任务评价/01任务描述任务描述任务:天气预测能够使用随机森林回归模型对天气数据进行训练和预测,分析模型性能,并与线性回归模型进行对比。。/02知识储备回归森林概念随机森林回归是一种基于集成学习思想的回归方法。集成学习正是通过将多个学习器的预测结果进行组合,从而提高整体预测的准确性和稳定性。一场复杂的任务,单靠一个人的力量可能会有局限,但如果多个有能力的人一起合作,各自发挥所长,最后综合大家的意见,往往能得到更出色的结果。回归森林步骤01Bootstrap抽样从原始数据集中进行有放回的抽样来创建多个子数据集。每个子数据集的大小与原始数据集相同02构建决策树每个子数据集,都会独立地构建一个决策树。在构建每棵树时,并不是考虑所有的特征,而是从所有特征中随机选择一部分特征进行节点分裂04预测每棵树都会给出一个预测值。在回归问题中,随机森林的最终预测结果是所有树预测值的平均值。03节点分裂从随机选择的特征中找出最优的特征和切分点来分裂节点。这个过程重复进行,直到树达到预设的深度或者节点的样本数量小于一个阈值。优势鲁棒性强对噪声数据和异常值具有较强的抵抗力,不容易受到单一数据点的影响,从而保证了模型的稳定性。02适应高维数据处理高维数据时表现出色,无需进行复杂的特征选择或降维处理,即可直接进行建模和预测。04处理非线性能力强能够捕捉数据中的非线性关系,这对于许多实际应用场景中的复杂数据关系尤为重要。03特征重要性分析提供特征重要性排序,帮助用户理解哪些特征对预测结果贡献最大,这对于后续的数据处理和模型优化具有重要意义。05准确性高构建多棵决策树并综合它们的预测结果,能够显著降低预测误差,提高预测的准确性。01抗过拟合能力强构建多棵决策树并引入随机性,随机森林能够显著降低过拟合的风险,提高模型的泛化能力。06参数参数解释n_estimators森林中树木的数量,即弱评估器的数量,必填项。criterion衡量分枝质量的指标。max_depth树的最大深度。这个参数限制了树的生长深度,有助于防止过拟合。min_samples_split分裂内部节点所需的最小样本数。min_samples_leaf叶子节点所需的最小样本数。max_features寻找最佳分裂时要考虑的特征数量。bootstrap是否使用自助采样法构建树。oob_score是否使用袋外样本进行模型评估。/03任务实施数据预处理1.importpandasaspd2.fromsklearn.model_selectionimporttrain_test_split3.fromsklearn.preprocessingimportStandardScaler1.导入库data=pd.read_excel('weather_data.xls')2.读取数据data.fillna(method='ffill',inplace=True)#前向填充缺失值3.数据预处理1.features=['Po','P','U','ff3','VV','Td’]2.target='T'#目标变量,如温度4.特征选择数据预处理1.X=data[features]2.y=data[target]3.X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)5.划分训练集和测试集1.scaler=StandardScaler()2.X_train_scaled=scaler.fit_transform(X_train)3.X_test_scaled=scaler.transform(X_test)6.特征缩放构建随机森林回归模型1.fromsklearn.ensembleimportRandomForestRegressor2.fromsklearn.metricsimportmean_squared_error,r2_score3.rf_regressor=RandomForestRegressor(n_estimators=100,random_state=42)rf_regressor.fit(X_train_scaled,y_train)1.y_pred_train=rf_regressor.predict(X_train_scaled)2.y_pred_test=rf_regressor.predict(X_test_scaled)1.构建随机森林回归模型2.训练模型3.预测构建随机森林回归模型1.train_mse=mean_squared_error(y_train,y_pred_train)2.test_mse=mean_squared_error(y_test,y_pred_test)3.train_r2=r2_score(y_train,y_pred_train)4.test_r2=r2_score(y_test,y_pred_test)5.print(f'TrainMSE:{train_mse},TestMSE:{test_mse}')6.print(f'TrainR^2:{train_r2},TestR^2:{test_r2}')4.模型评估构建随机森林回归模型1.save_model=joblib.load('E:\机器学习项目实战\项目三\代码\saved_regressor.joblib')2.data=pd.read_excel(r"E:\机器学习项目实战\项目三\data1.xlsx")X1=data.drop('date',axis=1)y_pred=save_model.predict(X1)y_pred1.importjoblib2.joblib.dump(rf_regressor,'E:\机器学习项目实战\项目三\代码\save
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 宝的市场调研与分析报告
- 电商平台数据安全处理流程详解
- 2026 学龄前自闭症想象力技能巩固课件
- 委托诉讼代理合同(14篇)
- 市场调研报告15篇
- 2025工程(管道维修)合同
- 2026年一级建造师《水利水电工程》真题及答案解析
- 【完整版】门式起重机安全操作规程
- 人防风管密闭处理施工工艺流程
- 2026年交替传译技巧培训方案
- 中建科技与质量管理手册2024
- 纺织厂消防应急预案
- 电网运行预警管理办法
- 【《基于S7-1200 PLC的风力发电机变桨距复合控制系统设计》8400字(论文)】
- 常州大学c语言考试题及答案
- 道路热熔型标线施划的技术要求
- 2025年中国邮政集团工作人员招聘考试笔试试题(含答案)
- 山西省怀仁一中2025年高一下化学期末学业质量监测试题含解析
- 机电专业考试题及答案
- 法兰螺栓紧固培训课件
- 突聋的护理课件
评论
0/150
提交评论