机器学习实践教程 课件 第10章 房价预测_第1页
机器学习实践教程 课件 第10章 房价预测_第2页
机器学习实践教程 课件 第10章 房价预测_第3页
机器学习实践教程 课件 第10章 房价预测_第4页
机器学习实践教程 课件 第10章 房价预测_第5页
已阅读5页,还剩29页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第10章房价预测主要内容探索数据数据可视化与相关性空值的处理文本属性与流式处理模型选择探索数据加载数据查看空值属性的直方图对收的中位数分组分组统计分层抽样加载数据longitude——经度。latitude——纬度。housing_median_age——房屋年龄的中位数。total_rooms——总房间数。total_bedrooms——总卧室数量。population——总人数。households——家庭数量。median_income——收入中位数。median_house_value——房价中位数。ocean_proximity——房屋与大海的距离。查看空值通过info方法属性的直方图housing.hist(bins=50,figsize=(18,15))房价中位数是我们要预测的目标值。对收入中位数进行分组0-1.51.5-33-4.54.5-66-inf分组统计value_counts方法展示数据hist方法展示直方图分层抽样构造StratifiedShuffleSplit对象n_splits=1表示只分1次test_size=0.2表示20%的数据条目作为测试集验证分层抽样的有效性数据可视化与相关性根据地理位置展示数据相关关系相关系数3个新属性根据地理位置展示数据带颜色和大小的地理位置散点图解读散点图对角线图形无意义房价中位数与房屋年龄:无明显相关性房价中位数与收入中位数:明显相关性家庭数量与卧室总数:几乎为直线的散点图相关系数使用corr方法计算相关系数矩阵解读相关系数值:接近1表示强正相关,接近-1表示强负相关,接近0表示弱相关房价中位数与收入中位数的相关系数:0.688新属性与相关性重新计算包含新属性的相关性矩阵列出与房价中位数相关性最强的新属性示例代码与结果空值的处理列出有NaN的行处理NaNSimpleImputer类列出有NaN的行处理NaN方案一:丢弃有NaN的区域方案二:丢弃有NaN的属性方案三:用中位数替换NaNSimpleImputer类SimpleImputer类来专门处理空值SimpleImputer类的用法:先构造对象调用fit和transform方法文本属性与流式处理文本属性OrdinalEncoder转换器OneHotEncoder类流式处理自定义PipelineColumnTransformer文本属性OrdinalEncoder转换器OneHotEncoder类流式处理自定义转换器称为AttributesAdder继承BaseEstimator和TransformerMixin实现fit和transform方法自定义PipelineColumnTransformer模型选择分离标签数值处理Pipeline线性回归决策树随机森林模型微调最佳参数模型分离标签房价中位数median_house_value是我们要预测的目标。目标值也称为标签,在使用时需要将其单独分离出来。数值处理Pipeline自定义添加3个新属性的转换器把文本属性去掉定义num_pipeline来处理数值属性用ColumnTransformer来同时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论