版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章
线性回归学习目标理解线性回归的基本原理掌握运用Scikit-learn库实现线性回归的基本方法12目录页3.1基本原理3.2应用实例线性回归3.1基本原理回归分析是一种研究自变量与因变量之间关系的模型构建方法,其主要目标在于利用直线或曲线拟合已知数据点以使指定的误差(如数据点至直线或曲线距离之和)最小。回归分析通常分为模型学习和预测两个过程,前者主要根据给定的训练数据构建模型,后者则根据新数据预测相应的输出。线性回归是一种较为简单、常用的回归分析方法,其在假设目标值(因变量)与特征值(自变量)之间线性相关的基础上,通过求解指定误差或损失函数确定相应的线性模型参数。知识拓展回归是由弗朗西斯·高尔顿(FrancisGalton
)于1877年提出,其目的在于根据上一代豌豆种子(双亲)的尺寸来预测下一代豌豆种子(孩子)的尺寸。Galton在大量对象上应用了回归分析,甚至包括人的身高。他注意到,如果双亲的高度比平均高度高,他们的子女也倾向于比平均高度高,但尚不及双亲。孩子的高度向着平均高度回退(回归)。Galton在多项研究上都注意到这个现象,所以尽管这个英文单词跟数值预测没有任何关系,但这种研究方法仍被称作回归。3.1基本原理针对机器学习中分类与回归两类常见问题,在已知训练样本的情况下,前者与后者的输出分别为离散型数值(或分类标记)与连续型数值。回归分析的目的在于利用已知样本确定指定回归方程或模型的相关系数以通过新样本与相关系数之间的数学运算实现连续型输出值的求解或相关问题的预测。3.1.1基本概念回归最简单的定义可表述为:已知特征空间中的点集,利用已知或未知形式的函数对其进行拟合以使点集与函数之间的误差最小;若目标值(因变量)与特征值(自变量)之间为线性相关关系(自变量指数为1),则称为线性回归,否则则称为非线性回归(自变量指数大于1)。线性回归通过求解指定代价或目标函数的方式确定相应的相关系数;根据自变量数量,线性回归分别一元线性回归与多元线性回归。3.1.1基本概念
3.1.1基本概念(2)多元线性回归多元线性回归旨在确定多个自变量与一个因变量之间的线性关系,相应的模型可采用一个多元一次线性方程进行表达;需要注意的是,“多元”与“多次”是两个不同的概念,“多元”是指模型参数的数量,而“多次”则指模型参数的最高次幂。3.1.1基本概念(3)广义线性回归广义线性回归是传统线性回归的拓展,在实际中可用于处理分布形态多样的数据。广义线性回归模型的一般形式是在多元线性回归模型的基础上,将其中的因变量更换为特定的函数(如对数函数),因而具有与多元线性回归模型相同的参数。然而,从本质上而言,广义线性回归模型实现了数据从输入空间至输出空间的非线性映射,通常可更全面、深入地描述数据中蕴含的规律或关键信息。3.1.1基本概念回归应了“物以类聚,人以群分”这一句俗语。我们交友时一定会遵循一些原则,但是朋友也有亲疏之分,真正关系十分亲近的好友必定是有着相同的人生观,世界观,价值观。我们也要靠近三观都正的圈子,让自己总是保持积极乐观的状态。课程思政3.1.1基本概念在探讨线性回归的基本原理之前,首先通过一个简单实例明确线性回归的主要目的。在图3-1中,有10个沿直线分布的真实数据点(蓝色圆点)与噪声点(橙色方形点),在真实数据点未知的情况下,如何根据噪声点确定真实数据点所在的真实直线?需要强调的是,在实际中,由于各种干扰因素(如运行引起的图像模糊)的影响,真实数据点通常难以获取,而求取真实数据点相关的模型(如直线)却是各类机器学习算法的根本目的。3.1.1基本概念图3-1线性回归示例图3.1.2数学模型与求解根据以上分析,线性回归问题的求解可归结为两个步骤,即:首先明确或定义线性回归模型的基本形式,然后用已知数据点及约束条件构造相应的代价或风险函数求取回归模型参数3.1.2数学模型与求解
3.1.2数学模型与求解
3.1.2数学模型与求解
图3-2一元线性回归3.1.2数学模型与求解
3.1.2数学模型与求解
3.1.2数学模型与求解
3.1.2数学模型与求解
3.1.2数学模型与求解
3.2应用实例Scikit-learn库包含线性回归模块及糖尿病、波士顿房价等用于回归分析的数据集,其中,线性回归模块的引入方式如下:fromsklearn.linear_modelimportLinearRegression函数原型如下:LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_jobs=1)3.2.1体重预测在人们的日常生活中,体重偏高与偏低均是身体出现亚健康的体现,也是身体部分器官发病的前兆。影响体重的因素较多(如体内激素水平、饮食情况、心情原因等),而且与身高具有直接的相关性。因而,如何在指定身高下评估体重是否达标进而让人们提前预知身体状况具有一定实际意义。(1)问题描述利用表3-4所示身高与体重数据进行线性回归分析。基本要求如下:①将样本集划分为训练样本与测试样本用于求取模型参数与测试模型精度。②考察身高与体重的线性关系并进行可视化。③利用均方误差分析回归模型的性能。(2)编程实现
见3.2.1体重预测.py3.2.1体重预测(3)结果与分析以上代码运行结果如下。0.9063321151748930.009699096627073803根据图3-2(a)
所示实验结果可知,体重随身高的增大而增大,相关数据点近似呈直线分布,因而可确定相应的直线模型。此外,如图3-2(b)所示,根据已求知的直线模型以及新数据点与该直线模型之间的关系,则可确定指定身高时体重的偏重或偏轻状况(白点为偏重,黑点为偏轻),以此可评估相应的健康情况。3.2.1体重预测(a)利用训练数据构建身高与体重线性回归模型(b)利用测试数据线性回归模型进行测试图3-2对身高体重数据集进行线性回归分析效果图3.2.2糖尿病预测糖尿病是一种常见的慢性疾病,根据2023年4月6日发布的第十版《全球糖尿病概览》数据显示,截至2023年,全球约有5.37亿的患者。中国糖尿病患者人数达1.41亿人,发病率高达12.8%,糖尿病患者人数居全球首位!成为威胁人们身体健康的一大问题。早发现、早治疗可以减少糖尿病的发病率以及由糖尿病并发症引起的死亡率。在实际中,糖尿病诱发因素通常包括葡萄糖浓度、舒张压、皮层厚度等多种(每种因素与线性回归模型中的自变量相应),因而需采用多元线性回归模型确定多种因素与问题求解目标之间相关性。3.2.2糖尿病预测(1)问题描述利用Skicit-learn库中的糖尿病数据集构建多元线性回归模型,实现糖尿病的预测与精度分析。基本要求如下:①将样本集划分为训练样本与测试样本用于求取模型参数与测试模型的精度。②考察单个特征与糖尿病之间的线性关系并进行可视化。③利用均方差标准度量线性回归模型的性能。(2)编程实现
见3.2.2糖尿病预测.py3.2.2糖尿病预测(3)运行结果以上代码运行结果如下。0.5559939824614473根据实验结果可知,利用10个特征进行多元线性回归时,相应模型的精度只有0.5左右且均方差较大,表明特征空间中的数据点的分布形态并不呈明显的线性形态。此外,如图3-3所示,利用单个特征进行一元线性回归时,数据点线性分布形态越明显,相应的模型精度越高,表明该特征与糖尿病越相关。3.2.2糖尿病预测3.2.2糖尿病预测图3-3利用糖尿病数据进行线性回归3.2.3房价预测(1)问题描述利用波士顿房价数据集(/datasets/boston)构建线性回归模型,实现房价的预测。波士顿房价数据集包括506个样本,每个样本包括13个特征与该地区的平均房价。基本要求如下:①将样本集划分为训练样本与测试样本用于求取模型参数与测试模型精度。②考查每栋住宅的房间数(RM)、地区中有多少房东属于低收入人群(LSTAT)与城镇人均犯罪率(CRIM)三个特征与房价之间的线性关系并进行可视化。③利用精度与均方误差等标准评估线性回归模型的性能。(2)编程实现
见3.2.3房价预测.py3.2.3房价预测(3)结果与分析以上代码运行结果如下。精度:0.5436505100025456均方误差:0.01681490540812091在与波士顿房价相关的13个特征中,如图3-4(a)所示,本例对不同特征与房价之间的相关性进行了分析,其中特征LSTAT(负相关)、PTRADIO(负相关)与RM(正相关)与房价相关性最高;采用三个特征构建多元线性回归模型,相应的精度分别为0.54左右,表明特征空间中的数据点的分布形态并不呈明显的线性形态。此外,图3-4(b)与(d)所示为单个特征与房价之间的一元线性回归结果,其中,特征LSTAT、RM与房价的相关性相对较高(相关数据点线性分布形态较为明显),相应模型的精度相对也较高。3.2.3房价预测(a)与房价相关系数大于0.5的三个特征(b)特征LSTAT与房价的线性关系(c)特征PTRADIO与房价的线性关系(d)特征RM与房价的线性关系图3-4利用波士顿数据进行线性回归(c)特征PTRADIO与房价的线性关系(d)特征RM与房价的线性关系图3-4利用波士顿数据进行线性回归本章小结与分类一样,回归也是预测目标值的过程。回归与分类的不同点在于,前者预测连续性变量,后者预测离散型变量。回归是统计学中最有力的工具之一。线性回归在假设自变量与因变量之间满足
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年夜间经济五年规划:城市业态创新与安全管理体系优化报告
- 医学26年:社区心衰管理要点 心内科查房
- 医学26年老年心血管疾病高危人群筛查查房课件
- 浙江台州十校联盟2025-2026学年高一年级下学期期中联考化学试题
- 2026年文创资源整合创新报告
- 热应激与户外工作者抑郁关系
- 过敏原检测技术的标准化与临床一致性
- 2026年财务共享成熟度评估价值模型白皮书
- 2026年测试婚姻命运测试题及答案
- 2026年光电技术检测试题及答案
- DB42T 1892-2022 非煤矿山钻探施工安全技术规程
- 【物化生 江苏卷】2025年江苏省高考招生统一考试高考真题物理+化学+生物试卷(真题+答案)
- 满族装饰艺术主题餐饮空间设计研究
- 扬州印象城市介绍旅游宣传
- 工程转移协议书范本
- 2024年国家民委直属事业单位招聘笔试真题
- 拆卡主播合同协议
- GB/T 29865-2024纺织品色牢度试验耐摩擦色牢度小面积法
- 腾讯风控师(初级)认证考试题库(附答案)
- 《植物生产与环境》第二章:植物生产与光照
- 辅酶Q10产品培训课件
评论
0/150
提交评论