版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
土木工程科学数据分析方法授课内容Page:22026/1/41授课内容第四章:线性回归分析
回归分析(regressionanalysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。同时,回归分析法可建立一个相关性较好的回归方程(函数表达式),以用于预测因变量今后的变化规律。在各种回归分析方法中,线性回归通常是学习预测模型时首选的技术之一。本章介绍一元及多元线性回归方法的相关知识。授课内容Page:32026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型
一元线性回归是描述两个变量之间相关关系的最简单回归模型,通过一元线性回归模型的建立过程,可以了解回归分析方法的基本思想以及它在实际问题研究中的应用原理。1、回归模型的数学形式
在对所研究的问题首先要收集与它有关的n组样本数据(xi,yi),其中i=1,2,…,n。若只考虑两个变量间的关系,描述上述x与y间线性关系的数学结构通常用式(4.1-1)的形式。(4.1-1)授课内容Page:42026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型
式(4.1-1)将实际问题中变量y与x之间的关系用两个部分描述。一部分是由于x的变化引起y线性变化的部分,即β0
+β1x,另一部分是由其他一切随机因素引起的,记为ε。式(4.1-1)确切地表达了变量x与y之间的密切相关关系,但密切的程度又没有到由x唯一确定y的这种特殊关系。(4.1-1)授课内容Page:52026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型(4.1-1)
式(4.1-1)称为变量y对x的一元线性回归理论模型。一般称y为被解释变量(因变量),x为解释变量(自变量)。式中β0和β1是未知参数,称β0为回归常数,β1为回归系数。ε表示其他随机因素的影响。在式(4.1-1)中一般假定ε是不可观测的随机误差,它是一个随机变量,通常假定ε满足(4.1-2)授课内容Page:62026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型(4.1-2)(4.1-1)式中,E(ε)表示ε的数学期望,Var(ε)表示ε的方差。对式(4.1-1)两端求期望得如下回归方程(4.1-3)授课内容Page:72026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型(4.1-1)
一般情况下,对所研究的某个实际问题,获得n组样本观测值(x1,y1),(x2,y2),…,(xn,yn),如果他们符合模型(4.1-1),则(4.1-4)式(4.1-4)即为一元线性回归模型。其均值和方差分别为:(4.1-5)授课内容Page:82026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型(4.1-4)(4.1-5)
通常还假定n组数据是独立观测的,因而y1,y2,…,yn与ε1,ε2,…,εn都是相互独立的随机变量。而xi(i=1,2,…,n)是确定性变量,其值是可以精确测量和控制的。对式(4.1-4)两边分别求数学期望和方差,得(4.1-6)授课内容Page:92026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型(4.1-6)
式(4.1-6)表明随机变量y1,y2,,…,yn的期望不等,方差相等,因而y1,y2,…,yn是独立的随机变量,但并不同分布。而ε1,ε2,…,εn是独立同分布的随机变量。(4.1-5)E(yi)=β0+β1xi,从平均意义上表达了变量y与x的统计规律性,正确理解回归方程的这个特点对实际应用有重要的指导意义。授课内容Page:102026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型(实际问题)
回归分析的主要任务就是通过n组样本观测值(x1,y1)(i=1,2,…,n)对β0和β1进行估计。一般用分别表示β0,β1的估计值,则称式(4.1-7)为y关于x的一元线性经验回归方程。??????授课内容Page:112026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型
在实际问题的研究中,为了方便地作区间估计和假设检验,还假定模型(4.1-1)中误差项ε遵从正态分布,即
。由于ε1,ε2,…,εn是ε的独立且同分布的样本,因而有(4.1-9)在遵从正态分布的假定下,随机变量yi也遵从正态分布,即(4.1-10)
一元线性回归方程的一般形式(4.1-4)可用矩阵表示为(4.1-12)授课内容Page:122026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型
一元线性回归方程的一般形式(4.1-4)可用矩阵表示为(4.1-12)授课内容Page:132026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型2、回归参数的估计
为了由样本数据得到回归参数β0和β1的理想估计值,一般使用最小二乘法估计(ordinaryleastsquaresestimate,OLSE)。
所谓最小二乘法,就是寻找参数β0,β1的估计值
,使下式定义的离差平方和为极小。(4.1-13)
而后,依照式(4.1-14)求出的
就称为回归参数β0和β1的最小二乘估计。(4.1-14)授课内容Page:142026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型2、回归参数的估计(4.1-14)
按式(4.1-14)求
是一个求极值问题。由于Q是关于
的非负二次函数,因而它的最小值总是存在的。根据微积分中求极值的原理可求得的具体取值。进而,式(4.1-15)被称为yi(i=1,2,…,n)的回归拟合值,简称回归值或拟合值,式(4.1-16)中SSE称为残差平方和。(4.1-15)(4.1-16)授课内容Page:152026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型2、回归参数的估计(4.1-15)(4.1-16)
如果残差平方和为0,则得到一条直线且所有点都在该直线上;如果残差平方和不为0,则所有点(xi,yi)不会落在同一条直线上,所以不得不移动直线,使其离某些点较近、离其它点较远。因此,拟合直线的过程为先计算出各点的残差,进而算出残差平方和,再通过最小化残差平方和,最后选出最好的拟合直线(确定截距和斜率)。授课内容Page:162026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型2、回归参数的估计令式(4.1-16)右端对
求偏导数均为0,则有
(4.1-16)(4.1-17)解未知数为
的二元一次方程(4.1-17),得到(4.1-18)授课内容Page:172026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型2、回归参数的估计可以得到β0和β1的最小二乘估计量为式中,
。由于
,(4.1-18)(4.1-19)得到一个实际问题的经验回归方程授课内容Page:182026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型3、回归方程的显著性检验
当得到一个实际问题的经验回归方程
后,还不能直接就用它去作分析和预测,因为
是否真正描述了变量y与x之间的统计规律性,还需运用统计方法对回归方程进行检验,在对回归方程进行检验时,通常需要将其假设为正态分布,即。
常用的显著性检验方法包括t检验、F检验、相关系数、样本决定系数及统计软件计算检验值等方法。对一元线性回归分析而言,t检验、
F检验和相关系数这三种检验的结果是等价的,因而对一元线性回归实际只需要做其中的一种检验即可。对于多元线性回归,这三种检验所考虑的问题已有所不同,是三种不同的检验,因而并不等价。授课内容Page:192026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型3、回归方程的显著性检验t检验、F检验的原理及方法在第五章有详细介绍,本节仅针对相关系数、样本决定系数及统计软件计算检验值这三种方法进行介绍。本节以下的检验内容若无特别声明,都是在正态分布的假设下进行的。授课内容Page:202026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型3、回归方程的显著性检验1)相关系数的显著性检验
若设(xi,yi)(i=1,2,···,n)是(x,y)的n组样本观测值,式(4.1-17)称为x与y的简单相关系数,简称相关系数。(4.1-17)式中,相关系数r表示x与y的线性关系的密切程度,相关系数的取值范围为|r|≤1。授课内容Page:212026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型3、回归方程的显著性检验1)相关系数的显著性检验(4.1-17)
相关系数接近于1的程度与数据组数n有关。当n较小时,相关系数的绝对值容易接近于1,当n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此,在样本容量较小时,不能仅凭相关系数较大就说明变量x与y之间有密切的线性关系。授课内容Page:222026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型3、回归方程的显著性检验2)样本决定系数
回归平方和SSR与总离差平方和SST之比定义称为样本决定系数,记为r2,其表达式如式(4.1-18)所示。由式(4.1-19)可以证明式(4.1-18)的r2正好是式(4.1-17)中相关系数r的平方。(4.1-18)(4.1-19)(4.1-17)授课内容Page:232026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型3、回归方程的显著性检验2)样本决定系数(4.1-18)
决定系数r2是一个回归直线与样本观测值拟合优度的相对指标,反映了因变量的波动中能用自变量解释的比例,r2的值总是在0和1之间,也可以用百分量表示。一个线性回归模型如果充分利用了x的信息,因变量不确定性的绝大部分能由回归方程解释,则r2越接近于1,拟合优度就越好。反之,如果r2不大,说明以模型中给出的x对y解释的信息还不充分,回归方程的效果不好,应进行修改,使x与y的信息得到充分利用。授课内容Page:242026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型3、回归方程的显著性检验2)样本决定系数(4.1-18)
一般而言,回归方程的显著性检验与r2值的大小是一致的,即检验越显著(概率P值越小),r2就越大,但是这种关系并不是完全确定的,在样本容量n很大时,对高度显著的检验结果仍然可能得到一个小的r2。授课内容Page:252026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型3、回归方程的显著性检验3)用统计软件计算检验值以SPSS为例,介绍检验值的计算方法R.Square即为样本决定系数r²;Std.ErroroftheEstimate为标准误差估计;SumofSquares为离均差平方和;df为自由度;F值是方差检验量;Sig是significance(显著性)的简写;其它参数,请自查。授课内容Page:262026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型3、回归方程的显著性检验3)用统计软件计算检验值以SPSS为例,介绍检验值的计算方法授课内容Page:272026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型4、预测和控制
建立回归模型的目的就是为了应用,预测和控制是回归模型最重要的应用。1)单值预测
单值预测就是用单个值作为因变量新值的预测值。例如研究水泥产量y与原材料用量x的关系时,在n块单位面积的矿山上各原材料用量xi,最后求得相应的产量yi,建立回归方程
。某单位在一块单位面积的矿山上原材料用量x=x0时,该块矿山预期的水泥产量为
,此即因变量新值的单值预测。预测目标是一个随机变量,因而这个预测不能用无偏性来衡量。根据式
,说明预测值
与目标值y0有相同的均值。授课内容Page:282026/1/41授课内容第四章:线性回归分析4.1一元线性回归模型4、预测和控制
建立回归模型的目的就是为了应用,预测和控制是回归模型最重要的应用。2)控制问题
预测和控制有着密切的关系,控制问题相当于预测的反问题。在许多研究问题中,要获得y在一定的范围内取值,这些问题用数学表达式描述,即要求T1<y<T2。另外,控制问题需要进一步讨论如何控制x的值才能以1-α的概率保证把目标值y控制在T1<y<T2中,即(4.1-20)式中,α是事先给定的小的正数,其取值范围是0<α<1。授课内容Page:292026/1/41授课内容第四章:线性回归分析作业题:4.3.1中的表4.3-1,给出回归模型、回归参数、相关系数、样本决定系数。土木工程科学数据分析方法授课内容Page:312026/1/41授课内容第四章:线性回归分析4.2多元线性回归模型
被解释变量y与多个解释变量x有关的线性回归问题,即多元线性回归模型。本节主要内容包括多元线性回归模型及其基本假设,回归模型未知参数的估计及其性质,回归方程及回归系数的显著性检验等。授课内容Page:322026/1/41授课内容第四章:线性回归分析4.2多元线性回归1、回归模型的数学形式设随机变量y与一般变量x1,x2,…,xm的线性回归模型为(4.2-1)式中,β0,β1,…,βm是m+1个未知参数,β1,…,βm称为回归系数。y称为被解释变量(因变量),而x1,x2,…,xm是m个可以精确测量并可控制的一般变量,称为解释变量(自变量)。m=1时,式(4.2-1)即为一元线性回归模型,m≥2时,就称式(4.2-1)为多元线性回归模型,ε是随机误差。授课内容Page:332026/1/41授课内容第四章:线性回归分析4.2多元线性回归1、回归模型的数学形式设随机变量y与一般变量x1,x2,…,xm的线性回归模型为(4.2-1)式中,β1,…,βm称为回归系数,ε是随机误差,与一元线性回归一样,对随机误差项常假定(4.2-2)(4.2-3)在式(4.2-1)和式(4.2-2)基础上,理论回归方程可以写成式(4.2-3)的形式:授课内容Page:342026/1/41授课内容第四章:线性回归分析4.2多元线性回归1、回归模型的数学形式
对一个实际问题,如果获得n组观测数据(xi1,xi2,…,xim;yi),i=1,2,…,n,则线性回归模型可表示为(4.2-4)式(4.2-4)写成矩阵形式为(4.2-5)授课内容Page:352026/1/41授课内容第四章:线性回归分析4.2多元线性回归2、基本假定
为了便于进行模型的参数估计,对回归方程(4.2-4)做如下一些基本假定:
(1)解释变量x1,x2,…,xm是确定性变量,不是随机变量,且要求rank(X)=m+1<n。这里的rank(X)=m+1<n,表明设计矩阵X中的自变量列之间不相关,样本容量的个数应大于解释变量的个数,X是满秩矩阵。(2)随机误差项具有0均值和等方差,即(3)正态分布的假定条件为授课内容Page:362026/1/41授课内容第四章:线性回归分析4.2多元线性回归3、回归参数的估计
多元线性回归方程未知参数β0、β1、β2、…、βm的估计与一元线性回归方程的参数估计原理一样,仍然采用最小二乘法估计。对于式(4.2-5)矩阵形式表示的回归模型y=Xβ+ε,就是寻找参数β0、β1、β2、…、βm的估计值
(β0尖)、、、···、,使离差平方和达极小值,即寻找
、、、…、
满足:(4.2-12)
依照式(4.2-12)求出的
、、、···、就称为回归参数β0、β1、β2、…、βm的最小二乘估计。授课内容Page:372026/1/41授课内容第四章:线性回归分析4.2多元线性回归3、回归参数的估计
根据微积分中求极值的原理,
、、、···、应满足下列方程组:(4.2-13)授课内容Page:382026/1/41授课内容第四章:线性回归分析4.2多元线性回归3、回归参数的估计以上方程组经整理后,得出用矩阵形式表示的方程组(4.2-14)移项得
,当(XTX)-1存在时,即得回归参数的最小二乘估计为(4.2-15)(4.2-16)式(4.2-16)称为经验回归方程。
多元回归的计算量要比一元回归大得多,手工计算难度非常大,费时费力,难以保证结果的准确性,建议用SPSS或MATLAB软件完成计算。授课内容1授课内容第四章:线性回归分析4.3土木工程中的应用案例编号库水位(m)沉陷量(mm)(编号)库水位(m)沉陷量(mm)1102.714-1.967135.046-5.46295.154-1.888140.373-5.693114.364-3.969144.958-3.944120.170-3.3110141.011-5.825126.630-4.9411130.308-4.186129.393-5.6912121.234-2.90表4.3-1大坝的水位与沉降量数据
表4.3-1为我国某水坝的库水位与大坝沉降量的观测数据,试采用回归分析方法对大坝的变形值进行预测。授课内容1授课内容第四章:线性回归分析4.3土木工程中的应用案例
设水库水位为x,沉陷量y,将以上数据输入MATLAB中进行分析,利用matlab软件可以得到y关于x的散点图如图3.3-1所示。图4.3-1水坝沉降量与水库水位的散点图
由于提取的数据包含有其它各方面的影响因素,综合考虑其它因素的影响,由图1可知,沉陷量y和水库水位x成线性相关关系,因此,可以设x与y为一元回归线性模型,其具体表达式为:
,式中β0、ε为常数项,β1为变量的系数。授课内容1授课内容第四章:线性回归分析4.3土木工程中的应用案例在matlab中输入编码如下:x=[102.71495.154114.364120.170126.630129.393135.046140.373144.958141.011];y=[-1.96-1.88-3.96-3.31-4.94-5.69-5.46-5.69-3.94-5.82];X=sum(x)/10;Y=sum(y)/10;A=ones(1,10)*X;B=ones(1,10)*Y;Sx=x-A;Sy=y-B;Sxx=sum(Sx.*Sx);Sxy=sum(Sx.*Sy);P1=Sxy/Sxx;P0=Y-X*P1;结果输出:P1=Sxy/SxxP1=-0.0749P0=Y-X*P1P0=5.0967故回归模型为授课内容1授课内容第四章:线性回归分析4.3土木工程中的应用案例模型参数的显著性检验在matlab中输入以下的编码:X=[ones(10,1),x'];[b,bint,r,rint,s]=regress(y',X);上式中,b表示回归方程系数估计值;bint返回系数估计值的95%置信区间矩阵;r表示由残差组成的向量;rint表示返回矩阵rint,其中包含可用于诊断离群值的区间;s也是返回值,包含R2统计量、F(检验)统计量及其p值及误差方差S2(S2=sum(r2)/8)的估计值。有必要指出,p值(相关参考资料可以查算法)去匹配显著性水平α(一般小于等于0.05)。p如果小于选定的a,那么就是显著的有意义的。授课内容1授课内容第四章:线性回归分析4.3土木工程中的应用案例4.3.1模型参数的显著性检验在matlab中输入以下的编码:X=[ones(10,1),x'];[b,bint,r,rint,s]=regress(y',X);结果输出:b=5.0967-0.0749bint=0.004610.1887-0.1153-0.0345参数b1=5.0967、b2=-0.0749均在其置信区间[0.0046,10.1887],[-0.1153,-0.0345]
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全托管服务合同范本
- 学校食堂配送合同范本
- 房子托管整租合同范本
- 户外素木桌椅合同范本
- 夹具治具购销合同范本
- 彩钢房承包合同协议书
- 户外广告转让合同范本
- 室内拆除公司合同范本
- 学校舞台搭建合同范本
- 房产公司车库合同范本
- 2025年宪法知识题库及参考答案综合卷
- 2025年度透析中心护士长工作总结汇报
- 2025年家庭投资理财规划:科学配置与稳健增值指南
- 2025甘肃武威市市直参照公务员法管理单位遴选24人备考题库附答案
- 拜师礼现场课件
- 杜氏肌营养不良运动功能重建方案
- 酒店合并协议书范本
- 2026年计算机四级(Linux工程师实务)考试题及答案
- 贵州贵阳市2023-2024学年高一上学期期末考试化学试卷(含答案)
- “十五五”渔业产业高质量发展规划(2026-2030年)
- 肿瘤药物给药顺序课件
评论
0/150
提交评论