




已阅读5页,还剩60页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 / 65 回归分析总结 一、什么是回归分析 回归分析 (Regression Analysis)是研究变量之间作用关系的一种统计分析方法,其基本组成是一个自变量与一个因变量。回归分析研究的目的是通过收集到的样本数据用一定的统计方法探讨自变量对因变量的影响关系,即原因对结果的影 响程度。 (来自 : 海达范文网 :回归分析总结 ) 回归分析是指对具有高度相关关系的现象,根据其相关的形态,建立一个适当的数学模型 (函数式 ),来近似地反映变量之间关系的统计分析方法。利用这种方法建立的数学模型称为回归方程,它实际上是相关现象之间不确定、不规则的数量关系的一般化。 二、回归分 析的种类 1.按涉及自变量的多少,可分为一元回归分析和多元回归分析一元回归分析是对一个因变量和一个自变量建立回归方程。多元回归分析是对一个因变量和两个或两个以上的自变2 / 65 量建立回归方程。 2.按回归方程的表现形式不同,可分为线性回归分析和非线性回归分析 若变量之间是线性相关关系,可通过建立直线方程来反映,这种分析叫线性回归分析。 若变量之间是非线性相关关系,可通过建立非线性回归方程来反映,这种分析叫非线性回归分析。 三、回归分析的主要内容 1.建立相关关 系的数学表达式。依据现象之间的相关形态,建立适当的数学模型,通过数学模型来反映现象之间的相关关系,从数量上近似地反映变量之间变动的一般规律。 2.依据回归方程进行回归预测。由于回归方程反映了变量之间的一般性关系,因此当自变量发生变化时,可依据回归方程估计出因变量可能发生相应变化的数值。因变量的回归估计值,虽然不是一个必然的对应值 (他可能和系统真值存在比较大的差距 ),但至少可以从一般性角度或平均意 义角度反映因变量可能发生的数量变化。 3 / 65 3.计算估计标准误差。通过估计标准误差这一指标,可以分析回归估计值与实际值之间的差异程度以及估计值的准确性和代表性,还可利用估计标准误差对因变量估计值进行在一定把握程度条件下的区间估计。 四、一元线性回归分析 1.一元线性回归分析的特点 1)两个变量不是对等关系,必须明确自变量和因变量。 2)如果 x 和 y 两个变量无明显因果关系,则存在着两个回归方程:一个是以 x 为自变量, y 为因变量建立的回归方程;另一个是以 y 为自变 量, x 为因变量建立的回归方程。若绘出图形,则是两条斜率不同的回归直线。 3)直线回归方程中,回归系数 b可以是正值,也可以是负值。若 0 b ,表示直线上升,说明两个变量同方向变动;若 0 b 2.建立一元线性回归方程的条件 任何一种数学模型的运用都是有前提条件的, 配合一 元线4 / 65 性回归方程应具备以下两个条件: 1)两个变量之间必须存在高度相关的关系。 两个变量之间只有存在着高度相关的关系,回归方程才有实际意义。 2)两个变量之间确实呈现直线相 关关系。 两个变量之间只有存在直线相关关系,才能配合直线回归方程。 3.建立一元线性回归方程的方法 一元线性回归方程是用于分析两个变量线性关系的数学表达式,一般形式为: yc=a+bx 式中: x代表自变量; yc代表因变量 y的估计值 (又称理论值 ); ab为回归方程参数。其中, a是直线在 y 轴上的截距,它表5 / 65 示当自变量 x等于 0 时,因变量所达到的数值; b是直线的斜率 ,在回归方程中亦称为回归系数 ,它表示当自变量 x每变动一个单位时,因变量 y 平均变动的数值。 一元线性回归方程应根据最小二乘法原理建立,因为只有用最小二乘法原理建立的回归方程才可以同时满足两个条件: 1)因变量的实际值与回归估计值的离差之和为零; 2)因变量的实际值与回归估计值的离差平方和为最小值。 只有满足这两个条件,建立的直线方程的误差才能最小,其代表性才能最强。 现在令要建立的一元线性回归方程的标准形式为 yc=a+bx,依据最小二乘法原理,因变量实际值 y 与估计值 yc 的离差平方和为最小值 ,即 Q=(y -yc)2 取得最小值。为使Q=(y -yc)2=最小值 根据微积分中求极值的原理,需分别对 a,b 求偏导数,并令其为 0,经过整理,可得到如下方程组: y=an+bx 6 / 65 xy=ax+bx2 解此方程组,可求得 a,b 两个参数 4. 计算估计标准误差 回归方程只反映变量 x 和 y之间大致的、平均的变化关系。因此,对每一个给定的 x 值,回归方程的估计值 yc 与因变量的实际观察值 y之间总会有一定的离差,即估计标准误差。 估计标准误差是因变量实际观察值 y 与估计值 yc 离差平方和的平均数的平方根,它反映因变量实际值 y与回归直线上各相应理论值 yc之间离散程度的统计分析指标。 估 计标准误差: 式中: sy 估计标准误差; y 因变量实际观察值;yc 因变量估计值; n-2 自由度 如何描述两个变量之间线性相关关系的强弱? 利用相关系数 r来衡量 7 / 65 当 r0 时,表示 x 与 y 为正相关 ; 当 r 5.残差分析与残差图: 残差是指 观测值与预测值之间的差,即是实际观察值与回归估计值的差 在研究两个变量间的关系时, a) 要根据散点图来粗略判断它们是否线性相关; b) 判断是否可以用回归模型来拟合数据; c) 可以通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作就称为残差分析。 6.残差图的制作及作用。 坐标纵轴为残差变量,横轴可以有不同的选择;若模型选择的正确,残差图中的点应该分布 在以横轴为心的带状区域,带状区域的宽度越窄精度越高。对于远离横轴的点,要特别注意。 7.几点注解: 8 / 65 第一个样本点 和第 6 个样本点的残差比较大, 需要确认在采集过程中是否有人为的错误。如果数据采集有错误,就应该予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因。 另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。还可以用判定系数r2来刻画回归的效果,该指标测度了回归直线对观测数据 的拟合程度,其计算公式是: 其中: SSR -回归平方和; SSE -残差平方和; Sst=ssr+sse 总离差平方和。 由公式知, R 的值越大,说明残差平方和越小,也就是说模型拟合效果越好。在含有一个解释变量的线性模型中 r2 恰好等于相关系数 r 的平方,即 R2=r2 9 / 65 在线性回归模型中, R2表示解释变量对预报变量变化的贡献率。 R2越接近 1,表示回归的效果越好。 如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较 R2的值来做出选择,即选取 R2较大的模型作为这组数据的模型。 总的来说:相关指数 R2 是度量模型拟合效果的一种指标。在线性模型中,它代表自变量刻画预报变量的能力。 五、多元线性回归分析 在一元线性回归分析中,因变量 y 只受某一个因素的影响,即只由一个自变量 x来估计。但对于复杂的自然界中的问题,影响因 素往往很多,在这种情况下,因变量 y要用多个自变量同时进行估计。例如,某种产品的总成本不仅受原材料价格的影响,而且也与产品产量、管理水平等因素有关;农作物产量的髙低受品种、气候、施肥量等多个因素的影响。描述因变量与两个或两个以上自变量之间的数量关系的回归分析方法称为多元线性回归分析。它是一元线性回归分析的推广,其分析过程相对复杂一些,但基本原理与一元线性回归分析类似。 多元线性回归方程的一般表达式为: 10 / 65 为便于分析,当自变量较多时可选用两个主要的自变量 x1和 x2。其线性回归方程标准式为: 其中: yc 为二元回归估计值; a 为常数项; b1 和 b2 分别为y 对 x1 和 x2 的回归系数, b1 表示当自变 量 x2 为一定时,由于自变量 x1 变化一个单位而使 y 平均变动的数值, b2 表示当自变量 x1为一定时,由于自变量 x2变化一个单位而使y 平均变动的数值,因此, b1和 b2称为偏回归系数。 要建立二元回归方程,关键问题是求出参数 a, b1 和 b2 的值,求解方法仍用最小二乘法,即分别对 a, b1 和 b2 求偏导数,并令函数的一阶导数等于零,可得如下方程组: (二 ) 在回归分析中,通常称自变量为回归因子,一般用 一般用表示。预测公式:表示,而称因变量为指标,称之为回归方程。回归 模型,按照各种原则可以分为各种模型: 1. 当 n =1 时,称为一元 (单因子 )回归;当 n 2 时,称11 / 65 为多元 (多因子 )回归。 2. 当 f 为线性函数时,称为线性回归;当 f 为非线性函数时,称为非线性 (曲线 )回归。 最小二乘准则: 假设待定的拟合函数为,另据 m 个数据点,相当于求解以下规划问题: 即使得总离差平方和最小。具体在线性拟合的过程中,假设拟合函数为 y=a+bx, a 与 b为待定系数,已知有 m个数据点,分别为 使: ,应用最小二乘法,就是要 达到最小值。 把 S 看成自变量为 a 和 b 的连续函数,则根据连续函数达到及致电的必要条 12 / 65 件,于是得到: 因此,当 S 取得最小值时,有: 可得方程组为: 称这个方程组为正规方程组,解这个二元一次方程组,得到: 如果把已有数据描绘成散点图,而且从散点图中可以看出,各个数据点大致分布在一条直线附近,不妨设他们满足线性方程:其中, x为自变量, y为因变量, a 与 b为待定系数; 成为误差项或者扰动项。 这里要对数据点做线性回归分析,从而 a和 b 就是待定的回归系数, 为随机误差。 不妨设得到的线性拟合曲线为: 这就是要分析的线性回归方程。一般情况下,得到这个方程以后,主要是描绘出 回归曲线,并且观测拟合效果和计算一些误差分析指标,例如最 大点误差、总方差和标准差等。 这里最缺乏的就是一个统一的评价系统,以下说明从概率角度确立的关于线性回归的一套评价系统。 13 / 65 在实际的线性回归分析中, 除了估计出线性回归系数 a和 b, 还要计算 y和 x的相关程度,即相关性检验。相关性检验主要通过计算相关系数来分析,相关系数的计算公式为: 其中 n 为数据点的个数,为原始数据点, r 的值能够很好地反映出线性相关程度的高低,一般来说,存在以下 一些标准: 1. 当 r 1 或者 r ? 1 时,表示 y 与 x高度线性相关,于是由原始数据描绘出的散点图中所有数据点都分布在一条直线的附近,分别称为正相关和负相关; 2. 当 r 0 时,表示 y 与 x 不相关,由原始数据描绘出的散点图的数据点一般呈无规律的特点四散分布; 回归分析是 应用最广泛的一种办法。但回归分析要求大样本,只有通过大量的数据才能得到量化的 规律,这对很多无法得到或一时缺乏数据的 实际问题的解决带来困难。回归分析还要求 样本有较好的分布规律,而很多实际情形并非如此。例如,我国建国以来经济方面有几 次大起大落,难以满足样本有14 / 65 较规律的分布要求。因此,有了大量的数据也不一定能得 到统计规律,甚至即使得到了统计规律,也并非任何情况都可以分析。另外,回归分析 不能分析因素间动态的关联程度,即使是静态,其精度也不高,且常常出现反常现象 前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的 一组数据,寻找因变量与自变量之间的一个函数,使这个函数对那组数 据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要 作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已 经完全解决了,还有进一步研究的必要吗 ? 从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些 系数,只是它们的一个估计,应该对它们作区间估计或假设检验,如果置信区间 太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析 方 法对模型的误差进行分析,对拟合的优劣给出评价。简单地说,回归分析就是对拟合 问题作的统计分析。 数据的标准化处理数据的中心化处理是指平移变换 数据的无量纲化处理在实际问题中,不同变量的测量单位往往是不15 / 65 一样的。为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理,即使每个变量的方差均变成 1 标准化处理所谓对数据的标准化处理,是指对数据同时进行中心化压缩处理 一元线性回归假设对于 x 的 n 个值据最小二乘准则,要使 Q(?0,?1)? xi,得到 y的 n个相应的值 yi,确定 ?0, ?1的方法是根 ?i2? i?1 n ?y i?1 16 / 65 n i ?(?0?1xi)2 ?Q?Q ?0,?0?, ?, ?0101,从而得到 01取最小值。利用极值必要条件令,求的估计值 回归直线 ?xy?01。只不过这个过程可以由软件通过直线拟合完成,而无须进行繁杂的 运算。 参数的区间估计 ?, ?, ?0101 取值的区间进行估计,由于我们17 / 65 所计算出的仍然是随机变量,因此要对如果 区间估计值是一个较短的区间表示模型精度较高。 对误差方差的估计 设 ?iyy为回归函数的值, i 为测量值,残差平方和 n ?i)2Q?(yi?y i?1 s2? 剩余方差 Qn?2 线性相关性的检验 18 / 65 由于我们采用的是一元线性回归,因此,如果模型可用的话,应该具有较好的线性关系。反映模型是否具有良好线性关系可通过相关系数 R 的值及 F 值观察。 身高与腿长 例 1 测得 16名成年女子身高 y与腿长 x 所得数据如下: 首先利用命令 plot(x,y,r*)画出散点图,从图形可以看出,这些点大致分布在一条直线的左右,因此,可以 考虑一元线性回归。可编制程序如下: %输入 y、 x, alpha 是显著性水平。输出 b?(?01 bint 是 ?0, ?1 的置信区间, r 是残差, rint 是残差的置信区间, s 包含 4个统计量:决定系数 R; F 值; F(1,n-2)分布大于 F 值的概率 p;剩余方差 s 的值。 s 也可由程序sum(r. )/(n-2)计算。 其意义和用法如下: R 的值越接近 1,变量的线性相关性越强,说明模型有效;如果满足 2 2 19 / 65 22 F1?(1,n?2)?F,则认为变量 y 与 x 显著地有线性关系,其中 F1?(1,n?2)的值可查 F分 布表,或直接用 MATLAB 命令 finv(1-?,1, n-2)计算得到;如果 p?表示线性模型可用。这三个值可以相互印证。 s 的值主要用来比较模型是否有改进,其值越小说明模型精度越高。 y=143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164; x=88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102; n=16; X=ones(n,1),x; b,bint,r,rint,s=regress(y,X,);%s=(R,F,P 概率, s) b,bint,s, rcoplot(r,rint) 运行后得到 20 / 65 b = bint = 2 2 2 s = R2=,由 finv(,1,14)= ,即 F1?(1,n?2)= 可以通过残差图发现,第二个数据为奇异数据,去掉该数据后运行后得到 b = bint = - s = R2=,由 finv(,1,13)= ,即 F1?(1,n?2)= 说明模型有效且有改进,因此我们得到身高与腿长的关系 y?。 当然,也可以利用直线拟合得到同一方程。只不过不能得到参数置信区间和对模型进行检验。拟合程序如下: 多元线性回归21 / 65 分析 1 多元线性回归模型的建模步骤及其 MATLAB 实现 如果根据经验和有关知识认为与因变量有关联的自 变量不止一个,那么就应该考虑用最小二乘准则建立多元线性回归模型。 设影响因变量 y的主要因素有 m个,记的线性关系式: x?(x1, ,xm),假设它们有如下 y?0?1x1?mxm? x1,x2, 2 ?N(0?, , ) 22 / 65 如果对变量 y与自变量乘估计求得回归方程 ,xm 同时作 n 次观察得 n组观察值,采用最小二 ?x?y011?x?km . 建立回归模型是一个相当复杂的过程,概括起来主要有以下几个方面工作根据研究目 的收集数据和预分析;根据散点图是否具有线性关系建立基本回归模型;模型的精细分析;模型的确认与应用等。 收集数据的一个经验准则是收集的数据量至少应为可能的自变量数目的 610 倍。在建模过程中首先要根据所研究问题的目的设置因变量,然后再选取与该因变量有统计关系的一些变量作为自变量。我们当然希望选择与问题关系密切的变量,同时这些变量之间相关性不太强,这可以在得到初步的模型后利用 MATLAB 软件进行相关性检验。下面通过一个案例探讨 MATLAB软件在回归分析建模各个环节中如何应用。 多元线性回归的 MATLAB 实现 23 / 65 仍然用命令 regress(y , X),只是要注意矩阵 X的形式,将通过如下例子说明其用法。 表 8-2 从事某种研究的学者的相关指标数据 i 1 9 2 20 3 18 4 33 5 31 6 13 7 25 24 / 65 8 30 9 5 10 47 11 25 12 11 xi1 xi2 xi3 yi 作出因变量 Y与各自变量的样本散点图 作散点图的目的主要是观察因变量 Y与各自变量间是否有比较好的线性关系,以便选择恰当的数学模型形式。下图分别为年薪 Y 与成果质量指标 X1、研究工作时间 X2、获得资助的指标 X3之间的散点图, subplot(1,3,1),plot(x1,Y,g*), subplot(1,3,2),plot(x2,Y,k+), 25 / 65 subplot(1,3,3),plot(x3,Y,ro), 从图可以看出这些点大致分布在一条直线旁边,因此,有比较好的线性关系,可以采用线性回归。 Y与 x1的散点图 Y与 x2的散点图 Y与 x3的散点图 图 因变量 Y与各自变量的样本散点图 3. 利用 MATLAB统计工具箱得到初步的回归方程 ?x?x?x?设回归方程为: y0112333 建立 m-文件输入如下程序数据: n=24; m=3; X=ones(n,1),x1,x2,x3; b,bint,r,rint,s=regress(Y,X,); b,bint,r,rint,s, rcoplot(r,rint) 26 / 65 运行后即得到结果如表 8-3所示。 . 2 R2= F= p 计算结果包括回归系数 b=( ?0,?1,?2,?3)=(, , , ),且置信 2 2 区间均 不包含零点,;残差及其置信区间;统计变量 stats ,它包含四个检验统计量:相关系数的平方 R,假设检验统计量,与 F 对应的概率 p, s 的值。因此我们得到初步的回归方程为: 2 ? 27 / 65 由结果对模型的判断: 回归系数置信区间不包含零点表示模型较好,残差在零点附近也表示模型较好,接着就是利用检验统计量, p 的值判断该模型是否可用。 相关系数的评 价:一般地,相关系数绝对值在 1 范围内,可判断回归自变量与因变量具有较强的线性相关性。本例的绝对值为,表明线性相关性较强。 F 检验法:当 F?F1?(m,n?m?1),即认为因变量 y 与自变量 x1,x2, x1,x2, ,xm之 间显著地有线性相关关系;否则认为因变量 y与自变量著。本例 ,xm之间线性相关关系不显 28 / 65 F1?(3,20)= 。 ,xm x,x,p值检验:若 p?,则说 明因变量 y 与自变量 12 之间显著地有线性相关关系。本例输出结果, p 以上三种统计推断方法推断的结果是一致的,说明因变量 y 与自变量之间显著地有线性相关关系,所得线性回归模型可用。 s当然越小越好,这主要在模型改进时作为参考。 模型的精细分析和改进 残差分析 残差 2 ?i(i?1,2,ei?yi?y 29 / 65 ?i,n),是各观测值 yi 与回归方程 所对应得到的拟合值 y之 2 ?N(0,?)即有零均值和常值方差, ?差,实际上,它是线性回归模型中误差的估计值。 利用残差的这种特性反过来考察原模型的合理性就是残差分析的 基本思想。利用 MATLAB 进行残差分析则是通过残差图或时序残差图。残差图是指以残差为纵坐标,以其他指定的量 回归分析 应用最广泛的一种办法。但回归分析 要求大样本,只有通过大量的数据才能得到量化的 规律,这对很多无法得到或一时缺乏数据的实际问题的解决带来困难。回归分析还要求几 样本有较好的分布规律,而很多实际情形并非如此。例如,我国建国以来经济方面有次大起大落,难以满足样本有较规30 / 65 律的分布要求。因此,有了大量的数据也不一定能得到统计规律,甚至即使得到了统计规律,也并非任何情况都可以分析。另外,回归分析不能分析因素间动态的关联程度,即使是静态,其精度也不高,且常常出现反常现象前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找 因变量与自变量之间的一个函数,使这个函数对那组数据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已经完全解决了,还有进一步研究的必要吗 ? 从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些 系数,只是它们的一个估计,应该对它们作区间估计或假设检验,如果置信区间 太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析 方法对模型的误差进行分析,对拟合的优劣给出评价。 简单地说,回归分析就是对拟合 问题作的统计分析。 数据的标准化处理数据的中心化处理是指平移变换 数据的无量纲化处理在实际问题中,不同变量的测量单位往往是不一样的。为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变31 / 65 量进行所谓的压缩处理,即使每个变量的方差均变成 1 标准化处理所谓对数据的标准化处理,是指对数据同时进行中心化压缩处理 一元线性回归假设对于 x 的 n 个值据最小二乘准则,要使 Q(?0,?1)? xi,得到 y的 n个相应的值 yi,确定 ?0, ?1的方法是根 ?i2? i?1 n ?y i?1 n 32 / 65 i ?(?0?1xi)2 ?Q?Q ?0,?0?, ?, ?0101,从而得到 01取最小值。利用极值必要条件令,求的估计值 回归直线 ?xy?01。只不过这个过程可以由软件通过直线拟合完成,而无须进行繁杂的 运算。 参数的区间估计 ?, ?, ?0101 取值的区间进行估计,由于我们所计算出的仍然是随机变量,因此要对如果 33 / 65 区间估计值是一个较短的区间表示模型精度较高。 对误差方差的估计 设 ?iyy为回归函数的值, i 为测量值,残差平方和 n ?i)2Q?(yi?y i?1 s2? 剩余方差 Qn?2 线性相关性的检验 由于我们采用的是一元线性回归,因此,如果模型可用的话,应该具有较好的线性关系。反映模型是否具有良好线性关系34 / 65 可通过相关系数 R 的值及 F 值观察。 一个好的拟合方程,其残差总和应越小越好。残差越小,拟合值与观测值越接近, 各观测点在拟合直线周围聚集的紧密程度越高,也就是说,拟合方程的能力越强 。 另外,当 e S 越小时,还说明残差值 i e 的变异程度越小。由于残差的样本均值为零, 所以,其离散范围越小,拟合的模型就越为精确。 例 1 测得 16名成年女子身高 y 与腿长 x 所得数据如下: 首 先利用命令 plot(x,y,r*)画出散点图,从图形可以看出,这些点大致分布在一条直线的左右,因此,可以考虑一元线性回归。可编制程序如下: %输入 y、 x, alpha 是显著性水平与拟合命令 polyfit的输省时默认)。输出 b?(?01 出不同, bint 是 ?0, ?1 的置信区间, r 是残差, rint 是残差的置信区间, s包含 4个统计量:决定系数 R; F值; F(1,n-2)分布大于 F值的概率 p;剩余方差 2s2的值。 s 也可由程序 sum(r. )/(n-2)计算。 2 其意义和用法如下: R 的值越接近 1,变量的线性相关性越35 / 65 强,说明模型有效;如果满足 2 F1?(1,n?2)?F,则认为变量 y 与 x 显著地有线性关系,其中 F1?(1,n?2)的值可查 F分 布表,或直接用 MATLAB 命令 finv(1-?,1, n-2)计算得到;如果 p?表示线性 模型可用。这三个值可以相互印证。 s 的值主要用来比较模型是否有改进,其值越小说明模型精度越高。 2 y=143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164; x=88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102; plot(x,y,r*) n=16; X=ones(n,1),x; 36 / 65 b,bint,r,rint,s=regress(y,X,); b,bint,s, rcoplot(r,rint) 运行后得到 b = bint = s = R2=,由 finv(,1,14)= ,即 F1?(1,n?2)= p 可以通过残差图发现,第二个数据为奇异数据,去掉该数据后运行后得到 b = bint = - s = R2=,由 finv(,1,13)= ,即 F1?(1,n?2)= p y?。 当然,也可以利用直线拟合得到同一方程。只不过不能得到参数置信区间和对模型进行检验。拟合程序如下: 多元线性回归分析 37 / 65 1 多元线性回归模型的建模步骤及其 MATLAB 实现 如果根据经验和有关知识认为与因变量有关联的自变量不止一个,那么就应该考虑用最小二乘准则建立多元线性回归模型。 设影响因变量 y的主要因素有 m个,记的线性关系式: x?(x1, ,xm),假设它们有如下 y?0?1x1?mxm? x1,x2, 2 ?N(0?, , ) 如果对变量 y与自变量估计求得回归方程 38 / 65 ,xm 同时作 n 次观察得 n组观察值,采用最小二乘 ?x?y011?x?km . 建立回归模型是一个相当复杂的过程,概括起来主要有以下几个方面工作根据研究目 的收 集数据和预分析;根据散点图是否具有线性关系建立基本回归模型;模型的精细分析;模型的确认与应用等。 收集数据的一个经验准则是收集的数据量至少应为可能的自变量数目的 610 倍。在建模过程中首先要根据所研究问题的目的设置因变量,然后再选取与该因变量有统计关系的一些变量作为自变量。我们当然希望选择与问题关系密切的变量,同时这些变量之间 相关性不太强,这可以在得到初步的模型后利用 MATLAB 软件进行相关性检验。下面通过一个案例探讨 MATLAB 软件在回归分析建模各个环节中如何应用。 多元线性回归的MATLAB 实现 39 / 65 仍然用命令 regress(y , X),只是要注意矩阵 X的形式,将通过如下例子说明其用法。 表 8-2 从事某种研究的学者的相关指标数据 i 1 9 2 20 3 18 4 33 5 31 6 13 7 25 40 / 65 8 30 9 5 10 47 11 25 12 11 xi1 xi2 xi3 yi 作出因变量 Y与各自变量的样本散点图 作散点图的目的主要是观察因变量 Y与各自变量间是否有比较好的线性关系,以 便选择恰当的数学模型形式。下图分别为年薪 Y 与成果质量指标 X1、研究工作时间 X2、获得资助的指标 X3之间的散点图, subplot(1,3,1),plot(x1,Y,g*), subplot(1,3,2),plot(x2,Y,k+), 41 / 65 subplot(1,3,3),plot(x3,Y,ro), 从图可以看出这些点大致分布在一条直线旁边,因此,有比较好的线性关系,可以采用线性回归。 Y与 x1的散点图 Y与 x2的散点图 Y与 x3的散点图 图 因变量 Y与各自变量的样本散点图 3. 利用 MATLAB统计工具箱得到初步的回归方程 ?x?x?x?设回归方程为: y0112333 建立 m-文件输入如下程序数据: n=24; m=3; . X=ones(n,1),x1,x2,x3; 42 / 65 b,bint,r,rint,s=regress(Y,X,); b,bint,r,rint,s, rcoplot(r,rint) 运行后 即得到结果如表 8-3所示。 表 8-3 对初步回归模型的计算结果 2 R2= F= p 计算结果包括回归系数 b=( ?0,?1,?2,?3)=(, , , ),且置信 2 2 区间均不包含零点,;残差及其置信区间;统计变量 stats ,它包含四个检验统计量:相关系数的平方 R,假设检验统计量,与 F 对应的概率 p, s 的值。因此我们得到初步的回归方程为: 2 43 / 65 ? 由结果对模型的判断: 回归系数置信区间不包含零点表示模型较好,残差在零点附近也表示模型较好,接着就是利用检验统计量, p 的值判断该模型是否可用。 相关系数的评价:一般地,相关系数绝对值在 1 范围内,可判断回归自变量与因变量具有较强的线性相关性。本例的绝对值为,表明线性相关性较强。 F 检验法:当 F?F1?(m,n?m?1),即认为因变量 y 与自变量 x1,x2, x1,x2, ,xm之 间显著地有线性相关关系;否则认为因变量 y与自变量著。44 / 65 本例 ,xm之间线性相关关系不显 F1?(3,20)= 。 ,xm x,x,p值检验:若 p?,则说明因变量 y 与自变量 12 之间显著地有线性相关关系。本例输出结果, p 以上三种统计推断方法推断的结果是一致的,说明因变量 y 与自变量之间显著地有线性相关关系,所得线性回归模型可用。 s当然越小越好,这主要在模型改进时作为参考。 模型的精细分析和改进 2 第十二章 多元回归分析 45 / 65 在许多实际问题中,影响因变量的因素有一个时,我们用一元回归分析解决问题,但是影响因变量的因素往往有多个,此时问题就上升到了一个因变量同多个自变量的多元回归问题。当因变量与自变量之间为线性关系时,我们称 之为多元线性回归。 多元性性回归分析的原理同一元线性回归基本相同,但计算上要复杂得多。 主要知识点: 建立的回归模型中回归系数和误差项分别代表的含义: 回归系数 ?(i?0,1,2?k)表示当其他 k?1个自变量不变时,第i 个自变量 i 一个单位因变量 y 的平均变动量; 误差项 ?表示不能由各个自变量与 y 之间的线性关系所解释的变异性。 利用软件 用最小二乘法对参数进行估计的方法及步骤: 46 / 65 在 Excel 中使用 “ 工具 ”?“ 数据分析 ” ?“ 回归 ” ? 输入数据区域 ?“ 确定 ” ,即可得到各参数的估计值,此时便可以写出回归方程。 拟合优度的检验方法: 方法一:多重判定系数 SSRSSE22 ?1?0?R?1 R?SSTSST R 2 表示在因变量 y 的总变差中被估计的回归方程所解释的比例; 2 故 R 越大越好。 方法二:估计标准误差 S 47 / 65 ?e e ?)?(y?y i i 2 n?k?1 S 表示根据所建立的回归方程,用自变量来预测因变量时,平均 预测误差的大小; 48 / 65 故 Se越小越好,越小说明波动性越小。 用软件进行线性关系检验的方法: 在 Excel 中,在 “ 工具 ”?“ 数据分析 ” ?“ 回归 ” ? 方差分析一栏中有 “SignificanceF” 值,当 p?时,拒绝原假设;当 p?时,接受原假设。 回归系数的检验: 检验单个自变量对因变量的影响是否显著,检验步骤同线性关系的检验,检验过 程中可能会因为 “ 多重共线性 ” 问题导致某些自变量无法通过检验。 检验步骤:第 1 步:提出假设。对于任意参数 ?i(i?1,2?k)有 H:? i 49 / 65 ?0 ?0 H:? 1 i 第 2 步:计算检验的统计量 t。 t i ? ? i S? 50 / 65 t(n?k?1) i 第 3 步:做出统计决策。 给定显著性水平 ?,根据自由度 =n-k-1 查 t分布表,得 t? 2 的值。若 t?t?2,则拒绝原假设;若 t?t?,则不拒 绝原假设。 多重共线性: 产生原因:自变量之间的相关性; 检验方法: 方法一:检验模型中各对自变量之间是否显著相关,若显著51 / 65 相关则暗示 存在多重共线性; 方法二:当模型的线性关系检验显著时,几乎所有回归系数的 t 检验却不显著; 方法三:当回归系数的正负号与预期的相反时也预示着多重共线性的存 在; 问题的处理: 方法一:将一个或多个相关的自变量从模型中剔除, 使保留的自变量尽 可能不相关; 方法二:如果要在模型中保留所有的自变量,那就应该: i 52 / 65 ? 避免根据 t统计量对单个参数 ?进行检验。 对因变量 y值得推断限定在自变量样本值 的范围内。 利用回归方程进行预测: 利用给定的 k个自变量,求出因变量 y的平均值的预测区间和个别值的预测区间。 变量选择: 原理:对统计量进行显著性检验,将一个或一个以上的自变量引入模型,如果增加一个自变量会使得残差平方和明显减少,则将该自变量留在模型中,否则剔除。 主要方法: 1)向前选择 2)向后剔除 3)逐步回归 53 / 65 本章知识结构如下: 1、 建立回归模型 y ?x?x 1 1 2 2 ? k x k ? 54 / 65 回归方程 y?0?1x1?2x2?kxk 2、 利用最小二乘法对参数进行估计 参数包括 ?0, ?1, ?2?k 多 元 回 归 分 析 提出假设 2) 计算统计量 F? R S 2 e 55 / 65 K F(k,n?k?1) (n?k?1) 作出决策 F,F?,P,? 向前选择 b) 向后剔除 逐步回归 a) 计算各对自变量之间的相关系数,并对各相关系数进行显著性检验; b) 当模型的线性关系进行 F 检验显著时,几乎所有回归系数 ?i的 t检验却不显著; c) 回归系数与预期的的相反; 本章例题 对于绝大多数的钢种而言,磷是有害的元素之一,要求含磷56 / 65 越低越好,经过试验技术人员发现,高磷钢的效率与高磷钢的出钢量及高磷钢中的 FeO含量有一定关系 , 所测数据如下表: 设高磷钢的效率为 y、高磷钢的出钢量为 x1、高磷钢中的 FeO含量为 x2 用 Excel 进行回归,回答下面的问题: 写出估计的回归方程。 在高磷钢的效率的总变差中,被估计的回归方程所解释的比例是多少? 检验回归方程的线性关系是否显著。 检验各回归系数是否显著。 检验所建立的回归方程是否存在多重共线性。 解:用 Excel进行回归分析输出如下所示: 回归统计 Multiple R R Square Adjusted R Square 标准误差 观测值 13 方差分析 df SS MS F Significance F 回归分析 2 残差 10 总计 12 57 / 65 Lower Upper 下限 上限 Coefficients 标准误差 P-value 95% 95% % % Intercept 出钢量 FeO含量 - - - 由此可得到高磷钢的效率与高磷钢的出钢量及高磷钢中的FeO含量的回 归方程: y? 其中回归系数 ?表示,在 FeO含量不变时,高磷钢的效率每增 1 加一个单位,高磷钢的出钢量将增加个单位。 ? 58 / 65 2 ?表示,在高磷钢的出钢量不变时,高磷钢的效 1 率每增加一个单位, FeO含量要降低个单位。 在回归统计一栏中有 R=,所以在高磷钢的效率的总变差中,被估计的回归方程所解释的比例是 %。 在方差分析一栏中有 Significance F=,在 ?的显著性水平下,有 P 由回归分析输出的结果中的 P-value 一栏可以看出,只有出钢量对应的回归系数通过了检验。 说明在影响高磷钢 的效率的两个变量中,只有出钢量的影响是显著的,而高磷钢中的 FeO含量则对高磷钢的效率没有显著性影响。 出钢量 FeO含量 出钢量 1 59 / 65 FeO含量 1 出钢量、 FeO含量之间的相关矩阵 各相关系数检验的统计量如下表所示: 出钢量 FeO含量 出钢量 1 FeO含量 0,878336 1 各相关系数检验的统计量 , 查 表 得 t?2(13?2)? 由 于 统 计 量 小 于t?2(13?2)?,所以接受 2 原假设,说明两个自变量之间没有显著的相关关系。故不存在多重共线性。 60 / 65 回归分析主要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 银川市中石油2025秋招笔试模拟题含答案炼油工艺技术岗
- 中国联通天水市2025秋招财务审计类专业追问清单及参考回答
- 临沧市中石油2025秋招笔试模拟题含答案炼油设备技术岗
- 渭南市中储粮2025秋招面试专业追问题库财务资产岗
- 中国广电神农架林区2025秋招写作案例分析万能模板直接套用
- 国家能源白银市2025秋招面试专业追问及参考财务审计岗位
- 2025年普法课堂考试题及答案
- 鸡西市中储粮2025秋招质检化验岗高频笔试题库含答案
- 益阳市中储粮2025秋招面试专业追问题库财务资产岗
- 大唐电力哈尔滨市2025秋招综合管理专业面试追问及参考回答
- 法警安全检查培训课件
- AI+智慧医院高质量发展 信息化建设方案
- 人员密集场所安全培训教学课件
- 村干部笔试试题及答案
- 项目管理业务知识培训课件
- 知识产权保护与运用培训课件
- 2025年广东省政府采购评审专家考试真题含答案
- 小猪逛果园课件
- 新疆省中考英语真题全解析
- Unit 2 Home Sweet Home 单元全真模拟培优卷(含答案解析)八年级上册英语人教版
- 2025年贵州省中考语文真题(含答案)
评论
0/150
提交评论