




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第九章 回归分析方法,“回归” 一词的由来,“回归”英文为“regression”,是由英国著名生物学家兼统计学家Galton(高尔顿)在研究人类遗传问题时提出的。 为了研究父代身高(X)与子代身高(Y)的关系,Galton收集了上千对父亲及其一子的身高数据。经过对数据的深入分析,发现了一个很有趣的现象回归效应。,回归分析的定义,回归分析是数理统计学的一个重要组成部分,它的任务是研究变量之间的相关关系,建立变量之间的经验公式,以便达到预测和控制的目的。,回归分析是研究变量间相关关系的一门学科。它通过对客观事物中变量的大量观察或试验获得的数据,去寻找隐藏在数据背后的相关关系,给出它们的表达式回归
2、函数的估计。,1.相关关系,在实际问题中,我们常常遇到多个变量处于,同一个过程之中,它们相互联系、相互制约。,不完全确定关系:人的身高(X)与体重(Y),,人的血压(Y)与年龄(X),(不能用一个确定的函数关系式表达出来),这些r、v之间的关系称为“相关关系”。,完全确定函数关系:,2.回归分析,为了深入了解事物的本质,往往也需要我们去寻找这些变量之间的数量关系式。,回归分析就是为了寻找这类不完全确定的变量间的数学关系式并进行统计推断的一种方法。,3.回归分析的主要内容,(1)从一组数据出发,确定这些变量(参数),间的定量关系(回归模型),(2)对模型的可信度进行统计检验,(3)从有关的许多变
3、量中,判断变量的显著性,(即哪些是显著的,哪些是不显著的,,显著的保留,不显著的忽略),(4)应用结果对实际问题做出判断,自变量X回归变量,因变量Y应变量(响应变量),我们可以设想:Y的值由两部分组成,一、由X能决定的部分,它是X的函数,记为(X),二、由其它众多未加考虑的因素(包括随机因素),产生的影响,它被看作随机误差,也是随即变量,记为,于是我们得到如下模型:,Y=(X)+,9.1一元线性回归方法,1.一般形式,一元回归模型的一般形式记为:,并设观察值为y,则:, 是未知的待定系数,称其为回归系数,2.模型分析:,假设 , ,即,是相互独立的rv,,则随机变量,假设有一组试验数据,并假设
4、,其中,是相互独立的随机变量,且,若用,分别表示,的估计值,则称,为y关于x的一元线性回归方程,下面我们要研究的问题是,(2)如何检验回归方程的可信度?,解决第一个问题采用最小二乘估计,解决第二个问题采用统计检验的方法,(1)如何根据,来求,的估计值?,随机误差的平方和达到最小,9.1.2 参数,的最小二乘估计,最小二乘法估计,,即取,的估计值使,若记,为使 与 的拟合最佳,则,显然,,且关于,可微,,则由多元函数存在极值的必要条件得:,此方程为正规方程组,求解可得到:,称 为 的最小二乘估计,其中,即,的性质:,(1),(2),(3) 三者相互独立,(4),(5),9.1.3 回归方程的显著
5、性检验,前面是根据回归方程 求出了估计值 ,,现在的问题是:y与x之间是否存在这种关系?,即回归方程是否一定有意义?即当x变化时,y是否为,这就需要对回归方程作出显著性检验,实际上,只要,统计量。,从而有,一常数,也就是说这里 是否为0?,检验 是否为真,这就需要建立一个检验的,之间的差异,回归变量x的变化所引起的误差,它的大小反映了x的,重要程度。,先考虑总偏差平方和 ,表示,其中 是残差平方和,表示由随即误差和其它未,加控制的因素所引起的误差, 是回归平方和,表示由,事实上,由正规方程组知,由于每一个平方和都有一个自由度(free)(即相互 独立的不受约束随机变量的个数),用 表示,则总偏
6、差平方和的自由度,回归平方和的自由度,残差平方和的自由度,可以证明,在 的假设下,给定一个模型的显著性水平,通过查表得到F分布的值,记为,,若,是显著的,反之是不显著的。,则表明 是小概率事件,确实算出 ,说明 不成立,,说明 必不可少。换言之,模型对水平 而言,9.1.4 回归方程的拟合检验,通过对回归方程的显著性检验,在显著的情况下,,即说明x对y的影响是主要的,,但不能肯定y与x的关系一定是线性的,也可能是非 线性的,也可能还存在其他的影响因素,下进行重复试验,检验回归方程的拟合问题,假设对同一个 ,进行 次试验,得到观测数,据 ,,为此,就需要在同一个,为建立统计量,考虑相应的残差平方
7、和,其中,为第 i 组试验数据的平均值,这有两种可能:y不是x的线性关系。回归变量的个数不够,需要增加新的变量,究竟属于哪一种需要找出原因作进一步的改进。,9.2 多元线性回归方法,9.2.1多元线性回归模型,(9.2),假设作了n次试验得到n组观测值为:,代入(9.3)中可得,该模型关于回归系数 是线性的,u为一般向量,若用矩阵形式,(9.4)变为:,即,其中X是模型设计矩阵,Y与 是随机向量,且 , (I为n阶单位阵),是不可观测的随机误差向量, 是回归系数构成的向量,是未知、待定的常数向量。,9.2.2 回归系数 的最小二乘估计,由上式,(正规方程组),记系数矩阵 ,常数矩阵,如果 存在
8、,称其为相关矩阵,1.可以证明:对任意给定的X,Y,正规方程组总有解,虽然当X不满秩时,其解不唯一,但对任意一组解 都能是残差平方和最小,即,3.性质,2.当X满秩时,即则正规方程组的解为 ,即为回归系数的估计值,9.2.3 回归分析模型的显著性检验,主要是检验模型是否一定与解释变量有密切的关系,类似一元情形,考虑,回归分析表,,回归与响应关系越密切,定义:负相关系数,对于给定显著水平,当 ,模型不显著, 是成立的,即 与u不存在明显的函数关系。,9.2.4 回归模型的拟合性检验,在模型的检验显著的情况下,需要进一步地做拟合性检验,目的是检验是否一定为(9.2)所给的形式,即是否还存在其他的影
9、响因素没有考虑到。,相应 也可以分为k组,即第i组观测值为,当 ,说明模型拟合比较好,是不显著的,省略所造成误差不大,当 ,模型拟合不好,是显著的,省略所造成的误差影响不可忽略,需要增加新的变量,9.3 回归模型的选择方法,由上面拟合性检验结果:,引入新的解释变量,从模型中去掉, 模型拟合性检验是显著的,即未考虑到的因素的影响不可忽略,模型拟合性检验是不显著的,即模型中的解释变量已经足够了,但是并不足说明模型中所有的变量都是必须的,有可能有多余的变量,引入,去掉都涉及到模型的选择,模型选择的基本原则:即不遗漏一个重要的解释变量,但也不把一个无用的解释变量保留在模型中。,用偏回归平方和的大小来衡
10、量一个解释变量在模型中的重要性。,假设给定一组解释变量,它的残差平方和为:,9.3.1 去掉解释变量,9.3.2 增加解释变量,m个变量的回归系数的估计值取为:,相应的残差平方和为:,而,可以证明: 的偏回归平方和为,9.4 回归模型的正交设计法,由前面几节知:多元线性回归有两个基本缺点:,一是计算复杂,其复杂程度随着自变量个数的增加而迅速增加,二是由于回归系数之间存在相关性,当剔除某个自变量后,还必须重新计算回归系数,多元线性回归的两个基本缺点是由于系数矩阵A不是对角阵造成的,因此如何使A为对角矩阵是问题的关键所在,9.4.1 正交的概念,则称 是正交的,如何构造正交函数系呢?,通常情况下,
11、正交函数都为正交多项式,首先对于一维回归变量u来说明构造正交多项式的方法。,设有点列 ,取 ,,其中,其中,且第k个解释变量的偏回归平方和为:,所以残差平方和为:,9.5 多重线性与有偏估计,定理1.,这里trA表示方阵A的迹,即A的对角元素和,这里 为 的特征值,故从这里可以看出 为 的特征值,,再利用 ,以及,得,所以,为病态方程。,从这个表达式中我们可以看出,如果 至少有一个特征根非常小,即非常接近于零,那么 就会很大,这时,从均方误差的标准来看,这时的最小二乘估计 就不是一个好的估计,,并且称正规方程组,衡量多重共线性程度量用,来表示,1)k100时,则不存在多重共线性,2)100k1
12、000时,则存在较强的多重共线性,3)当k1000时,则存在严重的多重共线性,9.5.2 回归系数的有偏估计,从上面讨论我们知道,当设计矩阵存在复共线关,系时,最小二乘估计的性质不理想,有时甚至很坏。,在这种情况下我们就需要些新的估计方法,近三十年,来,人们提出了许多种新估计,其中在理论上最有影,响并且得到广泛应用的就是岭估计。,回归系数的岭估计定义为:,这里k0是可选择参数,称为岭参数或偏参数,,当k取不同值时,我们就得到不同的估计,因此,岭估计 是一个估计量。,主成份估计的方法:,1)做正交变换Z=XP,获得新的自变量,称为主成份,本章例题:,(1)问题,研究学者,得到如下数据(i为学者序
13、号)(见表8.1)。,某类研究学者的年薪,工薪阶层关心年薪与哪些因素有关,以此可制定,出它们自己的奋斗目标。,某科学基金会希望估计从事某研究的学者的年薪,Y与他们的研究成果(论文、著作等)的质量指标X1、,从事研究工作的时间X2、能成功获得资助的指标X3,之间的关系,为此按一定的实验设计方法调查了24位,表8.1 从事某种研究的学者的相关指标数据,试建立Y与X1,X2,X3之间关系的数学模型,并得出有关结论和作统计分析。,(2)作出因变量Y与各自变量的样本散点图,作散点图的目的主要是观察因变量Y与各自变量,间是否有比较好的线性关系,以便选择恰当的数学模,型形式。图8.1分别为年薪Y与成果质量指
14、标x1、研究,工作时间x2、获得资助的指标x3之间的散点图,从图,8.1可以看出这些点大致分布在一条直线旁边,因此,,有比较好的线性关系,可以采用线性回归。,图8.1 因变量Y与各自变量的样本散点图,(3)利用Matlab统计工具得到初步的回归方程,设回归方程为:,建立m-文件输入如下程序数据:,x1=3.5 5.3 5.1 5.8 4.2 6.0 6.8 5.5 3.1 7.2 4.5 4.9 8.0 6.5 6.5 3.7 6.2 7.0 4.0 4.5 5.9 5.6 4.8 3.9;,x2=9 20 18 33 31 13 25 30 5 47 25 11 23 35 39 21 7
15、40 35 23 35 39 21 7 40 35 23 33 27 34 15;,x3=6.1 6.4 7.4 6.7 7.5 5.9 6.0 4.0 5.8 8.3 5.0 6.4 7.6 7.0 5.0 4.0 5.5 7.0 6.0 3.5 4.9 4.3 8.0 5.0;,Y=33.2 40.3 38.7 46.8 41.4 37.5 39.0 40.7 30.1 52.9 38.2 31.8 43.3 44.1 42.5 33.6 34.2 48.0 38.0 35.9 40.4 36.8 45.2 35.1;,n=24; m=3;,X=ones(n,1),x1,x2,x3;,b,
16、bint,r,rint,s=regress(Y,X,0.05);,b,bint,r,rint,s,运行后即得到结果如表8.2所示。,表8.2 对初步回归模型的计算结果,计算结果包括回归系数,m-1)计算。因此我们得到初步的回归方程为:,统计变量stats,它包含四个检验统计量;相关系,且置信区间均不包含零点;残差及置信区间;,p, 的值7.0以前版本 也可由程序sum(r.2)/(n-,数的平方 ,假设检验统计量F,与F对应的概率,由结果对模型的判断,表明线性相关性较强。,有较强的线性相关性。本例中R的绝对值为0.9542 ,,值在0.81范围内,可判断回归自变量与因变量具,相关系数R的评价:
17、一般地,相关系数绝对,验统计量R、F、p的值判断该模型是否可用。,残差在零点附近也表示模型较好,接着就是利用检,回归系数置信区间不包含零点表示模型较好,,F检验法:当 ,即认为因变,查F分布表或输入命令finv(0.95,3,20)计算。,系;否则认为因变量y与自变量 之间线,量y与自变量 之间显著地有线性相关关,性相关关系不显著。本例,p值检验:若 ( 为预订显著水平),,线性相关关系。本例输出结果, ,显然满,则说明因变量y与自变量 之间显著地有,足 。,以上三种统计推断方法推断的结果是一致的,,(4)模型的精细分析和改进,在模型改进时作为参考。,说明因变量y与自变量之间显著地有线性相关关
18、系,,所得线性回归模型可用。 当然越小越好,这主要,残差分析。残差 ,是,各种观测值 与回归方程所对应得到的拟合值,之差,实际上,它是线性回归模型中误差 的估计,值。 即有零均值和常值方差,利用残差的,这种特性反过来考察模型的合理性就是残差分析的,基本思想。利用Matlab进行残差分析则是通过残差,自变量的高次项及交叉项等问题给出直观的检验。,差的等方差性以及回归函数中是否包含其他自变量、,观察残差图,可以对奇异点进行分析,还可以对误,变量的观测值;c.横坐标为因变量的拟合值。通过,坐标为观测时间或观测值序号;b.横坐标为某个自,其他指定的量为横坐标的散点图。主要包括:a.横,图或时序残差图。
19、残差图是指以残差为纵坐标,以,以观测值序号为横坐标,残差为纵坐标所得到,模型为,如果作为奇异点看待,去掉后重新拟合,则得回归,第4、12、 19这三个样本点的残差偏离原点较远,,差大多分布在零的附近,因此还是比较好的,不过,语句为rcoplot(r,rint) (见图8.2)。可以清楚看到残,的散点图称为时序残差图,画出时序残差图的Matlab,图8.2 时序残差图,且回归系数的置信区间更小,均不包含原点,统计,得到改进。,115.5586, 0.0000,比较可知R,F均增加,模型,变量stats包含的三个检验统计量:相关系数的平方,,假设检验统计量F,概率P,分别为0.9533,,变量间的交互作用讨论。变量间的交互作用,包括:不同自变量之间的交互作用以及同一变量的,自相关性。,a.不同自变量之间的交互作用。有时,在实验,中不仅单因素对指标有影
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- “春瓶”名称的释义及其原始功能探究
- 新媒体装置交互-洞察及研究
- 培训机构绩效管理办法
- 公益放映预算管理办法
- 隐私保护成本效益-洞察及研究
- 社会治理:近二十年国内社会治理创新研究
- 2025版生产安全事故应急预案5汇编
- 档案耗材供应管理办法
- 构成一般事故的指标是
- 航空应急救援体系
- 2025至2030中国直联式真空泵行业市场现状分析及竞争格局与投资发展报告
- 2025至2030中国无源光分路器行业发展趋势分析与未来投资战略咨询研究报告
- 痛风治疗与护理课件
- T/CCBD 19-2022品牌餐厅评价规范
- 河南省南阳市内乡县2025届数学七下期末调研试题含解析
- 校际结对帮扶协议书
- 第四版(2025)国际压力性损伤溃疡预防和治疗临床指南解读
- 企业电工面试题及答案
- 仓库与生产线的有效对接计划
- 《心律失常患者的护理》课件
- 2025江苏省惠隆资产管理限公司招聘30人易考易错模拟试题(共500题)试卷后附参考答案
评论
0/150
提交评论