




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、专题4:多元线性回归分析1 处理的问题2 回归方程3 原始数据4 基本思想5 主要统计结果6 多元回归例题7 模型的要求8 自变量的筛选逐步回归9 多对多回归双重筛选逐步回归简介10 应用举例1 处理的问题多元线性回归是一元线性回归的拓展,可以同时考虑多个自变量,用于分析几个自变量与一个因变量之间的线性关系,建立由几个自变量推测一个因变量的回归方程。注:这里的多元是指多个自变量,因变量只有一个,即一对多回归。多元统计分析中的多元回归也指同时有多个因变量和多个自变量,即多对多回归。返回2 回归方程多元线性回归的回归方程为:y b0 + b1x1 + b2x2 + + bkxk其中: x1、x2、
2、xk 为一组自变量 y 为因变量 y 为y的估计值 b0 为截距(即常数项) b1、b2、bk 为(偏)回归系数 回归方程在体育中有许多重要的应用,如运动成绩的预测和训练中的控制、运动成绩的影响因素分析、难测生理指标的估计等等。返回3 原始数据 抽取一个样本,测取样本中每个观察对象的因变量y值及自变量x1、x2、xk的值,注意每个对象各指标的值都要测全。为了取得较好的效果,样本含量n不能太小,最好有k的5至10倍或更多。对象yx1x2xk1y1x11x21xk12y2x12x22xk2nynx1nx2nxkn返回4 基本思想 建立回归方程的准则有多种,其中最常用的是“最小二乘法”,这是一种经典
3、的方法,也是一种默认方法,即不作说明的话,一般都是用该法。该法要求建立的回归方程使Q(yy )2达到最小。在该准则下,回归系数可以通过解下面的方程组(称为正规方程组)得到:其中: (Lij Lji) (i , j 1,2,3,k)从而可以根据“正规方程组”解出b1、b2、bk常数项b0可通过下式计算:返回5 主要统计结果51 回归系数和截距52 回归方程的检验与评价53 偏回归系数的检验各自变量作用的检验54 影响因素分析返回51 回归系数和截距因为回归方程为:y b0 + b1x1 + b2x2 + + bkxk所以给出截距(常数项)b0和回归系数b1、b2bk,也就是给出回归方程。返回52
4、 回归方程的检验与评价521 回归方程的检验522 复相关系数、测定系数和剩余标准差返回521 回归方程的检验上述回归系数b1、b2bk 是根据样本计算出的,为样本回归系数。总体回归系数记为1、2k ,反映总体关系的回归方程应该为:回归方程的检验就是要检验原假设H0 :12k0若该假设成立,则说明总体上这组自变量x1、x2、xk 与因变量y间没有线性关系,所以回归方程没有意义。若该假设被拒绝,则说明总体上这组自变量(至少其中一部分)与y有线性关系,回归方程有意义。 检验方法仍然是方差分析的思想:=+ SSR SSE其中:SSR 称为回归平方和,SSE称为剩余平方和。显然,若回归效果较好的话,应
5、该SSE比较小而SSR比较大,所以我们可以用以下公式来检验: F(k , nk1)一般检验结果仍然以方差分析表的形式给出。如:返回522 复相关系数、测定系数和剩余标准差复相关系数决定系数调整的决定系数剩余标准差决定系数等计算结果例返回复相关系数 复相关系数R是简单相关系数r的推广,它反映一组自变量x1、x2、xk与因变量y之间的相关程度。其定义如下:R显然总有:0 R 1事实上,R也就是实际观察值y与回归估计值y 之间的简单相关。R的显著性检验等价于上述回归方程的F检验。返回决定系数复相关系数的平方R2称为决定系数(也称为测定系数),它反映了因变量y的变化中,有多少由自变量x1、x2、xk所
6、决定。如R20.78,则说明y的变化中有78由x1、x2、xk决定。显然R或R2越大,回归效果越好。返回调整的决定系数在多元回归中,当样本固定时,随着多元线性回归模型中自变量的不断加入,R会越来越大,当模型中自变量的个数为样本含量减1时,R必然为1,这也可以从两点决定一直线、三点决定一平面中直观地看出。 所以在衡量回归方程的效果时,常常还要考虑方程中变量的个数。变量越多,应要求R越大,所以又常用调整的决定系数Ra2或调整的复相关系数Ra,在若干个回归方程中选择一个时,常常考虑Ra最大的。返回 剩余标准差用回归方程对因变量y进行估计(预测)时,估计精度主要由剩余标准差SE决定,其定义如下:SE越
7、小,估计精度越高,越准确。 设有一观察对象各自变量的值为x1, 0、x2, 0xk, 0 ,根据回归方程推算的因变量的估计值为y 0 ,因变量值为y0(未知)。当有关变量服从多元正态分布、样本含量较大、自变量的值离均值不太远时,近似地有:y0的95置信区间为(y 02SE ,y 02SE)注意,这只是一个非常粗糙的近似,估计预测精度的确切的公式相当复杂,但一般而言,样本含量大则预测精度较高,各自变量接近均值则预测精度较高。返回决定系数等计算结果例返回53 偏回归系数的检验各自变量作用的检验在回归方程的检验中,当原假设H0 :12k0被拒绝时,1、2、k不全为0,但不一定全不为0,究竟哪几个不为
8、0,还需要进一步检验。反映总体关系的回归方程应该为:若i0,则xi在方程中有作用,若i0,则xi在方程中不起作用。对原假设H0 :i0 (i1、2、k)的检验,常用的方法有两种,一种是用偏回归平方和作F检验,另一种是用参数方法作t检验。(SPSS中,对回归系数进行检验时,用t检验;对变量进行筛选时,用F检验)若方程中有些自变量该检验不具有显著性,则说明方程中有多余自变量,应考虑剔除。返回54 影响因素分析建立了回归方程后,我们自然要问:哪个自变量对y的影响程度更大?哪个自变量与y的关系更密切?这就是回归中的影响因素分析问题。541 标准偏回归系数542 偏相关系数返回541 标准偏回归系数回归
9、方程为:y b0 + b1x1 + b2x2 + + bkxk根据回归方程反映的关系,当xi增大一个单位时,y将增大bi个单位左右。但bi与xi所取单位有关,用同样的资料计算,自变量单位越大,则偏回归系数绝对值也越大。若xi的单位为毫米时,其偏回归系数为bi,则当其单位改用厘米时,偏回归系数将变为10bi,显然直接用偏回归系数衡量自变量对y的影响不合理,必须消除单位的影响,所以要用标准偏回归系数。设x的总体均数为,总体标准差为,则称为x的标准化变量。标准化变量的均数为0、标准差为1。因、常不知道,也近似地用。将数据作如上变换后,称为标准化数据。用标准化数据建立的关于标准化变量的回归方程y b1
10、x1+b2x2+bkxk称为标准回归方程(标准回归方程中的常数项总为0),标准回归方程中的(偏)回归系数b1、b2、bk 称为标准(偏)回归系数。 当xi增大一个标准差(xi的标准差)时,y将增大bi 个标准差(y的标准差)。所以标准偏回归系数的绝对值越大,相应的自变量对y的影响就越大。标准偏回归系数的检验等价于偏回归系数的检验。返回542 偏相关系数在多元统计中,变量之间的相关关系是错综复杂的,两个变量之间的相关关系往往掺杂着其他变量的影响。例如,我们测18岁男童的握力和词汇量,会发现两者之间的简单相关程度很高,这主要是由于两者共同受着年龄的影响,年龄大的握力大、词汇量大,年龄小的握力小、词
11、汇量小,若排除年龄的影响,握力与词汇量几乎不相关。要排除其他因素的影响有两个方法,一个是在获取数据时将该因素固定,如上例中都取相同年龄的男童,另一个是用统计方法,如用偏相关系数。 偏相关系数表示剔除了x3的影响后x1与x2的相关,表示剔除了x1、x3、x4的影响后,x2与x5间的相关,依此类推。偏相关系数和简单相关系数有时会相差很大,甚至符号相反。 在多元回归中,考虑一个自变量与因变量的相关程度时,应该用排除了其他自变量的影响后的偏相关系数来衡量。返回6 多元回归例题例:根据20名女中学生的体重(x1,kg)、胸围(x2,cm)、胸围的呼吸差(x3,cm)及肺活量(y,ml)的资料,以y为因变
12、量作多元回归。(数据略)主要结果如下:模型概述复相关系数、测定系数和剩余标准差:方差分析表:系数及检验返回7 模型的要求 线性回归模型一般要求:l 各误差项相互独立,且服从均数为0的正态分布。l 各误差项的方差相等。l 各自变量相互独立(不相关)。对第一条一般程度的违背,不会对模型造成实质性的影响。严重违背且样本含量又较小时,会影响假设检验的结果。第二条明显不满足时,应使用加权回归。第三条在实践中不易做到,若相关程度不高则问题不大,但当自变量间具有较高程度的线性相关关系,某些自变量能近似地用其他自变量的线性函数来描述时(这种现象称为“多重共线性”),将会对模型的拟合产生严重影响。用下面要介绍的
13、“逐步回归”对变量进行筛选是解决共线性问题的方法之一,也可在聚类分析的基础上再做回归分析,另外,结合专业知识人工剔除部分变量也是重要的途径之一。实在不行只有换用其他统计方法,如岭回归。返回8 自变量的筛选逐步回归为什么要对自变量进行筛选?逐步回归的基本思想*自变量对方程作用的衡量*控制标准逐步回归例题返回为什么要对自变量进行筛选 原因一:在回归分析中,自变量的选择是头等重要的问题。如果某个重要变量遗漏,回归方程的效果一定好不了。而若变量太多,使用起来又不方便。原因二:当自变量存在多重共线性问题时,也需要在具有共线性关系的变量中剔除一部分,以解决该问题。比较好的做法是,先根据专业知识挑选一批与因
14、变量有关的变量(尽量保证不遗漏重要变量),然后用统计方法进行筛选。筛选变量的方法有许多,目前使用最多的是逐步回归法。返回逐步回归的基本思想 首先,所有自变量都在方程外,然后开始以下程序:l 步1:在方程外变量中挑一个对方程作用最大的,判断其作用是否显著(是否达到进入方程的标准),若不显著则结束。若显著,将其选入方程,然后转“步2”。l 步2:判断方程中各变量作用是否显著(是否达到留在方程中的标准),若都显著,返回步1。若有不显著的,挑一个最不显著的剔出方程,然后重新进行步2。如此在步1、步2之间反复进行,直到方程外没有变量可进入方程,方程内也没有变量可剔出方程为止。注意在这个过程中剔出方程的变
15、量可以再进入方程的。返回自变量对方程作用的衡量 自变量对方程作用的衡量,也即偏回归系数的检验,可以用上述的t检验,但在逐步回归中一般使用偏回归平方和的检验。自变量xi的偏回归平方和SSi定义如下SSi(包含xi时的回归平方和)(剔除xi后的回归平方和)由于回归平方和越大,回归的效果越好,所以SSi越大,xi对方程的作用就越大。但要注意SSi不仅与xi有关,还与方程中有哪些自变量有关。 偏回归平方和可用下面公式检验: F(1,nk1)这一检验也常用于偏回归系数的检验。返回控制标准 逐步回归中控制变量进入或剔出方程的标准,常用的有以下几种。 用上述F检验的显著性p值来控制。设一个P-entry,一
16、个P- removal,必须P-entryP- removal。某自变量的pP- removal时 需要剔出方程最常用的设法是P-entry0.05,P- removal0.10。 用上述F检验的统计量F值来控制。设一个F-entry,一个F- removal,必须F-entryF-removal。某自变量的FF-entry时 可以进入方程某自变量的FF- removal时 需要剔出方程常用的设法是F-entry3.84,F- removal2.71。一般所设p值越大,进入方程的变量越多。所设F值越小,进入方程的变量越多。实际操作时可以用不同的控制值来试探,挑一个较满意的方程使用。有时会将专业
17、上非常重要的指标排除在方程外,要将控制标准放宽到该变量能进入方程的话,又会造成大量无用变量的进入,这时可使用一些高级程序中提供的变量“强制进入”功能,或人为地将与该变量相关程度高的变量剔除后再做逐步回归。返回逐步回归例题我们仍以上述肺活量问题为例。例:根据20名女中学生的体重(x1,kg)、胸围(x2,cm)、胸围的呼吸差(x3,cm)及肺活量(y,ml)的资料,以y为因变量作多元回归。(数据略)当取Pin=0.05、Pout=0.10时,可得如下计算结果:l 变量进出情况:l Model Summary(模型概述复相关系数、测定系数和剩余标准差)l ANOVA(方差分析表)l Coeffic
18、ients(系数)l Excluded Variables被排除的变量若进入方程的话,其标准偏回归系数、偏相关系数、容差(容许值)当取Pin=0.06、Pout=0.10时,可得如下计算结果:返回9 多对多回归双重筛选逐步回归简介 上述多元回归是多个自变量、一个因变量,是一对多回归。在多元统计中,多元回归主要指多个自变量、多个因变量,即自变量与因变量都是多元随机变量,为区别起见,称为多对多回归。一对多回归是多对多回归的特例。 在多对多回归中,不是每个因变量都与相同的一组自变量有线性关系的,与各因变量有关系的自变量是交叉的。所以在进行变量的筛选时,既要对自变量进行筛选,又要对因变量进行筛选,最后把多个因变量分成若干组,使同一组中的因变量都与相同的一组自变量有关,并对每个因变量给出一个回归方程。这就是双重筛选逐步回归。 双重筛选逐步回归的算法与一对多逐步回归的算法不同,控制标准既要有针对筛选自变量的,又要有针对因变量分组的。但最后所得回归方程的理解与一对多回归基本相同。返回10 应用举例应用方面:1. 运动成绩的预测:横向、纵向、横向带滞后2. 运动成绩的影响因素分析:因变量为运动成绩,自变量为有关的身体素质、形态、生理机能等。3. 难测生
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 45570-2025光学陀螺仪通用技术要求
- GB/T 32865-2025致密砂岩气产品质量要求和试验方法
- 2025年汽车检测及维修师傅技能资格知识考试题与答案
- 南风艺术培训学校简介
- 质量管理培训体系构建与实施
- 心康部部门培训-构建心理健康防护体系
- 《灰姑娘的故事》课件
- 《医学伦理学案例》课件
- 《数理逻辑概览》课件
- 《社会主义核心价值观教育》课件
- 《广播电视与通信》课件
- 新能源汽车运用与维修专业人才培养方案
- 2024北京初三(上)期末语文汇编:议论文阅读
- 小学数学《分数除法》50道计算题包含答案
- 预付煤款合同模板
- 光影中国学习通超星期末考试答案章节答案2024年
- 工科中的设计思维学习通超星期末考试答案章节答案2024年
- 2020年全国II卷英语高考真题试题(答案+解析)
- 脑洞大开背后的创新思维学习通超星期末考试答案章节答案2024年
- 科傻平差软件说明指导书
- ipo上市商业计划书
评论
0/150
提交评论