




已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多元统计分析讲稿 多元线性回归分析1专题 4:多元线性回归分析1 处理 的问题2 回归方程3 原始数据4 基本思想5 主要统 计结果6 多元回归例题7 模型的要求8 自变量的筛选逐步回归9 多对多回归双重筛选逐步回归简介10 应用举例多元统计分析讲稿 多元线性回归分析21 处理的问题多元线性回归是一元线性回归的拓展,可以同时考虑多个自变量,用于分析几个自变量与一个因变量之间的线性关系,建立由几个自变量推测一个因变量的回归方程。注:这里的多元是指多个自变量,因变量只有一个,即一对多回归。多元统计分析中的多元回归也指同时有多个因变量和多个自变量,即多对多回归。返回多元统计分析讲稿 多元线性回归分析32 回归方程多元线性回归的回归方程为:y b 0 + b1x1 + b2x2 + + bkxk其中: x1、x 2、x k 为一组自变量y 为因变量 为 y 的估计值b0 为截距(即常数项)b1、b 2、b k 为(偏)回归系数回归方程在体育中有许多重要的应用,如运动成绩的预测和训练中的控制、运动成绩的影响因素分析、难测生理指标的估计等等。返回多元统计分析讲稿 多元线性回归分析43 原始数据抽取一个样本,测取样本中每个观察对象的因变量 y 值及自变量 x1、x 2、x k 的值,注意每个对象各指标的值都要测全。为了取得较好的效果,样本含量n 不能太小,最好有 k 的 5 至 10 倍或更多。对象 y x1 x2 xk1 y1 x11 x21 xk12 y2 x12 x22 xk2 n yn x1n x2n xkn返回多元统计分析讲稿 多元线性回归分析54 基本思想建立回归方程的准则有多种,其中最常用的是“最小二乘法” ,这是一种经典的方法,也是一种默认方法,即不作说明的话,一般都是用该法。该法要求建立的回归方程使Q(yy )2 21 210 )( ni kiiii xbxbxb达到最小。在该准则下,回归系数可以通过解下面的方程组(称为正规方程组)得到: kykkk ykykLbLbLb LbLbLb 21 22221 11121多元统计分析讲稿 多元线性回归分析6其中:(L ij L ji))(jjiiij xxL(i , j )(yiiiy1,2,3,k)从而可以根据“正规方程组”解出 b1、b 2、b k常数项 b0 可通过下式计算: kXbXbY210返回多元统计分析讲稿 多元线性回归分析75 主要统计结果51 回归系数和截距52 回归方程的检验与评价53 偏回归系数的检验各自变量作用的检验54 影响因素分析返回多元统计分析讲稿 多元线性回归分析851 回归系数和截距因为回归方程为:y b 0 + b1x1 + b2x2 + + bkxk所以给出截距(常数项)b 0 和回归系数 b1、b 2bk,也就是给出回归方程 。返回-2870.88 1268.278 -2.264 .03862.825 22.669 .466 2.771 .01434.115 12.893 .377 2.646 .018108.772 74.276 .269 1.464 .162(Constant)Model1 B Std. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientst Sig.CoefficientsaDependent Variable: a. 多元统计分析讲稿 多元线性回归分析952 回归方程的检验与评价521 回归方程的检验522 复相关系数、测定系数和剩余标准差返回多元统计分析讲稿 多元线性回归分析10521 回归方程的检验上述回归系数 b1、b 2bk 是根据样本计算出的,为样本回归系数。总体回归系数记为 1、 2 k ,反映总体关系的回归方程应该为: kxxxy 210回归方程的检验就是要检验原假设H0 : 1 2 k0若该假设成立,则说明总体上这组自变量x1、x 2、x k 与因变量 y 间没有线性关系,所以回归方程没有意义。若该假设被拒绝,则说明总体上这组自变量(至少其中一部分)与 y 有线性关系,回归方程有意义。检验方法仍然是方差分析的思想: njjTyS12)(= +njjy12)(nj jjy12)( SSR SSE多元统计分析讲稿 多元线性回归分析11其中:SS R 称为回归平方和,njjy12)(SSE 称为剩余平方和。nj jjy12)(显然,若回归效果较好的话,应该 SSE 比较小而SSR 比较大,所以我们可以用以下公式来检验: F(k , nk 1)1(knSMFERER一般检验结果仍然以方差分析表的形式给出。如:返回2593971 3 864657 15.261 .000b906529 16 56658.13500500 19RegressionResidualTotalModel1Sum ofSquares dfMeanSquare F Sig.ANOVAaDependent Variable: a. Independent Variables: (Constant), , , b. 多元统计分析讲稿 多元线性回归分析12522 复相关系数、测定系数和剩余标准差复相关系数决定系数调整的决定系数剩余标准差决定系数等计算结果例返回多元统计分析讲稿 多元线性回归分析13复相关系数复相关系数 R 是简单相关系数 r 的推广,它反映一组自变量 x1、x 2、x k 与因变量 y 之间的相关程度。其定义如下:R TRS显然总有:0 R 1事实上,R 也就是实际观察值 y 与回归估计值 之间的简单相关。R 的显著性检验等价于上述回归方程的 F 检验。返回多元统计分析讲稿 多元线性回归分析14决定系数复相关系数的平方 R2 称为决定系数(也称为测定系数) ,它反映了因变量 y 的变化中,有多少由自变量 x1、x 2、x k 所决定。如 R20.78,则说明y 的变化中有 78由 x1、x 2、x k 决定。显然 R或 R2 越大,回归效果越好。返回多元统计分析讲稿 多元线性回归分析15调整的决定系数在多元回归中,当样本固定时,随着多元线性回归模型中自变量的不断加入,R 会越来越大,当模型中自变量的个数为样本含量减 1 时,R 必然为 1,这也可以从两点决定一直线、三点决定一平面中直观地看出。所以在衡量回归方程的效果时,常常还要考虑方程中变量的个数。变量越多,应要求 R 越大,所以又常用调整的决定系数 Ra2 或调整的复相关系数 Ra,在若干个回归方程中选择一个时,常常考虑 Ra 最大的。返回多元统计分析讲稿 多元线性回归分析16剩余标准差用回归方程对因变量 y 进行估计(预测)时,估计精度主要由剩余标准差 SE 决定,其定义如下: 1knESE 越小,估计精度越高,越准确。设有一观察对象各自变量的值为 x1, 0、x 2, 0xk, 0 ,根据回归方程推算的因变量的估计值为 0 ,因变量值为 y0(未知) 。当有关变量服从多元正态分布、样本含量较大、自变量的值离均值不太远时,近似地有:y0 的 95置信区间为( 02S E , 02S E)注意,这只是一个非常粗糙的近似,估计预测精度的确切的公式相当复杂,但一般而言,样本含量大则预测精度较高,各自变量接近均值则预测精度较高。返回多元统计分析讲稿 多元线性回归分析17决定系数等计算结果例返回, . .861 .741 .692 238.0296Model1Entered RemovedVariablesR R SquareAdjustedR SquareStd. Errorof theEstimateModel Summary多元统计分析讲稿 多元线性回归分析1853 偏回归系数的检验各自变量作用的检验在回归方程的检验中,当原假设H0 : 1 2 k0被拒绝时, 1、 2、 k 不全为 0,但不一定全不为 0,究竟哪几个不为 0,还需要进一步检验。反映总体关系的回归方程应该为: kxxxy 210若 i0,则 xi 在方程中有作用,若 i0,则 xi 在方程中不起作用。对原假设 H0 : i0 (i 1、2、k)的检验,常用的方法有两种,一种是用偏回归平方和作 F 检验,另一种是用参数方法作 t 检验。 (SPSS 中,对回归系数进行检验时,用 t 检验;对变量进行筛选时,用 F 检验)若方程中有些自变量该检验不具有显著性,则说明方程中有多余自变量,应考虑剔除。多元统计分析讲稿 多元线性回归分析19返回-2870.88 1268.278 -2.264 .03862.825 22.669 .466 2.771 .01434.115 12.893 .377 2.646 .018108.772 74.276 .269 1.464 .162(Constant)Model1 B Std. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientst Sig.CoefficientsaDependent Variable: a. 多元统计分析讲稿 多元线性回归分析2054 影响因素分析建立了回归方程后,我们自然要问:哪个自变量对 y 的影响程度更大?哪个自变量与 y 的关系更密切?这就是回归中的影响因素分析问题。541 标准偏回归系数542 偏相关系数返回多元统计分析讲稿 多元线性回归分析21541 标准偏回归系数回归方程为:y b 0 + b1x1 + b2x2 + + bkxk根据回归方程反映的关系,当 xi 增大一个单位时,y 将增大 bi 个单位左右。但 bi 与 xi 所取单位有关,用同样的资料计算,自变量单位越大,则偏回归系数绝对值也越大。若 xi的单位为毫米时,其偏回归系数为 bi,则当其单位改用厘米时,偏回归系数将变为 10bi,显然直接用偏回归系数衡量自变量对 y 的影响不合理,必须消除单位的影响,所以要用标准偏回归系数。设 x 的总体均数为 ,总体标准差为 ,则称为 x 的标准化变量。标准化变量的均数为0、标准差为 1。因 、 常不知道,也近似地用。将数据作如上变换后,称为标准化数据。SXx用标准化数据建立的关于标准化变量的回归方程多元统计分析讲稿 多元线性回归分析22y b 1x1+b2x2+bkxk称为标准回归方程(标准回归方程中的常数项总为0) ,标准回归方程中的(偏)回归系数b1、b 2、b k 称为标准(偏)回归系数。当 xi增大一个标准差(x i的标准差)时,y 将增大 bi 个标准差(y 的标准差) 。所以标准偏回归系数的绝对值越大,相应的自变量对 y 的影响就越大。标准偏回归系数的检验等价于偏回归系数的检验。返回-2870.88 1268.278 -2.264 .03862.825 22.669 .466 2.771 .01434.115 12.893 .377 2.646 .018108.772 74.276 .269 1.464 .162(Constant)Model1 B Std. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientst Sig.CoefficientsaDependent Variable: a. 多元统计分析讲稿 多元线性回归分析23542 偏相关系数在多元统计中,变量之间的相关关系是错综复杂的,两个变量之间的相关关系往往掺杂着其他变量的影响。例如,我们测 18 岁男童的握力和词汇量,会发现两者之间的简单相关程度很高,这主要是由于两者共同受着年龄的影响,年龄大的握力大、词汇量大,年龄小的握力小、词汇量小,若排除年龄的影响,握力与词汇量几乎不相关。要排除其他因素的影响有两个方法,一个是在获取数据时将该因素固定,如上例中都取相同年龄的男童,另一个是用统计方法,如用偏相关系数。偏相关系数 表示剔除了 x3 的影响后 x1 与 x2312r的相关, 表示剔除了 x1、x 3、 x4 的影响后,x 2 与13425rx5 间的相关,依此类推。偏相关系数和简单相关系数有时会相差很大,甚至符号相反。多元统计分析讲稿 多元线性回归分析24在多元回归中,考虑一个自变量与因变量的相关程度时,应该用排除了其他自变量的影响后的偏相关系数来衡量。Coefficientsa-2870.876 1268.278 -2.264 .03862.825 22.669 .466 2.771 .014 .704 .570 .35334.115 12.893 .377 2.646 .018 .572 .552 .337108.772 74.276 .269 1.464 .162 .731 .344 .186(Constant)体 体体 体体 体 体 体 体 体Model1 B Std. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientst Sig. Zero-order Partial PartCorrelationsDependent Variable: 体 体 体a. 返回多元统计分析讲稿 多元线性回归分析256 多元回归例题例:根据 20 名女中学生的体重(x1,kg) 、胸围(x2,cm) 、胸围的呼吸差(x3,cm)及肺活量(y,ml)的资料,以 y 为因变量作多元回归。 (数据略)主要结果如下:模型概述复相关系数、测定系数和剩余标准差:方差分析表:, . .861 .741 .692 238.0296Model1Entered RemovedVariablesR R SquareAdjustedR SquareStd. Errorof theEstimateModel Summary2593971 3 864657 15.261 .000b906529 16 56658.13500500 19RegressionResidualTotalModel1Sum ofSquares dfMeanSquare F Sig.ANOVAaDependent Variable: a. Independent Variables: (Constant), , , b. 多元统计分析讲稿 多元线性回归分析26系数及检验返回-2870.88 1268.278 -2.264 .03862.825 22.669 .466 2.771 .01434.115 12.893 .377 2.646 .018108.772 74.276 .269 1.464 .162(Constant)Model1B Std. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientst Sig.CoefficientsaDependent Variable: a.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小儿药品备货管理制度
- 河道垃圾转运方案(3篇)
- 装修异形改造方案(3篇)
- 冷饮工厂安全管理制度
- 单位规范采购管理制度
- 公共信息安全管理制度
- 清淤运输管理方案(3篇)
- 墙面漏水修缮方案(3篇)
- 工程检查公司管理制度
- 医院服务接待管理制度
- 金属加工余热回收利用
- DB61T 5097-2024 强夯法处理湿陷性黄土地基技术规程
- 新电气安全规程
- 血液净化室应急预案
- 专题01运动学中的图像问题(共15种图像类型)讲义-2025版高考物理图像专题
- 1993年合同制工人养老保险缴纳规定
- 2024年工会专业知识考试题库及答案
- (36a工字钢)提升钢梁选型计算
- HG20202-2014 脱脂工程施工及验收规范
- 国家开放大学本科《公共部门人力资源管理》期末纸质考试总题库2025版
- 江苏省南通一中2025届高三第四次模拟考试生物试卷含解析
评论
0/150
提交评论