统计学原理:第7章 相关分析_第1页
统计学原理:第7章 相关分析_第2页
统计学原理:第7章 相关分析_第3页
统计学原理:第7章 相关分析_第4页
统计学原理:第7章 相关分析_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 1. .5 55 5 1 1. .6 60 0 1 1. .6 65 5 1 1. .7 70 0 1 1. .5 55 5 1 1. .6 60 0 1 1. .6 65 5 1 1. .7 70 0 儿儿子子的的身身高高 父父亲亲的的身身高高 第七章第七章第七章 相关分析相关分析相关分析 1.了解相关关系的涵义与种类,掌握相关分 析的基本方法,相关系数含义和计算,相 关关系的判定原则; 2.掌握一元线性回归模型建立的条件、回归 方程参数求解方法,回归模型的评价依据; 回归方程与回归系数的显著性检验;理解 相关与回归分析的联系与特点;初步认识 回归分析在预测中的应用。 3.了解多元线性回

2、归模型、回归方程与估计 的回归方程和可化为线性回归的曲线回归 第七章第七章第七章 相关分析相关分析相关分析 现象之间存在的确定性的数量关系现象之间存在的确定性的数量关系 7.1 相关分析的意义和任务相关分析的意义和任务 2 a S = 1.是一一对应的确定关系是一一对应的确定关系 2.设有两个变量设有两个变量 x 和和 y ,变量,变量 y 随变量随变量 x 一起变化,并完一起变化,并完 全依赖于全依赖于 x ,当变量,当变量 x 取某取某 个数值时,个数值时, y 依确定的关系依确定的关系 取相应的值,则称取相应的值,则称 y 是是 x 的的 函数,记为函数,记为 y = f (x),其中,

3、其中 x 称为自变量,称为自变量,y 称为因变量称为因变量 3.各观测点落在一条线上各观测点落在一条线上 第七章第七章第七章 相关分析相关分析相关分析 现象之间存在的不确定性的数量关系现象之间存在的不确定性的数量关系 同卵双胞胎间的身高、收入和受教育程度、同卵双胞胎间的身高、收入和受教育程度、 身高和体重、身高和体重、 婴儿月龄与身高婴儿月龄与身高 函数关系如果存在测量误差,则表现为相关关函数关系如果存在测量误差,则表现为相关关 系系, ,相关关系通常使用函数关系形式来表现。相关关系通常使用函数关系形式来表现。 1.变量间关系不能用函数关变量间关系不能用函数关 系精确表达系精确表达 2.一个变

4、量的取值不能由另一个变量的取值不能由另 一个变量唯一确定一个变量唯一确定 3.当变量当变量 x 取某个值时,变取某个值时,变 量量 y 的取值可能有几个的取值可能有几个 4.各观测点分布在直线周围各观测点分布在直线周围 第七章第七章第七章 相关分析相关分析相关分析 单相关单相关 曲线相关曲线相关 负相关负相关 不相关不相关 复相关复相关 直线相关直线相关 正相关正相关 完全相关完全相关 不完全相关不完全相关 第七章第七章第七章 相关分析相关分析相关分析 第七章第七章第七章 相关分析相关分析相关分析 第七章第七章第七章 相关分析相关分析相关分析 温度(度)温度(度)282829292930313

5、13132 销售量(箱)销售量(箱)808584889598105102110116 0 28 29 30 31 32 温温度度 1 11 10 0 1 12 20 0 8 80 0 9 90 0 1 10 00 0 销销售售量量 7.2简单线性相关分析简单线性相关分析 第七章第七章第七章 相关分析相关分析相关分析 1单变量分组图表:只根据一个变量分组单变量分组图表:只根据一个变量分组 使用年限使用年限机床数机床数( (台台) )平均维修费用平均维修费用( )( ) 2 22 2470470 3 31 1520520 4 42 2690690 5 52 2700700 6 63 3787787

6、 8 81 1840840 9 91 110801080 合计合计1212_ 第七章第七章第七章 相关分析相关分析相关分析 2双变量分组图表:自变量和因变量都进行分组双变量分组图表:自变量和因变量都进行分组 年维修费用(元)年维修费用(元)机床使用年限机床使用年限( (年年) )合计合计 2 23 34 45 56 68 89 9 10001000110011001 11 1 900900100010001 11 1 8008009009001 11 12 2 7007008008001 12 23 3 6006007007001 11 12 2 5005006006001 11 12 2 4

7、004005005001 11 1 合计合计2 21 12 22 23 31 11 11212 第七章第七章第七章 相关分析相关分析相关分析 1相关系数相关系数 1.对变量之间关系密切程度的度量对变量之间关系密切程度的度量 2.对两个变量之间线性相关程度的度量称为简对两个变量之间线性相关程度的度量称为简 单相关系数单相关系数 3.若相关系数是根据总体全部数据计算的,称若相关系数是根据总体全部数据计算的,称 为总体相关系数,记为为总体相关系数,记为 4.若是根据样本数据计算的,则称为样本相关若是根据样本数据计算的,则称为样本相关 系数,记为系数,记为 r 第七章第七章第七章 相关分析相关分析相关

8、分析 yx xy r 2 = = 2222 )()(yynxxn yxxyn 2222 )()(yyxx yxxy = = 22 )()( )( yyxx yyxx ii ii 2样本相关系数样本相关系数r计算计算 方法:积差法方法:积差法 简捷公式简捷公式 第七章第七章第七章 相关分析相关分析相关分析 温度温度x(度度) 28282929293031313132 销售量销售量y(箱)箱) 808584889598105102110116 10=n =889832.292828 22222 x =963116.848580y =29832.292828x =2884211632.8829852

9、88028xy =94039116.848580 22222 y 例:某商场出售某种商品,资料如下,计算r 第七章第七章第七章 相关分析相关分析相关分析 r 互换两个变量的位置互换两个变量的位置 某一变量的所有值都增加同一数值某一变量的所有值都增加同一数值 某一变量的所有值都乘以同一正数某一变量的所有值都乘以同一正数 4相关系数相关系数r的取值及意义的取值及意义: r-1-1,+1+1 当当r0r0r0时,正相关时,正相关 当当r=0r=0时,无相关时,无相关 0.8|r|1:高度相关 0.5|r| 0.8:显著相关 0.3|r|0.5:低度相关 0|r|t /2,拒绝,拒绝H0 若若|t|t

10、 /2 (13-2)=2.201,拒绝,拒绝H0,人均消费金额与人,人均消费金额与人 均国民收入之间的相关关系显著。均国民收入之间的相关关系显著。 4根据前例的根据前例的r0.9987 5%(n-2)=0.553,表明人均消费金额与人,表明人均消费金额与人 均国民收入之间有十分显著的线性相关关系均国民收入之间有十分显著的线性相关关系 第七章第七章第七章 相关分析相关分析相关分析 确定变确定变 量间的量间的 定量关定量关 系式系式 预测预测 和控和控 制制 对关系对关系 式作各式作各 种统计种统计 检验检验 判断各判断各 变量的变量的 影响显影响显 著性著性 对具有相关关系的变量之间数量变化对具

11、有相关关系的变量之间数量变化 的的进行测定,确定一个进行测定,确定一个 以进行估计或预测的统计方法。以进行估计或预测的统计方法。 7.3一元线性回归一元线性回归 1回归分析回归分析 2回归分析的内容回归分析的内容 第七章第七章第七章 相关分析相关分析相关分析 相关分析相关分析 依靠回归分析表明现象间数量关系的依靠回归分析表明现象间数量关系的 具体形式;具体形式; 回归分析回归分析 要以相关分析为基础。要以相关分析为基础。 相关分析相关分析 只研究变量间相关的方向和程度。只研究变量间相关的方向和程度。 不必确定因变量和自变量不必确定因变量和自变量; 所有变量都可以是随机变量所有变量都可以是随机变

12、量; 改变变量的位置不影响相关分析的结果改变变量的位置不影响相关分析的结果 回归分析回归分析研究变量间相关的具体形式研究变量间相关的具体形式 必须先确定因变量与自变量;必须先确定因变量与自变量; 一般只有因变量是随机变量,自变量是非随机变量;一般只有因变量是随机变量,自变量是非随机变量; 交换变量的位置,回归方程不同,只能根据自变量交换变量的位置,回归方程不同,只能根据自变量 推算因变量。推算因变量。 第七章第七章第七章 相关分析相关分析相关分析 1.回答“变量之间是什么样的关系?” 2.方程中运用 1 个数字的因变量(响应变量) 被预测的变量 1 个或多个数字的或分类的自变量 (解释变量)

13、用于预测的变量 3.主要用于预测和估计 回归模型回归模型 多元回归多元回归一元回归一元回归 线性线性 回归回归 非线性非线性 回归回归 线性线性 回归回归 非线性非线性 回归回归 第七章第七章第七章 相关分析相关分析相关分析 1当只涉及一个自变量时称为一元回归,若因变量当只涉及一个自变量时称为一元回归,若因变量y与自变量与自变量x之间之间 为线性关系时称为一元线性回归为线性关系时称为一元线性回归 2对于具有线性关系的两个变量,可以用一条线性方程来表示它们对于具有线性关系的两个变量,可以用一条线性方程来表示它们 之间的关系之间的关系 3描述因变量描述因变量y如何依赖于自变量如何依赖于自变量x和误

14、差项和误差项 的方程称为回归模型,的方程称为回归模型, 对于只涉及一个自变量的简单线性回归模型可表示为对于只涉及一个自变量的简单线性回归模型可表示为 y=0+1x+ 模型中,模型中,y 是是 x 的线性函数的线性函数(部分部分)加上误差项加上误差项 线性部分反映了由于线性部分反映了由于 x 的变化而引起的的变化而引起的 y 的变化的变化 误差项误差项是随机变量是随机变量 反映了除反映了除 x 和和 y 之间的线性关系之外的随机因素对之间的线性关系之外的随机因素对 y 的影响的影响 是不能由是不能由 x 和和 y 之间的线性关系所解释的变异性之间的线性关系所解释的变异性 0和和1 称为模型的参数

15、称为模型的参数 第七章第七章第七章 相关分析相关分析相关分析 1误差项误差项是一个期望值为是一个期望值为0的随机变量的随机变量,即即E()=0。对于一个。对于一个 给定的给定的 x 值值, y 的期望值为的期望值为E (y)= 0+1 x 2对于所有的对于所有的 x 值值, 的方差的方差2 都相同都相同 3误差项误差项是一个服从正态分布随机变量是一个服从正态分布随机变量, 且相互独立。即且相互独立。即 N( 0 , 2 ) 独立性意味着对于一个特定的独立性意味着对于一个特定的 x 值,它所对应的值,它所对应的与其他与其他 x 值所对应的值所对应的不相关不相关 对于一个特定的对于一个特定的 x

16、值,它所对应的值,它所对应的 y 值与其他值与其他 x 所对应所对应 的的 y 值也不相关值也不相关 第七章第七章第七章 相关分析相关分析相关分析 描述描述y的平均值或期望值如何依赖于的平均值或期望值如何依赖于x的方程称为回归方程的方程称为回归方程 E (y)= 0+1 x 方程的图示是一条直线,因此也称为直线回归方程方程的图示是一条直线,因此也称为直线回归方程 0是回归直线在是回归直线在 y 轴上的截距轴上的截距,是当是当x=0时时y的期望值的期望值 1是直线的斜率,称为回归系数,表示当是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,每变动一个单位时,y 的平均变动值的平均变动值

17、1估计估计(经验经验)的回归方程的回归方程 总体回归参数总体回归参数 0和和 1 是未知的,必需利用样本数据去估计是未知的,必需利用样本数据去估计 用样本统计量用样本统计量 和和 代替回归方程中的未知参数代替回归方程中的未知参数0和和 1 ,就得到,就得到 了估计的回归方程了估计的回归方程 简单线性回归中估计的回归方程为简单线性回归中估计的回归方程为 六、简单线性回归方程的形式如下 第七章第七章第七章 相关分析相关分析相关分析 最小二乘法概念要点最小二乘法概念要点 1使因变量的观察值与估计值之间的离差平方和达到最小来求得使因变量的观察值与估计值之间的离差平方和达到最小来求得 和和 的方法。即的

18、方法。即 最小最小 2用最小二乘法拟合的直线来代表用最小二乘法拟合的直线来代表x与与y之间的关系与实际数据的误之间的关系与实际数据的误 差比其他任何直线都小差比其他任何直线都小 第七章第七章第七章 相关分析相关分析相关分析 2直线回归方程的确定:直线回归方程的确定: 基本形式:基本形式:ycabx = = = = 2 xbxaxy xbnay 22 )x( n 1 x yx n 1 xy b xbya = = = = 根据最小二乘法的要求,可得求解0和1的标准方程如下 第七章第七章第七章 相关分析相关分析相关分析 88036.4合计 1608.08 1357.27 1326.16 1155.0

19、5 1103.84 803.13 862.02 621.21 生产费用 万元y 产品产量千吨 x 序号 442.42748804544.6207.54 30.1401154.51128064.00 84.4561144.1997251.84 4130805.237.21 0.6561115.8157525.00 93.5089100.3341814.11 127.6991.32489.61 79.032177.111724.00 22.944166.7974.41.44 (y-yc)2ycxyx2 xy xbya xxn yxxyn b n y y n x x c 90.1231.51 31.

20、5155. 490.12110 90.12 4 .3654.2078 8804 .366 .45448 110 8 880 55. 4 8 4 .36 22 2 = = = = = = = =例题:某企业连续例题:某企业连续8年年 产量和生产费用资料如产量和生产费用资料如 下,求估计方程。下,求估计方程。 第七章第七章第七章 相关分析相关分析相关分析【例例】根据下表的数据,配合人均消费金额对人均国民收 入的回归方程 年份 人均 国民收入 人均 消费金额 年份 人均 国民收入 人均 消费金额 2001 2002 2003 2004 2005 2006 2007 393.8 419.14 460.

21、86 544.11 668.29 737.73 859.97 249 267 289 329 406 451 513 2008 2009 2010 2011 2012 2013 1068.8 1169.2 1250.7 1429.5 1725.9 2099.5 643 690 713 803 947 1148 第七章第七章第七章 相关分析相关分析相关分析人均消费金额对人均国民收入的人均消费金额对人均国民收入的 回归方程为回归方程为 0 200 400 600 800 1000 1200 1400 05001000150020002500 人均消费与人均国民收入的回归人均消费与人均国民收入的回归

22、 SUMMARY OUTPUTSUMMARY OUTPUT 回归统计回归统计 Multiple RMultiple R0.9987038210.998703821 R SquareR Square0.9974093220.997409322 Adjusted R SquareAdjusted R Square0.9971738060.997173806 标准误差标准误差14.9496776614.94967766 观测值观测值13 13 CoefficientsCoefficients标准误差标准误差t Statt StatP-valueP-valueLower 95%Lower 95%Upp

23、er 95%Upper 95% InterceptIntercept54.2228639254.22286392 8.993978698.99397869 6.0287966.0287968.56501E-058.56501E-05 34.427240334.4272403 74.018487574.0184875 X Variable 1X Variable 10.526377140.52637714 0.008088550.00808855 65.0768265.076821.39842E-151.39842E-15 0.508574350.50857435 0.544179930.544

24、17993 Excel的输出结果 第七章第七章第七章 相关分析相关分析相关分析 7.4回归方程和回归系数显著性检验回归方程和回归系数显著性检验 y 第七章第七章第七章 相关分析相关分析相关分析 总平方和(SST):反映因变量的 n 个观察值与其均值的 总离差 回归平方和(SSR):反映自变量 x 的变化对因变量 y 取 值变化的影响,或者说,是由于 x 与 y 之间的线性关系 引起的 y 的取值变化,也称为可解释的平方和 残差平方和(SSE):反映除 x 以外的其他因素对 y 取值 的影响,也称为不可解释的平方和或剩余平方和 第七章第七章第七章 相关分析相关分析相关分析 1.回归平方和占总离差

25、平方和的比例 第七章第七章第七章 相关分析相关分析相关分析 第七章第七章第七章 相关分析相关分析相关分析 = 2 2 2 2 )( )( )( )( 1 yy yy yy yy i ci i cii 2 22 )()()( =yyyyyy ciciii 2 2 )()()( =yyyyyy ciciii 2 r 总离差总离差 平方和平方和 剩余离差剩余离差 平方和平方和 回归离差回归离差 平方和平方和 说明因变量的总离差说明因变量的总离差 平方和可以用回归模平方和可以用回归模 型来解释的比例。型来解释的比例。 2 1 r yyx =s 2 2 2 1r y yx = s 第七章第七章第七章 相

26、关分析相关分析相关分析 第七章第七章第七章 相关分析相关分析相关分析 某蔬菜公司进行贮存试验,观察贮存时间对维生素的某蔬菜公司进行贮存试验,观察贮存时间对维生素的 影响。将影响。将500500克放在恒温的容器内,每隔一小时测量维生克放在恒温的容器内,每隔一小时测量维生 素素C C的含量,得出如下数据:的含量,得出如下数据: (1 1)计算贮存时间与维生素含量的相关系数)计算贮存时间与维生素含量的相关系数 (2 2)计算维生素含量的理论值)计算维生素含量的理论值 时间时间(x)012345 维生素含量维生素含量201817151413 理论含量值理论含量值19.6718.2616.8715.46

27、14.0712.67 = = = 218 97 15 xy y x 6 1603 55 2 2 = = = n y x 第七章第七章第七章 相关分析相关分析相关分析 解:解: 9926. 0 971603615556 97152186 22 = =r (2)建立贮存时间与维生素含量的回归方程建立贮存时间与维生素含量的回归方程 4 .1 15556 97152186 2 = =b xy c 4 .1667.19= (1) 667.19 6 15 )4 . 1( 6 97 =a (3)回归估计标准误差:)回归估计标准误差: 354. 0 26 218)4 . 1(97667.191603 = =

28、yc s 9852.0 2 =r 第七章第七章第七章 相关分析相关分析相关分析 第七章第七章第七章 相关分析相关分析相关分析 方差分析方差分析 df dfSS SSMS MSF FSignificance FSignificance F 回归回归1 1946491946491946491946491 4234.994234.991.39842E-151.39842E-15 残差残差11 11 2458.422458.42 223.493223.493 总计总计12 12948949948949 第七章第七章第七章 相关分析相关分析相关分析 检验检验 x 与与 y 之间是否具有线性关系,或者说,

29、检验自变之间是否具有线性关系,或者说,检验自变 量量 x 对因变量对因变量 y 的影响是否显著的影响是否显著 理论基础是回归系数理论基础是回归系数 的抽样分布的抽样分布 在一元线性回归中,等价于回归方程的显著性检验在一元线性回归中,等价于回归方程的显著性检验 1是根据最小二乘法求出的样本统计量,它有自己的分布是根据最小二乘法求出的样本统计量,它有自己的分布 2它的分布具有如下性质它的分布具有如下性质 分布形式:正态分布分布形式:正态分布 数学期望:数学期望: 标准差:标准差: 由于由于 无未知,需用其估计量无未知,需用其估计量Sy来代替得到来代替得到 的估计的标准差的估计的标准差 第七章第七章

30、第七章 相关分析相关分析相关分析 1 提出假设提出假设 H0: 1 = 0 (没有线性关系没有线性关系) H1: 1 0 (有线性关系有线性关系) 2计算检验的统计量计算检验的统计量 3确定显著性水平确定显著性水平,并进行决策,并进行决策 |t|t /2,拒绝,拒绝H0;|t|t /2=2.201拒绝拒绝H0 ,表明人均收入与人均,表明人均收入与人均 消费之间有线性关系消费之间有线性关系 y = 54.22286 + 0.52638 x 第七章第七章第七章 相关分析相关分析相关分析 SUMMARY OUTPUTSUMMARY OUTPUT 回归统计回归统计 Multiple RMultiple

31、 R0.9987038210.998703821 R SquareR Square0.9974093220.997409322 Adjusted R SquareAdjusted R Square0.9971738060.997173806 标准误差标准误差14.9496776614.94967766 观测值观测值13 13 CoefficientsCoefficients标准误差标准误差t Statt StatP-valueP-valueLower 95%Lower 95%Upper 95%Upper 95% InterceptIntercept54.2228639254.22286392

32、8.993978698.99397869 6.0287966.0287968.56501E-058.56501E-05 34.427240334.4272403 74.018487574.0184875 X Variable 1X Variable 10.526377140.52637714 0.008088550.00808855 65.0768265.076821.39842E-151.39842E-15 0.508574350.50857435 0.544179930.54417993 00808855. 0 52637714. 0 1 1 1 = S t 99397869. 8 222

33、86392.54 0 0 0 = S t = = n i i y xx x n SS 1 2 2 )( )(1 0 = = n i i y xx S S 1 2 )( 1 Excel输出的结果 第七章第七章第七章 相关分析相关分析相关分析 7.5利用回归方程进行预测和应用利用回归方程进行预测和应用 对于自变量对于自变量 x 的一个给定值的一个给定值x0 ,根据回归方程得到因变,根据回归方程得到因变 量量 y 的一个估计值的一个估计值 ,在点估计条件下,平均值的点估计,在点估计条件下,平均值的点估计 和个别值的的点估计是一样的,但在区间估计中则不同。分和个别值的的点估计是一样的,但在区间估计中则

34、不同。分 为为y 的平均值的点估计的平均值的点估计y 的个别值的点估计的个别值的点估计 利用估计的回归方程,对于自变量利用估计的回归方程,对于自变量 x 的一个给定值的一个给定值 x0 , 求出因变量求出因变量 y 的平均值或个别值的一个估计值的平均值或个别值的一个估计值E(y0) ,就是,就是 平均值或个别值的点估计。上例中要估计人均国民收入为平均值或个别值的点估计。上例中要估计人均国民收入为 2000元时,所有年份人均消费金额的的平均值。元时,所有年份人均消费金额的的平均值。 如果只是想知道如果只是想知道1990年人均国民收入为年人均国民收入为1250.7元时的人元时的人 均消费金额是多少

35、,则属于个别值的点估计。均消费金额是多少,则属于个别值的点估计。 1点估计点估计 第七章第七章第七章 相关分析相关分析相关分析 对于自变量对于自变量 x 的一个给定值的一个给定值 x0,根据回归方程得到因变量,根据回归方程得到因变量 y 的的 一个估计区间,能给出估计的精度。一个估计区间,能给出估计的精度。 区间估计有两种类型区间估计有两种类型 y 的平均值或个别值的置信或预测区间估计:利用估计的回归的平均值或个别值的置信或预测区间估计:利用估计的回归 方程,对于自变量方程,对于自变量 x 的一个给定值的一个给定值 x0 ,求出因变量,求出因变量 y 的平均的平均 值值E(y0)或个别值或个别

36、值y的估计区间的估计区间 ,E(y0)在在1-置信水平下的置信置信水平下的置信 区间为区间为 2区间估计区间估计 = n i i y xx xx n Snty 1 2 2 0 20 1 )2( y 的平均值的平均值 的置信区间的置信区间 y 的个别值的个别值 的预测区间的预测区间 第七章第七章第七章 相关分析相关分析相关分析 根据前例,求出人均国民收入为1250.7元时,人均消费金 额95%的置信区间和人均消费金额的95%的预测区间 解:根据前面的计算结果 712.57,Sy=14.95,t/2 (13-2)2.201,n=13 置信区 间为 人均消费金额95%的置信区间为702.305元72

37、2.835元之间 (712.5710.265) 预测区间为 人均消费金额95%的预测区间为678.101元747.039元之间 (712.5734.469) 第七章第七章第七章 相关分析相关分析相关分析 1置信水平 (1 - ):区间宽度随置信水平的增大而增大 2数据的离散程度 (s):区间宽度随离散程度的增大而增大 3样本容量:区间宽度随样本容量的增大而减小 4用于预测的 xp与x 的差异程度:区间宽度随 xp与x的差异程 度的增大而增大 置信区间、 预测区间、 回归方程 第七章第七章第七章 相关分析相关分析相关分析 7.6多元线性回归多元线性回归 1概念要点概念要点 一个因变量与两个及两个

38、以上自变量之间的回归一个因变量与两个及两个以上自变量之间的回归 描述因变量描述因变量 y 如何依赖于自变量如何依赖于自变量 x1 , x2 , xp 和误差项和误差项 的方程称为的方程称为多元线性回归模型多元线性回归模型 涉及涉及 p 个自变量的多元线性回归模型可表示为个自变量的多元线性回归模型可表示为 0 , 1 1, 2 2 , p是参数是参数 是被称为误差项的随机变量是被称为误差项的随机变量 y 是是x1,,x2 , ,xp 的线性函数加上误差项的线性函数加上误差项 说明了包含在说明了包含在y里面但不能被里面但不能被p个自变量的线个自变量的线 性关系所解释的变异性性关系所解释的变异性 第

39、七章第七章第七章 相关分析相关分析相关分析 对于对于 n 组实际观察数据组实际观察数据(yi ; xi1,,xi2 , , xip ),(i=1,2,n),多元线性回归模型可,多元线性回归模型可 表示为表示为 y1 = 0 0 1 1 x11 2 2 x12 px1p 1 1 y2= 0 0 1 1 x21 2 2 x22 px2p 2 2 yn= 0 0 1 1 xn1 2 2 xn2 pxnp n 自变量自变量 x1,x2,xp是确定性变量,不是随机变量是确定性变量,不是随机变量 随机误差项随机误差项的期望值为的期望值为0,且方差,且方差2 都相同都相同 误差项误差项是一个服从正态分布的随

40、机变量,即是一个服从正态分布的随机变量,即N(0,2), 且相互独立且相互独立 2基本假定基本假定 第七章第七章第七章 相关分析相关分析相关分析 描述描述 y 的平均值或期望值如何依赖于的平均值或期望值如何依赖于 x1, x1 , xp的方程称为多元线性回归方程的方程称为多元线性回归方程 多元线性回归方程的形式为多元线性回归方程的形式为 E( y ) = 0+ 1 x1 + 2 x2 + p xp 1 1, 2 2, p称为偏回归系数称为偏回归系数 i 表示假定其他变量不变,当表示假定其他变量不变,当 xi 每变动一个单每变动一个单 位时,位时,y 的平均变动值的平均变动值 总体回归参数总体回

41、归参数 是未知的,利用是未知的,利用 样本数据去估计,样本数据去估计, 用样本统计量用样本统计量 代替回归方程代替回归方程 中的中的 未知参数未知参数 即得到估计的即得到估计的 回归方程回归方程 3多元线性回归方程和估计方程多元线性回归方程和估计方程 是是 估计值估计值 是是 y 的估计值的估计值 第七章第七章第七章 相关分析相关分析相关分析 多元线性回归方方程的直观解释多元线性回归方方程的直观解释 第七章第七章第七章 相关分析相关分析相关分析 2. 根据最小二乘法的要求,可得求解根据最小二乘法的要求,可得求解各回归参数各回归参数 的标准方程如下的标准方程如下 1. 使因变量的观察值与估计值之

42、间的离差平方和使因变量的观察值与估计值之间的离差平方和 达到最小来求得达到最小来求得 。即。即 第七章第七章第七章 相关分析相关分析相关分析 1多重样本决定系数多重样本决定系数 (多重判定系数(多重判定系数 R2 ) 回归平方和占总离差平方和的比例回归平方和占总离差平方和的比例 反映回归直线的拟合程度反映回归直线的拟合程度 取值范围在取值范围在 0 , 1 之间之间 R2 1,说明回归方程拟合的越好;,说明回归方程拟合的越好; R20,说明,说明 回归方程拟合的越差回归方程拟合的越差 等于多重相关系数的平方,即等于多重相关系数的平方,即R2=(R)2 第七章第七章第七章 相关分析相关分析相关分

43、析 1.由于增加自变量将影响到因变量中被估计的由于增加自变量将影响到因变量中被估计的 回归方程所解释的变异性的数量,为避免高回归方程所解释的变异性的数量,为避免高 估这一影响,需要用自变量的数目去修正估这一影响,需要用自变量的数目去修正R2 的值的值 2.用用n表示观察值的数目,表示观察值的数目,p表示自变量的数目表示自变量的数目 ,修正的多元判定系数的计算公式可表示为,修正的多元判定系数的计算公式可表示为 2修正的多重样本决定系数修正的多重样本决定系数 (修正的多重判定系数(修正的多重判定系数 R2 ) 第七章第七章第七章 相关分析相关分析相关分析 1.检验因变量与所有的自变量和之间的是否存

44、检验因变量与所有的自变量和之间的是否存 在一个显著的线性关系,也被称为总体的显在一个显著的线性关系,也被称为总体的显 著性检验著性检验 2.检验方法是将回归离差平方和检验方法是将回归离差平方和(SSR)同剩余离同剩余离 差平方和差平方和(SSE)加以比较,应用加以比较,应用 F 检验来分析检验来分析 二者之间的差别是否显著二者之间的差别是否显著 如果是显著的,因变量与自变量之间存在线性如果是显著的,因变量与自变量之间存在线性 关系关系 如果不显著,因变量与自变量之间不存在线性如果不显著,因变量与自变量之间不存在线性 关系关系 3回归方程的显著性检验回归方程的显著性检验 (线性关系的检验(线性关

45、系的检验 ) 第七章第七章第七章 相关分析相关分析相关分析 1.提出假设提出假设 H0: 1= = 2= p=0 线性关系不显著线性关系不显著 H1: 1, 2, p至少有一个不等于至少有一个不等于0 2. 计算检验统计量计算检验统计量F 3. 确定显著性水平确定显著性水平 和分子自由度和分子自由度p、分母自由度、分母自由度n- p-1找出临界值找出临界值F 4. 作出决策:若作出决策:若F F ,拒绝,拒绝H0;若若FF ,接受,接受H0 4回归方程的显著性检验回归方程的显著性检验 (步骤)(步骤) 第七章第七章第七章 相关分析相关分析相关分析 1.如果如果F检验已经表明了回归模型总体上是检验已经表明了回归模型总体上是 显著的,那么回归系数的检验就是用来确显著的,那么回归系数的检验就是用来确 定每一个单个的自变量定每一个单个的自变量 xi 对因变量对因变量 y 的影的影 响是否显著响是否显著 2.对每一个自变量都要单独进行检验对每一个自变量都要单独进行检验 3.应用应用 t 检验检验 4.在多元线性回归中,回归方程的显著性检在多元线性回归中,回归方程的显

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论