相关与回归分析_第1页
相关与回归分析_第2页
相关与回归分析_第3页
相关与回归分析_第4页
相关与回归分析_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、直到现在我们所涉及的仅仅是对一些互相没有关系的变量直到现在我们所涉及的仅仅是对一些互相没有关系的变量的描述。但是现实世界的问题都是相互联系的。不讨论变的描述。但是现实世界的问题都是相互联系的。不讨论变量之间的关系,就无从谈起任何有深度的应用;而没有应量之间的关系,就无从谈起任何有深度的应用;而没有应用,前面讲过的那些基本概念就仅仅是摆设而已。用,前面讲过的那些基本概念就仅仅是摆设而已。人们每时每刻都在关心事物之间的关系。人们每时每刻都在关心事物之间的关系。比如,比如,职业种类和收入之间的关系、政府投入和职业种类和收入之间的关系、政府投入和经济增长之间的关系、广告投入和经济效益之间经济增长之间的

2、关系、广告投入和经济效益之间的关系、治疗手段和治愈率之间的关系等等。的关系、治疗手段和治愈率之间的关系等等。这些都是这些都是二元二元的关系。的关系。还有更加复杂的还有更加复杂的诸多变量之间的相互关系诸多变量之间的相互关系,比如比如企业的固定资产、流动资产、预算分配、管企业的固定资产、流动资产、预算分配、管理模式、生产率、债务和利润等诸因素的关系是理模式、生产率、债务和利润等诸因素的关系是不能用简单的一些二元关系所描述的。不能用简单的一些二元关系所描述的。第九章第九章 相关与回归分析相关与回归分析 变量之间的数量关系变量之间的数量关系 9 .1 相关分析相关分析一一对应的确定性关系一一对应的确定

3、性关系 相关关系:相关关系:函数关系:函数关系: 两变量之间相关,但不能由一个两变量之间相关,但不能由一个完全确定另一个的取值,只是在完全确定另一个的取值,只是在一定范围内按某种规律变化。一定范围内按某种规律变化。 u 相关关系经常用一定的函数形式去近似地描述。相关关系经常用一定的函数形式去近似地描述。 1、本来具有函数关系的变量,当存在观测误差时,其函数、本来具有函数关系的变量,当存在观测误差时,其函数关系往往以相关的形式表现出来。关系往往以相关的形式表现出来。 2、如果我们对所研究对象有更深入的认识,便可以将影响、如果我们对所研究对象有更深入的认识,便可以将影响因素全部纳入方程,使之成为函

4、数关系。因素全部纳入方程,使之成为函数关系。 1、现象之间确实存在数量上的依存关系。、现象之间确实存在数量上的依存关系。 2、现象之间数量上的依存关系不是确定的。、现象之间数量上的依存关系不是确定的。二、二、 相关关系的基本形式相关关系的基本形式 1. 1. 以相关关系涉及的变量多少划分:以相关关系涉及的变量多少划分: 单相关;复相关单相关;复相关2. 2. 以相关方向划分:以相关方向划分: 正相关;负相关正相关;负相关 3. 3. 以相关的形态划分:以相关的形态划分: 线性相关;非线性相关线性相关;非线性相关 4 4以相关的程度划分:以相关的程度划分: 完全相关;不相关;不完全相关完全相关;

5、不相关;不完全相关 5 5以相关的性质划分:以相关的性质划分: 真实相关真实相关 ; 虚假相关虚假相关 三、相关关系的描述三、相关关系的描述 1 1、相关表、相关表 Xx1x2xixnYy1y2yiyn 相关表是一种反映变量之间相关关系相关表是一种反映变量之间相关关系的统计表。将某一变量按其取值的大小排的统计表。将某一变量按其取值的大小排列,然后再将与其相关的另一变量的对应列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。值平行排列,便可得到简单的相关表。2 2、相关图、相关图(散点图散点图) 在统计研究中,对现象间相关关系的在统计研究中,对现象间相关关系的密切程度可用统计

6、指标相关系数密切程度可用统计指标相关系数r r来测定。来测定。 设计思路设计思路定义公式定义公式计算公式计算公式四、相关关系的测度四、相关关系的测度PearsonPearson相关系数相关系数 22yyx-xyyx-xr1)(S2xnxx1)(S2ynyy1yyx-x2nSxy 设(设(xi,yi),是),是x、y 的的n组观测值组观测值 2222)()(yynxxnyxxynr直线相关系数的计算公式 2222)()(yynxxnyxxynr计算结果计算结果1001011 正相关正相关零相关零相关完全负相关完全负相关负相关负相关完全正相关完全正相关直线相关系数的意义直线相关系数的意义 :113

7、 . 05 . 03 . 08 . 05 . 08 .0四四级级划划分分法法 无直线相关无直线相关显著相关显著相关低度相关低度相关高度相关高度相关r值很小,说明X与Y之间没有线性相关关系,但并不意味着X与Y之间没有其它关系,如很强的非线性关系。直线相关系数一般只适用于测定变量间的线性相关关系,若要衡量非线性相关时,一般应采用相关指数R。 要用样本相关系数用样本相关系数r r作为总体相关系数作为总体相关系数的估的估计值,而计值,而r r仅说明样本数据的仅说明样本数据的X X与与Y Y的相关程度。有的相关程度。有时候,由于样本数据太少或其它偶然因素,使得时候,由于样本数据太少或其它偶然因素,使得样

8、本相关系数样本相关系数r r值很大,而总体的值很大,而总体的X X与与Y Y并不存在真并不存在真正的线性关系。因而有必要通过样本资料来对正的线性关系。因而有必要通过样本资料来对X X与与y y之间是否存在真正的线性相关进行检验,即检验之间是否存在真正的线性相关进行检验,即检验总体相关系数总体相关系数是否为零。是否为零。相关系数的统计检验相关系数的统计检验2ntr12nrt21、提出假设、提出假设H0:总体中变量:总体中变量x与变量与变量y相互独立,即相互独立,即0;H1:总体中变量:总体中变量x与变量与变量y存在线性相关,即存在线性相关,即0 。,拒绝原假设。或若,接受原假设;若2222-tt

9、ttttt-2t 在美国中西部的一个小镇,地方警察局局长发现一个有趣的在美国中西部的一个小镇,地方警察局局长发现一个有趣的现象:冰淇淋消费量越多,犯罪率就越高。测量这两个变量,显现象:冰淇淋消费量越多,犯罪率就越高。测量这两个变量,显示他们的相关关系是正向的,并且相关程度颇高。示他们的相关关系是正向的,并且相关程度颇高。 显然,仅仅因为冰淇淋消费量和犯罪率一起增长(或一起显然,仅仅因为冰淇淋消费量和犯罪率一起增长(或一起下降)并不意味着一个变量的变化会导致另一个变量的变化。下降)并不意味着一个变量的变化会导致另一个变量的变化。这两个变量一定是共享什么,或者说,一定存在什么变量同时这两个变量一定

10、是共享什么,或者说,一定存在什么变量同时和冰淇淋消费量以及犯罪率水平相关。因为它们同时发生,所和冰淇淋消费量以及犯罪率水平相关。因为它们同时发生,所以建立了相关的假象。以建立了相关的假象。 乔乔. .鲍勃被选举为城市议员,他知道了这个发现并且有了鲍勃被选举为城市议员,他知道了这个发现并且有了一个很好的想法,或者至少他认为他的选民会喜欢这个想法:一个很好的想法,或者至少他认为他的选民会喜欢这个想法:为什么不在夏天这几个月限制冰淇淋的消费量,以便使犯罪率为什么不在夏天这几个月限制冰淇淋的消费量,以便使犯罪率下降?听起来很合理!下降?听起来很合理!u 这是计算、理解和解释相关系数时需要注意的最重要的

11、事。冰淇淋吃得越多.犯罪率就越高 根据相关关系的具体形态,选择一个合适的数根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化规律。学模型,来近似地表达变量间的平均变化规律。 用相关系数来表明现象间相互依存关系的密用相关系数来表明现象间相互依存关系的密切程度。切程度。相关分析与回归分析的比较相关分析与回归分析的比较 1、联系、联系 v 以具有相关关系的现象作为共同的研究对象;以具有相关关系的现象作为共同的研究对象; v 在具体应用上,必须相互补充。在具体应用上,必须相互补充。 2、区别、区别 v 所研究的变量关系有差异所研究的变量关系有差异 。v 研究方法和研究目的研究

12、方法和研究目的不同;不同;有时两个变量可以互为因果关系,比如全社会的生产有时两个变量可以互为因果关系,比如全社会的生产量与消费量。这就要根据研究目的来确定自变量和因变量与消费量。这就要根据研究目的来确定自变量和因变量。如果希望研究生产量的变化怎样影响消费量的变化,量。如果希望研究生产量的变化怎样影响消费量的变化,则可将生产量定为自变量,消费量定为因变量,反之亦则可将生产量定为自变量,消费量定为因变量,反之亦然。然。在工业企业经济统计分析中,利润额受投资额的大小在工业企业经济统计分析中,利润额受投资额的大小影响,因而投资额可看作是自变量,利润额可看作是因影响,因而投资额可看作是自变量,利润额可看

13、作是因变量。变量。u 因变量因变量Y Y是一个随机变量。是一个随机变量。 对于每个对于每个X X,由于,由于Y Y(X X)是一个随机变量。)是一个随机变量。 假设期望存在,假设期望存在, E E(Y Y(X X)存在,令)存在,令U U(X X)E E(Y Y(X X)为)为Y Y(X X)对)对X X的的回归函数,简称为回归。回归函数,简称为回归。 “回归回归”一词的由来一词的由来弗朗西斯弗朗西斯高尔顿(高尔顿(Francis Galton,1822-1911)出生于英格兰伯明)出生于英格兰伯明翰翰据皮尔逊不完全统计,著书据皮尔逊不完全统计,著书15种,撰写各种,撰写各种学术论文种学术论文

14、220篇篇 地理学家地理学家远征非洲的地理探险远征非洲的地理探险 气象学家气象学家观测并命名高气压观测并命名高气压 心理学家心理学家开创了智力测量等方法开创了智力测量等方法 遗传学家遗传学家优生学的创始人优生学的创始人 统计学家统计学家现代回归与相关技术的创始人现代回归与相关技术的创始人“返祖返祖”现象现象向平均回归向平均回归回归分析的类型回归分析的类型 1 1、根据所建立的回归方程划分:、根据所建立的回归方程划分: 线性回归(直线回归)线性回归(直线回归)非线性回归(曲线回归)非线性回归(曲线回归) 2 2、根据所涉及的变量多少划分:、根据所涉及的变量多少划分: 一元回归(简单回归)一元回归

15、(简单回归) 多元回归(复回归)多元回归(复回归) 9.2 一元线性回归一元线性回归xy10假设变量假设变量X与与Y之间存在线性相关关系,一般用以下数学模之间存在线性相关关系,一般用以下数学模型来进一步探讨型来进一步探讨Y与与X之间的统计规律性。之间的统计规律性。式中,变量式中,变量Y与与X之间的关系由两个部分描述:之间的关系由两个部分描述: 一部分是由于一部分是由于x的变化引起的变化引起y线性变化的部分,即线性变化的部分,即 x10另一部分是由其他一切随机因素引起的,记为另一部分是由其他一切随机因素引起的,记为 10和未知参数,或称回归系数未知参数,或称回归系数(Coefficient of

16、 regression) 是不可观测的随机误差,它是一个随机变量。是不可观测的随机误差,它是一个随机变量。 ),(210 xNy通常假定通常假定), 0 (2Nxy10210)var(,)(yxyE当当 x 已知时,可以精确算出已知时,可以精确算出E ( y )。由于。由于是随机因素,是随机因素,通常就用通常就用E ( y )作为作为 y 的估计,故得的估计,故得 xy10 y 的回归估计值的回归估计值 y 一元线性回归模型一元线性回归模型 一元线性回归方程一元线性回归方程进一步有进一步有即即xy10 一元线性回归方程一元线性回归方程iiyx ,10,回归分析的主要任务回归分析的主要任务就是就

17、是)i=1,2, ,n对对进行估计。进行估计。 通过通过n组样本观察值(组样本观察值(yy关于关于x x的一元线性经验回归方程的一元线性经验回归方程 bxay10,a、b分别表示分别表示 的估计值的估计值 a 经验回归直线的截距,表示在经验回归直线的截距,表示在X为零时,为零时,Y的估计值,的估计值,即即Y的起始估计值。的起始估计值。b 经验回归经验回归直线的斜率,直线的斜率,表示表示X每增加一个单位所引起每增加一个单位所引起的的Y的平均变化量。的平均变化量。 可以看出,观测点的变化趋势近似呈直线形式,用一条可以看出,观测点的变化趋势近似呈直线形式,用一条直线穿过这些点的中间部分,观测点在直线

18、附近波动,直线穿过这些点的中间部分,观测点在直线附近波动,因而可以用一条直线较好地代表这些点的平均路径。由因而可以用一条直线较好地代表这些点的平均路径。由此而建立的直线方程,又称之为一元线性经验回归方程,此而建立的直线方程,又称之为一元线性经验回归方程,简称为回归方程。简称为回归方程。最小二乘法的理论基础是样本的最小二乘法的理论基础是样本的n n个实际值个实际值y y与其相应的回与其相应的回归估计值归估计值 的离差平方和达到最小,即:的离差平方和达到最小,即:式中,式中,a a,b b是待定参数,是待定参数,QQ是是a a,b b的函数,要使的函数,要使QQ达到最小,达到最小,依据函数求极限的

19、原理,则先求依据函数求极限的原理,则先求QQ对对a a和和b b的偏导数,再令其的偏导数,再令其为为0 0。即:。即:min)()(22bXaYYYQ0)(2bXaYaQ0)( )(2xbXaYbQYxbyaxxnyxxynb 22)(XbnaY2XbXaXY解正规方程得:解正规方程得:仍以前题为例,建立直线回归方程。在计算相关系数时已求得如下过程数据:由最小二乘法标准方程得回归系数的计算值为:得出Y对X的直线回归方程为:6029,541250,30800,3392XXYYX82.673396029203080033954125020)(222 XXnYXXYnb45.3902033982.6

20、72030800nXbnYaXbXaY82.6745.390XbXaY82.6745.390在本例中,在本例中,b = 67.82,表明工人日产量,表明工人日产量Y与工人工龄与工人工龄长度长度X呈正的线性相关,且工人工龄长度每增加一呈正的线性相关,且工人工龄长度每增加一年,工人日产量平均增加年,工人日产量平均增加67.82件。件。回归系数回归系数a是直线的截距,是直线的截距, b既是既是直线的斜率,又直线的斜率,又表示表示X每增加每增加一个单位所引起的一个单位所引起的Y的平均增加值。的平均增加值。b 0时,说明时,说明Y 随随X的增加而增加,的增加而增加, X 与与Y 呈正的线性相关;呈正的线

21、性相关;b 0时,说明时,说明Y 随随X的增加而减少,的增加而减少, X 与与Y 呈负的线性相关;呈负的线性相关;b = 0时,时,Y 不随不随X的变动而变动,说明两者不存在线性相关。的变动而变动,说明两者不存在线性相关。ybax为为Y对对X的回归方程。的回归方程。 对某个给定的自变量对某个给定的自变量X值,可将其代入回归方程得出值,可将其代入回归方程得出因变量因变量Y的回归估计值。而不能反过来由的回归估计值。而不能反过来由Y去推算去推算X。 如果如果X和和Y两个变量可以互为因果关系,要研究两个变量可以互为因果关系,要研究X随随Y的的变动而发生变动的情况,则需建立变动而发生变动的情况,则需建立

22、X对对Y的回归方程。即以的回归方程。即以Y为自变量,为自变量,X为因变量。为因变量。其中其中ybxayynxyyxnb22)(bxay为为X 对对Y的回归方程。的回归方程。拟合程度:样本观测值聚集在样本回归直线周围的紧密程度,拟合程度:样本观测值聚集在样本回归直线周围的紧密程度,又称拟合优度又称拟合优度(Goodness of fit)。xyy)(yy bxay)(yy )(yy )() (yyyyyy上式两边分别平方,并对每个观测点进行同样的分解和平方。上式两边分别平方,并对每个观测点进行同样的分解和平方。然后对然后对n n个观测点的离差平方求和,则有:个观测点的离差平方求和,则有:)(2)

23、 () ()(222yyyyyyyyyy0)(yyyy可以证明:可以证明:222) () ()(yyyyyy则有:则有:222) () ()(yyyyyy称为总离差平方和称为总离差平方和SSTSST(Total Deviation Sum of SquaresTotal Deviation Sum of Squares) 2)(yy2) (yy是是y y的回归值与平均值的离差平方和,它表示各个回归的回归值与平均值的离差平方和,它表示各个回归估计值的离差程度。是由于估计值的离差程度。是由于x x与与y y的线性关系而引起的线性关系而引起y y变变化的部分,它可以由回归直线来解释,因而也称为总离化

24、的部分,它可以由回归直线来解释,因而也称为总离差平方和中可解释的离差平方和。差平方和中可解释的离差平方和。称为回归平方和称为回归平方和SSRSSR(Regression Sum of SquaresRegression Sum of Squares) 2) (yy称为残差平方和称为残差平方和SSESSE(Residual Sum of SquaresResidual Sum of Squares) 是是y y的各实际观测值与回归值的离差平方和,它反映的是的各实际观测值与回归值的离差平方和,它反映的是除了除了x x对对y y的线性影响以外的其他因素的影响,是不能由的线性影响以外的其他因素的影响,

25、是不能由回归直线来解释,因而也称为总离差平方和中不可解释回归直线来解释,因而也称为总离差平方和中不可解释的离差平方和或剩余平方和。的离差平方和或剩余平方和。SST= SSR + SSE 若两边同除以若两边同除以SST得:得: 1SSTSSESSTSSR 总的离差平方和中,回归平方和所占的比重越大,则回总的离差平方和中,回归平方和所占的比重越大,则回归效果越好,说明回归直线与样本观察值拟合得好;如果归效果越好,说明回归直线与样本观察值拟合得好;如果残差平方和所占的比重大,则回归直线与样本观察值拟合残差平方和所占的比重大,则回归直线与样本观察值拟合得不理想。把回归平方和与总离差平方和之比定义为:得

26、不理想。把回归平方和与总离差平方和之比定义为:2)(2nyySiiy22nxybyaySyySySySyS越小,表明回归直线对各实际观测点的代表性就越好。越小,表明回归直线对各实际观测点的代表性就越好。回归系数的显著性检验回归系数的显著性检验线性关系的显著性检验线性关系的显著性检验 F F检验检验 t t 检验检验1、提出假设:、提出假设: :线性关系不显著:线性关系不显著2、计算检验统计量:、计算检验统计量: )2(1nSSESSRF3、确定显著性水平,、确定显著性水平, 一般一般05. 04、查、查F分布临界值表,可得分布临界值表,可得 )2, 1 (nF.,;,00反之接受性关系是显著的说明两个变量之间的线拒绝HFFHFF5、若、若0H1、提出假设:、提出假设: 2、计算检验统计量:、计算检验统计量: 3、确定根据显著性水平,查、确定根据显著性水平,查 t 分布临界值表,可得分布临界值表,可得 4、若、若0:10H0:11H其中其中 回归系数回归系数b的标准差的标准差2t22)(xxSSybbSbt bSbt bSbt bSbt ,02Htt拒绝接受,02Htt接受2tbSbt 9.4 多元:多元:kkCXbXbXbaY.2211二元:二元:2211XbXbaYC2211XbXbnaY21221111

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论