统计学第七章相关回归分析_第1页
统计学第七章相关回归分析_第2页
统计学第七章相关回归分析_第3页
统计学第七章相关回归分析_第4页
统计学第七章相关回归分析_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学第七章相关回归分析第一页,共五十五页,编辑于2023年,星期三①了解相关关系的概念及种类;②掌握相关分析的原理、几种常用相关系数的测定方法及相关系数取值含义;③掌握回归分析的原理、方法及应用,重点掌握简单线性回归方程的拟合及应用,明确直线回归方程中待定参数的含义。

具体要求第二页,共五十五页,编辑于2023年,星期三第一节相关分析的基本问题

一、相关关系与函数关系

二、相关关系的种类

三、相关分析的主要内容

第三页,共五十五页,编辑于2023年,星期三

一、相关关系与函数关系

1.函数关系现象之间存在的确定性的数量依存关系

圆的面积S与半径r之间的数量关系

GDP与总产出及中间投入之间的关系

例:S=R2GDP=总产出-中间投入第四页,共五十五页,编辑于2023年,星期三2.相关关系也称统计相关,是指现象之间存在的非确定性的数量依存关系

非一一对应商品价格与商品需求量之间存在的变动关系

例:施肥量与农作物产量的关系

第五页,共五十五页,编辑于2023年,星期三1.是一一对应的确定关系2.设有两个变量x和y,变量

y完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量3.各观测点落在一条线上1.变量间关系不能用函数关系精确表达2.一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个3.各观测点分布在直线周围

xyxy第六页,共五十五页,编辑于2023年,星期三2.函数关系与相关关系的联系与区别联系区别函数关系有时也可能表现为相关关系相关关系通常要利用相应的函数关系式来表现确定性依存关系与非确定依存关系函数关系往往因为有观察或测量误差以及各种随机因素的干扰等原因,在实际中常常通过相关关系表现出来;而在研究相关关系时,其数量间的规律性了解得越深刻的时候,则相关关系越有可能转化为函数关系或借助函数关系来表现。第七页,共五十五页,编辑于2023年,星期三相关关系变量个数的多少相关的密切程度单相关多元相关相关的方向相关的形式线性相关非线性相关完全相关不完全相关不相关正相关负相关

二、相关关系的种类

第八页,共五十五页,编辑于2023年,星期三1.确定变量之间有无相关关系及其表现形式

三、相关分析的主要内容

2.确定相关关系的密切程度3.检验现象统计相关的显著性4.广义上讲,相关分析还包括拟合回归方程第九页,共五十五页,编辑于2023年,星期三第二节相关关系的测度

一、相关关系的一般测度二、相关系数的测定三、等级相关系数的测定第十页,共五十五页,编辑于2023年,星期三一、相关关系的一般判断

1.定性分析——根据一定的经济理论和实践经验的总结

2.相关表和相关图

防止虚假相关或伪相关!第十一页,共五十五页,编辑于2023年,星期三(1)简单相关表销售额与流通费用相关表

散点图

第十二页,共五十五页,编辑于2023年,星期三(2)分组相关表适用场合:原始资料较多种类:单变量分组表——只对自变量进行分组,因变量不分组双变量分组表——将自变量和因变量都进行分组第十三页,共五十五页,编辑于2023年,星期三某市家庭收入与消费支出相关表

散点图

单变量分组第十四页,共五十五页,编辑于2023年,星期三家庭收入与消费支出相关表

双变量分组第十五页,共五十五页,编辑于2023年,星期三二、相关系数的测定

相关系数是在直线相关条件下,表明两个现象之间相关关系的方向和密切程度的综合性指标。一般用符号r表示。类型直线相关系数

等级相关系数

第十六页,共五十五页,编辑于2023年,星期三1.直线相关系数的计算(1)积差法第十七页,共五十五页,编辑于2023年,星期三例销售额流通费用第十八页,共五十五页,编辑于2023年,星期三(2)简捷计算法当平均数有很多小数位或除不尽时,比较方便。第十九页,共五十五页,编辑于2023年,星期三第二十页,共五十五页,编辑于2023年,星期三(3)分组资料的简捷计算法公式单变量分组双变量分组第二十一页,共五十五页,编辑于2023年,星期三(4)直线相关系数r的统计检验

第二十二页,共五十五页,编辑于2023年,星期三(5)直线相关系数r的取值含义

r界于-1与1之间

当r<0,表示负相关;r>0,表示正相关绝对值r越接近1,线性相关越密切绝对值r越接近0,相关程度越弱经验判断:相关系数在0.3以下为无相关,0.3~0.5为低度相关,0.5~0.8为中度相关,0.8以上是高度相关。第二十三页,共五十五页,编辑于2023年,星期三三、等级相关系数的测定方法

1.等级相关的含义就是把有关联的数量标志或品质标志的具体表现按等级次序排列,形成X和Y这两个序列,再测定这两个序列之间的相关程度,得到的相关系数即为等级相关系数。常用的有斯皮尔曼相关系数、肯特尔相关系数等。定等级依此计算每对观察值相应的等级差D计算D2代入公式2.斯皮尔曼(Spearman)相关系数的计算步骤第二十四页,共五十五页,编辑于2023年,星期三例:某公司6位员工的学历及其年终能力考核结论如表7-6所示,求学历与能力的相关系数。

第二十五页,共五十五页,编辑于2023年,星期三3.肯特尔相关系数n——样本容量

,∑i——换位总次数

上图的例子,有第二十六页,共五十五页,编辑于2023年,星期三相关分析只能说明两个变量之间的相互依存关系,并不一定代表因果关系。在计算相关系数之前,一般要先做定性分析,否则就有可能因为数据的偶然巧合,得到较高的相关系数,从而把虚假相关视为可信的相关。

说明请您举例!有人曾对教师薪金的提高和酒价的上涨作了相关分析,计算得到一个较大的相关系数,这是否表明教师薪金提高导致酒的消费量增加,从而导致酒价上涨呢?第二十七页,共五十五页,编辑于2023年,星期三第三节回归分析的基本问题

一、回归分析的概念

二、回归分析的主要内容三、回归分析的特点四、回归模型的种类

第二十八页,共五十五页,编辑于2023年,星期三一、回归分析的概念

相关分析的不足:只能分析现象之间相关关系的方向和相关的密切程度,但不能判断现象之间具体的数量变动依存关系,也不能根据相关系数来估计或预测因变量y可能发生的数值。

回归分析:就是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定因变量和自变量之间数量变动关系的数学表达式,以便对因变量进行估计或预测的统计分析方法。

第二十九页,共五十五页,编辑于2023年,星期三关系:相关分析的主要任务是研究变量间相关关系的表现形式和密切程度,而回归分析是在相关分析的基础上,进一步研究现象之间的数量变化规律。

变量xi与随机变量y的回归模型一般表示为

“因变量”或“被解释变量”(dependentvariable)“解释变量”或“自变量”(independentvariables)随机变量您知道“回归”这个词的本来含义吗?第三十页,共五十五页,编辑于2023年,星期三19世纪末,英国著名统计学家FrancisGalton研究孩子及他们父母的身高时发现,身材高的父母,他们的孩子也高,但这些孩子平均起来并不像他们的父母那样高;对于比较矮的父母,他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。Galton把这种孩子的身高向中间值靠近的趋势称之为一种回归效应。回归这个术语便开始传播开来。现在的回归分析已经没有原来的含义,但这种说法一直沿袭下来,重在表明这是研究数值变量之间关系的方法。“回归”的本来含义第三十一页,共五十五页,编辑于2023年,星期三二、回归分析的主要内容

1.根据研究目的和现象之间的内在联系,确定自变量和因变量2.确定回归分析模型的类型及数学表达式3.对回归分析模型进行评价与诊断4.根据给定的自变量数值确定因变量的数值第三十二页,共五十五页,编辑于2023年,星期三三、回归分析的特点

1.回归分析必须根据研究目的确定其中一个为因变量,其余为自变量而相关分析可以不用区分自变量和因变量2.相关分析中,两个变量要求都是随机的,而在回归分析中,要求因变量是随机的,而自变量的值则是给定的3.若变量之间互为因果,则可以求出两个回归方程,而两个变量之间只能求出一个相关系数4.回归方程有较强的应用性第三十三页,共五十五页,编辑于2023年,星期三四、回归模型的类型一个自变量两个及两个以上自变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归第三十四页,共五十五页,编辑于2023年,星期三第四节回归分析的模型

一、简单线性回归模型二、多元线性回归模型三、非线性回归模型第三十五页,共五十五页,编辑于2023年,星期三一、简单线性回归分析(一)简单线性回归模型

理论模型估计模型回归参数回归参数的估计值

两点说明:1.a是直线的截距,b是直线的斜率

2.因变量y的估计值记为yc误差项

第三十六页,共五十五页,编辑于2023年,星期三(二)参数估计销售额wwwwwwwwwwThequestionis:Whichstraightlinefitsbest?思路:离差的平方和最小最小二乘法第三十七页,共五十五页,编辑于2023年,星期三整理得:最后解得:设估计模型为第三十八页,共五十五页,编辑于2023年,星期三斜率b的含义为:自变量x每增加(或减少)一个单位,因变量y将平均增加(或减少)b个单位。

第三十九页,共五十五页,编辑于2023年,星期三例:某企业对车间9名学徒工进行调查,得到学徒期限与每天产量情况如右表所示,要求建立以日产量为因变量的回归方程。

所以回归方程为yc=0.83+87.5x第四十页,共五十五页,编辑于2023年,星期三斜率b的其他公式回归系数b和相关系数r是有联系的

第四十一页,共五十五页,编辑于2023年,星期三(三)回归估计标准误在散点图上可以拟合一条与各观测点配合最佳的直线,但这些观测点所代表的若干对观测值,只是从总体中抽取的一个样本。由观测值求出的回归直线称为样本回归直线,它只是总体回归直线的一个估计线,因此在做回归分析时需要对拟合的回归方程的代表性进行衡量。估计误差的大小能反映估计值的准确性。但实际值y与估计值yc离差之和为0,因为正离差与负离差抵消了。显然离差的平方和可以衡量准确性

第四十二页,共五十五页,编辑于2023年,星期三

n-2为自由度,这是因为按最小二乘法求解两个参数a和b,受到两个正规方程的约束,失去了两个自由度。

离差平方和的平均数称为剩余方差,即对剩余方差开方即得回归估计标准误,又称估计标准误差,即第四十三页,共五十五页,编辑于2023年,星期三1.变差的产生在直线回归中,因变量y的大小取值是不同的,它围绕平均值上下波动。y取值的这种波动称为变差。变差来源于两个方面:一是由于自变量x的取值不同造成的;二是除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响造成的。(四)回归方程判定系数第四十四页,共五十五页,编辑于2023年,星期三两边平方得两边求和并化简得第四十五页,共五十五页,编辑于2023年,星期三2.变差的分解反映由于x与y之间的线性关系引起的y的取值变化,也称可解释的变差。回归变差(SSR)TSS=SSR+SSE总变差(TSS)剩余变差或残差(SSE)第四十六页,共五十五页,编辑于2023年,星期三回归变差占总变差的比例,称为判定系数。*也称可决系数或确定系数。是反映回归直线的拟合优度的统计指标。R21,说明回归方程拟合得越好;R20,说明回归方程拟合越差。*R2的取值范围在[0,1]之间,在一元线形模型中,判定系数就等于相关系数的平方,即R2=r23.判定系数第四十七页,共五十五页,编辑于2023年,星期三在大样本条件下,

第四十八页,共五十五页,编辑于2023年,星期三(五)回归方程的统计检验1、模型整体拟合效果的显著性检验

在给定显著性水平之下,若:则拒绝原假设,认为回归方程整体是显著的。

第四十九页,共五十五页,编辑于2023年,星期三2、模型参数显著性的检验

模型参数显著性检验主要是判断每一个自变量对于回归模型是否必要的。

一元线性回归模型截距和斜率的显著性检验方法第五十页,共五十五页,编辑于2023年,星期三(六)因变量的置信区间估计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论