版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章相关与回归分析
CorrelationRegressionAnalysis章前导语:
1、有其父,必有其子。--------古人和现代人都这么说2、“真的,”公爵夫人说:“火烈鸟和芥末都很刺鼻。那意思是说‘物以类聚’。”“但芥末并不是鸟。”Alice说。“是的,象往常那样,”公爵夫人说,“你具有多么清晰的表达方式!”--------《Alice漫游奇境记》12/19/20221第八章相关与回归分析
Correlation第八章相关与回归分析StatisticsinPractice消费者应该留下多少小费?在西方国家餐饮等服务行业有一条不成文的规定,即发生餐饮等服务项目消费时,必须给服务员一定数额的小费,许多人都听说小费应该是账单的16%左右,是否真的如此呢?让我们来考察表8-1,表中的数据是经过调查所得的样本数据,通过对这几组数据的分析与观察,我们能发现两者之间的数量关系。12/19/20222第八章相关与回归分析StatisticsinPraStatisticsinPractice问题:1、是否有足够的证据断定:在账单与小费数额之间存在某种联系?2、如果存在某种联系,怎样使用这种联系来确定应该留下多少小费?本章的重点就是基于成对出现的样本数据做出一些推论。如上例,我们想要确定账单与小费数额之间是否存在某种联系,如果存在,我们就想用一个公式来描述它,这样就能找出人们留小费时遵循的规则。类似这样的问题还有很多,如:(1)犯罪率与偷窃率;(2)香烟消费与患癌症率;(3)个人收入水平与受教育年限;(4)血压与年龄;(5)父母身高与子女身高;(6)薪金与酒价等等。12/19/20223StatisticsinPractice问题:12/18主要内容8.1相关关系概述
一、变量间的相互关系二、相关关系的种类三、相关分析的内容及其假定8.2线性相关关系的测定
一、相关图表二、相关系数8.3回归分析
一、回归分析概述二、一元线性回归方程的拟合三、回归分析的方差分析四、一元线性回归模型的检验五、对回归分析结果的评价六、多元线性回归分析12/19/20224主要内容8.1相关关系概述12/18/202248.1相关关系概述一、变量间的相互关系(一)函数关系定义:完全确定的(数量)关系。(1)某一(组)变量与另一变量间存在着一一对应的关系;[例]计件工资(y)与产量(x)y=f(x)=10x;
x0=1件,y0=10元;
x1=2件,y1=20元圆的面积S=ΠR2,R=10,S=100Π(2)表述:y=f(x)。(二)相关关系1、定义:不完全确定的关系。(1)某一(组)变量与另一变量间有关系,但并非一一对应;12/19/202258.1相关关系概述一、变量间的相互关系12/18/202一、变量间的相互关系[例]身高y与体重x;A:x=60kg、y=170m;B:x=60kg、y=1.72m;C:x=60kg、y=1.68m;D:x=60kg、y=1.65m。(2)表述:y=f(x)+。影响身高的因素:体重、遗传、锻炼、睡眠质量……2、成因(1)某些影响因素尚未被认识;(2)虽已认识但无法测量;(3)测量误差。[例]某种水果P元/斤:购买额y=Px购买量
x=2斤
y=2P+=2×1.9+0.23、数量关系的形式(1)单一因果关系;(2)互为因果关系;(3)伴随关系。12/19/20226一、变量间的相互关系[例]身高y与体重x;12/18/202二、相关关系的种类(一)按相关的程度分1、完全相关:函数关系;2、不相关:没有关系;3、不完全相关。(二)按相关的方向分1、正相关:变量的变动方向一致(同增同减);2、负相关:变量的变动方向相反(一增一减)。(三)按相关的形式分1、线性相关;2、非线性相关。12/19/20227二、相关关系的种类(一)按相关的程度分12/18/20227二、相关关系的种类相关程度密切相关程度不密切12/19/20228二、相关关系的种类相关程度密切相关程度不密切12/18/20二、相关关系的种类(四)按影响因素的多少分1、单(简单)相关:只有一个自变量;[例]学习成绩与学习时间;血压与年龄;亩产量与施肥量。2、复(多元)相关:两个或两个以上的自变量;[例]经济增长与人口增长、科技水平、自然资源、管理水平等之间的关系;体重与身高、食欲、睡眠时间之间的关系。3、偏相关:就多个变量测定其中两个变量的相关程度而假定其他变量不变。[例]就y=ax1+bx2+,研究y与x1之间的关系,假定x2不变。12/19/20229二、相关关系的种类(四)按影响因素的多少分12/18/202相关分析要解决的问题变量之间是否存在关系?如果存在关系,它们之间是什么样的关系?变量之间的关系强度如何?样本所反映的变量之间的关系能否代表总体变量之间的关系?为解决这些问题,在进行相关分析时,对总体有以下两个主要假定两个变量之间是线性关系两个变量都是随机变量三、相关分析的内容及其假定12/19/202210相关分析要解决的问题三、相关分析的内容及其假定12/18/28.2线性相关关系的测定[目的]测定变量间的相关方向与密切程度。一、相关图表(一)相关表1、单变量分组相关表:自变量分组且计算次数,因变量只计算平均数。12/19/2022118.2线性相关关系的测定[目的]测定变量间的相关方向与密一、相关图表2、双变量分组相关表:对自变量与因变量均进行分组。注:自变量X轴;因变量Y轴。12/19/202212一、相关图表2、双变量分组相关表:对自变量与因变量均进行分组正相关负相关曲线相关不相关xyxyxyxy又称散点图,用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。一、相关图表[不足]难以精确反映相关的密切程度。(二)相关图12/19/202213正相关负相关曲线相关不相关xyxyxyxy又称散二、相关系数二、(线性)相关系数※(一)积差法计算公式——在线性相关的条件下,用来反映变量之间相关方向及程度的统计指标,用r(ρ)表示。12/19/202214二、相关系数二、(线性)相关系数※——在线性相关的条件下,用二、相关系数[注解1]
协方差Cov(x,y)的作用1、显示x与y之间的相关方向。[正相关]12/19/202215二、相关系数[注解1]协方差Cov(x,y)的作用[正相关二、相关系数[负相关]12/19/202216二、相关系数[负相关]12/18/202216二、相关系数2、显示x与y之间的相关程度。[正相关]12/19/202217二、相关系数2、显示x与y之间的相关程度。[正相关]12/1二、相关系数[负相关]12/19/202218二、相关系数[负相关]12/18/202218二、相关系数[无线性相关]12/19/202219二、相关系数[无线性相关]12/18/202219二、相关系数[归纳]Cov(x,y)的作用第一、显示x与y之间的相关方向第二、显示x与y之间的相关密切程度12/19/202220二、相关系数[归纳]Cov(x,y)的作用第二、显示x与y二、相关系数[注解2]
sx、sy的作用1、使不同变量的协方差标准化直接对比。12/19/202221二、相关系数[注解2]sx、sy的作用12/18/2022二、相关系数2、使12/19/202222二、相关系数2、使12/18/202222二、相关系数(二)积差法相关系数的简捷计算公式12/19/202223二、相关系数(二)积差法相关系数的简捷计算公式12/18/2二、相关系数[r的简捷计算公式]12/19/202224二、相关系数[r的简捷计算公式]12/18/202224二、相关系数[r的简捷计算公式]12/19/202225二、相关系数[r的简捷计算公式]12/18/202225二、相关系数(三)线性相关的经验判断准则[例]为了解餐饮业消费数额与小费之间的数额关系,特从若干名消费者中随机抽取10名消费者进行调查,所得数据如下:12/19/202226二、相关系数(三)线性相关的经验判断准则[例]为了解餐饮业消二、相关系数[例]计算过程。12/19/202227二、相关系数[例]计算过程。12/18/202227二、相关系数[解]答:账单消费额与小费之间存在着高度的正相关关系。12/19/202228二、相关系数[解]答:账单消费额与小费之间存在着高度的正相关二、相关系数问:若令账单消费额为y,小费为x,则r的取值是否改变?12/19/202229二、相关系数问:若令账单消费额为y,小费为x,则r的取二、相关系数(四)样本相关系数的特点1、两变量均为随机变量;2、两变量的地位是平等的rxy=ryx;3、取值范围[-1,1],其接近于1的程度与样本容量n有关。
n小,r1。特例:当n=2时,r=1。[例]样本(x,y)为(6,12.6),(1,3.0),n=2。12/19/202230二、相关系数(四)样本相关系数的特点12/18/202230二、相关系数(五)关于相关的普遍错误在解释关于相关的结果中会出现以下三种普遍的错误:1、相关就一定意味着因果关系。如:一项研究表明,统计学教授的薪金与每人的啤酒消费量之间有很强的正相关关系,但这两个变量都受经济形势(隐藏变量)的影响。2、相关系数为0,一定不相关。3、基于平均数进行相关分析与基于个体数据进行相关分析,其相关程度不一样。如:一项研究中,关于个人收入和教育的成对数据产生了一个0.4的线性相关系数,但当使用区域平均时,线性相关系数变为0.7。12/19/202231二、相关系数(五)关于相关的普遍错误12/18/202231二、相关系数(六)线性相关的假设检验(两种方法)1、提出原假设与备择假设2、给定显著性水平α3、选择检验方法,构建检验统计量4、将检验统计量与临界值比较,如检验统计量的绝对值大于临界值,则拒绝原假设,否则,就不拒绝原假设。
t检验法
r检验法:用已经算好的r作为检验统计量,其临界值可以通过查表得到。
12/19/202232二、相关系数(六)线性相关的假设检验(两种方法)12/18/二、相关系数(六)线性相关的假设检验(两种方法)如袭前例:账单与小费之间的r=0.92,若用t检验法:
r检验法:N=10,r=0.92,rα=0.632,∵r>rα∴拒绝原假设,则认为两者存在显著的线性相关。12/19/202233二、相关系数(六)线性相关的假设检验(两种方法)12/18/二、相关系数一些人相信他们手掌生命线的长度可以用来预测他们的寿命。M.E.Wilson和L.E.Mather在《美国医学协会学报》上发表的一封信中,通过对尸体的研究对此给予了驳斥。死亡时的年龄与手掌生命线的长度被一起记录下来。作者得出死亡时的年龄与生命线的长度不存在显著相关的结论。手相术失传了,手也就放得下了。看手相:12/19/202234二、相关系数一些人相信他们手掌生命线的看手相:12/18/8.3
回归分析一、回归分析概述(一)概念1、[回顾]线性相关分析:计算线性相关系数r确定两变量之间的相关方向与密切程度。[不足]无法表明两变量之间的因果关系无法从一个或几个变量(xi)的变化来推测另一个变量(y)的变化情况。10名用餐顾客消费金额与所付小费数据如下:r=0.9212/19/2022358.3回归分析一、回归分析概述12/18/202235一、回归分析概述2、回归分析:通过一个(些)变量的变化解释另一变量的变化y=a+bx、y=a+b1x1+bx2
、y=0+1x1+2x2+…+nxn[回归]英国生物学家F·Galton首次提出。父辈身高子辈身高
xyy=f(x)+人类的平均身高。
[目的]在于通过X的已知或设定值,去估计或预测Y的(总体)均值。变量Y是被预测或被解释的变量,称为因变量(DependentVariable)或被解释变量(ExplainedVariable)变量X是用来预测或解释因变量的变量,称为自变量(IndependentVariable)或解释变量(ExplanatoryVariable)12/19/202236一、回归分析概述2、回归分析:通过一个(些)变量的变化解释另一、回归分析概述(二)回归分析的种类1、按自变量的多少分(1)简单(一元)回归:自变量只有一个。[例]y=a+bx一元回归方程(2)复(多元)回归:自变量为两个或两个以上。[例]y=0+1x1+2x2+…+nxn2、按回归方程式的特征分(1)线性回归:因变量为自变量的线性函数。[例]y=a+bx一元线性回归方程※(2)非线性回归:因变量为自变量的非线性函数。[例]12/19/202237一、回归分析概述(二)回归分析的种类12/18/2022371.定义:描述因变量y如何依赖于自变量x和误差项
的方程称为回归模型。2.一元线性回归模型可表示为
y=b0+b1x+ey是x的线性函数(b0+b1x部分)加上误差项线性部分反映了由于x的变化而引起的y的变化误差项
是随机变量反映除了x和y之间的线性关系以外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性0和1称为模型的参数一、回归分析概述(三)一元线性回归模型
Ⅰ.回归模型(regressionmodel)12/19/2022381.定义:描述因变量y如何依赖于自变量x和误差项3.一元线性回归模型的基本假定
(1)误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的x值,y的期望值为E(y)=0+
1x(2)对于所有的x值,ε的方差σ2都相同,即Var(εi)=E(εi2)=2(3)误差项之间不存在自相关关系,其协方差为0,即Cov(εi,εj)=E(εiεj)=0(ij)(4)误差项ε是一个服从正态分布的随机变量,即ε~N(0,σ2)(5)自变量是给定的变量,与随机误差项线性无关。以上这些基本假设是德国数学家高斯最早提出的,故也称为高斯假定或经典假定。一、回归分析概述12/19/2022393.一元线性回归模型的基本假定(1)误差项ε是一个期望值为Ⅱ.回归方程(regressionequation)定义:描述因变量y的期望值如何依赖于自变量x的方程,称为回归方程一元线性回归方程的形式如下
E(y)=0+1x方程的图示是一条直线,也称为直线回归方程0是回归直线在y轴上的截距,是当x=0时,y的期望值1是直线的斜率,表示x每变动一个单位时,y的平均变动值一、回归分析概述12/19/202240Ⅱ.回归方程(regressionequation)定义Ⅲ.估计的回归方程(estimatedregressionequation)一元线性回归中估计的回归方程为用样本统计量和代替回归方程中的未知参数和,就得到了估计的回归方程总体回归参数和
是未知的,必须利用样本数据去估计其中:是估计的回归直线在y轴上的截距;是直线的斜率,表示x每变动一个单位时,y的平均变动值
一、回归分析概述12/19/202241Ⅲ.估计的回归方程(estimatedregressio一、回归分析概述(四)回归分析的步骤1、确定自变量和因变量;[例]粮食产量(y)施肥量(x);消费支出(y)国民收入(x);火灾损失额(y)火灾发生地与最近一个消防站之间的距离(x)。2、确定样本回归方程;3、参数估计与模型检验;4、预测或控制。[例]消费与收入的回归方程:y=a+bx=200+0.15x已知x,确定y:估计或预测已知y,确定x:控制12/19/202242一、回归分析概述(四)回归分析的步骤12/18/202242相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;相关分析中x、y均为随机变量,回归分析中只有y为随机变量;相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。区别:一、回归分析概述(五)回归分析与相关分析比较12/19/202243相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;理论和方法具有一致性;相关分析是回归分析的基础和前提,无相关就无回归,相关程度越高,回归越好;回归分析是相关分析的继续和深化;相关系数和回归系数方向一致,可以互相推算。联系:一、回归分析概述(五)回归分析与相关分析比较12/19/202244理论和方法具有一致性;联系:一、回归分析概述(五)回归分析与二、一元线性回归方程的拟合(一)总体回归方程12/19/202245二、一元线性回归方程的拟合(一)总体回归方程12/18/20二、一元线性回归方程的拟合
Yi/Xi=条件均值+εi
=β0+β1Xi+εi12/19/202246二、一元线性回归方程的拟合12二、一元线性回归方程的拟合(二)样本回归方程从总体中随机取样,获取一组样本观察值。12/19/202247二、一元线性回归方程的拟合(二)样本回归方程12/18/20二、一元线性回归方程的拟合[图示]12/19/202248二、一元线性回归方程的拟合[图示]12/18/202248二、一元线性回归方程的拟合(三)样本回归方程的拟合方法1、绝对值拟合法2、最小二乘法(OLS法)※基本思路:使残差平方和最小的直线“最优直线”。12/19/202249二、一元线性回归方程的拟合(三)样本回归方程的拟合方法2、最二、一元线性回归方程的拟合总可以设法找到一对的取值,使Q为最小值。12/19/202250二、一元线性回归方程的拟合总可以设法找到一对二、一元线性回归方程的拟合将上式代入(2)式,得12/19/202251二、一元线性回归方程的拟合将上式代入(2)式,得12/18/二、一元线性回归方程的拟合[计算公式]12/19/202252二、一元线性回归方程的拟合[计算公式]12/18/20225二、一元线性回归方程的拟合相关系数r与回归系数之间的关系(1)两者是同向的;(2)r反映变量的相关方向与密切程度;
反映自变量每变动一个单位时因变量的平均变动量。12/19/202253二、一元线性回归方程的拟合相关系数r与回归系数之间的关系1.线性特征
是的线性函数
2.无偏特性
3.最小方差特性
在所有的线性无偏估计中,OLS估计具有最小方差
结论:在经典假定条件下,OLS估计量是最佳线性无偏估计量(bestlinearunbiasedestimator,BLUE)。(四)OLS估计量的性质(高斯—马尔柯夫定理)二、一元线性回归方程的拟合12/19/2022541.线性特征是的线性函数(四)二、一元线性回归方程的拟合[例]为研究用餐消费与小费支出的关系,随机抽取了10位用餐顾客,得样本数据如下:请拟合小费依消费的直线回归方程样本的相关系数r=0.9212/19/202255二、一元线性回归方程的拟合[例]为研究用餐消费与小费支出的关二、一元线性回归方程的拟合[例]为研究用餐消费与小费支出的关系,随机抽取了10位用餐顾客,得样本数据如下(用Excel软件生成的折线图)请拟合样本回归方程12/19/202256二、一元线性回归方程的拟合[例]为研究用餐消费与小费支出的关二、一元线性回归方程的拟合解:通过散点图可近似看出小费与用餐消费之间呈线性关系,故设两者之间关系为经济意义:餐费每增加100元,小费支出平均增加16.55元。12/19/202257二、一元线性回归方程的拟合解:通过散点图可近似看出小费与用餐三、回归方程的方差分析(一)总离差平方和的分解12/19/202258三、回归方程的方差分析(一)总离差平方和的分解12/18/2三、回归方程的方差分析由:12/19/202259三、回归方程的方差分析由:12/18/202259三、回归方程的方差分析[离差分析]12/19/202260三、回归方程的方差分析[离差分析]12/18/202260残差平方和回归离差平方和总离差平方和12/19/202261残差平方和回归离差平方和总离差平方和12/18/202261三、回归方程的方差分析(二)判定系数SSR占SST的比例,用表示;用来衡量回归方程对y的解释程度。12/19/202262三、回归方程的方差分析(二)判定系数SSR占SST的比例,用三、回归方程的方差分析[判定系数的作用]总离差平方和SST回归平方和SSR残差平方和SSE来自样本回归线来自残差回归线上的点与样本均值离差的平方和判定系数(coefficientofdetermination)的取值范围:[0,1],越接近1,说明实际观测点离样本线越近,拟合优度越高。在给定样本中,SST不变,如果实际观测点离样本回归线越近,则SSR在SST中占的比重越大,因此回归直线的拟合优度可用下面的判定系数(可决系数)测度:实际观测点与回归线上的点的离差的平方和12/19/202263三、回归方程的方差分析[判定系数的作用]总离差回归平方和残差三、回归方程的方差分析(三)判定系数R2与相关系数r的关系12/19/202264三、回归方程的方差分析(三)判定系数R2与相关系数r的关系1判定系数与相关系数的区别判定系数无方向性,相关系数则有方向,其方向与样本回归系数β1相同;判定系数说明变量值的总离差平方和中可以用回归线来解释的比例,相关系数只说明两变量间关联程度及方向;相关系数有夸大变量间相关程度的倾向,因而判定系数是更好的度量值。三、回归方程的方差分析12/19/202265判定系数与相关系数的区别判定系数无方向性,相关系数则有方向,三、回归方程的方差分析(四)估计标准误差1、定义:观察值与回归值之间的平均误差。2、公式12/19/202266三、回归方程的方差分析(四)估计标准误差12/18/2022三、回归方程的方差分析[图示]12/19/202267三、回归方程的方差分析[图示]12/18/202267线性回归模型的检验分二大类:统计检验计量经济检验从统计学的角度检验所估计的样本回归函数的有效性从基本假设是否成立这一角度检验最小二乘估计法的适用性及其改进拟合优度检验显著性检验四、一元线性回归模型的检验
本课程只学习统计检验:
1、拟合优度检验
拟合优度检验主要用来检验样本回归函数与实际观测点的“接近”程度,可用判定系数(或相关系数、估计标准误差)测度。12/19/202268线性回归模型的检验分二大类:统计检验计量经济检验从(1)线性关系的检验检验自变量与因变量之间的线性关系是否显著,即各解释变量前的参数是否不全为零。如果总体上线性关系成立,则Y的总离差平方和中,可由该线性回归函数解释的部分(系统性因素)所占比重较大,残差平方和(随机性因素)所占比重较小,从而使得回归平方和与残差平方和的比值较大。将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著其中,k表示模型中回归参数的个数,n为样本容量。2、显著性检验12/19/202269(1)线性关系的检验检验自变量与因变量之间的线性关系是否显著线性关系检验的步骤
提出假设H0:1=0线性关系不显著2.
计算检验统计量F确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F
作出决策:若F>F
(P<α),拒绝H0;若F<F
(P>α),不拒绝H012/19/202270线性关系检验的步骤提出假设2.计算检验统计量F确定显(2)回归系数的检验采用t检验在一元线性回归中,等价于线性关系的显著性检验理论基础是回归系数
的抽样分布对各回归系数的显著性检验主要是通过样本考察总体回归系数的“可能取值”。回归分析中,主要是针对总体参数是否为某一值(一般设为零)来检验自变量x对因变量y的影响是否显著的(为什么?)12/19/202271(2)回归系数的检验采用t检验理论基础是回归系数的样本统计量的抽样分布
是根据最小二乘法求出的样本统计量,它有自己的分布的分布具有如下性质分布形式:正态分布数学期望:标准差:由于未知,需用其估计量se来代替,得到的估计标准差12/19/202272样本统计量的抽样分布是根据最小二乘法求出的样回归系数检验的步骤提出假设H0:b1=0(没有线性关系)H1:b1
0(有线性关系)计算检验的统计量确定显著性水平,并进行决策若t>t,则拒绝H0;若t<t,就不拒绝H0用Excel进行相关和回归分析12/19/202273回归系数检验的步骤提出假设确定显著性水平,并进行决策用五、对回归分析结果的评价建立的模型是否合适?或者说,这个拟合的模型有多“好”?要回答这些问题,可以从以下几个方面入手:所估计的回归系数
的符号是否与理论或事先预期相一致如果理论上认为x与y之间的关系不仅是正的,而且是统计上显著的,那么所建立的回归方程也应该如此回归模型在多大程度上解释了因变量y取值的差异?可以用判定系数R2来回答这一问题考察关于误差项的正态性假定是否成立。因为我们在对线性关系进行F检验和回归系数进行t检验时,都要求误差项服从正态分布,否则,我们所用的检验程序将是无效的。正态性的简单方法是画出残差的直方图或正态概率图12/19/202274五、对回归分析结果的评价建立的模型是否合适?或者说,这个拟合六、多元线性回归分析1、多元线性回归模型多元线性回归模型:是指在线性相关的条件下,研究2个或2个以上自变量与因变量之间的数量关系。其模型为:
y=0+1X12X2+…+nXn+ei2、多元线性回归模型参数的估计:最小平方法。求解回归系数的估计值,通常用统计软件。其方程用矩阵表示为:█12/19/202275六、多元线性回归分析1、多元线性回归模型█12/18/202本章小节一、变量间关系的种类;二、相关系数的计算、评价及检验三、回归模型、回归方程、估计回归方程的概念,回归方程参数的最小二乘估计;四、判定系数、估计标准误差的计算,及线性关系检验及回归系数的检验12/19/202276本章小节一、变量间关系的种类;12/18/202276
第八章相关与回归分析
CorrelationRegressionAnalysis章前导语:
1、有其父,必有其子。--------古人和现代人都这么说2、“真的,”公爵夫人说:“火烈鸟和芥末都很刺鼻。那意思是说‘物以类聚’。”“但芥末并不是鸟。”Alice说。“是的,象往常那样,”公爵夫人说,“你具有多么清晰的表达方式!”--------《Alice漫游奇境记》12/19/202277第八章相关与回归分析
Correlation第八章相关与回归分析StatisticsinPractice消费者应该留下多少小费?在西方国家餐饮等服务行业有一条不成文的规定,即发生餐饮等服务项目消费时,必须给服务员一定数额的小费,许多人都听说小费应该是账单的16%左右,是否真的如此呢?让我们来考察表8-1,表中的数据是经过调查所得的样本数据,通过对这几组数据的分析与观察,我们能发现两者之间的数量关系。12/19/202278第八章相关与回归分析StatisticsinPraStatisticsinPractice问题:1、是否有足够的证据断定:在账单与小费数额之间存在某种联系?2、如果存在某种联系,怎样使用这种联系来确定应该留下多少小费?本章的重点就是基于成对出现的样本数据做出一些推论。如上例,我们想要确定账单与小费数额之间是否存在某种联系,如果存在,我们就想用一个公式来描述它,这样就能找出人们留小费时遵循的规则。类似这样的问题还有很多,如:(1)犯罪率与偷窃率;(2)香烟消费与患癌症率;(3)个人收入水平与受教育年限;(4)血压与年龄;(5)父母身高与子女身高;(6)薪金与酒价等等。12/19/202279StatisticsinPractice问题:12/18主要内容8.1相关关系概述
一、变量间的相互关系二、相关关系的种类三、相关分析的内容及其假定8.2线性相关关系的测定
一、相关图表二、相关系数8.3回归分析
一、回归分析概述二、一元线性回归方程的拟合三、回归分析的方差分析四、一元线性回归模型的检验五、对回归分析结果的评价六、多元线性回归分析12/19/202280主要内容8.1相关关系概述12/18/202248.1相关关系概述一、变量间的相互关系(一)函数关系定义:完全确定的(数量)关系。(1)某一(组)变量与另一变量间存在着一一对应的关系;[例]计件工资(y)与产量(x)y=f(x)=10x;
x0=1件,y0=10元;
x1=2件,y1=20元圆的面积S=ΠR2,R=10,S=100Π(2)表述:y=f(x)。(二)相关关系1、定义:不完全确定的关系。(1)某一(组)变量与另一变量间有关系,但并非一一对应;12/19/2022818.1相关关系概述一、变量间的相互关系12/18/202一、变量间的相互关系[例]身高y与体重x;A:x=60kg、y=170m;B:x=60kg、y=1.72m;C:x=60kg、y=1.68m;D:x=60kg、y=1.65m。(2)表述:y=f(x)+。影响身高的因素:体重、遗传、锻炼、睡眠质量……2、成因(1)某些影响因素尚未被认识;(2)虽已认识但无法测量;(3)测量误差。[例]某种水果P元/斤:购买额y=Px购买量
x=2斤
y=2P+=2×1.9+0.23、数量关系的形式(1)单一因果关系;(2)互为因果关系;(3)伴随关系。12/19/202282一、变量间的相互关系[例]身高y与体重x;12/18/202二、相关关系的种类(一)按相关的程度分1、完全相关:函数关系;2、不相关:没有关系;3、不完全相关。(二)按相关的方向分1、正相关:变量的变动方向一致(同增同减);2、负相关:变量的变动方向相反(一增一减)。(三)按相关的形式分1、线性相关;2、非线性相关。12/19/202283二、相关关系的种类(一)按相关的程度分12/18/20227二、相关关系的种类相关程度密切相关程度不密切12/19/202284二、相关关系的种类相关程度密切相关程度不密切12/18/20二、相关关系的种类(四)按影响因素的多少分1、单(简单)相关:只有一个自变量;[例]学习成绩与学习时间;血压与年龄;亩产量与施肥量。2、复(多元)相关:两个或两个以上的自变量;[例]经济增长与人口增长、科技水平、自然资源、管理水平等之间的关系;体重与身高、食欲、睡眠时间之间的关系。3、偏相关:就多个变量测定其中两个变量的相关程度而假定其他变量不变。[例]就y=ax1+bx2+,研究y与x1之间的关系,假定x2不变。12/19/202285二、相关关系的种类(四)按影响因素的多少分12/18/202相关分析要解决的问题变量之间是否存在关系?如果存在关系,它们之间是什么样的关系?变量之间的关系强度如何?样本所反映的变量之间的关系能否代表总体变量之间的关系?为解决这些问题,在进行相关分析时,对总体有以下两个主要假定两个变量之间是线性关系两个变量都是随机变量三、相关分析的内容及其假定12/19/202286相关分析要解决的问题三、相关分析的内容及其假定12/18/28.2线性相关关系的测定[目的]测定变量间的相关方向与密切程度。一、相关图表(一)相关表1、单变量分组相关表:自变量分组且计算次数,因变量只计算平均数。12/19/2022878.2线性相关关系的测定[目的]测定变量间的相关方向与密一、相关图表2、双变量分组相关表:对自变量与因变量均进行分组。注:自变量X轴;因变量Y轴。12/19/202288一、相关图表2、双变量分组相关表:对自变量与因变量均进行分组正相关负相关曲线相关不相关xyxyxyxy又称散点图,用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。一、相关图表[不足]难以精确反映相关的密切程度。(二)相关图12/19/202289正相关负相关曲线相关不相关xyxyxyxy又称散二、相关系数二、(线性)相关系数※(一)积差法计算公式——在线性相关的条件下,用来反映变量之间相关方向及程度的统计指标,用r(ρ)表示。12/19/202290二、相关系数二、(线性)相关系数※——在线性相关的条件下,用二、相关系数[注解1]
协方差Cov(x,y)的作用1、显示x与y之间的相关方向。[正相关]12/19/202291二、相关系数[注解1]协方差Cov(x,y)的作用[正相关二、相关系数[负相关]12/19/202292二、相关系数[负相关]12/18/202216二、相关系数2、显示x与y之间的相关程度。[正相关]12/19/202293二、相关系数2、显示x与y之间的相关程度。[正相关]12/1二、相关系数[负相关]12/19/202294二、相关系数[负相关]12/18/202218二、相关系数[无线性相关]12/19/202295二、相关系数[无线性相关]12/18/202219二、相关系数[归纳]Cov(x,y)的作用第一、显示x与y之间的相关方向第二、显示x与y之间的相关密切程度12/19/202296二、相关系数[归纳]Cov(x,y)的作用第二、显示x与y二、相关系数[注解2]
sx、sy的作用1、使不同变量的协方差标准化直接对比。12/19/202297二、相关系数[注解2]sx、sy的作用12/18/2022二、相关系数2、使12/19/202298二、相关系数2、使12/18/202222二、相关系数(二)积差法相关系数的简捷计算公式12/19/202299二、相关系数(二)积差法相关系数的简捷计算公式12/18/2二、相关系数[r的简捷计算公式]12/19/2022100二、相关系数[r的简捷计算公式]12/18/202224二、相关系数[r的简捷计算公式]12/19/2022101二、相关系数[r的简捷计算公式]12/18/202225二、相关系数(三)线性相关的经验判断准则[例]为了解餐饮业消费数额与小费之间的数额关系,特从若干名消费者中随机抽取10名消费者进行调查,所得数据如下:12/19/2022102二、相关系数(三)线性相关的经验判断准则[例]为了解餐饮业消二、相关系数[例]计算过程。12/19/2022103二、相关系数[例]计算过程。12/18/202227二、相关系数[解]答:账单消费额与小费之间存在着高度的正相关关系。12/19/2022104二、相关系数[解]答:账单消费额与小费之间存在着高度的正相关二、相关系数问:若令账单消费额为y,小费为x,则r的取值是否改变?12/19/2022105二、相关系数问:若令账单消费额为y,小费为x,则r的取二、相关系数(四)样本相关系数的特点1、两变量均为随机变量;2、两变量的地位是平等的rxy=ryx;3、取值范围[-1,1],其接近于1的程度与样本容量n有关。
n小,r1。特例:当n=2时,r=1。[例]样本(x,y)为(6,12.6),(1,3.0),n=2。12/19/2022106二、相关系数(四)样本相关系数的特点12/18/202230二、相关系数(五)关于相关的普遍错误在解释关于相关的结果中会出现以下三种普遍的错误:1、相关就一定意味着因果关系。如:一项研究表明,统计学教授的薪金与每人的啤酒消费量之间有很强的正相关关系,但这两个变量都受经济形势(隐藏变量)的影响。2、相关系数为0,一定不相关。3、基于平均数进行相关分析与基于个体数据进行相关分析,其相关程度不一样。如:一项研究中,关于个人收入和教育的成对数据产生了一个0.4的线性相关系数,但当使用区域平均时,线性相关系数变为0.7。12/19/2022107二、相关系数(五)关于相关的普遍错误12/18/202231二、相关系数(六)线性相关的假设检验(两种方法)1、提出原假设与备择假设2、给定显著性水平α3、选择检验方法,构建检验统计量4、将检验统计量与临界值比较,如检验统计量的绝对值大于临界值,则拒绝原假设,否则,就不拒绝原假设。
t检验法
r检验法:用已经算好的r作为检验统计量,其临界值可以通过查表得到。
12/19/2022108二、相关系数(六)线性相关的假设检验(两种方法)12/18/二、相关系数(六)线性相关的假设检验(两种方法)如袭前例:账单与小费之间的r=0.92,若用t检验法:
r检验法:N=10,r=0.92,rα=0.632,∵r>rα∴拒绝原假设,则认为两者存在显著的线性相关。12/19/2022109二、相关系数(六)线性相关的假设检验(两种方法)12/18/二、相关系数一些人相信他们手掌生命线的长度可以用来预测他们的寿命。M.E.Wilson和L.E.Mather在《美国医学协会学报》上发表的一封信中,通过对尸体的研究对此给予了驳斥。死亡时的年龄与手掌生命线的长度被一起记录下来。作者得出死亡时的年龄与生命线的长度不存在显著相关的结论。手相术失传了,手也就放得下了。看手相:12/19/2022110二、相关系数一些人相信他们手掌生命线的看手相:12/18/8.3
回归分析一、回归分析概述(一)概念1、[回顾]线性相关分析:计算线性相关系数r确定两变量之间的相关方向与密切程度。[不足]无法表明两变量之间的因果关系无法从一个或几个变量(xi)的变化来推测另一个变量(y)的变化情况。10名用餐顾客消费金额与所付小费数据如下:r=0.9212/19/20221118.3回归分析一、回归分析概述12/18/202235一、回归分析概述2、回归分析:通过一个(些)变量的变化解释另一变量的变化y=a+bx、y=a+b1x1+bx2
、y=0+1x1+2x2+…+nxn[回归]英国生物学家F·Galton首次提出。父辈身高子辈身高
xyy=f(x)+人类的平均身高。
[目的]在于通过X的已知或设定值,去估计或预测Y的(总体)均值。变量Y是被预测或被解释的变量,称为因变量(DependentVariable)或被解释变量(ExplainedVariable)变量X是用来预测或解释因变量的变量,称为自变量(IndependentVariable)或解释变量(ExplanatoryVariable)12/19/2022112一、回归分析概述2、回归分析:通过一个(些)变量的变化解释另一、回归分析概述(二)回归分析的种类1、按自变量的多少分(1)简单(一元)回归:自变量只有一个。[例]y=a+bx一元回归方程(2)复(多元)回归:自变量为两个或两个以上。[例]y=0+1x1+2x2+…+nxn2、按回归方程式的特征分(1)线性回归:因变量为自变量的线性函数。[例]y=a+bx一元线性回归方程※(2)非线性回归:因变量为自变量的非线性函数。[例]12/19/2022113一、回归分析概述(二)回归分析的种类12/18/2022371.定义:描述因变量y如何依赖于自变量x和误差项
的方程称为回归模型。2.一元线性回归模型可表示为
y=b0+b1x+ey是x的线性函数(b0+b1x部分)加上误差项线性部分反映了由于x的变化而引起的y的变化误差项
是随机变量反映除了x和y之间的线性关系以外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性0和1称为模型的参数一、回归分析概述(三)一元线性回归模型
Ⅰ.回归模型(regressionmodel)12/19/20221141.定义:描述因变量y如何依赖于自变量x和误差项3.一元线性回归模型的基本假定
(1)误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的x值,y的期望值为E(y)=0+
1x(2)对于所有的x值,ε的方差σ2都相同,即Var(εi)=E(εi2)=2(3)误差项之间不存在自相关关系,其协方差为0,即Cov(εi,εj)=E(εiεj)=0(ij)(4)误差项ε是一个服从正态分布的随机变量,即ε~N(0,σ2)(5)自变量是给定的变量,与随机误差项线性无关。以上这些基本假设是德国数学家高斯最早提出的,故也称为高斯假定或经典假定。一、回归分析概述12/19/20221153.一元线性回归模型的基本假定(1)误差项ε是一个期望值为Ⅱ.回归方程(regressionequation)定义:描述因变量y的期望值如何依赖于自变量x的方程,称为回归方程一元线性回归方程的形式如下
E(y)=0+1x方程的图示是一条直线,也称为直线回归方程0是回归直线在y轴上的截距,是当x=0时,y的期望值1是直线的斜率,表示x每变动一个单位时,y的平均变动值一、回归分析概述12/19/2022116Ⅱ.回归方程(regressionequation)定义Ⅲ.估计的回归方程(estimatedregressionequation)一元线性回归中估计的回归方程为用样本统计量和代替回归方程中的未知参数和,就得到了估计的回归方程总体回归参数和
是未知的,必须利用样本数据去估计其中:是估计的回归直线在y轴上的截距;是直线的斜率,表示x每变动一个单位时,y的平均变动值
一、回归分析概述12/19/2022117Ⅲ.估计的回归方程(estimatedregressio一、回归分析概述(四)回归分析的步骤1、确定自变量和因变量;[例]粮食产量(y)施肥量(x);消费支出(y)国民收入(x);火灾损失额(y)火灾发生地与最近一个消防站之间的距离(x)。2、确定样本回归方程;3、参数估计与模型检验;4、预测或控制。[例]消费与收入的回归方程:y=a+bx=200+0.15x已知x,确定y:估计或预测已知y,确定x:控制12/19/2022118一、回归分析概述(四)回归分析的步骤12/18/202242相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;相关分析中x、y均为随机变量,回归分析中只有y为随机变量;相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。区别:一、回归分析概述(五)回归分析与相关分析比较12/19/2022119相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;理论和方法具有一致性;相关分析是回归分析的基础和前提,无相关就无回归,相关程度越高,回归越好;回归分析是相关分析的继续和深化;相关系数和回归系数方向一致,可以互相推算。联系:一、回归分析概述(五)回归分析与相关分析比较12/19/2022120理论和方法具有一致性;联系:一、回归分析概述(五)回归分析与二、一元线性回归方程的拟合(一)总体回归方程12/19/2022121二、一元线性回归方程的拟合(一)总体回归方程12/18/20二、一元线性回归方程的拟合
Yi/Xi=条件均值+εi
=β0+β1Xi+εi12/19/2022122二、一元线性回归方程的拟合12二、一元线性回归方程的拟合(二)样本回归方程从总体中随机取样,获取一组样本观察值。12/19/2022123二、一元线性回归方程的拟合(二)样本回归方程12/18/20二、一元线性回归方程的拟合[图示]12/19/2022124二、一元线性回归方程的拟合[图示]12/18/202248二、一元线性回归方程的拟合(三)样本回归方程的拟合方法1、绝对值拟合法2、最小二乘法(OLS法)※基本思路:使残差平方和最小的直线“最优直线”。12/19/2022125二、一元线性回归方程的拟合(三)样本回归方程的拟合方法2、最二、一元线性回归方程的拟合总可以设法找到一对的取值,使Q为最小值。12/19/2022126二、一元线性回归方程的拟合总可以设法找到一对二、一元线性回归方程的拟合将上式代入(2)式,得12/19/2022127二、一元线性回归方程的拟合将上式代入(2)式,得12/18/二、一元线性回归方程的拟合[计算公式]12/19/2022128二、一元线性回归方程的拟合[计算公式]12/18/20225二、一元线性回归方程的拟合相关系数r与回归系数之间的关系(1)两者是同向的;(2)r反映变量的相关方向与密切程度;
反映自变量每变动一个单位时因变量的平均变动量。12/19/2022129二、一元线性回归方程的拟合相关系数r与回归系数之间的关系1.线性特征
是的线性函数
2.无偏特性
3.最小方差特性
在所有的线性无偏估计中,OLS估计具有最小方差
结论:在经典假定条件下,OLS估计量是最佳线性无偏估计量(bestlinearunbiasedestimator,BLUE)。(四)OLS估计量的性质(高斯—马尔柯夫定理)二、一元线性回归方程的拟合12/19/20221301.线性特征是的线性函数(四)二、一元线性回归方程的拟合[例]为研究用餐消费与小费支出的关系,随机抽取了10位用餐顾客,得样本数据如下:请拟合小费依消费的直线回归方程样本的相关系数r=0.9212/19/2022131二、一元线性回归方程的拟合[例]为研究用餐消费与小费支出的关二、一元线性回归方程的拟合[例]为研究用餐消费与小费支出的关系,随机抽取了10位用餐顾客,得样本数据如下(用Excel软件生成的折线图)请拟合样本回归方程12/19/2022132二、一元线性回归方程的拟合[例]为研究用餐消费与小费支出的关二、一元线性回归方程的拟合解:通过散点图可近似看出小费与用餐消费之间呈线性关系,故设两者之间关系为经济意义:餐费每增加100元,小费支出平均增加16.55元。12/19/2022133二、一元线性回归方程的拟合解:通过散点图可近似看出小费与用餐三、回归方程的方差分析(一)总离差平方和的分解12/19/2022134三、回归方程的方差分析(一)总离差平方和的分解12/18/2三、回归方程的方差分析由:12/19/2022135三、回归方程的方差分析由:12/18/202259三、回归方程的方差分析[离差分析]12/19/2022136三、回归方程的方差分析[离差分析]12/18/202260残差平方和回归离差平方和总离差平方和12/19/2022137残差平方和回归离差平方和总离差平方和12/18/202261三、回归方程的方差分析(二)判定系数SSR占SST的比例,用表示;用来衡量回归方程对y的解释程度。12/19/2022138三、回归方程的方差分析(二)判定系数SSR占SST的比例,用三、回归方程的方差分析[判定系数的作用]总离差平方和SST回归平方和SSR残差平方和SSE来自样本回归线来自残差回归线上的点与样本均值离差的平方和判定系数(coefficientofdetermination)的取值范围:[0,1],越接近1,说明实际观测点离样本线越近,拟合优度越高。在给定样本中,SST不变,如果实际观测点离样本回归线越近,则SSR在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年垃圾分类设备技术支持合同
- 2026年餐饮门店收益分成合同
- 管道维修合同2026年违约责任协议
- 山岭承包合同
- 现代药物制剂技术发展与应用
- 《信息技术基础(上册)》课件 模块二课题三
- 妈妈培训班课件
- 天津企业负责人安全培训课件
- 安全培训讲座简讯课件
- 华莱士食品安全培训课件
- 浅谈现代步行街的改造
- 2026年包头轻工职业技术学院单招职业适应性测试题库附答案
- 2025至2030中国应急行业市场深度分析及发展趋势与行业项目调研及市场前景预测评估报告
- 3D技术介绍及应用
- 基于多因素分析的新生儿重症监护室患儿用药系统风险评价模型构建与实证研究
- 2025新能源光伏、风电发电工程施工质量验收规程
- JJF 2287-2025 测量水池声学特性校准规范(相关函数法)
- 2025年江苏省职业院校技能大赛中职组(安全保卫)考试题库(含答案)
- 财务岗位离职交接清单模版
- 光伏电站试运行与交付标准指南
- 《车辆越野能力分级与评价体系》征求意见稿
评论
0/150
提交评论