统计学原理:第7章 相关分析_第1页
统计学原理:第7章 相关分析_第2页
统计学原理:第7章 相关分析_第3页
统计学原理:第7章 相关分析_第4页
统计学原理:第7章 相关分析_第5页
已阅读5页,还剩65页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

思考:1.你从图中发现了什么问题?2.你认为父子身高有联系吗?有多大的关系?3.能根据其中一人身高去推测另一个人的身高吗?思考

第七章相关分析1.了解相关关系的涵义与种类,掌握相关分析的基本方法,相关系数含义和计算,相关关系的判定原则;2.掌握一元线性回归模型建立的条件、回归方程参数求解方法,回归模型的评价依据;回归方程与回归系数的显著性检验;理解相关与回归分析的联系与特点;初步认识回归分析在预测中的应用。3.了解多元线性回归模型、回归方程与估计的回归方程和可化为线性回归的曲线回归教学内容与要求:现象之间存在的确定性的数量关系函数关系

如:正方形面积与边长的关系:7.1相关分析的意义和任务一、相关关系的概念2aS=

xy是一一对应的确定关系设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,

y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量各观测点落在一条线上现象之间存在的不确定性的数量关系

如:同卵双胞胎间的身高、收入和受教育程度、身高和体重、婴儿月龄与身高相关关系联系:函数关系如果存在测量误差,则表现为相关关系,相关关系通常使用函数关系形式来表现。变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定当变量x取某个值时,变量y的取值可能有几个各观测点分布在直线周围

xy因素多少表现形态相关性质

相关程度单相关曲线相关负相关不相关复相关直线相关正相关完全相关不完全相关二、相关关系的种类

不相关

负线性相关

正线性相关

非线性相关

完全负线性相关完全正线性相关

散点图(相关关系图示)1确定现象之间有无关系及表现形式2确定相关关系的密切程度3选择合适的数学模型4测定变量估计值的可靠程度5对相关系数作显著性检验三、相关分析的主要内容温度(度)28282929293031313132销售量(箱)808584889598105102110116一、相关图与相关表7.2简单线性相关分析1单变量分组图表:只根据一个变量分组分组相关图和相关表使用年限机床数(台)平均维修费用()224703152042690527006378781840911080合计12__2双变量分组图表:自变量和因变量都进行分组年维修费用(元)机床使用年限(年)合计23456891000—110011900—100011800—900112700—800123600—700112500—600112400—50011合计212231112二、相关关系的测度与应用1相关系数对变量之间关系密切程度的度量对两个变量之间线性相关程度的度量称为简单相关系数若相关系数是根据总体全部数据计算的,称为总体相关系数,记为

若是根据样本数据计算的,则称为样本相关系数,记为r2样本相关系数r计算方法:积差法简捷公式温度x(度)28282929293031313132销售量y(箱)808584889598105102110116例:某商场出售某种商品,资料如下,计算r3相关系数r特点:r没有单位,其大小不受下列因素的影响:①互换两个变量的位置②某一变量的所有值都增加同一数值③某一变量的所有值都乘以同一正数4相关系数r的取值及意义:①r∈[-1,+1]②

当r<0时,负相关当r>0时,正相关当r=0时,无相关0.8≤|r|<1:高度相关0.5≤|r|<0.8:显著相关0.3≤|r|<0.5:低度相关0≤|r|<0.3:微相关图示相关系数取值及其意义-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加相关系数的显著性检验1检验两个变量之间是否存在线性相关关系2等价于对回归系数b1的检验3采用t检验4检验的步骤为提出假设:H0:ρ=0;H1:ρ

0计算检验的统计量:确定显著性水平α,并作出决策:

若|t|>t

α/2,拒绝H0若|t|<t

α/2,拒绝H0

相关系数显著性检验表若|r|大于表上的α=5%相应的值,小于表上α=1%相应的值,称变量x与y之间有显著的线性关系若|r|大于表上α=1%相应的值,称变量x与y之间有十分显著的线性关系若|r|小于表上α=5%相应的值,称变量x与y之间没有明显的线性关系

我国人均国民收入与人均消费金额数据单位:元年份人均国民收入人均消费金额年份人均国民收入人均消费金额2001200220032004200520062007393.8419.14460.86544.11668.29737.73859.972492672893294064515132008200920102011201220131068.81169.21250.71429.51725.92099.56436907138039471148例:在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到2001~2013年的样本数据(xi

,yi),i=1,2,…,13,数据见下表,计算相关系数并检验。解:根据样本相关系数的计算公式有人均国民收入与人均消费金额之间的相关系数为0.9987对前例计算的相关系数进行显著性检(α=0.05)1提出假设:H0:ρ=0;H1:ρ

02计算检验的统计量3根据显著性水平α=0.05,查t分布表得t

α/2(n-2)=2.201由于tα/2=64.9809>tα/2(13-2)=2.201,拒绝H0,人均消费金额与人均国民收入之间的相关关系显著。4根据前例的r=0.9987

5%(n-2)=0.553,表明人均消费金额与人均国民收入之间有十分显著的线性相关关系确定变量间的定量关系式预测和控制

对关系式作各种统计检验判断各变量的影响显著性一、回归分析的概念对具有相关关系的变量之间数量变化的一般关系进行测定,确定一个数学表达式以进行估计或预测的统计方法。7.3一元线性回归1回归分析2回归分析的内容相关分析与回归分析的比较联系相关分析依靠回归分析表明现象间数量关系的具体形式;回归分析要以相关分析为基础。区别◆分析内容不同相关分析只研究变量间相关的方向和程度。不必确定因变量和自变量;

所有变量都可以是随机变量;

改变变量的位置不影响相关分析的结果回归分析研究变量间相关的具体形式必须先确定因变量与自变量;一般只有因变量是随机变量,自变量是非随机变量;交换变量的位置,回归方程不同,只能根据自变量推算因变量。二、回归模型的类型回答“变量之间是什么样的关系?”方程中运用1个数字的因变量(响应变量)被预测的变量1个或多个数字的或分类的自变量(解释变量)用于预测的变量3. 主要用于预测和估计一个自变量两个及两个以上自变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归三、回归模型的作用四、一元线性回归模型概念1当只涉及一个自变量时称为一元回归,若因变量y与自变量x之间为线性关系时称为一元线性回归2对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系3描述因变量y如何依赖于自变量x和误差项

的方程称为回归模型,对于只涉及一个自变量的简单线性回归模型可表示为

y=β0+β1x+ε模型中,y是x的线性函数(部分)加上误差项线性部分反映了由于x的变化而引起的y的变化误差项ε是随机变量反映了除x和y之间的线性关系之外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性β0和β1

称为模型的参数五、一元线性回归模型基本假定1误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的x值,y的期望值为E(y)=β0+β1x2对于所有的x值,ε的方差σ2

都相同3误差项ε是一个服从正态分布随机变量,且相互独立。即ε~N(0,σ2)独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关描述y的平均值或期望值如何依赖于x的方程称为回归方程E(y)=β0+β1x方程的图示是一条直线,因此也称为直线回归方程β0是回归直线在y轴上的截距,是当x=0时y的期望值β1是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值1估计(经验)的回归方程总体回归参数β0和β1是未知的,必需利用样本数据去估计用样本统计量和代替回归方程中的未知参数β0和β1,就得到了估计的回归方程简单线性回归中估计的回归方程为六、简单线性回归方程的形式如下最小二乘法概念要点1使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法。即

最小

2用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小xy(xn,yn)(x1,y1)

(x2,y2)(xi,yi)}ei=yi-yi^2直线回归方程的确定:基本形式:yc=a+bx22)x(n1xyxn1xybxbya--=-=ååååå根据最小二乘法的要求,可得求解β0和β1的标准方程如下88036.4合计1608.081357.271326.161155.051103.84803.13862.02621.21生产费用万元y产品产量千吨x序号442.42748804544.6207.5430.1401154.51128064.0084.4561144.1997251.844130805.237.210.6561115.8157525.0093.5089100.3341814.11127.6991.32489.6179.032177.111724.0022.944166.7974.41.44(y-yc)2ycxyx2例题:某企业连续8年产量和生产费用资料如下,求估计方程。【例】根据下表的数据,配合人均消费金额对人均国民收入的回归方程

我国人均国民收入与人均消费金额数据单位:元年份人均国民收入人均消费金额年份人均国民收入人均消费金额2001200220032004200520062007393.8419.14460.86544.11668.29737.73859.972492672893294064515132008200920102011201220131068.81169.21250.71429.51725.92099.56436907138039471148人均消费金额对人均国民收入的回归方程为y=54.22286+0.52638xExcel的输出结果7.4回归方程和回归系数显著性检验一、离差平方和的分解变差:y取值的这种波动。变差来源于两个方面(x的取值不同造成的;除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示。xyy{}}

离差分解图1从图上看有SST=SSR+SSE总变差平方和(SST){回归平方和(SSR){残差平方和(SSE){2两端平方后求和有总平方和(SST):反映因变量的n个观察值与其均值的总离差回归平方和(SSR):反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和残差平方和(SSE):反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和二、样本决定系数(判定系数r2)回归平方和占总离差平方和的比例反映回归直线的拟合程度取值范围在[0,1]之间

r21,说明回归方程拟合的越好;r20,说明回归方程拟合的越差判定系数等于相关系数的平方,即r2=(r)2三、估计标准误差的概念实际观察值与回归估计值离差平方和的均方根,反映实际观察值在回归直线周围的分散状况,从另一个角度说明了回归直线的拟合程度,是判断回归方程代表性的大小的统计分析指标。注:上例的计算结果为14.949678总离差平方和剩余离差平方和回归离差平方和说明因变量的总离差平方和可以用回归模型来解释的比例。21ryyx-=ss2221ryyx+=ss1判定系数和估计标准误差的关系2r与s应用时注意r值越大,syx越小。即相关程度越密切,估计标准误差越小r值越小,syx越大。即相关程度越不密切,估计标准误差越大。实际中,一般不常用这种方法计算r,因为,(1)需要先求出回归直线方程,计算出估计标准误差,才能求得r。不符合一般程序。(2)以这种方法计算的r难以判断是正相关还是负相关。例:某蔬菜公司进行贮存试验,观察贮存时间对维生素的影响。将500克放在恒温的容器内,每隔一小时测量维生素C的含量,得出如下数据:(1)计算贮存时间与维生素含量的相关系数(2)计算维生素含量的理论值

时间(x)012345维生素含量201817151413理论含量值19.6718.2616.8715.4614.0712.67估计误差0.33-0.260.13-0.46-0.070.33解:(2)建立贮存时间与维生素含量的回归方程(1)(3)回归估计标准误差:9852.02=r四、回归方程的显著性检验(线性关系的检验)检验自变量和因变量之间的线性关系是否显著具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著(如果是显著的,两个变量之间存在线性关系,如果不显著,两个变量之间不存在线性关系)1提出假设H0:线性关系不显著2计算检验统计量F3确定显著性水平α,并根据分子自由度1和分母自由度n-2找出临界值F

α4作出决策:若F

F

α,拒绝H0;若F<Fα,接受H0(续前例)Excel输出的方差分析表五、回归系数的显著性检验检验x与y之间是否具有线性关系,或者说,检验自变量x对因变量y的影响是否显著理论基础是回归系数的抽样分布在一元线性回归中,等价于回归方程的显著性检验要点样本统计量的分布是根据最小二乘法求出的样本统计量,它有自己的分布2它的分布具有如下性质分布形式:正态分布数学期望:标准差:————

由于

无未知,需用其估计量Sy来代替得到的估计的标准差

的抽样分布步骤1提出假设H0:β1=0(没有线性关系)H1:β1

0(有线性关系)2计算检验的统计量3确定显著性水平α,并进行决策

|t|>t

α/2,拒绝H0;|t|<t

α/2,接受H0人均消费金额对人均国民收入的回归方程为对上例的回归系数=0.52638进行显著性检验(α=0.05)1提出假设H0:β1=0人均收入与人均消费之间无线性关系H1:β1

0人均收入与人均消费之间有线性关系2计算检验的统计量3确定显著性水平α,并进行决策

t=65.0758>t

α/2=2.201拒绝H0,表明人均收入与人均消费之间有线性关系y=54.22286+0.52638xExcel输出的结果7.5利用回归方程进行预测和应用一、估计或预测的类型对于自变量x的一个给定值x0

,根据回归方程得到因变量y的一个估计值,在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同。分为y的平均值的点估计y的个别值的点估计利用估计的回归方程,对于自变量x的一个给定值x0

,求出因变量y的平均值或个别值的一个估计值E(y0),就是平均值或个别值的点估计。上例中要估计人均国民收入为2000元时,所有年份人均消费金额的的平均值。如果只是想知道1990年人均国民收入为1250.7元时的人均消费金额是多少,则属于个别值的点估计。1点估计对于自变量x的一个给定值x0,根据回归方程得到因变量y的一个估计区间,能给出估计的精度。区间估计有两种类型y的平均值或个别值的置信或预测区间估计:利用估计的回归方程,对于自变量x的一个给定值x0

,求出因变量y的平均值E(y0)或个别值y的估计区间,E(y0)在1-α置信水平下的置信区间为2区间估计式中:Sy为估计标准误差y的平均值的置信区间y的个别值的预测区间例:根据前例,求出人均国民收入为1250.7元时,人均消费金额95%的置信区间和人均消费金额的95%的预测区间解:根据前面的计算结果=712.57,Sy=14.95,tα/2(13-2)=2.201,n=13置信区间为人均消费金额95%的置信区间为702.305元~722.835元之间(712.57±10.265)

预测区间为人均消费金额95%的预测区间为678.101元~747.039元之间(712.57±34.469)二、影响区间宽度的因素1置信水平(1-α):区间宽度随置信水平的增大而增大2数据的离散程度(s):区间宽度随离散程度的增大而增大3样本容量:区间宽度随样本容量的增大而减小4用于预测的xp与x̅的差异程度:区间宽度随xp与x̅的差异程度的增大而增大xpyx

x预测上限置信上限预测下限置信下限置信区间、预测区间、回归方程7.6多元线性回归一、

多元线性回归模型1概念要点一个因变量与两个及两个以上自变量之间的回归描述因变量y如何依赖于自变量x1

,x2

,…,

xp

和误差项

的方程称为多元线性回归模型涉及p个自变量的多元线性回归模型可表示为

b0

,b1,b2

,,bp是参数

是被称为误差项的随机变量

y是x1,,x2

,xp

的线性函数加上误差项

说明了包含在y里面但不能被p个自变量的线性关系所解释的变异性

对于n组实际观察数据(yi;xi1,,xi2

,xip),(i=1,2,…,n),多元线性回归模型可表示为自变量x1,x2,…,xp是确定性变量,不是随机变量随机误差项ε的期望值为0,且方差σ2都相同误差项ε是一个服从正态分布的随机变量,即ε~N(0,σ2),且相互独立2基本假定描述y的平均值或期望值如何依赖于x1,x1

,…,xp的方程称为多元线性回归方程多元线性回归方程的形式为

E(y)=

0+

1x1

+

2x2

+…+

pxp

b1,b2,,bp称为偏回归系数

bi

表示假定其他变量不变,当xi

每变动一个单位时,y的平均变动值总体回归参数是未知的,利用样本数据去估计,用样本统计量代替回归方程中的未知参数

即得到估计的回归方程3多元线性回归方程和估计方程

是估计值是y

的估计值二元线性回归模型(观察到的y)回归面

0

ix1yx2(x1,x2)}多元线性回归方方程的直观解释根据最小二乘法的要求,可得求解各回归参数的标准方程如下使因变量的观察值与估计值之间的离差平方和达到最小来求得

。即二、参数的最小二乘法(要点)1多重样本决定系数(多重判定系数R2

)三、回归方程的显著性检验回归平方和占总离差平方和的比例反映回归直线的拟合程度取值范围在[0,1]之间

R21,说明回归方程拟合的越好;R20,说明回归方程拟合的越差等于多重相关系数的平方,即R2=(R)2由于增加自变量将影响到因变量中被估计的回归方程所解释的变异性的数量,为避免高估这一影响,需要用自变量的数目去修正R2的值用n表示观察值的数目,p表示自变量的数目,修正的多元判定系数的计算公式可表示为2修正的多重样本决定系数(修正的多重判定系数R2)检验因变量与所有的自变量和之间的是否存在一个显著的线性关系,也被称为总体的显著性检验检验方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,因变量与自变量之间存在线性关系如果不显著,因变量与自变量之间不存在线性关系3回归方程的显著性检验(线性关系的检验)提出假设H0:

1

2

p=0线性关系不显著H1:

1,

2,,

p至少有一个不等于02.计算检验统计量F3.确定显著性水平和分子自由度p、分母自由度n-p-1找出临界值F

4.作出决策:若F

F

,拒绝H0;若F<F

,接受H04回归方程的显著性检验(步骤)如果F检验已经表明了回归模型总体上是显著的,那么回归系数的检验就是用来确定每一个单个的自变量xi

对因变量y的影响是否显著对每一个自变量都要单独进行检验应用t检验在多元线性回归中,回归方程的显著性检验不再等价于回归系数的显著性检验四、回归系数的显著性检验1要点提出假设H0:bi=0(自变量xi与

因变量y没有线性关系)H1:bi

0(自变量xi与

因变量y有线性关系)计算检验的统计量t

确定显著性水平,并进行决策

t

t

,拒绝H0;t<t

,接受H02回归系数的显著性检验步骤一个二元线性回归的例子销售额、人口数和年人均收入数据地区编号销售额(万元)y人口数(万人)x1年人均收入(元)x21234567891033.335.527.630.431.953.135.629.035.134.532.429.126.331.229.240.729.823.028.226.91250165014501310131015801490152016201570【例】一家百货公司在10个地区设有经销分公司。公司认为商品销售额与该地区的人口数和年人均收入有关,并希望建立它们之间的数量关系式,以预

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论