经济应用统计学-第七章 相关与回归分析_第1页
经济应用统计学-第七章 相关与回归分析_第2页
经济应用统计学-第七章 相关与回归分析_第3页
经济应用统计学-第七章 相关与回归分析_第4页
经济应用统计学-第七章 相关与回归分析_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章相关与回归分析,学习目标,能够正确判断客观现象之间存在的关系及其密切程度要正确掌握回归分析的概念及回归模型的确定方法,主要内容,相关分析的一般问题定性数据的相关分析定量数据的相关分析一元线性回归分析多元线性回归分析曲线回归分析,第一节相关分析的一般问题,河北大学统计学系,第一节相关分析的一般问题,相关分析的概念,相关分析的主要内容,相关分析的种类和特点,相关分析的方法选择,一、相关分析的概念,相关分析是研究一个变量与另一个变量或另一组变量之间相互关系密切程度和相关方向的一种统计分析方法.,y,x,现象间存在普遍的联系与相互影响,事物间的这种依存关系可以用数量关系表现出来.有两种类型:,相关关系(非确定性依存关系),函数关系(确定性依存关系),1、函数关系,变量间存在完全对应的相互依存关系.当自变量的值确定时,因变量就有一个完全确定的值和它相对应.,销售额与销售量:销售额=销售量单价,确定性关系函数关系,2、相关关系,变量间客观存在的,在数量变化上受随机因素影响的、不严格、不确定的相互依存关系。,家庭收入与恩格尔系数:家庭收入高,则恩格尔系数低。,非确定性关系,自变量,因变量,有时现象之间自变量和因变量的确定要根据研究的目的,在具有相关关系的现象或变量中,作为变化根据的变量,产生相应变化的变量,二、相关分析的主要内容,确定现象间有无依存关系,确定相关关系的表现形式是什么,判定相关关系的密切程度与方向,如有,曲线还是直线,所谓相关分析,是指对变量之间的相关关系的表现形式、密切程度和变化方向进行分析和研究。,三、相关关系的种类,确定的因果的关系分不清因果的依存关系,1、依存关系特点的不同,如:施肥量(自变量)与粮食产量(因变量),如:销售量与销售价格,2.依相关关系的密切程度,即函数关系,我们研究的主要是这种关系,3.依相关关系的方向,自变量与因变量变化方向一致,自变量与因变量变化方向相反,4.依相关关系的表现形式,5.依涉及变量的多少,一个自变量与一个因变量如:学习时间与成绩,多个自变量与一个因变量如:粮食产量与施肥量、降水量,四、相关分析的特点,相关关系研究的两个变量是对等的两个变量之间只能计算出一个反映相互关系密切程度的相关系数,改变自变量与因变量的位置,不改变数值相关分析中两个变量均为随机变量,对于简单直线相关,五、相关分析的方法选择,等级相关系数分析法,列联表分析法,第二节定性数据的相关分析,河北大学统计学系,交互列表分析法,确定项目(变量名称)如:态度确定类目(变量表现)如:喜欢、一般、不喜欢排列形成交互列表如:调查各地240人对某电视剧的态度,结果为3*3交互列表,编制交互列表,交互列表分析法,行边缘频数,列边缘频数,条件频数,不能直接对比分析,交互列表分析法,行频率Hi:各行条件频数比上行边缘频数列频率Lj:各列条件频数比上列边缘频数总频率Pij:各条件频数比上总合计数,计算三种频率,交互列表分析法,行频率分布表,交互列表分析法,行频率分布表,交互列表分析法,计算标准行频率分布表,行频率除以相应的样本量,对交互列表中的变量关系进行检验,运用统计量进行检验,以证明是否该样本所体现的变量关系在总体中也存在。,检验,每个结点上的观察频数,每个结点上对应的期望频率,行边缘频数,列边缘频数,样本量,检验,行边缘频数,列边缘频数,对上例计算期望频数,建立假设,H0:变量不相关(态度与城市独立)H1:变量相关,计算统计量,查分布表,查表的临界值,若显著水平为0.05,查表得,比较决策,则拒绝原假设,否则接受原假设18.749.448,拒绝原假设,认为相关,检验步骤,检验,检验虽然可以判断变量间是否相关,但无法判断相关程度的强弱。测定定性变量之间相关程度用相关系数,有系数、系数、系数、系数。,品质相关系数,品质相关系数系数,主要用于描述22交互列表中各定类变量间的相关程度,对于rc交互列表(r或c大于2),则,注:正负号没有含义,品质相关系数系数,主要用于描述大于22交互列表中各定类变量间的相关程度,局限性:大小受行数与列数的影响,且随行数和列数的增加而增大,因此只有当两个交互列表的行数与列数相同时,才能直接比较。,品质相关系数系数,品质相关系数系数,等级相关系数,用来描述两个定序变量或等级序列之间的相关程度。最常用的为斯皮尔曼等级相关系数:,注:正负号有含义,计算过程:1、对所取得的相关数据资料进行排序2、计算斯皮尔曼等级相关系数3、对计算结果进行显著性检验,等级相关系数,第三节定量数据的相关分析,河北大学统计学系,一、相关表,表现现象之间相关关系的一种统计表。一般以x为自变量,y为因变量,在表格中一一对应地排列。可以初步反映相关关系的形式、密切程度和相关方向。可分为简单相关表和分组相关表两种。,1、简单相关表,生产性固定资产与工业总产值的相关表,企业编号生产性固定资产总值x工业总产值y,12345678910,4467789101011,16212626313130373841,2、分组相关表单变量分组表,按自变量分组,计算各组中的次数与因变量的组平均数。,单变量分组表,工人看管织机台数x工人数f时劳动生产率y,5-77-99-1111-1313-1515-1717-19,9132029313240,15182326333842,只按自变量分组,未按因变量分组,对自变量、因变量都进行分组,交叉列表,并列出两种变量的共同次数。又称棋盘式相关表。,2、分组相关表双变量分组表,分组相关表双变量分组表,木材运量x,1-1111-2121-3131-4141-51合计,运材成本y,16-2111-161-11合计,257,1337,437,112,11,313824,二、相关图,又称散点图,横轴为自变量,纵轴为因变量将对应的变量值用坐标点描绘出来。可以判断两变量之间有无相关关系,方向和程度如何。,1、线性强正相关,x,y,2、线性弱正相关,x,y,3、线性强负相关,x,y,4、线性弱负相关,x,y,5、非线性相关(曲线相关),x,y,6、不相关,x,y,三、相关系数,反映两变量之间直线相关关系密切程度的统计分析指标。,相关系数由何而来,协方差(covariance):两个变量与其均值离差乘积的平均数,是相关关系的一种度量。,总体协方差:,对协方差的理解,协方差为大的正值时,表示强的正线性相关关系。,对协方差的理解,协方差接近于零时,表示很小或没有线性相关关系。,对协方差的理解,协方差为大的负值时,表示强的负线性相关关系。,协方差为大的正值时,表示强的正线性相关关系。,协方差接近于零时,表示很小或没有线性相关关系。,协方差为大的负值时,表示强的负线性相关关系。,似乎是这样,cm,kg,mm,kg,大于,基本结论:协方差受计量单位影响,从而不能真实反映相关的程度。,cm,kg,mm,kg,cm,mm,kg,kg,可比,相关系数的计算,相关系数:协方差与自变量、因变量标准差乘积的对比值。,其值在-和之间,正值为正相关,负值为负相关。其绝对值接近为不相关其绝对值在.和.左右为低度相关其绝对值在.左右为中度相关其绝对值在.以上为高度相关,积差法,但此公式需要先有各变量的平均值,当均值计算中有保留时,计算结果将会有误差。影响准确性。,约掉共因子/n后,进一步推导,同理,积差法,简捷法,例题,人均销售额x利润额yx2y2xy,6581476337合计50,12.610.418.53.08.116.312.36.26.616.8110.8,36256411649369949294,158.76108.06342.259.0065.61265.69151.2938.4443.56282.241465.00,75.052.0148.03.032.4114.173.818.619.8117.6654.9,对分组资料计算加权相关系数,简捷法,积差法,相关系数的显著性检验,第四节一元线性回归分析,河北大学统计学系,一、一元线性回归分析的概念和特点,概念:把两个或两个以上变量之间的相关关系加以模型化,求出回归方程,并据以进行估计推算,这种方法在统计学中成为回归分析。,回归分析分类,按自变量个数分类,一元回归,多元回归,按方程式特征分类,线性回归,非线性回归,一元线性回归,分类,特点,两变量之间不是对等的关系,必须根据研究目的和研究对象的性质,正确确定出自变量和因变量相关分析中的相关系数是个抽象的数,反映变量间相互依存关系的密切程度;回归分析中的回归方程,是利用自变量的给定值来推算因变量值的数学模型,它反映变量之间具体的变动关系。,改变自变量与因变量的地位,会产生不同的回归方程。直线回归方程中的回归系数也有正负号,正号表示两变量之间的变动方向相同,为正相关关系;为负号表示两变量之间的变动方向相反,为负相关关系。回归分析中的自变量是给定的数值,不是随机的,而因变量是随机的。,特点,二、一元线性回归模型的建立,若两变量存在线性关系(散点图近似一条直线),可设估计模型为:,一元线性回归线的可能形态,截距,斜率,a、b为待定参数,其中b称为回归系数,偏差,a、b值的估计直接关系到模型的回归效果,偏差,最小平方法(最小二乘法),在偏差平方和最小的约束条件下确定待定参数的方法称为最小平方法(最小二乘法)即,何谓回归模型的效果好?即回归模型求出的估计值与实际值的偏差平方和最小。,为使上式最小,对其先求偏导并令其为0,三、一元线性回归模型的检验,利用统计学中的抽样理论来验证回归方程的可靠性。分为拟合程度检验和显著性检验两种。,拟合程度检验,拟合程度:样本观测值聚集在样本回归线周围的紧密程度。说明回归直线的代表性,一元线性回归模型的检验,常用指标:判定系数、估计标准误差,一元线性回归模型的检验,在讲述拟合程度检验前,先来认识一下:总变差(总离差平方和)回归变差(回归平方和)剩余变差(残差平方和),拟合程度检验,总离差平方和,回归平方和,剩余平方和,一元线性回归模型的检验,判定系数,拟合程度检验,当回归平方和与总离差平方和相等时,为完全的拟合,残差平方和为0,判定系数为1。,判定系数的意义,当剩余平方和与总离差平方和相等时,为最差的拟合,残差平方和最大,判定系数为0。,判定系数的意义,一元线性回归模型的检验,值介于和之间。越接近,表明回归模型较充分的利用了解释变量的信息,拟和程度好。接近,说明拟和程度很差。,判定系数的意义,证明:,一元线性回归模型的检验,估计标准误差,估计标准误差越小越好,显著性检验,检验内容对相关系数的显著性检验,通过t检验实现。对各回归系数的显著性检验,一般使用t检验。对回归方程整体的显著性检验,一般通过F检验实现。,一元线性回归模型的检验,检验意义由于样本的相应统计量(相关系数、判定系数、回归系数等)具有随机性,因此,我们需要对其进行显著性检验,以验证是否可以据此推断总体的参数。,一元线性回归模型的检验,显著性检验,一元线性回归模型的检验,检验目的总体是否如同r?,显著性检验:相关系数的检验(t检验),提出假设;确定检验统计量;给定显著性水平,确定临界值;确定原假设的拒绝规则;计算检验统计量并做出决策。,检验程序,一元线性回归模型的检验,显著性检验:相关系数的检验(t检验),检验统计量落入拒绝域中,故拒绝原假设,接受备择假设。即可以认为明显地不等于零,相关关系是显著的。,回归分析中我们最关心的是:X与Y是否有真正的相关关系。即:,一元线性回归模型的检验,显著性检验:回归系数的检验(t检验),一元线性回归模型的检验,提出假设;确定检验统计量;给定显著性水平,确定临界值;确定原假设的拒绝规则;接受域:计算检验统计量并做出决策。,显著性检验:回归系数的检验(t检验),检验程序,检验统计量落入拒绝域中,故拒绝原假设,接受备择假设。即可以认为b明显地不等于零,X与Y是显著的。,一元线性回归模型的检验,检验所建立的回归方程是否在整体上显著,也就是进一步检验x与y之间是否存在线性关系,显著性检验:回归方程的检验(F检验),提出假设;确定检验统计量;给定显著性水平,确定临界值;确定原假设的拒绝规则;计算检验统计量并做出决策。,一元线性回归模型的检验,检验程序,显著性检验:回归方程的检验(F检验),故拒绝原假设,接受备择假设,即认为回归方程是显著的。,第五节多元线性回归分析,河北大学统计学系,多元线性回归分析的概念和特点,研究一个因变量与两个或两个以上自变量之间相互关系的理论和方法,称为多元回归或复回归。,回归分析分类,按自变量个数分类,一元回归简单回归,多元回归复回归,按方程式特征分类,线性回归,非线性回归,多元线性回归,多元线性回归模型的建立,多元线性性回归模型的一般式为:,多元线性回归模型的检验,为了保证回归分析的可靠性,在建立了多元线性回归模型以后,也要进行拟合程度和显著性检验。,多元线性回归模型的检验,拟合程度检验,拟合程度样本观测值聚集在样本回归线周围的紧密程度。说明回归直线的代表性常用指标:判定系数、估计标准误差,判定系数,多元判定系数:R2,指的是因变量中的变异性可由建立的多元回归方程解释的程度,多元判定系数越大,说明模型的拟合程度越好。,估计标准误差,估计标准误差越小,表明回归模型的拟合程度越高。,显著性检验,检验内容对相关系数的显著性检验,通过t检验实现。对各回归系数的显著性检验,一般使用t检验。对回归方程整体的显著性检验,一般通过F检验实现。,多元线性回归模型的检验,t检验,t检验,目的在于检验回归模型中的回归系数的显著性。,t检验的步骤,对于任意参数,提出假设:,计算回归系数的检验统计量;,决策,根据给定的显著性水平和自由度,查表得相应的临界值,F检验,检验所建立的多元线性回归模型在整体上是否显著。,F检验的步骤,第一步:提出假设:第二步:计算F统计量:第三步:根据给定的显著性水平,查分子自由度为k,分母自由度为n-k-1的F分布表,得F临界值。第四步,决策:若FF临界值,则拒绝原假设,表明所建立的多元线性回归模型有显著意义;若FF

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论