统计学第10讲相关与回归分析(白)含检验..ppt_第1页
统计学第10讲相关与回归分析(白)含检验..ppt_第2页
统计学第10讲相关与回归分析(白)含检验..ppt_第3页
统计学第10讲相关与回归分析(白)含检验..ppt_第4页
统计学第10讲相关与回归分析(白)含检验..ppt_第5页
免费预览已结束,剩余72页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第八章相关与回归分析,8.1相关与回归的基本概念,8.2简单线性相关与回归分析,8.3多元线性相关与回归分析(精选讲座),8.4非线性相关与回归分析,学习目标,1。变量间相关关系和相关系数的计算。一般回归函数和样本回归函数。线性回归的基本假设。简单线性回归参数的估计和检验。常用的可以转换成线性回归的非线性函数。非线性相关指数,学习重点,相关系数的计算相关分析和回归分析之间的关系和差异全局回归函数和样本回归函数之间线性回归的基本假设简单线性回归参数估计和检验非线性相关指数,学习难点,全局回归函数和样本回归函数之间的关系和差异线性回归的基本假设简单线性回归参数的估计和检验常用的可以转化为线性回归的

2、非线性函数,教学时数, 6小时,10.1相关和回归的基本概念,第一,变量之间的相互关系,第二,相关的类型,第三,相关分析和回归分析,第一,变量之间的相互关系,确定性函数关系Y=f (X)不确定性统计关系相关关系是指变量之间存在一定的相关性,但它不是确定性的和严格的相关性。 Y=f(X,u) (u是随机变量),如广告费用(X)与销售收入(y)之间的关系,以及居民可支配收入(X)与居民消费支出(y)之间的关系,变量之间的关系没有图形描述:坐标图(散点图),2。相关性的特征,(1)变量之间的关系不能使用函数,(2)一个变量的值不能由另一个变量唯一确定;当变量x取某个值时,变量y可能有几个值;(3)每

3、个观测点(x,y)分布在某一条线上。商品消费(y)与居民收入(x)的关系商品消费(y)与价格(x)的关系商品销售(y)与广告费用(x)的关系亩产量(y)与施肥量(x1)、降雨量(x2)与气温(x3)的关系收入水平(y)与完全相关与不相关(2)完全相关(函数关系)。一个变量的变化完全由不相关的另一个变量的变化决定。这两个变量的变化完全没有关系。1.根据相关程度,(1)线性相关。(2)非线性相关。2。按相关形式划分、3。根据相关方向划分,(1)负相关,如价格与消费的关系。(1)单相关(也称为一元相关)。指两个变量之间的关系。(2)复相关(也称为多元相关)。指以上三个变量之间的关系。例如,一种商品的

4、需求与其价格水平和收入水平之间的关系是一种多重相关性。(3)偏相关。当一个变量与多个变量相关时,两个变量之间的相关性被假定为常数。例如,在假设人们的收入水平和偏好不变的情况下,某一商品的需求与其价格水平之间的关系是偏相关的。根据相关性所涉及的变量数量,相关性的图形表示和定性分析是基于研究者的理论知识和实践经验来判断客观现象之间是否存在相关性以及存在何种关系。在定性分析的基础上,通过编制相关表、绘制相关图和计算相关系数,可以判断现象间相关性的方向、形式和密切程度。第四,相关性的判断,一个研究现象之间相关性的表格。首先,应通过实际调查获得一系列配对数据作为相关分析的原始数据。然后,一个变量按其数值

5、的顺序排列,然后与之相关的另一个变量的相应值平行排列,这样为了研究和分析某一产品的完工数量与其单位产品成本之间的关系,通过调查30家类似公司获得的原始数据如下表所示。经过整理,有:(2)相关图,也称散点图,是直角坐标系的横轴表示变量X,纵轴表示变量Y的图形,对应两个变量的数据对以坐标点的形式表示,以反映两个变量之间的相关性。销售收入与广告成本的相关图,相关分析与回归分析,回归的经典意义:高尔顿遗传学的回归概念,父母身高与孩子身高的关系:不管是高还是矮,孩子都有回到人的平均身高的趋势,回归的现代意义,一个因变量对几个解释变量的依赖性研究回归的目的(本质)是从一个固定的自变量估计因变量的平均值。回

6、归分析是一种统计方法,它根据变量之间的关系属性,为具有相关性的变量选择合适的数学模型(回归方程),并使用它来近似表示变量之间的平均数量变化之间的关系。回归分析根据分析变量的数量可分为单向回归分析和多元回归分析;根据分析变量的表达形式,可分为现在回归分析和非线性回归分析;相关分析和回归分析的关系涉及到:(1)共同的研究对象:它是对变量之间相关性的分析;(2)相关分析是回归分析的基础和前提。只有当变量之间存在相关性时,用回归分析来寻找具体的数学形式才有实际意义;(3)相关性分析仅显示变量之间的相关性的性质和程度。确定变量之间相关性的具体数学形式取决于回归分析的差异。(1)相关分析和回归分析在研究目

7、的和方法上有明显差异。相关分析研究变量之间相关的方向和程度。然而,相关性分析不能指出变量之间关系的具体形式,也不能从一个变量的变化中预测另一个变量的变化。回归分析是研究变量之间关系的一种具体形式。它通过相关性测量变量之间的定量关系,并确定相关的数学方程。根据这个数学方程,未知量可以从已知量中推断出来,从而为估计和预测提供了一个重要的方法。(2)相关分析不需要确定哪些变量是自变量,哪些是因变量,但回归分析必须提前研究和确定哪些相关变量是自变量,哪些是因变量。(3)相关分析中涉及的变量都可以是随机变量。一般来说,在回归分析中,因变量是随机的,而自变量被认为是给定的非随机变量。回归模型类型,一个自变

8、量,两个或多个自变量,回归模型,多元回归,单向回归,线性回归,非线性回归,102简单线性相关和回归分析,1。简单线性相关系数与检验2。总体回归函数和样本回归函数3。回归系数的估计。简单线性回归模型的检验。简单线性回归模型1的预测。简单线性相关系数与检验1。相关系数的定义。单相关分析是分析两个变量之间的线性相关程度。线性相关度可以用总体相关系数来表征:对于特定人群,总体相关系数是一个客观的具体值,是一个常数。样本相关系数,样本相关系数通常用来表示特征:样本相关系数是根据从总体中提取的随机样本的观测值计算的,它是对总体相关系数的估计,是一个随机变量。(2)相关系数的特征:相关系数的值在-1到1之间

9、。当r=0时,表示th当,它表明X和Y是完全线性相关的。如果r=1,它被称为X和Y完全正相关。如果r=-1,x和y完全负相关。计算工业总产值与能源消耗之间的相关系数。结论:工业总产值与能源消耗之间存在高度正相关,能源消耗X的变化可以解释工业总产值Y的变化95.2。使用相关系数的注意事项:X和Y都是对称随机变量,所以相关系数只反映变量之间的线性相关程度,不能解释非线性相关关系。相关系数不能确定变量之间的因果关系,也不能解释相关性接近于哪一条线。(5)相关系数1的检验。为什么要测试?样本相关系数是随样本变化的随机变量,相关系数的统计显著性有待检验。2.检验依据:如果X和Y都服从正态分布,在总相关系

10、数的假设下,可以用T检验来确定变量间相关性的显著性。与样本相关系数R相关的T统计量服从T分布,自由度n-2:3。相关系数的检验方法,给定显著性水平,检查自由度n-2的临界值,如果表明相关系数R具有统计显著性,则应予以拒绝和接受;相反,如果,这个假设应该被接受。二元和一元线性回归模型,一些基本概念y : Y的条件分布在x取某一固定值的条件下。对于x的每个值,都有一个与之对应的y的条件期望。坐标图上y的条件期望点随x变化的轨迹形成的直线或曲线称为回归线。如果y的条件期望表示为x的函数,这个函数称为回归函数。如果它的函数形式是一个只有一个自变量的线性函数,它被称为简单线性回归函数。(1)人口回归函数

11、(PRF),概念:人口因变量y的条件均值表示为自变量x的函数,称为人口回归函数(简称PRF)。表现形式:(1)总体回归线,(2)总体一元线性回归模型,(3)简单线性回归的基本假设,假设1:误差项u是一个随机变量,期望值为0,即假设2:对于所有x值,误差项ui的方差是常数。假设3:自变量是给定的变量,与随机误差项线性无关。假设4:没有自相关假设。随机误差项u的连续值彼此不相关。假设5:常态假设。,随机误差项ui不能被直接观察到,因此有必要假设其概率分布用于回归分析。满足这些假设的模型称为标准线性回归模型。(2)样本回归函数(SRF),概念:总体回归函数实际上是未知的,需要用样本信息进行估计。根据

12、样本数据拟合的直线称为样本回归直线。其相应的函数称为样本回归函数(SRF)。表达式:线性样本回归函数可以表示为、样本回归方程;(4)样本回归函数与总体回归函数的关系;(1)相互联系,样本回归函数的函数形式应与设定的总体回归函数一致。并且是整个回归函数的参数的估计。总体条件下的估计残差e在概念上类似于总体回归函数中的随机误差u。回归分析的目的是用样本回归函数来估计总体回归函数。样本回归函数与总体回归函数的关系(2)样本回归函数与总体回归函数是不同的。虽然总体回归函数未知,但它是确定的;样本回归线随样本波动而变化,可以有多条线。样本回归线不是总体回归线,但至多是未知总体回归线的近似表达式。虽然总体

13、回归函数的参数是未知的,但它们是某些常数;样本回归函数的参数是可以估计的,但它是一个随机变量回归系数的最小二乘估计,基本思想:回归分析的主要任务是建立一个能够反映真实总体回归函数的样本回归函数。当用样本数据确定回归方程时,希望估计值和实际观测值之间的残差尽可能小。残差平方和可作为衡量偏差程度的标准最小二乘准则,最小二乘法(图示),x,y,(xn,yn),(x1,y1),(x2,y2 :可得。排序后,有:可以求解的标准方程如下:分析由于工业总产值与能源消耗之间存在高度正相关,因此可以拟合出工业总产值与能源消耗之间的线性回归方程。即线性回归方程为:计算结果表明,在其他条件不变的情况下,每消耗一单位

14、(10万吨)能源,工业总产值将增加0.7961单位(1亿元)。(2)最小二乘估计的概率分布性质,并且是服从正态分布的随机变量,它们的期望是无偏估计,概率分布为、(3)总体方差。总随机误差项的方差可以反映理论模型的误差,这是检验模型时必须使用的一个重要参数。可以证明的无偏估计是:四元或一元线性回归模型的检验。在回归模型的参数(系数)被估计之后,它们必须被测试。回归系数假设检验是在总体回归系数的某些原始假设成立的情况下,确定适当的统计量,并在一定的显著水平上对原始假设进行统计检验。(a)拟合优度的度量,回归线与数据的拟合优度:围绕样本回归线收集的样本观察的紧密度。样本回归线是对样本数据的拟合,不同

15、的回归线可以通过不同的估计方法进行拟合。如果每个观测数据的散乱点都聚集在回归线周围,那么这条线对数据有很好的拟合效果,否则,拟合效果很差。通常,回归模型的拟合优度是通过判断系数和偏差平方和的分解来衡量的(如图所示)。1.判断系数的定义是基于因变量总偏差平方和的分解,偏差平方和的分解(三个平方和之间的关系)包括:SST=SSR SSE,偏差平方和的分解(三个平方和)平方和总方差(SST)反映回归平方和的总方差(SSR)。 它反映了自变量x的变化对因变量y的值变化的影响,或由x和y之间的线性关系引起的y的值变化,也称为可解释平方和。 残差平方和(SSE),也称为无法解释的平方和或残差平方和,反映了除X以外的因素对Y值的影响,2。决定系数的特点(可决定系数R2),(1)回归平方和与总偏差平方和的比例,(2)回归线的拟合程度,(3)0-1之间的取值范围,(4) R2 1,表明回归方程拟合较好;R20,表明回归方程拟合较差。(5)判断系数等于相关系数的平方,即R2(r)2。(2)回归系数显著性检验。回归模型的统计检验除了模型拟合度的检验外,还包括各回归系数的显著性检验和回归方程的总

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论