第十三章一元线性回归ppt课件_第1页
第十三章一元线性回归ppt课件_第2页
第十三章一元线性回归ppt课件_第3页
第十三章一元线性回归ppt课件_第4页
第十三章一元线性回归ppt课件_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、心理统计学,南昌大学教育学院心理 李力,一元线性回归,一元线性回归模型的建立方法 回归模型的检验和估计 回归方程的应用,回归一词的由来 回归这个术语是由英国著名统计学家Francis Galton在19世纪末期研究孩子及他们的父母的身高时提出来的。 Galton发现身材高的父母,他们的孩子也高。但这些孩子平均起来并不像他们的父母那样高。对于比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。 Galton把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他发展的研究两个数值变量的方法称为回归分析。,变量之间存在关系的两种类型: 确定性关系(函数关系)

2、 不确定性关系(相关关系),函数关系,是一一对应的确定关系:一个(或多个)确定的自变量的值对应一个确定的因变量的值。 设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量 各观测点落在一条线上,相关关系(correlation),变量间关系不能用函数关系精确表达,是一种不确定性关系。 一个变量的取值不能由另一个变量唯一确定。 当变量 x 取某个值时,变量 y 的取值可能有几个 各观测点分布在直线周围,回归分析与相关分析的区别

3、,相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化 相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量 相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制,回归模型的类型,回归分析的模型,数学模型:,y = f( x 1 、x 2、 、x k ) + e 因变量Y受到已知k个字变量的影响和一些随机变量的影响。 一组观测数据得到:y i=

4、f( x 1i 、x 2i、 、x k i) + ei 每一组值中,所有x确定,e 未知,因此U也是不确定的。 所有e 服从m=0的正态分布。 对于所有的 y 取平均数 回归方程,回归的主值,回归分析的任务,1、建立回归方程 从一组样本数据出发,确定变量之间的数学关系式(自变量的个数,函数形式,估计函数中的参数) 2、检验方程的有效性 对这个关系式的可信程度进行各种统计检验,看方程是否有价值,判断它的有效性高低,对这个方程是否是最佳方程做研究。 3、利用所求出的方程,进行估计、预测和控制,一元线性回归,涉及一个自变量的回归 因变量y与自变量x之间为线性关系 被预测或被解释的变量称为因变量(de

5、pendent variable),用y表示 用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable),用x表示 因变量与自变量之间的关系用一个线性方程来表示,一元线性回归模型,描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型 一元线性回归模型可表示为 y = + b x + e y 是 x 的线性函数(部分)加上误差项 方程的图示是一条直线,也称为直线回归方程 误差项 是随机变量 反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响 是不能由 x 和 y 之间的线性关系所解释的变异性 和 称为模型的参数 是回归直线在 y 轴

6、上的截距,是当 x=0 时 y 的期望值 是直线的斜率,称为回归系数,表示当 x 每变动一个 单位时,y 的平均变动值,估计的回归方程(estimated regression equation),估计的回归方程为,总体数据估计,1、总体回归参数 是未知的,必须利用样本数据去估计。,2、用样本统计量a和b代替回归方程中的未知参数,就得到了估计的回归方程。,其中,a是诡计的回归直线在y轴上的截距,b是直线的斜率,它表示对于一个给定的x的值, 是y的估计值,也表示x每变动一个单位,y的平均变动值。,最小二乘法,使因变量的观察值与估计值之间的离差平方和达到最小来求得 a 和 b 的方法。即,用最小二

7、乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小,最小二乘估计,最小二乘法,根据最小二乘法的要求,转为求方程 的极值。分别求Q的一阶偏导,并令其等于0 可得求解 和 的公式如下,两变量的协方差,X的离均差平方和,令: 则:,步骤:,【例】有15个学生,数学和物理成绩列于表内,现想求一个物理成绩对数学成绩的一元回归方程。,解:,回归直线的拟合优度,变差,因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面 由于自变量 x 的取值不同造成的 除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响 对一个具体的观测值来说,变差的大小可以通过该实际

8、观测值与其均值之差 来表示,变差的分解,离差平方和的分解 (三个平方和的关系),离差平方和的分解,总平方和(SST) 反映因变量的 n 个观察值与其均值的总离差 回归平方和(SSR) 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和 残差平方和(SSE) 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和,显著性检验:模型的显著性检验 回归系数的显著性检验,模型(线性关系)的检验,检验自变量与因变量之间的线性关系是否显著。即判断在因变量y的变异中有多少成分是由自变量x决定的,

9、如这个成分的比例较大,则这个方程有效。也就是看x对y的影响起多大作用。 将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著 回归均方:回归平方和SSR除以相应的自由度(自变量的个数p) 残差均方:残差平方和SSE除以相应的自由度(N-p-1),总变异的组成:,线性关系的检验步骤,提出假设 H0:所建方程无效,2. 计算检验统计量F,确定显著性水平,并根据分子自由度1和分母自由度N-2找出临界值F 作出决策:若FF ,拒绝H0;若FF ,不能拒绝H0 列方差分析表,方差分析表,练习:检验上例所建立的方程是否有效!,回归系数的检验,在一元线性回归中,等价于线性

10、关系的显著性检验,检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著,理论基础是回归系数 的抽样分布,回归系数的检验(样本统计量 的分布),是根据最小二乘法求出的样本统计量,它有自己的分布 的分布具有如下性质 分布形式:正态分布 数学期望: 标准差: 其中:估计的标准误差为,回归系数的检验 步骤,提出假设 H0: b1 = 0 (没有线性关系) H1: b1 0 (有线性关系) 计算检验的统计量,确定显著性水平,并进行决策 tt,拒绝H0; tt,不能拒绝H0,判定系数R2的实质,回归平方和占总离差平方和的比例 反映回归直线的拟合程度 取值范围在 0

11、, 1 之间 R2 1,说明回归方程拟合的越好;等于1表示所有点都落在回归线上。Y变异全由x引起。 R20,说明回归方程拟合的越差,等于0表示不存在线性相关。X不能引起Y的变异。 判定系数等于相关系数的平方,即R2r2 *一元回归方程有效性检验可看成两个因素的积差相关系数的检验。 *在一元回归方程中,自变量的检验,有效性的检验,相关系数的检验是一致的。,利用回归方程进行估计和预测,点估计 区间估计,利用回归方程进行估计和预测,根据自变量 x 的取值估计或预测因变量 y的取值 估计或预测的类型 点估计 y 的平均值的点估计 y 的个别值的点估计 区间估计 y 的平均值的置信区间估计 y 的个别值

12、的预测区间估计,点估计,点估计,2. 点估计值有 y 的平均值的点估计 y 的个别值的点估计 在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同,对于自变量 x 的一个给定值x0 ,根据回归方程得到因变量 y 的一个估计值,y 的平均值的点估计,利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的一个估计值E(y0) ,就是平均值的点估计,y 的个别值的点估计,利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计值 ,就是个别值的点估计,区间估计,区间估计,点估计不能给出估计的精度,点估计值与实

13、际值之间是有误差的,因此需要进行区间估计 对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间 区间估计有两种类型 置信区间估计(confidence interval estimate) 预测区间估计(prediction interval estimate),置信区间估计,利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间 ,这一估计区间称为置信区间(confidence interval) E(y0) 在1-置信水平下的置信区间为,式中:syx为针对某一个样本估计标准误差,置信区间估计,【例】某个银行不良贷款对贷款余额的回归方程为: 请计算当贷款余额为100亿元时,不良贷款95%置信水平下的置信区间 解:根据数据计算结果,已知n=25, sy=1.9799,t(25-2)=2.0687 置信区间为,当贷款余额为100亿元时,不良贷款的平均值在2.1422亿元到3.7778亿元之间,预测区间估计,利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间(pred

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论