




已阅读5页,还剩18页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一元线性回归分析一变量之间的关系:函数关系:确定性关系相关关系:不确定性关系相关关系的测度:散点图线性相关关系的测度:相关系数相关关系不等于因果关系二回归的含义:回归这一术语最早来源于生物遗传学,由高尔顿(Francis Galton)引入。回归的现代解释:回归分析是研究某一变量(因变量)与另一个或多个变量(解释变量、自变量)之间的依存关系,用解释变量的已知值或固定值来估计或预测因变量的总体平均值。因变量:Y自变量:X或X1,X2,等高尔顿的兴趣在于寻找为什么总体身高分布趋向稳定。现在我们所关心的已不是这个问题,而是想知道在已知父亲身高的情况下,儿子的身高的平均变化如何。换句话说,就是已知父亲身高来预测儿子的平均身高。假设进行抽样试验,得以下结果:父亲身高(X) 1.50 1.60 1.70 1.80 1.90 儿子身高(Y) 1.52 1.65 1.68 1.81 1.89 假设进行多次抽样(5次),则对于同一个X值,会有多个Y值与之对应,即Y有多个取值。假设作出的散点图如下:为了找出X与Y的关联关系,一个自然的想法是取X=Xi时,所有Y值的平均值作为对应X=Xi时Y的代表值,亦即取:对于任何一个X的可能值,我们都可以相应的取:当X变化时,上式左边是X的一个确定的函数,可以记为:于是,我们可以用一个确定的函数 来大体描述Y与X之间的变化规律。为Y对X的回归方程,它反映了X固定的条件下Y的平均状态的变化情况。Y对X的回归就是Y对X的条件期望函数。三相关分析和回归分析之间的关系相关分析的主要目的在于度量两个变量之间的线性关系的程度。回归分析,已如前述,我们首先并不对这种度量有兴趣,而主要是想根据一些有关变量的已知值来估计或预测某一变量的平均值。相关分析与回归分析在技术上的区别:相关分析同等对待任何两个变量,无自变量和因变量的区别。两个变量都假定为随机变量。回归分析对自变量和因变量不同对待。因变量是随机变量,而自变量是非随机的,是给定(固定)变量。四总体回归函数定义:每一个条件均值E(Y/X=Xi)(简写为E(Y/Xi)是Xi的一个函数,即:总体回归函数设 (线性总体回归函数) :截距(intercept) :斜率系数(slope) 五线性的意义:变量线性:变量的幂指数为1,没有两个不同变量的乘除运算,也没有自变量作为幂指数运用。参数线性:参数的幂指数为1。线性回归一般指的是参数的线性,而变量可能是线性,也可能是非线性。六总体回归函数的整体设定:设各个 与其期望值的离差为:即:随机误差项,不可观察的随机变量,可以为正,也可为负。当 时,则:随机误差项的性质:可能代表了模型中并未包括的变量的影响;反映了人类行为中的一些内在随机性; 可能反映一些测量误差。七样本回归函数:当未掌握总体资料时,以样本资料拟合的回归线是总体回归线的近似代表(估计),因此样本回归函数可以写为:(假设为一元线性回归模型)样本回归函数也可以有随机设定的方程,设即: :残差项,简称残差,是 的估计。八回归模型的假定:回归模型的基本假定:1线性假定:自变量与因变量是线性函数关系。即:2解释变量X与扰动项u不相关假定:当X是非随机变量,即确定性变量时,该条件自动满足;当X是随机变量时,该假定要求X与u不相关。3关于随机误差项(扰动项)的假定:a.零均值假定:给定解释变量的值,随机误差项的期望值为0。即:结合上一假定,该条件等价于:b.同方差(homoscedasticity)假定:不同的扰动项具有相同的方差。即:否则称为异方差。结合前面的假定,同方差假定等价于:c.无自相关或序列相关(no autocorrelation)假定:不同扰动项之间的协方差为零,即: 该假定等价于:4模型设定的假定:回归模型的设定是正确的,即模型不存在设定偏差(Specification bias)或设定误差(specification error)。 5扰动项的假定:扰动项服从正态分布。结合3和4即为: 九参数的估计:最小二乘估计最小二乘法则:所谓最小二乘法则,就是按照使残差平方和最小的原则来确定回归系数的估计量,从而建立拟合最佳的样本回归方程。依据最小二乘法则确定参数,从而建立样本回归函数的方法,叫最小二乘法。要使Q最小,即求函数的极值。为此,要求函数的偏导数,并令其为零:等价于:解正规方程组:最后得参数的估计值为:其中:用OLS法估计得到的估计量称为最小二乘估计量。十回归系数的特征分析:利用不同的样本回归就得到不同的回归系数,问题是最小二乘方法所得到的统计量,是否是一个理想的统计量,因此有必要讨论一下回归系数的数学期望和方差。回归系数是观测值Y函数由于= (1) 这表明是的一个线性函数,这是一个线性估计量,同理也是一个线性估计量。具有以下的性质:是非随机的,因为是非随机的以上性质均可从的定义直接验证现将直接带入(1)得: = = (2)对上式两边取数学期望,得: 因此,是的无偏估计量,同理是的一个无偏估计量。的方差=利用(2)的结果有:因为假定对每一i,且对,故=故同样可得:随机扰动项的方差的估计:称为回归标准差(standard error of the regression),它为Y值偏离的标准差。十一、回归系数的区间估计当用回归标准差估计扰动项方差时,可证明以下统计量服从t分布:当自由度一定时,对于给定的显著性水平,统计量t的1的置信区间为:将代入上式得:所以参数的1的置信区间为:同理,参数的置信区间为:十二、拟合优度的度量:拟合优度(程度)是指样本观测值聚集在样本回归线周围的紧密程度。总离差平方和的分解:离差化表示法:判定系数(coefficient of determination)R2:十三、显著性检验(一) 回归系数的显著性检验(t检验)回归系数的显著性检验是一种假设检验。以b2为例,对总体参数b2的值提出假设,检验估计量与假设值之间的差异是否显著。若差异显著,就不能接受这个假设;若差异不显著,就不能拒绝这个假设具体步骤 :2计算T检验的值: 若假定,则3、根据给定的自由度和显著性水平,查出临界值如果接受则说明Y与X无关,X无法解释Y的变化。反之则说明X可以解释Y的变化。十四、预测(一) 总体均值E(Y0/X0)的点预测回归方程估计好后,可对总体的均值进行预测,即给定解释变量的一个值X0,代入拟合的方程中可得总体真实均值E(Y0/X0)的估计值(二) 总体均值E(Y0/X0)的区间估计可以证明:所以,总体均值E(Y0/X0)的置信度为1区间估计为:从上式可以看出,样本容量n越大,预测误差越小;给定样
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025企业职员劳动合同简化版
- 温室环境监测系统2025智能化改造在农业中的应用与农业现代化进程报告
- 2025年动物饲养专业考试题及答案
- 2025租赁合同书模板范文
- 王母河整治工程方案公示(3篇)
- 煤电工程调度方案范文(3篇)
- 会所厨房工程解决方案(3篇)
- 车间安全培训内容大全课件
- 2025年齿轮、传动轴和驱动部件项目提案报告
- 工程建材销售提成方案(3篇)
- 《空调基础知识》课件
- 南海区高一上学期9月初高中衔接测试语文试题(含答案)
- 事业单位考试职业能力倾向测验(自然科学专技类C类)试卷及解答参考(2025年)
- 人教统编版(部编版)小学科学教材目录
- 6.4.3.1余弦定理教学设计高一下学期数学人教A版
- 颈椎后路单开门椎管扩大成形术的护理课件
- 新外研版(三起)三年级上册英语全册教学课件(2024年新版教材)
- 外研版七年级上册初一英语全册课时练(一课一练)
- 蚯蚓养殖和治污改土技术规程 第1部分:蚯蚓养殖和粪污处理
- 成人鼻肠管的留置与维护(2021团体标准解读)-20221004172843
- 借款利息确认书
评论
0/150
提交评论