




已阅读5页,还剩46页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章 一元线性回归 模型 第1节 引言 p回归分析起源于生物学研究,是由英国生 物学家兼统计学家高尔登(francis galton 1822-1911)在19世纪末叶研究遗 传学特性时首先提出来的。 p高尔登在1889年发表的著作自然的遗传 中,提出了回归分析方法以后,很快就 应用到经济领域中来,而且这一名词也一 直为生物学和统计学所沿用。 p回归的现代涵义与过去大不相同。一般说 来,回归是研究因变量随自变量变化的关 系形式的分析方法。其目的在于根据已知 自变量来估计和预测因变量的总平均值。 (francis galton 1822-1911) 一、回归分析和相关分析 (1)函数关系。函数关系反映客观事物之间存 在着严格的依存关系。在这种关系中,当一个或 几个变量取值一定时,另一个变量有确定的值与 之相对应,并且这种关系可以用一个确定的数学 表达式反映出来。 一般把作为影响因素的变量称为自变量,把 发生对应变化的变量称为因变量。 (2)相关关系。相关关系反映的是客观事物之间的非严 格、不确定的线性依存关系。这种线性依存关系有两 个显著的特点: 客观事物之间在数量上确实存在一定的内在联 系。表现在一个变量发生数量上的变化,要影响另一 个变量也相应地发生数量上的变化。 客观事物之间的数量依存关系不是确定的,具 有一定的随机性。表现在当一个或几个相互联系的变 量取一定数值时,与之对应的另一个变量可以取若干 个不同的数值。这种关系虽然不确定,但因变量总是 遵循一定规律围绕这些数值的平均数上下波动。 p相关关系与函数关系又有十分密切的联系 。在实际中,由于观测和观测误差等原因 ,函数关系往往是通过相关关系表现出来 的;而在研究相关关系中,又常常是用函 数关系作为工具,以相应的函数关系的数 学表达式来表现相关关系的一般数量联系 。 回归分析与相关分析的联系 p它们是研究客观事物之间 p相互依存关系的两个不可分割的方面 p在实际工作中,一般先进行相关分析,由相关系数的 大小决定是否需要进行回归分析。在相关分析的基础 上建立回归模型,以便进行推算、预测,同时相关系 数还是检验回归分析效果的标准。相关分析需要回归 分析来表明客观事物数量关系的具体形式,而回归分 析则应建立在相关分析的基础上。 p 相关分析是以相关关系为 对象,研究两个或两个以上 随机变量之间线性依存关系 的紧密程度。通常用相关系 数表示,多元相关时用复相 关系数表示。 回归分析 p 回归分析是对具有相关关系的变量之间的 数量变化规律进行测定,研究某一随机变量( 因变量)与其他一个或几个普通变量(自变量 )之间的数量变动关系,并据此对因变量进行 估计和预测的分析方法。由回归分析求出的关 系式,称为回归模型。 二、回归模型的种类 p根据自变量的多少,回归模型可以分为一元回归模型 和多元回归模型。 p根据回归模型的形式线性与否,回归模型可以分为线 性回归模型和非线性回归模型。 p根据回归模型所含的变量是否有虚拟变量,回归模型 可以分为普通回归模型和带虚拟变量的回归模型。 此外,根据回归模型是否用滞后的因变量作自变 量,回归模型又可分为无自回归现象的回归模型和自 回归模型。 第2节 一元线性回归模型及其假设条件 数学期望 p早在17世纪,有一个赌徒向法国著名数学家帕斯 卡挑战,给他出了一道题目:甲乙两个人赌博, 他们两人获胜的机率相等,比赛规则是先胜三局 者为赢家,赢家可以获得100法郎的奖励。录比 赛进行到第三局的时候,甲胜了两局,乙胜了一 局,这时由于某些原因中止了比赛,那么如何分 配这100法郎才比较公平? p用概率论的知识,不难得知,甲获胜的概率为 1/2+(1/2)*(1/2)=3/4,或者分析乙获胜的概 率为(1/2)*(1/2)=1/4。因此由此引出了甲的期 望所得值为100*3/4=75法郎,乙的期望所得值 为25法郎。这个故事里出现了“期望”这个词,数 学期望由此而来。 引例:测量 50 个圆柱形零件直径(见下表) 则这 50 个零件的平均直径为 尺寸(cm) 8 9 10 11 12 数量(个)8 7 15 10 10 50 p甲仪器测量结果: p p乙仪器测量结果: p p两台仪器的测量结果的均值都是 a 。但是用上述 结果评价一下两台仪器的优劣,很明显,我们会 认为乙仪器的性能更好,因为乙仪器的测量结果 集中在均值附近。 pe(x-ex)2 这一数字特征就是方差。 p一般在计算式用下面公式进行计算 p d(x)=e(x2)-e(x)2 协方差和相关系数 问题 对于二维随机变量(x ,y ): 已知联合分布边缘分布 这说明对于二维随机变量, 除了每个随机 变量各自的概率特性以外,相互之间可能还有 某种联系. 问题是用一个什么样的数去反映这种联系. 数 反映了随机变量x ,y 之间的某种关系. a. 协方差和相关系数 定义 称 为x ,y 的协方差. 记为 可以证明协方差矩阵为半正定矩阵. 为(x , y )的协方差矩阵. 称 若var (x ) 0, var (y ) 0 ,称 为x ,y 的 相关系数,记为 事实上, 若称 x ,y 不相关. 无量纲 的量 利用函数的期望或方差计算协方差 q 若 ( x ,y ) 为离散型, q 若 ( x ,y ) 为连续型, q 一元线性回归模型的基本假设条件: 假设1: 假设2: 假设3: 第3节 模型参数的估计 p估计模型的回归系数有许多方法,其中使用最广泛的 是最小二乘(ols, ordinary least square)法。 1.最小二乘法的思路(1) p为了精确地描述y与x之间的关系,必须使用这两个变量的每 一对观察值(n组观察值),才不至于以点概面(作到全面) 。 py与x之间是否是直线关系(用协方差或相关系数判断)?若 是,可用一条直线描述它们之间的关系。 p在y与x的散点图上画出直线的方法很多。 p找出一条能够最好地描述y与x(代表所有点)之间的直线。 问题是:怎样算“最好”? p最好指的是找一条直线使得所有这些点到该直线的纵向距离 的和(平方和)最小。 最小二乘法的思路(2) y x 纵向距离 横向距离 距离 a为实际点,b为拟 合直线上与之对应的 点 最小二乘法的思路(3) p纵向距离是度量实际值与拟合值是否相符的有效 手段 p点到直线的距离点到直线的垂直线的长度。 p横向距离点沿(平行)x轴方向到直线的距 离。 p纵向距离点沿(平行)y轴方向到直线的距 离。也就是实际观察点的y坐标减去根据直线方 程计算出来的y的拟合值。 p实际值-拟合值=残差(剩余) 最小二乘法的思路(4) p纵向距离是y的实际值与拟合值之差,差异大拟合不好,差异小拟合 好,所以称为残差、拟合误差或剩余。 p将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误 差平方和最小的直线。拟合直线在总体上最接近实际观测点。 p于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平 方和最小的问题。 注意几个概念的区别 p误差:即随机干扰项 p残差:观测值简去拟合值,是误差的估计值 p离差:样本观测值减去样本平均值 y x0 * * * * * * * * * * * * y7 y9 min 数学形式 第4节 估计量的统计特性 p最小二乘估计量 具有线性、无偏性和 最小方差性等良好的性质。线性、无偏性 和最小方差性统称blue性质。满足blue性 质的估计量 称为blue估计量。 第5节 回归方程的检验 p在一元线性回归模型中最 常用的显著性检验方法有 : n相关系数检验法 nf检验法 nt检验法 在一元线性回归模型中,观测值的数值会发生波 动,这种波动称为变差。变差产生的原因如下 : 受自变量变动的影响,即x取值不同对的影 响; 受其他因素(包括观测和实验中产生的误 差)的影响。为了分析这两方面的影响,需要 对总变差进行分解。 一、离差平方和的分解与可决系数 三. 样本决定系数与拟合优度检验 拟合优度评价 p由最小二乘法得出的直线能够反映这些点之间的关系吗? p对这些点之间的关系或趋势反映到了何种程度? p于是必须经过某种检验或者找出一个指标,在一定可靠程 度下,根据指标值的大小,对拟合的优度进行评价。 y x0 * * * * * * * * * * * y9 总离差平方和的分解 由回归方程解释的部分,表示 解释变量x对y的线性影响 残差项,表示回归方程不能解释 的部分 总离差平方和(tss) 回归平方和(rss) 残差平方和(ess) 总离差平方和的分解 平方和分解的意义 ptss=rss+ess p被解释变量y总的变动(差异)= 解释变量x引起的变动( 差异) + 除x以外的因素引起的变动(差异) p如果x引起的变动在y的总变动中占很大比例,那么x很好 地解释了y;否则,x不能很好地解释y。 样本决定系数(determinants of coefficient)r2 残差的标准差(或随机项的方差2)的最小二乘估计量 拟合优度评价 相关系数 p计算方法与样本决定系数一样 p含义有所不同: 样本决定系数是判断回归方程与样本观测值拟合优度 的一个数量指标,隐含的前提条件是x和y具有因果关 系 相关系数是判断两个随机变量线性相关的密切程度, 不考虑因果关系。 注意英文缩小的含义 ptss:total square sum / 总离差平方和 prss: regression square sum / 回归平方和 residual square sum / 残差平方和 pess error square sum / 误差平方和(残差平方和) explain square sum / 解释平方和(回归平方和) 二、回归方程的检验 1、相关系数检验法 第6节 预测区间 p在一元线性回归模型中,对于自变量x的一个给 定值,代入回归模型,就可以求得一个对应的 回归预测值,又称为点估计值。 p所谓预测区间就是指在一定的显著性水平上, 依据数理统计方法计算出的包含预测对象未来 真实值的某一区间范围。 第7节 几个应当注意的问题 一、重视数据的收集和甄别 在收集数据的过程中可能会遇到以下困难: n(1)一些变量无法直接观测。 n(2)数据缺失或出现异常数据。 n(3)数据量不够。 n(4)数据不准确、不一致、有矛盾。 二、合理确定数据的单
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年政府管理改革考试试卷及答案
- 2025年新材料科学考试试卷及答案
- 2025年现代信息技术与治理结构考试试题及答案
- 2025年通信工程与技术考试试卷及答案
- 2025年人文社科类综合素质考试卷及答案
- 2025年趣味数学知识竞赛试卷及答案
- 城市地质地貌课件
- 2025年国际贸易专业毕业考试试卷及答案
- 2025年教师资格考试面试试卷及答案
- 2025年新八年级道德与法治暑假提升讲义 专题06 传承核心思想理念(原卷版)
- 电气交接试验强条(安装单位)
- 国债专项资金技术改造项目竣工验收办法
- 农村一二三产业融合发展存在问题及对策建议
- 总经理助理岗位竞聘PPT范文-竞聘总经理助理演讲稿
- 曲臂车考试题
- 读书好相声稿
- 三年级下册科学期末测试卷【有一套】
- 超星尔雅学习通什么是科学(清华大学)网课章节测试答案
- 【基于单片机的智能座椅避障系统设计开题报告文献综述4500字】
- 施工现场临时用电安全技术规范
- YS/T 1161.1-2016拟薄水铝石分析方法第1部分:胶溶指数的测定EDTA容量法
评论
0/150
提交评论