




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四章 一元线性回归模型,第1节 引言,回归分析起源于生物学研究,是由英国生物学家兼统计学家高尔登(Francis Galton 1822-1911)在19世纪末叶研究遗传学特性时首先提出来的。 高尔登在1889年发表的著作自然的遗传中,提出了回归分析方法以后,很快就应用到经济领域中来,而且这一名词也一直为生物学和统计学所沿用。 回归的现代涵义与过去大不相同。一般说来,回归是研究因变量随自变量变化的关系形式的分析方法。其目的在于根据已知自变量来估计和预测因变量的总平均值。,(Francis Galton 1822-1911),一、回归分析和相关分析 (1)函数关系。函数关系反映客观事物之间存在
2、着严格的依存关系。在这种关系中,当一个或几个变量取值一定时,另一个变量有确定的值与之相对应,并且这种关系可以用一个确定的数学表达式反映出来。 一般把作为影响因素的变量称为自变量,把发生对应变化的变量称为因变量。,(2)相关关系。相关关系反映的是客观事物之间的非严格、不确定的线性依存关系。这种线性依存关系有两个显著的特点: 客观事物之间在数量上确实存在一定的内在联系。表现在一个变量发生数量上的变化,要影响另一个变量也相应地发生数量上的变化。 客观事物之间的数量依存关系不是确定的,具有一定的随机性。表现在当一个或几个相互联系的变量取一定数值时,与之对应的另一个变量可以取若干个不同的数值。这种关系虽
3、然不确定,但因变量总是遵循一定规律围绕这些数值的平均数上下波动。,相关关系与函数关系又有十分密切的联系。在实际中,由于观测和观测误差等原因,函数关系往往是通过相关关系表现出来的;而在研究相关关系中,又常常是用函数关系作为工具,以相应的函数关系的数学表达式来表现相关关系的一般数量联系。,回归分析与相关分析的联系,它们是研究客观事物之间 相互依存关系的两个不可分割的方面 在实际工作中,一般先进行相关分析,由相关系数的大小决定是否需要进行回归分析。在相关分析的基础上建立回归模型,以便进行推算、预测,同时相关系数还是检验回归分析效果的标准。相关分析需要回归分析来表明客观事物数量关系的具体形式,而回归分
4、析则应建立在相关分析的基础上。,相关分析是以相关关系为对象,研究两个或两个以上随机变量之间线性依存关系的紧密程度。通常用相关系数表示,多元相关时用复相关系数表示。,回归分析,回归分析是对具有相关关系的变量之间的数量变化规律进行测定,研究某一随机变量(因变量)与其他一个或几个普通变量(自变量)之间的数量变动关系,并据此对因变量进行估计和预测的分析方法。由回归分析求出的关系式,称为回归模型。,二、回归模型的种类 根据自变量的多少,回归模型可以分为一元回归模型和多元回归模型。 根据回归模型的形式线性与否,回归模型可以分为线性回归模型和非线性回归模型。 根据回归模型所含的变量是否有虚拟变量,回归模型可
5、以分为普通回归模型和带虚拟变量的回归模型。 此外,根据回归模型是否用滞后的因变量作自变量,回归模型又可分为无自回归现象的回归模型和自回归模型。,第2节 一元线性回归模型及其假设条件,数学期望,早在17世纪,有一个赌徒向法国著名数学家帕斯卡挑战,给他出了一道题目:甲乙两个人赌博,他们两人获胜的机率相等,比赛规则是先胜三局者为赢家,赢家可以获得100法郎的奖励。录比赛进行到第三局的时候,甲胜了两局,乙胜了一局,这时由于某些原因中止了比赛,那么如何分配这100法郎才比较公平?,用概率论的知识,不难得知,甲获胜的概率为1/2+(1/2)*(1/2)=3/4,或者分析乙获胜的概率为(1/2)*(1/2)
6、=1/4。因此由此引出了甲的期望所得值为100*3/4=75法郎,乙的期望所得值为25法郎。这个故事里出现了“期望”这个词,数学期望由此而来。,引例:测量 50 个圆柱形零件直径(见下表),则这 50 个零件的平均直径为,甲仪器测量结果: 乙仪器测量结果: 两台仪器的测量结果的均值都是 a 。但是用上述结果评价一下两台仪器的优劣,很明显,我们会认为乙仪器的性能更好,因为乙仪器的测量结果集中在均值附近。,E(X-EX)2 这一数字特征就是方差。 一般在计算式用下面公式进行计算 D(X)=E(X2)-E(X)2,协方差和相关系数,问题 对于二维随机变量(X ,Y ):,已知联合分布,边缘分布,这说
7、明对于二维随机变量, 除了每个随机变量各自的概率特性以外,相互之间可能还有某种联系. 问题是用一个什么样的数去反映这种联系.,数,反映了随机变量X ,Y 之间的某种关系.,A. 协方差和相关系数,可以证明协方差矩阵为半正定矩阵.,若Var (X ) 0, Var (Y ) 0 ,称,为X ,Y 的 相关系数,记为,事实上,,利用函数的期望或方差计算协方差,若 ( X ,Y ) 为离散型,,若 ( X ,Y ) 为连续型,,一元线性回归模型的基本假设条件: 假设1: 假设2: 假设3:,第3节 模型参数的估计,估计模型的回归系数有许多方法,其中使用最广泛的是最小二乘(OLS, Ordinary
8、Least Square)法。,1.最小二乘法的思路(1),为了精确地描述Y与X之间的关系,必须使用这两个变量的每一对观察值(n组观察值),才不至于以点概面(作到全面)。 Y与X之间是否是直线关系(用协方差或相关系数判断)?若是,可用一条直线描述它们之间的关系。 在Y与X的散点图上画出直线的方法很多。 找出一条能够最好地描述Y与X(代表所有点)之间的直线。问题是:怎样算“最好”? 最好指的是找一条直线使得所有这些点到该直线的纵向距离的和(平方和)最小。,最小二乘法的思路(2),最小二乘法的思路(3),纵向距离是度量实际值与拟合值是否相符的有效手段 点到直线的距离点到直线的垂直线的长度。 横向距
9、离点沿(平行)X轴方向到直线的距离。 纵向距离点沿(平行)Y轴方向到直线的距离。也就是实际观察点的Y坐标减去根据直线方程计算出来的Y的拟合值。 实际值-拟合值=残差(剩余),最小二乘法的思路(4),纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以称为残差、拟合误差或剩余。 将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。拟合直线在总体上最接近实际观测点。 于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小的问题。,注意几个概念的区别,误差:即随机干扰项 残差:观测值简去拟合值,是误差的估计值 离差:样本观测值减去样本平均值
10、,数学形式,第4节 估计量的统计特性,最小二乘估计量 具有线性、无偏性和最小方差性等良好的性质。线性、无偏性和最小方差性统称BLUE性质。满足BLUE性质的估计量 称为BLUE估计量。,第5节 回归方程的检验,在一元线性回归模型中最常用的显著性检验方法有: 相关系数检验法 F检验法 t检验法,在一元线性回归模型中,观测值的数值会发生波动,这种波动称为变差。变差产生的原因如下: 受自变量变动的影响,即x取值不同对的影响; 受其他因素(包括观测和实验中产生的误差)的影响。为了分析这两方面的影响,需要对总变差进行分解。,一、离差平方和的分解与可决系数,三. 样本决定系数与拟合优度检验,拟合优度评价
11、由最小二乘法得出的直线能够反映这些点之间的关系吗? 对这些点之间的关系或趋势反映到了何种程度? 于是必须经过某种检验或者找出一个指标,在一定可靠程度下,根据指标值的大小,对拟合的优度进行评价。,总离差平方和的分解,总离差平方和(TSS),回归平方和(RSS),残差平方和(ESS),总离差平方和的分解,平方和分解的意义,TSS=RSS+ESS 被解释变量Y总的变动(差异)= 解释变量X引起的变动(差异) + 除X以外的因素引起的变动(差异) 如果X引起的变动在Y的总变动中占很大比例,那么X很好地解释了Y;否则,X不能很好地解释Y。,样本决定系数(Determinants of coefficie
12、nt)R2,残差的标准差(或随机项的方差2)的最小二乘估计量,拟合优度评价,相关系数,计算方法与样本决定系数一样 含义有所不同: 样本决定系数是判断回归方程与样本观测值拟合优度的一个数量指标,隐含的前提条件是X和Y具有因果关系 相关系数是判断两个随机变量线性相关的密切程度,不考虑因果关系。,注意英文缩小的含义,TSS:Total Square Sum / 总离差平方和 RSS: Regression Square Sum / 回归平方和 Residual Square Sum / 残差平方和 ESS Error Square Sum / 误差平方和(残差平方和) Explain Square Sum / 解释平方和(回归平方和),二、回归方程的检验 1、相关系数检验法,第6节 预测区间,在一元线性回归模型中,对于自变量x的一个给定值,代入回归模型,就可以求得一个对应的回归预测值,又称为点估计值。 所谓预测区间就是指在一定的显著性水平上,依据数理统计方法计算出的包含预测对象未来真实值的某一区间范围。,第7节 几个应当注意的问题,一、重视数据的收集和甄别 在收集数据的过程中可能会遇到以下困难: (1)一些变量无法直接观测。 (2)数据缺失或
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 IEC 60068-2-83:2025 RLV EN Environmental testing - Part 2-83: Tests - Test Tf: Solderability testing of electronic components for surface mounting devices (SMD) by the wetti
- 【正版授权】 ISO/IEC 27017:2015 AR Information technology - Security techniques - Code of practice for information security controls based on ISO/IEC 27002 for cloud services
- 2025至2030中国电池包装制品行业深度研究及发展前景投资评估分析
- 2025至2030中国特威兹勒行业发展趋势分析与未来投资战略咨询研究报告
- 企业消防安全专题培训大纲
- 餐饮服务店长培训
- 企业数字化办公解决方案的实践与思考
- 智慧城市公共服务中的公共安全体系构建研究
- 商业策略与教育品牌危机的预防措施
- 智慧城市大数据驱动的商业决策分析
- 计划开、竣工日期和施工进度网络图112
- 2024初中数学竞赛七年级竞赛辅导讲义七年级专题01 质数那些事
- JJG 693-2011可燃气体检测报警器
- 德宏傣族景颇族自治州缅籍“三非”人员管理问题研究的开题报告
- 手绘pop海报制作
- 干湿交替环境下混凝土受硫酸盐侵蚀劣化机理
- 统计职业道德规范内容和要求
- GB/T 16886.12-2023医疗器械生物学评价第12部分:样品制备与参照材料
- 粪便无害化处理厂建设方案
- 智慧的光芒普照每位学生 论文
- 销售行业跑业务计划书
评论
0/150
提交评论