版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十三章 回归分析本节我们主要线性回归分析。 13.1一元线性回归分析 在实际问题中我们常常要寻找存在于两个(或多个)变量之间的关系,它们之间有一定的关系,然而这种关系并不完全确定。例如,正常人的血压与年龄有一定关系,一般讲年龄大的人血压相对地高一些,但是他们之间就不能用一个确定的函数关系式表达出来。为了深入了解它们的关系,往往需要我们去寻找它们的数量表达式。先看一个例子。 例1 测得某种物质在不同温度x下吸附另一种物质的重量如下表所示:温度xi (C0)1.51.82.43.03.53.94.44.85.0吸附量(mg)4.85.77.08.310.912.413.113.615.3表1如果
2、我们重复做这些试验,在同一个温度下,所测得吸附另一种物质的重量也不完全一致。把这9对数据画出散点图1,从图上我们发现随着温度的增加,吸附量也增加,且这些点近似在一条直线附近,但又不完全在一条直线上。引起这些点与直线偏离的原因有两个,其一是本身温度和吸附量存在的内在关系,其二是在温度下观察吸附量存在着一些不可控制的因素。吸附量温度 图1 这样我们可以把观测结果看成是由两部分叠加而成的,一部分是由的线性函数引起的,记为,其中就是图1中显示的那条直线,还需要估计;另一部分是由随机因素引起的,记为 。即 (1)由于我们把看成是随机误差,由中心极限定理知,假定服从是合理的,这也就意味着假定 ,其中, 。
3、 在(1)中是一般变量,它可以精确测量或可以加以控制,是可观测其值的随机变量,是未知参数,是不可观测的随机变量,假定服从。 综上所述,我们得到一般的数学模型。通过观测,获得了组独立的观测数据,则一元线性回归模型为 , (2)也可以简单地记为 相互独立,且 。 当由观测值获得未知参数的估计后,得到的方程 称为关于的一元线性回归方程。 对于一元线性回归模型,我们要解决如下三个问题:(1)根据观测值去估计未知参数,从而建立与的数量关系式(称为回归方程)。(2)对以上得到的数量关系式的可信度进行统计检验。(3)对某个,在一定的可靠度下来预测在什么区间中。 参数的最小二乘估计 我们想找的回归方程是要使观
4、测值从整体上比较靠近它。用数学的话来说就是要求观测值与其拟合值之间的偏差平方和达到最小。 设给定个点,为一条直线,记 (3)就是误差平方和,它反映全部的观测值与直线的偏离程度。因此,越小,观测值与直线拟合得越好。所谓的最小二乘法就是使达到最小的一种估计的方法。 如果,满足那么称,分别是,的最小二乘估计。 下面来求、的最小二乘估计。 由于是的一个非负二元函数,故其极小值一定存在,根据微积分的理论知道只要求对的一阶偏导数为0,即 , ,整理后得 (4)通常称(4)为正则方程组,解之得其中,。在具体计算时,常记 (5) (6)(7)这样,,的最小二乘估计可以表示为 。 (8)因此,可得到回归方程为
5、, (9)此回归方程在平面直角坐标系中必过与两点。 例2 由例1的数据算得,回归方程为 。下面不加证明地罗列最小二乘估计的一些性质:(1)、分别是、的无偏估计。(2), 。(3)是的无偏估计。回归方程的显著性检验 从求一元线性回归方程系数的最小二乘估计公式(8)式可知,不管与之间是否有线性关系,只要给出了对数据,总可由(8)式求出,从而写出回归方程,然而此方程不一定有意义。那么,什么是一个有意义的回归方程呢?我们研究回归方程的目的是寻找与之间的统计规律性,即要找出随变化的规律。在一元线性回归中,反映了随线性变化的变化率,若,说明不随作线性变化,那么我们给出的一元线性回归方程就没有意义,若,那么
6、回归方程才有意义。因而对回归方程作显著性检验就是要检验假设 (10)是否为真。 我们注意到引起随机变量观测值不同的原因不外有二个,一是由于不真,从而在的变化时引起的线性变化,除此之外还有其它一切因素(包括在的变化时引起非线性变化的部分)造成的随机误差所致。 记统计量,其中。即是回归方程在处的值。直观上看,反映了数据中因变量的波动;,其中是当误差平方和达到最小时的值,从而反映了随机误差引起数据中因变量的波动;又由知道, (11)反映了由于回归系数的作用而引起数据中因变量的波动。称为总偏差平方和,称为残差平方和,称为回归平方和。平方和分解公式:证明: 其中 所以, 。 从平方和分解公式看出,数据中
7、因变量的波动可以分解为随机误差引起数据中因变量的波动和由于回归系数的作用而引起数据中因变量的波动。 我们从残差平方和与回归平方和的意义可知,回归效果的好坏取决于与的大小。在一定的条件下,越大越小,即线性部分起主要作用,则回归效果越好。 可以证明:在一元线性回归模型下,当为真时,则,且分别与相互独立。从而 。 若取的值较大时,表示相对较大,而相对较小,即与的线性关系起主导作用,可以认为与之间有线性关系;若取的值较小时,则相对较小,而相对较大,即随机误差起主导作用,说明与之间没有线性关系。通过以上分析可知,当成立,即时,因此,在显著性水平下,由决定了一个假设检验的拒绝域。在具体计算时,常用下面的方
8、差分析表:表10.1 方差分析表(一元正态线性模型)方差来源平方和自由度F值回归系数1残差n2总和n1例3 在例1中,要检验取显著性水平。利用例2中的数据列出方差分析表:方差来源平方和自由度F值回归系数112.47061384.2334残差2.04907总和114.51968其中,先计算和,然后再计算。查表得 。因为,故拒绝,即认为回归效果显著,即回归方程是有意义的。最后我们还要强调指出:如果不能拒绝,即回归效果不显著,那么可能是以下原因造成的。 (1)自变量x对因变量确实没有显著性影响,这时应丢弃这个自变量; (2)自变量x对因变量有显著性影响,但是这种影响不能通过线性关系表达,这时应当考虑
9、其它形式(例如非线性)的回归函数。 (3)除了自变量x外,可能还有其它因素对因变量有影响,从而削弱了单个自变量x的作用,这时应当考虑多元线性统计模型。对的预测 对于任意给定的,不一定与相等,由回归方程可得到回归值 ,是的无偏估计,故可作为的估计值。 所谓预测问题就是在一定的显著性水平下,寻找一个正数,使得实际观测值以置信度是落在区间内,即 。 设与相互独立,且,我们可以证明: 。 对于给定的显著性水平,查自由度为的分布得到,满足,使 。 所以,得到置信度是的预测区间为,其中 。 如果分别作出函数和的图形,那么它们把回归直线夹在中间,两头都呈喇叭形, 在附近时预测区间较短。可以化为一元线性回归的
10、曲线回归问题 在实际问题中,两个变量之间的回归关系大多是非线性的,这是选择恰当类型的曲线比配直线更符合实际情况。在许多情况下,非线性回归可以通过简单的变量变换,转化为线性回归模型来解决。 例如,在细菌培养中,根据专业知识,可知每一时刻的细菌总数对时间的回归模型是 。 为了确定参数,对上式两边取对数,得令 ,于是它转化为线性回归模型: ,然后将数据转换为,根据观测值,用一元线性回归分析方法计算出,检验回归方程是否有效,若有效,从而可以得到回归曲线为 ,其中,。 还有以下的几种类型的函数,可利用一元线性回归分析的方法求出两个变量的回归关系中未知参数的估计值。(1)双曲函数:令 ,则 。(2)幂函数
11、:令,则。(3)指数函数:令,则。(4)对数函数:令,则 。(5)型曲线:令,则 。 13.2多元线性回归分析一般讲,影响结果的因素往往不止一个,设有共个因素。其中最简单的是假设它们之间有线性关系: , (12)式中都是可精确测量或可控制的一般变量,是可观测的随机变量,是未知参数,是服从分布的不可观测的随机误差。 假如我们对(12)式获得了组独立观测值 , (13)于是由(12)式可知具有数据结构式 (14)其中诸相互独立,且均服从则称(14)式为元线性回归模型。设的估计分别记为,那么我们就得到一个元线性方程 , (15)称(15)式为元线性回归方程。为了简便起见,对于多元线性回归模型,我们将
12、用矩阵、向量的形式来表达。记,;, 假定n×(p1)矩阵X的秩为。于是p元线性回归模型(14)可以表示成 , (16)其中表示n阶单位阵。 记,令 由得方程组整理得。用矩阵、向量来表示,这个方程组可以表示成 , (17)其中“”表示矩阵或向量的转置。通常称方程组(17)式为正则方程组。由于X的秩为,因此是阶正定矩阵,从而必定存在,由此得到正则方程组(17)式的唯一解为,称为的最小二乘估计。 现在我们在线性回归模型(14)式下,考虑回归系数、的显著性检验,即检验 仍然考虑总偏差平方和的平方和分解,仍记,其中,或者 。 平方和分解公式:。证明:由正则方程组(17)式知,因此另外故,综上所
13、述,故有,。我们还可以证明: 在线性回归模型(14)式下,与相互独立,且;当成立,即时,。 在线性回归模型(14)式下,对于假设检验问题 (18)引入检验统计量 当成立,即时,因此,在显著性水平下,由决定了一个检验的拒绝域。在具体计算时,常用下面的方差分析表:表10.2 方差分析表(p元正态线性模型)方差来源平方和自由度F值回归系数p残差np1总和n1 如果经检验后拒绝,那么可以认为经验回归系数在一定程度上反映了p个自变量与因变量Y之间的相关关系,然而并不能排除单个自变量实际上对因变量无显著性的情形出现。另一方面,如果经检验后不能拒绝,那么不能武断地认为这些自变量对因变量Y都没有显著性作用,因
14、为可能由于这些自变量之间的相互影响而使回归效果不显著。因此除了检验形如(18)式那样的假设外,还需要对每个回归系数分别检验 (19)可以证明 (20)确定了在显著性水平下,由决定了假设检验问题(19)式的一个拒绝域。其中偏回归平方和,这里是p阶方阵的逆矩阵中对角线上的第j个元素,p阶方阵L中的元素,其中,。 例4 现在要考察某地区对某类商品的需求量与该地区消费者平均收入水平和该商品的零售价格之间的关系。假定在用二元正态线性模型来拟合下列数据:(元)10006001200500300400130011001300300(元)5766875439(件)10075807050659010011060现在,n=10,p=2,由所给数据算得,;,;,解得的最小二乘估计值分别为0.0143、7.1882、111.6892。于是经验回归函数为列出方差分析表:方差来源平方和自由度F值回归系数3086229.67残差3647总和34509对于检验:给定,查表得因此拒绝。进一步对于检验计算在显著性水平下因此不能拒绝,即认为消费者平均收入对该商品需求量的影响不显著。如果我们能确定除商品的零售价格外不存在影响该商品需求量的其它重要因素,那么可以剔除消费者平均
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025电厂个人年终工作总结(4篇)
- 2025年信用社后勤部门年终总结
- 2025国家法官学院招聘拟聘用人员笔试历年参考题库及答案
- 2025租赁合同书样本范文
- 2025店面租赁合同协议书范本
- 2025年下半年喀什地区行署机关事业单位公开遴选易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年唐山市迁安市招考投融资高端人才易考易错模拟试题(共500题)试卷后附参考答案
- 2025年云南省化肥买卖合同书
- 2025年下半年周口港口物流产业集聚区城市管理员招考易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年吉林长春公主岭市事业单位招聘工作人员5人(6号)易考易错模拟试题(共500题)试卷后附参考答案
- 村干部考入事业编面试真题(含答案)
- 西南交通大学2025年秋季管理岗位与其他专技岗位公开招聘考试参考试题及答案解析
- 2025年陕西省招聘村居后备干部考试应知应会题库及答案
- 公司无人机驾驶员适应性考核试卷及答案
- 市政道路排水系统维护保养技术方案
- 两委换届知识培训材料课件
- 2025广州铁路局集团有限公司招聘笔试考点考试题库和答案
- 2026届广东省珠海市文园中学七年级数学第一学期期末经典试题含解析
- 2025年中国拍立得行业市场全景分析及前景机遇研判报告
- 【生物】2025-2026学年人教版八年级生物上册期中考试复习测评试卷
- JJF(苏) 149-2024 黑体辐射源校准规范
评论
0/150
提交评论