回归分析理论.doc_第1页
回归分析理论.doc_第2页
回归分析理论.doc_第3页
回归分析理论.doc_第4页
回归分析理论.doc_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

回归分析第一节 回归分析的意义 一、什么是回归分析 回归分析是根据一个已知变量来预测另一个变量平均值的统计方法。回归与相关之间既存在着密不可分的关系,也有本质的区别。从关系看,若两变量无相关时(即r=0),则不存在预测的问题;若两变量存在关系,那么相关程度愈高,误差愈小,预测的准确性越高。当变量完全相关时(即r=1),意味着不存在误差,其预测将会完全准确的。从区别看,一是相关表示两个变量双方向的相互关系,回归只表示一个变量随另一个变量变化的单方向关系。二是回归中有因变量和自变量的区分,相关并不表明事物的因果关系,对所有的研究变量平等看待,不作因变量、自变量的区分二、回归分析的内容通过回归分析主要解决以下几个问题:(1)确定几个变量之间的数学关系式。(2)对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。(3)利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。回归分析内容:(一)建立回归方程(二)检验方程的有效性(三)利用方程进行预测(四)进行因素分析第二节 一元线性回归方程的建立一、一元线性回归意义一元线性回归是指只有一个自变量的线性回归(linear regression),对具有线性关系的两个变量,回归的目的首先是找出因变量(一般记为)关于自变量(一般记为)的定量关系。如例11-1:10位大一学生平均每周所花的学习时间及他们期末考试成绩。观察数据我们可以发现两者之间呈正相关,不过更直接的方法是绘制散点图,即分别用两列变量做横、纵轴,描点。若它们的分布在一条带状区域,就预示着两列变量之间有相关,如图11-1所示。若没有随机误差的影响,这些点将落在一条直线上,这条直线称回归线(regression line),它是描述因变量Y关于自变量X关系的最合理的直线。 Y 100 90 80 70 60 50 60 70 80 90 100 110 X 图11-1 两列变量的关系图二、一元线性回归方程因回归表示两个变量单方向的推算关系,所以既可以用去预测,也可以用去预测。因此,回归方程有两个。以为自变量预测因变量时,方程为 以为自变量预测因变量时,方程为 三、和的求解原则和方法(一)最小二乘法建立一个线性回归方程实际上就是确定一条直线,也就是求公式中的两个常数截距和回归系数,而研究这样一条直线的常用方法是最小二乘法,这种方法需要我们找到这样一条直线,使所有的点到直线的垂直距离的平方和最小,也称最小平方法或最小二乘估计。就方程而方,对平面上任何一条直线我们都可以用数量()去刻划点(,)到这条直线的远近。其中, 是实际观测值,是估计值。由于,所以当我们用去估计时,要使其估计的误差平方和尽可能小。当最小时,方程所表示的直线就是最优拟合直线。所以求最优拟合方程的问题就可以归结为根据实际观测值求出方程中的两个常数和,使的值最小。根据数学分析中的极值原理,当最小时,中的常数和可以由下列公式求出某一点的误差为 回归线之斜率为对边比邻边,即有 将代入,有 将误差平方,则有 各个点误差的平方和为 又 将代入,有 由分别求,的偏导数,并令它们等于0,则有根据偏导数特性,有整理后,则有将代入,得所以,回归系数和截距的计算公式分别为同理,方程中求,的公式为(二)回归系数的其他计算法1定义式 2计算式 同理,有根据例11-1的数据可以计算有关的统计量如下,求其回归系数和截距。, 所以,以学习时间预测考试成绩的回归方程为 若某人的学习时间为35小时,其考试成绩则为 3相关系数法 同理,如例11-1,已知,用相关系数法计算回归系数如下。4均数和标准差计算法其中,。若,则有如例11-1,已知,用均数和标准差计算如下。三、解释和计算相关与回归的有关问题(一)测定系数解释相关系数是否显著时,必须谨记的是随着样本容量的增大,达到显著性的相关系数会越来越小对于相关系数,我们不仅要问是否显著,还要问有多大。为了回答这一问题,测定系数是一个非常重要的概念。测定系数是相关系数的平方,用于说明一个变量由另一个变量解释的程度。所以,即使相关系数是显著的,但如果测定系数不大,那么预测的作用也不大。假设相关系数为0.2,其回归的贡献仅为0.04,因此用X来预测Y是不恰当的。(二)两列变量的一致性问题计算相关的时候,必须谨慎对待数据的一致性。一致性是指两列变量对应的点必须均匀地落在回归线的附近。边缘点和聚集点对相关系数有很大的影响,会掩盖变量之间的真正关系。第三节 一元线性回归方程的检验回归方程在一定程度上揭示了特定变量之间的相关关系,并找出了代表这一关系比较合适的数学模型。但方程的效果如何,只有在两变量具有显著的线性相关关系时,所建立的回归方程才是有效的。一、方程效果的检验以来说:根据方差分析的原理,在回归的方差分析中总变异被分解为自变量的变异和误差的变异。其分析过程也是从总平方和的分解到自由度的分解,再到均方,最后是进行自变量对误差影响程度进行比较。回归平方和的大小反映着自变量的重要程度,而误差平方和大小则反映了实验误差及其他因素对实验结果的影响。因变量的平方和为 又 即:总平方和 = 误差平方和 + 回归平方和回归平方和的公式推导如下。 , 直线回归方程效果的好坏取决于回归平方和与误差平方和(剩余平方和)的大小,它反映着回归效应与误差效应的大小,当回归效应等于或接近误差效应时,比值等于1或接近1,说明回归效应不显著;随着回归效应影响的增加,值逐渐增大,当值达到一定的临界水平时,我们就可以做出回归效应显著的决策。换句话说,方程效果的好坏取决于回归平方和在总平方和中所占的比例,即比例愈大说明回归效果越好,自变量与因变量之间的线性关系越显著;反之则越差。以例11-1的回归方程为例,检验其方程效果。1)建立假设:方程效果不显著,即自变量X与因变量Y之间没有显著的线性关系。:方程效果显著,即自变量X与因变量Y之间存在着显著的线性关系。2)方差分析 求平方和, 求均方 求回归率3)比较与决策当分子自由度为1,分母自由度为8时,。因为,0.05),则与之间无显著差异,其差异主要是抽样误差,可忽略不计,说明是来自总体。这时即使计算的值较大也不能认为与之间存在线性关系。相反,若在以的抽样分布上出现误差的概率较小(即0.05,则与之间存在显著差异,说明并非来自的总体。这时即使计算出的值较小,也应承认与存在着线性关系。回归系数的检验采用检验法,其公式为 (二)回归系数的标准误1定义式在方程中,当回归线上与所有自变量()相对应的各个因变量的残值(即)都呈正态分布,且残值的方差齐性时,可以直接用殖值()的估计误差及自变量的离差平方和表示回归系数的标准误,即有 又 同理,在方程有2相关法同理,对方程,有如例11-1:其回归方程为1)建立假设:,:2)计算统计量 求样本回归系数的标准误残值法:相关法: 求t值或 4)比较与决策当时,(或),0.05,关系显著。拒绝虚无假设,接受研究假设,表明两个变量之间存在显著的线性关系。第四节 预测一、预测的意义建立回归方程的最终目的是利用方程从已知事实推测相应的未知事实,即进行预测(forecast)。预测是将已知变量值作为自变量代入相应的回归方程而推算出另一个变量的估计值及置信区间统计方法。二、预测的标准误(一)定义式(二)相关法当样本容量很大时,且接

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论