回归分析相关定义.(精选)_第1页
回归分析相关定义.(精选)_第2页
回归分析相关定义.(精选)_第3页
回归分析相关定义.(精选)_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、回归分析是一类数学模型,特别当因变量和自变量为线性关系时,它 是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量,且它 们大体上有线性关系,这叫一元线性回归, 即模型为Y=a+ bX+ £,这里X是自变量,Y是因变量,e是随机误差,一般的情形,有 k个自变量和一个 因变量,因变量的值可以分解为两部分:一部分是由自变量的影响,即表 示为自变量的 1燹,其中函数形式已知,但含一些未知参数;另一部分是由于其他未被考虑的因素和随机性 的影响,即随机误差。当函数形式为未知参数的线性函数时,称线性回归分析模型;当函数形式为未知参数的韭线出函数时,称为非线性回归分析模型。一相关分析研究的是

2、现象之间是否相关、相关的方向和密切程度,一般 不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式, 确定其因果关系,并用数学模型来表现其具体关系。两个变量之间到底是 哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来 确定。一般来说,回归分析是通过规定因变量和自变量来确定变量之间的 因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后 评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可 以根据自变量作进一步预测。R2又称为方程的确定性系数(coefficient of determination ),表示方程中变量X对Y的解释程度。R2取值在

3、0到1之间,越接近1,表明方程中 X对Y的解释能力越强。通常将R2乘以100%来表示回归方程解释Y变化的百分比。F检验是通过方差分析表输出的,通过显著性水平( significant level)检验回归方程的线性关系是否显著。一般来说,显著性水平在0.05以下,均有意义。回归分析的步骤根据预测目标,确定自变量和因变量明确预测的具体目标,也就确定了因变量。如预测具体目标是下一年 度的销售量,那么销售量 Y就是因变量。通过 市场调查 和查阅资料、寻找 与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。建立回归预测模型依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归 分析方

4、程,即回归分析预测模型。进行相关分析回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变 量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系 时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大, 就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关 关系,以相关系数的大小来判断自变量和因变量的相关的程度。检验回归预测模型,计算预测误差回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和 对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能 将回归方程作为预测模型进

5、行预测。计算并确定预测值利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后 的预测值。三、一元线性回归模型对于具有线性因果关系的两个变量,由于有随机因素的干扰,两变量的线性 关系中应包括随机误差项,即有:y a bx u( 93)对于x某一确定的值,其对应的y值虽有波动,但在大量观察中随机误差的 期望值为零,即E( )=o,因而从平均意义上说,总体线性回归方程为:Y E(Y) a bX(9_4)上式中,a是回归直线的截距项,即X为0时Y的值,从数学意义上理解, 它表示在没有自变量X的影响时,其它各种因素对因变量Y的平均影响;b是回 归系数(直线的斜率),表示自变量x每变动一个单位时,

6、因变量Y平均变动b个 单位。我们可通过样本观察值计算参数a、b的估计值,求得参数的估计值后,即 求得样本回归方程,用它对总体线性回归方程进行估计。 样本回归直线方程又称 一元线性回归方程,其表达形式为:?夕 bx(9 5)式中:?表示因变量的估计值(回归理论值);?和8是待定参数a和b的估 计值。一元线性回归方程中的待定参数是根据样本数据资料估计确定的。确定回归方程就是要找出a与b的估计值台及应使直线? ? B总体看来与所有的散点 最接近,即确定最优的今与统计学上常采用最小二乘法(Ordinary least squares estimation,亦称最小平方法)。设样本回归模型为:(9 6)

7、yi a?故 e i 1, 2, L , n 于是有:e yi a? & yi ?从式(9 6)可以看出,a?和?取不同值就有不同的样本回归直线,从而有不同的残差ei0为了保证残差最小,希望e接近于0,但由于有n个ei ,还必须考虑总体残差最小,又因为ei可能存在正负相互抵消,e最小不能真正表达总体残差最小的思想。故此又想到使 0最小,但使 e达到最小,确定参数估计值的计算较为复杂,最终选择普通最小二乘法确定 ?和8,就是估计使得所2有Y的估计值与观察值的残差平方和e达到最小的参数a?、8即:min Qe;(yi a?政J这就是最小二乘法的基本原理。由于本书旨在介绍该种方法在统计中的应

8、用,故数学推导过程省略,根据最小二乘法原理,利用微积分中求极值的方法,求得 a、b的估计值,口 n xyx yb22n x ( x)(9- 7)a? y bX当a?、8求出后,一元线性回归方程??B便确定了单次测量值x1与测定平均值之差的平方的总和,以 Q表示,Q值越大,表示测定值之间的差异越大,用偏差平方和表征差异的优点是能充分利用测度数据所提供的信息,缺点是 Q随着测定值数目的增多而增大,为了克服这一缺点,用笈上S2=Q/f来表征差异的大小,其中 f为自由度。如一个测定结 果受多个因素影响,则总偏差平方和等于 实验误差与各因素(包括固定因素 与随机因素)所形成的偏差平方和之总和。为了明确解

9、释变量和随机误差各产生的效应是多少,统计学上把数据点与它在回归直线上相应位置的差异称残差,把每个残差的平方后加起来称为残差平方和,它表示随机误差的效应 意义:每一点的y值的估计值和实际值的平方差之和称为残差平方和,而y的实际值和平均值的平方差之和称为总平方和。残差平方和:为了明确解释变量和随机误差各产生的效应是多少, 统计学上把数 据点与它在回归直线上相应位置的差异 称残差,把每个残差的平方后加起来称 为残差平方和,它表示随机误差的效应。回归平方和总偏差平方和二回归平方和+残差平方和。残差平方和与总平方和的比值越小,判定系数 r2的值就越大。残差图的评价“残差图”以回归方程的自变量为横坐标,以残差为纵坐标,将每一个自变量的残差描在该平面坐标上所形成的图形。当描绘的点围绕残差等于0的直线上下随机散布,说明回归直线对原观测值的拟

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论