回归分析总结_第1页
回归分析总结_第2页
回归分析总结_第3页
回归分析总结_第4页
回归分析总结_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

回归分析最广泛使用的方法之一。但是回归分析需要大的样本,只能通过大量数据进行量化规律,这给解决很多无法获得数据或暂时不足的实际问题带来了困难。回归分析还需要多少样本有更好的分布规律,但很多实际情况并非如此。例如,我国建国后,经济方面大幅度粉碎,标本很难有更有规律的分布要求。因此,有大量数据并不一定能得到统计规律,有统计规律也不一定能被任何情况分析。此外,回归分析不能分析元素之间的动态相关性,即使是静态的,准确度也不高,经常发生之前关于曲线拟合问题的异常现象。曲线拟合问题的特点是根据结果变量的数据集找到变量和(一个或多个)参数之间的函数,并最好地拟合相应的数据集。通常,函数的形式可以由经验、先验知识或数据的可视观察确定,要执行的任务是在数据中使用最小二乘法方法计算函数的待定系数。从计算的角度看,问题好像完全解决了,有必要进一步研究吗?从数学统计的角度来看,这里涉及的都是随机变量,我们是根据一个样本计算出来的系数,只能是一个(点)估计,如果有可靠的区间,就要进行区间估计或假设检验如果包含太大到零,系数估计值就没有什么意义了。也可以用方差分析方法分析模型的误差,评价拟合的优劣。简单地说,回归分析是拟合的问题的统计分析。标准化处理数据的中心意味着转换转换数据的无量纲处理在实际问题中往往具有不同变量的不同度量单位。数据分析中常用的标注删除方法是,消除变量的标注效果,使每个变量具有相同的表达力,即使每个变量的方差等于1,不同的变量也称为所谓压缩处理标准化处理所谓数据的标准化处理是指同时集中数据的压缩处理一元线性回归假设基于最小二乘准则的n个值的n个对应值取最小值。利用极值先决条件令,求出了估计值,得到了回归线。但是这个过程不需要复杂的运算,在软件中可以通过直线拟合实现。(1)参数的区间估计由于计算的值仍然是随机变量,因此如果范围估计值是较短的间隔,则必须估计表示模型精度更高的值范围。(2)误差方差估计回归函数的值、测量值、残差平方和剩馀方差(3)线性相关性测试使用一元线性回归,因此如果模型可用,则线性关系必须很好。反映模型是否具有良好的线性关系,可以通过相关系数r的值和f的值来观察(后面的示例将进行说明)。残差合计越小,拟合方程越好。残差越小,拟合值越接近观测值,每个观测点聚集得越靠近拟合线,即拟合方程能力越强。还说明了e S越多,残值I e的变异就越小。因为残差的样本平均值为零,因此,离散范围越小,模型拟合得越精确。例1测定16名成年女性身高和腿长的数据如下。表8-1 16女性肾(cm)腿长(cm)数据88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164如果先使用plot(x,y,r*)命令绘制散点图,您会发现这些点大致分布在一条直线上,因此可以考虑一元线性回归。可准备的程序如下:输入% y(变量,列矢量),x(1和参数组成的矩阵,请参见以下示例)。alpha是重要级别(默认值为0.05)。输出,注意:b的元素顺序(系数)与拟合命令polyfit的输出不同,它包含四个统计信息:bint为置信区间,r为残差(列向量),rint为残差置信区间,s为确定系数(相关系数r)。f值;分布大于F(1,n-2) f值的概率p;剩馀扩散值(MATLAB7.0和更高版本)。也可以由程序sum (R. 2)/(n-2)计算。其含义和用途如下:的值越接近1,变量的线性相关性越强,表明模型有效。如果满意,则认为变量具有重要的线性关系。其中,值是通过查找f分布表或使用MATLAB命令finv(1-,1,n-2)直接计算的。表示线性模型可用时。这三个值可以互相证明。的值主要用于比较模型是否改进,值越小表示模型精度越高。y=143145 146147 149 153 154 155 156 157158 159 160 162 164;x=88 88 91 92 93 93 95 96 98 97 96 98 99 100 102;Plot(x、y、r*)N=16X=ones(n,1),x;b,bint,r,rint,s=regress (y,x,0.05);b、冰、s、Rcoplot(r,rint)运行后即可获得B=31.7713 1.2903Bint=12.3196 51.22291.0846 1.4960S=0.9282 180.9531 0.0000 3.1277=0.9282,finv(0.95,1,14)=4.6001,即=4.6001m,n组观测值,回归方程通过最小二乘估计得出.建立回归模型是一个相当复杂的过程,主要汇总以下任务:(1)根据研究目的收集数据并进行预分析。(2)根据散点图是否具有线性关系,建立基本回归模型。(3)模型的细致分析;(4)确认和应用模型。数据收集的经验准则之一是,收集的数据量(样本容量)必须至少是可能收购数的6-10倍。建模过程中,首先根据所研究问题的目的设置原因变量,然后选取与该变量具有统计关系的某些变量作为自变量。我们当然想选择与问题有密切关系的变量,同时,这些变量之间的相关性不太强。这是获得初步模型后,可以使用MATLAB软件检查相关性。以下示例说明了MATLAB软件在回归分析建模的各个方面的应用。多元线性回归的MATLAB实现Regress(y,X)命令通过以下示例说明其用法,只注意矩阵X的形式:表8-2从事特定研究的学者的相关指标数据I1234567891011123.55.35.15.84.26.06.85.53.17.24.54.992018333113253054725116.16.47.46.77.55.96.04.05.88.35.06.433.240.338.746.841.437.539.040.730.152.938.231.8创建变量y和每个变量的示例散点图散点图的目的主要是通过观察变量y和每个变量之间是否存在更好的线性关系来选择适当的数学模型形式。下图是年薪y和绩效质量指标、研究工作时间和提供资金的指标之间的散点图。Subplot(1,3,1)、plot(x1,Y,g*)、Subplot(1,3,2)、plot(x2,Y,k)、Subplot(1,3,3)、plot(x3,Y,ro)、如图中所示,这些点大致分布在一条直线旁边,因此线性关系更好,并且可以使用线性回归。y和x1的散点图y和x2的散点图y和x3的散点图图8.1变量y及其变量的示例散点图使用MATLAB统计工具箱获得初步回归方程。将回归方程设置为:M-创建文件输入以下程序数据:N=24m=3;X=ones(n,1),x1,x2,x3;b,bint,r,rint,s=regress (y,x,0.05);b、bing、r、lint、s、Rcoplot(r,rint)运行后的结果见表8-3。表8-3初步回归模型计算结果回归系数回归系数的估计值回归系数的置信区间18.015713.9052 22.12621.08170.3900 1.77330.32120.2440 0.39841.28350.6691 1.8979=0.9106 F=67.9195 p0.0001=3.0719计算结果包括回归系数b=()=(18.0157,1.0817,0.3212,1.2835),置信区间不包括0。残差和置信区间;统计变量stats是4个检验统计(相关系数的平方),包括检验统计f、f的相应概率p、的值(7.0之前的版本也可以由程序sum (R. 2)/(n-m-1)计算)。所以我们得到初始回归方程。根据结果判断模型:如果回归系数置信区间不包含0,则表明模型更好,残差接近于0,则表明模型更好。然后使用检验统计信息r、f、p的值确定模型是否可用。(1)相关系数r的评价:一般来说,相关系数绝对值在0.81的范围内,可以确认回归自变量和相关变量具有强线性相关性。此r的绝对值为0.9542,表示线性相关性强。(2) f测试方法:即认为变量和参数之间存在显著的线性相关性。否则,变量和参数之间的线性相关性将被视为无关紧要。此范例f=67.919=3.10(检查ff分布表或输入指令finv(0.95,3,20)进行计算)。(3) p值检查:如果是预先确定的重要性级别,则表明变量和参数之间存在显着的线性相关性。此范例输出结果p0.0001,显然符合P=0.05。上述三种统计推断方法推导出的结果是一致的结果,表明可以使用结果线性回归模型,因为变量和参数之间存在显著的线性相关性。当然,越小越好。这主要用作模型增强时的参照。模型的细致分析和改进(1)残差分析残茶。每个观测值与回归方程式对应的拟合值之差,实际上是线性回归模型的误差估计。也就是说,有零平均值和常数方差,并利用残差的这种特性逆向调查原有模型的合理性,这是残差分析的基本思想。利用MATLAB进行残差分析是通过残差图或时序残差图。残差图是散布图,以纵座标表示残差,以指定的其他量为横座标。主要包括:(1)横坐标为观测时间或观测顺序;(2)横坐标是参数的观测。(3)横坐标是变量的管接头值。通过观察残差图,可以分析奇点,分析误差的等偏差性,并直观地检查回归函数是否包含其他自变量、自变量的父项和交叉项。以观察顺序编号为横坐标、以残差为纵坐标的散点图称为时序残差图,绘制时序残差图的MATLAB语句为rcoplot(r,rint)(图8.2)。可以很清楚地看到残差大部分分布在0附近,但第4,12,19个采样点的残差离原点很远,通过起点看,消除后重新拟合,回归模型为:回归系数的置信区间不包括原点,统计变量stats包括相关系数的平方和检验统计f,概率p,分别为0.9533的三个检验统计。115.5586;0.0000,比较表明,r,f都改进了增加的模型。图8.2计时残差图(2)变量之间相互作用的讨论变量之间的交互包括不同参数之间的交互以及相同变量的自相关性。参数之间的相互作用:在某些情况下,实验中的单个元素不仅影响指标,元素之间的结合也影响指标,这称为相互作用。处理两个元素之间交互的简单方法是添加两个参数的乘积。对于此文档,添加交互组件包括:使用表8.2中的数据,MATLAB统计工具箱的回归系数分别为27.0727,1.1147,-0.0215,-0.1843,0.0033,-0.0054和0.0511。但是,由于它们的置信区间包含原点,其他指标也不理想,因此在此示例中,与前面两个模型相比,良好的交互并不重要。自相关诊

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论