数理统计结课论文.doc_第1页
数理统计结课论文.doc_第2页
数理统计结课论文.doc_第3页
数理统计结课论文.doc_第4页
数理统计结课论文.doc_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数理统计结课论文20114073143数理统计中回归分析的探究与应用黑龙江八一农垦大学回归分析问题探究摘要本文主要针对数理统计中的回归分析问题,通过对一元线性回归、多元线性回归以及非线性回归原理的探究,分别运用了SPSS和MATLAB软件进行实例分析以及进一步的学习。首先,通过变量之间关系的概念诠释引出回归函数Y=fx+ ;其次,针对回归函数,分别对一元线性回归原理上的学习,了解并会运用这三种线性回归模型、参数估计和回归系数的显著性检验来处理和解决实际的一元线性回归问题;接着,对多元线性回归和非线性回归进行学习,掌握它们与一元线性回归在理论和实践的联系与区别;然后,通过实际问题运用SPSS进行简单的分析,熟悉SPSS软件的使用步骤和分析方法,能够运用SPSS进行简单的数理分析;最后,用MATLAB编程来处理线性回归问题,通过多种方法进行比较,进行线性回归拟合计算并输出Logistic模型拟合曲线。关键词:回归分析;一元线性回归;多元线性回归;非线性回归;SPSS;MATLAB一、 回归概念一般来说,变量之间的关系大致可以分为两类:一类是确定性的,即变量之间的关系可以用函数的关系来表达;另一类是非确定性的,这种不确定的关系成为相关关系。相关关系是多种多样的,回归分析就是研究相关关系的数理统计方法。它从统计数据出发,提供建立变量之间相关关系的近似数学表达式经验公式的方法,给出相关行的检验规则,并运用经验公式达到预测与控制的目的。如随机变量Y与变量x(可能是多维变量)之间的关系,当自变量x确定后,因变量Y的值并不跟着确定,而是按照一定的停机规律(随机变量Y的分布)取值。这是我们将它们之间的关系表示为Y=fx+其中fx是一个确定的函数,称之为回归函数,为随机项,且N(0,2)。回归分析的任务之一就是确定回归函数fx。当fx是一元线性函数形时,称之为一元线性回归;当fx是多元线性函数形时,称之为多元线性回归;当fx是非线性函数形时,称之为非线性回归。二、 回归分析2.1 一元线性回归分析2.1.1 一元线性回归模型设随机变量Y与x之间存在着某种相关关系,这里x是可以控制或可以精确测量的普通变量。对于取定的一组不完全相同的值x1,,x2,xn,做独立实验得到n对观察值(x1,,y1),(x2,,y2),,(xn,,yn)。一般地,假定x与Y之间存在的相关关系可以表示为Y=a+bx+,其中为随机误差且N(0,2),2未知,a和b都是未知参数。这个数学模型成为医院线性回归模型,称y=a+bx为回归方程,它所代表的直线称为回归直线,称b为回归系数。对于一元线性回归模型,显然有YN(a+bx,2)。回归方程y=a+bx放映了变量X与随机变量Y之间的相关关系。回归分析就是要根据样本观测值xi,yii=1,2,n找到a和b适当的估计值a与b,建立线性回归方程y=a+bx,从而利用这个公式来近似刻画变量x与随机变量Y之间的关系。2.1.2 参数估计如何根据观测数据(x1,,y1),(x2,,y2),,(xn,,yn)得到回归方程y=a+bx呢?一个直观的做法就是:选取适当的a和b,使得直线y=a+bx上的点与实验数据中对应点之间的误差尽可能小。若记xi,yi为直线y=a+bx上的点,xi,yi为实验数据点,则表达式yi-yi=yi-a+bxi2,i=1,2,n就刻画了直线y=a+bx上点xi,yi与实验数据点xi,yi之间的偏离程度。通常我们记Qa,b=i=1nyi-a-bxi2,这样Qa,b就表示直线上相应点与全体数据点之间总的偏离程度。总得偏离程度越小,回归方程y=a+bx就越能客观放映出变量x与Y之间的线性关系。所以,在数理统计中,将能够使Qa,b取得最小值的a与b所确定的方程y=a+bx视为变量x与Y之间的线性回归方程。而且把利用这种思想求出的估计值a与b成为参数a与b的最小二乘估计,这种方法成为最小二乘法。我们利用微积分的知识来确定Qa,b取得最小值的条件。将表达式Qa,b=i=1nyi-a-bxi2分别对位置参数a与b求偏导数,并令其为零,即得Qa=-2i=1nyi-a-bxi=0,Qb=-2i=1nyi-a-bxixi=0。整理得na+i=1nxib=i=1nyi ,i=1nxia+i=1nxi2b=i=1nxiyi 。 上式称为正规方程组。由于xi不完全相同,所以正规方程组的系数行列式nnxnxxi2=ni=1nxi2-nx2=ni=1nxi-x2不为零。因此,我们得到的正规方程组的唯一解为b=i=1nxi-xyi-yi=1nxi-x2=i=1nxiyi-1ni=1nxii=1nyii=1nxi2-1ni=1nxi2 ,a=y-bx因此,我们得到了x与y之间的线性回归方程y=a+bx或y=y+bx-x这个线性回归方程表明,经验回归直线L是通过这n个数据点几何重心x,y且斜率为b的直线。为了计算方便起见,我们引入如下记号:Lxx=i=1nxi-x2=i=1nxi2-nx2=i=1nxi2-1ni=1nxi2Lyy=i=1nyi-y2=i=1nyi2-ny2=i=1nyi2-1ni=1nyi2Lxy=i=1nxi-xyi-y=i=1nxiyi-nxy=i=1nxiyi-1ni=1nxii=1nyi这样b=LxyLxx a=y-bx2.1.3 回归系数的显著性检验在上面的论述中,运用最小二乘法求回归方程的条件除了要求诸xi不完全相同外,没有其它条件,也就是说无论变量x与Y是否具有线性关系,只要诸xi不完全相同,使用最小二乘法总能求出a与b的一个无偏估计a与b,并能得到变量x与Y的一个线性回归方程y=a+bx 。若变量x与Y之间根本不存在线性关系,那么这个线性回归方程就没有任何意义。因此,实际问题中,我们必须对用最小二乘法求出的线性回归方程进行检验,来判断变量x与Y之间相关关系是否真的可由所得到的线性回归方程给出。若果变量x与Y之间存在线性相关关系,那么模型Y=a+bx+中b不应为零。否则,就有Y=a+,这意味着x与Y没有任何关系。因此,我们需要假设H0:b=0 ,H1:b0 进行检验。当拒绝H0时,认为变量x与Y之间有显著的线性相关关系,也称为回归效果显著。否则,称为回归效果不显著。这时变量x和Y之间的关系有很多种可能:或许二者之间关系不是线性的,或许除变量x之外还有其他不可忽视的因素对Y产生影响,甚至是它们的相关关系很弱,不是必须重视的。为了给出显著检验H0的拒绝域,先做一些准备工作,记SS=i=1nyi-y2,称SS为总偏差平方和,它反映了数据中变量取值y1,,y2,,yn,的离散程度。即SSR=i=1nyi-y2,称SSR为回归平方和,它放映了n个回归数值y1,,y2,,yn,相对于y的离散程度,它是由x去不同的值x1,,x2,xn而引起的。将yi=y+bxi-x 带入上述回归平方和表达式中,有SSR=i=1nbxi-x2=b2i=1nxi-x2=i=1nxi-xyi-y2i=1nxi-x2记SSE=i=1nyi-yi2,其中yi-yi称为第i个残差,i=1,2,n。SSE称为残差平方和,呀反映了n次试验的累计误差。由回归方程的意义知道,它是n次试验的累计误差的最小值,即SSE=i=1nyi-yi2=i=1nyi-a-bxi2=Qa,b小面推导残差平方和的计算公式,由yi-yi=yi-y+bxi-x=yi-y-bxi-x推得SSE=i=1nyi-yi2=i=1nyi-a-bxi2=i=1nyi-y2+b2i=1nxi-x2-2bi=1nxi-xyi-y=i=1nyi-y2-b2i=1nxi-x2这样我们就得到平方和的分解公式SS=SSR+SSE对回归系数的显著性检验一般有一下三种方法(1)t检验法 (回归系数的显著性检验)取检验统计量T=bi=1nxi-x2可以证明,当H0:b=0成立时,Tt(n-2)于是,在显著性水平下,当t=bi=1nxi-x2t0.5(n-2) 时,拒绝H0,认为回归效果显著。在回归分析中,t检验用于检验回归系数的显著性,即检验因变量y对自变量x的影响程度是否显著。(2)F检验法 (回归系数的显著性检验)取检验统计量F=(n-2)ssRssE这里的F检验其实就是方差分析的内容,见下表2.1表2.1 一元线性回归方程的方差分析表方差来源平方和自由度均方F值回归ssR1MSR=ssR1F=MSRMSE误差ssE2MSE=ssEn-2总计SSn-1可以证明,当H0:b=0成立时,FF(1,n-2)。于是在显著水平下,确定临界值F(1,n-2)。当f=(n-2)ssRssEF(1,n-2)时,就拒绝H0,说明总体回归系数b0,即回归方程是显著的。由于T2=F,所以F检验法与T检验法基本上式一致的。在线性一元回归分析中,回归方程的显著性检验和回归系数的显著性检验作用是相同的,两者可以互相替代。(3)回归方程的拟合优度检验将回归平法和与总离差平方和之比定义为样本决定系数,又称判定系数,记为r2即r2=ssRssE=i=1nyi-y2i=1nyi-yi2决定系数是一个衡量回归直线对样本观测值拟合优度的相对指标,反映了变量的波动中能用变量所解释的比例。r2的值总是在01之间,r2越接近1,拟合度就越好;反之,说明模型中给出的x对y信息还不充分,回归方程效果不好,应该进行修改,使x与y的信息得到充分利用。2.1.4 预测与控制回归方程的重要应用就是预测和控制问题。所谓控问题,就是对于给定的点x=x0,预测出y的取值范围。控制问题则是问题的反问题,就是将y限制在某个范围内,应如何控制x的取值。(1) 预测问题设自变量x0与因变量y0服从模型y0=a+bx0+00N(0,2)且y0与样本y1,y2,yn相互独立。首先,我们计算x=x0时的回归值y0=a+bx0将y0作为y0的预测值,但这样求出的预测值一般来说是有误差的。产生误差的原因,一是由于y0只是平均值Ey0的一个估计,而y0的实际值很可能偏离它的平均值;二是因为y0的取值是依赖于估计值a与b的,而a与b是随机抽样误差的。因此我们还需要求出y0的预测区间即置信区间。y0双侧1-预测区的上下限为y0t2n-2d或+bx0t2(n-2)1+1n+x0-x2i=1nxi-x2双侧预测1-区的长度为2t2(n-2)1+1n+x0-x2i=1nxi-x2在实际回归问题中,样本容量n常是很大的,这时对于在x附近的x来说,我们能得较短的预测区间,而且当x=x0时长度最短,这事预测效果最佳。反之,当x0得取值超出原始的试验点x1,,x2,xn的范围之外时,由于此时预测区间长度过宽,将会导致预测效果不好。当n较大时,通常d取1,且n用代替,t2用u2代替。这时预测区间的上下限简化为y0u2(2) 控制问题在实际问题中,我们还会遇到控制问题,即若要求观察值y在某个区间y1,y2内取值时,问应控制x在什么范围?也就是要求对于给定的置信度1-,求出相应的x1和x2,使得当x1x2u2.2.2 多元线性回归分析在实际问题中,一般影响因变量的因素常常不止一个,这就是因变量与多个自变量相关关系问题,要用多元回归的方法来解决。2.2.1 多元线性回归的数学模型多元线性回归模型的一般形式:Y=0+1x1+2x2+x+式中,0,1,是+1个未知数,称为回归系数。Y称为被解释量,而x1,,x2,x是个可以精确测量并可控制的一般变量,称为解释变量。=1时,上式即为上一节分析的一元线性回归模型,2时,我们就成上式为多元线性回归模型,这里是随机误差。与一元线性回归模型一样,对随机误差项我们常假定其期望值为零、方差为2的正态分布N0,2。对于一个实际问题,如果我们获得n组观测数据xi1,xi2,xi;yi,i=1,2,n把这些观测值代入上式可得样本多元线性回归模型:y1=0+1x11+2x12+x1+1y2=0+1x21+2x22+x2+2 yn=0+1xn1+2xn2+xn+n写成矩阵形式为:Y=X+其中:Y=y1y2yn;x=11x11x12x1x21x22x2 1xn1xn2xn;=01;=12n2.2.2 多元线性回归模型的基本假定为了对模型参数进行估计和推断,常常要对回归模型Y=X+做如下的假定:1)解释变量x1,x2,x3,xp是确定性变量,不是随机变量,且要求矩阵x中的自变量列之间不相关,样本容量的个数应大于解释变量的个数。2)随机误差项具有零均值和同方差,即Ei=0,i=1,2,.,ncovi,j=2,i=j0,ij i.j=1,2,.,n3)正态分布的假设条件:iN0,2 i.j=1,2,.n由上述假设和多元正态分布的性质可知:y服从n维正态分布,且YN(X,2I)。2.2.3多元回归模型的参数估计多元线性回归方程未知参数0,1,2,.,p的估计与一元线性回归方程的参数估计原理一样,所以选择的估计值y与观测值y之间的残差在所有样本点上打到最小,即使Q达到最小。所以求0,1,2,.,p,使得Q0,1,2,.,p=I=1n(yi-0-1xi1-pxip)2=min,即i=1nyi-yi2=i=1nei2=Y-XBY-XB=mini=1nyi-0-1xi1-pxip2有多元函数求极值点的方法可求得回归系数的最小二成估计值为:B=XX-1X-1Y另外,未知参数2的一个无偏估计2=i=1nyi-yi2n-p-1=SEEn-p-1,实际就是残差均方和(MSE)。2.2.4多元线性回归模型的显著性检验多元线性回归模型的显著性包括两方面的内容:一是对整个回归方程的显著性检验,即F检验;另一个是对个回归系数的显著性检验,即t检验。在一元线性回归方程的检验时,这两个检验时等价的,但在多元线性回归模型的检验时两者却不同。(1) 回顾方程的显著性检验1. 提出假设:H0:1=2=p:H1:1,i=1,2,p,不全为0.;2. 构建F统计量,见表2.2:表 5.2 多元线性回归模型的方差分析表方差来源平方和自由度均方和F值回归ssRPMSR=ssRpF=MSRMSE误差ssEn-p-1MSE=ssEn-p-1总计SSn-13. 给定显著水平,查F分布表,的临界值Fp,n-p-1;4. 若FFp,n-p-1,则拒绝H0,接受备择假设,说明总体回归系数i不全为零,即回归方程是显著的;反之则认为回归方程不显著。(2) 回归系数显著性检验1. 提出假设:H0:1=0;H1:i0,i=1,2,p2. T检验的计算公式为:ti=iSi,其中Si=Vari=ch是回归系数标准差,ch是XTX-1中第i+1个主角线元素。t值应该有p个队每一个i=1,2,p可以计算一个t值。3. 给定显著水平,确定临界值t2n-p-1;4. 若tit2n-p-1,则拒绝H0;接受备择假设,说明总体回归系数i0。(3) 多元线性回归方程的拟合度检验采用调整的决定系数r2作为统计量r2=1-SQn-p-1LYYn-1r2的取值范围和数值大小的意义与r2是完全相同的。2=1n-p-1i=1nyi-0+1Xi1+Xi2.3非线性回归分析在对实际的客观现象进行定量分析时,对变量间非线性相关问题的曲线拟合,处理的方法有:1. 决定非线性模型的函数模型,对其中课线性化的问题则通过变量将其线性化,从而归结为前面的多元线性回归问题来解决。2. 方程形式应与有关实质型科学的基本理论一致。例如,采用幂函数的形式,能够较好的表现生产函数;采用多项式方程能够较好的反映总成本与总产量的关系等等。3. 若实际问题的曲线类型不易确定时,由于任意曲线皆可由多项式来逼近,故常可用多项式回归来拟合曲线。4. 若变量间非线性关系已知,且难以用变量变换法将其线性化,则进行数值法迭代的非线性回归分析。5. 一般来说,数学形式越简单,其可操作性就越强。根据经验公式或散点图,选择适当的曲线回归方程。为了确定其中的未知参数,往往可以通过变量代换,把非线性回归化为线性回归,然后用线性回归的方法确定这些参数的值。(1) 直接代换法直接替换法适用于变量之间关系虽然是非线性的,但因变量参数间关系却是线性的非线性模型;i. 多项式模型基本形式:y=0+1x+2x2+x线性化方法:令Zi=xi转化为线性模型:y=0+1Z1+2Z2+Zii. 双曲线模型基本形式:y=xx+线性化方法:令U=1y;V=1x,转化为线性模型:U=0+1V即1y=0+1x(2) 间接替换法间接代换法是先通过方程两边取对数后再进行变量代换,转化为线性形式。1. 指数函数基本形式:y=ex线性化方法:两端去自然对数 lny=lna+x 令y=lny,转化为线性模型:y=ln+x2. 幂函数基本形式:y=x线性化方法:两端去对数 logy=log+logx 令y=logy,x=logx转化为线性模型:y=log+x三、 SPSS软件操作及应用实例1) 定义变量和输入、整理数据。2) 选择“分析/回归/线性”,在线性回归窗口自变量和因变量,单机“统计量”按钮,在弹出的窗口设置参数;单机“图”按钮,可以选择输出的图形。最后单击继续按钮。3) 在结果输出窗口的一元或者多元线性回归计算结果。根据选择参数不同,得到ANOVA和回归系数等数据。例1:拖拉机拉杆的朱爱丽和速度有关,测得拖拉机在速度X下的拉力Y,数据见下表,求Y对x 回归方程。变量数据X 0.9 1.3 2.0 2.7 3.4 4.1 5.2 5.5 6.0 425 420 480 495 540 530 590 610 690 680首先,在SPSS的数据编辑窗口的Variable View 界面定义变量和在Data view 界面输入数据,见下图。其次,选择“分析”,在窗口选择自变量也因变量,设置“统计量”的窗口设置参数等,见下图最后点级确定,输出结果,见下图描述性统计量均值标准 偏差NY546.000095.7369110X3.45001.7633610相关性YXPearson 相关性Y1.000.982X.9821.000Sig. (单侧)Y.000X.000.NY1010X1010模型汇总模型RR 方调整 R 方标准 估计的误差更改统计量R 方更改F 更改df1df2Sig. F 更改1.982a.964.96019.18691.964216.07418.000a. 预测变量: (常量), X。Anovaa模型平方和df均方FSig.1回归79544.899179544.899216.074.000b残差2945.1018368.138总计82490.0009a. 因变量: Yb. 预测变量: (常量), X。系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)362.06613.90626.036.000X53.3143.627.98214.699.000a. 因变量: Y结果分析:从运行求得回归方程中可知,X的系数为53.314,常数项为362.066,于是,回归方程为y=362.066+53.314X散点图如下图所示:经检验,回归方程的显著性达到0.0001,极显著;对回归方程系数及常数项T检验都达到极显著,说明该方程有应用价值。四、 MATLAB应用实例炼钢厂出钢水时用的钢包,在使用过程中由于钢水及炉渣对耐火材料的浸蚀,其容积不断增大。现在钢包的容积用盛满钢水时的重量y(kg)表示,相应的试验次数用x表示。数据见表4.1,要找出y与x的定量关系表达式。表4.1 钢包的重量y与试验次数x数据序号xy序号xY12106.42811110.5923108.20914110.6034109.581015110.9045109.501116110.7657110.001218110.0068109.931319110.20710110.49x1=1./x;y1=1./y;plot(x1,y1,k+); %变换后数据的散点图x2=ones(13,1) x1;b,bint,rint,stats=regress(y1,x2);z=b(1)+b(2)*x1;yc=1./z;plot(x1,y1,k+,x1,z,r)%变换后数据的散点图和回归直线图变换后数据的散点图及回归直线图R2=1-sum(y-yc).2)/lyy;%模型的拟合优度系数plot(x,y,k+,x,yc,r)%数据的散点图和回归曲线图legend(散点图,回归函数)b = 0.00896662968057 0.00082917436336R2 =0.97292374957556第一种方法的程序:format longx=2 3 4 5 7 8 10 11 14 15 16 18 19;y=106.42 108.20 109.58 109.5 110 109.93 110.49 110.59 110.60 110.9 110.76 111 111.20;plot(x,y,k+);%数据的散点图x1=1./x;y1=1./y;plot(x1,y1,k+); %变换后数据的散点图x2=ones(13,1) x1;b,bint,rint,stats=regress(y1,x2);z=b(1)+b(2)*x1;yc=1./z;plot(x1,y1,k+,x1,z,r)%变换后数据的散点图和回归直线图n=length(x);lyy=sum(y.2)-n*(mean(y)2;R2=1-sum(y-yc).2)/lyy;%模型的拟合优度系数b = 0.00896662968057 0.00082917436336R2 =0.97292374957556用类似的方法可以得出其它三个曲线回归方程,它们分别是: 第二种方法的程序:format longx=2 3 4 5 7 8 10 11 14 15 16 18 19;y=106.42 108.20 109.58 109.5 110 109.93 110.49 110.59 110.60 110.9 110.76 111 111.20;x1=log(x);y1=y;x2=ones(13,1) x1;b,bint,rint,stats=regress(y1,x2);bz=b(1)+b(2)*x1;yc=z;n=length(x);lyy=sum(y.2)-n*(mean(y)2;R2=1-sum(y-yc).2)/lyy;plot(x,y,k+,x,yc,c);legend(散点图,回归函数)b = 1.0e+002 * 1.06314674075167 0.01713977247928R2 =0.87731500489620第三种方法的程序:format longx=2 3 4 5 7 8 10 11 14 15 16 18 19;y=106.42 108.20 109.58 109.5 110 109.93 110.49 110.59 110.60 110.9 110.76 111 111.20;x1=sqrt(x);y1=y;x2=ones(13,1) x1;b,bint,rint,stats=regress(y1,x2);bz=b(1)+b(2)*x1;yc=z;n=length(x);lyy=sum(y.2)-n*(mean(y)2;R2=1-sum(y-yc).2)/lyy;plot(x,y,k+,x,yc,k);legend(散点图,回归函数)b = 1.0e+002 * 1.06301275014382 0.01194728720517R2 = 0.78514164407253三种方法的拟合效果比较:R2 =0.97292374957556R2 =0.87731500489620R2 = 0.785141644072531.原始数据下表给出了某地区19712000年的人口数据(表1)。试分别用Matlab和SPSS软件,对该地区的人口变化进行曲线拟合。表4.2 某地区人口变化数据年份时间变量t=年份-1970人口y/人1971133 8151972233 9811973334 0041974434 1651975534 2121976634 3271977734 3441978834 4581979934 49819801034 47619811134 48319821234 48819831334 51319841434 49719851534 51119861634 52019871734 50719881834 50919891934 52119902034 51319912134 51519922234 51719932334 51919942434 51919952534 52119962634 52119972734 52319982834 52519992934 52520003034 527根据上表中的数据,做出散点图,见图1。图 4.1 某地区人口随时间变化的散点图从图1可以看出,人口随时间的变化呈非线性过程,而且存在一个与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论