数理统计-线性回归_第1页
数理统计-线性回归_第2页
数理统计-线性回归_第3页
数理统计-线性回归_第4页
数理统计-线性回归_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第4章章 回归分析回归分析 4.1 4.1 一元线性回归分析一元线性回归分析 4.2 4.2 多元线性回归分析多元线性回归分析变量之间的关系变量之间的关系确定性关系确定性关系相 关 关 系相 关 关 系2rS 确定性关系确定性关系身高和体重身高和体重相关关系相关关系相关关系的特征是相关关系的特征是:变量之间的关系很难用一变量之间的关系很难用一种精确的方法表示出来种精确的方法表示出来.回归分析的基本思想回归分析的基本思想变量之间的关系变量之间的关系 1.函数关系函数关系:变量之间依一定的函数形成的:变量之间依一定的函数形成的一一对应关系,若两个变量分别记做一一对应关系,若两个变量分别记做Y与与

2、X,则当则当Y与与X之间存在函数关系时,之间存在函数关系时,X值一旦被值一旦被指定,指定,Y值就是唯一确定的。如圆的面积与其值就是唯一确定的。如圆的面积与其半径之间的关系半径之间的关系.统计相关关系统计相关关系函数关系函数关系确定性关系确定性关系 2.统计相关关系统计相关关系:变量之间存在某种关系,:变量之间存在某种关系,但变量但变量Y并不是由变量并不是由变量X唯一确定的,它们唯一确定的,它们之间没有严格的一一对应关系。两个变量之间没有严格的一一对应关系。两个变量间的这种关系就是统计关系,亦称间的这种关系就是统计关系,亦称相关关相关关系系。例如。例如:小麦的产量小麦的产量Y与施肥量与施肥量x1

3、,品种品种x2等存在关系等存在关系,但给定但给定x1,x2的数值后的数值后Y的值还的值还是无法确定的是无法确定的. 两个变量之间若存在线性关系称为两个变量之间若存在线性关系称为线性线性相关相关,存在非线性关系称为存在非线性关系称为曲线相关曲线相关,通常,通常通过适当的变量变换,曲线相关可转换为通过适当的变量变换,曲线相关可转换为线性相关。线性相关。 一般说来一般说来,在给定在给定X=x条件下条件下Y的条件概的条件概率分布率分布 ,则则Y与与X的关系就清楚的关系就清楚了了.但在实际中要求解往往是非常困难的但在实际中要求解往往是非常困难的.xXyYp)(xuy 事实上事实上,对对Y而言而言,在实际

4、中只需知道它的在实际中只需知道它的某个数字特征某个数字特征:条件数学期望条件数学期望 就可以了就可以了.把把 称为称为Y关于关于X的回归方程的回归方程.)(xuxXYE xX 回归分析的作用回归分析的作用:在于通过对变量在于通过对变量X的观的观测值就可预测测值就可预测Y的取值的取值,并且当并且当 时时, 为为Y在方差误差意义下的最佳预测值在方差误差意义下的最佳预测值.)(xu确定性关系确定性关系和和相关关系相关关系的联系的联系:由于存在测量误差等原因由于存在测量误差等原因,确定性关系在实际确定性关系在实际问题中往往通过相关关系表示出来问题中往往通过相关关系表示出来;另一方面另一方面,当对当对事

5、物内部规律了解得更加深刻时事物内部规律了解得更加深刻时,相关关系也有可相关关系也有可能转化为确定性关系能转化为确定性关系.回归分析回归分析处理变量之间的相关关系的一处理变量之间的相关关系的一种数学方法种数学方法,它是最常用的数理统计方法它是最常用的数理统计方法.线性回归分析线性回归分析非线性回归分析非线性回归分析回回归归分分析析一元线性回归分析一元线性回归分析多元线性回归分析多元线性回归分析.)()( 间存在着相关关系间存在着相关关系之之自变量自变量和普通变量和普通变量因变量因变量设随机变量设随机变量xYxY1x2x1C2C)(2x .,)( 的分布函数的分布函数的的所对应所对应时时确定的值确

6、定的值取取表示当表示当YxxxyF. )(YEY的数学期望的数学期望考察考察)()(xYExY 的回归函数的回归函数关于关于xY问题的分析问题的分析 4.1 4.1 一元线性回归分析一元线性回归分析问题的一般提法问题的一般提法., 212121观察结果观察结果的独立的独立处对处对分别是在分别是在设设的一组不完全相同的值的一组不完全相同的值对对YxxxYYYxxxxnnn.),( ,),(),(2211是一个样本是一个样本称称nnYxYxYx).,( ,),(),( 2211nnyxyxyx对应的样本值记为对应的样本值记为. )(xxY 的回归函数的回归函数关于关于利用样本来估计利用样本来估计求

7、解步骤求解步骤1.推测回归函数的形式推测回归函数的形式方法一根据专业知识或者经验公式确定方法一根据专业知识或者经验公式确定;方法二作散点图观察方法二作散点图观察.温度温度x(oC)得率得率Y(%)10011012013014015016017018019045 51 54 61 66 70 74 78 85 89用用MATLAB画出散点图画出散点图例例1为研究某一化学反应过程中为研究某一化学反应过程中,温度温度 对产对产品得率品得率Y ( % )的影响的影响, 测得数据如下测得数据如下 .)(oCx.)(,的形式的形式具有线性函数具有线性函数观察散点图观察散点图bxax x=100:10:19

8、0;y=45,51,54,61,66,70,74,78,85,89;plot(x,y,.r)bxax )( 一元线性回归问题一元线性回归问题.,),( 22的未知参数的未知参数都是不依赖于都是不依赖于的每一个值有的每一个值有假设对于假设对于xbabxaNYx 2.建立回归模型建立回归模型那么那么记记),(bxaY .,)., 0( ,22的未知参数的未知参数是不依赖于是不依赖于xbaNbxaY 一元线性回归模型一元线性回归模型的线性函数的线性函数x随机误差随机误差3.未知参数未知参数a,b的估计的估计-最小二乘法最小二乘法)., 0( ,2 NbxaY ),( , ),( , ),(2211n

9、nYxYxYx对于样本对于样本.), 0(,2相互独立相互独立各各iiiiiNbxaY ., 2, 1, ),(2nibxaNYii 于是于是度函数为度函数为的独立性可得到联合密的独立性可得到联合密根据根据nYYY,21 221)(21exp21iinibxayL .)(21exp)21(122 niiinbxay ., ba知知参参数数用用最最大大似似然然估估计计估估计计未未函数为函数为样本的似然样本的似然对于任意一组观察值对于任意一组观察值, 21nyyy niiinbxayL122)(21exp)21( 取最大值等价于取最大值等价于L niiibxaybaQ12)(),(.取最小值取最小

10、值 niiiiniiixbxaybQbxayaQ110)(2 0)(2意义意义:实际测得的:实际测得的点与直线上的理论点与直线上的理论点之间的误差的平点之间的误差的平方和最小方和最小 niiiniiniiniiniiyxbxaxybxna112111)()( )(正规方程组正规方程组, 01211 niiniiniixxxn,)()(121 niiniiixxyyxxb,xbya .1,111 niiniiynyxnx其中其中bxax )( xbax)( 的经验回归函数的经验回归函数关于关于 xYxbay 的经验回归方程的经验回归方程关于关于 xY回归方程回归方程回归直线回归直线,xbya 由

11、于由于),(xxbyy ).,(yx几何中心几何中心回归直线通过散点图的回归直线通过散点图的,)( niixxxxl12记记,)(niiyyyyl12, )(niiixyyyxxl1,xxxyllb .)1(111bxnynaniinii 参数估计量的性质参数估计量的性质的最佳无偏估计量的最佳无偏估计量是是),(), (.baba1),(),(.xxxxlbNblxnaNa22212 例例2 例例1中的随机变量中的随机变量 Y 符合一元线性回归模型所符合一元线性回归模型所述的条件述的条件, 求求 Y 关于关于 x 的线性回归方程的线性回归方程 .温度温度x(oC)得率得率Y(%)1001101

12、2013014015016017018019045 51 54 61 66 70 74 78 85 89在在MATLAB中求解中求解x=100:10:190;y=45,51,54,61,66,70,74,78,85,89;polytool(x,y,1,0.05)源程序源程序程序运行结果程序运行结果回归图形回归图形参数传送参数传送置信区间置信区间帮助帮助7394248300.,.ab的估计的估计未知参数未知参数2. 4 )., 0( ,2 NbxaY .)()()()(2222 EDEbxaYE.)(, 2小小似导致的均方误差就越似导致的均方误差就越的近的近作为作为用回归函数用回归函数越小越小Y

13、bxax ,ixxixbayyi iiyy 处的残差处的残差ixniiiniiiExbayyyS12122)()(残差平方和残差平方和反应的是在试验中由随机因素反应的是在试验中由随机因素的影响而引起的误差的影响而引起的误差xyyylbl的相应的统计量为的相应的统计量为残差平方和残差平方和2ES.xYYYEl blS2 )(2222nSE .)(,)(222222 nSEnSEEExYYYElblnnS:212222 的无偏估计量为的无偏估计量为niiyyTyylS122)(离差平方和离差平方和反应整批反应整批数据的波动程度数据的波动程度niiRyyS122)(回归平方和回归平方和反应回归直反应

14、回归直线引起的偏差线引起的偏差222RETSSS平方和分解式平方和分解式)(2222nSE 并且并且例例3 求例求例2中方差的无偏估计中方差的无偏估计.,.)(2236710122iiEresidualsS.9030. 082236. 72 5.线性相关性的显著性检验线性相关性的显著性检验)., 0( ,2 NbxaY . 0: , 0: :10 bHbH检验假设检验假设为为不不真真时时有有线线性性关关系系为为真真时时无无线线性性关关系系00,HHkSSHH,xY,SS,SS:ERERER22002222的的拒拒绝绝域域为为于于是是拒拒绝绝有有显显著著的的线线性性关关系系之之间间与与因因此此可

15、可认认为为性性关关系系引引起起的的则则反反应应误误差差主主要要是是由由线线过过大大若若相相比比较较随随机机影影响响与与线线性性影影响响将将思思路路)()(),()(:2121220nFnSSFHER 的拒绝域为的拒绝域为1).F1).F检验法检验法),()(21222nFnSSFER ),()()(2111nF:kkFpkFp 得临界值为得临界值为的相关系数的相关系数与与为为xylllyyxxyyxxryyxxxyniiniiniii12121)()()(10 r.;称其不相关称其不相关无线性关系无线性关系与与时时当当特别特别的线性关系越差的线性关系越差与与则则越接近于越接近于越小越小当当的线

16、性关系越好的线性关系越好与与则则小接近于小接近于越大越大当当,x,Yr,xY,rxY,r001线性关系不显著线性关系不显著与与认为认为否则否则线性关系显著线性关系显著与与则若则若通过查相关系数表得通过查相关系数表得一定时一定时和和当当xY,xYnrrnrn)(),(,22 2).2).相关系数检验法相关系数检验法例例4 检验例检验例 2 中的回归效果是否显著中的回归效果是否显著,取显著性水取显著性水平为平为 0.05 .,.,.903008250483002 xxlb.)()(.306028297502050tnt查表得查表得,25.4682509030. 04830. 0 t).(.8975

17、0tt ., 0:0认为回归效果显著认为回归效果显著拒绝拒绝 bH3).t3).t检验法检验法)()(222ntnSlbbTExx)(:/2210ntTH 拒拒绝绝域域6.预测与控制预测与控制时时0 xx 000 xbaxy)( 的无偏估计的无偏估计是是0y),()(1012000Nlxxnyyxx )()(2222222nSnE 控制控制怎样控制怎样控制x的值才能使的值才能使Y的值在要求的范围内的值在要求的范围内预测预测在自变量在自变量 时,估计时,估计Y的观测值所在范围的观测值所在范围0 xx (1).回归函数函数值回归函数函数值 的估计的估计)(000 xXYEy的置信区间为的置信区间为

18、的置信水平为的置信水平为 10y)(,)()(2220001210nSxbayxsntyE 其其中中xxlxxnxsntxsbxaYT20010100112)()()()()(其中其中 预测预测.00的观察结果的观察结果处对处对是在是在设设YxxY )., 0( ,20000 NbxaY 00 xbay的点估计的点估计仍为仍为0Y)()(022102xsnty 的预测区间的预测区间的置信水平为的置信水平为同理可得同理可得 10Y(2). Y 的观察值的观察值 的估计的估计0Y),(2200110 xxlxnNyY但是但是xxlxxnxs200211)()(其中其中预测预测例例5 (续例续例2)

19、;95. 0125,95. 0)125(125)(1) 0的预测区间的预测区间的置信水平为的置信水平为新观察值新观察值的的处处求在求在的置信区间的置信区间的置信水平为的置信水平为处的值处的值在在求回归函数求回归函数YYxxx .95. 0(2) 00的预测区间的预测区间为为的置信水平的置信水平的新观察值的新观察值处处求在求在YYxx 解解(1)已知已知.,.,.,.14590300825073942483002xlabxx .)()(.3060282975020501tnt查表得查表得计算计算,64.571250 xYY,.)()(840122021xxlxxnnt .)()(34211220

20、21xxlxxnnt 的置信区间为的置信区间为为为的置信水平的置信水平处的值处的值在在回归函数回归函数95. 0)125(125)( xx预测区间为预测区间为的的的置信水平为的置信水平为的新观察值的新观察值处处在在95. 012500YYx ).84. 064.57( ).34. 264.57( (2)在在MATLAB中求解中求解的取值的取值x测区间测区间的观察值的点预测和预的观察值的点预测和预Y输出参数输出参数回归直线回归直线21LL 和和曲线曲线的的区区间间到到的的控控制制范范围围是是于于是是)()(20100 xxx控制控制:怎样控制自变量:怎样控制自变量x的值才能使的值才能使Y的值以的

21、值以1- 的置信的置信度落所度落所在要求的区间在要求的区间a,b内内,即即:,)(,)()(为此问题可简化来求解为此问题可简化来求解时时比较接近比较接近较大时较大时当当算法算法于是采用近似于是采用近似往往无法求解往往无法求解较复杂较复杂由于由于1110202002xsx,xn:。,lxxnxsxx )()(222100210ntyYnty控制控制的的置置信信区区间间的的置置信信度度为为由由 10Y)()(022102xsnty 的范围的范围001xbYap )(满足的不等式满足的不等式解出解出其中其中0000022100 xxbaybYaxstyY,)(/ ) () ()()(atybxaty

22、bxytyytyxbay 2122021110221012101100令令例例6 对某产品的表面进行腐蚀刻线试验,设腐蚀对某产品的表面进行腐蚀刻线试验,设腐蚀深度深度Y与时间与时间x的结果如下表:的结果如下表:时间时间x(秒秒)深度深度Y(mm) 5 6 10 20 30 40 50 60 65 90 4 6813 16 17 19 25 25 29Y=a+bx+ 12046(1 1)求)求Y与与x的相关关系;(的相关关系;(2 2)当)当 秒时秒时 的置信度为的置信度为95%95%置信区间;(置信区间;(3 3)要深度在)要深度在10102121之间时腐蚀时间应如何控制。之间时腐蚀时间应如何

23、控制。750 x0Y解:)在解:)在xy坐标系上将描出的散点图坐标系上将描出的散点图),(iiYx由图看出点在一条直线附近,因此可假设由图看出点在一条直线附近,因此可假设与与x之间有之间有线性相关关系设为:线性相关关系设为:4165136014395yyxxxylll,.3230 xxxyllb3744.xbya41545585141922.,.xyyExyRl blSl bS909184511495.,yx显著性检验:显著性检验:125913231812950122.),(,.)(.FFnSSFER 有显著的线性关系有显著的线性关系与与即即拒绝拒绝xYbHFF,:001 参数估计:参数估计:

24、).,.(95%683352230的置信区间为的置信区间为置信度为置信度为Y262292462299287597502100.)(.,./tttyx 分分布布临临界界值值为为查查时时代代入入回回归归方方程程得得21100Y.,.7473514733的控制范围为:的控制范围为:x预测:预测:控制:控制:747351473321102010210210.)()(/xxtxbatxba 方法方法通过适当的变量变换通过适当的变量变换,化成一元线性化成一元线性回归问题进行分析处理回归问题进行分析处理.)., 0(ln ,e . 12 NYx 两边取对数两边取对数.lnlnln xY)., 0( , 2

25、NbxaY 可化为一元线性回归的问题可化为一元线性回归的问题)., 0(ln , . 22 NxY 两边取对数两边取对数.lnlnlnln xY)., 0( , 2 NbxaY )., 0( ,)( . 32 NxhY )., 0( ,2 NbxaY 曲线回归方程曲线回归方程例例 表表 9.18 是是 1957 年美国旧轿车价格的调查资料年美国旧轿车价格的调查资料,今以今以 x 表示轿车的使用年数表示轿车的使用年数, Y 表示相应的平均价表示相应的平均价格格(以美元计以美元计), 求求 Y 关于关于 x 的回归方程的回归方程 .表表9.18年数年数x价格价格Y12345678910265119

26、4314941087765538484290226204在在MATLAB中求解中求解首先作散点图首先作散点图x=1:1:10;y=2651,1943,1494,1087,765,538,484,290,226,204;plot(x,y,.r)12345678910050010001500200025003000选择模型选择模型)., 0(ln ,e2 NYx .ln, ,ln, ln xxbaYY令令变量变换变量变换)., 0( , 2 NbxaY 数据变换数据变换 xx=x;yy=log(y);求回归方程求回归方程polytool(xx,yy,1).1646. 8,2977. 0 ab.16

27、46. 82977. 0 xy线性假设的显著性检验线性假设的显著性检验.)(.30602836933220501tSbtxx 线性回归效果高度显著线性回归效果高度显著.代回原变量代回原变量,得曲线回归方程得曲线回归方程)1646. 82977. 0exp() exp( xyy.3 .35142977. 0 xe 小结小结1.回归分析的任务回归分析的任务2.一元线性回归的步骤一元线性回归的步骤3.可化为一元线性回归的问题可化为一元线性回归的问题研究变量之间的相关关系研究变量之间的相关关系(1) 推测回归函数推测回归函数; (2) 建立回归模型建立回归模型;(3) 估计未知参数估计未知参数; (4

28、) 进行假设检验进行假设检验;(5) 预测与控制预测与控制.关键关键:选择适当的选择适当的变量代换变量代换.)1(, 21有关有关通常与多个普通变量通常与多个普通变量实际问题中的随机变量实际问题中的随机变量 pxxxYp., 2121的函数的函数则它是则它是的数学期望存在的数学期望存在若若定的分布定的分布具有一具有一的一组确定值的一组确定值对于自变量对于自变量ppxxxYYxxx),(21,21pxxxYxxxp 的回归函数的回归函数关于关于 xY 4.2 4.2 多元线性回归分析多元线性回归分析.,),(2121的线性函数的线性函数是是ppxxxxxx ).,( ,21100 NxxYpp.

29、,无关的未知参数无关的未知参数是与是与ppxx 1210 多元线性回归模型多元线性回归模型 多元线性回归的参数估计、线性相关性的多元线性回归的参数估计、线性相关性的检验以及预测控制等问题都可采用一元线性回检验以及预测控制等问题都可采用一元线性回归类似的方法求解。归类似的方法求解。.),( ,),( 21111211是一个样本是一个样本设设nnpnnpyxxxyxxx XYniNxxyiiippii.),( ,102110 ,111212222111211 npnnppxxxxxxxxxX,21 nyyyY,p 10,n 21niippiiExbxbbySQ121102)(记记 ., 2 , 1

30、, 0)(2 , 0)(2111011100pjxxbxbbybQxbxbbybQniijippiijniippii化简可得化简可得参数估计:参数估计:niippiiExxyS121102)( 达到最小达到最小.使误差平方和使误差平方和 ., ,11212211110111112121211110111221110niiipniippniiipniiipniipniiiniipipniiiniiniiniiniippniiniiyxxbxxbxxbxbyxxxbxxbxbxbyxbxbxbnb正规方程组正规方程组YXXXTTp110)( 最大似然估计值最大似然估计值的估计是的估计是pppxbx

31、bbxxx 11021),( ppxxxy 22110P元经验线性回归方程元经验线性回归方程正规方程组的矩阵形式正规方程组的矩阵形式YXXXTT 的的无无偏偏估估计计是是 , )( ,().(211XXNTniiiEyyS122)(残差平方和残差平方和估计量的性质:估计量的性质:的的无无偏偏估估计计是是2221).2( pnSE222RETSSSniiTyyS122)(离差平方和离差平方和niiRyyS122)(回归平方和回归平方和) 1().3(222 pnSE )(),1(,0).4(2222221pSnSRTp 时时0:210pH :检验假设检验假设为为不不真真时时有有线线性性关关系系为

32、为真真时时无无线线性性关关系系00,HHkSSHH,xY,SS,SS:ERERER22002222的的拒拒绝绝域域为为于于是是拒拒绝绝有有显显著著的的线线性性关关系系之之间间与与因因此此可可认认为为性性关关系系引引起起的的则则反反应应误误差差主主要要是是由由线线过过大大若若相相比比较较随随机机影影响响与与线线性性影影响响将将思思路路)()() 1,() 1(:1220pnpFpSSpnFHER 的拒绝域为的拒绝域为F F检验法检验法: :) 1,() 1(22pnpFpSSpnFER ) 1,(1)()(1pnpF:kkFpkFp 得临界值为得临界值为线性相关性的显著性检验线性相关性的显著性检

33、验:多元线性回归多元线性回归1.确定回归系数的点估计值确定回归系数的点估计值,用命令用命令:b=regress(Y,X)2.求回归系数的点估计和区间估计求回归系数的点估计和区间估计,并检验回并检验回归模型归模型,用命令用命令:b,bint,r,rint,stats=regress(Y,X,alpha)3.画出残差及其置信区间画出残差及其置信区间,用命令用命令:rcoplot(r,rint)附:附:MATLAB中回归分析的实现中回归分析的实现符号说明符号说明(1),111212222111211 npnnppxxxxxxxxxX,21 nyyyY.)(YXXXTTp110 . 1, p取取一元线

34、性回归一元线性回归(2) alpha为显著性水平为显著性水平, 默认为默认为 0.05;(3) bint为回归系数的区间估计为回归系数的区间估计;(4) r与与rint分别为残差及其置信区间分别为残差及其置信区间;(5) stats 是用于检验回归模型的统计量是用于检验回归模型的统计量, 有三个有三个数值数值, 第一个是相关系数第一个是相关系数 r2, 其值越接近于其值越接近于 1, 说明回说明回归方程越显著归方程越显著; 第二个是第二个是 F 值值, FF1-alpha(p,n-p-1) 时时拒绝拒绝 H0, F 越大越大, 说明回归方程越显著说明回归方程越显著; 第三个是与第三个是与F对应

35、的概率对应的概率 p, palpha 时拒绝时拒绝, 回归模型成立回归模型成立. 身高身高143 145 146 147 149 150 153 154腿长腿长8885889192939395身高身高155 156 157 158 159 160 162 164腿长腿长969897969899100 102例例1测得测得16名女子的身高和腿长如下名女子的身高和腿长如下(单位单位:cm):试研究这些数据之间的关系试研究这些数据之间的关系.输入数据输入数据x=143,145,146,147,149,150,153,154,155,156,157, 158,159,160,162,164;X=one

36、s(16,1),x;Y=88,85,88,91,92,93,93,95,96,98,97,96,98,99,100, 102;回归分析及检验回归分析及检验b,bint,r,rint,stats=regress(Y,X);b,bint,stats.7194. 0,0730.1610 bb. )834. 0,6047. 0(.1.5612)33.7071,(10的置信区间的置信区间的置信区间的置信区间bb .0000. 0,9531.180,9282. 02 pFr.7194. 00730.16,05. 0成立成立回归模型回归模型xyp 残差分析残差分析rcoplot(r,rint)预测及作图预测

37、及作图z=b(1)+b(2)*xplot(x,Y,k+,x,z,r)数据比较数据比较残差图形残差图形预测图形预测图形数据比较数据比较帮助帮助程序运行结果程序运行结果一元多项式回归一元多项式回归1.确定多项式系数确定多项式系数,用命令用命令:p,S=polyfit(x,y,m).,(),(2121nnyyyyxxxx ,),(1121121 mmmmmaxaxaxayaaap确定多项式确定多项式.,用来估计预测误差用来估计预测误差是一个矩阵是一个矩阵S也可使用命令也可使用命令:polytool(x,y,m)结果产生一个交互式的画面结果产生一个交互式的画面, 画面中有拟合曲画面中有拟合曲线和线和

38、y 的置信区间的置信区间, 左下方的左下方的 Export 可以输出参数可以输出参数.2.预测和预测误差估计用命令预测和预测误差估计用命令:求回归多项式在求回归多项式在x处的预测值处的预测值Y.Y,DELTA=polyconf(p,x,S,alpha)求回归多项式在求回归多项式在 x 处的预测值处的预测值 Y 以及预测值的以及预测值的显著性为显著性为1-alpha 的置信区间的置信区间 YDELTA,alpha 的默的默认值是认值是 0.05.一元多项式回归可化为多元线性回归求解一元多项式回归可化为多元线性回归求解.Y=polyval(p,x)例例2下面给出了某种产品每件平均单价下面给出了某种

39、产品每件平均单价 Y(元元) 与与批量批量 x (件件) 之间的关系的一组数据之间的关系的一组数据 .x202530354050y1.811.701.651.551.481.40 x606570758090y1.301.261.241.211.201.18试用一元二次多项式进行回归分析试用一元二次多项式进行回归分析.输入数据输入数据x=20,25,30,35,40,50,60,65,70,75,80,90;y=1.81,1.70,1.65,1.55,1.48,1.40,1.30,1.26,1.24,1.21, 1.20,1.18;作二次多项式回归作二次多项式回归p,S=polyfit(x,y,

40、2)预测及作图预测及作图Y=polyconf(p,x,y)plot(x,y,b+,x,Y,r)回归结果回归结果残差图形残差图形预测图形预测图形帮助帮助程序运行结果程序运行结果化为多元线性回归化为多元线性回归X=ones(12,1) x (x.2);b,bint,r,rint,stats=regress(y,X);b,stats与前面的结果一致与前面的结果一致.多元二项式回归多元二项式回归rstool(x,y,model,alpha)其中其中,输入数据输入数据 x, y 分别为分别为 nm 矩阵和矩阵和 n 维列维列向量向量; alpha 为显著性水平为显著性水平, 默认为默认为 0.05; m

41、odel 为下为下列四种模型中的一种列四种模型中的一种, 输入相应的字符串输入相应的字符串, 默认为默认为线性模型线性模型.mmxxy 110:)(线性线性linearticpurequadra:)(纯二次纯二次 mjjjjmmxxxy12110 ninteractio:)(交叉交叉 mmkjkjjkmmxxxxy1110 quadratic:)(完全二次完全二次 mmkjkjjkmmxxxxy,1110 rstool的输出是一个交互式画面的输出是一个交互式画面,画面中有画面中有m个个图形图形,分别给出了一个独立变量分别给出了一个独立变量xi与与y的拟合曲线的拟合曲线,以及以及y的置信区间的置

42、信区间,此时其余此时其余m-1个变量取固定值个变量取固定值.可可以输入不同的变量的不同值得到以输入不同的变量的不同值得到y的相应值的相应值.图的左下方有两个下拉式菜单图的左下方有两个下拉式菜单,一个用于传送一个用于传送回归系数、剩余标准差、残差等数据回归系数、剩余标准差、残差等数据;另一个用于另一个用于选择四种回归模型中的一种选择四种回归模型中的一种,选择不同的回归模型选择不同的回归模型,其中剩余标准差最接近于零的模型回归效果最好其中剩余标准差最接近于零的模型回归效果最好.例例3设某商品的需求量与消费者的平均收入、商设某商品的需求量与消费者的平均收入、商品价格的统计数据如下品价格的统计数据如下

43、, 建立回归模型建立回归模型, 预测平均收预测平均收入为入为 1000, 价格为价格为 6 时的商品需求量时的商品需求量 . 需求量需求量10075807050收入收入 10006001200500300价格价格57668需求量需求量659010011060收入收入4001300 1100 1300300价格价格75439选择纯二次模型选择纯二次模型,即即2222211122110 xxxxy 数据输入数据输入x1=1000,600,1200,500,300,400,1300,1100,1300,300;x2=5,7,6,6,8,7,5,4,3,9;y=100,75,80,70,50,65,9

44、0,100,110,60;x=x1 x2;回归、检验与预测回归、检验与预测rstool(x,y,purequadratic)回归图形回归图形回归结果回归结果帮助帮助程序运行结果程序运行结果化为多元线性回归求解化为多元线性回归求解x1=1000,600,1200,500,300,400,1300,1100,1300,300;x2=5,7,6,6,8,7,5,4,3,9;y=100,75,80,70,50,65,90,100,110,60;X=ones(10,1) x1 x2 (x1.2) (x2.2);b,bint,r,rint,stats=regress(y,X)回归系数的点估计以及区间估计回

45、归系数的点估计以及区间估计残差及其置信区间残差及其置信区间检验回归模型的统计量检验回归模型的统计量;1,9702. 02回归方程显著回归方程显著接近于接近于相关系数相关系数 r;,26. 6)5 , 4(6656.4095. 0回归方程显著回归方程显著 FF.,05. 00005. 0回归模型成立回归模型成立 P逐步回归分析逐步回归分析在实际问题中在实际问题中,影响因变量的因素很多影响因变量的因素很多,而这些而这些因素之间可能存在多重共线性因素之间可能存在多重共线性.为得到可靠的回归为得到可靠的回归模型模型,需要一种方法能有效地从众多因素中挑选出需要一种方法能有效地从众多因素中挑选出对因变量贡

46、献大的因素对因变量贡献大的因素.如果采用多元线性回归分析如果采用多元线性回归分析,回归方程稳定性回归方程稳定性差差,每个自变量的区间误差积累将影响总体误差每个自变量的区间误差积累将影响总体误差,预预测的可靠性差、精度低测的可靠性差、精度低;另外另外,如果采用了影响小的如果采用了影响小的变量变量,遗漏了重要变量遗漏了重要变量,可能导致估计量产生偏倚和可能导致估计量产生偏倚和不一致性不一致性.选择选择“最优最优”回归方程的方法回归方程的方法1.从所有可能的变量组合的回归方程中选择从所有可能的变量组合的回归方程中选择最优者最优者;2.从包含全部变量的回归方程中逐次剔除不从包含全部变量的回归方程中逐次剔除不显著因子显著因子;3.从一个变量开始从一个变量开始,把变量逐个引入方程把变量逐个引入方程;4.“有进有出有进有出”的的逐步回归分析逐步回归分析.“最优最优”的回归方程应该包含所有有影响的的回归方程应该包含所有有影响的变量而不包括影响不显著的变量变量而不包括影响不显著的变量.逐步回归分析法逐步回归分析法在筛选变量方面比较理想在筛选变量方面比较理想, 是是目前较常用的方法目前较常

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论