回归分析举例_第1页
回归分析举例_第2页
回归分析举例_第3页
回归分析举例_第4页
回归分析举例_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一一元元线线性性回回归归分分析析预预测测法法举举例例 例题:根据下表中的数据,分析预测1981年到1985年我国国民收入以4.5%的速度递增,钢材消费量将达到的水平。 我国钢材清费量与国民收入 年份 Y钢材消费量 (万吨) X国民收入 (亿元) 19646981097 19658721284 19669881502 19678071394 19687381303 196910251555 197013161917 197115392051 197215612111 197317652286 197417622311 197519602003 197619022435 197720132625 197824462948 197927363155 198028253372 步步骤骤一一:令钢材消费量为因变量Y,国民收入为自变量X,根据表中的数据绘制散点图(如上图所示)。 绘制散点图的目的主要是利于直观的选择数学回归模型。 步步骤骤二二:选择恰当的数学回归模型。根据本例中的散点图,显然钢材消费量与国民收入呈现一种统计学意义上的线性相关关系。因此我们选用线性相 关模型做为总体回归模型,即 Y=+*X+(其中,为总体回归参数,是理论上总体的值,实际上是不知道的,只能通过样本数据得到它们的 估计值,分别用a,b 来表示;为随机项,表示其它影响因素。) 步步骤骤三三:建立一元线性样本回归方程,并利用最小二乘法估计参数,的值即a,b 的值。(a,b称为回归系数,其中a为拟合直线的截矩,b 为直线的 斜率可以利用EXCEL工具进行) a= -460.5281802 b= 0.98395935 即回归方程为:= 460.5282+0.9840 X (注意,表示估计值,Y表示实际值) 步步骤骤四四:对模型进行各种检验(可以应用EXCEL工具,计算结果见后结果报告) 1、t 检检验验对对回回归归系系数数 b进进行行显显著著性性检检验验 由于回归系数b 只是总体回归参数的的一个估计值,通过对b 检验可以检验的值与0是否存在差显著性差异。如果=0,则意味着回归方程中没有X 项,说明Y不随X的变动而变动,因此Y与X之间不存在线性关系,我们的线性模型的假设则不成立;反之,若0,则说明Y与X之间存在线性关系, 我们的假设成立。我们通常用对b 进行 t 检验来验证Y与X是否具有真实的线性关系。即计算b的t值tb, tb=b/Sb, 其中Sb 为b 的标准差,再根据预先设定的 显著性水平u(通常u=0.05)和自由度(d=n-2),查t 分布表得到一个临界值tu/2, 若|tb|tu/2, 则说明回归系数=0的可能性小于是0.05,可以得出0的结论,即 Y与X呈现线性关系。反之,则结论相反。经计算得到: |tb|=19.78057827tu/2=2.131449536 因为|tb|tu/2,所以回归系数b的t 检验通过,表明回归系数b是显著的,即变量国民收入能够解释变量钢材消费量的变化。 2、F检检验验对对回回归归方方程程的的整整体体显显著著性性的的检检验验 同样是对Y与X是否显现真实的线性关系的检验,是以方差分析方法为基础,通过计算回归方程的F统计量,并根据给定的显著性水平u(通常u=0.05)和 两个自由度 (d1=1,d2=n-2),查F分布表,得到临界值Fu, 若FFu,意味着回归模型中的一次项是必不可少的。这时表明回归方程的回归效果是显著的。经计 算得到: 钢材消费量与国民收入散点图 40003500300025002000150010005000 0 500 1000 1500 2000 2500 3000 (亿元) (万吨) F统计量=391.2712765Fu= 4.543077123 因为Fu,所以检验通过,表明回归方程的回归效果显著 (F 检验的必要性) 假设T统计量独立,每次只检验一个系数,则: 它使得零假设为真时拒绝零假设的概率为9.75%。与5%显著性水平面相比,由于拒绝域增加,这种方式可以经常拒绝零假设,这使得在零假设下的拒 绝域不等于想要的显著性水平;如果回归因子相关,情况更复杂。因此,需要一种新方法在零假设下对所有斜率系数的联合假设进行F检验。 3、D-W检检验验是是残残差差项项是是否否自自相相关关的的检检验验 如果残差项不互相独立,即存在相关关系,则不能表明回归模型中的变量Y与X之前的真实变动关系。因为线性回归中的一个基本假设就是随机项必须 互相独立,否则在计算tb 时会使得变大(原因在于Sb变小),从而夸大了t检验及F检验的统计性,使得t检验及F检验不再有效。计算D-W统计量,根 据给定的显著性水平u(通常u=0.05),自变量的个数和样本数据的个数n,查D-W表,得到下限值dl和上限值du,只有当duD-W4-du时,才能说明随机项 之间不存在自相关,从而检验通过。(D-W统计量的计算过程见下面同颜色的部分) D-W统计量=(ei-ei-1)2/ei2=2.032624524 du(1,17)=1.38(查D-W统计表获得) 因为: dutu/2,所以回归系数b的t 检验通过,表明回归系数b是显著的,即变量国民收入能够解释变量钢材消费量的变化。 2、F检检验验对对回回归归方方程程的的整整体体显显著著性性的的检检验验 同样是对Y与X是否显现真实的线性关系的检验,是以方差分析方法为基础,通过计算回归方程的F统计量,并根据给定的显著性水平u(通常u=0.05)和 两个自由度 (d1=1,d2=n-2),查F分布表,得到临界值Fu, 若FFu,意味着回归模型中的一次项是必不可少的。这时表明回归方程的回归效果是显著的。经计 算得到: 钢材消费量与国民收入散点图 40003500300025002000150010005000 0 500 1000 1500 2000 2500 3000 (亿元) (万吨) Normal Probability Plot 1101009080706050403020100 0 1000 2000 3000 Sample Percentile Y 因为Fu,所以检验通过,表明回归方程的回归效果显著 (F 检验的必要性) 假设T统计量独立,每次只检验一个系数,则: 它使得零假设为真时拒绝零假设的概率为9.75%。与5%显著性水平面相比,由于拒绝域增加,这种方式可以经常拒绝零假设,这使得在零假设下的拒 绝域不等于想要的显著性水平;如果回归因子相关,情况更复杂。因此,需要一种新方法在零假设下对所有斜率系数的联合假设进行F检验。 3、D-W检检验验是是残残差差项项是是否否自自相相关关的的检检验验 如果残差项不互相独立,即存在相关关系,则不能表明回归模型中的变量Y与X之前的真实变动关系。因为线性回归中的一个基本假设就是随机项必须 互相独立,否则在计算tb 时会使得变大(原因在于Sb变小),从而夸大了t检验及F检验的统计性,使得t检验及F检验不再有效。计算D-W统计量,根 据给定的显著性水平u(通常u=0.05),自变量的个数和样本数据的个数n,查D-W表,得到下限值dl和上限值du,只有当duD-W4-du时,才能说明随机项 之间不存在自相关,从而检验通过。(D-W统计量的计算过程见下面同颜色的部分) du(1,17)=1.38(查D-W统计表获得) 因为: duD-W统计量4-du, 所以D-W检验通过,表明残差序列无自相关,从而进一步说明t检验与F检验显著性是可靠的。 4、R2(可可决决系系数数)检检验验拟拟合合程程度度的的测测定定,即变量Y的各个观测值聚集在回归直线周围的紧密程度,用以表明变量X在多大程度上解释了变量Y。这 一检验用来测定回归直线对各观测值点的拟合程度。 r2 的值介于0与1之前,越大说明拟合程度越高。一般大于70%时拟合程度已非常好。 R2接近于1,说明回归直线对样本数据点的拟合程度很高,检验通过 5、估估计计Y的的标标准准误误差差。标准误差越小越好,表明了数据点与回归直线的离散程度。 因为本例标准误差远小于变量Y实测值的平均数,因此认为可以通过。 本本例例中中,经经过过计计算算各各项项统统计计检检验验通通过过,说说明明回回归归方方程程可可以以用用来来表表述述钢钢材材消消费费量量与与国国民民收收入入之之间间的的回回归归关关系系。 步步骤骤五五:利用回归方程进行预测 若1981年至1985年,国民收入以4.5%的速度递增,则国民收入见下表。 利用回归方程分别代入1981年至1985年的国民收入值,可以得到此时的钢材消费量的估计值(见上表),同时估计置信区间(当置信度为95%时,Y0的95% 的置信区间为2SY 。这表明有95%的可能性估计值会落在相应的置信区间内。 X Variable 1 Line Fit Plot 400 0 350 0 300 0 250 0 200 0 150 0 100 0 5000 0 2000 4000 X Variable 1 Y Y 预测 Y Significance F 3.70186E-12 Lower 95%Upper 95% 下限 95.0% 上限 95.0% -691.8479675-229.20839-691.84797-229.20839 0.8779330771.089985620.877933081.08998562 PROBABILITY OUTPUT 百分比排位Y 2.94117647698 8.82352941738 14.7058824807 20.5882353872 26.4705882988 32.35294121025 38.23529411316 44.11764711539 501561 55.88235291762 61.76470591765 67.64705881902 73.52941181960 79.41176472013 85.29411762446 9197.05882352825 275233.7662 X Variable 1 Line Fit Plot 400 0 350 0 300 0 250 0 200 0 150 0 100 0 5000 0 2000 4000 X Variable 1 Y Y 预测 Y Normal Probability Plot 1101009080706050403020100 0 1000 2000 3000 Sample Percentile Y FSignificance F 391.27127653.7E-12 P-valueLower 95%Upper 95% 下限 95.0% 上限 95.0% 0.000708022 -691.848 -229.209 -691.848 -229.209 3.70186E-12 0.877933 1.089986 0.877933 1.089986 X Variable 1 Line Fit Plot 40003000200010000 0 2000 4000 X Variable 1 Y Y 预测 Y 钢材消费量与国民收入散点图 40003500300025002000150010005000 0 500 1000 1500 2000 2500 3000 (亿元) (万吨) X Variable 1 Line Fit Plot 40003000200010000 0 2000 4000 X Variable 1 Y Y 预测 Y 多多元元回回归归分分析析举举例例 例例二二:利利用用下下表表的的数数据据考考察察火火柴柴销销量量与与各各因因素素的的回回归归关关系系 年份 火柴销售量 (万件) 煤气、液化 气用户数 (万户) 卷烟销售量 (万箱 打火石销量 (百万粒) 蚊香销量 (十万盒) 196823.6925.6823.604.1810.10 196924.1025.7723.422.4313.31 197022.7425.8822.096.509.49 197117.8427.4321.4325.7811.09 197218.2729.9524.9628.1614.48 197320.2933.5328.3724.2616.97 197422.6137.3142.5730.1820.16 197526.7141.1645.1617.0826.39 197631.1945.7352.467.3927.04 197730.5050.5945.303.8823.08 197829.6358.8246.8010.5324.46 197929.6965.2851.1120.0933.82 198029.2571.2553.2921.2233.57 198131.0573.3755.3612.6339.59 198232.2876.6854.0011.1748.49 SUMMARY OUTPUT 回归统计 Multiple R 0.997175613 R Square0.994359203 Adjusted R Square0.992102884 标准误差0.437930736 观测值15 方差分析 dfSSMSFSignificance F 回归分析4 338.07546 84.518865440.6997483.4104E-11 残差10 1.91783330.19178333 总计14339.993293 Coefficients标准误差t StatP-valueLower 95% Upper 95% 下限 95.0% 上限 95.0% Intercept17.397281220.4563653738.12138763.6793E-1216.380435818.414126616.380435818.4141266 X Variable 1 0.0502640140.020941632.400195550.037303180.003603150.096924880.003603150.09692488 X Variable 2 0.2551442250.0214399311.90042023.1594E-070.207373080.302915380.207373080.30291538 X Variable 3 -0.0039577030.03406135-0.1161934 0.9097996-0.07985110.07193572-0.07985110.07193572 X Variable 4 -0.2432317040.01244444-19.5454172.6866E-09-0.2709596-0.2155038-0.2709596-0.2155038 RESIDUAL OUTPUT 观测值预测 Y残差标准残差观测值预测 Y残差(ei-ei-1)2ei2 123.652783470.037216530.100552861618.8752270.040250730.00162012 224.024332530.075667470.204440922802.8756250.065857760.000655720.00433724 322.715685140.02431486 0.065694731017.37876 0.0290217 0.00135690.00084226 417.9293596-0.0893596-0.24143484911.111154-0.08722240.013512680.00760774 518.36437596 -0.094376-0.25498815821.570853-0.09801640.000116510.00960722 620.3531119-0.0631119-0.170517961069.52861-0.06772410.000917620.00458655 722.71360111-0.1036011 -0.27991371425.72189-0.1016032 0.00114780.01032322 826.72961993-0.0196199-0.053009881557.57245-0.03438010.004518950.00118199 931.176222020.01377798 0.037225891616.610010.009903970.001961089.8089E-05 1030.463088260.036911740.09972938101788.802890.050878940.001678950.00258867 1129.63652497 -0.006525-0.0176294111813.401880.018296590.001061610.00033477 1228.698562920.991437082.6786979712 1510.34240.995048060.954043430.99012064 1329.28099109-0.0309911-0.0837328131935.41284-0.01393121.018039190.00019408 1431.9812343-0.9312343-2.5160401142122.36511-0.93321630.845085020.87089263 1532.120506770.159493230.43092416152440.183980.126835871.123710560.01608734 (ei-ei-1)2= 3.967806021ei2= D-W统计量=(ei-ei-1)2/ei2= 2.06611094 SUMMARY OUTPUT 回归统计 Multiple R0.99717179 R Square0.99435159 Adjusted R Square0.99281111 标准误差0.41783234 观测值15 方差分析 dfSSMSFSignificance F 回归分析3338.072871112.690957 645.483221.2165E-12 残差111.920422540.17458387 总计14339.993293 Coefficients 标准误差t StatP-valueLower 95% Upper 95% Intercept 17.41992230.3937349344.24276639.6034E-1416.553317618.2865271 X Variable 10.048503590.013793483.516414190.004828810.018144340.07886283 X Variable 20.254292770.0192240513.22784454.2481E-080.211980920.29660462 X Variable 3-0.24331450.01185384 -20.52622 4.044E-10-0.2694046-0.2172244 2.20098516 3.5874337 RESIDUAL OUTPUT 观测值预测 Y残差 123.64974930.04025073 224.03414220.06585776 322.7109783 0.0290217 417.9272224-0.0872224 518.3680164-0.0980164 620.3577241-0.0677241 722.7116032-0.1016032 826.7443801-0.0343801 9 31.1800960.00990397 1030.44912110.05087894 1129.61170340.01829659 1228.69495190.99504806 1329.2639312-0.0139312 1431.9832163-0.9332163 1532.15316410.12683587 1.92042254 下限 95.0% 上限 95.0% 16.553317618.2865271 0.018144340.07886283 0.211980920.29660462 -0.2694046-0.2172244 6981097 8721284 9881502 8071394 7381303 10251555 13161917 153920513523.74 156121113682.31 176522863848.01 176223114021.17 196020034202.13 19022435 20132625 24462948 27363155 28253372 Y=-460+0.98X SUMMARY OUTPUT 回归统计 Multiple R 0.981366 R Square 0.963079 Adjusted R S

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论