应用回归分析实验报告.doc_第1页
应用回归分析实验报告.doc_第2页
应用回归分析实验报告.doc_第3页
应用回归分析实验报告.doc_第4页
应用回归分析实验报告.doc_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一元线性回归 一、实验题目1一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。经过10周的时间,收集了每周加班时间的数据和签发的新保单数目,x为每周签发的新报数目,y为每周加班时间(小时),数据见下表:二、实验内容散点图如下所示:数据集1 描述性统计量均值标准 偏差Ny2.8501.434710x762.00379.74610相关性yxPearson 相关性y1.000.949x.9491.000Sig. (单侧)y.000x.000.Ny1010x1010输入移去的变量b模型输入的变量移去的变量方法1xa.输入a. 已输入所有请求的变量。b. 因变量: y模型汇总b模型RR 方调整 R 方标准 估计的误差更改统计量R 方更改F 更改df1df2Sig. F 更改1.949a.900.888.4800.90072.39618.000a. 预测变量: (常量), x。b. 因变量: yAnovab模型平方和df均方FSig.1回归16.682116.68272.396.000a残差1.8438.230总计18.5259a. 预测变量: (常量), x。b. 因变量: y系数a模型非标准化系数标准系数tSig.B 的 95.0% 置信区间B标准 误差试用版下限上限1(常量).118.355.333.748-.701.937x.004.000.9498.509.000.003.005a. 因变量: y残差统计量a极小值极大值均值标准 偏差N预测值.8894.9582.8501.361410标准 预测值-1.4401.548.0001.00010预测值的标准误差.154.291.209.05010调整的预测值.8345.2232.8571.394410残差-.8390.5259.0000.452610标准 残差-1.7481.096.000.94310Student 化 残差-1.9081.272-.0061.05110已删除的残差-1.0003.7089-.0072.566210Student 化 已删除的残差-2.4191.332-.0581.17010Mahal。 距离.0282.398.900.85610Cook 的距离.001.416.129.15710居中杠杆值.003.266.100.09510a. 因变量: y残差图分析:1.x与y之间大致呈线性关系。2、设回归方程为 =3、 =0.23050.48014、 由于服从自由度为n-2的t分布。因而也即:=可得即为:(0.0028,0.0044) 服从自由度为n-2的t分布。因而即可得5、x与y的决定系数 =0.9086、由于,拒绝,说明回归方程显著,x与y有显著的线性关系。7、 其中 接受原假设认为显著不为0,因变量y对自变量x的一元线性回归成立。8、 相关系数 =小于表中的相应值同时大于表中的相应值,x与y有显著的线性关系.9、从图上看,残差是围绕e=0随机波动,从而模型的基本假定是满足的。10、11、,即为(2.7,4.7)近似置信区间为:,即(2.74,4.66)12、可得置信水平为为,即为(3.33,4.07).一、实验题目2下表是1985年的美国50个洲和哥伦比亚特区公立学校中教师的人均年工资y(美元)和对学生的人均经费投入x(美元)。数据集1 二、实验内容(1)绘制y对x的散点图,可以用直线回归描述两者之间的关系吗? 描述性统计量均值标准 偏差Ny24354.574178.82451x3694.651053.06051相关性yxPearson 相关性y1.000.835x.8351.000Sig. (单侧)y.000x.000.Ny5151x5151输入移去的变量b模型输入的变量移去的变量方法1xa.输入a. 已输入所有请求的变量。b. 因变量: y模型汇总b模型RR 方调整 R 方标准 估计的误差更改统计量R 方更改F 更改df1df2Sig. F 更改1.835a.698.6912321.667.698112.986149.000a. 预测变量: (常量), x。b. 因变量: yAnovab模型平方和df均方FSig.1回归6.090E816.090E8112.986.000a残差2.641E8495390136.691总计8.731E850a. 预测变量: (常量), x。b. 因变量: y系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)12109.8791196.94810.117.000x3.314.312.83510.630.000a. 因变量: y残差统计量a极小值极大值均值标准 偏差N预测值19722.5339779.8924354.573490.01951标准 预测值-1.3274.420.0001.00051预测值的标准误差325.1141487.149425.285176.41151调整的预测值19570.6038596.9524336.123406.18351残差-3848.0225523.929.0002298.33351标准 残差-1.6572.379.000.99051Student 化 残差-1.6822.403.0031.01051已删除的残差-3963.5895635.19818.4532397.55651Student 化 已删除的残差-1.7152.532.0091.03051Mahal。 距离.00019.535.9802.76951Cook 的距离.000.316.023.05051居中杠杆值.000.391.020.05551a. 因变量: y标准残差的直方图和正概率图1、由上面的散点图分析可知: 可以用直线回归描述y与x之间的关系.2、回归方程为:3、从图上可看出,检验误差项服从正态分布。实验二 多元线性回归分析一、实验题目1用下表的数据,建立GDP对和的回归。对得到的二元回归方程,你能够合理的解释两个回归系数吗?如果现在不能给出 合理的解释,不妨在学到第六章多重共线性后再来解释这个问题,在学过第七章岭回归后再来改进这个问题。二、实验内容Model SummaryModelRR SquareAdjusted R SquareStd. Error of the Estimate11.000a.999.9991187.620634109045600a. Predictors: (Constant), 第二产业增加值x2, 第一产业增加值x1ANOVAbModelSum of SquaresdfMean SquareFSig.1Regression1.809E1029.047E96413.953.000aResidual16925313.247121410442.771Total1.811E1014a. Predictors: (Constant), 第二产业增加值x2, 第一产业增加值x1b. Dependent Variable: GDPCoefficientsaModelUnstandardized CoefficientsStandardized CoefficientstSig.Collinearity StatisticsBStd. ErrorBetaToleranceVIF1(Constant)2932.4651335.8892.195.049第一产业增加值x1.602.298.0802.018.067.04920.226第二产业增加值x21.711.074.92123.213.000.04920.226a. Dependent Variable: GDP因为=0.999表明回归方程非常显著,并且由方差分析表中可以看出: F=6413.953, P值=0.000 也表明回归方程高度显著,说明x1和x2整体上对y有高度显著影响,但是对于x1的系数来说,P值=0.0670.05,则没通过检验,所以0.602明显不合理。从 Coefficients中看出VIF1=VIF2=20.22610,说明回归方程中存在着严重的多重共线性实验三 违背基本假设的情况一、实验题目1 下列数据是用电高峰每小时用电量y与每月用电量x的数据二、实验内容(1)用普通最小二乘法建立y与x的回归方程,并画出残差散点图CoefficientsUnstandardized CoefficientsBetatSig.BStd. ErrorEquation 1(Constant)-.831.441 -1.885.065x .004.000.84011.045.000残差散点图:(2)诊断该问题是否存在异方差。从(1)中的残差图中可以看出误差项具有明显的异方差随着y的增加呈现增加的态势CorrelationsxySpearmans rhoxCorrelation Coefficient1.000.778*Sig. (2-tailed).000N5353yCorrelation Coefficient.778*1.000Sig. (2-tailed).000.N5353*. Correlation is significant at the 0.01 level (2-tailed). 则认为残差绝对值与自变量x显著相关,存在异方差(3)如果存在异方差,用幂指数型的权函数建立加权最小二乘法回归方程Model DescriptionDependent VariableyIndependent Variables1xWeightSourcexPower Value1.500Model: MOD_3.M=1.5时可以建立最优权函数,此时得到:CoefficientsUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBetaStd. Error(Constant)-.685.298-2.303.025x.004.000.812.0829.941.000系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量).582.1304.481.000x.001.000.8059.699.000a. 因变量: yy一、实验题目2 某乐队经理研究其乐队CD盘的销售额(y),两个有关的影响变量是每周演出场次x1和乐队网站的周点击率x2,数据件下表:二、实验内容(1)用普通最小二乘法建立y与x1和x2的回归方程,用残差图及DW检验诊断序列的自相关性。CoefficientsaModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta1(Constant)-574.062349.271-1.644.107周演出场次 x1191.09873.309.3452.607.012周点击率x22.045.911.2972.246.029a. Dependent Variable: 销售额y残差图如下:DW检验诊断Model SummarybModelRR SquareAdjusted R SquareStd. Error of the EstimateDurbin-Watson1.541a.293.264329.69302.745a. Predictors: (Constant), 周点击率x2, 周演出场次 x1b. Dependent Variable: 销售额y从残差图中明显看出误差项呈正相关性由模型图中可以看出DW=0.745 在(0,2)的范围内,并且在(0,1)范围内所以误差项呈正相关性(2)用迭代法处理序列相关,并建立回归方程。此时首先计算出,=1-(1/2)*DW=0.6275 将其带入=- 以及 计算出,然后再对,作普通最小二乘回归,计算结果如下:模型汇总b模型RR 方调整 R 方标准 估计的误差更改统计量Durbin-WatsonR 方更改F 更改df1df2Sig. F 更改1.688a.473.451257.85878.47321.540248.0001.716a. 预测变量: (常量), x2p, x1p。b. 因变量: ypAnovab模型平方和df均方FSig.1回归2864465.70921432232.85521.540.000a残差3191575.2874866491.152总计6056040.99650a. 预测变量: (常量), x2p, x1p。b. 因变量: yp系数a模型非标准化系数标准系数tSig.B 的 95.0% 置信区间B标准 误差试用版下限上限1(常量)-179.04090.458-1.979.054-360.9192.839x1p211.10747.758.5214.420.000115.082307.132x2p1.437.629.2692.285.027.1722.701a. 因变量: yp由系数表可以知道,此时的回归方程为:=-179.040+211.107+1.437 还原为原始变量方程为:由回归系数检验的分别得到此时两个自变量的t值及P值分别为:t=4.420 P=0.000 t=2.285 P=0.027 此时说明对因变量的影响显著,而对因变量的影响小。(3) 用一阶差分法处理数据,并建立回归方程。首先先计算差分:yd= ,然后用作过原点的最小二乘估计,得到系数表如下:模型汇总c,d模型RR 方b调整 R 方标准 估计的误差更改统计量Durbin-WatsonR 方更改F 更改df1df2Sig. F 更改1.715a.511.491280.98995.51125.564249.0002.040a. 预测变量: x2d, x1db. 对于通过原点的回归(无截距模型),R 方可测量(由回归解释的)原点附近的因变量中的可变性比例。 对于包含截距的模型,不能将此与 R 方相比较。c. 因变量: ydd. 通过原点的线性回归Anovac,d模型平方和df均方FSig.1回归4036879.69622018439.84825.564.000a残差3868812.3764978955.355总计7.906E651a. 预测变量: x2d, x1db. 因为通过原点的回归的常量为零,所以对于该常量此总平方和是不正确的。c. 因变量: ydd. 通过原点的线性回归系数a,b模型非标准化系数标准系数tSig.B 的 95.0% 置信区间B标准 误差试用版下限上限1x1d210.11743.692.5444.809.000122.315297.920x2d1.397.577.2742.421.019.2372.556a. 因变量: ydb. 通过原点的线性回归由系数表可以知道,此时,回归方程为: ,还原为原始变量为: (4) 比较以上各方法所建回归方程的优良性。 首先,由于原变量的随机误差项之间存在存在自相关性,由于自相关性带来的问题可以知道,普通最小二乘估计已经不再是最优的,即参数的估计值不再具有最小方差线性无偏性。下面比较迭代法和一阶差分法哪个比较优。 其次,由迭代法得到的结果为:决定系数R方=0.437,DW=1.716 ,SSE=3191575.287 =257.858727,回归方程为: 两个自变量的回归系数检验分别为:t=4.420 P=0.000 t=2.285 P=0.027 最后,由一阶差分法得到的结果,决定系数为R方=0.511,DW=2.040 , SSE=3868812.376 =0.079,回归方程为: 两个自变量的回归系数的检验分别为t=4.809 P=0.000 t=2.421 P=0.019由一般的回归方程中的决定系数越大越好,F ,t 值越大越好,残差的平方和越小越好, 即估计越小越好,由上述结果可以知道,对于消除了序列自相关的两个方法中,迭代法所建立的回归方程较一阶差分法最优。所以回归方程为: 实验四 自变量选择与回归一、实验题目1 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为自变量:x1为农业增加值(亿元);x2为工业增加值(亿元);x3为建筑业增加值(亿元);x4为人口数(万人);x5为社会消费总额(亿元);x6为受灾面积(万公顷)。根据中国统计年鉴获得1978-1998年共21个年份的统计数据,见下表。由定性分析知,所选变量都与变量y有较强的相关性,分别用后退法和逐步回归法做自变量选元。二、实验内容1、逐步法模型汇总模型RR 方调整 R 方标准 估计的误差更改统计量R 方更改F 更改df1df2Sig. F 更改1.994a.989.988285.67577.9891659.534119.0002.996b.992.991247.76997.0037.258118.0153.998c.996.995183.13396.00415.948117.001a. 预测变量: (常量), x5。b. 预测变量: (常量), x5, x1。c. 预测变量: (常量), x5, x1, x2。Anovad模型平方和df均方FSig.1回归1.354E811.354E81659.534.000a残差1550602.2441981610.644总计1.370E8202回归1.359E826.794E71106.706.000b残差1105019.2871861389.960总计1.370E8203回归1.364E834.547E71355.835.000c残差570146.7741733538.046总计1.370E820a. 预测变量: (常量), x5。b. 预测变量: (常量), x5, x1。c. 预测变量: (常量), x5, x1, x2。d. 因变量: y系数a模型非标准化系数标准系数tSig.B 的 95.0% 置信区间相关性共线性统计量B标准 误差试用版下限上限零阶偏部分容差VIF1(常量)710.36090.8887.816.000520.128900.591x5.180.004.99440.737.000.171.189.994.994.9941.0001.0002(常量)1011.893136.8977.392.000724.2841299.502x5.311.0491.7186.374.000.209.414.994.832.135.006162.146x1-.414.154-.726-2.694.015-.737-.091.987-.536-.057.006162.1463(常量)874.586106.8668.184.000649.1181100.054x5.637.0893.5167.142.000.449.825.994.866.112.001989.833x1-.611.124-1.073-4.936.000-.872-.350.987-.767-.077.005192.871x2-.353.088-1.454-3.994.001-.540-.167.992-.696-.062.002541.459a. 因变量: y逐步法:最又回归子集模型1的回归方程为y=710.360+0.180x52、后退法:系数a模型非标准化系数标准系数tSig.B 的 95.0% 置信区间相关性共线性统计量B标准 误差试用版下限上限零阶偏部分容差VIF1(常量)1348.2252211.467.610.552-3394.9006091.351x1-.641.167-1.125-3.840.002-.999-.283.987-.716-.063.003319.484x2-.317.204-1.305-1.551.143-.755.121.992-.383-.025.0002636.564x3-.413.548-.270-.752.464-1.589.764.990-.197-.012.002479.288x4-.002.024-.007-.087.932-.054.050.887-.023-.001.03727.177x5.671.1283.7065.241.000.396.946.994.814.086.0011860.726x6-.008.008-.020-.928.369-.025.010.513-.241-.015.5741.7432(常量)1158.071313.3423.696.002490.1991825.943x1-.650.129-1.140-5.031.000-.925-.374.987-.792-.080.005204.671x2-.304.129-1.250-2.352.033-.579-.028.992-.519-.037.0011125.887x3-.422.519-.276-.814.428-1.528.683.990-.206-.013.002459.006x5.664.0943.6667.060.000.463.864.994.877.112.0011074.590x6-.008.007-.021-1.074.300-.023.008.513-.267-.017.6701.4933(常量)1157.413310.0273.733.002500.1851814.641x1-.630.126-1.106-5.019.000-.897-.364.987-.782-.079.005197.748x2-.377.092-1.551-4.102.001-.571-.182.992-.716-.064.002581.913x5.662.0933.6567.118.000.465.859.994.872.112.0011073.973x6-.007.007-.018-.972.345-.022.008.513-.236-.015.6851.4594(常量)8

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论