统计专业实验-实验10-高级回归分析(修正版).doc_第1页
统计专业实验-实验10-高级回归分析(修正版).doc_第2页
统计专业实验-实验10-高级回归分析(修正版).doc_第3页
统计专业实验-实验10-高级回归分析(修正版).doc_第4页
统计专业实验-实验10-高级回归分析(修正版).doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

重庆工商大学数学与统计学院统计专业实验课程实验报告 实验课程: 统计专业实验 指导教师: 专业班级: 学生姓名: _ 学生学号: 实 验 报 告实验项目实验10 高级回归分析实验日期2012-05-21实验地点80608实验目的掌握Logistic回归分析和岭回归分析的思想和操作方法。实验内容1估计住房购买模型,并判断模型效果。2估计割草机购买模型,并判断模型效果。3. 估计信息化贡献的生产函数模型。并进行相应分析。实验思考题解答:1Logit模型的思想是什么?解:Logistic回归分析是对因变量为定性变量的回归分析。它是一种非线性模型。其基本特点是:因变量必须是二分类变量,若令因变量为y,则常用y=1表示“yes”,y=0表示“no”。在发放股利与不发放股利的研究中,分别表示发放和不发放股利的公司。自变量可以为虚拟变量也可以为连续变量。从模型的角度出发,不妨把事件发生的情况定义为y=1,事件未发生的情况定义为0。Logit 一方面表达出它是事件发生概率P的转换单位;另一方面,它作为回归的因变量就可以自己与自变量之间的依存关系保持传统回归模式。根据离散型随即变量期望值的定义,可得:E(y)=1(P)+0(1-P)=P,进而得到。因此,从以上分析可以看出,当因变量的取值为0、1时,均值总是代表给定自变量时y=1的概率。虽然这是从简单线性回归分析而得,但也适合复杂的多元回归函数情况。,0为常数项,1,2,k分别为k个自变量的回归系数。因此,Logistic模型为:2方差膨胀因子VIP的用途和计算公式是什么,其判断标准?解:VIF=1/(1-),方差膨胀因子VIP表明解释变量之间的线性相关程度的强弱。解释变量间的多重共线性越弱,越接近0,VIF就越接近1;反之,解释变量间的多重共线性越强,越接近1,VIF就越接近大。通常,如果VIF大于等于1,说明解释变量Xi与其余解释变量之间有严重的多重共线性,且可能会过度地影响方程的最小二乘估计。实验运行程序、基本步骤及运行结果:(一)估计住房购买模型,并判断模型效果。基本操作:(1)选择菜单AnalyzeRegressionLinear;(2)选择被解释变量(实际购买人数)到Dependent框中,选择解释变量(签订意向书人数,家庭收入)到Covariates框中;(3)在Method框中,选择Enter方法;在Statistics框中,选择Estimates、Model fit、Covariance matrix、Collinearity diagnostics选项;在Plots框中,选择ZRESED到Y框,ZPRED到X框,再选择Histogram和Normal probability plot; (4)选择菜单AnalyzeNon Test1-Sanple K-S;选择菜单AnalyzeCorrelateBrivariate;结果显示如下:Model SummarybModelRR SquareAdjusted R SquareStd. Error of the EstimateChange StatisticsR Square ChangeF Changedf1df2Sig. F Change1.980a.961.9481.427.9617.320E126.000a. Predictors: (Constant), 签定意向书人数, 家庭收入(万元)b. Dependent Variable: 实际购买人数分析:被解释变量和解释变量的复相关系数为0.98,可决系数为0.961,调整的可决系数为0.948,回归方程的估计标准误差为1.427。该方程有2个解释变量,由于调整的可决系数为0.948,接近于1,所以拟合优度较高,被解释变量可以被模型解释的部分较多,未能解释的部分较少。ANOVAbModelSum of SquaresdfMean SquareFSig.1Regression298.0082149.00473.196.000aResidual12.21462.036Total310.2228a Predictors: (Constant), 签定意向书人数, 家庭收入(万元)b Dependent Variable: 实际购买人数分析:由上可知,被解释变量的总离差平方和为310.222,回归平方和及均方分别为298.008和149.004,剩余平方和及均方分别为12.214和2.036,F检验统计量的观测值为73.196,对应的概率p值近似为0。若显著性水平为0.05,由于p值小于,所以拒绝回归方程显著性检验的零假设,即认为各回归系数不同时为0,被解释变量与解释变量全体的线性关系是显著的,可建立线性模型。CoefficientsaModelUnstandardized CoefficientsStandardized CoefficientstSig.Collinearity StatisticsBStd. ErrorBetaToleranceVIF1(Constant)-5.0162.212 -2.267.064 家庭收入(万元).909.208.4004.374.005.7851.274签定意向书人数.476.0401.09912.023.000.7851.274a Dependent Variable: 实际购买人数分析:上表各列分别为方程的偏回归系数、偏回归系数的标准误差、标准化偏回归系数、回归系数显著性检验中t统计量的观测值、对应的概率p值、解释变量的容忍度和方差膨胀因子。由上可以看出,若显著性水平为0.05,几乎所有变量的回归系数显著性t检验的概率p值都小于显著性水平,因此拒绝零假设,即认为这些偏回归系数与0有显著差异,它们与被解释变量的线性关系是显著的,应该保留在方程中。同时,从容忍度和方差膨胀因子来看,VIF接近1,说明解释变量间不存在多重共线性,可以建立模型。(二)估计割草机购买模型,并判断模型效果。基本操作:(1)选择菜单AnalyzeRegressionBinary Logistic;(2)选择被解释变量(有无割草机)到Dependent框中,选其余各变量为解释变量到Covariates框中; 在Method框中,选择Enter方法;结果如下: Block 0: Beginning BlockClassification Tablea,b ObservedPredicted有无割草机Percentage Correct有无Step 0有无割草机有012.0 无012100.0Overall Percentage 50.0a. Constant is included in the model.b. The cut value is .500分析:常数模型的预测效果不太理想,由分类表格知所有人的购买行为都预测为0。Variables in the Equation BS.E.WalddfSig.Exp(B)Step 0Constant.000.408.00011.0001.000Variables not in the Equation ScoredfSig.Step 0VariablesAREA7.3631.007INCOME7.7881.005Overall Statistics12.9272.002Block 1: Method = EnterOmnibus Tests of Model CoefficientsChi-squaredfSig.Step 1Step17.9482.000Block17.9482.000Model17.9482.000分析:由模型系数检验知,模型的卡方值较大,P=0.000,模型整体显著。Model SummaryStep-2 Log likelihoodCox & Snell R SquareNagelkerke R Square115.323.527.702分析: 从模型拟合情况看,两个R2值均较大,说明模型拟合情况较好。Classification Tablea ObservedPredicted有无割草机Percentage Correct有无Step 1有无割草机有10283.3 无21083.3Overall Percentage 83.3a The cut value is .500分析:预测情况:预测准确率达到83.3%,预测效果比较理想。Variables in the Equation BS.E.WalddfSig.Exp(B)Step 1aAREA-1.928.9264.3371.037.146INCOME-.333.1634.1681.041.717Constant25.93811.4875.0981.024184005524553.327a. Variable(s) entered on step 1: AREA, INCOME.结论分析:变量的显著性检验:income和area均通过显著性检验,判断标准仍然是P值。(三)估计信息化贡献的生产函数模型。并进行相应分析。1、生产函数模型直接估计:基本操作:(1)选择菜单TransformCompute Variable,新建lnGDP、lnK、lnL、lnM四个变量;(2)选择菜单AnalyzeRegressionLinear;(3)选择被解释变量(lnGDP)到Dependent框中,选择解释变量(lnK、lnL、lnM)到Covariates框中;(4)在Method框中,选择Enter方法;在Statistics框中,选择Estimates、Model fit、Covariance matrix、Collinearity diagnostics选项;在Plots框中,选择ZRESED到Y框,ZPRED到X框,再选择Histogram和Normal probability plot; 根据生产函数:,直接估计结果如下:Model SummarybModelRR SquareAdjusted R SquareStd. Error of the EstimateDurbin-Watson1.994a.989.983.04828.814a Predictors: (Constant), LNM, LNK, LNLb Dependent Variable: LNGDPANOVAbModelSum of SquaresdfMean SquareFSig.1Regression1.2043.401172.228.000aResidual.0146.002 Total1.2189 a Predictors: (Constant), LNM, LNK, LNLb Dependent Variable: LNGDPCoefficientsaModelUnstandardized CoefficientsStandardized CoefficientstSig.Collinearity StatisticsBStd. ErrorBetaToleranceVIF1(Constant)3.64627.730 .131.900 LNK.354.237.5871.494.186.01280.662LNL-.1074.622-.014-.023.982.005186.434LNM.5971.021.423.585.580.004272.869a Dependent Variable: LNGDP分析:固定资产投资投资K、劳动力投入L、信息化指数M和GDP均高度相关,模型存在严重多重共线性,为克服该现象,模型采用岭回归估计方法,以作为回归系数的估计值。2、岭回归估计:基本操作:新建Syntax窗口,调入岭回归语句:Include “Ridge regression.sps”;岭回归命令格式:ridgereg enter=自变量列表/dep = 因变量/start=c初始值,默认为0/stop=c终止值,默认为1/inc=渐进步长,默认0.05)/k=搜索c个数,默认999 .输入 ridgereg enter=lnk lnl lnm /dep = lngdp /inc=0.01点运行按钮 run 。结果如下:当偏倚系数C=0.03时,参数估计量趋于稳定,方差膨胀因子VIF小于10,共线性现象得到消除,估计结果如下: GDP的投资弹性为0.24,GDP的劳动力弹性为2.07,GDP对信息化指数M的弹性为0.45,即保持投资和劳动力投入不变,全市信息化技术水平提高1%,GDP将增长0.45%。以2006年为例,信息化指数M(51.84)比2005年(48.24)提高了7.46%,带动GDP增长3.37%,其价值量达到88亿元。即2006年重庆市第二三产业增加值相对于2005年的增长量459亿元中,有88亿元是由于社会信息化水平提高而实现的,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论