统计软件最终版_第1页
统计软件最终版_第2页
统计软件最终版_第3页
统计软件最终版_第4页
统计软件最终版_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、J I A N G S U U N I V E R S I T Y统计软件应用课程作业学院名称: 财经学院 专业班级: 研132班 应用统计 学生姓名: 朱成伟 学 号: Z1319004 2014年1月作业1打开“酸奶口味.sav”,数据是某市场调查公司在上海、北京、上海和成都对10种酸奶产品口味的调查结果,10种酸奶品牌中有两种是试制品,利用该数据进行分析:1.这10种酸奶口味均值是否存在差异?2.4个不同城市消费者对10种酸奶口味评分是否存在差异?3.在酸奶评价中,品牌和城市是否存在交互作用?4.试制品的口味评分和其它8种品牌酸奶是否存在差异,能否选出最优的一种。1.由于“样本品牌bra

2、nd”是字符串型数据,不能参与方差分析,故通过spss重新编码为其他变量不妨设为”品牌brand1”,然后通过spss的单因素方差分析可得:表1.11 方差齐次检验表Test of Homogeneity of Variances口感评分Levene Statisticdf1df2Sig.1.61991741.104 Test of Homogeneity of Variances(方差齐次检验表)显示Levene 统计量F=1.619,对应的显著性水平Sig.=0.104>0.05,因此在5%的显著性水平下不能拒绝各组方差相等的假定,使用单因素方差分析的基本前提得到满足。表1.12 酸

3、奶口味评价得分的方差分析表ANOVA口感评分Sum of SquaresdfMean SquareFSig.Between Groups303.968933.7748.698.000Within Groups6760.46817413.883Total7064.4361750ANOVA(方差分析表)显示F=8.698,其显著性水平Sig.=0.000<0.05,在5%的显著性水平下拒绝各组均值相同的假定,这10种酸奶口味均值存在显著差异的。2.使用spss对不同城市进行单因素方差分析可得:表1.21 方差齐次检验表Test of Homogeneity of Variances口感评分L

4、evene Statisticdf1df2Sig.7.26331747.000 Test of Homogeneity of Variances(方差齐次性检验表)显示,Levene统计量为7.263,对应的显著性水平Sig.=0.000<0.05,因此在5%的显著性水平下拒绝各个城市评分方差相等的假定,使用单因素方差分析的基本前提没有得到满足。虽然4个城市不消费者对10种酸奶口味评分的方差不同,直接使用单因素方差分析不太恰当,但是利用单因素分析中的多重比较或配对比较(pairwise multiple compairisions)的方法, 我们还是可以看出哪几个城市消费者对10种酸奶口

5、味评分存在显著差异的。表1.22 不同城市评分的多重比较表Multiple Comparisons口感评分Tamhane(I) 城市(J) 城市Mean Difference (I-J)Std. ErrorSig.95% Confidence IntervalLower BoundUpper Bound上海北京.057.140.999-.31.43广州.303.131.121-.04.65成都-.083.128.987-.42.26北京上海-.057.140.999-.43.31广州.246.142.410-.13.62成都-.141.139.895-.51.23广州上海-.303.131.1

6、21-.65.04北京-.246.142.410-.62.13成都-.386*.131.019-.73-.04成都上海.083.128.987-.26.42北京.141.139.895-.23.51广州.386*.131.019.04.73*. The mean difference is significant at the 0.05 level.从Multiple Comparisons(多重比较表)中可以看出广州和成都消费者对10种酸奶口味评分之差为-0.386,其对应的显著性水平Sig.=0.019<0.05,在5%显著性水平下拒绝这两个城市消费者对10种酸奶口味评分相等的假设。

7、类似的,在5%显著性水平下不能拒绝其他各组城市消费者对10种酸奶口味评分相等的假设。所以可以认为4个不同城市消费者对10种酸奶口味评分存在差异的。3.表1.3 组间效应检验表Tests of Between-Subjects EffectsDependent Variable:口感评分SourceType III Sum of SquaresdfMean SquareFSig.Corrected Model457.309a3911.7263.037.000Intercept65059.647165059.64716848.025.000city32.495310.8322.805.038bra

8、nd296.340932.9278.527.000city * brand120.667274.4691.157.263Error6607.12817113.862Total73419.0001751Corrected Total7064.4361750a. R Squared = .065 (Adjusted R Squared = .043)从Tests of Between-Subjects Effects(组间效果检验表)可以看出city*brand对应的F=1.157,其显著性水平Sig.=0.263>0.05,在5%的显著性水平下统计不显著,因此不应该拒绝原假设,可以认为在酸

9、奶评价中,品牌和城市不存在存在交互作用,不同城市和品牌对酸奶评分都将不产生显著影响。图1.3 轮廓图还可以通过轮廓图来进一步的判断交互作用,由于轮廓图上的曲线基本按照相同的规律变动,各直线在各水平基本平行,故也可以认为没有交互作用。4.表1.4 不同品牌的变异系数样本品牌MeanNStd. Deviation变异系数世*5.851621.7250.294871795伊*5.61622.050.366071429子*6.691692.0240.302541106卡*5.681781.9930.350880282三*5.91731.890.320338983中*5.741822.0130.3506

10、96864试制品16.751821.890.28海*6.411761.9890.310296412香*6.391872.1560.337402191试制品26.491801.9250.296610169Total6.1617512.0090.326136364 从上表可以看出试制品的口味评分和其它8种品牌酸奶存在在差异,变异系数又称“标准差率”,是衡量资料中各观测值变异程度的另一个统计量。当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。从表中可以

11、知道试制品1的变异系数最小,可以认为试制品1是最优的一种。作业2打开“bankloan.sav”,数据是某银行收集到的客户违约信息,待分析的因变量是default,其它变量是可能影响客户是否违约的因素。1.使用logistic回归、判别分析、分类树方法进行分析,判断哪些变量会对客户违约产生影响。2.比较这几种方法的分类准确性。1. (1)运用spss进行Logistic回归可得表2.11 Hosmer 和Lemeshow 拟合优度检验表Hosmer and Lemeshow TestStepChi-squaredfSig.18.4678.389Hosmer and Lemeshow Test(

12、Hosmer 和Lemeshow 检验)。似然比函数的自然对数值对样品数目很敏感,作为补充和参照,我们需要Hosmer-Lemeshow检验。该检验依然以卡方分布为标准,但检验的方向与常规检验不同:我们要求其卡方值低于临界值而不是高于临界值。取显著性水平0.05,考虑到自由度数目df=8,在Excel中的任意单元格输入函数“=CHIINV(0.05,8)”,回车,理解得到卡方临界值15.507。作为Hosmer-Lemeshow检验的卡方值4.730<15.507,检验通过。后面的Sig.值0.786大于0.05,据此也可以判知Hosmer-Lemeshow检验可以通过。表2.12 最终

13、模型包含的变量系数表Variables in the EquationBS.E.WalddfSig.Exp(B)Step 1aage.034.0173.8871.0491.035ed.090.123.5321.4661.094employ-.258.03360.3851.000.773address-.105.02320.2511.000.901income-.009.0081.1591.282.991debtinc.067.0314.8811.0271.070creddebt.625.11330.7241.0001.869othdebt.062.077.6421.4231.064Consta

14、nt-1.551.6196.2741.012.212a. Variable(s) entered on step 1: age, ed, employ, address, income, debtinc, creddebt, othdebt. Variable in the Equation(方程中包含的变量表)显示模型的参数估计值(B)、参数估计值的标准误差(S.E)、沃尔德统计量(Wald)及其对应的自由度(df)和显著性水平(Sig.)。在显著性水平为0.05的情况下,由于ed,income,othdebt参数估计值对应的显著性水平都大于0.05,这3个自变量在回归模型中的作用并不显著,

15、即可以认为age,employ,address,debtinc和creddebt会对客户违约产生影响。(2) .运用spss进行判别分析:逐步判别法表2.13 进入判别分析中的变量表Variables in the AnalysisStepToleranceF to RemoveWilks' Lambda1Debt to income ratio (x100)1.000125.2932Debt to income ratio (x100).992130.842.920Years with current employer.99265.708.8483Debt to income rat

16、io (x100).76636.043.766Years with current employer.716111.035.844Credit card debt in thousands.57344.384.7754Debt to income ratio (x100).76635.137.753Years with current employer.69189.788.809Credit card debt in thousands.56448.856.767Years at current address.89810.895.728 Variables in the Analysis(进

17、入判别分析中的变量表)显示在逐步判别法的第一步(Step1),判别分析模型中引入了Debt to income ratio (x100)变量,然后逐步的引入Years with current employer,Credit card debt in thousands,Years at current address等变量。故可以知道Debt to income ratio (x100)(debtinc),Years with current employer(employ),Credit card debt in thousands(creddebt),Years at current a

18、ddress(address)会对客户违约产生影响。(3).分类树方法:使用Clementine12.0对该案例进行分类树建模处理,得到了每个变量相对重要性的图。由于这些值都是相对值,因此,所有变量值总和为1.0。此外,变量重要性与模型的准确性无关。由图2.1可知,8个变量中,最重要的是debtinc,接下来依次是employ、address、age、ed,而income 、creddebt以及othdebt对模型基本没有影响,即对客户是否违约,影响力很小。 图2.1 变量相对重要性2.尽管logistic回归以及判别分析的处理软件都是使用的SPSS18.0进行的,而分类树回归树使用Cleme

19、ntine12.0,但为了便于比较3种方法的分类准确性,我们采用Clementine12.0对3种方法同样处理一遍,以得到对3种方法增益的评估图(图2.2)。图2.2 3种方法增益的评估图 图2.2中,$C-default代表的是分类树方法,$L-default代表logistic回归,$D-default代表的则是判别分析。累积增益图的线从左至右的走势通常是从0% 到100%。优秀模型的增益图将陡升至100%,然后保持平直。无法提供有用信息的模型将呈对角线状,即从左下角到右上角。根据以上规则,模型拟合效果最好的是分类树方法,所以其准确度最高;logistic回归与判别分析的增益图则

20、基本相似,所以这两种方法的分类准确度大致相同。作业3打开“产品销售额.sav”,数据是某产品销售额的信息。1.绘制销售额的时间序列图,判断它的变动趋势。2.使用时间序列分析方法,通过对比分析建立一个比较好的模型。arima模型3.利用建立的模型对2013年销售额进行预测。1. 销售额的时间序列图 图3.1 销售额的时间序列图上图为销售额的时间序图,由上图可以知道产品的销售额随着时间变化而逐渐增加,并且有明显的上升趋势,同时序列中还有很多波峰和波谷,预示着时间序列可能还存在季节变动成分。2.模型比较:(1)简单指数平滑模型(不考虑季节因素):表3.21Model DescriptionModel

21、 TypeModel ID销售额Model_1Simple表3.22Model StatisticsModelNumber of PredictorsModel Fit statisticsLjung-Box Q(18)Number of OutliersStationary R-squaredNormalized BICStatisticsDFSig.销售额-Model_10-.0047.070216.80717.0000 上表为spss输出的模型适应性检验的Ljung-Box的结果。BIC即贝叶斯信息准则(Bayesian information criterion)它是一种可使全部判决的

22、平均风险为最小的准则,值越小越精确,该模型标准化的BIC值为7.070,标准化的BIC较大,不能精确的拟合该模型,故不适合使用该模型,同时调整后的R-squared为-0.004,比较小,同样也可以认为该模型是不合适的。(2)Winters乘法模型:表3.23Model DescriptionModel TypeModel ID销售额Model_1Winters' Multiplicative表3.24Model StatisticsModelNumber of PredictorsModel Fit statisticsLjung-Box Q(18)Number of Outlier

23、sStationary R-squaredNormalized BICStatisticsDFSig.销售额-Model_10.2094.84226.37115.0340 上表为spss输出的模型适应性检验的Ljung-Box的结果。BIC即贝叶斯信息准则(Bayesian information criterion)它是一种可使全部判决的平均风险为最小的准则,值越小越精确,该模型标准化的BIC值为4.842,标准化的BIC与简单的指数模型(不考虑季节因素)的标准化BIC相比比较小,并且调整后的R-squared也比较简单指数模型(不考虑季节因素)较好,但是Sig.列给出了Ljung-Box统

24、计量的显著性值,该检验是对模型中残差错误的随机检验;表示指定的模型是否正确。显著性值小于0.05表示残差误差不是随机的,则意味着所观测的序列中存在模型无法解释的结构。由于该模型的Sig.为0.034小于显著性水平,故残差误差不是随机的,则意味着所观测的序列中存在模型无法解释的结构,选择该模型不是很合理。(3) ARIMA模型:在spss的模型预测中选择专家模型并且是考虑了季节因素的模型,可以得到:表3.25Model DescriptionModel TypeModel ID销售额Model_1ARIMA(0,1,1)(0,1,1)表3.26Model StatisticsModelNumbe

25、r of PredictorsModel Fit statisticsLjung-Box Q(18)Number of OutliersStationary R-squaredNormalized BICStatisticsDFSig.销售额-Model_10.3244.83412.57116.7040 图3.2 上表为spss输出的模型适应性检验的Ljung-Box的结果。BIC即贝叶斯信息准则(Bayesian information criterion)它是一种可使全部判决的平均风险为最小的准则,值越小越精确,该模型标准化的BIC值为4.834,标准化的BIC与其他两个模型的标准化BIC相比比较小,并且调整后的R-squared也比较其他两个模型较好。Sig.列给出了Ljung-Box统计量的显著性值,该检验是对模型中残差错误的随机检验;表示指定的模型是否

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论