




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、SPSS作业8:二项Logistic回归分析 为研究和预测某商品消费特点和趋势,收集到以往胡消费数据。数据项包括是否购买,性别,年龄和收入水平。这里采用Logistic回归的方法,是否购 买作为被解释变量(0/1二值变量),其余各变量为解释变量,且其中性别和收入水平为品质变量,年龄为定距变量。变量选择采用Enter方法,性别以 男为参照类,收入以低收入为参照类。 (一)基本操作: 11)选择菜单AnalyzeRegressionBinaryLogistic; (2)选择是否购买作为被解释变量到Dependent框中,选其余各变量为解释变量到Covariates框中,采用Enter方法,结果如下
2、: 消费的二项Logistic分析结果(一)(强制进入策略) CategoricalVariablesCodings Frequency Parametercoding (1) (2) 收入低收入 132 .000 .000 中收入 144 1.000 .000 高收入 155 .000 1.000 性别男 191 .000 女 240 1.000 分析:上表显示了对品质变量产生虚拟变量的情况,产生的虚拟变量命名为原变量名(编码)。可以看到,对收入生成了两个虚拟变量名为Income(1) 和Income(2),分别表示是否中收入和是否高收入,两变量均为0时表示低收入;对性别生成了一个虚拟变量名
3、为Gedder(1),表示是否女,取值为0 时表不为男。 消费的二项Logistic分析结果(二)(强制进入策略) Block0:BeginningBlock a,b ClassificationTable Predicted 是否购买 Percentage Observed 不购买 购买 Correct Step0是否购买不购买 269 0 100.0 购买 162 0 .0 OverallPercentage 62.4 a.Constantisincludedinthemodel. b.Thecutvalueis.500 分析:上表显示了Logistic分析初始阶段(第零步)方程中只有常数
4、项时的错判矩阵。可以看到:269人中实际没购买且模型预测正确,正确率为100%; 162人中实际购买了但模型均预测错误,正确率为0%模型总的预测正确率为62.4%。 消费的二项Logistic分析结果(三)(强制进入策略) VariablesintheEquation B S.E. Wald df Sig. Exp(B) VariablesintheEquation B S.E. Wald df Sig. Exp(B) Step0Constant -.507 .099 26.002 1 .000 .602 分析:上表显示了方程中只有常数项时的回归系数方面的指标,各数据项的含义依次为回归系数,回
5、归系数标准误差,度,Wald检验统计量的概率p值,发生比。由于此时模型中未包含任何解释变量,因此该表没有实际意义。 消费的二项Logistic分析结果(四)(强制进入策略) VariablesnotintheEquation Score df Sig. 1 .260 Step0Variablesage 1.268 gender(1) 4.667 1 .031 income 10.640 2 .005 income(1) 2.935 1 .087 income(2) 10.640 1 .001 OverallStatistics 18.273 4 .001 分析:上表显示了待进入方程的各个变量的
6、情况,各数据项的含义依次为Score检验统计量的观测值,自由度和概率p值。可以看到,如果下一步Age 进入方程,则Score检验统计量的观测值为1.268,概率p值为0.26。如果显著性水平a为0.05,由于Age的概率p值大于显著性水平a,所以是不能进 入方程的。但在这里,由于解释变量的筛选策略为Enter,所以这些变量也被强行进入方程。 Wald检验统计量的观测值,自由 消费的二项Logistic分析结果(五)(强制进入策略) Block1:Method=Enter OmnibusTestsofModelCoefficients Chi-square df Sig. Step1Step 1
7、8.441 4 .001 Block 18.441 4 .001 Model 18.441 4 .001 分析:上表显示了Logistic分析第一步时回归方程显著性检验的总体情况,各数据项的含义依次为似然比卡方的观测值,自由度和概率p值。可以看到, 在本步所选变量土纺S入方程(Method=Enter)。与前一步相比,似然比卡方检验的观测值18.441,概率p值为0.001。如果显著性水平a为0.05,由于概 率p值小于显著性水平a,应拒绝零假设,认为所有回归系数不同时为0,解释变量的全体与LogitP之间的线性关系显著,采用该模型是合理的。 在这里分别输出了三行似然比卡方值。其中,Step行
8、是本步与前一步相比的似然卡方比;Block行是本块(Block)与前一块相比的似然卡方比;Model 行是本模型与前一模型相比的似然卡方比。在本例中,由于没有设置解释变量块,且解释变量是一次性强制进入模型,所以三行结果都相同。 消费的二项Logistic分析结果(六)(强制进入策略) ModelSummary Step -2Loglikelihood Cox&SnellR Square NagelkerkeRSquare 1 552.208a .042 .057 a.Estimationterminatedatiterationnumber4becauseparameterestimatesc
9、hangedbylessthan.001. 分析:上表显示了当前模型拟合优度方面的指标,各数据项的含义依次为-2倍的对数似然函数值,Cox&SnellRY。-2倍的对数似然函数值越小则模型的 拟合优度越高。这里该值较大,所以模型的拟合优度并不理想。从NagelkerkeRA2也可以看到其值接近零,因此拟合优度比较低。 消费的二项Logistic分析结果(七)(强制进入策略) 分析:上表显示了当前所得模型的错判矩阵。可以看到,脚注中的TheCutvalueis.500意味着:如果预测概率值大于0.5,则认为被解释变量的分类预 测值为1,如果小于0.5,则认为被解释变量的分类预测值为0.;在实际没
10、购买的269人中,模型正确识别了236人,识别错误了131人,正确率为19.1%。Observed Predicted 是否购买 Percentage Correct 不购买 购买 Step1是否购买不购买 购买 OverallPercentage 236 131 33 31 87.7 19.1 61.9 a ClassificationTable a.Thecutvalueis.500 模型总的预测正确率为61.9%。与前一步相比,对未购买的预测准确度下降了,对购买的预测准确度上升了,但总体预测精度仍下降了。因此模型预测 效果并不十分理想。 消费的二项Logistic分析结果(八)(强制进入
11、策略) VariablesintheEquation B S.E. Wald df Sig. Exp(B) Step1aage gender(1)income income(1) income(2) Constant .025 .511 .101 .787 -2.112 .018 .209 .263 .253 1.974 5.954 12.305 .146 9.676 7.843 1 1 2 1 1 1 .160 .015 .002 .703 .002 1.026 1.667 1.106 2.196 .121 a.Variable(s)enteredonstep1:age,gender,inc
12、ome. 分析:上表显示了当前所得模型中各个回归系数方面白指标。可以看出,如果显著性水平a为0.05,由于Age的Wald检验I率p值大于显著性水平a, 不应拒绝零假设,认为该回归系数与0无显著差异,它与LogitP的线性关系是不显著的,不应保留在方程中。由于方程中包含了不显著的解释变量,因 此该模型是不可用的,应重新建模。 卜面是对模型做进一步分析,解释变量的筛选采用基于极大似然估计的逐步筛选策略(二)基本操作: 11)选择菜单AnalyzeRegressionBinaryLogistic;Forward:LR),分析的具体操作以及结果如下: (2)选择是否购买作为被解释变量到Depende
13、nt框中,选其余各变量为解释变量到Covariates框中,采用Forward:LR方法,在Option框中对模型做近 一步分析,结果如下:消费的二项Logistic分析结果(一)(逐步筛选策略) Block1:Method=ForwardStepwise(LikelihoodRatio) OmnibusTestsofModelCoefficients Chi-square df Sig. Step1Step 10.543 2 .005 Block 10.543 2 .005 Model 10.543 2 .005 Step2Step 5.917 1 .015 Block 16.459 3 .
14、001 Model 16.459 3 .001 消费的二项Logistic分析结果(二)(逐步筛选策略) ModelifTermRemoved Variable ModelLogLikelihood Changein-2Log Likelihood df Sig.oftheChange Step1income -285.325 10.543 2 .005 Step2gender -280.053 5.917 1 .015 income -282.976 11.761 2 .003 分析:上面第一个表显示了变量逐步筛选过程中对数似然比卡方检验的结果,用于回归方程的显著性检验。这里略去了第零步分析
15、的结果。结果上面的 两个表共同分析。在Stepl中,模型中包含常数项和INCOME。如果此时剔除INCOME将使-2LL减少10.543,即10,543是INCOME进入模型引起的, -285.325即为零模型的对数似然比;在Step2中,模型中包含常数项,INCOME,GENDER。此时易U除GENDER,即-2LL将减少5.917,即5.917是在Stepl 基础上GENDER所引起的,-280.053即为Step1模型的对数似然比,此时-2*285.325+2*280.053=10.543,即INCOME引起的。其他同理。可以看到,如果显著性水平a为0.05,由于各步的概率p值均小于显著
16、性水平a,因此此时模型中的解释变量全体与LogitP的线性关系是显著,模型合理。 消费的二项Logistic分析结果(三)(逐步筛选策略) VariablesintheEquation B S.E. Wald df Sig. Exp(B) 95.0%C.I.forEXP(B) Lower Upper a Step1 income 10,512 2 .005 income(1) ,006 ,259 ,001 1 ,982 1.006 ,606 1.670 income(2) .672 .247 7.424 1 .006 1.958 1.208 3.174 Constant -.762 .187
17、16,634 1 .000 .467 b Step2 gender(1) .504 .209 5.824 1 .016 1.656 1.099 2.493 income 11,669 2 .003 income(1) .096 .263 .134 1 .714 1.101 .658 1.843 income(2) .761 .251 9.147 1 .002 2.139 1.307 3.502 Constant -1.113 .240 21,432 1 .000 .329 a. Variable(s)enteredonstep1:income. b. Variable(s)enteredons
18、tep2:gender.分析:上表显示了解释变量筛选的过程和各解释变量的回归系数检验结果。可以看到,最终的模型(第二步)中包含了性别和收入变量,各自回归系数 显著性检验的Wald观测值对应的概率p值都小于显著性水平a,因此均拒绝零假设,意味它们与LogitP的线性关系是显著,应保留在方程中。表中的第七,第八列分别是发生比的95%的置信区间。 最终年龄变量没有引入方程,因为如果引入则相应的Score检验的概率p值大于显著性水平a,不应拒绝零假设,它与LogitP的线性关系不显著, 不应进入方程。具体结果如下:消费的二项Logistic分析结果(四)(逐步筛选策略) Variablesnotint
19、heEquation Score df Sig. Step1Variablesage 1.848 1.174 gender(1) 5.865 1.015 OverallStatistics 7.824 2.020 Step2Variablesage 1.984 1.159 OverallStatistics 1.984 1.159 消费的二项Logistic分析结果(五)(逐步筛选策略) ModelSummary Step -2Loglikelihood Cox&SnellR Square NagelkerkeRSquare 1 a 560.107 .024 .033 2 b 554.190
20、.037 .051 a. Estimationterminatedatiterationnumber3becauseparameterestimateschangedbylessthan.001. b. Estimationterminatedatiterationnumber4becauseparameterestimateschangedbylessthan.001. 分析: 上表显示了模型拟合优度方面的测度指标。 最终模型的NagelkerkeRA2距1较远,也说明了模型的拟合优度不高。 消费的二项Logistic分析结果(六)(逐步筛选策略) -2倍的对数似然函数值为554.190,仍
21、然较高,说明模型的拟合优度不甚理想。同时, HosmerandLemeshowTest Step Chi-square df Sig. 1 .000 1 1.000 2 8.943 4 .063 消费的二项Logistic分析结果(七)(逐步筛选策略) ContingencyTableforHosmerandLemeshowTest 是否购买 =不购买 是否购买=购买 Total Observed Expected Observed Expected Step11 90 90.000 42 42.000 132 2 98 98.000 46 46.000 144 3 81 81.000 74
22、74.000 155 Step2 1 35 32.363 8 10.637 43 2 58 53.602 15 19.398 73 3 55 57.637 34 31.363 89 4 40 44.398 31 26.602 71 5 37 44.035 38 30.965 75 6 44 36.965 36 43.035 80 分析:上面是Hosmer-Lemeshow检验的结果。最终模型中,Hosmer-Lemeshow统计量的观测值为8.943,概率p值为0.063,大于显著性水平a,因此不 应拒绝零假设,认为该组的划分与被解释变量的取值不相关,说明模型的拟合优度较低。它与Nagelke
23、rkeRA2分析的结果是一致的。 消费的二项Logistic分析结果(八)(逐步筛选策略) ClassificationTable Observed Predicted 是否购买 Percentage Correct 不购买 购买 Step1是否购买不购买 269 0 100.0 购买 162 0 .0 OverallPercentage 62.4 Step2是否购买不购买 225 44 83.6 购买 126 36 22.2 OverallPercentage| 60.6| a.Thecutvalueis.500 Stepnumber:2 ObservedGroupsandPredicted
24、Probabilities 160 F R120 E Q U 1 E 80 十 11 1 N 1 11 1 1 C 0 01 1 1 Y 0 01 1 1 40 十 00 00 0 0 00 00 0 0 00 00 0 0 00 00 0 0 Predicted11111 Prob:0.1.2.3.4.5.6.7.8.91 Group:0000000000000000000000000000000000000000000000000011111111111111111111111111111111111111111111111111 PredictedProbabilityisofMembe
25、rshipfor TheCutValueis.50 Symbols:0-不购买 购买 1 -购买 EachSymbolRepresents10Cases. 图:消费的二项Logistic分析预测分类图 分析:上表显示了各模型的错判矩阵。第一个模型的总体正确率为62.4%,对不购买人群预测的准确率极高,但对购买人群预测的准确率极低;第二个模 型的总体正确率为60.6%,对不购买人群预测的准确率下降了,但对购买人群预测的准确率提高了。从应用角度看第二个模型较第一个模型的应用性略强 一些。 在上图中,符号0表示实际未购买,1表示实际购买,一个符号代表10个样本。预测概率值大于0.5的样本属于购买类,
26、小于0.5的属于未购买类。 可以看出:在模型预测出的购买类中,仍有40个左右(4个0,精确值为44)实际未购买;同样,在模型预测出的未购买类中,仍有110个左右(11个1,精确值为126)实际购买了。模型的预测效果并不很理想。 通过以上的分析知道,该模型的预测效果不很理想。也就是说,仅通过性别和收入来预测是否购买商品是不全面的,还应考虑其他因素。但是该模 型仍可以用于分析是否购买和收入之间的关系。由上面的分析结果,可以写出Logistic回归方程: LogitP=-1.11+0.504gender(1) LogitP=-1.11+0.504gender(1)+0.096income(1) Lo
27、gitP=-1.11+0.504gender(1)+0.761income(2) 上面的第一个式子反映了女性与男性在购买上的差异。女性较男性使LogitP平均增长0.504个单位。结合发生比可知,女性的购买发生比是男性的 1.656倍,因此女性更倾向购买该商品。进一步分析,上面的第二个式子反映了女性顾客群中中等收入较低等收入在购买上的差异。对于女性顾客群,中等收入较低等收入使LogitP平均增长0.096个单位。结合发生比可知,女性顾客群中,中等收入的购买发生比是低等收入的1.101倍(有95%的把握在 0.658至1.67之间),略高一些,但差异并不十分明显。而通过上面的第三个式子可知,对于
28、女性顾客群,高等收入较低等收入使LogitP平均增长0.761 个单位。结合发生比可知,女性顾客群中,高等收入的购买发生比是低等收入的2.139倍(有95%的把握在1.099至2.493之间),显然高出较多。因此分 析的结论是:年龄对是否购买该商品并无显著影响,较男性来说,女性成为现实客户的可能性大,且高收入阶层较其他收入阶层有较高的购买可能。 原始数据: 是否购买 年龄 性别 收入 1 49 2 3 0 41 2 1 0 46 2 3 0 47 2 1 0 41 2 3 1 41 2 1 0 4 2 3 1 39 2 1 1 4 2 3 0 32 2 1 0 35 2 3, 0 32 2 1
29、 0 4 2 3 0 33 2 1 0 37 2 3 0 45 2 1 1 3 2 3 0 43 2 1 1 4 2 3 0 40 2 1 1 29 2 3 0 39 2 1 1 4 2 3, 1 46 2 1 1 3 2 3 0 38 2 1 0 26 2 3 0 38 2 1 0 30 2 3. 1 44 2 1 1 3 2 3 0 39 2 1 0 35 2 3 0 26 2 1 0 39 2 3. 0 45 2 1 0 2 2 3 0 40 2 1 0 32 2 3 0 35 2 1 0 46 2 3. 1 30 2 1 1 4 2 3 0 44 2 1 0 38 2 3 1 47 2
30、 1 1 42 2 3 1 35 2 1 0 4 2 3 0 36 2 1 0 2 1 1 0 34 2 1 0 58 1 1 1 38 P2 1 0 40 1 P11 0 38 2 1 0 3 1 1 0 47 2 1 0 47 1 1 0 41 P2 1 0 3 1 P1; 0 45 2 1 0 4 1 1 1 37 2 1 0 37 1 1 1 38 r2 1 0 3 1 r1I 1 29 2 1 0 40 1 1 1 40 2 1 0 36 1 1 0 35 r2 1 0 32 1 r1I 0 44 2 1 0 3 1 1 0 39 2 1 1 49 1 1 1 50 2 1 0 38
31、 1 r1I 1 41 2 1 1 3 1 1 0 41 2 1 0 42 1 1 0 40 2 1 0 4 1 1 1 38 2 1 0 38 1 1 1 36 2 1 0 40 1 1 1 37 2 1 0 41 1 1 0 39 2 1 0 4 1 1 0 41 2 1 0 47 1 1 1 33 2 1 1 39 1 1 1 51 2 1 0 3 1 1 0 31 2 1 0 4 1 1 0 31 2 1 0 46 1 1 0 35 P2 1 1 48 1 P11 0 46 2 1 1 38 1 1 1 39 2 1 0 35 1 1 0 47 P2 1 0 38 1 P1; 0 40
32、 2 1 0 3 1 1 1 56 2 1 0 32 1 1 0 36 r2 1 0 2 1 r1I 0 37 2 1 1 4 1 1 0 36 2 1 1 39 1 1 0 44 r2 1 0 4 1 r1I 1 36 2 1 1 48 1 1 0 40 2 1 0 37 1 1 1 38 2 1 0 40 1 r1I 0 35 2 1 0 4 1 1 1 35 2 1 0 42 1 1 0 45 2 1 0 3 1 1 0 41 2 1 0 4 1 2 0 42 2 1 0 45 1 2 1 37 2 1 0 33 1 2 0 55 2 1 0 3 1 2 1 41 2 1 1 33 1
33、2 1 33 2 1 0 42 1 2 1 36 2 1 1 4 1 2 0 33 2 1 0 4 1 2 0 38 2 1 0 35 1 2 0 38 P2 1 0 43 1 P21 0 55 2 1 1 33 1 2 0 50 2 1 0 26 1 2 1 31 P2 1 0 34 1 P21 1 37 2 1 0 4 1 2 1 37 2 1 0 41 1 2 0 38 r2 1 0 3 1 r21 0 41 2 1 0 2 1 2 0 42 2 1 1 45 1 2 1 34 r2 1 0 3 1 r2i 1 31 2 1 0 34 1 2 0 28 2 1 0 39 1 2 1 35
34、 2 1 0 32 1 r2i 1 39 2 2 0 4 1 2 0 39 2 2 0 39 1 2 1 34 2 2 0 3 1 2 1 45 2 2 0 3 1 2 0 41 2 2 0 45 1 2 0 42 2 2 0 39 1 2 0 46 2 2 0 4 1 2 0 42 2 2 0 47 1 2 0 33 2 2 0 46 1 2 1 47 2 2 1 3 1 2 1 39 2 2 1 3 1 2 0 41 2 2 0 31 1 2 0 33 P2 2 0 34 1 P21 0 43 2 2 1 33 1 2 1 31 2 2 0 38 1 2 1 43 P2 2 1 43 1
35、P21 0 45 2 2 0 4 1 2 1 48 2 2 1 47 1 2 0 40 r2 2 0 4 1 r21 1 35 2 2 1 3 1 2 0 33 2 2 1 38 1 2 1 34 r2 2 0 3 1 r2i 1 43 2 2 1 35 1 2 0 35 2 2 0 34 1 2 1 31 2 2 0 33 1 r2i 0 48 2 2 0 4 1 2 1 36 2 2 0 39 1 2 0 39 2 2 0 4 1 2 0 37 2 2 1 4 1 2 0 40 2 2 0 37 1 2 0 39 2 2 0 41 1 2 1 44 2 2 0 4 1 2 0 35 2 2
36、 0 29 1 2 0 33 2 2 0 40 1 2 1 34 2 2 0 4 1 2 0 50 2 2 0 3 1 2 1 44 2 2 0 49 1 2 0 40 P2 2 0 40 1 P21 0 36 2 2 0 38 1 2 1 41 2 2 0 41 1 2 1 37 P2 2 0 35 1 P21 1 38 2 2 0 3 1 2 0 38 2 2 0 47 1 2 1 41 r2 2 0 3 1 r21 0 36 2 2 0 3 1 2 0 42 2 2 0 40 1 2 1 43 r2 2 1 4 1 r2i 0 43 2 2 0 48 1 2 0 50 2 2 1 43 1 2 0 42 2 2 0 41 1 r2i 0 42 2 2 0 3 1 2 0 38 2 2 0 42 1 3 0 33 2 2 0 3 1 3 0 39 2 2 1 4 1 3 1 41 2 2 0 33 1 3 1 44 2 2 0 37 1 3 0 42 2 2 1 4 1 3 1 33 2 2 0 25 1 3 1 49 2 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 城管校园周边管理制度
- 地产公司手续管理制度
- 公司薪酬奖励管理制度
- 安顺小区安全管理制度
- 工厂柜子钥匙管理制度
- 公共停车服务管理制度
- 化工公司应急管理制度
- 党员教师食堂管理制度
- 库房卫生打扫管理制度
- 中医助理医师考试试题及答案
- 艾滋病病人的心理护理
- 铁路旅客运输服务铁路客运车站服务工作课件
- 广东惠州事业单位招聘医疗卫生岗考试模拟题带答案2025年
- 《面试技巧与策略》课件
- 2023年贵州省粮食储备集团有限公司面向社会公开招聘工作人员15人笔试参考题库附带答案详解
- 公司注册合同协议
- 心功能分级课件
- 行为资产定价理论综述
- 2025年河南省郑州市中考一模英语试题
- 2025年美丽中国第六届全国国家版图知识竞赛测试题库(中小学组)
- 至诚则成立信于行主题班会
评论
0/150
提交评论