SPSS-朱建平版应用多元统计答案.doc_第1页
SPSS-朱建平版应用多元统计答案.doc_第2页
SPSS-朱建平版应用多元统计答案.doc_第3页
SPSS-朱建平版应用多元统计答案.doc_第4页
SPSS-朱建平版应用多元统计答案.doc_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

5#703Spss实习作业上机操作余聪0701020223数学二班数据变换是正式分析前的重要一步,通过数据变换,一个优秀的统计分析员可以将原始记录整理成所需的任何形式,从而为后面的精确分析打下坚实的基础这正是他和普通分析员的区别所在。 -张文彤3.6 1992年美国总统选举的三位候选人为布什、佩罗特和克林顿。支持三位候选人的选民中抽取了20人,登记他们的年龄段(X1)和受教育程度(X2)资料如下所示:投票人-布什X1X2投票人-佩罗特X1X2投票人-克林顿X1X2121121141213212241333310321413413441531531523631621640711711732823813840921941921103110331031111111211131124112131223134013211340143414111421153315211541162316311622172117111733183118311832191319431931201120212040假定三组都服从多元正态分布,检验这三组的总体均值是否都显著性差异(a=0.05)。解:我们知道One-Way ANOVA 过程用于两组及多组间样本均值的比较,即成组设计的方差分析。具体操作步骤:1.先对数据进行预处理,1代表布什,2代表佩罗特,3代表华盛顿。2.Analyze-Compare Mean-One-Way ANOVADependent List框:总统分组Options: Homogeneity-of-varianceContinuePost Hoc:S-N-K:ContinueOK3.运行结果1:结果解释:上图给出单因子方差分析的结果,可见F=3.095,P=0.0340.05,所以证明假设成立,选民受教育程度不存在差异。4.10从胃癌者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的化验:血清铜蛋白(X1)、蓝色反应(X2)、尿吲哚乙酸(X3)和中性硫化物(X4),数据见下表。试用距离判别法建立判别函数,并根据判别函数对原样本进行回判。类别x1x2x3x4胃癌患者228134201124513410402001671227170150781001672014萎缩性胃炎患者225125714130100612150117761201331026160100510非胃炎患者185115519170125641651425313510821210011772解:1.费希尔判别法的主要思想:从k各总体中具有P个样品观测数据,借助发差分析的思想构造现行判别函数U(x)=u1*X1+ u2*X2+ u2*X2+ u3*X3+ up*Xp= uX其中,系数u =(u1, u2, u3,up)确定的原则是使总体之间区别最大,而使每个总体之间的离差最小。有了线性判别函数后,对于一个新的样品,将他的新的指标带入判别函数中求出U(x)值,然后根据一定的判别规则,就可以判别新的样品属于总体中的哪一类。(2)上机操作:1.在Spss窗口中选择AnalyseClassifyDiscriminate,调出判别分析主界面,将左边的变量列表的“Group”变量选入分组变量中,将X1X4变量和选入自变量中,并选择Enterindependent together单选按钮,即使用所有自变量进行判别分析见图4-10-1。图4-10-1 判别分析主界面2.点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的取值范围为1到3,所以在最小只和最大值中输入1和3。单击Continue按钮,返回主界面。3.单击Statistics按钮,制定输出的描述统计量和判别函数系数。选中Function Confficient栏中的Fishers和Unstandardized图4-10-2 。单击Continue按钮,返回主界面。图4-10-2Statistics子对话框4.单击Classify按钮,定义判别分组参数和选择输出结果4-10-3。选择Display栏中的Casewise results,输出一个判别结果表,包括每个样品的判别分数、后验概率、实际组和预测组编号等。其余的保留系统默认选项。单击Continue按钮见图4-10-3。图4-10-3Classify子对话框5.单击Save按钮,制定在数据文件中生成代表判别分组结果和判别得分新变量,生成的新变量含义为:Predicted group membership:存放判别样品所属组别得值;Discriminant scores:存放费希尔判别得分值,有几个典型的判别函数,就有几个判别得分变量;Probabilitys of group membership:存放样品属于各组的贝叶斯后验概率值。将对话框中三复选选中,单击Continue按钮返回见图4-10-44-10-4 Save子对话框6.返回判别主界面,单击ok,运行判别分析结果。表4-10-1 贝叶斯判别法的输出结果Classification Function CoefficientsGroup1.002.003.00X10.1640.1300.130X20.7530.5950.637X30.7780.3170.100X40.0730.012-0.059(Constant)-79.212-46.721-49.598Fishers linear discriminant functions则各类贝叶斯判别函数如下:F1=-79.212+0.164 X1+0.753 X2+0.778 X3+0.073 X4;F2=-46.721+0.130X1+0.595 X2+0.317 X3+0.012 X4;F3=-49.598+0.130 X1+0.637 X2+0.100 X3-0.059 X4.讲各样品自变量值带入上述三个贝叶斯判别函数,得到三个函数值。比较之三个函数值,哪个函数值大就可以判断哪个样本值属于哪一类。7.最后给出判别后结果图表4-10-2:表4-10-2 个案观察结果表Casewise StatisticsHighest GroupDiscriminant ScoresCaseNumberActualGroupPredicted GroupP(G=g/D=d)Squared MahalanobisDistance to centriodFunction1Function2Original:11121.6932.7551.12721121.7392.0471.26131121.1072.877-0.854413*24.5970.430-1.77851120.4752.8860.00862221.8200.161-0.26472221.650-2.0351.186823*20.205-1.158-0.03292221.7540.3230.932102221.142-1.9710.7861132*20.017-0.8420.428123320.280-0.873-0.831133322.884-0.447-1.962143321.540-2.3090.090153320.419-1.783-0.086(1 代表胃癌患者。 2 代表萎缩性胃炎患者。 3 代表非胃炎患者。)在进行回判后发现,在Predicted Group这一列中,样本4、8、11出现异样,应该分被划分的类别为3、3、2,即他们分别是非胃炎患者、非胃炎患者、萎缩性胃炎患者。解:(1)判别法与书面作业类似。(2)假设 1 代表胃癌患者。 2 代表萎缩性胃炎患者。 3 代表非胃炎患者。基本步骤同上,在进行回判后发现,在Predicted Group这一列中,样本4、8、11出现异样,应该分被划分的类别为3、3、2,即他们分别是非胃炎患者、非胃炎患者、萎缩性胃炎患者。5.10 根据上题数据通过Spss统计分析软件进行K-均值法和系统聚类法分析结果,并进行比较。某年我国16个地区农民支出情况的抽样调查数据:地区食品衣着燃料住房交通/通讯娱乐教育文化北京190.3343.779.7360.5449.019.04天津135.236.410.4744.1636.493.94河北95.2122.839.322.4422.812.8山西104.7825.116.49.8918.173.25内蒙古128.4127.638.9412.5823.992.27辽宁145.6832.8317.7927.2939.093.47吉林159.3733.3818.3711.8125.295.22黑龙江116.2229.5713.2413.7621.756.04上海221.1138.6412.53115.6550.855.89江苏144.9829.1211.6742.627.35.74浙江169.9232.7512.7247.1234.355安徽135.1123.0915.6223.5418.186.39福建144.9221.2616.9619.5221.756.73江西140.5421.517.6419.1915.974.94山东115.8430.2612.233.633.773.85河南101.1823.268.4620.220.54.3解:a.利用系统聚类法求解1.在spss窗口选择AnalyseClassifyHierachical Cluster,调出系统聚类分析主界面,并将变量X1X6移入Variables框中。在Cluster栏中选择Cases单选按钮,即对样品进行聚类。2.点击Statistics按钮,设置在结果输出窗口中给出的聚类分析统计量。这里我们选择系统默认值,点击comtinue按钮,返回主界面。3.设置Plots按钮。4.点击Method按钮,并选择默认值即可。5.设置ve按钮。6.主要运行结果。见图5-10-1图5-10-1 系统聚类法树形图如上图,由于我们在Save自对话框中数据文件中生成新的分类变量,所以在数据编辑窗口中,我们可以看到生成的三个表示分类结果的新变量。变量命名为clu4_1、clu3_1和clu2_1的三个变量分别表明了把样品分成4类、3类、2类。见表4-10-2表4-10-2系统聚类划分成2、3、4类分布表Case Nmberclu4_1clu3_1clu2_111112221332143215221622172218222943110221111111222113221142211532116321b.利用K-均值进行聚类,得出表5-10-3各观测量所属类成员表:Cluster MmbershipCase NmberClusterDistance1146.7512122.9203322.4804316.8845313.8806115.2557126.255837.513920.00010114.59811117.98612319.50113125.91214325.20815319.20116316.483c. 通过表5-10-2与表5-10-3对比,可以看出相似之处是:单独将9上海划分为一类,不同之处是其他两类对划分有所不同,究其原因,是因为两种方法采用的划分距离不同,因此在局部产生差异,但结合实际经验K-均值法与实际较接近一些,所以此题应采用K-均值法来求解。6.8 利用主成分分析法,综合评价六个工业行业的经济效益指标。(单位:亿元)行业名称资产总计固定资产净值平均余额产品销售收入利润总额煤炭开采和选业6917.23032.7683.361.6石油天然气开采业5675.93926.2717.533877黑色金属矿采选业768.1221.296.513.8有色金属矿采选业622.4248116.421.6非金属矿采选业699.9291.584.96.2其他采矿业1.60.50.30解:1.我们沿考虑的是:如何根据这些经济指标,对各行业部门进行综合评价由于排序。从标准化数据出发,我们先计算这些指标的主成分,然后通过主成份的大小进行排序。表6-8-1和表6-8-2分别是特征根和特征向量的信息。表6-8-1特征值与累计贡献率序号特征值方差贡献率累计贡献率13.46086.46686.49920.53713.43499.93330.0020.06099.99340.0000.007100.000表6-8-2特征向量矩阵Z1Z210.5371-0.03820.5301-0.22230.5236-0.43540.41340.8722.z1,z2计算过程:3.操作步骤(1) 将因子载荷表中因子载荷阵中的数据输入SPSS数据编辑窗口,分别命名为a1、a2。(2) 为了计算一个特征向量,点击菜单项中的Transform-Computer,调出Computer variable对话框,在对话框中输入等式:z1=a1/SQRT(x), x是特征根和方差贡献率表Initial Eigenvalues中Total 点击OK按钮,即可在数据编辑窗口中得到以z1为变量名的第一特征向量。再次调出Computer variabl

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论