多元统计、伦的结课作业_第1页
多元统计、伦的结课作业_第2页
多元统计、伦的结课作业_第3页
多元统计、伦的结课作业_第4页
多元统计、伦的结课作业_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

作业1方差分析三组贫血患者的血红蛋白浓度(%,X1)及红细胞计数(万/mm3,X2)如下表:A组B组C组X1X2X1X2X1X23.92104.82704.42504.21904.71803.73053.72405.42302.924041704.52454.53304.42204.62703.32305.22304.42204.51952.71605.92903.82752.42605.52203.73103.62404.32905.51805.13102.92003.3300要求:方差分析的前提条件要求各总体服从正态分布,请给出正态分布的检验结果,另要求各总体方差齐性,给出方差齐性检验结果。检验三组贫血患者的指标x1,x2间是否有显著差异,进行多元方差分析。如果有显著差异,分析三组患者间x1指标是否有显著差异,x2指标是否有显著差异?最后进行两两比较,给出更具体的分析结果。4.画出三组患者x1,x2两指标的均值图。综合分析2个指标,两个指标之间存在相关性,分为3个组别,故考虑使用多元方差分析。相应的假设为:H0::三组的总体贫血指标的均向量相等。H0:三组的总体贫血指标的均向量不相等或不全相等。题目1:方差分析的前提条件要求各总体服从正态分布,请给出正态分布的检验结果,另要求各总体方差齐性,给出方差齐性检验结果。正态性检验fzKolmogorov-SmirnovaShapiro-Wilk统计量dfSig.统计量dfSig.x2A组.11512.200*.97012.914B组.16810.200*.95810.765C组.1718.200*.9638.839x1A组.10112.200*.97012.907B组.18910.200*.92610.406C组.2018.200*.9088.337a.Lilliefors显著水平修正*.这是真实显著水平的下限。上述两个表给出了对每一个变量进行正态检验的结果,由表可以看出血红蛋白浓度和红细胞计数的显著性水平均大于0.05,即接受原假设,所以这两个变量均遵从正态分布。方差齐性检验Levene统计量df1df2显著性x11.418227.260x2.220227.804上表是对协方差阵相等的检验,检验统计量是Box’s

M,由Sig.值可以看出,0.670显著的大于0.05,所以在0.05的显著性水平下接受协方差阵相等的原假设。即可以认为三组的协方差阵是相等的,符合方差齐性.题目二:检验三组贫血患者的指标x1,x2间是否有显著差异,进行多元方差分析。如果有显著差异,分析三组患者间x1指标是否有显著差异,x2指标是否有显著差异?多变量检验c效应值F假设df误差dfSig.截距Pillai的跟踪.9871001.859a2.00026.000.000Wilks的Lambda.0131001.859a2.00026.000.000Hotelling的跟踪77.0661001.859a2.00026.000.000Roy的最大根77.0661001.859a2.00026.000.000fzPillai的跟踪.5665.3234.00054.000.001Wilks的Lambda.5035.335a4.00052.000.001Hotelling的跟踪.8535.3334.00050.000.001Roy的最大根.6428.662b2.00027.000.001a.精确统计量b.该统计量是F的上限,它产生了一个关于显著性级别的下限。c.设计:截距+fz以上的结果为多元方差的组间比较的结果,F=5.323,P=0.001拒绝H0,接受H1,故无论从哪个统计量来看,三组不同患者的血红蛋白浓度和红细胞计数这两个指标间均存在显著差异。ANOVA平方和df均方F显著性x1组间7.92623.9637.302.003组内14.65327.543总数22.57929x2组间13753.95826876.9793.915.032组内47426.042271756.520总数61180.00029由上表GROUP行可以看到:血红蛋白浓度和红细胞计数这两个指标的显著性水平分别为0.003和0.002均小于0.05,这说明三个组在血红蛋白浓度和红细胞计数这两个指标上均有显著差异。题目三:最后进行两两比较,给出更具体的分析结果。多重比较因变量(I)fz(J)fz均值差(I-J)标准误显著性95%置信区间下限上限x1LSDA组B组-1.1033*.3154.002-1.751-.456C组-.0333.3362.922-.723.657B组A组1.1033*.3154.002.4561.751C组1.0700*.3494.005.3531.787C组A组.0333.3362.922-.657.723B组-1.0700*.3494.005-1.787-.353x2LSDA组B组-35.83317.945.056-72.65.99C组-50.208*19.130.014-89.46-10.96B组A组35.83317.945.056-.9972.65C组-14.37519.880.476-55.1726.42C组A组50.208*19.130.01410.9689.46B组14.37519.880.476-26.4255.17*.均值差的显著性水平为0.05。题目四:画出三组患者x1,x2两指标的均值图。由f1可以看出,A组与B组、C组与B组的红蛋白浓度有显著差异,而A组与C组的血红蛋白浓度没有显著差别,大致在一水平线上。由f3也可以看出A组与CB组与C组、A组与B组的差别相对较小。作业2聚类分析作业1.为研究不同公司的运营特点,调查了15个公司的组织文化、组织氛围、领导角色和员工发展4个方面的内容。请将这15个公司按照其各自的特点划分成4种类型。数据如下表所示。公司组织文化组织氛围领导角色员工发展MICROSOF80857590IBM85859090DELL85858560APPLE90907590联想99987880NPP88898990北京电子79809597清华紫光89788182北大方正75789596TCL60658588娃哈哈79875051ANGEL75768889HUSSAR60568990世纪飞扬1001008584VINDA61648960要求:用系统聚类法聚类,聚类方法采用组间联结法,距离采用平方欧式距离计算,给出树状图和冰柱图,给出聚合系数图,并分析聚成几类比较合适。用快速聚类法给出聚类结果并对结果进行分析,聚类类数和系统聚类法相同。问题1:平均联结(组之间)下图反映了每一阶段的聚类结果聚类表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集2179.131006226.1710083514.511001141013.6920010514.7850076712.8001087181.5155098271.5782699122.95778111010154.560401311155.141931212135.642110131311010.9651210141411119.2581300下图为垂直冰状图,也是反映样品聚类的情况图,在类数的行上从左到右可以找到各类所包含的样品下图为树状聚类图,从图中由分类得到的分类情况*******************HIERARCHICALCLUSTERANALYSIS*******************DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombineCASE0510152025LabelNum+---------+---------+---------+---------+---------+北京电子7-+北大方正9-+-+ANGEL12-++---+IBM2-+-+|NPP6-++-----+MICROSOF1-+-+||APPLE4-++---++-+清华紫光8---+||联想5-+-----------++-------------+世纪飞扬14-+||DELL3---------------++-------------------+TCL10-+---------+||HUSSAR13-++-----------------+|VINDA15-----------+|娃哈哈11-------------------------------------------------+聚合系数图:根据聚合系数图可以分成2类;题目2:用快速聚类法给出聚类结果并对结果进行分析,聚类类数和系统聚类法相同。选择analyze--classify--k-meanscluster,进入“K-均值聚类”对话框,将上面的4各变量选入“变量”一栏,将公司用于“标志”,分类数”定位4“。在”选项“中选择最初分类中心,方差分析表,样品分类信息,得到下F检验应仅用于描述目的,因为选中的聚类将被用于最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。输出结果中,我们可以看到快速聚类法将四个公司分为四类:{1:哇哈哈};{2:北京电子,北大方正,TCL,ANGEL,HUSSAR,VINDA};{3:DELL,清华紫光};{4:MICROSOF,IBM,APPLE,联想,NPP,北京电子,清华紫光,北大方正,ANGEL,世纪飞扬}。通过最后的方差分析表可以看出,四个变量对分类贡献显著。作业3判别分析作业----中小企业的破产模型为研究中小企业的破产模型,选定4个经济指标:X1总负债率(现金收益/总负债)X2收益性指标(纯收入/总财产)X3短期支付能力(流动资产/流动负债)X4生产效率性指标(流动资产/纯销售额)对17个破产企业(1类)和21个正常运行企业(2类)进行调查,得如下资料总负债率收益性指标短期支付能力生产效率指标类别-.45-0.411.090.451-.56-0.311.510.161.060.021.010.41-0.07-0.091.450.261-0.1-0.091.560.671-0.14-0.070.710.281-0.23-0.30.220.1810.070.021.310.2510.0102.150.71-0.28-0.231.190.6610.150.051.880.2710.370.111.990.381-0.08-0.081.510.4210.050.031.680.9510.0101.260.610.120.111.140.171-0.28-0.271.270.5110.510.12.490.5420.080.022.010.5320.380.113.270.5520.190.052.250.3320.320.074.240.6320.310.054.450.6920.120.052.520.692-0.020.022.050.3520.220.082.350.420.170.071.80.5220.150.052.170.552-0.1-1.012.50.5820.14-0.030.460.2620.140.072.610.522-0.33-0.093.010.4720.480.091.240.1820.560.114.290.4520.20.081.990.320.470.142.920.4520.170.042.450.1420.580.045.060.1320.040.011.500.71待判-0.06-0.061.370.4待判进行判别分析,要求:给出判别变量的显著性检验结果(方差分析表),如果存在不显著的变量,进行剔除。给出费歇判别函数的表达式及对待判样品的费歇判别结果给出贝叶斯判别函数的表达式及对待判样品的贝叶斯判别结果给出分类结果矩阵,包括交叉验证的结果用逐步判别分析判别效果是否有显著改善?问题1:协方差矩阵的均等性的箱式检验检验结果箱的M40.184F近似。3.523df110df25562.171Sig..000对相等总体协方差矩阵的零假设进行检验。这是对协方差矩阵是否相等的统计检验,由F值以及其显著性水平,检验结果在0.01水平下,可以近似认为两组的协方差矩阵相等即Sig=0.01<0.05.变量显著.问题2:给出费歇判别函数的表达式及对待判样品的费歇判别结果典型判别式函数系数函数1总负债率2.947收益性指标-1.291短期支付能力.767生产效率性指标-.590(常量)-1.648非标准化系数组质心处的函数分类函数11-.9872.799在组均值处评估的非标准化典型判别式函数费歇判别函数的表达式:Y=-1.823+2.321*x1+0.777*x3这里的X1,X3表示X1,X3标准变化量组质心处的函数分类函数11-.9602.777在组均值处评估的非标准化典型判别式函数给出贝叶斯判别函数的表达式及对待判样品的贝叶斯判别结果分类函数系数分类12总负债率-2.9612.303收益性指标-.509-2.815短期支付能力1.5332.902生产效率性指标9.3978.344(常量)-3.887-6.664Fisher的线性判别式函数分类结果b,c分类预测组成员合计12初始计数115217251621未分组的案例202%188.211.8100.0223.876.2100.0未分组的案例100.0.0100.0交叉验证a计数115217261521%188.211.8100.0228.671.4100.0a.仅对分析中的案例进行交叉验证。在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。b.已对初始分组案例中的81.6%个进行了正确分类。c.已对交叉验证分组案例中的78.9%个进行了正确分类。作业4因子分析作业:全国30个省市的8项经济指标如下:省份国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值北京1394.892505519.018144373.9117.3112.6843.43天津920.112720345.466501342.8115.2110.6582.51河北2849.521258704.8748392033.3115.2115.81234.85山西1092.481250290.94721717.3116.9115.6697.25内蒙832.881387250.234134781.7117.5116.8419.39辽宁2793.372397387.9949111371.7116.11141840.55吉林1129.21872320.454430497.4115.2114.2762.47黑龙江2014.532334435.734145824.8116.1114.31240.37上海2462.575343996.489279207.4118.71131642.95江苏5155.2519261434.9559431025.5115.8114.32026.64浙江3524.7922491006.396619754.4116.6113.5916.59安徽2003.5812544744609908.3114.8112.7824.14福建2160.522320553.975857609.3115.2114.4433.67江西1205.111182282.844211411.7116.9115.9571.84山东5002.3415271229.5551451196.6117.6114.22207.69河南3002.741034670.3543441574.4116.5114.91367.92湖北2391.421527571.684685849120116.61220.72湖南2195.71408422.6147971011.8119115.5843.83广东5381.7226991639.838250656.5114111.61396.35广西1606.151314382.595105556118.4116.4554.97海南364.171814198.355340232.1113.5111.364.33四川35341261822.544645902.3118.51171431.81贵州630.07942150.844475301.1121.4117.2324.72云南1206.6812613345149310.4121.3118.1716.65西藏55.98111017.8773824.2117.3114.95.57陕西1000.031208300.274396500.9119117600.98甘肃553.351007114.815493507119.8116.5468.79青海165.31144547.76575361.6118116.3105.8宁夏169.75135561.985079121.8117.1115.3114.4新疆834.571469376.955348339119.7116.7428.76要求:先对数据做标准化处理,然后基于标准化数据进行以下操作1、给出原始变量的相关系数矩阵;2、用主成分法求公因子,公因子的提取按照默认提取(即特征值大于1),给出公因子的方差贡献度表;3、给出共同度表,并进行解释;4、给出因子载荷矩阵,据之写出因子分析的数学模型,并根据因子载荷矩阵分析提取的公因子的实际意义。如果实际意义不好解释,请用因子旋转(采用正交旋转中最大方差法)给出旋转后的因子载荷矩阵,然后分析旋转之后的公因子,要求给各个公因子赋予实际含义;5、先利用提取的每个公因子分别对各省市进行排名。最后构造一个综合因子,计算各省市的综合因子的分值,并进行排序。第四问实际意义参考回答:与第一因子关系密切的变量主要是投入(投资:固定资产投资)与产出(产值:国内生产总值、工业总产值)方面的变量,货物周转又是投入产出的中介过程,可以命名为投入产出因子;与第二因子关系密切的都是反映民众生活水平的变量,可以命名为消费能力因子;与第三因子关系密切的是价格指数方面的变量,可以命名为价格指数因子(见下表)。因子命名包含变量第一因子投入产出因子GDP,工业总产值,固定资产投资,货物周转量第二因子消费能力因子居民消费水平,职工工资水平第三因子价格指数因子消费价格指数,商品零售价格指数输入数据,依次点选分析描述统计描述,将变量x1到x8选入右边变量下面,点选“将标准化得分另存为变量”,点确定即可的标准化的数据。依次点选分析降维因子分析,打开因子分析窗口,将标准化的8个变量选入右边变量下面,点选描述相关矩阵下选中系数及KMO和Bartlett的检验,点继续,确定,就可得出8个变量的相关系数矩阵如下图。相关矩阵Zscore:国内生产Zscore:居民消费Zscore:固定资产Zscore:职工工资Zscore:货物周转Zscore:消费价格Zscore:商品零售Zscore:工业产值相关Zscore:国内生产1.000.267.951.191.617-.273-.264.874Zscore:居民消费.2671.000.426.718-.151-.235-.593.363Zscore:固定资产.951.4261.000.400.431-.280-.359.792Zscore:职工工资.191.718.4001.000-.356-.135-.539.104Zscore:货物周转.617-.151.431-.3561.000-.253.022.659Zscore:消费价格-.273-.235-.280-.135-.2531.000.763-.125Zscore:商品零售-.264-.593-.359-.539.022.7631.000-.192Zscore:工业产值.874.363.792.104.659-.125-.1921.000由表中数据可以看出大部分数据的绝对值都在0.3以上,说明变量间有较强的相关性。2:用主成分法求公因子,公因子的提取按照默认提取(即特征值大于1),给出公因子的方差贡献度表解释的总方差成份初始特征值提取平方和载入合计方差的%累积%合计方差的%累积%13.74846.84746.8473.74846.84746.84722.19827.47474.3212.19827.47474.32131.22215.27889.5991.22215.27889.5994.4035.03694.6355.2122.65297.2876.1351.69098.9777.067.84099.8178.015.183100.000提取方法:主成份分析。上表中第一列为特征值(主成分的方差),第二列为各个主成分的贡献率,第三列为累积贡献率,由上表看出前3个主成分的累计贡献率就达到了89.599%>85%,所以选取主成分个数为3。选y1为第一主成分,y2为第二主成分,y3为第三主成分。且这三个主成分的方差和占全部方差的89.599%,即基本上保留了原来指标的信息。这样由原来的8个指标变为了3个指标。由上图看出,成分数为3时,特征值的变化曲线趋于平缓,所以由碎石图也可大致确定出主成分个数为3。与按累计贡献率确定的主成分个数是一致的。3:给出共同度表,并进行解释公因子方差初始提取Zscore:国内生产1.000.945Zscore:居民消费1.000.800Zscore:固定资产1.000.902Zscore:职工工资1.000.875Zscore:货物周转1.000.857Zscore:消费价格1.000.957Zscore:商品零售1.000.929Zscore:工业产值1.000.903提取方法:主成份分析。上表给出了该次分析从每个原始变量中提取的信息。由上表数据可以看出,主成分包含了各个原始变量的80%以上的信息4:给出因子载荷矩阵,据之写出因子分析的数学模型,并根据因子载荷矩阵分析提取的公因子的实际意义。如果实际意义不好解释,请用因子旋转(采用正交旋转中最大方差法)给出旋转后的因子载荷矩阵,然后分析旋转之后的公因子,要求给各个公因子赋予实际含义成份矩阵a成份123Zscore:国内生产.885.384.121Zscore:居民消费.607-.598.271Zscore:固定资产.912.161.212Zscore:职工工资.466-.722.368Zscore:货物周转.486.738-.275Zscore:消费价格-.509.252.797Zscore:商品零售-.620.594.438Zscore:工业产值.823.427.211取方法:主成分分析法。已提取了3个成份。旋转成份矩阵a成份123Zscore:国内生产.955.125-.131Zscore:居民消费.217.841-.213Zscore:固定资产.871.352-.137Zscore:职工工资.051.927-.114Zscore:货物周转.752-.505-.189Zscore:消费价格-.135-.009.969Zscore:商品零售-.103-.494.821Zscore:工业产值.944.111-.015提取方法:主成分分析法。旋转法:具有Kaiser标准化的正交旋转法。a.旋转在5次迭代后收敛。由成分矩阵数据第一列表明:第一主成分与各个变量之间的相关性;第二列表明:第二主成分与各个变量之间的相关性;第三列表明:第三主成分与各个变量之间的相关性。可以得出:x1x3x8主要由第一主成分解释,x4x5主要由第二主成分解释,x6主要由第三主成分解释。但是x2是由第一主成分还是第二主成分解释不好确定,x7是由三个主成分中的哪个解释也不好确定。从旋转成份矩阵得出第一成分主要由国内生产,固定资产,货物周转,工业产值这4个指标决定,说明了各省发展规模在一个省市的经济能力中占有的比重比较大。第二主成分主要是居民消费,职工工资这两个指标上,主要反映了各省份内的国民生活水平。第三主成分主要是消费价格,商品零售,放映了各省的商品消费水平。5、在因子分析窗口,得分因子得分保存为变量F1F2F3;方法:回归。再按三个主成分降序排列:数据排序个案:将f1选入排序依据,排列顺序:降序。同理得出按f2f3排序的结果。结果如下;最后,以各因子的方差贡献率占三个因子总方差贡献率的比重作为权重进行加权汇总,得出各城市的综合得分F。即成分一模型:F1=0.493*x1+0.112*x2+0.449*x3+0.026*x4+0.388*x5-0.070*x6-0.053*x7+0.487*x8成分二模型:F2==0.084*x1+0.567*x2+0.237*x3+0.625*x4-0.341*x5-0.006*x6-0.333*x7+0.075*x8成分三模型:F1=-0.119*x1-0.193*x2-0.124*x3-0.103*x4-0.171*x5+0.879*x6+0.745*x7-0.014*x8总得分:F=3.755/(3.755+2.197+1.215)*x1+2.197/(3.755+2.197+1.215)*x2+1.215/(3.755+2.197+1.215)*x3得三个城市的因子得分: 城市F1F2F3总得分城市F1F2F3总得分上海0.6048353.660840.8282731.58广西-0.28372-0.274370.61248-0.13江苏2.0343120.268713-0.172221.12福建-0.269630.271868-0.79963-0.19山东2.117716-0.197540.2512111.09贵州-0.76687-0.349261.663301-0.23广东1.4822911.685506-1.183571.09陕西-0.414-0.535230.885626-0.23四川1.108644-0.525480.9779360.59甘肃-0.71809-0.221821.018245-0.27浙江0.6515190.748983-0.32930.52山西-0.36589-0.66515-0.14735-0.42湖北0.60164-0.31.2659940.44天津-0.887640.984293-1.62974-0.44辽宁0.959742-0.43311-0.615140.27内蒙-0.47822-0.886930.206713-0.49北京-0.397371.587013-0.258110.23江西-0.56144-0.68367-0.05007-0.51云南-0.278030.0440562.0459170.21安徽-0.07046-0.79928-1.50596-0.54河南1.071321-1.31822-0.465080.08吉林-0.51601-0.40157-0.94792-0.55湖南0.26083-0.523830.5191490.06青海-1.344590.1819650.457748-0.57河北1.228359-1.52109-0.778280.05西藏-1.593350.630202-0.01241-0.64新疆-0.577210.1152241.140425-0.07宁夏-1.35841-0.15569-0.14352-0.78黑龙江0.233625-0.38075-0.58367-0.09海南-1.47391-0.00567-2.25105-1.16有了对各个公因子的合理的解释,结合各个城市在三个公因子的得分和综合得分,就可对各城市的经济发展水平进行评价了。在投入产出因子f1上得分最高的6个城市是山东、江苏、广东、河北、四川。其中山东得分为2.11763,江苏得分为2.03281,高于其他城市,说明山东、江苏的工业的投入产出能力最高,工业发展相对较快,从而推动城市发展;而青海、宁夏、海南、西藏的投入产出能力较差,可能由于地理位置的缘故工业发展相对落后。上海、广东、北京、天津在消费能力因子f2上的得分较高,说明它们的消费能力较高,人们的收入也较高,从而生活质量较好,城市发展较快;而河南、河北得分较低,它们的消费能力较低,从而说明人们的收入也相对较低,生活质量相对差一点,城市发展较慢。云南、贵州、湖北、新疆在价格指数因子f3上的得分较高,说明在这些城市物价相对较高,可能以些非本地产的东西由于运输的不方便,使得这些物价相对较高,而广东、安徽、天津、海南的价格指数较低,说明,在这些城市,交通相对便捷,运输方便,或者本地产的东西较多基本满足需求,使得物价相对较低,但从侧面也可看出这些城市与其他城市的联系可能较少,不利于自己的总和发展,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论