应用统计模拟试卷答案.doc_第1页
应用统计模拟试卷答案.doc_第2页
应用统计模拟试卷答案.doc_第3页
应用统计模拟试卷答案.doc_第4页
应用统计模拟试卷答案.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用统计学 模拟试卷开课学院: 商学院 专业: 考试形式:闭卷,所需时间: 120 分钟考生姓名: 学号: 班级: 任课教师: 题序一二三四 五总 分得分评卷人注意:请将答案写在答题纸上,写在试卷上无效。本试卷计算题均精确到小数点后三位!一、 小麦试验问题(20分)这道题涉及的内容:方差分析设有三个品种(用因素A表示)的小麦和两种不同的肥料(用因素B表示),将一定面积的地块分为6个均等的小区,每个小区随机地试验品种和肥料6种组合的一种,在面积相等的四块地上进行重复试验,其小麦的产量(公斤)如下表:品种肥料12319 10 9 811 12 9 813 14 15 1229 10 12 1112 13 11 1222 16 20 18SPSS运算结果附表:(1)Tests of Between-Subjects EffectsDependent Variable: Y SourceType III Sum of SquaresdfMean SquareFSig.Corrected Model263.333(a)552.66721.5450.000Intercept3650.66713650.6671493.4550.000A190.333( 2 )95.16738.9320.000B54.000154.000(22091 )0.000A * B19.000( 2 )9.500( 3.886 )0.040Error44.000182.444Total3958.00024Corrected Total307.33323a R Squared = 0.857 (Adjusted R Squared =0.817)(2) Estimated Marginal Means小麦产量 MeanDependent Variable: Y MeanStd. Error95% Confidence IntervalLower BoundUpper Bound12.3330.31911.66313.004(3) Post Hoc TestsA Homogeneous SubsetsStudent-Newman-Keuls ANSubset12189.75002811.00003816.2500Sig.0.1271.000Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean Square(Error) = 2.444.a Uses Harmonic Mean Sample Size = 8.000.b Alpha = 0.05.问题:1、 请填写附表(1)里面空白()处,并给出计算公式。2、 根据附表(1)方差分析的显著性水平结果,按0.05检验水平,讨论各个因素的显著性。3、 根据附表(2),说明里面各项指标的意义。我们称表2为估计边际平均值,这张表用于估计小麦产量的平均值在95%的可能性下在那个范围之内。Mean为平均值,std error为标准误差,最后95%xxxxxxx表示在95%的情况下,平均值会在下限为11.663,上为13.004之间。4、 根据附表(3),说明A因素下各个水平均值多重比较的结果。品种1和品种2放在subset1中,它们的平均产量与subset2中的品种3有明显差异。但是对于subset1组内来说,均数比较检验的概率,Sig值为0.1270.05,即原假设无效,品种1和2不存在明显产量差异。5、 找出最优生产条件,并说明理由。从表1的方差分析可得,总方差307.333=190.333+54+19+44,方差很大的部分都是由品种和肥料的差异构成的,即品种和肥料对产量影响很大,至于交互作用,可以忽略。所以我们根据表3选择平均产量最高的品种,品种3。根据原来的表格,我们可知同一种品种,肥料2明显能使得小麦增产,所以我们选择肥料2。所以最优生产条件,品种3,肥料2二、销售额问题(20分)回归分析某公司某种商品在15个地区的销售额Y(万元)与各地区的人口(万人)及平均每户总收入(元)的有关数据如下表。地区123456789101112131415Y162120223131671698119211655252232144103212X1274180375205862659833019553430372236157370X2245032543802283823473782300824502137256040204427266020882605SPSS运算结果附表:(1) Variables Entered/Removed(b)ModelVariables EnteredVariables RemovedMethod1X2, X1(a).Entera All requested variables entered.b Dependent Variable: Y(2)Model Summary(b)ModelRR SquareAdjusted R SquareStd. Error of the Estimate10.999(a)0.9990.9992.17722a Predictors: (Constant), X2, X1b Dependent Variable: Y(3)ANOVA(b)ModelSum of SquaresdfMean SquareFSig.1Regression53844.716226922.3580.000(a)Residual56.884124.740Total53901.60014a Predictors: (Constant), X2, X1b Dependent Variable: Y(4) Coefficients(a)ModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta1(Constant)3.4532.4311.4200.181X10.4960.0060.93481.9240.000X20.0090.0010.1089.5020.000a Dependent Variable: Y问题:1、 附表(2)里面,指标R是什么指标,给出它的定义及其解释。模型摘要表,R为复相关系数,定义R=根号下(Sr/St),Sr为回归平方和,St为总平方和。根据St=Sr+Se有:R愈大,代表残差越小,方程回归性越高。本例中计算式子为:根号下(53844.716/53901.6).2、 求出附表(3)里面的F值,给出计算公式,并按0.05检验水平,讨论回归方程的显著性。构造F统计量,计算公式如下Vr=Sr/fr,Ve=Se/fe,F=Vr/Ve。其中S表示方差,f表示自由度。关于两者的下表,我在表格上用红笔标出来了。小r代表回归regression,e表示残差residual。本例中,计算Vr=53844.716/2=26922.358,Ve=56.884/12=4.740,所以F=26922.358/4.740=5679.466Sig=0.000,表示双尾检验P=0.000,方程回归性显著。3、 根据附表(4),给出回归方程的表达式,按0.05检验水平,讨论回归系数的显著性,并估计地区5的销售额的残差,给出计算公式。 解释一下表4的含义。表4为回归系数表,表头B下面的就是表示回归方程的参数,Constant表示的是常数项。所以有Y=3.453+0.496X1+0.008X2+e(e是希腊字幕kec,我打不出来,表示随机误差的意思)。 我们现在看最后一列,X1,X2系数对应的双尾检验P值=0.000,即至少在99.9%的情况下,得出的回归方程有效。而题目要求的是0.05检验水平,95%的情况下有效就行了。所以很明显,通过SPSS计算出的两个回归系数,都有显著意义。 残差的计算公式在书上第108页,e=Y-Y(小帽子),意思很好理解的。下面是关于本题残差的计算。 本题五区的观察值为Y=67,拟合值Y(小帽子)=3.453+0.496*86+0.008*2347=64.885,残差e=2.115。三、 经济发展阶段问题(20分)为了研究近年来中国经济发展状况,搜集了1989年2002年中国国内生产总值(GDP)指数(上年=100),列表如下(本表按不变价格计算):1989年2003年中国国内生产总值(GDP)指数(上年=100)年份1989199019911992199319941995指数(%)104.1103.8109.2114.2113.5112.6110.5年份19961997199819992000200120022003指数(%)109.6108.8107.8107.1107.8 107.3 108.0 109.1(1) 请将下列直径D(i , j)表中的括号填上,(无计算过程,不给分)。直径矩阵D(i,j)123456710.00020.0450.000318.42014.5800.0004(72.672.607508)54.10712.5000.000598.37268.84814.6600.2450.0006109.41373.55214.7281.2870.4050.0007110.16073.57317.5407.7404.7402.2050.0008110.16974.48922.34015.4289.8104.7400.4059110.86976.97529.060(224.393.)15.8608.0471.44710113.74982.42039.17536.34024.39313.3523.96811118.60089.98951.18049.64934.10919.7007.41212120.39793.30557.10956.18938.28921.8948.18013123.33297.89064.28763.81643.46224.9599.62914124.16499.57267.44067.16745.34025.7409.77915124.20999.59267.77267.54945.37625.80410.262所谓有序聚类法,举个体育课的例子,老师命令学生从左到右由低到高战成一排,假设这坨人的身高从左到右分别为163,166,168,171,175,178,179,180,181,184,188,189。现在要求在不改变他们站位顺序的情况下把他们分成三类,一个自然而然的想法就是,163,166,168,171,175,178,179,180,181,184,188,189。这就是有序聚类法。我现在这么分类了,问题是鬼才知道这么分类好不好。所以我们引入一种检测方法:设上面人的身高从左到右分别为x1,x2。x12。第一组的起始元素是x1,结束元素是x3,计算组内平方和,这个很好计算,为了简便书写,我们令组内平方和为d,由于第一个元素是1,最后一个元素是3,所以d(1,3)就表示第一组的组内平方和。更一般的书写方法,就是d(i,j),书上p156有说明,那么何为最优聚类呢?就是所有组的组内平方和加起来为最小的时候,就是最优聚类。现在我们用实例来学会计算方法:如果我们把1990年单独分一类,那么很显然,d=0。但是如果我们把1990,和1991聚成一类,那么d(1,2)=(104.1-103.95)2+(103.8-103.95)2=0.045,其中103.95为组内所有元素的平均值。所以不难计算出d(1,4)等其他数值。当数据很多的时候,我们可以用计算器的统计功能(mode=sd),来帮计算组内平方和。 (续) 直径矩阵D(i,j)89101112131415123456780.00090.3200.000101.6270.5000.000113.6281.4600.2450.000123.8481.4680.3270.2450.000134.5531.7320.3800.2600.1250.000144.5571.7800.5800.5300.2600.2450.000155.5093.2292.4552.4521.7301.6470.6050.000(2) 请将下列最小目标函数eP(i , j)表中的括号填上,( 无计算过程,不给分 )。最小目标函数矩阵eP(n,k)234567820(2)30.045(3)0(3)412.545(3)0.045(4)0(4)514.705(3)0.29(4)0.045(5)0(5)614.773(3)1.332(4)0.29(6)0.045(6)0(6)717.585(3)(7.78 5 (4)1.332(7)0.29(7)0.045(7)0(7)822.385(3)15.178(7)1.737(7)0.695(7)0.29(8)0.045(8)0(8)9(29.105 (3)16.22(7)2.779(7)1.652(8)0.61(8)0.29(9)0.045(9)1039.22(3)18.741(7)5.3(7)2.237(9)1.195(9)0.61(10)0.29(10)1151.225(3)21.213(8)8.744(7)3.024(10)1.897(10)0.855(10)0.535(10)1257.154(3)21.433(8)9.512(7)3.106(10)1.979(10)0.937(10)0.617(10)1364.332(3)22.138(8)10.961(7)3.159(10)2.032(10)0.99(10)0.67(10)1467.485(3)22.142(8)11.111(7)3.359(10)2.232(10)1.19(10)0.87(10)1567.817(3)23.094(8)11.594(7)4.966(9)3.359(15)2.232(15)1.19(15)我们由第一题的数据得到了各种d(i,j)的值,现在是把它们求和的时候了,为了偷懒,我们用一个方便表达式子eP(n,k)来表达。 比如eP(2,2)表示总共2个元素,把分为两类,那么显然是一个元素一组,组内平方和之和一定是鸭蛋。 eP(3,2)表示总共3个元素,把它们分为两类,求出来的所有组内平方和之和。那么这就有文章可做了。我们可以选择1,2分一类,3单独分一类,也可以选择1单独分一类,2,3分一类。那么第一种选择,我们查表得总和是d(1,2)+d(3,3)=0.045+0=0.045。第二种分法总和是d(1,1)+d(2,3)=0+14.580=14.580. 那么我们该选哪一个呢?运筹学里面我们学过,要想最后的总和为最优,必然每一步都是最优解。那么我们要求所有组内平方和之和最小,显然每次分类,我们都要取最小,也就是eP(3,2)=min0.045,14.580=0.045,我们选择分类方法便是1,2分一类,3单独分一类。 对于题目中的要求e(9,2)=mind(1,1)+d(2,9),d(1,2)+d(3,9),。d(1,8)+d(9,9)=0+76.975,0.045+29.06,18.42+24.393。,不难看出,选择d(1,2)+d(3,9)为最优解,e(9,2)=29.105 总共分两组,第二组(即最后一组)的起始元素为第三个,所以我们填入29.105(3) 第二个空,e(7,3)=mineP(2,2)+d(3,7),eP(3,2)+d(4,7),eP(6,2)+d(7,7)=min0+17.54,0.045+7.740,.14.733+0=7.785,我们从计算式中不难看出,最优分配,是将前面三个元素分成两组,后面第四到第七个元素分成第三组,由于第三组(最后一组)是从元素4开始起分的,所以我们应当填入的是7.785(4)。 所以eP(7,3)的最优聚类法是,1,2分一类,3分一类,4到7分一类,最小组内平方和之和为7.785 (续) 最小目标函数矩阵eP(n,k)9101112131415234567890(9)100.045(10)0(10)110.29(11)0.045(11)0(11)120.372(10)0.29(12)0.045(12)0(12)130.425(10)0.305(11)0.17(12)0.045(13)0(13)140.625(10)0.425(14)0.305(14)0.17(14)0.045(14)0(14)150.87(15)0.625(15)0.425(15)0.305(15)0.17(15)0.045(15)0(15)(3) 试给出k=5的分类情况。前面(2)已经给出了详细的选取最优的过程,现在我们来从表中找到最优组。首先在组内找到eP(15,5)=4.966(9),所以第一步就可得,分五组,最后一组为9-15。我们再看剩下1-8个元素的最优分配,我们找到eP(8,4)= 1.737(7),即8组分四组,最优分配时,最后一组为7-8。 以此类推,我们得到6个元素分3组,最后组,为4-6。 。 结论,最优分配法为1-2,3,4-6,7-8,9-15四、学生成绩分析问题(20分)记录10个学生的数学、物理、化学、语文、历史、英语的成绩,分别用表示,得数据见下表所示。对其做主成分分析。 10名男中学生的身高、胸围及体重数据学生代码数学 x1物理 x2化学 x3语文 x4历史 x5英语 x6165617284817927777766470553676349656757480697574746357470808481746788475627164766716752655787771577286719831007941675010809265716776SPSS运算结果附表:(1) CommunalitiesInitialExtractionX11.0000.803X21.0000.849X31.0000.555X41.0000.911X51.0000.763X61.0000.790Extraction Method: Principal Component Analysis.这张表表示因子分析后,提取2个公因子(后面表有说明是两个比较合适),原来变量和这两个公因子的变量共同度,即这两个公因子数值发生变化,其实代表了原来x1x6发生了多少变化,但是我们也看到,压缩成两个公因子后,原来6个因子中,x3的对应变化程度较少,即提取公因子后,x3流失的信息较多,其他的变量还算凑合。(2)Total Variance ExplainedComponentInitial EigenvaluesExtraction Sums of Squared LoadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %13.04950.82050.8203.04950.82050.82021.62327.05477.8741.62327.05477.8743.67011.16189.0354.4277.11296.1465.2143.56599.7116.017.289100.000Extraction Method: Principal Component Analysis.解释一下为什么提出两个公因子,而不是3个,4个。从原始的方差贡献率我们可以得知,分数的变化,有50.820%是由数学引起的,其次是物理,占了27.054%,加起来共有77.874%。其余的单个因子方差贡献率都较小,所以我们压缩原来6个因子,变成两个。(3) Component Matrix(a)Component12X1-.5570.702X2-.8110.438X3-.2630.697X40.9050.302X50.7580.435X60.7860.415Extraction Method: Principal Component Analysis.a 2 components extracted.这是因子载荷矩阵,第一个因子主要受x2,x4,x5,x6影响较大,第二个因子都差不多,这样的因子分析结果不好解释,所以我们要做旋转,于是就有了表4(4)Rotated Component Matrix(a)Component12X1-.1250.887X2-.4770.789X30.1260.734X40.934-.198X50.874-.010X60.888-.040Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.a Rotation converged in 3 iterations.进过旋转之后,答案变得特别明显,因子1主要受原来因子x4,x5,x6影响较大,因子2主要收x1,x2,x3影响较大。结合x1到x6的实际意义,我们把因子1命名为文科

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论