(完整word版)实用多元统计分析相关习题_第1页
(完整word版)实用多元统计分析相关习题_第2页
(完整word版)实用多元统计分析相关习题_第3页
(完整word版)实用多元统计分析相关习题_第4页
(完整word版)实用多元统计分析相关习题_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、练习题一、填空题1人们通过各种实践,发现变量之间的相互关系可以分成(相关)和(不相关)两种类型。多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相关系数。2总离差平方和可以分解为(回归离差平方和)和(剩余离差平方和)两个部分,其中(回归离差平方和)在总离差平方和中所占比重越大,则线性回归效果越显著。3.回归方程显著性检验时通常采用的统计量是(SRP)/SE/(n-p-1)。4偏相关系数是指多元回归分析中,(当其他变量固定时,给定的两个变量之间的)的相关系数。5Spss中回归方程的建模方法有(一元线性回归、多元线性回归、岭回归、多对多线性回归)等。6主成分分析是通过适当的变量替换,

2、使新变量成为原变量的(线性组合),并寻求(降维)的一种方法。7主成分分析的基本思想是(设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来替代原来的指标)。8主成分表达式的系数向量是(相关系数矩阵)的特征向量。9样本主成分的总方差等于(1)。10在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为(方差贡献度)。主成分的协方差矩阵为(对称)矩阵。主成分表达式的系数向量是(相关矩阵特征值)的特征向量。11.SPSS中主成分分析采用(analyzdatareductionfacyor)命令过程。12因子分析是把每个原始变量分解为两部分因素,一部分是(公共因子

3、),另一部分为(特殊因子)。变量共同度是指因子载荷矩阵中(第i行元素的平方和)。公共因子方差与特殊因子方差之和为(1)。聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的(亲疏程度)进行科学的分类。Q型聚类法是按(样品)进行聚类,R型聚类法是按(变量)进行聚类。Q型聚类统计量是(距离),而R型聚类统计量通常采用(相关系数)。六种Q型聚类方法分别为(最长距离法)、(最短距离法)、(中间距离法)、(类平均法)、(重心法)、(离差平方和法)。19快速聚类在SPSS中由(k-均值聚类(analyzeclassify一kmeanscluster)过程实现。判别分析是要解决在研究对象已(已分

4、成若干类)的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。用判别分析方法处理问题时,通常以(判别函数)作为衡量新样本点与各已知组别接近程度的指标。进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有(Fisher准则)、(贝叶斯准则)。类内样本点接近,类间样本点疏远的性质,可以通过(类与类之间的距离)与(类内样本的距离)的大小差异表现出来,而两者的比值能把不同的类区别开来。这个比值越大,说明类与类间的差异越(类与类之间的距离越大),分类效果越(好)。Fisher判别法就是要找一个由p个变量组成的(线性判别函数),使得各自组内点的 (离差)尽可能接近,而不同

5、组间点的尽可能疏远。二、简答题1、简述复相关系数与偏相关系数。答:复相关系数:又叫多重相关系数。复相关是指因变量与多个自变量之间的相关关系。例如,某种商品的需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。偏相关系数:又叫部分相关系数。部分相关系数反映校正其它变量后某一变量与另一变量的相关关系。偏相关系数是指多元回归分析中,当其他变量固定后,给定的两个变量之间的的相关系数。偏相关系数的假设检验等同于偏回归系数的t检验。复相关系数的假设检验等同于回归方程的方差分析。2、简述逐步回归分析方法的具体实施步骤。答:逐步回归过程如下:1)自变量的剔除;2)重新进行少一个自变量的多元线性回归分析;

6、3)重新进行多一个自变量的多元线性回归分析;4)重新进行上述步骤,直至无法再删除和再引入自变量为止。3、提取样本主成分的原则。答:主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此,一般可以用特征值大于1作为纳入标准。4、简述系统聚类法的基本思想及主要步骤。答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。系统聚类过程是:假设总共有n个样品(或变量),第一

7、步将每个样品(或变量)独自聚成一类,共有n类;第二步根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n1类;第三步将“距离”最近的两个类进一步聚成一类,共聚成n2类;,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类,也简称聚集法。还有与以上方法相反的称分解法。5、简述快速聚类(k均值聚类)的基本思想及主要步骤。答:基本思想:1.一个样品分配给最近中心(均值)的类中,将所有样品分成k个初始类。2通过欧式距离将每个样品划入离中心最近的类中,并对得到样品或失去样品的类重新计算中心坐标。3.重复步骤2,直到所有样品

8、都不能再分配时为止。6、判别分析的分类。答:判别分析是多元统计分析中用于判别样本所属类型的一种统计分析方法。判别分析按判别的组数来分,有两组判别分析和多组判别分析;按区分不同总体所用的数学模型来分,有线性判别和非线性判别;按判别对所处理的变量方法不同,有逐步判别、序贯判别等;按判别准则不同,有距离判别、贝叶斯判别(Bayes)、费歇(Fisher)判别等。7、简述Fisher判别规则及具体判别步骤。答:Fisher判别法的基本思想:从多个总体(类)抽取一定的样本,借助方差分析的思想,建立p个指标的线性判别函数,把待判样品代入线性判别函数,然后与临界值比较,就可判样品属于哪个类。Fisher判别

9、法的具体算法步骤:由Fisher线性判别式*S益1MP求解向量*的步骤:把来自两类&训练样本集X分成1和2两个子集X1和X2。1M=工X,I=1,2由ni“x,计算Mi。S=工(X-M)C-Mc由xkeX;1k1计算各类的类内离散度矩阵Si,i=1,2。计算类内总离散度矩阵SJS1+S2。hF计算SO的逆矩阵S计。由产SajG1-M2)求解*。三、计算题1现收集了92组合金钢中的碳含量x及强度y,且求得:X二0.1255,y二45.7989L二0.3019L二26.5126L二2941.03xxxyyy求y关于x的一元线性回归方程;求y与x的相关系数;列出对方程作显著性检验的方差分析表;在x=

10、0.1时,求y的点估计。求Y关于孟的一元线性回归方程;解:卜L265126n白=二=g7_8191.口L0.3019bx=45.79S9-S7.8191xO.1255=34.7776:26.5126-t=a+bx=34.7776+87.8191jt;艮卩:v=34.7776-87.8191x0.88980.3019x2S4L.03列出对方程作显著性检验的方差分析表方差来源平方和自由度均方F值回归VK28L3114:232BL311471.2499误差294:032总计5215934二罠曲=01时,求歩的点估计。由O知:y=34.TTTE+87.S19LJF得当时;y=34.7776+S7.B1

11、91x0.1=43.55952.某地区通过一个样本容量为722的调查数据得到劳动力受教育年数的一个回归方程为edu=10.36-0.094sibs+0.131medu+0.210feduR2=0.214iiii式中,edu为劳动力受教育年数,sibs为劳动力家庭中兄弟姐妹的个数,medu与fedu分别为母亲与父亲受到教育的年数。问(1)若m与fedu保持不变,为了使预测的受教育水平减少一年,需要sibs增加多少?(2)请对medu的系数给予适当的解释。(3)如果两个劳动力都没有兄弟姐妹,但其中一个的父母受教育的年数均为12年,另一个的父母受教育的年数均为16年,则两人受教育的年数预期相差多少年

12、首先计算两人受教育的年数分别为10.36+0/3:4她.210 x151581因此,两人的受埶育年限的差别为158H5-:4452=:364操作:-对斗种不同品种的玉米进行产里对比实验,假定各实验区其它条件都相同,得数据如下表:品种、12345A147.545463466452A24648J44S4?947:A343247.745.446.41SA44414:.53S.843242J问玉米的不同品种的平均产里是否有显著差异?ANOTA平方和df均方F显著性组间60.002322.9619.170.001组内40.064162.504总数100.94619答:EM)0CL(n-k-1)=1-0.

13、0012*14-12=0.986应该采用方程显著性检验,即F检验,理由是只有这样才能判断花、Xj起是否对Y有影响。4在一项研究中,测量了376只鸡的骨骼,并利用相关系数矩阵进行主成分分析,见下表:Y1Y2Y3Y4Y5Y6头长x10.350.530.76-0.05-0.040.00头宽x20.330.70-0.640.000.00-0.04肱骨x30.440.19-0.050.530.190.59尺骨x40.440.25-0.020.48-0.15-0.63股骨x50.430.28-0.06-0.51-0.670.48胫骨x60.44-0.22-0.05-0.48-0.700.15特征值4.57

14、0.710.410.170.080.06计算前三个主成分各自的贡献率和累积贡献率。对于y4,y5,y6的方差很小这一点,你怎样对实际情况作出推断解:5在一项对杨树的性状的研究中,测定了20株杨树树叶,每个叶片测定了四个变量:叶长(xl),2/3处宽(x2),1/3处宽(x3),1/2处宽(x4)。这四个变量的相关系数矩阵的特征根和标准正交特征向量分别为:九=2.9201九=1.0242九=0.0493九=0.0074U=(0.1485,0.5735,0.5577,0.5814)1U=(0.9544,0.0984,0.2695,0.0824)2U=(0.2516,0.7733,0.5589,0.

15、1624)3U=(0.0612,0.2519,0.5513,0.7930)4写出四个主成分,计算它们的贡献率。解:各自的主成分为:Z1=0.1485X1-0.5735X2-0.5577X3-0.5814X4Z2=0.9544X1-0.0984X2+0.2695X3+0.0824X4Z3=0.2516X1+0.7733X2-0.5589X3-0.1624X4Z4=-0.0612X1+0.2519X2+0.5513X3-0.7930X4则各自的贡献率为:W1=2.920/(2.920+1.024+0.049+0.007)=0.73W2=1.024/(2.920+1.024+0.049+0.007)

16、=0.256W2=0.049/(2.920+1.024+0.049+0.007)=0.01225W2=0.007/(2.920+1.024+0.049+0.007)=0.001756对纽约股票市场上的五种股票的周回升率x1,x2,x3,x4,x5进行了主成分分析,其中x1,x2,x3分别表示三个化学工业公司的股票回升率,x4,x5表示两个石油公司的股票回升率,主成分分析是从相关系数矩阵出发进行的,前两个特征根和对应的标准正交特征向量为:九二2.857U二(0.464,0.457,0.470,0.421,0.421)11九二0.809U二(0.240,0.509,0.260,0.526,0.58

17、2)22计算这两个主成分的方差贡献率。解:各自的主成分为:Z1=0.464X1+0.457X2+0.470X3+0.421X4+0.421X5Z2=0.240X1+0.509X2+0.260X3-0.526X4-0.582X5则各自的贡献率为:W1=2.587/(2.587+0.809)=0.762W2=0.809/(2.587+0.809)=0.238能否对这两个主成分的意义作一个合理的解释,并给两个主成分命名。答:解释:由SPSS抽取的两个主成分,其特征值分别为2.857和0.809,。根据主成分分析得知:各自的贡献率为W1=76.2%,W2=23.8%。由此可知,第一个主成分对变量(股票回升率)影响较大。命名:一、化学工业公司股票回升率二、石油公司股票回升率X124013523X24713129111416使用按动态聚类法进行聚类,采用欧氏距离(取1、3、7号样本为聚点)。解:四、上机操作会进行回

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论