新疆财经大学多元统计分析题库及答案_第1页
新疆财经大学多元统计分析题库及答案_第2页
新疆财经大学多元统计分析题库及答案_第3页
新疆财经大学多元统计分析题库及答案_第4页
新疆财经大学多元统计分析题库及答案_第5页
已阅读5页,还剩3页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

新疆财经大学多元统计分析题库及答案

一.简述题(每题10分)

1.简述主成分分系方法和因子分析方法的异同?

解答:

不同之处:

主成分的概念由KarlPearson在1901年提出;因子分析由

CharlesSpearman于1904年首次提出的。

主成分分析中的主成分个数与原始变量个数是一样的.即有几个

变量就有几个主成分,只不过最后我们确定了少数几个主成分而已。

而因子分析则需要事先确定要找几个成分.也称为因子(factor).然

后将原始变量综合为少数的几个因子.以再现原始变量与因子之间的

关系.一般来说.因子的个数会远远少于原始变量的个数。

因变量和因子个数的不一致.使得不仅在数学模型上.而且在实

际求解过程中.因子分析和主成分分析都有着一定的区别,计算上因

子分析更为复杂。

在对主成分和原始变量之间的关系进行描述时.如果主成分的直

观意义比较模糊不易解释.主成分分析没有更好的改进方法;因子分

析则额外提供了“因子旋转(factorrotation)”这样一个步骤.可以

使分析结果尽可能达到易于解释且更为合理的目的。

相似之处:

考察多个变量间相关性一种多元统计方法。

研究如何通过少数几个主成分(principalcomponent)来解释多

个变量间的内部结构。

因子分析可以看作是主成分分析的推广和扩展.但它对问题的研

究更深入、更细致一些。实际上.主成分分析可以看作是因子分析的

一个特例。

2.简述K-means聚类分析的基本步骤?

解答:

第1步:确定要分的类别数目K

需要研究者自己确定在实际应用中.往往需要研究者根据实际问

题反复尝试.得到不同的分类并进行比较.得出最后要分的类别数

量。

第2步:确定K个类别的初始聚类中心

要求在用于聚类的全部样本中.选择K个样本作为K个类别的初

始聚类中心与确定类别数目一样.原始聚类中心的确定也需要研究者

根据实际问题和经验来综合考虑.使用SPSS进行聚类时.也可以由系

统自动指定初始聚类中心。

第3步:根据确定的K个初始聚类中心.依次计算每个样本到K

个聚类中心的距离欧氏距离.并根据距离最近的原则将所有的样本分

到事先确定的K个类别中

第4步:根据所分成的K个类别.计算出各类别中每个变量的均

值.并以均值点作为新的K个类别中心。根据新的中心位置.重新计

算每个样本到新中心的距离.并重新进行分类。

第5步:重复第4步.直到满足终止聚类条件为止

迭代次数达到讲究者事先指定的最大迭代次数(SPSS隐含的迭

代次数是10次)新确定的聚类中心点与上一次迭代形成的中心点的

最大偏移量小于指定的量(SPSS隐含的是0.02)o

K-均值聚类法是根据事先确定的K个类别反复迭代直到把每个

样本分到指定的里类别中。类别数目的确定具有一定的主主观性.究

竟分多少类合适.需要研究者对研究问题的了解程度、相关知识和经

3.简述判别分析和聚类分析的不同之处?

解答:

1.定义的不同:统计分类中.有的事先并不知道存在什么类别.

完全按照反映对象特征的数据把对象进行分类,这在统计上称为聚类

分析;有的则是在事先有了某种分类标准之后.判定一个新的研究对

象应该归属到哪一类别.这在统计上则称为判别分析

(discriminantanalysis)

2.实际操作的不同:和聚类分析的不同之处在于判别分析知道

训练样本的类别.属于监督学习.而聚类则不知道任何样本类别.属于

非监督学习。

4.简述多重共线性问题的识别方法?解答:

检测多重共线性的最简单的一种办法是计算模型中各对自变量

之间的相关系数.并对各相关系数进行显著性检验.若有一个或多个

相关系数显著.就表示模型中所用的自变量之间相关.存在着多重共

线性

考察各回归系数的显著性.当模型的线性关系检验(F检验)显著

时.几乎所有回归系数的t检验却不显著.表明存在共性性

分析回归系数的正负号.回归系数的正负号与预期的相反

容忍度(tolerance)与方差扩大因子

(varianceinflationfactor.VIF)。

某个自变量的容忍度等于1减去该自变量为因变量而其他k-l

个自变量为预测变量时所得到的线性回归模型的判定系数.即1-

Ri2o容忍度越小.多重共线性越严重。通常认为容忍度小于0.1时.

存在严重的多重共线性

方差扩大因子等于容忍度的倒数.即。显然.VIF越大多重共线

性就越严重。一般要求VIF小于5.也可放宽到小于2。如果大于10

则认为存在严重的多重共线性。

二.论述题(每题20分)

1.描述1984年奥林匹克运动会55各国家男子运动员比赛成绩

数据的统计方法.简明方法的用途。

100m(秒)1500m(分)马拉松(分)

1___10.393.7

’,■・■■,137.7!

10.313.57128.30

10.443.6135.90

410.343.6129.95

-_一・《—■———

510.283.75146.61

11,,《————

每个国家3种赛跑比赛中运动员的平均值用时。统计量为平均

解答:选择恰当的统计方法去描述需要了解数据的构成。

图表中的数据.55国家分别用数值表明弱化国家这一类别指标.

统计描述时可以忽略。

三种赛跑100m(秒).1500m(分).马拉松(分).数据量纲的差

异较大.不适宜三种赛制之间做交叉的统计描述。

所以我们侧重多三种赛制.每种赛制的55条数值变量分别进行

一元的统计描述。

反应数值变量的集中趋势.我们可以计算平均数.众数.中位数.

可以绘制箱线图

100m(秒)赛制55数据箱线图

2.反应数据离散趋势.我们可以计算数据的标准差.极值.四分位

数等.可以绘制核密度图

3.考察数据分布是否正态.我们可以直接绘制Q-Q图或者P-P图

(感兴趣可以自己研究一下)

2.分析宏观经济指标之间的关系.31各地区的GDP,固定资产投

资额.社会消费品零售额.出口额的4各变量的有关数据.假设建立一

个多元分析模型预测一个经济变量.步骤简要说明?

解答:参考:餐馆营'业额与多因素的回归预测模型也可参考教

概念注解:GDP二销售+投资+政府花费+出口-进口

1.确定所关注的因变量y和影响因变量的k个自变量:

确定GDP为因变量y,因变量为固定资产投资额xl,社会消费品

零售额x2,出口额

2•假定因变量y与k个自变量之间为线性关系.并建立线性关系

模型

模型如下:y=B+6282+e

3.对模型进行估计和检验

估计参数的方法.可以用最小二乘法.计算得出的估计值

4.判别模型中是否存在多重共线性.如果存在.进行处理

参考描述题

5.利用回归方程进行预测

6,对回归模型进行诊断

3.瑞士银行经过长期统计发现真钞和假钞的对角线的长度服从

不同的分布.用此方法可辨别真假钞问题.分别服从

、N(出,说),N(从4说)’,所有真钞的占比为p。假如你是工作人员.

你怎么判断真假。

解答:

真假币的有明确的正态分布.判断一张纸币是真或假.属于类别

判断.选择判别分析的方法

具体案例可参看教材

1,测量出一样纸币的对角线长度为:费

2,运用马氏距离方法计算出3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论