版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
应用多元统计分析课后答案第二章2.1.试叙述多元联合分布和边际分布之间的关系。XXX,1 2
X)的p联合分布密度函数是一个pXXX1 2概率分布,其概率密度函数的维数小于p。
X)的子向量的p设二维随机向量X1
X)服从二元正态分布,写出其联合分布。2
2 解:设(X X)的均值向量为μ
,协方差矩阵为 1 12,则其联1 2合分布密度函数为
1 2 221 2 1
1 f(x) 1 12
exp(xμ) 1 12 (xμ)。2212 221221 2
2 2 已知随机向量(X X)的联合密度函数为1 2f(x,x
2[(dc)(x)
a)(ba)(x2
c)2(x1
a)(x2
c)]1 2 (ba)2(dc)2其中ax1
b,cx2
d。求X1X2的边缘密度函数、均值和方差;X1X2的协方差和相关系数;X1X2是否相互独立。XX的边缘密度函数、均值和方差;1 2f (x
)d
c)(x
a)(ba)(x2
c)2(x1
a)(x2
c)]dx1 c
(ba)2(dc)22(dc)(xa)x(ba)2(dc)212dd2[b2(dc)(xa)x(ba)2(dc)212d 2 1 2 dxc (ba)2(dc)2 2c2(dc)(xa)x(ba)2(dc)22(dc)(xa)x(ba)2(dc)212 d
a)t]dt0 (ba)2(dc)2c2(d2(dc)(xa)x(ba)2(dc)212[(ba)t22(xa)t2(ba)2(dc)21 c所以
d0
1 ba由于X1
ba ba2服从均匀分布,则均值为 ,方差为 。2 12
服从均匀分布f (x
1)) d
xc,d1
dc则均值为 ,2dc2方差为 。12
x2 2
0 其它 2XX的协方差和相关系数;1 2cov(x,x)1 2db
ab dcc)(x
a)(ba)(x
c)2(x
a)(x
c)] x
x 1
2 1
dxdxc a
2 2 2
(ba)2(dc)2 1 2(cd)(ba)36 cov(x,x) 1 1 2 3x x1 2X1X2是否相互独立。X和X
f(x
)
(x)f
(x),所以不独立。1 2 1
x 1 x 21 2设X(XX,1 2
X)服从正态分布,已知其协方差矩阵为对角阵,证明其分量是相p互独立的随机变量。XXX,1 2
X)的密度函数为p 1 p 1 2f(x,...,x) Σ1/2exp(xμ)Σ1(xμ)21 p 2
2 11 2又由于Σ 2Σ2 2
2p1 2 p11 12Σ1 22
12p则f(x,...,x)1 p
1 1 2 1 1 1 p
1/2 1 2 Σ2 2 exp(xμ)Σ1 22
(xμ) 1 2 p
2 2 1 2 p 1 p
1
1(
1(x
)2
1(x
)22 2
exp
1
3 ... p p 1 2
2
2 2
2 2 1
(x
)2
1 2 p exp i i f(x)...f( i1
2 1 i则其分量是相互独立。ˆXnX nii1ˆni1
(XX)(XX) ni i35650.00 ˆX
12.33 17325.00 201588000.00 38900.00 83722500.00 -736800.00ˆ 38900.00 13.067 16710.00 -35.80 Σ83722500.00 16710.00 36573750.00 -736800.00 -35.800
-199875.0016695.101 0注:利用
p1
1X1n
, SX(In
1n
X 其中Inn
0
1在SPSS中求样本均值向量的操作步骤如下:选择菜单项→e→s对话框。Variables2.1。图2.1 Descriptives对话框 OptionsOptionsMean2.2Continue钮返回主对话框。图图2.2Options子对话框单击OK2.1样本均值向量为,,。表2.1 样本均值向量在SPSS中计算样本协差阵的步骤如下: 选择菜单项Analyze→Correlate→Bivariate,打开BivariateCorrelationsVariables2.3。图2.3BivariateCorrelations对话框 OptionsOptions子对话框。选择Cross-productdeviationsandcovariances2.4Continue按钮,返回主对话框。图2.4Options子对话框 单击OK出相关分析表,见表2.2。表中Covariance(PearsonCorrelationofSquaresandCross-products为样本离)渐近无偏性、有效性和一致性;X~
(μ,Σ),有样本X,Xp 1 2
,...,Xn
。由于X是相互独立的正态分布随机向量之和,所以X也服从正态分布。又E(X)EnXii1
nni1
EXi
nni1
μ nμD(X)Dn
n
1
DX
1
ΣΣii1
i1
i
ni1所以X~Np(μ,Σ)。方法1:
1n1
n(Xii1
X)(Xi
X) 1
XXnXXn1
i ii1E(ˆ)
1E(
XXnXX)n1
i ii1 1 n
EXXnEXXn1
i ii1n1 1 n1i1
ΣnΣn
1n1
(n1)ΣΣ。方法2:Sni1
(X-X)(X-X)i ini1
X-μ(X)X-μ(X)i n(X-μ)(X-μ2n(X-μ)(X-μ)n(X)(μμi i i ii1 i1ni1ni1
(X-μ)(X-μ)2n(Xμ)(Xμ)n(Xμ)(Xμ)i i(X-μ)(X-μ)n(Xμ)(Xμ)i iE( S )
1 E
(X-μ)(X
-μ)n(Xμ)(Xμ)n1 n1
iii1 ii1 nn1i1
E(Xi
-μ)
-μ)nE)(Xi
Σ。S故 为Σ的无偏估计。n 1设X ,X ,...,X 是从多元正态分布X~N(μ,Σ)抽出的一个简单随机样本试求S(1) (2) (n) p的分布。证明:设Γnn
***********111nn
)为一正交矩阵,即ΓΓI。ijn令Ζ=(Ζ Ζn1 2
Ζ)=Xn 1 2
XΓ,nX(ii
n)独立同正态分布,且Γ为正交矩阵所以( Ζ Ζ 1nni1Χ,E(Ζ)nin1nni1E(Χ nμ,Var(Z)Σ。in
)独立同正态分布。且有nE(Ζa
)E(nj1
rΧaj j
(a1,2,3, ,n1)n nnr 1μnajj1 μ
rr 0Var(Ζ
ajnji1)Var(nrΧ)a aj jj1
r2VarΧaj
Σ
r2Σajjj所以Ζ Ζ1 2
Ζn1
N(0,Σ分布。又因为Sn(Xji1
X)(Xj
X)nj1
XXj n 1nn 1n因为nXXn 1nn 1n
n
i
nXi
ZZn ni1 i1X又因为n
XX
X2j j 1 2
nj1
XnX 1X X XΓΓX 1 2 n
2 nZ 1Z
ZZ21 2 2
Z Z n所以原式
XZj j n n
ZZZZj j n nj1 j1ZZZZ...1 1 2 2
Z-ΖΖn n n n故Sn1,由于Z,Z
Z
(0,Σ,所以j jj1
1 2 n1 pSn1j jj1
~W(n1,)p设X(ni i
pNp
(μ,Σi
)的简单随机样本,i1,2,3, ,k,已知μμ ...μ μ且ΣΣ ...Σ Σ,求μ和Σ的估计。1 2 k 1 2 k已知ΣΣ ...Σ Σ求μ,μ,...,,μ和Σ的估计。1 2 k 1 2 k1 解1)ˆx
xa,nn1 2
...nk
ia1i1xana xaˆ i
xaxia1i1nn1 2
...nk(2) lnL(μ1
,μ,Σ)kln()
Σ
n
exp[12
a
(xai
μ)Σ-1(xa μ)]a i aa1i1 lnL,Σ)1pnln()nlnΣ1kn aa2 2 2 i
)Σ-1(xa-μ)i aa1i1lnL(μ,Σ) 1k Σ1a(XalnL(μ,Σ) 1k
)Σ1 2 2 i a i a1i1lnL(μ,
nj j μj解之,得
i1
Σ1(Xij
μ)0(j1,2,...,k)jnj
xx 1nj
ij j ij jˆ xj j
xn ji1
,Σj1i1nn1 2第三章
...nk其基本思想和步骤均可归纳为:答:第一,提出待检验的假和H1;第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;决策(拒绝或接受。均值向量的检验:统计量 拒绝域(X(X)0n当2已知 z
|z|z/2(X)0n当(X)0nS
|tt/2
(n1)(S2
1n1
(Xii1
X)2作为2的估计量)
:μμ0 0000协差阵Σ已知 T2n(Xμ)Σ1(X000
)~2(p) T22(n1)p1
0np0协差阵Σ未知 T
~F(p,np) T2F(n1)p (n1)p (T2
(nn(Xμ0
n(Xμ0
)])两个正态总体H:μμ0 1
nm 有共同已知协差阵T2
(XYΣ1(Y )~2p( ) T220 nm 0 (nm2)p1有共同未知协差阵F (nm2)p
~ (,n p1) FF nm nm (其中T2
(nm2) (XY)S1 (XY)) nm nm (np)n 协差阵不等nm F ZS-1Z~F((np)n p (np)n 协差阵不等nm F ZS-1Z~F(p,np) FFp 多个正态总体H: 0 1 2 k单因素方差 F
SSE(nk
~F(k1,nk) FFSSA(SSA(k1)ETEAE多因素方差 ETEAE协差阵的检验检验ΣΣ
~(p,nk,k1)0H:Σ
np/2 1 exp 1 0 pH:ΣΣ I0 0
2 n 1 1 n/2eexptrS*S* 2 n检验ΣΣ Σ H:Σ
Σ1 2 k 0 1 2
knnp/nnp/2kSS
n/2
pn/2统计量k
iii1
n iii1系。
分布和威尔克分布分别与一元统计中t分布和F分布的关()霍特林分布是t分布对于多元变量的推广。n(X)2 t2 nX)(S2)1XX~NS2
(μ,Σ)~Wp
(nΣX与S相互独立,np,则称统计的分布为非中心霍特林T2分布。若X~Npnp1
(0,Σ),S~Wp
(nΣ)XST2nXS1X T2~Fp,p 1。np(2)威尔克斯分布在实际应用中经常把统计量化为T2统计量进而化为F统计量,利用F统计量来解决多元统计分析中有关检验问题。pn1n2Fpn1n2F统计量及分别任意任意1np11(p,n,1)~F(p,np1)11p(p,n,1)11np 11 p(p,n,2)1(p,n,2)1~F(2p,2(np))11n2n 1(1,n,n)(1,n,n)1 21 2 ~F(n,n)2 1n111n2(2,n,n)1 2(2,n,n)1 2~F(2n,2(n1))2 1任意任意21任意任意2任意任意试述威尔克斯统计量在多元方差分析中的重要意义。答:威尔克斯统计量在多元方差分析中是用于检验均值的统计量。H:μ
μ
Hij使μμ0 1 2 k 1 i jETEET用似然比原则构成的检验统计量为
AE
pn k,k 1给定检验水平,查Wilks分布表,确定临界值,然后作出统计判断。第四章简述欧几里得距离与马氏距离的区别和联系。答:设p维欧几里得空间中的两点X=和Y=则欧几里得距离为 欧几里得距离的局限有①在多元数据分析中其度量不合理②会受到实际问题中量纲的影响。设X,Y是来自均值向量为,协方差为的总体G中的p维样本。则马氏距离为D(X,Y)= 。 当 即 单 位 阵 时 ,= 即欧几里得距离。的推广。试述判别分析的实质。种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk是p维空间Rp的k个子集,如果它们互不相交,且它们的和集为,则的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空构造一个“简述距离判别法的基本思想和方法。是分别计算样本与各个总体的距离(马氏距离,将距离近的判别为一类。①两个总体的距离判别问题GG,和
,对于一个新的样品X,1 2 1 2要判断它来自哪个总体。计算新样品X到两个总体的马氏距离(G)和(G,1 2则X))1 2X)>,1 2具体分析,D2(X,G)D2(X,G)1 2(Xμ)Σ1(Xμ1
)(Xμ)Σ1(Xμ)2 2XΣ1X2XΣ1μμΣ1μ(XΣ1X2XΣ1μμΣ1μ)1 1 1 2 2 22XΣ1
μ)μΣ1μμΣ1μ22XΣ1(μ2
1 1μ)(μ1
1 2μ)Σ1(μ2
2μ)212Xμμ21
Σ1(μ
μ) 2 1 22(Xμ)α2α(Xμ)记W(X)α(Xμ) 则判别规则为X,W(X)X,W(X)<0②多个总体的判别问题。设有k个总体G,G1 2
, k
,其均值和协方差矩阵分别是μ,μ1 2
, ,μk
Σ,Σ1
, ,Σ,k且Σ Σ Σ Σ计算样本到每个总体的马氏距离到哪个总体的距离最小就属1 2 k于哪个总体。D2(XG
)(Xμ
)Σ1(Xμ)Σ1XμΣ1μ XΣ1X2(IXC) 1取I Σ1μ ,C μΣ1μ
,1,2,,k。 2 可以取线性判别函数为W(X)IX
,1,2,,k 相应的判别规则为XG
若W(X)max(IXC)i i k 简述贝叶斯判别法的基本思想和方法。基本思想:设k个总体G,G1 2
, k
,其各自的分布密度函数f1
(x),f2
(x), ,fk
(x),假设k个总体各自出现的概率分别为q,q1 2
, ,q ,qk
0,k qii1
1Gi
总体的样品错判到总体Gj时造成的损失为Cj|ii,j1,2,k。k个总体G,G1 2
, k
相应的p维样本空间为R(R,R1 2
, ,R)。kR下,将属于Gi
的样品错判为G
的概率为jP(j|i,R) fiRj
(x)dx i,j
ij则这种判别规则下样品错判后所造成的平均损失为r(i|R)j1
[C(j|i)P(j|i,R)] i1,2,,k则用规则R来进行判别所造成的总平均损失为g(R)ki1
qr(i,R)ik
qi
C(j|i)P(j|i,R)i1 j1贝叶斯判别法则,就是要选择一种划分RR1 2
, ,Rk
,g(R达到极小。基本方法:g(R)
qi
C(j|i)P(j|i,R)k
qi
i1 jC(j|i)fR i
(x)dxi1 jjkj1
(kRj R
qC(j|i)fi
(x))dx令i1
qC(j|i)f(x)h(x),则g(R)k Ri i jR*j*
h(x)dxjR*
(R*,R*,,R*),g(R)
h(x)dx1 2 k
jjj1R*j则在两种划分下的总平均损失之差为g(R)g(R*)kk [hRR* i
(x)hj
(x)]dxi1ji jRi
上h(xhi
(x)对一切j成立,故上式小于或等于零,是贝叶斯判别的解。R(R,R,,R)
R|h(x)min
(x)}
i1,2,,k从而得到的划分
1 2 k 为i
i jk j简述费希尔判别法的基本思想和方法。kp个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数U(X)uX1 1
uX2
uXp p
uX系数u(uu1 2
, ,up
)可使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p个指标值代入线性判别函数式中求出U(X)值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。试析距离判别法、贝叶斯判别法和费希尔判别法的异同。答:①费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。②当k=2时,若二者与贝叶斯判别也等价。
则费希尔判别与距离判别等价。当判别变量服从正态分布时,③当时,费希尔判别用作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。④距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是 X,W(X)X,W(X)<lnd距离判别的判别规则是X,W(X)X,W(X)<0二者的区别在于阈值点。当q1
qC|2)C(2|d1lnd0。二者完全2相同。设有两个二元总体和,从中分别抽取样本计算得到, 假设 ,试用距离判别法建立判别函数和别规则。样品X(,0’应属于哪个总体?解:=,=, =X属于总体牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。销售情况产品序号销售价格口味评分信任度评分12.258畅销33.03943.28652.876平销63.58774.89881.734滞销92.242102.74322.522.567⑵现有一新品牌的饮料在该超市试销,其销售价格为3.0,顾客对其口味的评分平均为8,信任评分平均为5,试预测该饮料的销售情况。解:增加group变量,令畅销、平销、滞销分别为group1、2、3;销售价格为X,口味评1分为
,信任度评分为X2
,用spss解题的步骤如下:3SPSSXXX变量选入自1 2 3变量中,并选择Enterindependentstogether单选按钮,即使用所有自变量进行判别分析。DefineRange13Continue4.1图4.1判别分析主界面单击按钮,指定输出的描述统计量和判别函数系数。选中FunctionCoefficientsFisher’sBayes(注意:这个选项不是FisherFisher)Continue按钮,返回主界面。图4.2 statistics子对话框单击按钮,弹出classification子对话框,选中Display选项栏中的Summarytable4.3。图4.3classification对话框OK按钮,运行判别分析过程。Bayes判别函数:BayesBayesGroup1:Y181.84311.689X112.297X216.761X3Group2:Y294.53610.707X113.361X217.086X3Group3:Y317.442.1914.9626.443ClassificationFunctionCoefficientsFisher'slineardiscriminantfunctions将各样品的自变量值代入上述三个BayesClassificationFunctionCoefficientsFisher'slineardiscriminantfunctionsgroup123x1-11.689-10.707-2.194x212.29713.3614.960x316.76117.0866.447(Constant)-81.843-94.536-17.449表4.1判别函数系数ClassificationResultsaPredictedGroupMembershipgroup123TotalOriginal Count23种被1ClassificationResultsaPredictedGroupMembershipgroup123TotalOriginal Count 131042120330033%175.025.0.0100.0233.366.7.0100.03.0.0100.0100.0a.80.0%oforiginalgroupedcasescorrectlyclassified.表a.80.0%oforiginalgroupedcasescorrectlyclassified.X13.0X28X353Bayes判别函数,Y2classificationcasewise银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任,以决定是否给予贷款。可以根据贷款申请人的年龄(X1
、受教育程度(X2
、现在所从事工作的年数(X(X3
(X5
(X6
(X、7其它债务(X8
)等来判断其信用情况。下表是从某银行的客户资料中抽取的部分数据,⑴根据样本资料分别用距离判别法、Bayes判别法和Fisher判别法建立判别函数和判别规则。好坏客户序号XXXXXXXX12345678已履行还贷责任未履行还贷责任⑵某客户的如上情况资料为(好坏客户序号XXXXXXXX12345678已履行还贷责任未履行还贷责任123172316.600.341.712341173598.001.812.913422723414.600.94.9443911954813.101.934.36535191345.000.401.306371132415.101.801.827291131427.401.461.6583221167523.307.769.72928223236.400.191.2910261432710.502.47.36,3.58)11,groupspss解题步骤如下:在SPSSX1X6Enterindependentstogether单选按钮,即使用所有自变量进行判别分析。DefineRange0到1,所以在最小值和最大值中分别输入0和1。单击Continue按钮,返回主界面。单击Statistics…按钮,指定输出的描述统计量和判别函数系数。选中 FunctionCoefficients栏中的Fisher’s和。单击Continue按钮,返回主界面。单击Classify…按钮,定义判别分组参数和选择输出结果。选择 Display栏中Casewiseresults,以输出一个判别结果表。其余的均保留系统默认选项。单击Continue按钮。OK按钮,运行判别分析过程。用费希尔判别法建立判别函数和判别规则:未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分以该系数使用起来比标准化的系数要方便一些。具体见表4.3。表4.3 未标准化的典型判别函数系由此表可知,Fisher判别函数为:Y10.7940.32X16.687X20.173X30.357X40.024X50.710X60.792X72.383X8用Y计算出各观测值的具体坐标位置后,再比较它们与各类重心的距离,就可以得知分类,如若与group0的重心距离较近则属于group0,反之亦然。各类重心在空间中的坐标位置如表4.4所示。表4.4各类重心处的费希尔判别函数值用bayes判别法建立判别函数与判别规则,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判别法与bayes判别完全一致。4.5栏中的每一列表示样品判入相应列的BayesBayes判别函数如下:G0118.6930.340X194.070X21.033X34.943X42.969X513.723X610.994X737.504X8171.2960.184X1126.660X21.874X36.681X43.086X517.182X67.133X749.116X8表4.5 Bayes判别函数系数将各样品的自变量值代入上述两个Bayes判别函数,得到两个函数值。比较这两个函数值,哪个函数值比较大就可以判断该样品该判入哪一类。CasewiseStastics从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的化验:血清铜蛋白X1
、蓝色反应X2
、尿吲哚乙酸X3
和中性硫化物X4
,数据见类别病人序号类别病人序号XXXX1 2 3 4胃癌患者萎胃缩炎性患者非胃炎患者122813420112245134104032001671227417015078510016720146225125714713010061281501177691201331026101601005101118511551912170125641316514253141351082121510011772bayes判别完spss的解题步骤如下:SPSSX1
X3、
变量选入自变量中,并选择EnterX2independentstogether单选按钮,即使用所有自变量进行判别分析。X2DefineRange按钮,定义分组变量的取值范围。本例中分类变量的范围为13,所13Continue按钮,返回主界面。按钮,指定输出的描述统计量和判别函数系数。选中FunctionCoefficients栏中的Fisher’s:给出Bayes判别函数的系数。Classify…classificationDisplaySummarytable复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。OK按钮,运行判别分析过程。根据判别分析的结果建立Bayes判别函数:BayesBayesGroup1:Y179.210.1610.7520.7730.074Group2:Y246.7210.130X10.595X20.317X30.012X4:Y345913X163X210X305X4将各样品的自变量值代入上述三个Bayes判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。表4.6 Bayes判别函数系数4.74个被180%。在个萎缩性胃炎患者中,有480%有4180.0%。表4.7 错判矩阵第五章判别分析和聚类分析有何区别?n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)中的某一类,通试述系统聚类的基本思想。答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。造?答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为ij(一)闵可夫斯基距离:dijq取不同值,分为绝对距离(q1)
(q)Xikk1
X qjkd (1X Xij ik jkk1欧氏距离(q2)d(2p X ij ikk1
X21jk切比雪夫距离(q)d()maxX Xij 1kp ik jkX X Xik jk(二)马氏距离 dij
(L) pk1
X Xik jk(三)兰氏距离 d2(M)(Xij
X)1(Xj
X)j对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。ik jk(pik jk(pkX2)(pX2)ik jkkk(一)夹角余弦cos ij
pX X(二)相关系数
ikijkjk1ikijkjk1p(XikX)2ik1(X X)2jk jk
X)(
X)rij则?答:设dij
XXi j
之间距离,用Dij
GGi
之间的距离。(1).最短距离法D min dij X
,Xiji i j jD min
,D }kr X,Xi k j r
kp kq最长距离法D max dpq X,Xiji p j qD max
,D}kr X,X
kp kqi k j r中间距离法1 1D2 D2 D2D2kr 2 kp 2 kq pq其中重心法D2 (Xpq
XXq
X)Xq X
1(nXn p r
nX )q qn n nnD2kr nr
D2kp nr
D2p qD2kq n2 pqr类平均法D2 1p pq np
d2ij
D2 1k kr nk
dij
nr pD2n r
nqD2rn kqrXGXGi p j j
XGi k
XGr可变类平均法n nD2(1)(kr nr
D2kp nr
D2)D2kq pq其中是可变的且<1可变法1D2kr
(D22
D2kq
)D2pq
其中是可变的且<1离差平方和法Snt(Xt t1
X)(Xt
X)tn n n n nD2k pD2k qD2
k D2kr nn kp nnr k r
kq nn pqr k通常选择距离公式应注意遵循以下的基本原则:间距离概念。马氏距离有消除量纲影响的作用。之前已经对变量作了标准化处理,则通常就可采用欧氏距离。试述K均值法与系统聚类法的异同。答:相同:K—均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。不同:系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。对象进行聚类,其结果作为K—均值法确定类数的参考。试述K均值法与系统聚类有何区别?试述有序聚类法的基本思想。均值法的基本思想是将每一个样品分配给最近中心(均值)的类数产生一系列的聚类结果,而均值法只能产生指定类数的聚类结果。具体类数的确K均值法确定类数的参考。有序聚类就是解决样品的次序不能变动时的聚类分析问题。如果用X ,X , ,X 表示(2) (n)n个有序的样品,则每一类必须是这样的形式,即X ,X , ,X ,其中1in,且(i) (i1) (j)jn,简记为Gi{i,i,j}。在同一类中的样品是次序相邻的。一般的步骤是{D(i,j)}(2){L[p(l,k)]}(3)确定分类个数k(4)最优分类。检测某类产品的重量,抽了六个样品,每个样品只测了一个指标,分别为1,2,3,6,9,11.试用最短距离法,重心法进行聚类分析。用最短距离法进行聚类分析。0102105430876301098520由上表易知中最小元素于是聚为一类,记为计算距离阵0306308520中最小元素=2于是聚为一类,记为计算样本距离阵030630中最小元素于是聚为一类,记为因此,用重心法进行聚类分析计算样品间平方距离阵计算样品间平方距离阵0104102516906449369010081642540易知中最小元素于是聚为一类,记为计算距离阵0160499081注:计算方法2540中最小元素0160499081注:计算方法2540
,其他以此类推。聚为一类,记为计算样本距离阵016064160中最小元素于是聚为一类,记为因此,公司编号152001K公司编号净资产 每股净 总资产 资产负 流动负 每股净 净利润 总资产收益率 利润 周转率 债率 债比率 资产 增长率 增长率1 11.09 0.21 0.05 96.98 70.53 1.86 -44.0481.99211.960.590.7451.7890.734.957.0216.11300.030.03181.99100-2.98103.3321.18411.580.130.1746.0792.181.146.55-56.325-6.19-0.090.0343.382.241.52-1713.5-3.366100.470.4868.4864.7-11.560.85710.490.110.3582.9899.871.02100.2330.32811.12-1.690.12132.14100-0.66-4454.39-62.7593.410.040.267.8698.511.25-11.25-11.43101.160.010.5443.71001.03-87.18-7.411130.220.160.487.3694.880.53729.41-9.97128.190.220.3830.311002.73-12.31-2.771395.79-5.20.5252.3499.34-5.42-9816.52-46.821416.550.350.9372.3184.052.14115.95123.4115-24.18-1.160.7956.2697.84.81-533.89-27.74解:X1X2X3X4X5X6X7X8spss对公司聚类分析的步骤如下::SPSSAnalyze→Classify→Hierachical面,并将变量X1X8VariablesClusterCases单选按钮,即对样品进行聚类(若选择。在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。图5.1 系统分析法主界面点击Statistics按钮,设置在结果输出窗口中给出的聚类分析统计量。我们选择AgglomerationscheduleClusterMembershipRangeofsolution2-45.2Continue按钮,返回主界面。(其中,Agglomerationschedule表示在结果中给出聚类过程表,显示系统聚类的详细步骤;ProximitymatrixMembershipofsolution2-424)点击PlotsDendrogramIcicleNone单选按钮,如图5.3,即只给出聚类树形图,而不给出Continue按钮,返回主界面。图5.2Statistics子对话框 图5.3Plots子对话框MethodClusterMethod下拉列表用于指定聚类的方法,这里选择p(组间平均数连接距离Measure栏dne单击Continue按钮,返回主界面。
欧氏距离; 图5.4Method子对话框 图5.5Save子对话框SaveNone表示solution表示生成一个分类变量,在其后的矩形框中输ofsolutions表示生成多个分类变量。这里我们选择Rangeof,并在后面的两个矩形框中分别输入2234,5.5OK:类,3类时各个样本所属类别的情况,另外,从1513分离出来,自成一类。以此类推。表5.1各样品所属类别表图5.6聚类树形图K均值法的步骤如下:SPSSAnalyze→Classify→K-MeansK均值聚类分析主界X1-X8VariablesMethodIterateclassify,即K-means(Classifyonly,则根据初始类中心进行聚类,在聚类过程中不改变类中心NumberofCluster3,即将153类。(Centers设置初始类中心,这里我们不作设置)图5.7K均值聚类分析主界面点击IterateMaximumIterations参数框用于设定K-means10,ConvergenceCriterion参数框用于设定算法的收敛判据,输入0Continue,返回主界面。图5.8 Iterate子对话框点击SaveClustermembershipqcl_1;Distancefromclustercenter选项建立一个新变量,代表各观测Continue按钮返回。图5.9 Save子对话框点击OptionsInitialclustercenters和Clusterinformationforeachcase返回。5.10Options子对话框OK按钮,运行K均值聚类分析程序。聚类结果分析:以下三表给出了各公司所属的类及其与所属类中心的距离量值以及各类的公司数。由以上表格可得公司138一类。通过比较可知,两种聚类方法得到的聚类结果完全一致。下表是某年我国16均生活消费支出情况的六个经济指标。试通过统计分析软件用不同的方法进行系统聚类分析,并比较何种方法与人们观察到的实际情况较接近。通讯育文化北京190.3343.779.7360.5449.019.04天津135.236.410.4744.1636.493.94河北95.2122.839.322.4422.812.8ft西104.7825.116.49.8918.173.25内蒙128.4127.638.9412.5823.992.27辽宁145.6832.8317.7927.2939.093.47吉林159.3733.3818.3711.8125.295.22黑龙江116.2229.5713.2413.7621.756.04上海221.1138.6412.53115.6550.825.89江苏144.9829.1211.6742.627.35.74浙江169.9232.7512.7247.1234.355安徽135.1123.0915.6223.5418.186.39福建144.9221.2616.9619.5221.756.73江西140.5421.517.6419.1915.974.94ft东115.8430.2612.233.633.773.85河南101.1823.268.4620.220.54.3地区食品衣着燃料住房交通和娱乐教解:X1X2X3X4,交通和通讯支出为X5,娱乐教育文化支出为X6,用spss165.8题,不同的方法在4地区食品衣着燃料住房交通和娱乐教Between-group组间平均数连接距离)16234类时,各地区所属的类别,另外从右边的树形图也可以直观地观察到,若用组间平均数连接距离将这些地区分为3类,则9(上海北京)11(浙江)为一类,剩余地区为一类。Within-grouplinkage(组内平均连接距离) 3类,则9(上海)北京)为一类,剩余地区为一类。Nearest最短距离法)若用最短距离法将这些地区分为3类,则9(上海)北京)剩余地区为一类。Furthest最远距离法)39(上海)北京)11(江)为一类,剩余地区为一类。Centroid重心法)若用重心法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。Median中位数距离)若用中位数距离法将这些地区分为3类,则上海)北京)和浙江为一类,剩余地区为一类。Ward离差平方和) 若用离差平方和法将这些地区分为3类,则(上海1(北京)和(浙江)2(天津辽宁吉林江苏安徽福建)和江西)为一类,剩余地区为一类。根据上题数据通过SPSS统计分析软件进行快速聚类运算比较。解:快速聚类运算即K均值法聚类,具体步骤同5.8,聚类结果如下:聚类的结果为上海)北京天津辽宁吉林江苏11(浙江、13(福建)14(江西)为一类,剩余地区为一类。2003GDPx(元、1x(元x(万人x(万吨x2 3 4 5(亿元、固定资产投资总额x(亿元、在岗职工占总人口的比例x(%、在岗职工人均6 7x(元x(亿元。试通过统计分析软件进行系统聚类分8 9城市x城市x1x2x3x4x5x6x7x8x9石家庄呼和浩特哈尔滨乌鲁木齐北京31886331683052030671593200037.8253126441天津264334373235073467920593418.818648182515134131591184310008494169.5123061044太原15752158312975152483319722.8126796601899111257350841552118213.514116255沈阳23268154466612146368155714.8149611423大连2914527615110012108111140714.7175601310长春18630210456999108924629412.513870831148257561645895187642317.7124511154上海4658677083721263861899227421.0273056055南京2754743853167901480513679415.4221901134杭州3266749823213491681515071711.8246671466宁波3254347904249381379713955510.9236911060合肥106211171460344641362458.313901359福州2228121310968082506737611.815053876厦门5359093126444130557023838.619024397南昌142219205572844543121011.013913483济南23437226345810143547642913.516027758青岛2470535506146663055312054814.515335908郑州16674140231070978476637312.7135381048武汉212781708311882166108062317.4137301286长沙15446887310609106316043410.016987705广州48220554042975128859275108925.1288053727深圳19183834751910989679329187569.6310532199南宁8176339070165893361708.313171451海口1644214553132843304129916.514819284重庆71905076582903245016211876.5124401897成都17914928972793287989078811.9152741494贵阳11046103501851153184023115.812181345昆明16215116015126123386034214.614255709西安1314089131141393926544615.9135051211兰州1445917136220955812120318.013489468西宁706656052788203787610.114629175银川1178711013214621271213421.91349719322508171372188127544118026.116509420南宁31886331683052030671593200037.8253126441海口264334373235073467920593418.8186481825资料来源:《中国统计年鉴2004》解:spss375.84Method子对Cluster。Between-group组间平均数连接距离)从上面的树形图可以直观地观察到,若用组间平均数连接距离将这些地区分为324(深圳)独自为一类,10(上海)和16(厦门)为一类,剩余地区为一类。Within-group组内平均连接距离)3类,则24(上海)重庆)28(为一类,剩余地区为一类。Nearest最短距离法)若用最短距离法将这些地区分为2类,则24(深圳)独自为一类,剩余地区为一类。Furthest最远距离法)3深圳北京天津、、19(青岛、23(广州、36(海宁)和海口)5.Centroid重心法)若用重心法将这些地区分为3类,则深圳)上海)和厦门)为一类,剩余地区为一类。Median中位数距离)若用中位数距离法将这些地区分为3深圳)北京天津、7(大连、10(上海、11(南京、12(杭州、13(宁波、16(厦门、19(青岛、23(广州36(海宁)海口)为一类,剩余地区为一类。Ward离差平方和)若用离差平方和法将这些地区分为3深圳)北京天津、7(大连、10(上海、11(南京、12(杭州、13(宁波、16(厦门、19(青岛、23(广州36(海宁)海口)为一类,剩余地区为一类。距离、离差平方和这三种方法所得到的结果与现实生活中人们的感觉比较相近。下表是我国1991-2003据此对我国固定资产投资的价格变化情况进行分析。年份1991199219931994199519961997指数109.5115.3126.6110.4105.9104.0101.7年份199819992000200120022003指数99.899.6101.1100.4100.2100.2第六章试述主成分分析的基本思想。人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息主成分分析的作用体现在何处?答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各的同时又保留了原数据的大部分信息。简述主成分分析中累积贡献率的具体含义。pXX1 2
, ,Xp
的总方差tr(Σ)分解成了p个相互独立的变量Y,Y, ,Y
p的方差之和
k。主成分分析的目的是减少变量的个数,所以一般不会使用所有1 2 p
k1p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称k
pk1k11
为第k个主成分Yk的贡献率。第一主成分的贡献率最大,这表明Y
TX1综合原始变量XX1 2
, ,Xp
的能力最强,而Y2
,Y,3
,Y的综合能力依次递减。若只取pm(p)个主成分,则称m
p
为主成分Y,1
,Y的累计贡献率,累计贡献率m表明Y,1
,Ym
X,XX=(X=()’的协差阵为=0
k1,Xp
k1的能力。通常取m
,使得累计贡献率达到一个较高的百分数(85%以上。答:这个说法是正确的。即原变量方差之和等于新的变量的方差之和试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。从协方差矩阵出变量就可能体现得不够,也存在“大数吃小数”的问题。实际表明,这种差异有时很大。我理的做法是使用R。对于研究经济问题所涉及的变量单位大都不统一,采用R∑际问题,又可以避免突出数值大的变量。解:
试进行主成分分析。计算得当 时 ,同理,计算得时,易相互正单位化向量得,,综上所述,第一主成分为 第二主成分为 第三主成分为 设X=()’的协方差为, 0<p<1证明: 为最大特征根,其对应的主成分。证明:==,为最大特征根时,=所以,利用主成分分析法,综合评价六个工业行业的经济效益指标。行业名称资产固定资产净行业名称资产固定资产净产品销利润总计值平均余额售收入总额煤炭开采和选业6917.23032.7683.361.6石油和天然气开采业5675.93926.2717.533877黑色金属矿采选业768.1221.296.513.8有色金属矿采选业622.4248116.421.6非金属矿采选业699.9291.584.96.2其它采矿业1.60.50.30解:令资产总计为X1,固定资产净值平均余额为X2,产品销售收入为X3,利润总额为X4,用SPSS对这六个行业进行主成分分析的方法如下:SPSSAnalyze→DataReduction→Factor菜单项,调出因子分析主界面,并将变量XXVariablesOK按1 5钮,执行因子分析过程(关于因子分子在S中实现的详细过程,参见6.1所示的特征根和方差贡献率表和表6.2所示的因子载荷阵。第一个因子就可以解释86.5%表6.1特征根和方差贡献率表表6.2因子载荷阵6.2SPSSa1。点击菜单项Computevariable对话框,在对话框中输入等式:z1=a1/OK按钮,即可在数据编辑窗口中z1为变量名的第一特征向量。表6.3特征向量矩阵x1x1x2x3x4z10.5090.5370.5300.413根据表6.3得主成分的表达式:Y10.509X10.537X20.530X30.413X4ComputeComputevariable对话框,在对话框中输入等式:y10.509*x10.537*x20.53*x30.413*x4根据六个工业行业计算所的y1的大小可得石油和天然气开采业的经济效益最好和选业其次,接着依次是黑色金属、非金属、有色金属和其他采矿业。地区粮食蔬菜食油猪牛羊肉地区粮食蔬菜食油猪牛羊肉家禽蛋类及其水产品食糠酒制品北京134.0592.789.1514.62.1710.134.252.9214.42天津150.269.991011.070.8410.88.350.7210.14河北216.7255.976.597.10.546.362.250.657.29ft西218.9180.875.725.360.246.150.471.152.59内蒙207.370.772.7921.181.413.821.451.3410.77辽宁194.39178.595.916.452.519.594.490.7310.8吉林255.99115.26.2711.423.238.643.60.7513.64黑龙江195.08111.77.627.852.616.263.350.915.09上海189.4476.68.5916.377.47.5116.112.1216.77江苏251.98109.128.2712.054.56.729.091.38.82浙江208.4683.915.8116.426.035.3314.642.1324.15安徽228.3580.976.879.074.275.045.431.4210.61福建198.2799.925.1916.515.143.5513.32.3516.84江西264.8144.228.7713.243.313.55.191.137.31ft东229.06118.196.968.092.711.614.01110.81河南236.97100.114.226.481.238.011.351.134.23湖南227.39159.769.419.862.743.868.10.927.29湖北247.21149.448.3517.513.893.286.891.134.02广东233.75130.226.7322.2710.42.8313.32.163.33广西205.65108.944.9214.447.331.123.571.186.14海南236.3186.615.715.49.771.3114.751.243.88解:X1x2x3x4x5x6,x7x8x9SPSS6.8,分析结果如下:表6.4特征根和方差贡献率表表6.5因子载荷阵表6.6特征向量矩阵z1z2z3x10.001169-0.55035-0.00518x20.054359-0.320140.616746x30.0052610.1852390.697829x40.455914-0.075840.167341x50.509689-0.14229-0.05521x6-0.329080.4080630.269126x70.5009210.1187950.112136x80.3881120.332893-0.13025x90.1408660.4933-0.01984根据表6.6得主成分的表达式:Y10.001X10.054X20.005X30.456X40.51X50.329X60.501X70.388X80.141X9Y20.55X10.32X20.185X30.076X40.142X50.408X60.119X70.333X80.493X9Y30.005X10.617X20.698X30.167X40.055X50.269X60.112X70.130X80.02X9 Y
Y1Y2Y3得到综合得分并排序如下表:地区y1y2y3y北京14.92-90.4267.81-10.16天津11.80-93.4854.76-15.31上海24.39-115.4657.85-16.51福建24.55-129.9368.56-19.17浙江25.14-126.0059.51-19.43辽宁19.55-154.56118.72-19.47黑龙江13.27-131.9076.07-23.38湖南23.53-169.91108.84-24.97广东29.80-167.0688.93-25.29广西19.18-144.8972.06-25.99内蒙15.93-130.4748.84-27.33海南24.93-154.5760.04-29.19ft东11.81-152.6481.06-30.09湖北21.71-179.61100.93-30.74安徽14.06-143.1256.46-30.92江苏18.07-164.9376.08-32.51河北7.10-129.8340.94-32.73ft西6.20-141.4455.18-34.15吉林14.54-166.9078.26-34.32江西18.74-185.6297.04-34.94河南8.32-156.3666.62-35.93最后的分类可以根据最终得分Y根据各人的主观意愿可以有多种答案。5.102003分分析法对这些地区进行分类。解:用SPSS进行主成分分析的具体方法参见6.8,分析结果如下:表6.7特征根和方差贡献率表表6.8因子载荷阵z1z2表6.6z1z2x10.290.47x20.280.48x30.14-0.29x40.31-0.37x50.40-0.20x60.40-0.27x70.310.39x80.390.12x90.39-0.24根据表6.6得主成分的表达式:Y10.29X10.28X20.14X30.31X40.4X50.4X60.31X70.39X80.39X9Y20.47X10.48X20.29X30.37X40.2X50.27X60.39X70.12X80.24X9分别计算出以上三项后,利用公式Y
Y1
Y2得到综合得分并排序如下表:y1y2y170038.89254204.05197055.9070185.8834213.0258638.5950894.5369593.9356897.0455849.2132174.5848249.6542167.7129244.9838019.5140552.8528367.3436641.3045747.3811555.7334771.8645747.3811555.7334771.8639597.9021080.5233653.8239597.9021080.5233653.8236680.7525804.6533189.5235237.2714552.4628597.4431830.5617629.5327272.0325149.7316499.3922372.9722734.1616326.9720677.4522284.5415284.6820037.5923184.9912310.2219694.1923909.279770.5619370.7521524.9514179.2119166.9633808.79-17638.7317294.1419445.429809.9916352.4518561.819822.9015756.6216568.9713769.8015670.4417666.7011325.7715631.2618494.348579.7215311.7516128.6013359.1015239.5918845.236252.5414802.9818229.337399.6214752.9916764.154871.9712946.7614598.409288.2012893.8315782.076297.2012737.4314319.858659.4112502.8512865.9710960.0812254.1815339.904138.4811744.2427859.53-22407.6611723.7610450.626144.519068.3611526.862677.298686.15深圳上海厦门广州杭州宁波北京南宁天津海口南京青岛大连济南福州沈阳武汉长春成都太原郑州兰州海口昆明呼和浩特深圳上海厦门广州杭州宁波北京南宁天津海口南京青岛大连济南福州沈阳武汉长春成都太原郑州兰州海口昆明呼和浩特长沙西安南昌合肥银川贵阳重庆西宁南宁第七章试述因子分析与主成分分析的联系与区别。子模型。因子分析主要可应用于哪些方面?简述因子模型答:对于因子模型
A的统计意义。X aFi i1
a Fi2 2a
aFij ja
a F im m ia
i1,2, ,p11 12 1m22因子载荷阵为Aa21 a a (A,A222m
,A)a ap1 p2
1 2 ma pmXFi
的协方差为:Cov(X,Fi j
)Cov(mk
aFik
,F)i j=Cov(mk1
aFik
,F)j
,F)i j若对Xi
=aij作标准化处理, =aij
,因此aij
XFi j
的依赖程度;另一方面也反X F映了变量i对公共因子j的相对重要性。变量共同度h2i
ma2ijj1
i1,2, ,pD(X
)a2D(F)a2D(F)
a2
D(F
)
)h2
2
的方差由i i1 1 i2 2
im
i i i ih2Xi
的总方差所作的贡献,Xi常称为个性方差。X
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026秋季国家管网集团储运技术发展有限公司高校毕业生校园招聘笔试参考题库(浓缩500题)附答案详解(基础题)
- 2026秋季国家管网集团油气调控中心高校毕业生招聘14人笔试参考题库(浓缩500题)附答案详解(b卷)
- 2026国网贵州省电力公司高校毕业生提前批招聘(约450人)笔试备考题库浓缩500题附答案详解(黄金题型)
- 2026国网辽宁省电力公司高校毕业生提前批招聘笔试模拟试题浓缩500题含答案详解(a卷)
- 2026国网上海市电力公司高校毕业生提前批招聘笔试参考题库浓缩500题及答案详解1套
- 2026秋季国家管网集团湖南公司高校毕业生招聘4人考试备考试题(浓缩500题)带答案详解(b卷)
- 2026国网青海省电力公司高校毕业生提前批招聘(约450人)笔试备考题库浓缩500题及答案详解(考点梳理)
- 2026秋季国家管网集团共享运营分公司高校毕业生招聘笔试参考题库(浓缩500题)含答案详解(培优)
- 2026秋季国家管网集团山东分公司高校毕业生招聘考试备考题库(浓缩500题)及参考答案详解(轻巧夺冠)
- 2026秋季国家管网集团山东分公司高校毕业生招聘考试参考试题(浓缩500题)及答案详解【名校卷】
- 二氧化锰体系介导双酚A与喹诺酮类抗生素非生物转化机制探究
- LS-T8014-2023高标准粮仓建设标准
- 苏教版二年级数学上册全册教案
- 2025年农业技术推广考试题及答案
- 市政工程现场管理课件
- 极端天气下的安全管理-洞察阐释
- 四川甘孜州公开招聘社区工作者考试全真模拟测试带答案2024年
- 数智化背景下的高校教师教学评价体系构建与创新实践
- 村委会换届知识讲课件
- 工贸企业重大事故隐患判定标准解读
- 矿山开采合同
评论
0/150
提交评论