应用统计学课件含练习题2013第六章判别分析_第1页
应用统计学课件含练习题2013第六章判别分析_第2页
应用统计学课件含练习题2013第六章判别分析_第3页
应用统计学课件含练习题2013第六章判别分析_第4页
应用统计学课件含练习题2013第六章判别分析_第5页
已阅读5页,还剩76页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章判别分析discriminant

analysis判别分析的基本概念两总体判别分析多总体判别分析SPSS的判别分析过程一、判别分析的基本概念判别分析问题的描述:已知若干组分类数据现有一新样本,要求判定新样本数据属于已知分类中的哪一类判别分析的关键:判别函数:由描述各类的数值指标构成的分类规则,明确已知各类应如何区别例:肝炎病人的诊断两总体判别:肝炎病人和正常人判别依据:一些化验指标,形成判别公式-判别函数Simple,

Two-Group

DAMean

of

group

1

from

data

you

haveMean

of

group

2

from

data

you

haveUnknown

observationx如何判别:x与哪类距离近,就归属于哪类:若dx1<dx2,则x属于第1类若dx1>dx2,则x属于第2类判别函数:f=dx1-dx2>0,

x∈2,<0,

x∈1判别规则中国属于发展中国家还是发达国家?Pattern

Recognition

Problem判别分析与方差分析、聚类分析聚类分析与判别分析间的联系先采用聚类分析获得各个个体的类别(classification

);然后采用判别分析建立判别函数,对新个体进行类型识别(identification

)聚类分析的数据格式k判别分析的数据格式判别分析的方法与数学描述数据描述对于m类总体G1,G2,……,Gm,其分布函数分别为f1(y),f2(y),……fm(y),对于一个给定样品y,我们要判断出这个样本来自哪个总体。判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。误判问题肝功指标高就一定是肝炎病人吗?误判率Misclassification(1-D

case)两总体单指标的判别分析,假设正态分布,等方差两总体单指标的判别分析,假设正态分布,等方差判别规则肝炎患者转氨酶

非患者非典??Best

-

In

What

Sense?Minimizes

probability

of

misclassificationMaximizes

posterior

probability

ofcorrect

classificationManyothers–

For

example

minimizes

the

cost

ofmisclassification具体问题具体分析疾病的诊断市场分析Lots

of

perspectives

suggestthis

basic

rule

as

best当分布中心过于接近,误判率很高三总体单指标影响误判率的因素

——组均值差异Three

groups

-

Two

features二、两总体判别分析2

1W(x)=

d2(x,

G

)-

d2(x,

G

)<0,x∈

G2所谓“等距离”:到两总体距离相等的点构成类分界线1.

马氏等距离法基本思想:样品和哪个总体距离最近,就判断它属于那个总体。设:两个总体G1和G2,x是一个p维样本,x到总体G1和G2的马氏距离分别记为d2(x,

G1)和d2(x,

G2),判别规则:若d2(x,G1)<d2(x,G2),则认为x属于G1

,反之若d2(x,

G1)>d2(x,

G2),认为x属于G2

。–或判别函数:>0,x∈

G1两指标、正态分布且方差相等的两总体类分界线样本点到某一类的距离越近,属于该类的概率越大线性判别函数设G1~N(m1,∑1)和G2~N(m2,∑2)为两正态总体,且协差阵相等,即∑1=∑2=∑,则样本x到G1、G2的马氏距离为221

21

2-

μ

)S

(μ)¢(μ1

+

μ2

)=

2[x

--1d

2

(x,

G

)

-

d

2

(x,

G

)

=

(x

-

μ

)'

Σ-1

(x

-

μ

)

-

(x

-

μ

)'

Σ-1(x

-

μ

)2

1

2

2

1

1=

2x'Σ-1

-

μ )

+

μ'

Σ-1μ

-

μ'

Σ-1μ1

2

2

2

1

1判别函数W

(x)=

2

1

=

(x

-

μ)'S-1

(μ -

μ

)令μ

=(μ1

+μ2

)/2,d

2

(x,

G

)

-

d

2

(x,

G

)d

2

(x,

G )

=

(x

-

μ

)'

Σ-1

(x

-

μ

)2

2

2d

2

(x,

G )

=

(x

-

μ

)'

Σ-1

(x

-

μ

)1

1

1可以证明:21

2d

2

(x,

G

)

-

d

2

(x,

G

)判别函数W

(x)=

2

1

=

(x

-

μ)'S-1

(μ -

μ

)容易看出上述函数W(x)为x的线性函数,称为线性判别函数,判别准则:W(x)与0比较x∈G1,当W(x)>0,x∈G2

当W(x)<0,令W(x)=0可以得到两类分界线Linear

Discrimination

RuleW(x1,x2)=0W(x1,x2)>001G1G2考察p=1的情况1221<

0

x

˛

G2>

0

x

˛

G,则:W(x)=-(x

-0.5)=1,s

=1若m

=0,m设G1~N(m1,s2)和G2~N(m2,s2),判别函数为:20.5x

>

0.5

x

˛

Gx

<

0.5

x

˛

G1或:令W(x)=0,

解出x

=2121211s

2(m

-

m

+

μ2) (m1

-

m2

)

=

a(x

-

μ)μ

+

μ

12

s

2W(x)

=

(x

-,a

=其中m

=x=0.5误判率P(2/1)=0.3085误判率P(1/2)=?∑1≠∑2时,非线性判别函数d

2

(x,

G )

=

(x

-

μ

)'

Σ-1

(x

-

μ

)1

1

1

1d

2

(x,

G )

=

(x

-

μ

)'

Σ-1

(x

-

μ

)2

2

2

2W(x)

=

d

2

(x,

G )

-

d

2

(x,

G

)2

1=

(x

-

μ

)'

Σ-1

(x

-

μ

)

-(x

-

μ

)'

Σ-1

(x

-

μ

)2

2

2

1

1

1判别函数W(x)为x的二次函数直观判断

x0属于哪一类?12G

:N(75,4)12>

S

2S

28075

x0=78考察p=1的情况已知G1是设备A生产的产品,G2是设备B生产的产品。

A设备质量高,其产品平均耐磨度m1=80,方差s12=0.25,B设备质量较差,其产品平均耐磨度m2=75,方差s22=4。现有一产品X0,其耐磨度x0=78,试判断该产品是哪台

设备生产的。建立判别规则,误判率多大?直观上看,x0距m1较近,但G

:N(80,0.25)

是考虑到相对分散度,220

20

22110240.25d2

(x

,

G

)

<

d2

(x

,

G

)

:

x

˛

G0

2

0

1

0=

2.25=d

(x

,

G

)

==16=d

(x0

,

G1

)

=s

2(x

-

m

)2

(78

-

75)2s

2(x

-

m

)2

(78

-80)2-2x1

=

79,

x2

=

81.7=

04

0.25(x

-

75)2

(x

-80)2x

˛

G2

,当x

<x1或x

>xx

˛

G1

,当x1

<x

<x2判别函数W(x)

=判别准则x1x2误判率:4.5%2. Fisher

判别法判别思想:投影,使多维问题简化为一维问题来处理方法:寻找原变量x的一个线性组合,使得各组在此方向上投影的差异最大化,再选择合适的判别规则对样品进行分类判别。Fisher’s

approachFind

a

linear

combination

of

variables

x

that

would

produce“maximally

different”

discriminant

scores

across

group数学模型设:线性组合的系数向量为a,考虑线性组合:z=xa——z:

x在a方向的投影通过寻找合适的a,使投影到此方向的组间变异大,组内变异比较小,即使组间

变异/组内变异(离差平方和)取最大值。两总体Fisher判别函数设:两协差阵相等的总体G1:n1个样本,G2:n2,m1,m2和m分别表示两总体均值和总均值线性组合的系数向量为a,

考虑线性组合:z=xa投影后的组内变异:组内离差平方和为i

iw=

a'[(xi

(1)

-

μ1

)(xi

(1)

-

μ1

)'+(xi

(2)

-

μ2

)(xi

(2)

-

μ2

)']ai

iSSw

a'

Σai

i=

a'(xi

(1)

-

μ1

)(xi

(1)

-

μ1

)'a

+

a'(xi

(2)

-

μ2

)(xi

(2)

-

μ2

)'a)2(2)SS

=

(z

-

z

)2

+(z

-

zi

(1)

(1)

i

(2)投影后的组间变异:组间离差平方和为12212

(2))2

dd']a

(d

=

μ

-

μ

)1

2SS

A

a'dd'an2

n1

+

n2)2

dd'+n

(n1n

+

n=

a'[n

(=

a'[n1

(u1

-

μ)(u1

-

μ)'a

+

n2

(u2

-

μ)(u2

-

μ)']a-

z

)22SS

A

=

n1

(z(1)

-

z

)

+

n

(za'

Σa12L1

和d'a都是标量,\

有:a

Σ-1d

=

Σ-1

-

μ

)L两边乘a'

Σa

/2,得到:dd'α

-LΣa

=0

a

=1

Σ-1dd'a¶L

=

[(a'

Σa)(2dd'a)

-

(add'a)(2Σa)]

=

0¶a (a'

Σa)2Fisher

:选择a使得L

=a'dd'a

取得最大值以上证明,当a∝S-1(m2-m1)时满足我们的要求,即:判别投影方向在两类均值点

的连线上。通常我们将a标准化。∴判别函数为:z=xS-1(m2-m1)判别规则:z>c时,x∈G2;z<c时,x∈G1,c=(z1

+z2)/2Linear

Discriminators投影方向判别函数判别得分critical

valuec2<c1,

x∈G1c3<c1,

x∈G2练习题两类总体相关统计资料如下:

-

0.91

1.45-

0.91(1)

(2)x

=

(-0.5,0.0)',

x

=

(0.5,0.0)',

S-1

=

1.82一个新的样本为x=(0.0,0.5),问x属于(1)类还是(2)类。解法1:马式等距离法解法2:Fisher法解:求Fisher判别函数z=xS-1(m2-m1)1.820,0.5](2)(1)(2)(1)=

-0.455

<

0-

0.91-

0.91=

0-

0.91-

0.91

-

0.91

1.4501.82

-

0.911

1.82=-

μ )

=

[12z

=

xΣ-1

(μΣ-1

-

μ )

=2

1z

+

z2c

=z

=

[0.5,0.0]1.82

=

0.91z

=

[-

0.5,0.0]1.82

=

-0.91,

-

0.91

1.45-

0.91(1)

(2)x

=

(-0.5,0.0)',

x

=

(0.5,0.0)',

S-1

=

1.82Z(1)Z(2)Z

C=0结论:x属于(1)类例:books

by

mail某书商从事邮购书业务。有50,000个顾客的统计数据,现公司计划推销一本新的艺术类书“the

art

historyofFlorence”。希望有针对性地邮寄订购单,即只向有可能购买该书的顾客推销,以降低成本。为了了解顾客情况,公司从50,000个现有顾客中随机抽取1000人发

订购单,其中83人购买了该书。要求利用此数据中分析潜在购买者的特征。对1000个顾客样本进行判别分析,选取“最近一次购买至今的月数”和“购买艺术类书的本数”为判别变量。分类变量“buystatu”:0未购买者,1购买者buystatu均值标准差未加权的已0month12.738.1079179artnum.33.60791791month9.415.951838artnum1.001.059838合计month12.468.001100010artnum.39.681100010加权的17.00017.0003.0003.00000.00000.000求判别函数系数a∝S-1(m2-m1)=

-

0.006

2.3240.16463.2370.164-1

0.016

-

0.0060.431Σ-1

=

1.577-

0.056-

)

=1.0

0.33

9.41

12.73-12

1S-1

(m

-

m

)

=

S

(组统计量有效的N(列表状态)Pooled

Within-Groups

MatricesaMONTHARTNUMCovarianceMONTH63.237.164ARTNUM.164.431a.

The

covariance

matrix

has

998

degrees

of

free∴判别函数为z=-0.056month+1.577artnumz2=-0.056×9.41+1.577×1=1.05,z1=-0.056×12.73+1.577×0.33=-0.19c=(1.05-0.19)/2=0.43判别规则:z>0.43∈buyer1.0

9.410.33

12.73μ1

=

,

μ2

=

SPSS输出结果判别规则:z>c=(1.018-0.0922)/2=0.4629∈buyer:判别函数

z

=

0.086

-

0.051month

+1.412artnum规范判别式函数系数函数1month-.051artnum1.412(常量).086非标准化系数组质心处的函数buystatu函数10-.09211.018在组均值处评估的非标准化规范判别式函数判别变量和标准化判别函数的相关系数结构矩阵函数1artnum.914month-.376判别变量和标准化规范判别式函数之间的汇聚组间相关性按函数内相关性的绝对大小排序的变量。购买艺术书越多的顾客越可能购买,越近期的顾客越可能购买标准化的规范判别式函数系数-.405.927monthartnum1函数判别得分的分布-1.50 -.50

.50

1.50

2.50

3.50

4.50

5.50

6.50-1.00

0.00

1.00

2.00

3.00

4.00

5.00

6.004003002001000Std.

Dev

=

.93Mean

=

-.09N

=

917.005.505.004.504.003.503.002.502.001.501.00.500.00-.50-1.50-1.00Canonical

Discriminant

Function

1BUYSTATU

=

1500

5004003002001000Std.

Dev

=

1.56Mean

=

1.02N

=

83.00Canonical

Discriminant

Function

1BUYSTATU

=

0Non-buyersbuyersz=0z=0分类结果a预测组成员buystatu01合计初始计数07022159171354883%076.623.4100.0142.257.8100.0a.

已对初始分组案例中的75.0%个进行了正确分类。回判结果误判率25%发出263封订购信,约18.3%会订购协方差阵相等的检验-Box’s

test组内协方差相等时H0:

S1=S2=…=Sm协方差不等时的判别:非线性判别函数–

如果仍用线性判别,误判率增大G2

G1

G2S2

<

S21

2Books

by

mail协方差相等算法的误判率协方差不等算法的误判率发出263封订购信,约18.3%会订购发出197封订购信,约20.3%会订购检验结果箱的M77.809F近似。25.706df13df2243266.71Sig..000对相等总体协方差矩阵的零假设进行检验。ClassificationResultsa分类结果aBUYSTATUPredictedGroupMembershipTotalbuystatu预测组成员合计0101初始计数

01760431574091783ginalCount

01702352154891783%

0182.951.817.148.2100.0100.0%

0176.642.223.457.8100.0100.0a.

75.0%

of

original

groupedcases

correctly

classified.a.

已对初始分组案例中的80.0%个进行了正确分类。判别函数的鉴别能力类中心差异的显著检验Wilks’s

L

test为什么要检验?类中心距离太近时,误判率高。如果某个判别函数不能拒绝原假设,则这个判别函数的判别能力很差如何检验:该判别函数在各类中心相等H0:

m1=m2Wilks的Lambda函数检验Wilks的

Lambda卡方dfSig.1.91489.6112.0003. Bayesian

approach前面两种方法中都没有考虑各类中样本数的差异没有考虑误判带来的不对称经济损失当各类样本数不同/误判损失不对称时,是否会影响判别函数的选取或判别规则?Incorporating

Prior

Probs考虑先验概率R1的误判率高于R2考虑到各类样本容量不同对误判率的影响,判别规则应作适当调整3. Bayesian

approach贝叶斯的统计思想:假定对研究的对象已有

一定的认识(常用先验概率反映这种认识),然后抽取一个样本,用样本来修正已有的认

识。影响分类的因素先验概率用概率描述的人们事先对所研究对象的认识误判损失cost

of

misclassification:x被判为属于G2,而它实际属于G1,则称发生了误判误判可能会带来经济损失

当误判损失不对称时(比如G1样本误判为G2的成本是G2样本误判为G1的成本的10倍时),我们通常会改变判别准则(使之偏向误判成本低的一方),宁可将G2误判给G1,也不愿相反。3. Bayesian

approach基本思路:误判期望损失最小化设有m个总体G1,…Gm,其概率密度函数分别为

fi(x),i=1,2…m。来自总体Gi的样品x被错判为总体Gj所产生的损失为C(j/i),那么,对于判别规则R产生的误判概率记为P(j/i,R),有:P(

j

/

i,

R)

=

fi

(x)dxR

j如果已知x来自总体Gi的先验概率为qi(i=1,2,…m),则在规则R下,误判期望损失为:m

mg(R)

=

qi

C(

j

/

i)P(

j

/

i,

R)i=1

j

=1贝叶斯定理若总体G1,…Gm的先验概率为{qi},且相应的密度函数为{fi(x)},损失是{C(j/i)}时,则划分R的贝叶斯解为:mRK

={x

|

hk

(x)

=

min

hj

(x)},

k

=1,,

m其中hj

(x)=

qiC(j

/i)fi

(x)i=1当抽取了一个未知总体的样品值x(p维向量),要判断它属于哪个总体,只要先计算出m个按先验分布加权的误判平均损失hj(x),然后比较这m个平均损失的大小,取其中最小的,则判定x来自该总体两总体判别122121q

C(2

/1)q

C(1/

2)q

C(2

/1)q

C(1/

2)x

˛

G

,若V

(x)<x

˛

G

,若V

(x)>设有2个总体,其先验概率分别为q1,q2,满足:qi≥0,∑qi=1,误判成本分别为C(1/2),

C(2/1),h1(x)=q2f2(x)C(1/2),

h2(x)=q1f1(x)C(2/1),R1={x|

q2f2(x)C(1/2)<q1f1(x)C(2/1)}R2={x|

q2f2(x)C(1/2)>q1f1(x)C(2/1)}h1

(x)=q2

f2

(x)C(1/2),若令判别函数为:V(x)=f1

(x),则判别规则为:h2

(x)

q1f1

(x)C(2

/1)

f2

(x)q2C(1/2)

q2C(1/2)z

-

c

=

ln[

q1C(2

/1)

]z

=

c

+ln[

q1C(2

/1)

]

=

c'

or其中:z-Fisher判别函数得分,c-两个类中心连线的中点(Fisher判别准则)当先验概率和误判损失各类都相等时,即为Fisher判别。先验概率/误判损失不对称时,相当于对原判别值做一个修正两总体判别如果f1(x)与f2(x)分别为Np(m1,∑)和Np(m2,∑),则12121

2212

21

121f

(x)f

(x)=

expW

(x)

=

exp[c

-

z(x)]=

exp{[x

-=

exp{-V

(x)

=-1-1-1]'S

(m

-

m

)]}m

+

m2(x

-

m

)'S

(x

-

m

)}(x

-

m

)'S

(x

-

m

)

+211/

2i

iiexp[-

(x

-

m

)'S

(x

-

m

)]1(2p

)

p

/

2

Sf

(x)

=-1练习题考虑下列判别分析问题:随机抽取60个样本,相关统计资料如下:

-

0.91

1.45-

0.911

2

(1)

(2)n

=

20,

n

=

40,

x

=

(-0.5,0.0),

x

=

(0.5,0.0),

S-1

=

1.82一个新的样本为x=(0.0,0.5),问x属于(1)类还是(2)类。Books

by

mail发出197封订购信,约20.3%会订购发出44封订购信,约43.2%会订购1000个样本顾客中,buyer只有83人,其他917名都是non-buyer,先验概率相差很大。做先验概率修正后,分类结果:修正后(Bayers法)

修正前分类结果abuystatu预测组成员合计01计数

01760431574091783%

0182.951.817.148.2100.0100.0对初始分组案例中的80.0%个进行了正确分类。初始a.

已分类结果abuystatu预测组成员合计01初始计数

0189264251991783%

0197.377.12.722.9100.0100.0a.

已对初始分组案例中的91.1%个进行了正确分类。分类结果abuystatu预测组成员合计01初始计数

01791491263491783%

0186.359.013.741.0100.0100.0a.已对初始分组案例中的82.5%个进行了正确分类。误判损失修正此例为典型非对称误判损失:非买者误判为买者,损失较小(邮资费、资料费、人工费),设为1元;买者误判为非买者损失较大,为一本书的净利润,设为6元发出160封订购信,约21.3%会订购:准确率下降!净利润=$6×34-$1×126=78净利润=$6×11-$1×10=56q2q1=1.84q1C(2

/1)q2C(1/

2)z

-

c

>

ln[

q1C(2

/1)

]q2C(1/

2)本例:

=11,注意:误判损失修正需用syntax语句编程,人工输入先验概率(0.648)仅先验概率修正分类结果abuystatu预测组成员合计01初始计数

0190772101191783%

0198.986.71.113.3100.0100.0a.已对初始分组案例中的91.8%个进行了正确分类。3

Groups

in

2

Dimensions三、多总体判别分析Partitioning

2-D

SpaceAlternate

ViewLikelihood

ViewNon-Linear

Discriminators两个判别变量、三类四、SPSS的Discriminant过程Discriminant过程的大部分功能都可以通过对话框来指定,还有一些功能可以在Syntax页中给予补充或修改。例如,指定各类的先验概率;显示旋转方式和结构矩阵;限制提取的判别函数的数目;读取一个相关矩阵;分析后把相关矩阵写入文件;指定对参与分析的观测量进行回代分类,对没有参与分析的观测量进行预测分类等。SPSS的判别分析方法为研究舒张期血压和血浆胆固醇对冠心病的作用,某医院测定了50-59岁冠心病人15例和正常人16例的舒张压和胆固醇指标,结果如下,试作判别分析,建立判别函数以便在临床中用于筛选冠心病人。判别分析数据结构设一分组变量表示分组类别判别分析过程分析→分类→判别...,弹出判别分析对话框。SPSS提供6种方法进行判别函数分析:强迫变量进入法及其他5种逐步进入法定义分组变量取值范围强迫进入法:已选变量全部进入模型逐步进入法选择满足指定条件的样本进行分析定义分组变量取值范围分组变量最大值分组变量最小值逐步进入方法选择对话框“组间最小F比率”值最大的变量具有最小总体

Wilk‘s

l值的变量进入模型具有最小未被解释的组间方差的变量具有近邻组间最大马式距离的变量具有最大Raos

V增量的变量显示每步每个变量的统计量显示两两类间的F统计量逐步判别停止判据根据F值:F>entry值保留,F<removal剔除根据F的精确p值“统计量”对话框输出各类中各自变量均值单变量方差分析,H0:各类中同一自变量均值相等各类协方差矩阵相等的检验判别函数系数的输出形式对新样本进行判别分类的费雪系数,对每一类给出一组系数,并给出该组中判别分数最大的观测量非标准化的判别系数类内相关阵合并类内协方差阵每类显示一个协方差阵总样本协方差阵“分类”对话框指定分类参数和判别结果选择分类使用的协方差阵显示各样本分类结果:判别分数、实际类、预测类、后验概率各组协方差阵用于协差阵不等时一张包含各类的散点图对每一类生成一张散点图根据函数值分组的边界图选择先验概率各类先验概率相等:若分为

m类,先验概率为1/m根据各类样本容量的比例:先验概率与其样本量成正比每个观测量的分类结果:

判别依据是由除该观测量

以外的其它观测量导出的,也称交互检验结果合并组内协方差阵,用于类协方差相等时“保存”对话框根据判别分数把观测量按后验概率最大指派所属类保存判别分数保存观测量属于某一类的概率:若分m类,每个观测量将保存m个概率值.625.544舒张压胆固醇1函数判别变量和标准化规范判别式函数之间的汇聚组间相关性标准化的规范判别式函数系数.884.823舒张压胆固醇1函数检验结果箱的M2.815F近似。.868df13df2177952.75Sig..457对相等总体协方差矩阵的零假设进行检验。结构矩阵计算结果按函数内相关性的绝对大小排序的变量。舒张压对冠心病的影响大于胆固醇Wilks的Lambda函数检验Wilks的

Lambda卡方dfSig.1.44722.5712.000类均值处的线性判别函数判别方程为:D

=

0.638X1

+

0.800X2

-

10.753依此方程,病人组的中心得分点为1.11198,正常人组的中心得分点为-1.04248。本例为二类判别,二类判别以0为分界点,若将某人的舒张压和胆固醇值代入判别方程,求出的判别分>0的为冠心病人,判别分<0的为正常人。规范判别式函数系数函数1舒张压.638胆固醇.800(常量)-10.753非标准化系数组质心处的函数group函数111.1122-1.042在组均值处评估的非标准化规范判别式函数分类结果agroup预测组成员合计12初始计数

121233131516%

1280.018.820.081.3100.0100.0a.已对初始分组案例中的80.6%个进行了正确分类。-.50

0.00

.50

1.00

1.50

2.00

2.50Canonical

Discriminant

Function

1GROUP

=

13.53.02.52.01.51.0.50.0Std.

Dev

=

1.06Mean

=

1.11N

=

15.00-2.50 -2.00 -1.50 -1.00 -.50

0.00

.50

1.00Canonical

Discriminant

Function

1GROUP

=

2543210Std.

Dev

=

.94Mean

=

-1.04N

=

16.00例:mba-car-preferrence前一章MBA汽车偏好例先用快速聚类将偏好数据分为3类再用判别分析建立判别函数首先进行方差检验,以确定判别方法再进行相应的判别分析,给出误判率协方差相等假设下的判别结果Canonical

Discriminant

Functio6420-2-4Function

2420-2-4nsCluster

Number

of

CaGroup

CentroidsUngrouped

Cases321321检验结果箱的M199.098F近似。1.627df1110df243292.497Sig..000对相等总体协方差矩阵的零假设进行检验。Wilks的Lambda函数检验Wilks的

Lambda卡方dfSig.1到22.151.440271.399117.738209.000.000分类结果a案例的类别号初始计数154115620352373105758%196.41.81.8100.02.094.65.4100.031.7.098.3100.0123预测组成员合计a.已对初始分组案例中的96.7%个进行了正确分类。Territorial

PlotCanonical

Discriminant

Functions-4

-2

0

2

4

6Function

1Function2420-2-4Cluster

Number

of

CaGroup

C

entroidsUngrouped

Cases321321Territorial

PlotCanonical

Discriminant

Functions-4

-2

0

2

4

6Function

1Function

2420-2-4ClusterNumber

of

CaGroup

CentroidsUngrouped

Cases321321Draw

in

perpendicular

bisectorsTerritorial

PlotCanonical

Discriminant

Functions-4

-2

0

2

4

6Function

1Function

2420-2-4Cluster

Numberof

CaGroupCentroidsUngrouped

Cases321321This

is

“closest

mean”classification.用方差不等方法的判别结果Territorial

Plot显示的分界为非线性分类结果a案例的类别号预测组成员合计123初始计数

154115620361373205658%

196.41.81.8100.02.097.32.7100.033.4.096.6100.0a.

已对初始分组案例中的96.7%个进行了正确分类。分类结果a案例的类别号预测组成员合计123初始计数

154115620352373105758%

196.41.81.8100.02.094.65.4100.031.7.098.3100.0a.已对初始分组案例中的96.7%个进行了正确分类。将数据快

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论