多元统计分析第十章 属性数据的统计分析_第1页
多元统计分析第十章 属性数据的统计分析_第2页
多元统计分析第十章 属性数据的统计分析_第3页
多元统计分析第十章 属性数据的统计分析_第4页
多元统计分析第十章 属性数据的统计分析_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第10章属性数据的统计分析

10.1列联表的独立性分析

10.1.1实例

列我表通常是用来描述两个及两个以上变量在各自不同的取值(或属性)组合水平上的观测频数数据,它常与

定性变量相联系。通过对列联表的分析,可以了解这些变量之间的依靠关系。

例10.1在一个有三个主要大型商场的商贸中心,调查479个不同年龄阶段的人首先去三个商场中的哪一个,

结果如表10-1所示。

表10-1商场调查数据

年龄段(岁)商场1商场2商场3总和

<30807045195

3广50918615192

>5141381089

总和21219470476

那么通过对这个数据列表的分析,我们希望知道顾客对首先选择去什么样的商场与顾客的年龄段是否有关。可

以看到,表中只有两个变量,这样的列联表称为二维列联表。

例10.2下表给出了一个假设的某高校毕业生的专业M(文科、理工科),性别G及毕业后工作的收入I(高、

低)为变量的三维列联表,结果如表10-2所示。

表10-2高校毕业生调杳牙刷

收入(I)

专业(M)性别(G)

低高

男12080

文科

女180120

男80320

理工科

女2080

则依据这样的含有三个变量(专业、性别和收入)的列联表,我们可以视察这些变量之间的关系,这样的列联

表称为三维列联表。

10.1.2定性变量与列联表

对定性变量的观测,一般是对它们在不同水平组合上的频数的记录,这里我们将定性变量所描述的不同状态称

为该定性变量的水平。我们用A&C表示定性变量,用4,8八€;表示相应的水平。假设有n个随机试验的结果依

据两个变量A和B分类,A取值为4,42,…A,,B取值为用,之,…纹,将变量A和B的各种状况的组合用一

张rxs列联表表示,称列联表,如表8-3所示。其中陶.表示4取4及8取得的频数。££%•二〃,其中:

f-17-1

%=£%./=1,2,…厂,表示各行之和

H.j=E%j,j=1,2,…,S,表示各列之和

$r

〃..=ix=zx

;=ij=i

表10-3变量频数表

•••B,总和

・・・

4%〃12%.

■■*

*■«•**

*••,*

・・・

心*S%.

•••

总和nA«.2%n..

类似的当涉及三个定性变量时,观测的频数可用三维列联表给出,若还用上面的表示方式,贝!须要一个三维立

体表,但这样通常用起来不便利,所以一般是采纳象例10.2的方式把三维列联表给出。

10.1.3二维rxs列联表的独立性检验

二维rxs列联表的两个变量A和8可视为离散型随机变量,取值分别A,&,…4和与,生,…3」以表

示A取4及8取鸟的概率,通常称为格子概率,以0.,〃j分别表示4和8的边缘概率。则对于二维rxs列联表,

变量A和吕的联合及边缘分布列如表10-4所示。

表10-4变量联合及边缘分布列

“色•••B、总和

APvP12•••PlsPl.

•••

PrPr2PcPr.

总和P.\P.2•••P.S1

其中

P,.=£〃川=1,2,.../;Pj=

这时检验变显A和B是否独立等价于检验假设

H。:Pg=Pi.Pj对一切1工iMr及1£j£s成立,

%:上式中至少对某组•,/不成立。

假如名为真,则在〃次观测中事务{A=,3=3,}发生的理论频数为

nPii=np.pj,i=1,2,…/;j=1,2,…s.

当〃较大时,理论频数〃p’.Pj与表10-3中相应的观测频数%的差异对i=l,2,…厂,)=1,2,…s均不应很大,为

此,我们用

一〃Pi.P」)2

Q2=tt-(10.1)

/=1j=\nPi.P.j

来描述理论频数与相应的观测频数的总差异量。当“0为真时,的值应较小,所以,当。2的值显著偏大时,就

拒绝〃:),也就是认为A和B不独立。

但是在实际中,由于2.,/乙均未知,则我们采纳相应的观测概率

分别作为概率Pj.和P,的估计(i=1,2J=1,2,…,S)。这样,将概率P、和Pj的估计代入(10.1),则可

以得到/统计量:

rs5%-%叼)2

e2=ZZ(10.2)

/=1j=l〃此

理论上可以证明,当“0为真时,渐近听从自由度为(-一])”一1)的分布,一般的要求上卫>5,即每个单

n

元格的频数不少于5。假如Pea灯值过大,或〃值很小,则拒绝原假设,认为行变量和列变量存在关联。这

种关联并没有指出两变量之间的相关或其他特别的关系,所以称为一般关联。

例10.3(续例10.1)依据例题10.1所给的数据以及所表示的列联表,为了探讨两个变显之间的关系,不妨给

出原假设:这两个变量是相互独立的。我们只要将表格中相应的频数代入到式子(10.2),则就可以得到相应的Q?

值,利用Q2渐近听从自由度为(厂一1)(5.一1)的%2分布,就可以依据分布表查出是否在水平2下拒绝原假设,

我们看看如何利用SAS语言来解决这样的问题。

为了得到不同年龄段的顾客与他们先去哪一个商场这样两个变量之间的关系,则我们可以利用SAS语言中关于

列联表检验的语言PROCFREQ来求出值,则如下所示:

dataclient;

doi=lto3;

doj=lto3;

inputf幽;

output;

end;

end;

cards;

807045

918615

413810

run;

procfreq;

weightf;

tablesi*j/chisq;

run;

其中用i=l,2,3分别表示顾客的年龄段为W30,31-50,>51;用j=l,2,3分别表示顾客首先去的商场为商场

1,商场2,商场3。则运行程序可以得到下面的结果:

TABLEOFIBY3

IJ

Frequency,

Percent,

RowPct,

ColPct,1,2,3,Total

ffffffiffyfffffffyfffffffyfffffff,

1,80,70,45,195

316.81,14.71,9.45,40.97

J41.03,35.90,23.08,

J37.74,36.08,64.29,

fffffffffyfffffffyfffffffCffffff"c

2,91,86,15,192

19.12,18.07,3.15,40.34

47.40,44.79,7.81,

42.92,44.33,21.43,

fffffffffyfffffffyfffffffVff/ffff-

3,41,38,10,89

J8.61,7.98,2.10,18.70

346.07,42.70,11.24,

19.34,19.59,14.29,

fffffffffyfffffffyfffffff-

Total21219470476

44.5440.7614.71100.00

STATISTICSFORTABLEOFIBYJ

StatisticDFValueProb

丹打"打丹丹丹打丹开"fff"丹fff"丹丹打丹

Chi-Square419.1420.001

LikelihoodRatioChi-Square419.1420.001

Mantel-HaenszelChi-Square15.8080.016

PhiCoefficient0.201

ContingencyCoefficient0.197

Cramer'sV0.142

SampleSize=476

上面的结果分为两个部分,第一部分左上角分别是指:频数(Frequency),百分比(Percent),行百分比(Row

Pct)和歹『百分比(ColPct)。其次部分给出了Pearya?才?检验的结果:我们可以看至ij的值为19.1425,

自由度为4,p值为0.0007小于0.05,所以可以拒绝不同年龄段的顾客与他们先去哪个商场相互独立的原假设,

即认为它们是相关的。

下面我们再看一个例题来加深一下印象。

例10.4为探讨血型与肝病之间的关系,对295名肝病患者及638名非肝病患者(比照组)港查不同血型的得

病状况,如表105所示,问肝病与血型之问是否存在美联?

表10-5血型与肝病调查数据表

血型肝炎肝硬化比照合计

09838289425

A6741262370

B1385778

AB18123060

合计19699638933

本例中行和列都是分类变量,不妨给出原假设肝病与血型之间是相互独立的,即它们之间不存在关联,则可以

利用列联表的独立性检验来推断原假设是否正确,为了得到Pemsmz?值,可如下得到:

datab1ood;

doi=lto4;

doj=lto3;

inputf鲍;

output;

end;

end;

cards;

9838289

6741262

13857

181230

run;

procfreq;

weightf;

tablesi*j/chisq;

run;

则可以得到结果:

TABLEOFIBYJ

Frequency,

Percent,

RowPct,

ColPct,1,2,3,Total

fffffffffyfffffffyfffffffyfffffff,

1,98,38,289,425

,10.50,4.07,30.98,45.55

,23.06,8.94,68.00,

,50.00,38.38,45.30,

fffffffffyfffffffyfffffff'ffffffff*

2,67,41,262,370

,7.18,4.39,28.08,39.66

,18.11,11.08,70.81,

,34.18,41.41,41.07,

fffffffffyfffffffyfffffffyfffffff'

3,13,8,57,78

,1.39,0.86,6.11,8.36

,16.67,10.26,73.08,

,6.63,8.08,8.93,

4,18,12,30.,60

,1.93,1.29,3.22,6.43

,30.00,20.00,50.00>

,9.18,12.12,4.70

fffffffffyfffffffyfffffffyfffffff-

Total19699638933

21.0110.6168.38100.00

STATISTICSFORTABLEOFIBY3

StatisticDFValueProb

丹丹丹fffffffffffffffff丹丹丹丹丹丹fffffffffffffffff丹

Chi-Square615.0730.020

LikelihoodRatioChi-Square614.2230.027

Mantel-HaenszelChi-Square10.5190.471

PhiCoefficient0.127

ContingencyCoefficient0.126

Cramer'sV0.090

SampleSize=933

运行程序可以得到Peam?”/检验结果,自由度为6,产四方。〃/值为15.0734,p值为0.0197,由于p

值小于0.05,可以拒绝血型与病种独立的假设,所以认为血型与肝炎有肯定的关联。

10.1.4三维尸xsx,列联表的独立性检验

当列联表是三维时,便涉及到44,。三个变量,它们之间的关系要比二维情形困难的多。假如依据不同的变

量的水平(取值)将它们之间的关系列表,则将得到一个一:维立体,为了应用描述的便利,通常我们固定一个变量

的取值,然后依据这个变量的取值画出其他两个变量所构成的二维列联表,若将这样若干个(由固定变量的水平确

定)二维列联表画在一起,则就可以得到如例10.2所示。

对于一个三维列联表中的变量4,反C,最重要的独立性是(1)相互独立;(2)其中的两个变量联合

独立于第二个变量;(3)给定一个变量时,另两个变量是条件独立的。从中我们不难看出:(1)中的独立性最强,

(2)次之,(3)最弱,并且对与不同的独立性,我们也可以推导出相应的格子概率满足的条件,为此,我们给出

下表10-6o

表10-6三变量之间关系表格

独立性记号格子概率形式

A8,C相互独立(A氏C)Pijk=Pi.P.j.P.k

A,8联合独立于。(AB,C)Pijk=Pij.P..k

人。联合独立干A(AC.B)P»k=Pi.kPj.

8,C联合独立取(BC,A)

P.jk=Pi..P.jk

给定CA和3条件独立(AC,BC)Pijk=PuP.jJP..k

给定8,A和。条件独立(AB,BC)Pijk=Pij.P.jkP.j.

给定A,B和C条件独立(A8,AC)Pijk=Pij.Pi.k/Pi..

其中〃泳表示变量A取第i个水平,变量B取第j个水平,变量C取第k个水平常候的格子概率;其中的

表:示在口驮中对相应下标求和。

为了检验上表中的独立性是否成立,也就是对一切i=1,2,…,•,)=1,2,…s,攵=1,2,…检验格子概率〃泳

是否满足相应的条件。设〃■=〃〃泳表示三维列联表中事务{4=4,3=吗,。=。*}发生的理论频数,但一般来

说,格子概率是未知的,所以我们用相应的频率去估计(例如:A..=—=—>等等),这样就得到相应的

理论频数估计mijk(/=1,2,•••;;7=1,2,…s;Z=1,2,…f),由此可以构造统计量:

。(10.3),

/=!;=1*=!6我

可以证明在某一独立性为真的状况下,Q2渐近听从自由度为f的22分布,若某独立性为真,则。2的值应偏小,

否则。2的值有偏大的趋势,即拒绝独立性为真的假设。表10-7列出了各种独立性下的格子概率形式,理论频数估

计及相应的Q2统计最的渐近分布的自由度。

表10-7三变量之间关系相关统计量表

独立性格子概率1)泳形式理论频数估计而泳Q?的渐近分布自由度f

(A,B,C)Ptjk=Pi.P,j.P.k龙以/〃2rst-r-s-t-^-2

(AB,C)Pijk=Pij.P.k而巩=%#"/〃(―)

(AC.B)Pijk=PuP.j.应泳—(s-1)("-D

(BC,A)Pijk=Pi..P.jk(r-W-D

(AC,BC)二〃“〃.4/〃」=3孕5(r-l)(r-l)

(AB,BC)Pijk=Pij.P.jk1P.j.市外二%.〃欣/〃/•.

(A8,AC)Pijk=Pij.Pik/P,..应孤=%%«/%..小-l)(r-1)

则利用上表,依据不同的原假设,可以得到相应的。2值,从而可以利用力2分布来检验各种状况的独立性是

否成立,

对一个三维列联表,在肯定的显著性水平下,先检验原假设”0:(A3,。)。若接受”0,则依据各种独立性

的关系,的其他两类独立性均成立,否则进一步检验原假设048,0,(47,3)或(30),若其中的两种

为真,则第三类独立性均成立;否则接着检验第三类独立性。

例10.5(续例10.2)以例10.2中高校毕业生的收入问题为例,检验变量专业M,性别G及毕业后工作的收入

1的各种独立性,并分析高校生收入与专业性别之间的关系。

收入(I)

专业(M)性别(G)

低高

男12080

文科

女180120

男80320

理工科

女2080

为了解决这样的问题,我们只要依据表W-7以及式子(10.3),则将相应的

而泳(i=l,2,…兀J=12…s;A=l,2,…。和%人.代入,就可以求出对于不同独立性检验所对应的。值,从而可以

利用Z2分布来检验各种状况的独立性是否成立。

解:依据变量专业M,性别G及毕业后工作的收入I的依次,可以得到下面的频数表示:

zzH1=120,/7112=80,〃⑵=180,%22=120,

i=8(),/?9p=320,〃”[=2(),it,”=8().

首先检验(M,G,/)。

则由所给数据可得n=1000,且:

n,=120+80+180+120=500,%=80+320+20+80=500;

/?,=120+80+80+320=600,/<2=180+120+20+80=400;

〃」=120+80+1804-20=400,n2=80+320+120+80=600.

所以理论频数的估计分别为:

.500x600x400…、500x600x600

=---------;-----=120,叫A[2=----------;-----=1I8O0M;

1000210002

应⑵=80,而]22=120,而211=120,粉212=180,而221=的,而222T20.

所以。2的观测值为

♦.,(%k—MJ?

2

e=ZEZMk

i=]j=]Jt=l

(120-120)2(80-180)2(180-80)2(120-120)2

=-------------1-------------F-----------+-------------

12018()80120

(80-120)2(320-180)2(20-80)2(80-120)2

4------------+-------------+-----------+------------

12018080120

=361.11

Q?的渐近分布为自由度为4,而/;05(4)=9.49VQ2,所以拒绝独立性(M,G,/),所以认为高校生所学的

专业,他们的性别同他们毕业后的工作收入是有关联的。同理可以验证其他的独立性。

经过验证,可以发觉在给定M时,G和I是条件独立的,但G和I不是联合独立与M,即不是边缘独立的。

这样的结果表明,高校生毕业后工作的收入不仅和他们的专业有关,并且和他们的性别是有关系的。前者反映

了不同行业的工资待遇差异性,而后者则反映了不同性别之间在工资待遇存在着差异。但是在给定学生专业的条件

下,学生的工作待遇与原委他(她)是男性还是女性无关。

10.2Logistic回来

10.2.1实例

例10.6购房与家庭收入:在一次住房展销会上,与房地产签定初步购房意向书的共有580名顾客,在随后的3

个月内只有一部分顾客购买了房屋,购买了房屋的顾客记为1,没有购买房屋的顾客记为0,将数据汇总可得下表。

其中X表示家庭月收入;n表该种收入调查户数;r表示该种收入买房户数。请问是否能推断家庭收入为48000元的

顾客买房的可能性?

表10-8购房数据调查表

X(千元)nr

6408

85012

106018

138028

1510045

207036

256539

305033

354030

402520

例10.7北京市25年有关降雨资料如卜表,xl,x2,x3,x4是4个预报因子,y表示降雨状况:y=l表示偏少,y=2表示

正常,y=3表示偏多。

表10-9北京市降雨数据表

年xlx2x3x4y

19510.5882.044.040.61

19520.4083.018.043.03

19530.5585.036.030.73

19540.4085.036.040.73

19550.4888.049.043.03

19560.4182.035.078.62

19570.6580.029.033.21

19580.4582.032.033.12

19590.3981.027.046.52

19600.3485.028.041.72

19610.4284.038.020.42

19620.5286.038.00.21

19630.4688.025.056.73

19640.4883.046.013.61

19650.5384.041.032.31

19660.6581.031.028.91

19670.6683.038.046.61

19680.5380.042.093.12

19690.5685.018.016.32

19700.4583.037.023.92

19710.3480.042.026.32

19720.4179.038.040.82

19730.5383.023.061.32

19740.4884.019.023.23

19750.3085.027.017.53

试建立模型,并对于1976年(预报因子为0.4281.021.052.2),1977年(预报因子为0.5281.038.045.8),

1978年(预报因子为0.3682.034.034.9),1979年(预报因子为0.4384.034.060.5)预报降雨状况。

线性回来模型在定量分析的实际探讨中是特别流行的方法,但是在很多的状况下,因变量是一个分类变量而不

是一个连续变量,这时候线性回来就不适用了。实际中,很多社会科学的视察都只是分类的而不是连续的。比如在

经济学探讨中所涉及的是否销售或购买某种商品,这种选择度量通常分为两类,即“是”与“否二在社会调查探

讨中,时看法、心理等的调查通常会分为几类,如“很满足”、“满足”、“不满足”等;还有的时候,人们会将连续

量转换为类型划分,分成几个不同的类别用来分析。从上面两个例子可以看到,我们要推断某种现象发生的可能性,

也就是要探讨的社会现象发生的概率”的大小,比如是否买房,降雨的概率是多少等等。但是由于因变量是分类变

量,干脆处理可能性数值p存在困难,由于()〈〃工1,所以〃与自变豉的关系难以用线性模型来描述,并且当〃

接近0或1的时,〃值的微小改变用一般的方法难以发觉和处理好。所以我们不干脆处理〃,而是对〃的一-个严

格单调函数。(p)来分析。

10.2.2Logistic回来的基本理论和方法

由于线性回来的不适用性,所以对因变量的分析采纳非线性函数。比如对于常见的二分类变量,用一个严格单

调函数来反映事务发生的条件概率尸(凹=1|匕)与七之间的非线性关系,即随着玉的增加P(y,=1|七)也单调增

加,或者是随着玉的削减七)也单调削减。•个自然的选择就是值域在(0,1)之间有着S形态的曲线,这

样在看趋近与负无穷时有趋近与0,在看趋近与正无穷时有E(y)趋近与1。于是令

1-〃

将〃换成Q,这一变换称为Log”变换,从Log”变换可以看出,当〃从0->1时,Q的值从一8f+8;

并且半与一!一成比例,所以。(p)在〃=0和〃=1的旁边的微小改变很敏感。这样Log”变换完全克服了

dpp(l-p)

一起先所提出的困难,在数据处理方面带来很多的便利。假如自变量的关系是线性的、二次的或多项式的,那么利

用一般的最小二乘法就可以处理,然后利用〃与。的关系求出〃与自变量的关系。例如Q=a'x,则有

p=------。

依据上面的思想,当因变量是一个二元变量只取o与1两个值时,因变量取1的概率/Xy=I)就是要探讨的对

象。假如有很多因素影响),的取值,这些因素就是自变量记为不,…,8,这些七中既有定性变量,也有定量变量。

最重要的一个条件是:

P...

In——=%+—♦+…+b/k

P

满足上面条件的称为Logistic线性回来。

Logis'cl可来干脆预料出事务发生的概率,这同I可来分析是不同的。并且不能从一般I可来的角度来分析

回来,因为这样会违反几个假定。首先,离散变量的误差形式遵从贝努里分布而不是正态分布,这样使得

基于正态性假设的统计检验无效,在回来中所采纳的检验统计量与多元回来中的z检验统计量不同,称为

皿以统计量。其次,二值变量的方差不是常数,会造成异方差。一般的回来分析是利用最小二乘法来估计模型的

参数的,而由于Logistic•何来的非线性特征,使得在估计模型的时候可以采纳极大似然估计的迭代方法,找到系数

的“最可能”估计。Logis,。回来的另一个好处就是我们只要知道一件事情有没有发生,那么假圻预料的概率大于

0.5,则预料发生,反之就不发生。

一、分组数据的Log/Mic回来模型

例题10.6是一个分组观测试验资料,要确定购房与否(属性变量)与收入(连续变量)之间的关系可以利用

Logis/ic回来来完成,由于只有一个自变量,所以分组数据的Log/sric回来方程可以写为:

cxp(Z?0+/?1%,).

Pi=---------;一=…,c

1+exp(b()+b[%)

其中c为分组数据的组数,本例中c=10°又由于题设中要求推断收入为48000元的顾客的买房的可能性,则可在

编程计算时令c=ll,加有收入数据而有购房意向顾客和买房顾客缺省的组,该观测并不参加模型的拟合,但却可

用于预料。

为了解决这个问题,下面建立名为house的SAS数据集,其中income代表家庭月收入,numbu代表每•收入

组签定初步购房意向的客户,而purchase代表在每组的客户中有多少客户购买了房屋。另外在DATA步的最终一个

观测只给出了收入水平,签定购房意向的客户数和买房客户数为缺省。则利用SAS程序的PROCLOGISTIC过程就可

以利用回来来解决所要求的诃题了,程序及运行结果如下:

datahouse;

inputincomenumberpurchase;

cards;

6408

85012

106018

138028

1510045

207036

256539

305033

354030

402520

48

proclogistic;

modelpurchase/number:income;

outputout=resultp=predict;

run;

procprintdata=result;

run;

其中由于本例为分组数据的类型,所以在应用LogiW沁回来时,在model语句后面将代表每组事务发生数量的

变量同代表每组试验数量的变量用“/”加以分隔,再同自变量做LogW沁回来;假如处理未分组数据的话,则model

语句后面就为代表事务是否发生的变量与自变量做回来。从程序中还可以看出,程序结果输出到文件名为

result的SAS数据集中,并用变量predict来表示预料值,程序结果如下;

TheLOGISTICProcedure

DataSet:WORK.HOUSE

ResponseVariable(Events):PURCHASE

ResponseVariable(Trials):NUMBER

NumberofObservations:10

LinkFunction:Logit

ResponseProfile

OrderedBinary

ValueOutcomeCount

1EVENT269

2NOEVENT311

WARNING:1observation(s)weredeletedduetomissingvaluesfortheresponseorexplanatory

variables.

ModelFittingInformationandTestingGlobalNullHypothesisBETA=0

Intercept

Interceptand

CriterionOnlyCovariatesChi-SquareforCovariates

AIC803.007734.603*

SC807.370743.329•

-2LOGL801.007730.60370.404with1DF(p=0.0001)

Score**67.713with1DF(p=0.0001)

AnalysisofMaximumLikelihoodEstimates

ParameterStandardWaldPr>StandardizedOdds

VariableDFEstimateErrorChi-Sq

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论