多元统计分析第十章 属性数据的统计分析.doc_第1页
多元统计分析第十章 属性数据的统计分析.doc_第2页
多元统计分析第十章 属性数据的统计分析.doc_第3页
多元统计分析第十章 属性数据的统计分析.doc_第4页
多元统计分析第十章 属性数据的统计分析.doc_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第10章 属性数据的统计分析10.1列联表的独立性分析10.1.1实例列联表通常是用来描述两个及两个以上变量在各自不同的取值(或属性)组合水平上的观测频数数据,它常与定性变量相联系。通过对列联表的分析,可以了解这些变量之间的依赖关系。例10.1 在一个有三个主要大型商场的商贸中心,调查479个不同年龄阶段的人首先去三个商场中的哪一个,结果如表10-1所示。表10-1 商场调查数据年龄段(岁)商场1商场2商场3总和30315051总和8091412127086381944515107019519289476 那么通过对这个数据列表的分析,我们希望知道顾客对首先选择去什么样的商场与顾客的年龄段是否有关。可以看到,表中只有两个变量,这样的列联表称为二维列联表。例10.2 下表给出了一个假设的某大学毕业生的专业M(文科、理工科),性别G及毕业后工作的收入I(高、低)为变量的三维列联表,结果如表10-2所示。表10-2 大学毕业生调查牙刷专业(M)性别(G)收入(I)低高文科理工科男女男女12018080208012032080则根据这样的含有三个变量(专业、性别和收入)的列联表,我们可以观察这些变量之间的关系,这样的列联表称为三维列联表。10.1.2 定性变量与列联表对定性变量的观测,一般是对它们在不同水平组合上的频数的记录,这里我们将定性变量所描述的不同状态称为该定性变量的水平。我们用表示定性变量,用表示相应的水平。假设有n个随机实验的结果按照两个变量和分类,取值为,取值为,将变量和的各种情况的组合用一张列联表表示,称列联表,如表8-3所示。其中表示取及取的频数。,其中:表10-3 变量频数表BA总和总和类似的当涉及三个定性变量时,观测的频数可用三维列联表给出,若还用上面的表示方式,则需要一个三维立体表,但这样通常用起来不方便,所以一般是采用象例10.2的方式把三维列联表给出。10.1.3 二维列联表的独立性检验二维列联表的两个变量和可视为离散型随机变量,取值分别和,以表示取及取的概率,通常称为格子概率,以分别表示和的边缘概率。则对于二维列联表,变量和的联合及边缘分布列如表10-4所示。表10-4 变量联合及边缘分布列BA总和总和1其中这时检验变量和是否独立等价于检验假设如果为真,则在次观测中事件发生的理论频数为当较大时,理论频数与表10-3中相应的观测频数的差异对,均不应很大,为此,我们用 (10.1)来描述理论频数与相应的观测频数的总差异量。当为真时,的值应较小,所以,当的值显著偏大时,就拒绝,也就是认为和不独立。但是在实际中,由于均未知,则我们采用相应的观测概率分别作为概率的估计()。这样,将概率的估计代入(10.1),则可以得到统计量: (10. 2)理论上可以证明,当为真时,渐近服从自由度为分布,一般的要求,即每个单元格的频数不少于5。如果值过大,或值很小,则拒绝原假设,认为行变量和列变量存在关联。这种关联并没有指出两变量之间的相关或其他特殊的关系,所以称为一般关联。例10.3(续例10.1)根据例题10.1所给的数据以及所表示的列联表,为了探讨两个变量之间的关系,不妨给出原假设:这两个变量是相互独立的。我们只要将表格中相应的频数代入到式子(10.2),则就可以得到相应的值,利用渐近服从自由度为分布,就可以根据分布表查出是否在水平下拒绝原假设,我们看看如何利用SAS语言来解决这样的问题。为了得到不同年龄段的顾客与他们先去哪一个商场这样两个变量之间的关系,则我们可以利用SAS语言中关于列联表检验的语言PROC FREQ来求出值,则如下所示:data client; do i=1 to 3; do j=1 to 3; input f; output; end; end; cards; 80 70 45 91 86 15 41 38 10 ;run;proc freq;weight f;tables i*j/chisq;run;其中用i=1,2,3分别表示顾客的年龄段为30,31-50,51;用j=1,2,3分别表示顾客首先去的商场为商场1,商场2,商场3。则运行程序可以得到下面的结果: TABLE OF I BY J I J Frequency Percent Row Pct Col Pct 1 2 3 Total 1 80 70 45 195 16.81 14.71 9.45 40.97 41.03 35.90 23.08 37.74 36.08 64.29 2 91 86 15 192 19.12 18.07 3.15 40.34 47.40 44.79 7.81 42.92 44.33 21.43 3 41 38 10 89 8.61 7.98 2.10 18.70 46.07 42.70 11.24 19.34 19.59 14.29 Total 212 194 70 476 44.54 40.76 14.71 100.00 STATISTICS FOR TABLE OF I BY J Statistic DF Value Prob Chi-Square 4 19.142 0.001 Likelihood Ratio Chi-Square 4 19.142 0.001 Mantel-Haenszel Chi-Square 1 5.808 0.016 Phi Coefficient 0.201 Contingency Coefficient 0.197 Cramers V 0.142 Sample Size = 476上面的结果分为两个部分,第一部分左上角分别是指:频数(Frequency),百分比(Percent),行百分比(Row Pct)和列百分比(Col Pct)。第二部分给出了检验的结果:我们可以看到的值为19.1425,自由度为4,p值为0.0007小于0.05,所以可以拒绝不同年龄段的顾客与他们先去哪个商场相互独立的原假设,即认为它们是相关的。下面我们再看一个例题来加深一下印象。例10.4 为研究血型与肝病之间的关系,对295名肝病患者及638名非肝病患者(对照组)调查不同血型的得病情况,如表10-5所示,问肝病与血型之间是否存在关联?表10-5 血型与肝病调查数据表血型肝炎肝硬化对照合计OABAB98671318384181228926257304253707860合计19699638933本例中行和列都是分类变量,不妨给出原假设肝病与血型之间是相互独立的,即它们之间不存在关联,则可以利用列联表的独立性检验来判断原假设是否正确,为了得到值,可如下得到:data blood; do i=1 to 4; do j=1 to 3; input f; output; end; end; cards; 98 38 289 67 41 262 13 8 57 18 12 30 ;run;proc freq;weight f;tables i*j/chisq;run;则可以得到结果: TABLE OF I BY J I J Frequency Percent Row Pct Col Pct 1 2 3 Total 1 98 38 289 425 10.50 4.07 30.98 45.55 23.06 8.94 68.00 50.00 38.38 45.30 2 67 41 262 370 7.18 4.39 28.08 39.66 18.11 11.08 70.81 34.18 41.41 41.07 3 13 8 57 78 1.39 0.86 6.11 8.36 16.67 10.26 73.08 6.63 8.08 8.93 4 18 12 30 60 1.93 1.29 3.22 6.43 30.00 20.00 50.00 9.18 12.12 4.70 Total 196 99 638 933 21.01 10.61 68.38 100.00 STATISTICS FOR TABLE OF I BY J Statistic DF Value Prob Chi-Square 6 15.073 0.020 Likelihood Ratio Chi-Square 6 14.223 0.027 Mantel-Haenszel Chi-Square 1 0.519 0.471 Phi Coefficient 0.127 Contingency Coefficient 0.126 Cramers V 0.090 Sample Size = 933运行程序可以得到检验结果,自由度为6,值为15.0734,p值为0.0197,由于p值小于0.05,可以拒绝血型与病种独立的假设,所以认为血型与肝炎有一定的关联。10.1.4 三维列联表的独立性检验当列联表是三维时,便涉及到三个变量,它们之间的关系要比二维情形复杂的多。如果根据不同的变量的水平(取值)将它们之间的关系列表,则将得到一个三维立体,为了应用描述的方便,通常我们固定一个变量的取值,然后根据这个变量的取值画出其他两个变量所构成的二维列联表,若将这样若干个(由固定变量的水平决定)二维列联表画在一起,则就可以得到如例10.2所示。对于一个三维列联表中的变量,最重要的独立性是(1)相互独立;(2)其中的两个变量联合独立于第三个变量;(3)给定一个变量时,另两个变量是条件独立的。从中我们不难看出:(1)中的独立性最强,(2)次之,(3)最弱,并且对与不同的独立性,我们也可以推导出相应的格子概率满足的条件,为此,我们给出下表10-6。表10-6 三变量之间关系表格独立性记号格子概率形式()其中表示变量A取第i个水平,变量B取第j个水平,变量C取第k个水平时候的格子概率;其中的“.”表示在中对相应下标求和。为了检验上表中的独立性是否成立,也就是对一切,检验格子概率是否满足相应的条件。设表示三维列联表中事件发生的理论频数,但一般来说,格子概率是未知的,所以我们用相应的频率去估计(例如:,等等),这样就得到相应的理论频数估计,由此可以构造统计量: (10.3),可以证明在某一独立性为真的情况下,渐近服从自由度为f的分布,若某独立性为真,则的值应偏小,否则的值有偏大的趋势,即拒绝独立性为真的假设。表10-7列出了各种独立性下的格子概率形式,理论频数估计及相应的统计量的渐近分布的自由度。表10-7 三变量之间关系相关统计量表独立性格子概率形式理论频数估计的渐近分布自由度f()则利用上表,根据不同的原假设,可以得到相应的值,从而可以利用分布来检验各种情况的独立性是否成立。对一个三维列联表,在一定的显著性水平下,先检验原假设。若接受,则根据各种独立性的关系,的其他两类独立性均成立,否则进一步检验原假设,若其中的两种为真,则第三类独立性均成立;否则继续检验第三类独立性。例10.5(续例10.2)以例10.2中大学毕业生的收入问题为例,检验变量专业M,性别G及毕业后工作的收入I的各种独立性,并分析大学生收入与专业性别之间的关系。专业(M)性别(G)收入(I)低高文科理工科男女男女12018080208012032080为了解决这样的问题,我们只要根据表10-7以及式子(10.3),则将相应的和代入,就可以求出对于不同独立性检验所对应的值,从而可以利用分布来检验各种情况的独立性是否成立。解:根据变量专业M,性别G及毕业后工作的收入I的顺序,可以得到下面的频数表示:首先检验。则由所给数据可得n=1000,且:所以理论频数的估计分别为:所以的观测值为的渐近分布为自由度为4,而,所以拒绝独立性,所以认为大学生所学的专业,他们的性别同他们毕业后的工作收入是有关联的。同理可以验证其他的独立性。经过验证,可以发现在给定M时,G和I是条件独立的,但G和I不是联合独立与M,即不是边缘独立的。这样的结果表明,大学生毕业后工作的收入不仅和他们的专业有关,并且和他们的性别是有关系的。前者反映了不同行业的工资待遇差异性,而后者则反映了不同性别之间在工资待遇存在着差异。但是在给定学生专业的条件下,学生的工作待遇与究竟他(她)是男性还是女性无关。10.2 Logistic回归10.2.1 实例例10.6 购房与家庭收入:在一次住房展销会上,与房地产签定初步购房意向书的共有580名顾客,在随后的3个月内只有一部分顾客购买了房屋,购买了房屋的顾客记为1,没有购买房屋的顾客记为0,将数据汇总可得下表。其中x表示家庭月收入;n表该种收入调查户数; r表示该种收入买房户数。请问是否能判断家庭收入为48000元的顾客买房的可能性?表10-8 购房数据调查表X(千元)nr6408850121060181380281510045207036256539305033354030402520例10.7 北京市25年有关降雨资料如下表,x1,x2,x3,x4是4个预报因子,y表示降雨情况:y=1表示偏少,y=2表示正常,y=3表示偏多。表10-9 北京市降雨数据表年x1x2x3x4y19510.5882.044.040.6119520.4083.018.043.0319530.5585.036.030.7319540.4085.036.040.7319550.4888.049.043.0319560.4182.035.078.6219570.6580.029.033.2119580.4582.032.033.1219590.3981.027.046.5219600.3485.028.041.7219610.4284.038.020.4219620.5286.038.00.2119630.4688.025.056.7319640.4883.046.013.6119650.5384.041.032.3119660.6581.031.028.9119670.6683.038.046.6119680.5380.042.093.1219690.5685.018.016.3219700.4583.037.023.9219710.3480.042.026.3219720.4179.038.040.8219730.5383.023.061.3219740.4884.019.023.2319750.3085.027.017.53试建立模型,并对于 1976 年(预报因子为0.42 81.0 21.0 52.2),1977年(预报因子为0.52 81.0 38.0 45.8),1978年(预报因子为0.36 82.0 34.0 34.9),1979年(预报因子为0.43 84.0 34.0 60.5)预报降雨情况。线性回归模型在定量分析的实际研究中是非常流行的方法,但是在许多的情况下,因变量是一个分类变量而不是一个连续变量,这时候线性回归就不适用了。实际中,许多社会科学的观察都只是分类的而不是连续的。比如在经济学研究中所涉及的是否销售或购买某种商品,这种选择度量通常分为两类,即“是”与“否”;在社会调查研究中,对态度、心理等的调查通常会分为几类,如“很满意”、“满意”、“不满意”等;还有的时候,人们会将连续量转换为类型划分,分成几个不同的类别用来分析。从上面两个例子可以看到,我们要判断某种现象发生的可能性,也就是要研究的社会现象发生的概率的大小,比如是否买房,降雨的概率是多少等等。但是由于因变量是分类变量,直接处理可能性数值存在困难,由于,所以与自变量的关系难以用线性模型来描述,并且当接近0或1的时,值的微小变化用普通的方法难以发现和处理好。所以我们不直接处理,而是对的一个严格单调函数来分析。10.2.2 Logistic回归的基本理论和方法由于线性回归的不适用性,所以对因变量的分析采用非线性函数。比如对于常见的二分类变量,用一个严格单调函数来反映事件发生的条件概率与之间的非线性关系,即随着的增加也单调增加,或者是随着的减少也单调减少。一个自然的选择就是值域在之间有着S形状的曲线,这样在趋近与负无穷时有趋近与0,在趋近与正无穷时有趋近与1。于是令将换成,这一变换称为变换,从变换可以看出,当从时,的值从;并且与成比例,所以在和的附近的微小变化很敏感。这样变换完全克服了一开始所提出的困难,在数据处理方面带来很多的方便。如果自变量的关系是线性的、二次的或多项式的,那么利用普通的最小二乘法就可以处理,然后利用与的关系求出与自变量的关系。例如,则有。根据上面的思想,当因变量是一个二元变量只取0与1两个值时,因变量取1的概率就是要研究的对象。如果有很多因素影响的取值,这些因素就是自变量记为,这些中既有定性变量,也有定量变量。最重要的一个条件是:满足上面条件的称为线性回归。 回归直接预测出事件发生的概率,这同回归分析是不同的。并且不能从普通回归的角度来分析回归,因为这样会违反几个假定。首先,离散变量的误差形式遵从贝努里分布而不是正态分布,这样使得基于正态性假设的统计检验无效,在回归中所采用的检验统计量与多元回归中的检验统计量不同,称为统计量。其次,二值变量的方差不是常数,会造成异方差。普通的回归分析是利用最小二乘法来估计模型的参数的,而由于回归的非线性特征,使得在估计模型的时候可以采用极大似然估计的迭代方法,找到系数的“最可能”估计。回归的另一个好处就是我们只要知道一件事情有没有发生,那么如果预测的概率大于0.5,则预测发生,反之就不发生。一、分组数据的回归模型例题10.6是一个分组观测试验资料,要确定购房与否(属性变量)与收入(连续变量)之间的关系可以利用回归来完成,由于只有一个自变量,所以分组数据的回归方程可以写为:其中为分组数据的组数,本例中。又由于题设中要求判断收入为48000元的顾客的买房的可能性,则可在编程计算时令,加有收入数据而有购房意向顾客和买房顾客缺省的组,该观测并不参与模型的拟合,但却可用于预测。为了解决这个问题,下面建立名为house的SAS数据集,其中income代表家庭月收入,number代表每一收入组签定初步购房意向的客户,而purchase代表在每组的客户中有多少客户购买了房屋。另外在DATA步的最后一个观测只给出了收入水平,签定购房意向的客户数和买房客户数为缺省。则利用SAS程序的PROC LOGISTIC过程就可以利用回归来解决所要求的问题了,程序及运行结果如下:data house;input income number purchase;cards;640885012106018138028151004520703625653930503335403040252048 . . ;proc logistic;model purchase/number=income;output out=result p=predict;run;proc print data=result;run;其中由于本例为分组数据的类型,所以在应用回归时,在model语句后面将代表每组事件发生数量的变量同代表每组试验数量的变量用“/”加以分隔,再同自变量做回归;如果处理未分组数据的话,则model语句后面就为代表事件是否发生的变量与自变量做回归。从程序中还可以看出,程序结果输出到文件名为result的SAS数据集中,并用变量predict来表示预测值,程序结果如下; The LOGISTIC Procedure Data Set: WORK.HOUSE Response Variable (Events): PURCHASE Response Variable (Trials): NUMBER Number of Observations: 10 Link Function: Logit Response Profile Ordered Binary Value Outcome Count 1 EVENT 269 2 NO EVENT 311WARNING: 1 observation(s) were deleted due to missing values for the response or explanatory variables. Model Fitting Information and Testing Global Null Hypothesis BETA=0 Intercept Intercept and Criterion Only Covariates Chi-Square for Covariates AIC 803.007 734.603 . SC 807.370 743.329 . -2 LOG L 801.007 730.603 70.404 with 1 DF (p=0.0001) Score . . 67.713 with 1 DF (p=0.0001) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate RatioINTERCPT 1 -1.6023 0.2040 61.6746 0.0001 . .INCOME 1 0.0791 0.0101 61.1313 0.0001 0.411928 1.082 Association of Predicted Probabilities and Observed Responses Concordant = 64.7% Somers D = 0.397 Discordant = 25.0% Gamma = 0.442 Tied = 10.3% Tau-a = 0.198 (83659 pairs) c = 0.698 OBS INCOME NUMBER PURCHASE PREDICT 1 6 40 8 0.24454 2 8 50 12 0.27492 3 10 60 18 0.30753 4 13 80 28 0.36020 5 15 100 45 0.39739 6 20 70 36 0.49474 7 25 65 39 0.59250 8 30 50 33 0.68344 9 35 40 30 0.76223 10 40 25 20 0.82639 11 48 . . 0.89960从程序的输出结果中,我们可以看到关于模型的拟合信息与参数的检验情况,参数的联合检验结果给出了的检验值为730.603,其卡方统计量值为70.404,对应的概率,统计量和统计量的卡方统计量值所对应的概率都有,这些检验均表明收入对是否购房影响是显著的。最大似然估计分析结果表明,不论是自变量income的回归系数(0.0791),还是截距项intercept(-1.6023)在0.0001显著性水平上都是显著的,由此可得回归方程为:输出结果中还给出了观测因变量与预测概率之间的关联性以及对应每个观测的预测概率。可以看到观测因变量与预测概率之间的一致性比率为64.7%,而不一致性比率为25%,关联系数Somers D=0.397和Gamma=0.442表明两者之间具有中等程度的关联性。从购房比率与预测概率之间的对比可以看粗两者基本接近。输出的最后一行为收入为48000元的家庭购房的预测概率,该值达到0.8996,说明这种收入的家庭的购房可能性非常大。以上的例子是只有一个自变量的情况,分组数据的回归模型可以很方便的推广到多个自变量的情形。分组数据的回归模型只适用于大样本的分组数据,对于大样本的分组数据可以以组数为回归拟合的样本量,从而通过回归拟合出较好的参数值,而对小样本的未分组数据,以组数为回归拟合的样本量,会使拟合的精度低,所以在实际中我们可以利用极大似然估计直接拟合未分组数据的回归模型。二、未分组数据的回归模型我们利用一个例题来说明怎样利用SAS软件来建立对未分组数据的Logistic模型。例10.8 在一次关于公共交通的社会调查中,一个调查项目为“是乘坐公共汽车上下班,还是骑自行车上下班”。因变量表示主要乘坐公共汽车上下班,表示主要骑自行车上下班。自变量是年龄,作为连续型变量;是月收入(元);是性别,表示男性,表示女性。调查对象为工薪族群体,数据见表10.10,试建立与自变量间的回归。表10.10 公共交通的社会调查表序号性别年龄(岁)月收入(元)101885002021120003023850140239501502812001603185007036150018042100019046950110048120001105518001120562100113058180011411885001512010000161251200017127130001812815000191309501201321000021133180002213310000231381200024141150002514518001261481000027152150012815618001则由于本例为未分组数据,所以利用SAS软件用于未分组数据的回归模型,并利用变量:分别代表题目中所列出的变量:序号、性别、年龄、月收入和因变量;则可编写程序如下:data jiaotong;input number sex age income y;cards;1018850 02021120003023850 14023950 15028120016031850 07036150018042100019046950 1100481200011055180011205621001130581800114118850 0151201000016125120001712713000181281500019130950 12013210000211331800022133100002313812000241

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论