




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章属性(分类)数据分析,9.1属性数据及其分析9.2SAS中的属性数据分析,9.1属性数据及其分析9.1.1属性数据分析与列联表9.1.2属性变量关联性分析9.1.3属性变量关联度计算9.1.4有序变量关联性分析,9.1.1属性数据分析与列联表1.属性变量与属性数据分析从变量的测量水平来看分为两类:连续变量和属性(Categorical)变量,属性变量又可分为有序的(Ordinal)和无序的变量。对属性数据进行分析,将达到以下几方面的目的:1)产生汇总分类数据列联表;2)检验属性变量间的独立性(无关联性);3)计算属性变量间的关联性统计量;4)对高维数据进行分层分析和建模。,2.列联表列联表(contingencytable)是由两个以上的属性变量进行交叉分类的频数分布表。例如一个集团公司在四个不同的区域设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及各分公司的利益,故采用抽样调查方法,从四个分公司共抽取420个样本单位,了解职工对此项改革的看法,调查结果如表9-1所示。,表9-1关于改革方案的调查结果(单位:人)表中的行(row)是态度变量,这里划分为两类:赞成改革方案或反对改革方案;表中的列(column)是单位变量,这里划分为四类,即四个分公司。表9-1所示的列联表称为24表。,交叉表的基本形式如图9-1所示。这是一张具有r行和c列的一般列联表,称它为rc表。其中,第i行第j列的单元表示为单元ij。交叉表常给出在所有行变量和列变量的组合中的观测个数。表中的总观测个数用n表示,在单元ij中的观测个数表示为nij,称为单元频数。,9.1.2属性变量关联性分析对于不同的属性变量,从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性,即一个变量取不同数值时,另一个变量的分布是否有显著的不同,这就是属性变量关联性分析的内容。属性变量关联性检验的假设为H0:变量之间无关联性;H1:变量之间有关联性由于变量之间无关联性说明变量互相独立,所以原假设和备择假设可以写为:H0:变量之间独立;H1:变量之间不独立,1.2检验在双向表的情形下,如果行变量与列变量无关联性的原假设H0成立,则列联表中各行的相对分布应近似相等,即(j=1,2,c)或(j=1,2,c)其中mij称为列联表中单元ij在无关联性假设下的期望频数,而nij是单元ij的观测频数。,为了检验无关联性,将观测的单元频数与无关联的原假设为真时单元的期望频数进行比较。一个通常使用的检验是2检验。2统计量为:在H0成立的条件下,当观测数据较大时,2统计量的分布近似服从自由度为(r-1)(c1)的2分布。,由于2分布是一种连续性分布,而属性数据是不连续的,故上式只是一个近似计算公式。计算出来的2值往往偏大,相应的p值偏小,从而人为地增加了犯第一类错误的机会。为纠正这种偏性,可采用校正2,用C2表示。注:通常要求2检验应满足的条件是:n40且所有单元的期望频数均不小于5。2校正的条件:n40但有单元的期望频数小于5。,2.Fisher精确检验Fisher精确检验建立在概率论中超几何分布的基础上,对于单元频数小的列联表来说,它是特别合适的。Fisher精确检验计算在H0成立的条件下,当总频数和边缘频数固定时,各种可能的表的超几何概率p之和对于双边检验,A是具有概率p小于或等于观测表概率的表的集合;对于左(右)边检验,A是这样一些表的集合,其中每个表的单元ij中频数小于(大于)或等于观测表中相应的频数。,9.1.3属性变量关联度计算1.系数系数是描述22表数据关联程度最常用的一种相关系数。其计算公式为:其中,2即2统计量。|的取值范围是在01之间,的绝对值越大,说明行变量与列变量的关联程度越高。=0,表示变量之间相互独立;|=1,表示变量之间完全相关,此时列联表某个方向对角线上的值全为0。当列联表rc中的行数r或列数c大于2时,系数将随着r或c变大而变大,且无上界。此时可用列联系数。,2.列联系数列联系数(Contingencycoefficient)简称为c系数,主要用于大于22表的情况。c系数的计算公式为:c系数的取值范围:1B2,或A1A2且B1B2则称该对观测是不一致的。,用P表示所有观测对中一致对的个数,Q表示所有观测对中不一致对的个数。统计量(Gamma)的定义为:b统计量(KendalTau-b)的定义为:c统计量(KendalTau-c)的定义为:其中m=min(r,c)。这三个统计量的取值均在-1.0到1.0之间,值接近于1.0表示正关联,接近于-1.0表示负关联,等于0表示没有相关关系。,9.2SAS中的属性数据分析9.2.122表的分析9.2.2rc表的分析9.2.3分层列联表分析9.2.4有序变量的关联性分析,9.2.122表的分析【例9-1】为了探讨吸烟与慢性支气管炎有无关系,调查了339人,情况如下:表9-2吸烟与慢性支气管炎的关系调查表设想有两个随机变量:x表示吸烟与否,y表示患慢性支气管炎与否。检验吸烟与患慢性支气管炎有无关系,即检验x与y是否相互独立。数据集mylib.zqgy如图:原假设H0:x与y相互独立,表9-2中数据使用如下代码存入数据集mylib.bron,形式如图9-2所示。datamylib.bron;inputx$y$numcell;labelx=吸烟y=慢性支气管炎;cards;吸烟患病43吸烟未患162不吸烟患病13不吸烟未患121;Run;,1.分析步骤1)在“分析家”中,打开数据集Mylib.bron;2)选择菜单:“Statistics”“TableAnalysis”,打开“TableAnalysis”对话框;,3)选中变量smoke,单击“Row”按钮,将其移到行变量框中;选中变量bron,单击按钮“Column”,将其移到列变量框中;选中变量numcell,单击按钮“CellCounts”,将其移到单元格计数框中,如图所示;,4)为了使用2统计量检验变量的关联性,单击“Statistics”按钮,打开“TableAnalysis:Statistics”对话框,选中“Statistics”栏下的“Chi-squareStatistics”复选框,如图9-4所示。图9-4“TableAnalysis:Statistics”对话框单击“OK”按钮,返回。,5)为了在列联表中显示各种频数、百分数,单击“Tables(列联表)”按钮,打开“TableAnalysis:Tables”对话框。选中“Frequencies(频数)”栏下的“Expected(期望)”复选框,取消“Percentages(百分数)”栏下的复选框,如图9-5所示。图9-5“TableAnalysis:Tables”对话框两次单击“OK”按钮,得到分析结果。,2.结果分析列联表中列出了表格单元的观测频数(上一行)和在原假设下的期望频数(下一行),可以看出,吸烟人中患病的观测频数比期望频数大(图9-6所示),说明吸烟与患病又一定关系。,进一步检验的结果只要看后面(图9-7)统计量部分的ChiSquare一行,其值为7.4688,p值为0.0063,所以应拒绝原假设,作出结论:吸烟与患慢性支气管炎是有关联的。当然,这个关联度不是很大,三个关联度系数均在0.15左右。对于两行两列的表格FREQ过程自动给出Fisher精确检验的结果,其双侧检验p值为0.0069,应拒绝原假设。,9.2.2rc表的分析【例9-2】一种原料来自三个不同的地区,原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验,结果如表9-3所示。要求检验各个地区和原料质量之间是否存在依赖关系。表9-3原料抽样的结果,设表9-3数据已经存放在数据集mylib.yldj中,如图9-9所示。图9-9数据集mylib.yldj检验的原假设为H0:地区和原料等级之间是独立的(不存在依赖关系)。,1.分析步骤1)在“分析家”中,打开数据集Mylib.yldj;2)选择菜单“Statistics”“TableAnalysis”,打开“TableAnalysis”对话框;3)选中变量x,单击“Row”按钮,将其移到行变量框中;选中变量y,单击按钮“Column”,将其移到列变量框中;选中变量numcell,单击按钮“CellCounts”,将其移到单元格计数框中,如图所示;,4)为了使用2统计量检验变量的关联性,单击“Statistics”按钮,打开“TableAnalysis:Statistics”对话框,选中“Statistics”栏下的“Chi-squareStatistics”复选框;考虑对列联表作Fisher精确检验,选中“Exacttest”栏下的“Exacttestfor(rxc)table”复选框,如图所示。图9-11“TableAnalysis:Tables”对话框单击“OK”按钮,返回。,5)为了在列联表中显示各种频数、百分数,单击“Tables(列联表)”按钮,打开“TableAnalysis:Tables”对话框。选中“Frequencies(频数)”栏下的“Expected(期望)”复选框,取消“Percentages(百分数)”栏下的复选框,如图9-11所示。两次单击“OK”按钮,得到分析结果。,2.结果分析列联表(图9-12)中列出了表格单元的观测频数(上一行)和在原假设下的期望频数(下一行)。,进一步检验的结果要看(图左)统计量部分的ChiSquare一行,其值为19.8225,p值为0.0005,所以应拒绝原假设,作出结论:地区与原料等级是有关联的。这里的关联度系数取值分别是0.1991、0.1953、0.1408。图右给出Fisher精确检验结果,其双侧检验p值远小于0.05,也应拒绝原假设。,9.2.3分层列联表分析【例9-3】对294人进行性别(sex)、饮酒(drink)与抑郁症(cases)关系的调查,结果见表9-4。要求检验三者之间是否存在关联性。表9-4性别、饮酒与抑郁症关系的调查设表9-4的数据已经存放在数据集mylib.cesd中,形式如图9-15所示。,1.分析步骤1)在“分析家”中,打开数据集Mylib.cesd;2)选择菜单“Statistics”“TableAnalysis”,打开“TableAnalysis”对话框;,3)选中变量sex,单击“Row”按钮,将其移到行变量框中;选中变量cases,单击按钮“Column”,将其移到列变量框中;选中变量drink,单击按钮“Strata”,将其移到分层变量框中;选中变量numcell,单击按钮“CellCounts”,将其移到单元格计数框中,如图所示;,4)单击“SelectTab(选择表)”按钮,打开“TableAnalysis:SelectTab”对话框。在“Selecttables(选择列联表或分层表)”选项区域中选择“SEX*CASES,DRINK*SEX*CASES”两项,如图9-17所示。单击“OK”按钮返回。,5)单击“Statistics”按钮,打开“TableAnalysis:Statistics”对话框,选中“Statistics”栏下的“Chi-squareStatistics”复选框,如图左所示。单击“OK”按钮返回。6)单击“Tables”按钮,打开“TableAnalysis:Tables”对话框。选中“Frequencies”栏下的“Expected”复选框,取消“Percentages”栏下的复选框,如图9-19所示。,2.结果分析结果分为三个部分:不论饮酒与否、只考虑饮酒者、只考虑不饮酒者。1)不论饮酒与否:列联表(图9-20左)列出了表格单元的观测频数(上一行)和在原假设下的期望频数(下一行)。可以看出女性患抑郁症的频数大于期望频数,因此有可能女性比男性更易患抑郁症。,进一步检验的结果要看2检验与Fisher精确检验结果。由图看出2统计量的值为8.0815,p值为0.0045;Fisher精确检验的双侧检验p值为0.040,所以应拒绝原假设,作出结论:男女性别与患抑郁症与否是有关联的。但是,对于22表来说,这里的系数为-0.1658,说明性别与患抑郁症的关联度不是很大。,2)只考虑不饮酒者(ControllingforDRINK=不饮):从列联表(图左)和检验统计量(图右)可以看出虽然女性患抑郁症的频数略大于期望频数,但2统计量的值为0.1070,p值为0.7436;Fisher精确检验的双侧检验p值为1.0000,所以无法拒绝原假设,即对于不饮酒者来说,患抑郁症与性别因素无关联。,3)只考虑饮酒者(ControllingforDRINK=饮酒):从列联表(图左)和检验统计量(图右)可以看出女性患抑郁症的频数大于期望频数,因此有可能女性比男性更易患抑郁症。,进一步检验的结果图9-22右看出2统计量的值为9.1649,p值为0.0025;Fisher精确检验的双侧检验p值为0.0027,所以应拒绝原假设,作出结论:对于饮酒者来说,男女性别与患抑郁症与否是有关联的,女性饮酒者更容易患抑郁症。,9.2.4有序变量的关联性分析【例9-4】研究奶牛种群大小与其患某种细菌性疾病的关系。牛的患病程度(disease)分为没有(0)、低(1)、高(2),牛群大小(herdsize)分为小(1)、中(2)、大(3)。根据患病程度和牛群大小记录的九个类中动物的头数见表。表9-5奶牛疾病与牛群大小的数据设表9-5的数据已经存放在数据集mylib.cows中,形式如图9-23所示。,1.分析步骤1)在“分析家”中,打开数据集Mylib.cows;2)选择菜单“Statistics”“TableAnalysi
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 玻璃幕墙供货及安装合同
- 银行柜员个人工作总结
- 2024放射医学知识题库
- 糖尿病酮症的护理查房
- 走出自卑心理健康
- 儿科支原体肺炎诊疗与护理
- 儿科临床护理病例分享
- 自主游戏的培训
- 安全班委培训
- 装修市场培训方案
- 玉溪市2025年事业单位公开招聘工作人员笔试历年典型考题及考点剖析附带答案详解
- 2025至2030中国工业电机行业市场发展现状及商业模式与投资发展报告
- 部编人教版小学语文1-6年级词语表
- 2025届山东省青岛市超银中学英语八下期末综合测试试题含答案
- 工地切割桩头合同协议书
- 手术室环境卫生管理要求
- 2025-2030中国激光喷码机行业市场发展分析及发展趋势与投资前景研究报告
- 《铁路旅客运输组织(活页式)》课件 7.3 旅客伤害应急处置
- 通信光缆割接施工方案
- 农村生活污水治理专项施工方案
- 2024北京西城区四年级(下)期末英语试题及答案
评论
0/150
提交评论