




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章属性 分类 数据分析 9 1属性数据及其分析9 2SAS中的属性数据分析 9 1属性数据及其分析9 1 1属性数据分析与列联表9 1 2属性变量关联性分析9 1 3属性变量关联度计算9 1 4有序变量关联性分析 9 1 1属性数据分析与列联表1 属性变量与属性数据分析从变量的测量水平来看分为两类 连续变量和属性 Categorical 变量 属性变量又可分为有序的 Ordinal 和无序的变量 对属性数据进行分析 将达到以下几方面的目的 1 产生汇总分类数据 列联表 2 检验属性变量间的独立性 无关联性 3 计算属性变量间的关联性统计量 4 对高维数据进行分层分析和建模 2 列联表列联表 contingencytable 是由两个以上的属性变量进行交叉分类的频数分布表 例如一个集团公司在四个不同的区域设有分公司 现该集团公司欲进行一项改革 此项改革可能涉及各分公司的利益 故采用抽样调查方法 从四个分公司共抽取420个样本单位 了解职工对此项改革的看法 调查结果如表9 1所示 表9 1关于改革方案的调查结果 单位 人 表中的行 row 是态度变量 这里划分为两类 赞成改革方案或反对改革方案 表中的列 column 是单位变量 这里划分为四类 即四个分公司 表9 1所示的列联表称为2 4表 交叉表的基本形式如图9 1所示 这是一张具有r行和c列的一般列联表 称它为r c表 其中 第i行第j列的单元表示为单元ij 交叉表常给出在所有行变量和列变量的组合中的观测个数 表中的总观测个数用n表示 在单元ij中的观测个数表示为nij 称为单元频数 9 1 2属性变量关联性分析对于不同的属性变量 从列联表中可以得到它们联合分布的信息 但有时还想知道形成列联表的行和列变量间是否有某种关联性 即一个变量取不同数值时 另一个变量的分布是否有显著的不同 这就是属性变量关联性分析的内容 属性变量关联性检验的假设为H0 变量之间无关联性 H1 变量之间有关联性由于变量之间无关联性说明变量互相独立 所以原假设和备择假设可以写为 H0 变量之间独立 H1 变量之间不独立 1 2检验在双向表的情形下 如果行变量与列变量无关联性的原假设H0成立 则列联表中各行的相对分布应近似相等 即 j 1 2 c 或 j 1 2 c 其中mij称为列联表中单元ij在无关联性假设下的期望频数 而nij是单元ij的观测频数 为了检验无关联性 将观测的单元频数与无关联的原假设为真时单元的期望频数进行比较 一个通常使用的检验是 2检验 2统计量为 在H0成立的条件下 当观测数据较大时 2统计量的分布近似服从自由度为 r 1 c 1 的 2分布 由于 2分布是一种连续性分布 而属性数据是不连续的 故上式只是一个近似计算公式 计算出来的 2值往往偏大 相应的p值偏小 从而人为地增加了犯第一类错误的机会 为纠正这种偏性 可采用校正 2 用 C2表示 注 通常要求 2检验应满足的条件是 n 40且所有单元的期望频数均不小于5 2校正的条件 n 40但有单元的期望频数小于5 2 Fisher精确检验Fisher精确检验建立在概率论中超几何分布的基础上 对于单元频数小的列联表来说 它是特别合适的 Fisher精确检验计算在H0成立的条件下 当总频数和边缘频数固定时 各种可能的表的超几何概率p之和对于双边检验 A是具有概率p小于或等于观测表概率的表的集合 对于左 右 边检验 A是这样一些表的集合 其中每个表的单元ij中频数小于 大于 或等于观测表中相应的频数 9 1 3属性变量关联度计算1 系数 系数是描述2 2表数据关联程度最常用的一种相关系数 其计算公式为 其中 2即 2统计量 的取值范围是在0 1之间 的绝对值越大 说明行变量与列变量的关联程度越高 0 表示变量之间相互独立 1 表示变量之间完全相关 此时列联表某个方向对角线上的值全为0 当列联表r c中的行数r或列数c大于2时 系数将随着r或c变大而变大 且 无上界 此时可用列联系数 2 列联系数列联系数 Contingencycoefficient 简称为c系数 主要用于大于2 2表的情况 c系数的计算公式为 c系数的取值范围 1 c 1 特别当r c表中两个变量相互独立时 c 0 c系数的最大值依赖于列联表的行数和列数 且随着r或c变大而变大 例如 对于2 2表 c 0 7071 对于3 3表 c 0 8165 对于4 4表 c 0 87 等等 c系数的缺点是 根据不同行列的列联表计算出来的c系数不便比较 3 V系数鉴于 系数无上界 c系数小于1的不便 克莱默提出了V系数 Cramer sV 其计算公式如下 其中min r 1 c 1 表示取 r 1 c 1 中较小的一个 V 0 表示两个变量相互独立 V 1 表示变量之间完全相关 9 1 4有序变量关联性分析对于数值变量 可以计算两两的相关系数 属性变量因为没有数值概念所以不能计算相关系数 但对于两个有序变量可以计算类似于相关系数的关联性量度 用来度量有序变量关联程度的统计量有 统计量 b统计量和 c统计量等 这几个统计量均由以下定义的观测对一致或不一致的个数 即P和Q 来计算 设 A1 B1 和 A2 B2 是一对观测 若A1 A2且B1 B2 或A1A2且B1B2则称该对观测是不一致的 用P表示所有观测对中一致对的个数 Q表示所有观测对中不一致对的个数 统计量 Gamma 的定义为 b统计量 KendalTau b 的定义为 c统计量 KendalTau c 的定义为 其中m min r c 这三个统计量的取值均在 1 0到1 0之间 值接近于1 0表示正关联 接近于 1 0表示负关联 等于0表示没有相关关系 9 2SAS中的属性数据分析9 2 12 2表的分析9 2 2r c表的分析9 2 3分层列联表分析9 2 4有序变量的关联性分析 9 2 12 2表的分析 例9 1 为了探讨吸烟与慢性支气管炎有无关系 调查了339人 情况如下 表9 2吸烟与慢性支气管炎的关系调查表设想有两个随机变量 x表示吸烟与否 y表示患慢性支气管炎与否 检验吸烟与患慢性支气管炎有无关系 即检验x与y是否相互独立 数据集mylib zqgy如图 原假设H0 x与y相互独立 表9 2中数据使用如下代码存入数据集mylib bron 形式如图9 2所示 datamylib bron inputx y numcell labelx 吸烟 y 慢性支气管炎 cards 吸烟患病43吸烟未患162不吸烟患病13不吸烟未患121 Run 1 分析步骤1 在 分析家 中 打开数据集Mylib bron 2 选择菜单 Statistics TableAnalysis 打开 TableAnalysis 对话框 3 选中变量smoke 单击 Row 按钮 将其移到行变量框中 选中变量bron 单击按钮 Column 将其移到列变量框中 选中变量numcell 单击按钮 CellCounts 将其移到单元格计数框中 如图所示 4 为了使用 2统计量检验变量的关联性 单击 Statistics 按钮 打开 TableAnalysis Statistics 对话框 选中 Statistics 栏下的 Chi squareStatistics 复选框 如图9 4所示 图9 4 TableAnalysis Statistics 对话框单击 OK 按钮 返回 5 为了在列联表中显示各种频数 百分数 单击 Tables 列联表 按钮 打开 TableAnalysis Tables 对话框 选中 Frequencies 频数 栏下的 Expected 期望 复选框 取消 Percentages 百分数 栏下的复选框 如图9 5所示 图9 5 TableAnalysis Tables 对话框两次单击 OK 按钮 得到分析结果 2 结果分析列联表中列出了表格单元的观测频数 上一行 和在原假设下的期望频数 下一行 可以看出 吸烟人中患病的观测频数比期望频数大 图9 6所示 说明吸烟与患病又一定关系 进一步检验的结果只要看后面 图9 7 统计量部分的ChiSquare一行 其值为7 4688 p值为0 0063 所以应拒绝原假设 作出结论 吸烟与患慢性支气管炎是有关联的 当然 这个关联度不是很大 三个关联度系数均在0 15左右 对于两行两列的表格FREQ过程自动给出Fisher精确检验的结果 其双侧检验p值为0 0069 应拒绝原假设 9 2 2r c表的分析 例9 2 一种原料来自三个不同的地区 原料质量被分成三个不同等级 从这批原料中随机抽取500件进行检验 结果如表9 3所示 要求检验各个地区和原料质量之间是否存在依赖关系 表9 3原料抽样的结果 设表9 3数据已经存放在数据集mylib yldj中 如图9 9所示 图9 9数据集mylib yldj检验的原假设为H0 地区和原料等级之间是独立的 不存在依赖关系 1 分析步骤1 在 分析家 中 打开数据集Mylib yldj 2 选择菜单 Statistics TableAnalysis 打开 TableAnalysis 对话框 3 选中变量x 单击 Row 按钮 将其移到行变量框中 选中变量y 单击按钮 Column 将其移到列变量框中 选中变量numcell 单击按钮 CellCounts 将其移到单元格计数框中 如图所示 4 为了使用 2统计量检验变量的关联性 单击 Statistics 按钮 打开 TableAnalysis Statistics 对话框 选中 Statistics 栏下的 Chi squareStatistics 复选框 考虑对列联表作Fisher精确检验 选中 Exacttest 栏下的 Exacttestfor rxc table 复选框 如图所示 图9 11 TableAnalysis Tables 对话框单击 OK 按钮 返回 5 为了在列联表中显示各种频数 百分数 单击 Tables 列联表 按钮 打开 TableAnalysis Tables 对话框 选中 Frequencies 频数 栏下的 Expected 期望 复选框 取消 Percentages 百分数 栏下的复选框 如图9 11所示 两次单击 OK 按钮 得到分析结果 2 结果分析列联表 图9 12 中列出了表格单元的观测频数 上一行 和在原假设下的期望频数 下一行 进一步检验的结果要看 图左 统计量部分的ChiSquare一行 其值为19 8225 p值为0 0005 所以应拒绝原假设 作出结论 地区与原料等级是有关联的 这里的关联度系数取值分别是0 1991 0 1953 0 1408 图右给出Fisher精确检验结果 其双侧检验p值远小于0 05 也应拒绝原假设 9 2 3分层列联表分析 例9 3 对294人进行性别 sex 饮酒 drink 与抑郁症 cases 关系的调查 结果见表9 4 要求检验三者之间是否存在关联性 表9 4性别 饮酒与抑郁症关系的调查设表9 4的数据已经存放在数据集mylib cesd中 形式如图9 15所示 1 分析步骤1 在 分析家 中 打开数据集Mylib cesd 2 选择菜单 Statistics TableAnalysis 打开 TableAnalysis 对话框 3 选中变量sex 单击 Row 按钮 将其移到行变量框中 选中变量cases 单击按钮 Column 将其移到列变量框中 选中变量drink 单击按钮 Strata 将其移到分层变量框中 选中变量numcell 单击按钮 CellCounts 将其移到单元格计数框中 如图所示 4 单击 SelectTab 选择表 按钮 打开 TableAnalysis SelectTab 对话框 在 Selecttables 选择列联表或分层表 选项区域中选择 SEX CASES DRINK SEX CASES 两项 如图9 17所示 单击 OK 按钮返回 5 单击 Statistics 按钮 打开 TableAnalysis Statistics 对话框 选中 Statistics 栏下的 Chi squareStatistics 复选框 如图左所示 单击 OK 按钮返回 6 单击 Tables 按钮 打开 TableAnalysis Tables 对话框 选中 Frequencies 栏下的 Expected 复选框 取消 Percentages 栏下的复选框 如图9 19所示 2 结果分析结果分为三个部分 不论饮酒与否 只考虑饮酒者 只考虑不饮酒者 1 不论饮酒与否 列联表 图9 20左 列出了表格单元的观测频数 上一行 和在原假设下的期望频数 下一行 可以看出女性患抑郁症的频数大于期望频数 因此有可能女性比男性更易患抑郁症 进一步检验的结果要看 2检验与Fisher精确检验结果 由图看出 2统计量的值为8 0815 p值为0 0045 Fisher精确检验的双侧检验p值为0 040 所以应拒绝原假设 作出结论 男女性别与患抑郁症与否是有关联的 但是 对于2 2表来说 这里的 系数为 0 1658 说明性别与患抑郁症的关联度不是很大 2 只考虑不饮酒者 ControllingforDRINK 不饮 从列联表 图左 和检验统计量 图右 可以看出虽然女性患抑郁症的频数略大于期望频数 但 2统计量的值为0 1070 p值为0 7436 Fisher精确检验的双侧检验p值为1 0000 所以无法拒绝原假设 即对于不饮酒者来说 患抑郁症与性别因素无关联 3 只考虑饮酒者 ControllingforDRINK 饮酒 从列联表 图左 和检验统计量 图右 可以看出女性患抑郁症的频数大于期望频数 因此有可能女性比男性更易患抑郁症 进一步检验的结果图9 22右看出 2统计量的值为9 1649 p值为0 0025 Fisher精确检验的双侧检验p值为0 0027 所以应拒绝原假设 作出结论 对于饮酒者来说 男女性别与患抑郁症与否是有关联的 女性饮酒者更容易患抑郁症 9 2 4有序变量的关联性分析 例9 4 研究奶牛种群大小与其患某种细菌性疾病的关系 牛的患病程度 disease 分为没有 0 低 1 高 2 牛群大小 herdsize 分为小 1 中 2 大 3 根据患病程度和牛群大小记录的九个类中动物的头数见表 表9 5奶牛疾病与牛群大小的数据设表9 5的数据已经存放在数据集mylib cows中 形式如图9 23所示 1 分析步骤1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业地产投资与运营分析
- 2公司4份管理制度
- 4s店环保管理制度
- 查阅财务资料管理制度
- 标本送检人员管理制度
- 校内用于用字管理制度
- 校园供水卫生管理制度
- 校园收费票据管理制度
- 校园燃气设施管理制度
- 校园综治创新管理制度
- 非遗缠花创新创业
- 第三方转移支付协议
- 矿山测量工培训
- 施工分包商入库管理细则
- 政府会计知到课后答案智慧树章节测试答案2025年春湘潭大学
- 《自然的礼物》(教学设计)-2024-2025学年人美版(2024)美术一年级下册
- 2024年甘肃兰州中考满分作文《砥砺前行扎根未来》
- 《特种设备重大事故隐患判定准则》知识培训
- EOD项目如何立项
- 2025中考复习必背初中英语单词1600打印版(上)
- 《LCD生产工艺》课件
评论
0/150
提交评论