




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第9章列联分析 第9章列联分析 9 1分类数据与列联表9 2拟合优度检验9 3独立性检验9 4列联表中的相关测量9 3列联分析中应注意的问题 学习目标 1 解释列联表进行c2检验拟合优度检验独立性检验3 测度列联表中的相关性 数据的类型与列联分析 分类数据 分类变量的结果表现为类别例如 性别 男 女 各类别用符号或数字代码来测度使用分类或顺序尺度你吸烟吗 1 是 2 否你赞成还是反对这一改革方案 1 赞成 2 反对对分类数据的描述和分析通常使用列联表可使用 检验 9 1分类数据与列联表 分类数据列联表的构造列联表的分布 列联表的构造 列联表 contingencytable 由两个以上的变量交叉分类的频数分布表行变量的类别用r表示 ri表示第i个类别列变量的类别用c表示 cj表示第j个类别每种组合的观察频数用fij表示表中列出了行变量和列变量的所有可能的组合 所以称为列联表一个r行c列的列联表称为r c列联表 列联表的结构 2 2列联表 列 cj 行 ri 列联表的结构 r c列联表的一般表示 列 cj 行 ri fij表示第i行第j列的观察频数 列联表 例题分析 例 一个集团公司在四个不同的地区设有分公司 现该集团公司欲进行一项改革 此项改革可能涉及到各分公司的利益 故采用抽样调查方式 从四个分公司共抽取420个样本单位 人 了解职工对此项改革的看法 调查结果如下表 列联表的分布 观察值的分布 边缘分布行边缘分布行观察值的合计数的分布例如 赞成改革方案的共有279人 反对改革方案的141人列边缘分布列观察值的合计数的分布例如 四个分公司接受调查的人数分别为100人 120人 90人 110人条件分布与条件频数变量X条件下变量Y的分布 或在变量Y条件下变量X的分布每个具体的观察值称为条件频数 观察值的分布 图示 行边缘分布 列边缘分布 条件频数 百分比分布 概念要点 条件频数反映了数据的分布 但不适合对比为在相同的基数上进行比较 可以计算相应的百分比 称为百分比分布行百分比 行的每一个观察频数除以相应的行合计数 fij ri 列百分比 列的每一个观察频数除以相应的列合计数 fij cj 总百分比 每一个观察值除以观察值的总个数 fij n 百分比分布 图示 总百分比 列百分比 行百分比 期望频数的分布 假定行变量和列变量是独立的一个实际频数fij的期望频数eij 是总频数的个数n乘以该实际频数fij落入第i行和第j列的概率 即 期望频数的分布 例题分析 由于观察频数的总数为n 所以f11的期望频数e11应为 例如 第1行和第1列的实际频数为f11 它落在第1行的概率估计值为该行的频数之和r1除以总频数的个数n 即 r1 n 它落在第1列的概率的估计值为该列的频数之和c1除以总频数的个数n 即 c1 n 根据概率的乘法公式 该频数落在第1行和第1列的概率应为 期望频数的分布 例题分析 9 2拟合优度检验 一 统计量拟合优度检验 统计量 统计量 用于检验列联表中变量间拟合优度和独立性用于测定两个分类变量之间的相关程度计算公式为 统计量 例题分析 合计 3 0319 拟合优度检验 品质数据的假设检验 拟合优度检验 goodnessoffittest 检验多个比例是否相等检验的步骤提出假设H0 1 2 j H1 1 2 j不全相等计算检验的统计量 进行决策根据显著性水平 和自由度 r 1 c 1 查出临界值 2若 2 2 拒绝H0 若 2 2 接受H0 拟合优度检验 例题分析 H0 1 2 3 4H1 1 2 3 4不全相等 0 1df 2 1 4 1 3临界值 s 统计量 在 0 1的水平上不能拒绝H0 可以认为四个分公司对改革方案的赞成比例是一致的 决策 结论 拟合优度检验 例题分析 例 为了提高市场占有率 A公司和B公司同时开展了广告宣传 在广告宣传战之前 A公司的市场占有率为45 B公司的市场占有率为40 其他公司的市场占有率为15 为了了解广告战之后A B和其他公司的市场占有率是否发生变化 随机抽取了200名消费者 其中102人表示准备购买A公司产品 82人表示准备购买B公司产品 另外16人表示准备购买其他公司产品 检验广告战前后各公司的市场占有率是否发生了变化 0 05 拟合优度检验 例题分析 H0 1 0 45 2 0 4 3 0 15H1 原假设中至少有一个不成立 0 1df 2 1 3 1 2临界值 s 统计量 在 0 05的水平上拒绝H0 可以认为广告后各公司产品市场占有率发生显著变化 决策 结论 拟合优度检验 例题分析 用P值检验 第1步 将观察值输入一列 将期望值输入一列第2步 选择 函数 选项第3步 在函数分类中选 统计 在函数名中选 CHITEST 点击 确定 第4步 在对话框 Actual range 输入观察数据区域在对话框 Expected range 输入期望数据区域得到P值为0 016711 所以拒绝原假设用Excel计算p值 9 3独立性检验 独立性检验 testofindependence 检验列联表中的行变量与列变量之间是否独立检验的步骤为提出假设H0 行变量与列变量独立H1 行变量与列变量不独立计算检验的统计量 进行决策根据显著性水平 和自由度 r 1 c 1 查出临界值 2若 2 2 拒绝H0 若 2 2 接受H0 独立性检验 例题分析 例 一种原料来自三个不同的地区 原料质量被分成三个不同等级 从这批原料中随机抽取500件进行检验 结果如下表 检验各地区与原料之间是否存在依赖关系 0 05 独立性检验 例题分析 提出假设H0 地区与原料等级之间独立H1 地区与原料等级之间不独立计算检验的统计量 根据显著性水平 0 05和自由度 3 1 3 1 4查出相应的临界值 2 9 488 由于 2 19 82 2 9 448 拒绝H0 拟合优度检验 例题分析 H0 地区与原料等级之间独立H1 地区与原料等级之间不独立 0 05df 3 1 3 1 4临界值 s 统计量 在 0 05的水平上拒绝H0 地区和原料等级之间存在依赖关系 决策 结论 9 4列联表中的相关测量 一 相关系数列联相关系数V相关系数 列联表中的相关测量 品质相关对品质数据 分类和顺序数据 之间相关程度的测度列联表变量的相关属于品质相关列联表相关测量的统计量主要有 相关系数列联相关系数V相关系数 相关系数 correlationcoefficient 测度2 2列联表中数据相关程度对于2 2列联表 系数的值在0 1之间 相关系数计算公式为 相关系数 原理分析 一个简化的2 2列联表 相关系数 原理分析 列联表中每个单元格的期望频数分别为 将各期望频数代入 的计算公式得 相关系数 原理分析 将 入 相关系数的计算公式得 ad等于bc 0 表明变量X与Y之间独立若b 0 c 0 或a 0 d 0 意味着各观察频数全部落在对角线上 此时 1 表明变量X与Y之间完全相关 列联表中变量的位置可以互换 的符号没有实际意义 故取绝对值即可 列联相关系数 coefficientofcontingency 用于测度大于2 2列联表中数据的相关程度计算公式为 C的取值范围是0 C 1C 0表明列联表中的两个变量独立C的数值大小取决于列联表的行数和列数 并随行数和列数的增大而增大根据不同行和列的列联表计算的列联系数不便于比较 V相关系数 Vcorrelationcoefficient 计算公式为 V的取值范围是0 V 1V 0表明列联表中的两个变量独立V 1表明列联表中的两个变量完全相关不同行和列的列联表计算的列联系数不便于比较当列联表中有一维为2 min r 1 c 1 1 此时V C V的比较 同一个列联表 C V的结果会不同不同的列联表 C V的结果也不同在对不同列联表变量之间的相关程度进行比较时 不同列联表中的行与行 列与列的个数要相同 并且采用同一种系数 列联表中的相关测量 例题分析 例 一种原料来自三个不同地区 原料质量被分成三个不同等级 从这批原料中随机抽取500件进行检验 结果如下表 分别计算 系数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论