




已阅读5页,还剩47页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
列联表 定类变量 定类变量 1 一 两个定类变量的一般情况例1 某单位对闲暇时间进行了全面调查 根据不同年龄档和喜爱收看电视节目的类型进行类如下的统计分析 表1 列联表 通过各间格的频次或相对频次 研究变量之间是否存在关系 也就是说 变量x的分类是否与变量y的分类有关 第十章列联表第一节什么是列联表 2 二 列联表分布列联表 联合分布 边缘分布 3 例1 试就下列频次的联合分布表 求概率分布的联合分布 边缘分布和条件分布 4 条件分布y的条件分布 控制x值 X的条件分布 控制y值 5 例1 试就下列频次的联合分布表 求概率分布的联合分布 边缘分布和条件分布 1 y的条件分布x 老年 x 中年 x 青年 6 1 x的条件分布y 戏曲 y 歌舞 y 球赛 7 三 列联表中变量的相互独立 我们把关于y的条件分布和边缘分布合写在一个表格中 8 我们把关于y的条件分布和边缘分布合写在一个表格中 如果统计结果如下 称作变量之间是相互独立的 9 如果变量间是相互独立的 则变量的条件分布与它的边缘分布相同 10 一 列联表检验的原假设 总体中的变量之间无关系 或相互独立 二 列联表检验的统计量根据列联表的原假设求出列联表中各格的期望频次 第二节列联表的检验 用样本的边缘频率分布作为总体边缘分布的点估计值 11 在原假设成立条件下的期望频次列联表抽样调查获得的实测的频次列联表 如果总体中为真的话 实测频次列联表的格值和期望频次列联表中的格值相差不多的可能性较大 反之 如果两格值差距很大 则原假设很可能不反映真实情况 列联表检验的统计量 12 统计量 当为大样本时 近似地服从分布 B 值的计算与意义 残差大小是相对概念 相对于期望频数为10时 20的残差非常大 可相对于期望频数为1000是20的残差就很小 所以将残差平方除以期望频数再求和 以估计观察频数与期望频数的差别 残差 一个类别观察值和理论值的偏离程度 统计量 使有英国统计学家KarlPearson在1900年提出的 因此也称为Pearson 13 当观察频数与期望频数完全一致时 值为0 观察频数与期望频数越接近 两者之间的差异越小 值越小 表明观察频数接近期望频数 接近假设 反之 观察频数与期望频数差别越大 两者之间的差异越大 值越大 表明观察频数远离期望频数 即表明远离假设 是观察频数与期望频数之间距离的一种度量指标 也是假设成立与否的度量指标 但在每个具体研究中究竟要大到什么程度才能拒绝原假设呢 这要借助于分布求出所对应的p值来确定 B 值的计算与意义 14 列联表检验就其检验的内容来看是双边检验 但它所判断的内容仅是变量间是否存在关系 至于关系的方向 由于列联表属定类变量 因此是不存在的 但从列联表统计量的公式来看 只有期望频次和实测频次间的绝对值愈大 才能越否定变量间无关系的原假设 因此 列联检验从形式上看 又很像右侧单边检验 列联表的检验是通过频次而不是相对频次的比较进行的 15 例2 某乡镇职业代际流动 调查140人 结果如下 16 一 对于列联表 由于格数过少 为减少作为离散观测值与作为连续型变量x值之间的偏差 可做连续性修正 列联表统计量的讨论 17 二 检验的讨论 也适用于单变量二项总体或多项总体的假设检验1 二项总体 大样本总体成数检验 Z 检验 设对于样本容量为n的抽样 理论上的数学期望 18 2 多项总体检验 设对于样本容量为n的抽样 理论上的数学期望 三 使用统计量对列联表进行检验 每一格值的要保持在一定数目之上 如果其中有的格值过小 那么在计算值时 值的波动就会扩大 如果有两个格值 要求对于列联表 要求或者小于5的格数不应超过总个数的20 当出现不符合上述要求时 可将期望值偏小的格值合并 19 第三节列联强度一 变量间的相关 Association 通过统计量值检验列联表间是否存在关系 在确定了存在关系之后 进一步要问的问题将是关系的程度如何 相关程度的度量方法根据变量层次的不同而有所不同 由于列联表研究的是定类变量 因此列联表中的频次分布情况 不仅是检验是否存在关系的依据 同时也是度量变量间关系强弱的依据 相关程度越高 变量间的关系越密切 20 二 以值为基础的相关性测量 列联表检验的统计量除了可作为显著性检验外 它的表达式还反映了实际频次与期望频次间差值的累计 而期望频次是基于无相关的前提下计算的 因此 的大小反映了变量间关系的程度 而单位频次的值就构成了系数 21 变量间的完全相关 22 变量间的完全相关 值除了对于列联表 可以控制在 1 1 之间外 当表的格数增多后 值将增加 因此值是没有上限的 这样系数间就缺乏了比较性 而C系数对此进行了改进 23 C系数 这样C值将永远保持在 0 1 之间 且永远小于1 C系数虽然克服了系数无上限的缺点 但在两变量全相关时 却永远不能达到1 为此又出现了V系数 V系数 V的取值范围是 24 四 以减少误差比例为基础的相关性测量 具有更普遍意义 适用于所有层次的变量 研究现象之间的关系 可以帮助我们从一个现象预测另一个现象 其中关系密切者 在预测中通过某一现象预测另一现象时 其盲目性比较关系不密切者为少 变量间的相关程度 可以通过不知y与x有关系时 预测y的全部误差与知道y与x有关系时 用x去预测y的误差的相对差值大小度量之 又称减少误差比例法 PRE 不知y与x有关系时 预测y的全部误差 知道y与x有关系后 用x预测y的全部误差 知道y与x有关系后 预测y所减少的误差 所减少的相对误差 其值越大 则表示y和x的关系越密切 或者说相关程度越高 25 PRE的取值范围 当两变量无关时 知道X与否 无助于y的预测 因此误差不变 两变量无关 如果知道y与x完全相关有 可以全部消灭误差 这是有 两变量全相关 可见 PRE的取值范围 PRE 0 两变量无相关 0 PRE 1 两变量相关 PRE 1 两变量全相关 的具体定义在不同层次的变量以及同一层次变量的不同相关系数中的定义是有所不同的 26 2020 1 15 27 一 系数 的定义 未知y与x有关系之前 如果预测y值 唯一可以参考的是y本身的分布 即关于y的边缘分布 当预测每一个观察者的y值时 用边缘分布中的众值猜测它 猜对的频次较多 这时预测的误差为 的定义 当知道y与x有关系之前 如果再预测y值 首先看它属于x的哪一类 然后根据这一类中y的众值猜测它 也就是用条件分布中的众值去预测y 这样猜对的频次较多 这时预测的误差为 y的边缘分布 x的边缘分布 28 的取值范围 1 x与y无相关 0 2 x与y相关 0 1 3 x与y全相关 1 一 系数 29 例4 研究饮食习惯与地区之间关系 作了400人的抽样调查 30 值的非对称性以上所谈的是以x为自变量 用对y的预测来定义PRE 所得值称作 如果y为自变量 用对x的预测来定义PRE 所得值称作 如果x和y孰因孰果不明显 这时可同时计算和 并取其平均值 作为x和y间的相关程度 31 例4 研究饮食习惯与地区之间关系 作了400人的抽样调查用边缘分布所提供的比例来进行预测 用条件分布所提供的比例来进行预测 32 一 系数 的定义 未知y与x有关系之前 如果预测y值 充分考虑到y值边缘分布所提供的信息 用边缘分布所提供的比例来进行预测 的定义 当知道y与x有关系后 如果再预测y值 首先看它属于x的哪一类 然后根据这一类中y的条件分布的比例来猜测它 这样猜对的频次较多 这时预测的误差为 33 的取值范围 1 x与y无相关 0 2 x与y相关 0 1 3 x与y全相关 1 一 系数 34 值的非对称性以上所谈的是以x为自变量 用对y的预测来定义PRE 所得值称作 如果y为自变量 用对x的预测来定义PRE 所得值称作 35 四 使用Spss的rosstabs过程输出列联表 根据原始数据 1 1列联表数据 作出年龄与爱好的交叉列联表Analyze DescriptiveStatistics Crosstabs1 行变量Row s 年龄 列变量Column s 爱好2 行变量Row s 爱好 列变量Column s 年龄系统默认为升序排列 ascending Layer 用于选入更多的分类变量 层变量 Cells 定义列联表单元格中需要显示的指标 Percentages Row Column Total Displayclusteredbarchart 显示统计图ContinueOK 36 Crosstabs 37 38 行百分比 y 戏曲 x 年龄 的条件分布 列百分比 x 老年 y 爱好 的条件分布 x 年龄 的边缘分布 y 爱好 的边缘分布 合计百分比 联合分布 39 年龄与爱好独立 年龄与爱好不独立检验的具体操作 Analyze DescriptiveStatistics CrosstabsRows框 年龄 Columns 爱好Cells Counts框组 Expected ContinueStatistics Chi square ContinueOK 运用spss进行列联表的检验 40 检验的分析结果 41 检验的分析结果 47 817 统计量与自由度为4的理论分布比较 近似概率和精确概率均为0 000 四舍五入 精确值 进入编辑状态后 双击精确概率单元格 远远小于0 05或0 01的显著性水平 所以拒绝原假设 接受备择假设 可以非常有把握地说 年龄与爱好不独立 42 运用spss进行列联表的检验 如果考虑其它定类因素的影响 多因素分析 如果考虑其它定距变量的影响 高级篇Logistic回归 实际应用中 值的大小可以粗略地反映两变量联系的强弱 但是这很难有更贴近实际的解释 研究者只能从它的大小上有一个关联强弱的印象 43 例2 某乡镇研究职业代际流动 调查了工140人 其结果如下 问父辈职业与子辈职业受有关 0 05 p308 44 例2 p308 45 例2 p308 46 三 如何运用spss计算V系数 C系数 例3 p318输入数据 1 数据加权 Data WeightCaseWeightcasesbyFrequencyVariable 人数OK2 列联强度 Analyze DescriptiveStatistics CrosstabsRows框 满意度 Columns 婚姻 Suppresstables不显示具体表格Statistics Chi square Nominal ContingencycoefficientC系数 PhiandCramer sVV系数 UncertaintyCoefficient不确定系数ContinueOK 47 0 0002343410 48 1 数据加权 Data WeightCaseWeightcasesbyFrequencyVariable 人数OK2 列联强度 Analyze Descripti
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 南宁邕高2024数学试卷
- 辽宁小升初数学试卷
- 2025年地球站用的中、大型天线项目建议书
- 青岛莱西2024年中考数学试卷
- 2025年特种丝制品项目建议书
- 社交广告用户画像分析报告
- 尾矿资源化应用研究分析报告
- 战略规划与执行效能评估报告
- 2025年新型地热用热交换器项目建议书
- 青岛中专二模数学试卷
- 催收物业费培训课件
- 意大利米兰整骨技术的案例分享-之评估篇
- 煤矿岗位标准化作业流程
- 部编小学语文6年级上册第8单元作业设计5
- 传染病学课件:新发和再现传染病
- 新人教版六年级上册数学教材解读
- 注塑机定期保养记录表2016
- 成人癌性疼痛护理指南解读
- 新视野大学英语(第四版)读写教程1(思政智慧版) 课件 Unit 4 Social media matters Section A
- 浅谈实现小学语文单元整体教学的有效策略
- 手动液压叉车安全技术培训
评论
0/150
提交评论