双变量描述分析(上)课件_第1页
双变量描述分析(上)课件_第2页
双变量描述分析(上)课件_第3页
双变量描述分析(上)课件_第4页
双变量描述分析(上)课件_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章 双变量描述统计 第一节 两变量间的关系第二节 定类变量与定类变量 定类 定序 第三节 定序变量与定序变量第四节 定类变量与定距变量 定序 定距 第五节 定距变量与定距变量第六节 回归分析 第一节 两变量间的关系 通过单变量分析 我们可以对被调查者的性别 态度 受教育程度 年龄 收入等情况有一个大致的了解和描述 但是如果想进一步了解社会现象发生 变化的原因 揭示社会现象的发展规律时 仅有单变量分析就不够了 我们接下来要介绍的双变量分析 以及研究生阶段大家要继续学习的多变量分析 方法 正是人们用来探索变量间的各种关系 探索社会现象发生 发展和变化规律的有用工具 在现实生活中 存在着许许多多相互之间有关系的现象 或者说许多社会现象之间往往都是相互联系 相互影响 相互依存的 两个变量之间的关系可以分为两种 一是确定性的关系 二是非确定性的关系 社会现象两个变量之间的关系总是在总体呈现一定规律的情况下又充满了各种个别和例外 所以它是一种非确定性的关系 这种非确定性的关系称为相关关系 它必须借助于统计手段才能进行研究 所以又称为统计相关 一 相关关系 correlation 1 相关 correlation 关系是指当其中一个变量发生变化 或取值不同 时 另一个变量也随之发生变化 反过来也是一样 A影响B 或者B影响A 或者相互影响 2 相关关系的方向对于定序以上层次的变量来讲 双变量之间的关系可以分为正关系和负关系两种 称为正相关与负相关 正相关指当一个变量取值增加时另一变量的取值也增加 两个变量的取值具有同方向性 反之 当一个变量的取值增加时 另一个变量的取值反而减少 两个变量的取值变化具有反方向性 这种相关称为负相关 关于相关关系的方向性还需再次强度 它只限于定序及以上层次的变量 定类变量不存在相关的方向问题 3 相关关系的强度指变量之间相关关系的强弱或大小 在统计学上我们用相关系数来表示 根据变量层次的不同 有各种不同的相关系数 取值范围一般在 1到1之间 或者在0 1之间 正负号表示关系的方向 实际数值则表示相关关系的强弱 越接近0 意味着两变量相关的程度越弱 越接近于1或 1意味着相关的程度越强 Notice 1 在社会研究中不存在完全的正相关或负相关 所以相关系数不可能达到1或者 1 2 相关系数只能比较大小 不是等单位的度量 第二节 定类变量与定类变量 定类 定序 一 列联表 contingencytable 又称交互分类表 就是将调查所得的一组数据按照两个不同的变量进行综合的分类 在列联表中 我们一般将X 自变量 画在横行 将因变量画在竖行 交互分类表所适用的变量层次是定类变量与定序变量 年龄与喜爱电视节目的列联表 最后一行 实际上是变量X 老中青 的频数分布 而最后一列是变量Y 喜爱电视节目 的频数分布 我们分别称之为X和Y的频数边际分布 marginaldistribution 也叫边缘分布 如果是百分比的边际分布 则要分别处以124 再乘以100 而表中的每一小格则表示的是X和Y同时取某个值时的频数分布 我们将其称之为联合分布 JointDistribution 人们对抽烟的态度统计表 列联表的一般形式 i 1 2 cj 1 2 j联合分布 N11 Nij NcrPij Nij NX的边缘分布 N1 Ni Nc Pi Ni NY的边缘分布 N 1 N j N rP j N j N 条件分布 ConditionalDistribution 当X等于一个固定的变量值时 Y会形成一个分布 这个分布叫做Y的条件分布 反之 叫做X的条件分布 如果X有c个取值 Y就有c个条件分布 如果Y有r个取值 X就有r个条件分布 从理论上说 一个列联表共有从c r个条件分布 条件频数表中各频数因基数不同不便作直接比较 因此有必要将频数转变成频率 使基数标准化 这样我们就得到了频率条件分布的列联表 例 某区调查了357名选民 考察受教育程度与投票行为之间的关系 得到结果如下 受过大学以上教育的人有167人 其中有160人参加了投票 大学以下的190人 其中有129人参加了投票 其他人弃权 请用列联表表示 1 频率的联合分布和边缘分布 2 投票与否的频率条件分布 原题 频率的边际分布和联合分布表 频率条件分布表 注意 变量Y的频率条件分布要用每个变量值除以对应的X的边际分布频数 而不是样本总量n 频率的条件分布的好处 1 去掉了绝对数的影响 绝对数有欺骗性 2 横向比较的话 看出了教育程度不同的人在投票行为上的差异 无论X取何值 Y的频率条件分布彼此相等 边缘分布 不相关 我们叫做这两个变量互相独立 所以 我们就不用去算条件分布了 只要看看联合分布和边缘分布 就知道两者的关系 两列频率相差越大 就应该相关程度越大 相关程度有多大呢 我们可以把根据列联表算出来的相关系数叫做列联强度 对于定类变量 列联强度有许多种算法和表示方法 我们下面一一介绍 二 2 2列联表的列联强度 2 2列联表是只包含两行两列 不包括边缘分布 的列联表 是最简单的交互分类表 如下表 1 Q系数Q系数在 1 1 之间 Q等于0时表示ad bc Q等于1时表示相关最强 由于定类变量的取值没有顺序 所以正负系数的意义是相同的 请同学写出Y的频率条件分布 表1 Q系数的特点 当a b c d中有任何一个是0 Q便会等于1或者 1如表2 3 4 表2 表3 表4 表4反映的关系并不是完全相关的关系 可以粗略地看出来 表4计算出来的系数实际只是反映的第二列 女性 的态度差异 女性在开卷考试上的态度极端鲜明 导致了Q 1 表5 可以看出 Q系数对于Y的条件分布中差异最大的那一组十分敏感 因此 在Y的两组条件分布中 一组差异大一组差异不大的时候 用Q在很大程度上反映了那组差异大的情况 Q系数的这个特点使得在对比实验组和对照组的情况的时候常常用Q系数 比如我们现在要研究某种新药是否能预防感冒 这时我们关心的是凡是吃了新药的人是否全部不患感冒 而对不吃新药只吃安慰药的人是否全部感冒并不关心 假设有如下结果 表6 Q 0 2 系数 系数的取值范围在 1与1之间 越接近1 说明关系强度越大 表1 表2 表3 表6中Q系数和 系数也相等 都等于 1和0 表4 表5 Notice 双变量之间关系强度进行比较的时候要用同一系数 Q和Q作比较 和作比较 问题 怎样选择用Q系数还是系数呢 1 当自变量的不同取值都会影响因变量时 用比较好 2 实验对照组研究时 用Q比较好 三 消减误差比例 ProportionateReductioninError PRE 社会学研究的主要目标是预测或解释社会现象的变化 比如有一种社会现象是Y 例如工资收入 我们就要预测或理解其变化的情况 预测或解释时 难免会有误差 即错误 假定另一种社会现象X 例如文化水平 是与Y有关系的 如果我们根据X的值来预测Y的值 例如根据文化来估计其工资水平 理应可以减少若干误差 而且 X与Y的关系愈强 所能减少的预测误差就会愈多 换言之 所消减的误差有多少 可以反映X与Y的相关强弱程度 现在假定不知道X的值 我们在预测Y值时所产生的全部误差是E1 如果知道X的值 我们可以根据X的每个值来预测Y值 假定误差的总数是E2 则以X值来预测Y值时所减少的误差就是 E1 E2 这个数值 E1 E2 与原来全部误差 E1 相比 就是消减误差比例 可用下面的公式表示 0 PRE 1PRE的数值越大 就表示以X值预测Y值时能够减少的误差所占的比例愈大 也就是说 X与Y的关系愈强 消减误差比例适用于各种测量层次的变量 但公式中的E1与E2的具体定义在不同层次的变量间 或同一层次的变量内部有所不同 系数和系数就是在定类测量的层次上以消除误差比例PRE为基础所设计的两种相关系数 四 Lamda系数 Tau系数 1 Lamda 系数 定类与定类 定类与定序 的取值在0到1之间 相关测量法有两种形式 一种是对称形式 即用于测量的两个变量间的关系是对等的 没有自变量与因变量之分 另一种是非对称的形式 即所测量的两个变量有自变量与因变量之分 X是自变量 Y是因变量 1 非对称其中 fY表示变量X的每一个分类中Y分布的众数的频数 FY表示变量Y的边际分布中的众数的频数 n为样本总量 因此 我们可以说性别与对吸烟态度之间存在中等程度的相关 也可以说用性别去预测对吸烟的态度 比仅用对吸烟态度自身的资料 即边缘分布的众值114 去预测对吸烟的态度 可以减少51 的误差 课堂练习 2 对称的 系数 fY为X的每一分类中Y分布的众数的频数 fX为Y的每一分类中X分布的众数的频数 FX为X边际分布中的众数的频数 FY为Y边际分布中的众数的频数 n为样本总量 被调查对象与其朋友的爱好 即用调查对象的爱好来预测其朋友的爱好可以消减25 的误差 Lambda系数有一个问题 就是当X取不同值时 Y所有的众值都集中在同一行的时候 Lambda就会等于0 而这个时候X和Y不一定完全没有关系 这可能是因为忽略了其他取值所对应的频次而导致的 2 Tau系数 Tau系数也经常简记为 属于不对称相关测量法 即要求X是自变量 Y是因变量 也具有消除误差比例的意义 它的数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论