相关系数和回归直线-社会统计学_第1页
相关系数和回归直线-社会统计学_第2页
相关系数和回归直线-社会统计学_第3页
相关系数和回归直线-社会统计学_第4页
相关系数和回归直线-社会统计学_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十二章相关与回归分析 第一节相关关系及种类第二节定类变量的相关分析第三节定序变量的相关分析第四节定距变量的相关分析第五节回归分析 社会上 许多现象之间也都有相互联系 例如 身高与体重 教育程度和收入 学业成就和家庭环境 智商与父母智力等 在这些有关系的现象中 它们之间联系的程度和性质也各不相同 本书第十章提出了两总体的检验及估计的问题 这意味着我们开始与双变量统计方法打交道了 双变量统计与单变量统计最大的不同之处是 客观事物间的关联性开始披露出来 这一章我们将把相关关系的讨论深入下去 不仅要对相关关系的存在给出判断 更要对相关关系的强度给出测量 同时要披露两变量间的因果联系 其内容分为相关分析和回归分析这两个大的方面 第一节变量之间的相互关系 1 相关程度完全相关 指变量之间为函数关系 完全不相关指变量之间不存在任何依存关系 彼此独立 不完全相关介于两者之间 不完全相关是本章讨论的重点 由于数学手段上的局限性 统计学探讨的最多的是定距 定距变量间能近似地表现为一条直线的线性相关 在统计中 对于线性相关 采用相关系数 记作r 这一指标来量度相关关系程度或强度 就线性相关来说 当r l时 表示为完全相关 当r 0时 表现为无相关或零相关 当0 r 1时 表现为不完全相关 2 相关方向 正相关和负相关所谓正相关关系是指一个变量的值增加时 另一变量的值也增加 例如 受教育水平越高找到高薪水工作的机会也越大 而负相关关系是指一个变量的值增加时 另一变量的值却减少 例如 受教育水平越高 理想子女数目越少 要强调的是 只有定序以上测量层次的变量才分析相关方向 因为只有这些变量的值有高低或多少之分 至于定类变量 由于变量的值并无大小 高低之分 故定类变量与其他变量相关时就没有正负方向了 3 因果关系与对称关系因果关系中两个变量有自变量 independentVariable 和因变量 dependentVariable 之分 1 两个变量有共变关系 2 因变量的变化是由自变量的变化引起的 3 两个变量的产生和变化有明确的时间顺序 前者称为自变量 后者称为因变量 表现为对称关系的相关关系 互为根据 不能区分自变量和因变量 或者说自变量和因变量可以根据研究目的任意选定 例如身高和体重之间的关系 4 单相关和复相关从变量的多少上看 单相关只涉及两个变量 亦称二元相关 三个或三个以上变量之间的关系称为复相关 亦称多元相关 5 直线相关和曲线相关从变量变化的形式上看 如果关系近似地表现为一条直线 称为直线相关或线性相关 如果关系近似地表现为一条曲线 则称为曲线相关或称为非线性相关 由于数学手段的局限性 我们以学习线性相关为主 在统计学中 通过分段处理线性相关也可以用于处理曲线相关 第二节定类变量的相关分析 本节内容 1 列联表2 消减误差比例3 系数4 系数 1 列联表列联表 是按品质标志把两个变量的频数分布进行交互分类 由于表内的每一个频数都需同时满足两个变量的要求 所以列联表又称条件频数表 例如 某区调查了357名选民 考察受教育程度与投票行为之间的关系 将所得资料作成下表 便是一种关于频数的列联表 2 2频数分布列联表的一般形式 习惯上把因变量Y放在表侧 把自变量X放在表头 2 2列联表是最简单的交互分类表 r c列联表r row c column r c频数分布列联表的一般形式 两个边际分布 条件频数表中各频数因基数不同不便作直接比较 因此有必要将频数化成相对频数 使基数标准化 这样 我们就从频数分布的列联表得到了相对频数分布的列联表 或称频率分布的列联表 下表是r c相对频数分布列联表的一般形式 r c相对频数分布列联表的一般形式 在相对频数分布列联表中 各数据为各分类出现的相对频数 或者频率 将频数化成相对频数有两种做法 相对频数联合分布两个边际分布或 相对频数条件分布或 r c相对频数联合分布列联表 控制X Y相对频数条件分布列联表 控制Y X相对频数条件分布列联表 例A1 试把下表所示的频数分布列联表 转化为自变量受到控制的相对频数条件分布列联表 并加以相关分析 从上表可知 受过大学以上教育的被调查者绝大多数 占95 8 是投票的 受教育程度在大学以下的被调查者虽多数也参与投票 占67 9 但后者参与投票的百分比远小于前者 前者只有4 2 弃权 而后者则有32 1 弃权 两相比较可知 受教育程度不同 参与投票的行为不同 因此两个变量是相关的 例A2 试把下表所示的频数分布列联表 转化为相对频数条件分布列联表和自变量受到控制的相对频数条件分布列联表 并加以相关分析 上表显示 大学以上文化程度和大学以下文化程度同样各有60 的人参与投票 40 的人弃权 并没有因为受教育程度不同 而使参与投票的行为有所不同 因此 此时的两个变量是不相关的 或者说是独立的 我们不难发现 此时反映全体投票情况的相对频数的边际分布 也各有60 的人参与投票 40 的人弃权 上表显示 当两个变量不相关时有 如0 532 0 40 0 213 例B 某社区调查了120名市民 考察性别与对吸烟态度之间的关系 试将所得资料作成相对频数的联合分布 边际分布和条件分布列联表 并进行相关分析 性别与对吸烟的态度 相对频数联合分布列联表 相对频数条件分布列联表 2675名双亲和他们10071个子女的智力的关系 相对频数条件分布列联表 通过列联表研究定类变量之间的关联性 这实际上是通过相对频数条件分布的比较进行的 如果对不同的X Y的相对频数条件分布不同 且和Y的相对频数边际分布不同 则两变量之间是相关的 而如果变量间是相互独立的话 必然存在着Y的相对频数条件分布相同 且和它的相对频数边际分布相同 后者用数学式表示就是或者 2 消减误差比例PRE ProportionateReductioninError 通过相对频数条件分布列联表的讨论 可以就自变量X和因变量Y的关联性给出一个初步的判断 但是对关联性给出判断 肯定没有用量化指标表达来得好 所以 下面我们将关注于如何用统计方法 使相关关系的强弱可以通过某些简单的系数明确地表达出来 在社会统计中 表达相关关系的强弱 消减误差比例的概念是非常有价值的 消减误差比例的原理是 如果两变量间存在着一定的关联性 那么知道这种关联性 必然有助于我们通过一个变量去预测另一变量 其中关系密切者 在由一变量预测另一变量时 盲目性必然较关系不密切者为小 PRE 用不知道Y与X有关系时预测Y的全部误差E1 减去知道Y与X有关系时预测Y的联系误差E2 再将其化为比例来度量PRE的取值范围是0 PRE l消减误差比例PRE适用于各测量层次的变量 系数和 系数便是在定类测量的层次上以消减误差比例PRE为基础所设计的两种相关系数 PRE 56 28 56 0 5 3 系数在定类尺度上测量集中趋势只能用众数 系数就是利用此性质来构造相关系数的 1 不对称的 系数 例 对下表所示资料 用 系数反映性别与收入高低的相关关系 2 对称的 系数 例 研究工作类别与工作价值的关系 工作类别可分为三类 工人 技术人员 管理 行政人员 工作价值也可分为三类 以收入 福利为最重要的职业选择标准的称为经济取向型 以工作的创造性 挑战性为最重要的职业选择标准的称为成就取向型 以工作中的人际关系为最重要的职业选择标准的称为人际关系取向型 对下表所示资料 用 系数反映工作类别与工作价值的相关关系 职工的工作种类与工作价值 性质 1 0 1 2 具有PRE意义 3 对称与不对称情况下 有不同的公式 4 以众数作为预测的准则 对条件频数分布列联表中众数频数以外的条件频数不予理会 5 如果众数频数集中在条件频数分布列联表的同一行时 0 从而无法显示两变量之间的相关性 4 系数 系数的统计值域是 0 1 其特点是在计算时考虑所有的边际频数和条件频数 注意 当众数很突出且众数分布不在同一行 同一列时 用 系数较好 但当众数不突出时 用 系数更好 若众数集中在某一行或某一列 一定用 系数 例 对下表所示资料 用 系数反映性别与收入高低的相关关系 并对系数的PRE意义加以解释 练习 调查100名青年人与其知心朋友的志愿 条件次数分布如下 计算知心朋友的志愿与自己志愿之间的相关关系 并提出研究结论 第三节定序变量的相关分析 定序变量只能排列高低次序 因而在分析时只能考虑两变量变化的顺序是否一致及其等级之间的差距 以此来计算两变量的相关系数 1 同序对 异序对和同分对2 Gamma等级相关系数3 肯德尔等级相关系数4 萨默斯系数 d系数 5 Spearman等级相关系数6 肯德尔和谐系数 1 同序对 异序对 同分对社会学研究常用的两定序变量的相关测量法 有一类是以同序对 异序对 同分对的概念为基础的 如Gamma系数 肯德尔系数 d系数等 所以我们在讨论这几种相关系数之前 先来了解这三个概念 在定序相关测量中 首先要搞清楚 次序对 pair 的概念 例如 假设研究员工的工作满足感与归属感的关系 将工作满足感从低到高 分为低 1 中 2 和高 3 三个级别 归属感也从低到高分为低 1 中 2 和高 3 三个级别 下表列示的是5名被访者A B C D E的情况 同序对参见上表 注意 为了容易识别各种次序对 该表已先将被访者按定序变量X由低到高作了排列 在观察X序列时如果我们看到Xi Xj 在Y序列中看到的是Yi Yj 则称这一配对是同序对 同序对只要求X变化方向和Y变化方向相同 并不要求X变化大小和Y变化大小相等 同序对的总数用符号ns表示 异序对见上表 在观察X序列时如果我们看到Xi Xj 在Y序列中看到的是Yi Yj 则称这一配对是异序对 同样 异序对只要求X变化方向和Y变化方向相同 并不要求X变化大小和Y变化大小相等 同序对的总数用符号nd表示 同分对如果在X序列中 我们观察到Xi Xj 此时在Y序列中无Yi Yj 则这个配对仅是X方向上而非Y方向上的同分对 X的这种同分对用符号nx表示 如果在Y序列中 我们观察到Yi Yj 此时在X序列中无Xi Xj 则这个配对仅是Y方向上而非X方向上的同分对 Y的这种同分对用符号ny表示 如果我们观察到Xi Xj时 也观察到Yi Yj 则称这两个配对为X与Y同分对 以符号nxy表示 X同分对的总数用符号Tx表示 Tx nx nxy Y同分对的总数用符号Ty表示 Ty ny nxy n个单位两两配对 总对数 ns nd nx ny nxy 计算Gamma系数 肯得尔系数 d系数等 我们面对的经常是两定序变量已形成列联表的资料 所以对我们来说很重要的是要学会定序变量列联表中这五种 次序对 的计算和识别 同序对 右下余子式 法异序对 左下余子式 法 工作满足感与归属感 2 Gamma系数性质 1 取值范围 1 1 2 具有PRE意义 3 属对称相关测量 4 不考虑同分对 例 在某市200户中调查 看住户人口密度与婆媳冲突是否有关 交互分类后分布如下 计算G相关系数并提出研究结论 3 肯德尔等级相关系数 1 Tau a系数适用于不存在任何同分对的情况 某市有12所大专院校 现组织一个评审委员会对各院校校园环境及学生体质进行评价 评价结果如表 表中已先将学校按X作了次序排列 所示 试计算校园环境和学生体质关系的肯德尔相关系数 2 Tau b系数当出现同分对时 对分母进行修正 与G系数一样 Tau b系数也具有消减误差比例的意义 Tau b系数的特殊性在于 只有在列联表的行数与列数相同 r c 的情况下 其系数值才可能是 1或 1 否则便不确定 3 Tau c系数当同分对很多时 且r c 可以用Tau c系数来测量 m取r c列联表中r和c值较小者 Tau c系数没有消减误差比例的意义 4 萨默斯 d系数 萨默尔斯提出的 对G系数进行修正 d系数具有PRE意义 取值 1 1 为不对称测量 5 Spearman等级相关系数运用上式计算等级相关系数很简便 首先将定序变量X和Y的数值形成对应的两个序数数列 其中先将X由小到大排 如遇有相等的数值时 则应将原有的等级求其平均数 让它们以这平均等级并列 然后求出等级差 经平方后求和 运用上式即可求得斯皮尔曼等级相关系数 例 为了解活动能力与智商是否有关 作了10名同学的抽样调查 资料如表 问这10名同学的智商与活动能力是否有关 6 肯德尔和谐系数前面我们谈的都是对双变量求等级相关系数 对于多变量求等级相关系数 如多个专家对同一事物评价的一致性或相关程度的衡量 肯德尔运用数理分析方法 提出了一个计算公式 假设四位专家对10所大专院校环境质量进行排序 有关评价结果列于下表中 试通过计算肯德尔和谐系数 检验专家意见的一致性和相关程度 例 通过对1500多名青年作社会调查 探讨当代青年择业倾向与对社会经济生活的基本态度 得资料如表 求等级相关系数 当代青年择业倾向与他们对职业社会地位的等级认定的关系 择业倾向与他们对职业的富裕程度认定的关系 试就以下单元数据 列举其中的同序对 异序对 同分对 根据交互分类表计算 ns nd nx ny nxy Tx Ty T 总对数 练习 1 在某地抽选469名已婚男人 研究他们对父亲的感情是否会影响他们对婚姻的适应 试计算G系数并提出研究结论 丈夫与父亲的感情对其婚姻适度之影响 2 以下是两位评判员对10名参赛人员的打分排序 试用一系数描述两评判员打分相近程度 第四节定距变量的相关分析 前两节 主要借助于列联表 我们解决了一些定类 定序测量层次的相关测量问题 对于定距变量 根据其变量值的数学特征 我们自然可以引进更为精确的量化指标来反映它们之间的相关程度 两个定距变量之间的相关测量 最常用的就是所谓积差系数 它是由英国统计学家皮尔逊 Pearson 用积差方法推导出来 所以也称皮尔逊相关系数 用符号r表示 1 相关表和散点图相关表 经整理后反映两变量之间对应关系的数据表 散点图 将相关表中各个有对应关系的数据在直角坐标系上标出来 就得到散点图 散点图可以直观地观察两变量之间对应关系 散点图表示的相关的类型 正相关 负相关 完全正相关 完全负相关 称零相关 2 积差系数的导出和计算 r是协方差与X和Y的标准差的乘积之比 试就下表所示资料 计算关于员工的工龄和技术考核分的皮尔逊相关系数 解 计算过程见上表r 3 积差系数的性质 1 r是线性相关系数 2 适用于定距 定比变量 3 取值 1 1 绝对值越大 相关程度越高 r的绝对值在0 3以下表示不相关 0 3 0 5表示低度相关 0 5 0 8表示中等相关 0 8以上表示高度相关 4 X与Y是对称关系 5 相关系数的数值不受坐标点变化的影响 6 r2具有PRE意义 7 r公式中的两个变量都是随机的 因而改变两者的位置并不影响r的数值 注意事项 1 注意实际意义进行相关回归分析要有实际意义 不可把毫无关系的两个事物或现象用来作相关回归分析 例如 有人说 孩子长 公园里的小树也在长 求孩子和小树之间的相关关系就毫无意义 用孩子的身高推测小树的高度则更加荒谬 2 注意虚假相关两个事物间能计算出相关系数 并不一定能证明事物间有内在联系 例如 有人发现 对于在校儿童 鞋的大小与阅读技能有很强的相关关系 然而 学会新词并不能使脚变大 而是涉及到第三个因素 年龄 当儿童长大一些 他们的阅读能力会提高而且由于长大也穿不下原来的鞋 3 利用散点图对于性质不明确的两组数据 可先做散点图 在图上看它们有无关系 关系的密切程度 是正相关还是负相关 是直线相关还是曲线相关 然后再进行相关分析 4 注意变量范围相关分析和回归方程仅适用于产生样本的原始数据范围之内 出了这个范围 两变量的相关关系和回归关系不能就此得到说明 第五节回归分析 在分析定距变量间的关联性时 最初关注的仅仅是变量相关的强度和方向 即进行积差相关分析 然而积差系数并不能表明X和Y之间的因果关系 要明确一个变量的变化能否由另一个变量的变化来解释 或要通过已知变量很好地预测未知变量 就要进行回归分析 在回归分析中 如果自变量只有一个 则称为一元回归 如果自变量有两个或两个以上则称为多元回归 而根据回归方程式的特征 又可以分为线性回归和非线性回归 一元线性回归分析是所有回归分析的基础 另外 回归分析与相关分析具有密切的联系 一般说来 只有当两个变量之间存在着较高程度的相关关系时 回归分析才变得有意义和有价值 因此 往往先进行相关分析 然后才选用有明显相关关系的变量作回归分析 1 线性回归线性回归分析 一般是先依据相关表做出散点图 直观地估计X和Y关联性 如果两变量的确呈现出一定的线性相关趋势 便可以设所要求的回归直线方程为是因变量Y的预测值或称估计值 回归方程的建立 先做散点图 利用最小二乘法 运用最小平方法可以在所有可能的直线中找到使Q达到最小的回归直线 分别对a b求偏导并令其为零 求得两个标准方程 解联立方程 得到a和b的计算公式 X Y 在回归方程中 b有十

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论