




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十二章 相关与回归分析 社会学研究不满足于对单变量的分析,往往要求进一步分析双变量之间的关系,然后再拓展到分析多变量之间的关系。第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是,客观事物间的关联性开始披露出来。第一节 变量之间的相互关系1相关程度与方向从一定意义上讲,函数关系是相关关系的一个特例,即变量间严格一一对应,这是相关程度最强的一种相关关系,称为完全相关(perfect association)。而变量相关程度的另一个极端值是无相关(no association)或零相关(zero association),即变量之间不存在任何数量上的依存关系。相关程度介于两个极端值之间的则是不完全相关,相关关系大多指的是这种情况,这时变量间在数量关系上有着不很严格的相互依存关系。在统计中,对于线性相关,采用相关系数(记作r)这一指标来量度相关关系程度或强度。就线性相关来说,当l时,表示为完全相关;当r=0时,表现为无相关或零相关;当01时,表现为不完全相关。但在采用相关系数r这一指标时必须注意到,存在着完善曲线而r0的情况。当然,变量在其他测量层次的关系强度,也可以用同样的思路加以考虑。当变量间相关时,还可以探讨其相关方向,可以分正和负两个方向。所谓正相关关系是指一个变量的值增加时,另一变量的值也增加。而负相关关系是指一个变量的值增加时,另一变量的值却减少要强调的是,只有定序以上测量层次的变量才能分析相关方向,因为只有这些变量的值有高低或多少之分。至于定类变量,由于变量的值并无大小、高低之分,故定类变量与其他变量相关时就没有正负方向了。2因果关系除了相关程度与方向这两种性质外,还应注意两个变量的相关关系是否具有因果性。只有当两个变量之间的关系同时满足以下三个条件时,才能断定这种关系是因果关系:(1)两个变量有共变关系,即一个变量的变化会伴随着另一个变量的变化。(2)两个变量之间的关系不是由其他因素形成的,即因变量的变化是由自变量的变化引起的。(3)两个变量的产生和变化有明确的时间顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量。因果关系是一种非对称关系(asymmetrical relationship),这时只是自变量影响因变量,因变量不会反过来影响自变量。如果不能确定或无法区分变量的作用方向,这种情况就称为对称关系(symmetrical relationship)。 第二节 定类变量的相关分析1列联表列联表,是按品质标志把两个变量的频数分布进行交互分类,由于表内的每一个频数都需同时满足两个变量的要求,所以列联表又称条件频数表。22列联表,是最简单的交互分类表,r c频数分布列联表则是一般形式。条件频数表中各频数因基数不同不便作直接比较,因此有必要将频数化成相对频数,使基数标准化。这样,我们就从频数分布的列联表得到了相对频数分布的列联表(或称频率分布的列联表)。在相对频数分布列联表中,各数据为各分类出现的相对频数(或者频率)。将频数化成相对频数有两种做法:如果 ,我们得到的是联合分布的列联表,此时也可以称为联合频率;如果 或者 ,我们得到的是关于X或者关于Y的相对频数的条件分布,此时也可以称为条件频率通过列联表研究定类变量之间的关联性,实际上是通过相对频数条件分布的比较进行的。如果不同的X,Y的相对频数条件分布不同,且和Y的相对频数边际分布不同,则两变量之间是相关的。而如果变量间是相互独立的话,必然存在着Y的相对频数条件分布相同,且和它的相对频数边际分布相同。 2削减误差比例在社会统计中,表达相关关系的强弱,削减误差比例PRE(Proportionate Reductionin Error)的概念是非常有价值的。削减误差比例的原理是,如果两变量间存在着一定的关联性,那么知道这种关联性,必然有助于我们通过一个变量去预测另一变量。其中关系密切者,在由一变量预测另一变量时其盲目性必然较关系不密切者为小。因此,变量间的相关程度,可以用不知Y与X有关系时预测Y的误差E0,减去知道Y与X有关系时预测Y的误差E1,再将其化为比例来度量。将削减误差比例记为PRE,得 PRE = 削减误差比例PRE适用于各测量层次的变量,但公式中E1、E2的具体定义,不仅对不同测量层次的变量有所不同,而且对同一测量层次的变量也有所不同。系数和系数便是在定类测量的层次上以削减误差比例PRE为基础所设计的两种相关系数。 3系数(1)对称的系数(假设X是自变量,Y是因变量) (2)不对称的系数(假设X是自变量,Y是因变量) 系数有PRE意义,其统计值域是0,1。系数的缺点是比较粗略,不够灵敏,因为它以众数作为预测的准则,对条件频数分布列联表中众数频数以外的条件频数不予理会。另外,如果众数频数集中在条件频数分布列联表的同一行中,系数便会等于0,从而无法显示两变量之间的相关性。 3系数 系数的统计值域是0,1,其特点是在计算时考虑所有的边际频数和条件频数。先求出不知X,预测Y时全部误差E0;然后求出知道X,以X预测Y时的全部误差E1;最后求出消减误差比例作为其相关系数值。公式是 系数有PRE意义,它比系数灵敏。 第三节 定序变量的相关分析如果变量不仅可以区分类,而且可排出序(或秩),那么我们就得面对定序变量的相关分析了。定序变量是只能排列高低次序、而无法确定其精确数量的变量。故在分析定序变量的X与Y相关时,只能考虑X与Y两变量变化的顺序是否一致及其等级之间的差距,并以此来求算两变量相关关系之相关系数。 1. 同序对、异序对、同分对 社会学研究常用的两定序变量的相关测量法,有一类是以同序对、异序对、同分对的概念为基础的,如Gamma系数,肯得尔系数、系数等。所以我们在讨论这几种相关系数之前,先要掌握这三个概念。 (1)同序对 在观察X序列时如果我们看到,在Y序列中看到的是,则称这一配对是同序对。同序对只要求X变化方向和Y变化方向相同,并不要求X变化大小和Y变化大小相等。同序对的总数用符号表示。 (2)异序对 在观察X序列时如果我们看到,在Y序列中看到的是,则称这一配对是异序对。同样,异序对只要求X变化方向和Y变化方向相同,并不要求X变化大小和Y变化大小相等。异序对的总数用符号表示。(3)同分对 如果在X序列中,我们观察到,则这个配对为X同分对;X同分对的总数用符号表示。如果在Y序列中,我们观察到,则称这个配对为Y同分对,Y同分对的总数用符号表示。如果我们观察到时,也观察到,则称这两个配对为X与Y同分对,以代表。对于列联表的资料,计算同序对,要用“右下余子式”法;计算异序对,要用 “左下余子式”法。五种不同配对的总的数目是。 2.Gamma系数Gamma系数适用于测量两对称的定序变项的相关系数,计算公式是 。Gamma系数同样具有削减误差比例PRE性质。 3肯德尔等级相关系数对于求等级相关系数,统计学家肯德尔(Kendall)提出了多种方案:(1) 系数; (2) 系数;(3) 系数。4. 萨默斯(d系数)与G系数、系数、系数不同,系数的值依赖于将哪一个变量作为自变量,哪一个变量作为因变量,是一种不对称测量。具体地说, 测量,用于以X预测Y;测量,用于以Y预测X。两者的值域是1,1,公式是 5. 斯皮尔曼等级相关系数 第一位推导等级之间相关系数的人是英国心理学家查尔斯斯皮尔曼。他创造的一个等级相关的公式,可以用来计算两个定序变量之间的相关程度。斯皮尔曼系数通常以代表,即 6肯德尔和谐系数() 前面我们谈的都是对双变量求等级相关系数。对于多变量求等级相关系数,肯德尔运用数理分析方法,提出了一个计算公式 第四节 定距变量的相关分析两个定距变量之间的相关测量,最常用的就是所谓积差系数它是由英国统计学家皮尔逊(Pearson)用积差方法推导出来,所以也称皮尔逊相关系数,用符号r表示。而在本章一开头,关于相关程度与方向,我们谈到了定距定距变量线性相关的问题。其实,积差系数表达的是两定距变量之间的线性相关关系。不仅如此,我们根据两变量之间的这种线性关系,可以进一步建立代数公式,以一个自变量X的值去预测一个因变量Y的值,这就是下一节讲的回归分析。1相关表和相关图在社会统计学中,由于变量之间的测量层次不同,研究相关关系的方法也有所不同。相关表是在定距测量的层次上,反映两变量之间对应关系的数据表,它是积差系数计算的依据。将相关表所示的各个有对应关系的数据在直角坐标系上画出来,以直观地观察X和Y之间的相互关系,即得相关图。相关图又称散点图。如果数据足够多,从散点图上可以直观地看出两变量之间存在着何种相关关系。2积差系数的导出和计算皮尔逊相关系数用来测量两个定距变量相关强度和方向,即 r= 不难看出,在r系数的计算公式中,变量X和Y是对等关系。引入协方差,积差系数又可以表达为 r= 不难看出,积差系数是协方差与两个随机变量X、Y的标准差乘积的比率。实际计算时,一般采用以下简化 r= 3积差系数的性质(1)皮尔逊相关系数是线性相关系数。 (2) r的取值在-1和-1之间。绝对值越大,相关程度越高;绝对值越小,相关程度越小。(3)皮尔逊相关系数具有PRE性质,但这要通过r2加以反映。(4)积差系数不解释两变量间的因果关系。(5) r公式中的两个变量都是随机的,因而改变两者的位置并不影响r的数值。第五节 回归分析积差系数并不能表明X和Y之间的因果关系,要明确一个变量的变化能否由另一个变量的变化来解释,或通过已知变量精确地预测未知变量,就要进行回归分析。 1.线性回归线性回归分析,一般是先依据相关表做出散点图,直观地估计X和Y关联性。如果两变量的确呈现出一定的线性相关趋势,便可以设所要求的回归直线方程为 运用最小平方法可得 在回归方程中,b有十分重要的意义,被称为回归系数。b值的大小,反映了X对Y有多大的影响,即b值就是当X增加一个单位时Y值的增量。b的绝对值越大,表示X对Y的影响也越大,等于零则表示X对Y没有影响。也就是说,b与积差系数一样也可以反映X和Y之间的关系强度。而且b与一样也具有方向性,即b也有正负之分,正值表示X对Y有正向影响,即X增加,Y也增加;负值则是负向影响,即X增加,Y却减少。不过,b也有与不同之处:首先,b的大小不限于-1至+1之间,而是取决于回归直线的斜率;b的的单位取决于变量X和Y的测量单位。这点与不同,的取值范围在-1到1之间,它也没有量纲,是个纯数。其次,计算r时,公式中X与Y是对等的,即将二者位置互换,的值不变,这表明是一种对称关系的测量。但在估算b时,X与Y位置不能互换。b系数和前面的系数、系数、系数一样,具有非对称性。只能用X预测Y,不能反过来用Y预测X。再次,r公式中的两个变量都是随机的。而回归方程要表示因果关系,因而自变量不是随机的,只有因变量才是随机的。2. 积差系数的PRE性质=+ 如果将称为总变差,将称为回归变差,将称为剩余变差(即称残差),于是上式又可以写成 总变差 = 回归变差 + 剩余变差决定系数也可以表达为回归变差在总变差中所占比例 = 就测量变量之间相关关系而言,上式具有独立的意义,就是它不仅适用于线性相关,也适用于非线性相关。于是,统计上引入相关指数这个概念,用符号R表示,即 R = 相关指数R,对于直线相关来说,等同于,即R。但对于非线性相关来说,就只能用相关指数R来加以测量了。第六节 曲线相关与回归一些非线性关系,有可能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 地铁建造工程节点方案(3篇)
- 丰台工程用井方案(3篇)
- 农业无人机租赁市场用户满意度调查与2025年服务质量提升策略
- 农业无人机监测与遥感技术在2025年产量预测中的应用分析报告
- 牧童谣课件教学课件
- 矿业会计面试题及答案解析
- 安全教育培训评估意见课件
- 风电叶片回收处理技术现状分析及2025年产业化前景展望报告
- 2025年电力行业市场前瞻:电力物联网技术创新投资战略分析
- 停车场租赁书
- 电能质量基础知识培训
- 气管、支气管异物与食管异物
- 广东省湛江市《综合能力测试》公务员考试真题含答案
- GB/T 26562-2011自行式坐驾工业车辆踏板的结构与布置踏板的结构与布置原则
- 一年级上学期体育教学工作计划
- 选矿厂安全风险分级管控表
- 我国公共卫生架构与功能课件
- 工作票和操作票样本
- 《舞蹈艺术赏析》课件
- PLC项目实操练习题
- 《国有企业经营者薪酬激励研究(论文)9500字》
评论
0/150
提交评论