




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十二章 相关与回归分析 至第九章,我们讨论的都是单变量统计方法。但是,社会学研究不满足于对单变量的分析,往往要求进一步分析双变量之间的关系,然后再拓展到分析多变量之间的关系。第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是,客观事物间的关联性开始披露出来。在社会统计学中,研究客观事物之间相互关联的数量特征具有十分重要的理论意义和实践意义。所以,这一章我们将把相关关系的讨论深入下去,不仅要对相关关系的存在给出判断,更要对相关关系的强度给出测量,同时要披露两变量间的因果联系,其内容分为相关分析和回归分析这两个大的方面。第一节 变量之间的相互关系提到变量之间的关系,人们很容易想到变量间的确定性关系。确定性关系的特点是当一个变量值确定后,另一个变量值也就完全确定了。确定性关系往往可以表示成函数形式,如圆的半径和面积的关系,R。与此不同,在变量间的非确定性关系中,给定了一个变量值,另一个变量值还可以在一定的范围内变化。如家庭的消费支出与家庭收入,同样收入的家庭,其支出却可能有很大的差异,因为除了受收入高低的影响外,家庭消费支出还受其他许多因素的影响。非确定性关系还有人的身高和体重之间的关系,犯罪与年龄之间的关系,吸烟量和寿命之间的关系,校园环境和学生体质之间的关系等等。通常这类非确定性关系被称为相关关系,它必须借助于统计手段才能加以研究,故又称为统计相关。1相关程度与方向从一定意义上讲,函数关系是相关关系的一个特例,即变量间严格一一对应,这是相关程度最强的一种相关关系,称为完全相关(perfect association)。而变量相关程度的另一个极端值是无相关(no association)或零相关(zero association),即变量之间不存在任何数量上的依存关系。相关程度介于两个极端值之间的则是不完全相关,相关关系大多指的是这种情况,这时变量间在数量关系上有着不很严格的相互依存关系。相关关系既可以表示为统计方程式,也可以用图形来表示。虽然大多数真实的相关关系的图形都是曲线,但由于数学手段上的局限性,统计学探讨的最多的则是定距定距变量间能近似地表现为一条直线的线性相关。在统计中,对于线性相关,采用相关系数(记作r)这一指标来量度相关关系程度或强度。就线性相关来说,当l时,表示为完全相关;当r=0时,表现为无相关或零相关;当01时,表现为不完全相关。但在采用相关系数r这一指标时必须注意到,存在着完善曲线而r0的情况。当然,变量在其他测量层次的关系强度,也可以用同样的思路加以考虑。当变量间相关时,还可以探讨其相关方向,可以分正和负两个方向。所谓正相关关系是指一个变量的值增加时,另一变量的值也增加。例如,受教育水平越高,则找到高薪水工作的机会也越大。而负相关关系是指一个变量的值增加时,另一变量的值却减少。例如,受教育水平越高,理想子女数目越少。要强调的是,只有定序以上测量层次的变量才能分析相关方向,因为只有这些变量的值有高低或多少之分。至于定类变量,由于变量的值并无大小、高低之分,故定类变量与其他变量相关时就没有正负方向了。2因果关系除了相关程度与方向这两种性质外,还应注意两个变量的相关关系是否具有因果性,因为相关的两个变量,可能只是一种共同变化,不一定就是因果关系。只有当两个变量之间的关系同时满足以下三个条件时,才能断定这种关系是因果关系:(1)两个变量有共变关系,即一个变量的变化会伴随着另一个变量的变化。(2)两个变量之间的关系不是由其他因素形成的,即因变量的变化是由自变量的变化引起的。(3)两个变量的产生和变化有明确的时间顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量。例如,如果说“社会整合程度影响越轨行为”,那么,首先“社会整合(社会组织中一个人与大多数人相结合的程度)与“越轨行为”(偏离或违反社会规范的行为)之间是共变的,即它们共同发生变化。其次,假如控制其他可能与“越轨行为”相关的因素(如社会经济地位、年龄、性别等),“社会整合”与“越轨行为”也仍然是相关的。最后,在时间上“社会整合”的变化先于“越轨行为”的出现,由此可以认为这种关系是因果关系。因果关系是一种非对称关系(asymmetrical relationship),这时只是自变量影响因变量,因变量不会反过来影响自变量。如果不能确定或无法区分变量的作用方向,这种情况就称为对称关系(symmetrical relationship)。例如,性别差异会引起晋升的快慢,反过来则不然;这里性别是自变量,晋升是因变量,二者形成非对称的关系。但是,对于人们之间交往程度与关系密切程度两个变量来说,就很难确定谁是自变量,谁是因变量,因为交往的多少会影响关系密切程度,而关系是否密切也会影响交往程度,二者形成的关系是对称的。 对于表现为对称关系的相关关系来讲,在两个变量之间分不清哪个是自变量,那个是因变量。或者说自变量和因变量可以根据研究目的任意选定。例如身高和体重之间的关系,既可以研究身高如何随体重的变化而变化,也可以研究体重如何随身高的变化而变化,两个变量可以互为根据。对互为因果关系的变量来说,两个变量(或更多变量)都是随机变量。 第二节 定距变量的相关分析1相关表和相关图在社会统计学中,由于变量之间的测量层次不同,研究相关关系的方法也有所不同。相关表是在定距测量的层次上,反映两变量之间对应关系的数据表,它是积差系数计算的依据。例如,可将12个员工的工龄和技术考核分的资料编制成如下所示的相关表(表1220): 表1220工龄(年)X111333555777技术考核分Y1232343.54.55.5789将相关表所示的各个有对应关系的数据在直角坐标系上画出来,以直观地观察X和Y之间的相互关系,即得相关图。相关图又称散点图。下面图121便是按表1220所示数据绘制的散点图。如果数据足够多,我们便可以直观地看出员工的工龄和技术考核分之间存在着何种相关关系。为了归纳散点图中可能呈现的各种关系,可参考图122中的几个分图:图a和图f分别表示完全线性正相关和完全线性负相关;图c和图e表示无直线相关(但图c是完全不相关,而图e则是完全曲线相关);图b和图d分别表示不完全线性正相关和不完全线性负相关。2积差系数的导出和计算为了了解两个变量X和Y之间的线性相关程度,我们需要对总体N 个单位在变量X和Y上的取值作观测,以得到N对数值(,),(,),(,)。假设变量X和Y之间存在着正的线性相关关系,于是依据观测资料,我们可以绘制出如图12.1所示的散点图。分析图中的数据观测点,可以发现,变量X和Y关系的密切程度,主要取决于两变量离差的乘积之和。为了说明这一点,先对图12.1进行坐标变换,令x,y=,则=;然后,使横轴向上平移一个,纵轴向右平移一个。这样在以x为横轴,y为纵轴新的直角坐标系中,原来在第I象限的那些观测点,现在大多落到了第I和第III象限内(见图12.3)。如果X、Y是正相关,则在新坐标系中,则0;同理,如果X、Y是负相关,则在新坐标系中,大多数观测点将落到第II和第IV象限内,于是有0。假如观测点是随机地散布在所有四个象限内,则离差乘积xy有正有负,于是将趋于0,这表明变量X和Y之间没有相关关系。通过以上分析不难看出,数值的大小反映了变量X、Y之间关系的紧密程度,而的正负可以表达两变量间是正相关还是负相关。不过由于有计量单位,而且其值也不能被控制在1和+1之间,因此需要将其标准化,即将除以和之积,于是有 r= (1218)这就是用来测量两个定距变量相关强度和方向的积差系数,即皮尔逊相关系数。不难看出,在r系数的计算公式中,变量X和Y是对等关系。因此,对两个定距变量来说,X与Y的相关也就是Y与X的相关,不分彼此。另外,由于数学上可以证明,所以积差系数的取值在1和+1之间变动。对于以积差系数的大小表示相关关系密切程度的问题,一般认为:积差系数r值在0.3以下为无相关,0.30.5表示低度相关,0.50.8表示中等相关,0.8以上表示高度相关。如果将(1218)式的分子和分母同时除以(n1),我们发现,还可根据样本标准差和协方差来定义积差系数。因为两个随机变量X、Y的方差分别为 而随机变量X、Y的协方差为 之所以称为协方差,是因为其地位与方差同,但它同时与X的离差和Y的离差有关。于是,(1218)式变为 r= 不难看出,积差系数是协方差与两个随机变量X、Y的标准差乘积的比率。 直接采用(1218)式来计算积差系数比较麻烦,实际计算时,一般采用以下简化 r= (1219)r=例12.4.1 试就表12.20所示资料,计算关于员工的工龄和技术考核分的皮尔逊相关系数。 解 计算过程参见表12.21 r= 表12.21 N0工龄X技术考核分YX 2Y 2XY 1 2 3 4 5 6 7 8 9 10 11 12 1 1 1 3 3 3 5 5 5 7 7 7123234 3.5 4.5 5.5789 1 1 1 9 9 9 25 25 25 49 49 49 1 4 9 4 916 12.25 20.25 30.25496481 1 2 3 6 912 17.5 22.5 27.5495663 合计4852.5252 299.75 268.5 积差系数r=0.902,表明工龄与技术考核分数有很强的正相关。3积差系数的性质(1)皮尔逊相关系数是线性相关系数。下一节在学习回归分析后我们将了解,积差相关系数的平方()才是对于最小二乘方直线的拟合性量度。当X和Y之间无相关时,散点图上是随机分布的点,r必等于0。但反过来r0,并不能肯定X和Y无相关,因为这时它们之间可能存在着非线性相关关系。 (2) r的取值在-1和-1之间。绝对值越大,相关程度越高;绝对值越小,相关程度越小。但必须指出,对于判断相关关系的密切程度,是r2而不是r有着直观的解释意义。例如,当r2075时,表示当知道X和Y有线性相关关系后,可以改善预测程度75或可以用X削减Y的75的误差。所以,对于以积差系数的大小表示关联程度,一般认为:相关系数r值在03以下为无相关,03 05表示低度相关,05 08表示中等相关,08以上表示高度相关。当然相关程度理解还与不同的研究目的和得到它的环境有关。(3)皮尔逊相关系数具有PRE性质,但这也要通过r2加以反映。对此,下一节我们学习回归分析时再行推导。(4) 积差系数不解释两变量间的因果关系。在r公式中,变量X和Y的关系是对等的。所以对两个定距变量来说,X和Y的相关也就是Y和X的相关,不分彼此。但下面回归分析中,则要根据研究目的分别确定其中的自变量和因变量,因而回归系数b是非对称的。 (5) r公式中的两个变量都是随机的,因而改变两者的位置并不影响r的数值。而在下面的回归分析中,通过回归方程,我们要以自变量X的值去预测因变量Y的值,因而自变量不是随机的,只有因变量才是随机的。第三节 回归分析在分析定距变量间的关联性时,最初关注的仅仅是变量相关的强度和方向,即进行积差相关分析。然而积差系数并不能表明X和Y之间的因果关系,要明确一个变量的变化能否由另一个变量的变化来解释,或通过已知变量精确地预测未知变量,就要进行回归分析。回归的概念是英国生物学家高尔顿(FGalton)首先提出的,他在1877年研究人体身高的遗传问题时发现,身高的遗传与遗传学通常的观念并不一致。按遗传学的观点,子辈身高(Y)与父辈身高(X)之间有相关关系,通常父辈较高者,其子辈身也高,依此推论,一代代的遗传下来,人们的身高必然两极分化。但事实上,在每个族群中个体的身高一般都在某个平均身高附近波动,也就是说,有一种力量使子辈个体身高趋向父辈平均身高,高尔顿把这种趋向中心的现象称之为回归。这里回归概念所描述的是关于X为自变量,Y为不确定的因变量的变量关系,这一点仍是现代回归分析的基本内涵。在回归分析中,如果自变量只有一个,则称为一元回归;如果自变量有两个或两个以上则称为多元回归。而根据回归方程式的特征,又可以分为线性回归和非线性回归。一元线性回归分析是所有回归分析的基础,故本节着重加以讨论。另外,回归分析与相关分析具有密切的联系。一般说来,只有当两个变量之间存在着较高程度的相关关系时,回归分析才变得有意义和有价值。相关程度越高,回归预测越准确。因此,往往先进行相关分析,然后才选用有明显相关关系的变量作回归分析。与此同时,相关关系往往要通过回归分析才能阐释清楚,例如皮尔逊相关系数的PRE性质。回归分析具有推理的性质,而相关分析从本质上讲只是对客观事物的一种描述,知其然而不知其所以然。因而从分析层次上讲,回归分析更深刻一些。 1.线性回归回归分析方法的目的是希望寻求一种误差最小的方法,来预测因变量的数值。由于用均值来估计定距测量层次的数据可以使误差最小。因此,尽管散点图中每个X值可能对应多个数值点(即多个Y值),但估计时应取其均值。将每个X值对应的Y的均值连成线,就是回归线。不过这条由均值构成的回归线虽然可以使预测误差最小,但它却是一条曲折的线,很难用一个方程来表示。而数学上希望能找到用一个方程来表示的回归线,这样便能大大简化预测工作。无疑,如果数学上能用一条直线来表示回归线,在形式上最简单。找到了决定这条直线的方程,将一个自变量(X)的数值代入,就可以预测一个因变量(Y)的数值。这种回归线是一条直线的回归分析方法,被称为线性回归方法。线性回归分析,一般是先依据相关表做出散点图,直观地估计X和Y关联性。如果两变量的确呈现出一定的线性相关趋势,便可以设所要求的回归直线方程为(参见图12.4) (1220) 显然,接下来我们的任务是要确定(1220)式中的两个参数和b,和b一确定,回归直线方程也就唯一地确定下来了。而这是通过运用最小平方法来加以解决的,具体分析如下:因为回归直线必须最佳地从散点中穿过,所以该直线必为诸散点的集中趋势无疑。也就是说,散点将分布在回归直线的两侧,且越靠近回归线散点越多,越离开回归线散点越少。于是,我们可以参照了算术平均数两个性质,使得:原相关表中各因变量的取值()与回归线上相对应的各拟合值()的离差总和等于0,即0;原相关表中各因变量的取值()与回归线上相对应的各拟合值()的离差平方和为最小值,即min。而min就意味着最小平方法的运用,于是我们得到下面两个标准方程 根据最小值,我们令Q,则Q为和b的一个二元函数。显然,要使Q为最小,其必要条件就是Q分别对,b的一阶偏导数等于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年酒店管理招聘面试预测题与实战指南
- 桡骨头骨折课件
- 2025年公务员考试练习题考试练习题及答案指导
- 2025年融媒体舆情分析笔试高频考点解析集
- 桌球培训课程内容
- 2025年篮球规则试题及答案
- 2025年篮球明星试题及答案
- 2025年注册验船师资格考试(A级船舶检验专业案例分析)综合试题及答案二
- 桃红葡萄酒发酵工艺
- 2025年视觉设计岗位面试常见题
- 2023砌体结构后锚固技术规程
- 子宫内膜癌医师教学查房市公开课一等奖课件省赛课获奖课件
- 膝痹中医护理方案效果总结分析报告
- 铸造基础知识及常见铸造缺陷简介演示
- 中式烹调师(高级技师考试资料)
- 仓储技术与库存理论简论
- 日地空间灾害性天气的发生发展和预报研究课件
- 西安大唐不夜城的项目整体推广的策略提案的报告课件
- 可下载打印的公司章程
- 少先队辅导员工作记录表(共7页)
- 公开课教学评价表
评论
0/150
提交评论