第3章:双变量描述分析(上)_第1页
第3章:双变量描述分析(上)_第2页
第3章:双变量描述分析(上)_第3页
第3章:双变量描述分析(上)_第4页
第3章:双变量描述分析(上)_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章:双变量描述统计

第一节:两变量间的关系第二节:定类变量与定类变量(定类-定序)第三节:定序变量与定序变量第四节:定类变量与定距变量(定序-定距)第五节:定距变量与定距变量第六节:回归分析第一节:两变量间的关系通过单变量分析,我们可以对被调查者的性别、态度、受教育程度、年龄、收入等情况有一个大致的了解和描述,但是如果想进一步了解社会现象发生、变化的原因,揭示社会现象的发展规律时,仅有单变量分析就不够了。我们接下来要介绍的双变量分析(以及研究生阶段大家要继续学习的多变量分析)方法,正是人们用来探索变量间的各种关系,探索社会现象发生、发展和变化规律的有用工具。在现实生活中,存在着许许多多相互之间有关系的现象,或者说许多社会现象之间往往都是相互联系、相互影响、相互依存的。两个变量之间的关系可以分为两种,一是确定性的关系,二是非确定性的关系。社会现象两个变量之间的关系总是在总体呈现一定规律的情况下又充满了各种个别和例外,所以它是一种非确定性的关系,这种非确定性的关系称为相关关系,它必须借助于统计手段才能进行研究,所以又称为统计相关。一、相关关系(correlation)

1、相关(correlation)关系是指当其中一个变量发生变化(或取值不同)时,另一个变量也随之发生变化;反过来也是一样。A影响B,或者B影响A,或者相互影响。2、相关关系的方向对于定序以上层次的变量来讲,双变量之间的关系可以分为正关系和负关系两种,称为正相关与负相关。正相关指当一个变量取值增加时另一变量的取值也增加,两个变量的取值具有同方向性。反之,当一个变量的取值增加时,另一个变量的取值反而减少,两个变量的取值变化具有反方向性,这种相关称为负相关。关于相关关系的方向性还需再次强度:它只限于定序及以上层次的变量。定类变量不存在相关的方向问题。

3、相关关系的强度指变量之间相关关系的强弱或大小;在统计学上我们用相关系数来表示。根据变量层次的不同,有各种不同的相关系数,取值范围一般在-1到1之间,或者在0-1之间。正负号表示关系的方向,实际数值则表示相关关系的强弱。越接近0,意味着两变量相关的程度越弱;越接近于1或-1意味着相关的程度越强。Notice:(1)在社会研究中不存在完全的正相关或负相关,所以相关系数不可能达到1或者-1;(2)相关系数只能比较大小,不是等单位的度量。二、因果关系1、概念:因果关系是指当其中一个变量变化时会引起或导致另一个变量也随之变化;但是反过来当后一个变量变化时,却不会引起前一个变量的变化。我们把变化发生在前边,能引起另一变量发生变化的变量称为自变量(independentvariable常用X来表示),而变化发生在后边并且变化由前边变量引起的那个变量称为因变量(dependentvariable常用Y来表示)。2、因果关系的成立必须满足4个条件:(1)变量X与变量Y之间存在不对称的相关关系。即当X发生变化时变量Y必定发生变化;但是当Y发生变化时,X并不随之发生变化。即二者一个是因,一个是果,这是因果关系成立的基础。(2)变量X和Y在发生的顺序上有先后之别。先有因,后有果;如果两个变量同时发生分不出先后,则不能构成因果关系。(3)变量X与Y不是同源于第三个变量的影响,即因变量Y的变化是由自变量X的变化引起的,这个关系不能被其他的因素所解释。(4)这种因果关系在经验上可以解释(机制明确)。第二节:定类变量与定类变量(定类-定序)一、列联表(contingencytable)又称交互分类表,就是将调查所得的一组数据按照两个不同的变量进行综合的分类。在列联表中,我们一般将X(自变量)画在横行,将因变量画在竖行。交互分类表所适用的变量层次是定类变量与定序变量。年龄与喜爱电视节目的列联表最后一行,实际上是变量X(老中青)的频数分布;而最后一列是变量Y(喜爱电视节目)的频数分布,我们分别称之为X和Y的频数边际分布(marginaldistribution,也叫边缘分布)。如果是百分比的边际分布,则要分别处以124,再乘以100%。而表中的每一小格则表示的是X和Y同时取某个值时的频数分布,我们将其称之为联合分布(JointDistribution)。

人们对抽烟的态度统计表列联表的一般形式i=1,2,……,cj=1,2,……,j联合分布:N11,……Nij……NcrPij=Nij/NX的边缘分布:N1*,……Ni*……Nc*Pi*=Ni*/NY的边缘分布:N*1,……N*j……N*rP*j=N*j/N条件分布(ConditionalDistribution)当X等于一个固定的变量值时,Y会形成一个分布,这个分布叫做Y的条件分布。反之,叫做X的条件分布。如果X有c个取值,Y就有c个条件分布;如果Y有r个取值,X就有r个条件分布。从理论上说,一个列联表共有从c+r个条件分布。条件频数表中各频数因基数不同不便作直接比较,因此有必要将频数转变成频率,使基数标准化,这样我们就得到了频率条件分布的列联表。【例】某区调查了357名选民,考察受教育程度与投票行为之间的关系,得到结果如下:受过大学以上教育的人有167人,其中有160人参加了投票;大学以下的190人,其中有129人参加了投票,其他人弃权。请用列联表表示:(1)频率的联合分布和边缘分布;(2)投票与否的频率条件分布。原题:频率的边际分布和联合分布表频率条件分布表注意:变量Y的频率条件分布要用每个变量值除以对应的X的边际分布频数,而不是样本总量n。频率的条件分布的好处:(1)去掉了绝对数的影响,绝对数有欺骗性;(2)横向比较的话,看出了教育程度不同的人在投票行为上的差异。无论X取何值,Y的频率条件分布彼此相等=边缘分布,不相关,我们叫做这两个变量互相独立。所以,我们就不用去算条件分布了,只要看看联合分布和边缘分布,就知道两者的关系。两列频率相差越大,就应该相关程度越大。相关程度有多大呢?我们可以把根据列联表算出来的相关系数叫做列联强度。对于定类变量,列联强度有许多种算法和表示方法,我们下面一一介绍。二、2×2列联表的列联强度2×2列联表是只包含两行两列(不包括边缘分布)的列联表,是最简单的交互分类表。如下表:1、Q系数

Q系数在【-1,+1】之间,Q等于0时表示ad=bc,Q等于1时表示相关最强。由于定类变量的取值没有顺序,所以正负系数的意义是相同的。请同学写出Y的频率条件分布表1Q系数的特点当a、b、c、d中有任何一个是0,Q便会等于1或者-1如表2、3、4。表2表3表4表4反映的关系并不是完全相关的关系。可以粗略地看出来,表4计算出来的系数实际只是反映的第二列(女性)的态度差异(女性在开卷考试上的态度极端鲜明),导致了Q=1。表5可以看出,Q系数对于Y的条件分布中差异最大的那一组十分敏感,因此,在Y的两组条件分布中,一组差异大一组差异不大的时候,用Q在很大程度上反映了那组差异大的情况。Q系数的这个特点使得在对比实验组和对照组的情况的时候常常用Q系数。比如我们现在要研究某种新药是否能预防感冒,这时我们关心的是凡是吃了新药的人是否全部不患感冒,而对不吃新药只吃安慰药的人是否全部感冒并不关心,假设有如下结果:表6Q=0(2)φ系数φ系数的取值范围在-1与1之间,越接近1,说明关系强度越大。表1表2表3、表6中Q系数和φ系数也相等,都等于-1和0.表4表5Notice:双变量之间关系强度进行比较的时候要用同一系数,Q和Q作比较;和作比较;问题:怎样选择用Q系数还是系数呢?(1)当自变量的不同取值都会影响因变量时,用比较好;(2)实验对照组研究时,用Q比较好。三、消减误差比例(ProportionateReductioninError,PRE)社会学研究的主要目标是预测或解释社会现象的变化。比如有一种社会现象是Y(例如工资收入),我们就要预测或理解其变化的情况。预测或解释时,难免会有误差(即错误)。假定另一种社会现象X(例如文化水平)是与Y有关系的,如果我们根据X的值来预测Y的值(例如根据文化来估计其工资水平),理应可以减少若干误差。而且,X与Y的关系愈强,所能减少的预测误差就会愈多。换言之,所消减的误差有多少,可以反映X与Y的相关强弱程度。

现在假定不知道X的值,我们在预测Y值时所产生的全部误差是E1。如果知道X的值,我们可以根据X的每个值来预测Y值;假定误差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论