第十章相关性测量(下)_第1页
第十章相关性测量(下)_第2页
第十章相关性测量(下)_第3页
第十章相关性测量(下)_第4页
第十章相关性测量(下)_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十章相关性测量(下)三、两个定距变量相关测量与检定(一)两个定距变量相关性的测量

皮尔逊(Pearson)相关系数:(1)测量两个定距变量相关程度的最好尺度;(2)r本身不表示消减误差比例,r2具有消减误差比例的意义,称为决定系数,表示以线性回归方程作为预测工具时所能减少的误差比例。例题:检验8名儿童样本的身高和体重之间的相关程度儿童XYABABA2B2A4981-5-9452581B5088-4-28164C5387-1-3319D5599199181E6091616361F55891-1-111G609565303625H5090-400160∑X=432∑Y=720SP=100SSX=132SSY=202Pearson(皮尔逊)相关系数:(二)两个定距变量相关的总体检定可以用F检定或者t检定r是样本的积距相关系数,

r2

称为决定系数,具有消减误差比例的意义。H1:总体中r≠0H0:总体中r=0练习十二9名女青年受教育年期与参加家务劳动时间的关系是:r=-0.81检定总体中女青年受教育年期与参加家务劳动时间的关系妇女教育年期X劳动小时YA25B24C34D33E41F41G40H60I80总数3618F=13.36df1=k-1=2-1=1df2=n-k=9-2=7在0.01显著度水平上,自由度df1=1;df2=7情况下,F的临界值是12.25,因为13.36≥12.25,在否定域内,故否定虚无假设,即总体中这两个变量相关。相关系数显著性检验的简便方法附录C表F:皮尔逊相关系数(r)在0.05和0.01显著水平(α)上的临界值。直接用r值与表中的对应值作比较,不用计算F值了。如果r大于表中对应临界值,就否定H0,如果r值小于表中对应临界值,就接受H0.使用皮尔逊相关系数的要求(1)线性相关。要求X与Y之间是线性相关关系。(2)定距数据。X与Y要求是定距变量。(3)随机抽样。(4)正态分布。要求X与Y在总体中都呈正态分布。如果是大样本(n≥30),这个要求就不严格了。练习十三根据SPSS文件“相关回归分析(年人均消费支出与教育)”,分析居民年人均消费支出与教育支出的相关性。以F分布来检定r值的方法,是假定x与y成直线关系。如果在总体中x与y的关系其实是非直线,则上面的方法便有问题了。如何检定总体中x与y成直线关系?两个定距变量是否为直线关系可以通过散点图来直观观察判断;两个定距变量是否为直线关系可将系数r与系数E相比较来帮助判断。散点图先通过两个定距变量的散点图看两个变量是否呈直线关系,如果呈直线关系再求相关系数r。散点图Graphs---Scatter1、简单散点图(simple)2、重叠散点图(overlay)3、矩阵散点图(matrix)4、三维散点图(3-D)四、定类与定距变量(一)定类-定距变量相关性测量相关比率(E2)法,又称为Eta平方系数法(简写为E2)以一个定类变量(X)为自变量,以一个定距变量(Y)为因变量。能够测量出Y(定距)变量值在不同X(定类)变量值中的差异情况;由于有一个变量是定类变量,所以eta系数值(E)介于0-1之间,没有负值,其平方值(

E2)具有削减误差比例的意义。考研真题:

某地的一次社会调查显示,该地老街区、新开发区和乡村居民的个人现代性测量的平均分数分别为75分(n1=260;s1=6分)、74分(n2=240,s2=8分)和71分(n3=300,s3=10)。试问,居住地和个人现代性水平有无关系?(α=0.05,n为人数,s为标准差)练习十四分析20名学生的家庭职业背景(分为干部。工人、农民三类)对其英文能力的影响。干部工人农民英785283语825975成917382绩9061788580808151836454ni785各组平均值

84.2961.7579.60si4.409.642.87练习十五:分年龄段子女数量期望老年人中年人青年人子女数量期望23344522221411120124ni677练习十六居民储蓄调查数据(存款)文件中,“户口”与“存款金额”的相关系数。DirectionalMeasuresValueNominalbyIntervalEta户口

Dependent.553存(取)款金额

Dependent.050(二)定类-定距变量相关性总体检定:F检定虚无假设:总体中的两个变量没有关系,即总体的E2

=0.若如是,则F=0.因此,如果在样本中算得的F值越大,就可以否定虚无假设。“居民储蓄数据(存款)”SPSS文档,分析“户口”与“存款数额”的相关关系。从该表可以看到,存款金额的离差平方总和为1.426E10,如果仅考虑户口单个因素的影响,则存款金额总变差中,不同户口可解释的变差为3.533E7,抽样误差引起的变差为1.423E10,它们均方差分别为3.533E7和4.574E7,相除所得的F统计量的观测值为0.772,对应的概率P值为0.380.如果显著度水平为0.05,由于概率值P大于0.05,应接受零假设,认为不同户口对存款金额没有产生显著影响。本题中两个总体均值的差异比较,也可以用两独立样本t检验完成。对两个总体F检验证明其方差相等,所以读第一行的t检验结果。t值为0.879,双边检验出现的概率P值为0.380,大于显著度水平0.05,所以接受零假设,即城市与乡村居民一次存款金额的平均值没有显著差异。

F检定常用于社会调查中,而在实验研究中更常用。如果只有一个实验组和控制组,可用t检定来推断这两组的均值的差异。如果所研究的组超过两个,就用F检定。其实,只有两个组时也可以用F检定,t检定只不过是F检定的一种特殊形式。因此,在社会学研究中,F检定的用途更广泛。相关比率系数的另外一个作用:分析两个定距变量间的线性关系。相关比率所测量的是定距变量值(Y)在不同的定类变量值(X)中的差异情况。这种相互比较的方式,不用要求两个变量具有线性关系。因此,如果两个定距变量间的关系可能是非线性的,则我们将其中的一个变量看作是定类变量,然后用相关比率系数来测量相关情况。比较E值与r值,如果两值相差愈大,变量之间的关系越可能是非线性的。例题:年人均可支配收入(X)对教育支出(Y)的影响。总体中两个定距变量是否直线关系需要检验H0:直线关系(即总体中r=E)H1:非直线关系(即总体中r≠E)r2表示直线关系时消减的误差,E2表示非直线关系时消减的误差,在公式中,分子分母都要除以相应的自由度,目的是要估计总体的参数值。五、定类变量与定序变量相关的测量与检定Lambda,tau-y测量法;将定序变看作定类变量。虽然损失了定序变量的数学性质,但方便了统计工作,故经常被采用。练习十六:青年人教育水平与最大志愿的相关关系教育水平志愿快乐家庭理想工作增广见闻高505中30300低5205注意:相关系数值在相互比较时,意义更加突出。但是,要进行相互比较,就要尽可能采用同样的相关测量法。教育水平与青年最大志愿的tau-y系数值是0.138性别与青年最大志愿的tau-y系数值是0.224,相比之下,青年人的志愿受性别的影响大于受教育水平的影响。六、定序变量与定距变量相关性测量与鉴定将定序变量看作定类变量;相关比率法:具有消减误差比例的意义。分析一个定序变量与一个定距变量的相关时,除了可以应用相关比率系数外,也有些社会学研究将定序变量看作是定距变量,因此采用皮尔逊积距相关系数,甚至进行线性回归分析。如教育水平分高、中、低,本来是定序变量,但我们可以给分数如下:高=2;中=1;低=0,然后将这些分数当作定距资料来分析。如果我们坚持严谨的科学态度,就不按上面的方法做。然而不少社会学研究抱着“虽不中亦不远矣”的态度,还是将定性资料看作定距资料处理。当前大部分社会学研究者还是接受这个做法。

练习十七:文盲=“0”;高小=“1”;小学=“2”;初中=“3”,高中以上=“4”,求文化程度与子女数量期望的相关性。

文化程度01234子女数量期望2334523222241122221112ni62674第四节详析模式与统计控制一、因果分析二、阐明分析三、条件分析与互动效果

详析模式所关心的是两个变量之间的关系,它是一种通过引进并控制第三变量,来进一步了解和探讨原来两变量之间关系性质的统计分析方法.

根据具体作用的不同,阐释模式可以分为三种类型:因果分析、阐明分析和条件分析.一、因果关系

因果分析是检定被看作自变量的x与被看作因变量的y之间,是否确实存在着因果关系.它通常是引进若干前置变量(第三变量),以判明x与y之间的因果关系是否为虚假的,即二者的关系是否为前置变量影响的结果.

例如,研究住户的拥挤程度对夫妻间冲突的影响.我们不能简单地依据交互分类的统计结果(G系数和Z检验)就下结论说“住户的拥挤程度是导致夫妻间冲突的原因”,因为或许还有其他的因素与这两个变量都相关,如家庭的经济水平.W(家庭经济水平)

XY(住房拥挤程度)(夫妻冲突)

W(年龄)

XY(结婚年期)(发病率)

W(受教育水平)

XY(亲属联系度)(社会参与度)

性别

XY(身高)(薪水)前置变量:第三类变量W控制W不变情况下,X变Y也变,说明X与Y的因果关系可能是真实的。所控制的前置变量越多,说明X与Y的因果关系越真实。相反,控制W后,X变时Y却不变,则X与Y的因果关系是虚假的。怎样控制W,使之不变?统计控制:分表法就是其中一种控制方法。根据前置变量W的值,将样本个案分组,然后每组中分析X与Y的关系。每个分表的作用就是在W不变的情况下分析X与Y的关系,这就是统计控制的基本道理。控制W后,研究结果的四种可能X与Y关系消失:X与Y因果关系虚假X与Y关系维持原状:X与Y因果关系可能真实X与Y虽仍有关系,但相关程度减弱:X与Y因果关系部分真实,部分由W所致。当第三个变量被控制时相关关系的方向被改变。夫妇冲突住户拥挤高低高低(总数)%63.836.2(599)%41.658.4(401)G=+0.423Z=5.233,P<0.05(一端鉴定)夫妻冲突富户拥挤中等户拥挤贫户拥挤高低高低高低高低(总数)%61.438.6(220)%62.237.8(90)%81.019.0(294)%80.719.3(114)%10.689.4(85)%9.690.4(197)G=-0.018Z=0.099G=+0.008Z=0.040(不显著)G=+0.052Z=0.171(不显著)在控制家庭经济水平后。住户拥挤与夫妻冲突的关系结论:住户拥挤与夫妻冲突的因果关系是虚假的,这两个变量的相关可能由家庭经济水平所导致。难以同时控制很多变量,必须依据一定的理论根据,选择其中重要的那些。同时,样本数量越多,所能同时控制的变量数目越多。二、阐明分析

阐明分析,又叫因果环节分析

是探讨因果关系的作用方式或作用途径.即当变量x与变量y相关时,通过引进并控制第三变量,以判明自变量x是否“通过”第三变量而对因变量y产生影响的.第三变量称为“介入变量”

如果当我们控制了第三变量,原来两个变量之间的关系消失了,那么我们可以说,这个第三变量是x与y之间因果相连的关键环节,即变量x是通过第三变量影响变量y的.如果控制第三变量后,原来两个变量之间的关系没有改变,则可以认为x并非通过第三变量影响y的.因果分析是要以事实鉴定因果的虚实,而阐明分析是以事实证明因果之间的环节。怎样控制第三变量呢?与因果分析完全相同:分表法完全阐明不能阐明部分阐明

教育水平子女数目G=-0.70结婚年龄:晚婚G=-0.71,

早婚G=-0.68不能阐明重男轻女:是

G=-0.45

否G=-0.50部分阐明社会意识:高

G=-0.18

G=-0.20

低G=-0.23解释力最强三、条件分析

条件分析所关注的则是原关系在不同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论