第六讲---双变量的统计分析_第1页
第六讲---双变量的统计分析_第2页
第六讲---双变量的统计分析_第3页
第六讲---双变量的统计分析_第4页
第六讲---双变量的统计分析_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

厦门大学社会学系,1,第六讲双变量的统计分析,厦门大学社会学系,2,“学好数理化,走遍天下都不怕”“学好数理化,不如有个好爸爸”布劳与邓肯在1967年出版的美国的职业结构中研究了父亲职业与子女职业的关系,先赋地位和自致地位哪一个在个人生活中具有更重要的作用。尽管家庭背景(父亲的职业与受教育水平)给美国男性的职业地位获得以显著作用,在决定美国在职男性社会地位获得的因素中,由个人努力所达到的“受教育水平”要比来自于“父亲职业地位”的作用更强。他们解释说,美国是一个相当开放的社会越是工业化社会,先赋性因素对个人社会地位获得的影响就越弱;越是传统型社会,先赋性因素对个人社会地位获得的影响就越强。但是,即使如此,在美国这样城市化和工业化水平较高的西方市场化国家,来自于父亲的先赋性因素,对子女职业地位的获得仍然具有虽然微弱但却显著而直接的影响。,厦门大学社会学系,3,那么中国的情况如何?白威廉(WilliamParish)的研究最具影响力,白氏通过对中国大陆1972-1978年间迁居香港的132位移民的访谈,得到了他们2865位邻居的数据,发现:对于那些在“文革”前(1966年前)就年满20岁的同期群案例来说,父亲的“受教育水平”与“职业地位”对子女的受教育水平,父亲的“职业地位”与“阶级出身”对子女的“职业地位”获得等具有显著影响作用。但对于那些在“文革”时期才年满20岁的同期群案例来说,作用却并不显著。谢文和林南于1983年在北京的调查(N=1774)、林南和边燕杰于1985在天津的调查(N=1000)等进一步证实:父亲的职业地位既对人们的初职地位获得毫无影响,也对人们目前职业地位的获得缺少明显作用。林南与边燕杰将“工作单位部门”这一具有国家社会主义特色的指标作为中介变量,置于职业地位之前进行检验。研究发现,虽然父亲的职业地位对子女的教育和职业地位获得缺少统计意义的影响,但父亲的“工作单位部门”却通过对儿子“工作单位部门”的作用而影响了儿子的初职地位获得,但女儿却无此殊荣。,厦门大学社会学系,4,单变量的分析和统计描述,是我们了解和认识社会现象的基础。但社会生活中的现象并不是孤立存在的,现象之间往往存在或多或少的关系,或者说,社会现象之间往往是相互联系、相互影响、相互依存的。进一步了解社会现象发生和变化的原因,揭示社会现象的发展规律,探索和发现现象之间的关系,才是大多数社会研究的主要目的,而这则需要对两个变量或多个变量之间的关系进行分析。,厦门大学社会学系,5,变量之间的关系,两个变量之间的关系多个变量之间的关系。在多数情况下,多个变量之间的关系又可以分解为若干个两个变量之间的关系,也就是说多个变量之间的关系可以通过若干个两个变量间的关系来描述。,厦门大学社会学系,6,厦门大学社会学系,7,知识点,双变量间关系的种类主要的双变量的测量方法(1)交互分析列联表分析(2)不同层次变量的测量法(3)自变量和因变量的关系相关分析和因果分析,厦门大学社会学系,8,一、相关关系(correlation),两变量间的相关关系指的是一个变量的值与另一个变量有连带关系。也就是,当一个变量发生变化时(或取值不同时),另一个变量也随之发生变化。(P68)如:文化程度收入期望女性的文化程度生育期望,厦门大学社会学系,9,1、相关的性质,(1)相关关系的强度相关程度,指的是相关关系的强弱或大小。相关关系的强弱或大小可以用统计法进行测量。变量间相关关系的统计结果称为相关系数。相关关系的程度介于0,1之间,0代表无相关,1代表全相关,数值越大,表示相关的程度愈强。,厦门大学社会学系,10,注意:社会调查中各相关系数的值不可能达到1相关系数只表示各变量间相关程度的指标,没有数量的关系。如0.5和0.25,并不表示0.5比0.25的相关大0.25,或者是0.25相关的两倍,厦门大学社会学系,11,X和Y分别代表两个变量,各有二个取值(1,2),表中的a、b、c、d分别表示不同情况下个案的数目,如果a=d=0或b=c=0,则表示X和Y全相关;如果ad=bc,即,则表示X和Y无关;如果adbc或adbc或adXb,YaYb,那么,就称个案A和B是同序对。简言之,如果某对个案其中一个个案在两个变量上的等级同时高于或同时低于对方,该对个案便可称为同序对。2、异序对(different-orderedpair或discordantpair),指的是某对个案在两个变量上的相对等级是不相同的,通常用Nd表示。假设个案A在X变量的等级为Xa,在Y变量的等级为Ya,个案B在X变量上的等级是Xb,在Y变量上的等级是Yb,如果,XaXb,YaYb,那么,就称个案A和B是异序对。简言之,如果某对个案中,其中一个个案在两个变量上,一个变量的等级高于对方,另一个变量的等级低于对方,这对个案就可称为异序对。,厦门大学社会学系,48,3、X同分对(samegradedpaironX),指的是两个个案在X变量上的等级是相同的,区分不出高低,通常用Tx表示。假设个案A在X变量的等级为Xa,在Y变量的等级为Ya,个案B在X变量上的等级是Xb,在Y变量上的等级是Yb,如果XaXb,YaYb,则称个案A和B是X同分对。4、Y同分对(samegradedpaironY),则是指两个个案在Y变量上的等级是相同的,通常用Ty表示。假设个案A在X变量的等级为Xa,在Y变量的等级为Ya,个案B在X变量上的等级是Xb,在Y变量上的等级是Yb,如果XaXb,YaYb,则称个案A和B是Y同分对。5、X、Y同分对(samegradedpaironXandY),则是指两个个案在X和Y变量上的等级都是相同的,通常用Txy表示。假设个案A在X变量的等级为Xa,在Y变量的等级为Ya,个案B在X变量上的等级是Xb,在Y变量上的等级是Yb,如果Xa=Xb,Ya=Yb,则称个案A和B是X、Y同分对。,厦门大学社会学系,49,等级:同序对和异序对,同序对:A-B,A-C异序对:D-EX同分对:B-C,C-EY同分对:C-DX、Y同分对:B-E,厦门大学社会学系,50,Gamma的计算公式:,厦门大学社会学系,51,NS=12(30+5+16+12)+10(5+12)+8(16+12)+30*12=1510Ns=f11(f22+f23+f32+f33)+f12(f23+f33)+f21(f32+f33)+f22*f33,厦门大学社会学系,52,Nd=f13(f21+f22+f31+f32)+f12(f21+f31)+f23(f31+f32)+f22*f31Nd=3(30+8+16+4)+10(8+4)+5(4+16)+304=514,厦门大学社会学系,53,Tx、Ty具体的计算方法见课本P91-93,Tx:同一纵列的次数的乘积Tx=f11(f21)+f12(f22)Ty:同一横行的次数的乘积Ty=f11(f12)+f21(f22)Txy:两个变量同分的对数,先求出每个方格内个案的对数,将其加起来Txy=f11(f11-1)/2+f12(f12-1)/2+f21(f21-1)/2+f22(f22-1)/2,厦门大学社会学系,54,工人的文化程度和收入水平成正相关关系相关程度是0.492用工人的文化程度来解释工人的收入水平时可以减少49.2%的误差,厦门大学社会学系,55,(2)萨默斯dy,Gamma属于对称相关测量dy属于非对称相关测量Ty是指因变量是同序对的对数。(分母表示的是Y所有的误差)同一横行次数的乘积,厦门大学社会学系,56,例,Ns=23(55+24+28+27)+11(27+24)+20(28+24)+5524=6003Nd=4(11+55+8+27)+20(11+8)+28(8+27)+558=2204Ty=23(20+4)+204+11(55+29)+5528+8(27+24)+2724=4141,厦门大学社会学系,57,厦门大学社会学系,58,注意:原则上对称分析用Gamma,不对称分析用dy,但在实际的运用中,一些不对称分析中(区分了自变量和因变量)也用Gamma,虽然不太严谨,但可以接受。测量时首先注意的是变量的层次,对称性是次要的考虑,厦门大学社会学系,59,肯德尔的tau系数,计算同序对数与异序对数之差在全部可能对数种所占的比例tau-atau-btau-c(课本p95-96),厦门大学社会学系,60,斯皮尔曼的rho系数(P96-97),特点:不仅区别了两者的高低差异,还知道差异的具体数值大小D表示每个个案在两列级别顺序上的相互抵消。D2可以避免正负抵消,厦门大学社会学系,61,由数据可知,n10,那么:可见,文化水平和收入水平的关系是非常强的。这个统计值不区分哪个是自变量,哪个是因变量。其平方值表示以一个变量的等级来预测另一个变量的等级时,可以减少84.64的误差。,厦门大学社会学系,62,注意:尤拉Q系数与Gamma系数的关系,Q=(ad-bc)/(ad+bc)Gamma=(Ns-Nd)/(Ns+Nd)Q系数是Gamma系数的一种特殊形式,只适用于2x2表的Gamma系数的计算。换句话说,如果两个定序变量都是两分的,则Q=Gamma,厦门大学社会学系,63,(三)两个定距变量:Pearson相关系数r,r是协方差的标准化(卢淑华社会统计学p381-383)X和y的关系是对称的r=-1,+1r的平方值具有消减误差的意义,厦门大学社会学系,64,协方差:,图表示了x和变量y之间存在相关关系的散点图(x1,y1)(x2,y2)(xn,yn)X和y的均值可以得到,厦门大学社会学系,65,如果将坐标轴平移到(,),其观测值为那么x和y每对数据的乘积就成为,厦门大学社会学系,66,如果新的坐标落在第1或第3象限的话,则乘积如果新的坐标落在第2或第4象限的话,则乘积如果变量间存在线性相关的话,则其观测值不会平均的分布在4个象限,只会集中在第1、3或2、4象限,因此下式可作为线性相关程度的标志,厦门大学社会学系,67,当表示观测值均匀的分布在四个象限,变量x和变量y之间不存在线性相关关系,反之,当表示变量间存在相关关系。而其乘积对样本容量的平均值称为协方差,厦门大学社会学系,68,方差表示观测值对均值的平均偏差(公式略),协方差则表示x和y两个变量观测值相对其各自均值造成的共同平均偏差。协方差变量各值的标准化(可以比较),厦门大学社会学系,69,取平均有:这就是相关系数r,对于总体数据,r为r的计算公式:,厦门大学社会学系,70,消减误差比例公式推理过程见卢淑华社会统计学p383-386,厦门大学社会学系,71,四、简单线性回归,生活中的例子:家庭收入x和家庭伙食费y施肥量x和小麦产量y简单回归方程:y=bx+ax:是自变量b:回归系数,表示回归线的斜率a:是截距(P99图4-1x与y关系的回归分析),厦门大学社会学系,72,b系数:分析不对称关系的变量,最小二乘方拟合方程式,得到b的大小表示x对y的影响的大小和方向,厦门大学社会学系,73,(四)定类变量与定距变量:eta,不对称变量,根据自变量的值来预测、估计因变量的值取值为0,1公式的获得是通过消减误差比例公式得到(考虑到正负值消减问题,所以取平方值)E2有消减误差比例的作用(李p106-107),厦门大学社会学系,74,Yi:表示的是每个自变量上个因变量的均值,厦门大学社会学系,75,(五)定类变量与定序变量:Gamma和tau-y(六)定序变量和定距变量:相关比率eta特别注意:在一些研究中会将定序变量通过赋值看作定距变量,因此采用pearson相关系数,厦门大学社会学系,76,如受教育程度分为高、中、低-定序变量,如果对其进行赋值,高为3分,中为2分,低为1分,然后将这些分数作为定距资料来分析。实际上这些数字只具有定序变量的等级的含义,不具有数学特质(即不能进行加减运算)同理,定序变量用r系数或回归进行分析(李p113)这些都是在社会科学的统计中可以接受的,厦门大学社会学系,77,社会分析的一般步骤,单个变量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论