第四讲双变量_第1页
第四讲双变量_第2页
第四讲双变量_第3页
第四讲双变量_第4页
第四讲双变量_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四讲双变量第1页,共73页,2023年,2月20日,星期三第一节统计相关的性质

相关:是指一个变量的值与另一个变量的值具有连带性。即一个变量的值发生变化,另一个变量的值也有变化。相关系数:相关程度具有强弱之分,用介于0与1之间的数值测量,数值越大,就表示相关程度越强。相关方向:正与负两个方向。正相关:一个变量值增加时,另一个变量值也增加;负相关:一个变量值增加时,另一个变量值却减少;

因果关系:一个变量的变化是由另一个变量的变化引起的。其中原因变量称为自变量,结果变量为因变量。

XY第2页,共73页,2023年,2月20日,星期三二、双变量简化的统计技术:交互列表及其制作交互列表(cross-tabulation)是一种专门用来测量两个变量之间关系的方法。它是将研究所得的一组数据按照两个不同的变量进行综合的分类,其结果通常以交互列表的形式表现出来。第3页,共73页,2023年,2月20日,星期三注意事项1、一般情况下,将自变量放在横排,因变量放在竖排;2、计算百分比时,一般以自变量的方向计算。男性女性合计人品151530性格20020外貌181230才能02525合计5352105第4页,共73页,2023年,2月20日,星期三三、双变量的分布不同性别青年择偶第一标准(男性,性格,20)(男性,外貌,18)(男性,人品,15)(女性,人品,15)(女性,才能,25)(女性,外貌,12)(一)联合分布第5页,共73页,2023年,2月20日,星期三(二)边缘分布

如果对联合分布进行简化研究,只研究其中某一变量的分布,这样就得到边缘分布(三)条件分布控制其中一个变量取某固定值,看另一个变量的分布,这样就可以得到条件分布第6页,共73页,2023年,2月20日,星期三四、从具体案例看交互列表的功能人们对工资改革的意见赞成反对不表态调查人数45%45%10%n=2000非垄断企业职工垄断企业职工赞成855反对1080不表态515第7页,共73页,2023年,2月20日,星期三从这个例子中,我们很容易理解交互列表的第一个功能,这就是可以较为深入地描述样本资料的分布情况和内在结构。但交互分类的更重要的作用则是可以对变量之间的关系进行分解和解释。为了说明这一点,我们来看下面的例子。第8页,共73页,2023年,2月20日,星期三500名流动人口收入分布表工资收入水平人数百分比高5010中25050低20040总计500100收入水平大专以上中学小学以下合计高2618650中1420234250低555140200总计45275180500第9页,共73页,2023年,2月20日,星期三500名流动人员文化水平与工资收入的交互列表收入水平大专以上中学小学以下合计高587310中31731950低11207840总计100(45)100(275)100(180)100(500)这就是交互列表的第二个功能,即分组比较第10页,共73页,2023年,2月20日,星期三表2.4中的百分数显示出每一中心各类个案的情况,可以就某一类别在三个中心之间进行比较。例如,C中心比A、B两中心有较多的未婚母亲;A中心比B、C两中心有较多的定婚者;B、C两中心比A中心拥有较多的离婚者等。

表2.4三个假想的社区心理卫生中心的个案百分数分布类别A中心B中心C中心已婚者47.345.536.6离婚者14.319.223.2订婚者20.310.413.4未婚母亲9.810.618.8其他8.38.38.0总计人数100.0133100.0193100.0112第11页,共73页,2023年,2月20日,星期三

假定我们的兴趣主要在某一些类型的个案以及各中心的该类型个案的相对数目,例如,我们想了解所有已婚者去B中心的百分数。在这种情况下,就要横向地计算百分数。我们取已婚者的总和,由此决定A中心、B中心和C中心在该类别上所占的百分数分别是多少。各百分数横向(不是纵向)相加应等于100,其结果如表2.5所示。

表2.5三个假想的社区心理卫生中心横向计算的百分数分布单位%类别A中心B中心C中心总数已婚者32.845.821.4100.0192离婚者23.245.131.7100.082订婚者43.532.324.2100.062未婚母亲19.748.531.8100.066其他—*—*—*—*36总计133193112438第12页,共73页,2023年,2月20日,星期三第三节简化相关与消减误差

在统计学中有一组相关测量法,其统计值具有消减误差比例(proportionatereductioninerror)的意义。第13页,共73页,2023年,2月20日,星期三消减误差比例比如有一种社会现象是Y(例如青年人的最大志愿),我们就要理解其变化的情况。预测或解释时,难免会有误差。假定另一种社会现象X(例如教育水平)是与Y有关系的,用X预测Y可以减少误差,关系越强,减少的误差越多。

PRE数值的意义,就是表示用一个现象来解释另一个现象时能够减除百分之几的错误。第14页,共73页,2023年,2月20日,星期三第四节相关系数:两个定类变量相关测量相关测量法,就是以一个统计值表示变量与变量之间的关系。这个值,通常称为相关系数。相关测量选择的依据,首先根据变量的测量层次:定类、定序和定距;其次,注意是对称关系还是非对称关系。第15页,共73页,2023年,2月20日,星期三一、λ相关系数基本理路:以一个变量的值来预测另一个定类变量的值时,如果以众值作为预测的准则,可以减少多少误差。

第16页,共73页,2023年,2月20日,星期三第17页,共73页,2023年,2月20日,星期三志愿男女总数快乐家庭103040理想工作401050增广见闻10010总计6040100第18页,共73页,2023年,2月20日,星期三志愿快乐家庭理想工作增广见闻总数快乐家庭289340理想工作241750增广见闻24410总计325414100第19页,共73页,2023年,2月20日,星期三价值取向制造业服务业总数物质报酬10545150人际关系402565总计14570215第20页,共73页,2023年,2月20日,星期三二、tau-y相关测量法

tau-y系数是属于不对称相关测量法,要求两个变量中一个是自变量,另一个是因变量。第21页,共73页,2023年,2月20日,星期三志愿男女总数快乐家庭103040理想工作401050增广见闻10010总计6040100第22页,共73页,2023年,2月20日,星期三第四节等级相关

等级相关检验的是定序变量与定序变量之间的关系,在实证研究中有较为广泛的应用。如文化水平与社会分层之间的关系;学历与收入水平之间的关系;交卷名次与学习成绩名次等等。本章我们主要学习两类等级相关系数,即斯皮尔曼等级相关系数与G系数。第23页,共73页,2023年,2月20日,星期三一、斯皮尔曼等级相关-典型例题表11-1婚配夫妇的家庭地位1、很低2、较低3、一般4、较高5、很高1、很低12、较低13、一般14、较高15、很高1第24页,共73页,2023年,2月20日,星期三将每一对等级整理起来,可得(1,2)(2,3)(3,4)(4,5)(5,1)计算等级差的平方(1-2)2(2-3)2(3-4)2(4-5)2(5-1)2第25页,共73页,2023年,2月20日,星期三

若所有家庭都是严格按照门当户对的规则,那么平方和等于0,此时称作完全的正等级相关。相反,假设双方家庭严格按照高配低、低配高,即此时平方和最大,称为完全的负等级相关。显然,等级差的平方和是衡量两个定序变量之间关系的重要数据。第26页,共73页,2023年,2月20日,星期三从典型例题到一般情况设样本共有n对单元。其中变量x共有n个等级,变量y也有n个等级。

x等级:1,2,3,……,ny等级:1,2,3,……,n

则每一对观测值为:

(x1,y1)

(x2,y2)其中xi的取值为1,2…

yi的取值为1,2………第27页,共73页,2023年,2月20日,星期三它们等级差的平方和为:(x1-y1)2=d12(x2-y2)2=d22(x3-y3)2=d32(xn-yn)2=dn2……斯皮尔曼等级相关系数rs为:-1≤rs≤1当rs=0时表示两变量无关第28页,共73页,2023年,2月20日,星期三例1.用斯皮尔曼等级相关系数计算户号丈夫的家庭地位妻子的家庭地位dd2123451234551234-41111161111第29页,共73页,2023年,2月20日,星期三交卷名次12345考试成绩9074749168第30页,共73页,2023年,2月20日,星期三二、Gamma等级相关(一)名词

1、同序对设单元A变量x和y具有等级(xi,yi),单元B变量x和y具有等级(xj,yj)如果xi>xj且yi>

yj或者xi<xj且yi<

yj

则A和B是同序对如:(3,5)和(1,3)(2,4)和(3,6)第31页,共73页,2023年,2月20日,星期三2、异序对设单元A变量x和y具有等级(xi,yi),单元B变量x和y具有等级(xj,yj)如果xi>xj且yi<

yj或者xi<xj且yi>

yj

则A和B是异序对如:(3,5)和(1,6)(2,4)和(3,2)第32页,共73页,2023年,2月20日,星期三3、同分对如果单元A与单元B中,变量x具有相同的等级,则称之为X同分对如果单元A与单元B中,变量Y具有相同的等级,则称之为Y同分对例:(1,3)和(1,6)(1,3)和(2,3)第33页,共73页,2023年,2月20日,星期三二、Gamma系数

若nd=0,则G=1,此时为完全正相关若ns=0,则G=-1,此时为完全负相关若ns=nd,则G=0,此时不相关第34页,共73页,2023年,2月20日,星期三对双因素交叉列联表求同序对yx高中低高n1n4n7中n2n5n8低n3n6n9ns=n1(n5+n6+n8+n9)+n4(n8+n9)+n2(n6+n9)+n5(n9)yx高(3)中(2)低(1)高(3)n1(3,3)n4(2,3)n7(1,3)中(2)n2(3,2)n5(2,2)n8(1,2)低(1)n3(3,1)n6(2,1)n9(1,1)第35页,共73页,2023年,2月20日,星期三对双因素交叉列联表求异序对表11-9

yx高(3)中(2)低(1)高(3)n1(3,3)n4(2,3)n7(1,3)中(2)n2(3,2)n5(2,2)n8(1,2)低(1)n3(3,1)n6(2,1)n9(1,1)nd=n7(n2+n3+n5+n6)+n4(n2+n3)+8(n3+n6)+n5(n3)第36页,共73页,2023年,2月20日,星期三父辈子辈大学中学小学大学1183715中学1813032小学94398第37页,共73页,2023年,2月20日,星期三第38页,共73页,2023年,2月20日,星期三三、d系数住户密度婆媳冲突高中低高23204中115528低82724第39页,共73页,2023年,2月20日,星期三第五节定距变量与定距变量

回归研究的是定距变量与定距变量之间的因果关系。社会现象的产生与发展往往是由其他的社会现象的变化引起的,因此存在因果关系。因果关系中因有时并不唯一,但是,我们可以抓住主要矛盾,即关注社会现象产生和发展的主要动因,这就是回归要解决的实际问题。第40页,共73页,2023年,2月20日,星期三一、散布图相关关系的图形表示,如受教育年限与月收入x5678999131313y60075090080060010001500120013001500第41页,共73页,2023年,2月20日,星期三第42页,共73页,2023年,2月20日,星期三第六节回归直线方程的建立

建立回归直线方程,是通过样本拟合一条最佳直线,其方法为最小二乘法。第43页,共73页,2023年,2月20日,星期三第44页,共73页,2023年,2月20日,星期三计算公式设

其中

第45页,共73页,2023年,2月20日,星期三典型例题为了研究受教育年限和职业声望之间的关系。设以下是8名抽样调查结果调查对象12345678x12169192110512y7080508690654475第46页,共73页,2023年,2月20日,星期三解:x=13y=70

y=32.04+2.92x第47页,共73页,2023年,2月20日,星期三第七节相关导言:

相关关系的特点:存在关系;关系不确定.相关关系与回归关系之间的区别在于,回归研究的是定距变量与定距变量之间的因果关系,其中x是因,而y是果;相关关系对于x和y而言,无所谓因果,只是互相影响。如身体状况与社会地位第48页,共73页,2023年,2月20日,星期三第49页,共73页,2023年,2月20日,星期三第50页,共73页,2023年,2月20日,星期三第51页,共73页,2023年,2月20日,星期三第52页,共73页,2023年,2月20日,星期三例题:表12-5x11223344y13243546第53页,共73页,2023年,2月20日,星期三第八节不同层次变量之间的相关测量

当两个变量不属于同一层次时,有两种办法用来测量相关关系:将高层次变量降为低层次变量;运用其他类型的相关系数。第54页,共73页,2023年,2月20日,星期三一、定类变量与定距变量

相关比率,又称为eta平方系数,是以一个定类变量为自变量,以一个定距变量为因变量之间的因果关系测量。eta系数值是由0到1,其平方值具有PRE性质第55页,共73页,2023年,2月20日,星期三技术工人:350544231323324261勤杂员:134462343524技术员:64223053121第56页,共73页,2023年,2月20日,星期三二、定类变量与定序变量之间的相关关系

1、用θ相关系数因θ不具有PRE性质,所以一般情况下采用第二种方法。

2、将定序变量降为定类变量第57页,共73页,2023年,2月20日,星期三三、定序变量与定距变量

1、用多序级相关系数条件苛刻,很难满足。2、将定序变量降为定类变量第58页,共73页,2023年,2月20日,星期三住房面积(10平米)246810生活质量(10分)45879第59页,共73页,2023年,2月20日,星期三小结

在社会学研究中进行统计分析时,首先简化每一个单个变量的分布,可以运用次数、百分比等集中趋势测量法、离散趋势测量法。在了解每一个变量分布之后,需要进一步解析变量与变量之间的关系。第60页,共73页,2023年,2月20日,星期三关系测量的基本技术交互列表:资料简化、群体结构、子群比较、相关关系散布图:回归分析的必要条件相关系数:大小、方向统计模型(高级统计)第61页,共73页,2023年,2月20日,星期三统计相关与真实相关统计相关——真实相关统计无关——真实相关统计相关——真实无关统计无关——真实无关第62页,共73页,2023年,2月20日,星期三选择相关测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论