已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章双变量描述分析(下),第三节:定序变量与定序变量第四节:定类变量与定距变量(定序定距)第五节:定距变量与定距变量第六节:回归分析,1,一、名次解释:对子(Pairs),对子,是指两个个案互相比较而组成的对子。比如一个调查的样本容量为n,每个个案都与其他所有的个案两两比较共有多少个对子?,第三节:定序变量与定序变量(ordinalbyordinal),2,如果第一个个案的X的取值高于第二个个案,Y的取值也高于第二个个案,或者都小于第二个个案,那么这两个个案组成的对子(AB,AC)就叫做同序对(Same-OrderedPair),其个数记做Ns;如果第一个个案的X的取值高于第二个个案,Y的取值却低于于第二个个案,这两个个案组成的对子(AD)便叫做异序对(Different-OrderedPair),其个数记做Nd;同分对是指X和Y的取值中至少有一个是相同的对子,我们将X相同而Y不同的对子(AE,AF)个数记做Nx,将Y相同而X不同的对子(AG,AH)个数记做Ny,将在X和Y上都相同的对子(AI)个数记做Nxy;,这n个个案中,任意一个个案都有X和Y两个取值,所以我们比较两个个案的时候,就要同时比较X和Y。,总对子数Tn(n-1)/2=Ns+Nd+Nx+NyNxy,3,【练习1】,Ns=Nd=Nx=Ny=Nxy=T=21,4,2、根据列联表的频数计算对子,同序对Ns:“右下余子式”法n1的同序对数量为为n1(n5n6n8n9);n2的同序对有n2(n6n9)个;n4的同序对有n4(n8n9)个;N5的同序对有n5*n9个;Nsn1(n5n6n8n9)n2(n6n9)n4(n8n9)n5*n9个,5,异序对Nd:“左下余子式法”计算异序对应该从最右上方的格子开始分析。n3的同序对为n3(n4n5n7n8)个;n2的同序对为n2(n4n7)个;n6的同序对为n6(n7n8)个;n5的同序对为n5*n7个;Ndn3(n4n5n7n8)n2(n4n7)n6(n7n8)n5*n7,6,X的同分对Nx:位于同一列不同行的配对都是X的同分对,所以Nxn1(n4n7)n4*n7n2(n5n8)n5*n8+n3(n6n9)n6*n9Y的同分对NY:位于同一行但是不同列的配对都是Y的同分对,同理NYn1(n2n3)n2*n3n4(n5n6)n5*n6n7(n8n9)n8*n9X与Y的同分对NXY:XY取值完全相同的个案两两配对的数量即是NXY,,7,【练习2】40名员工的工作满足感和归属感的关系如下表,请分布计算Ns,Nd,Nx,Ny,Nxy,8,首先,需要将变量X和Y按照同等顺序进行排列,然后才能进行计算。调整后的表格为:,Ns=223Nd=125Tx=183Ty=165Txy=84T780,9,二、相关系数,1.Gamma系数适用于测量两个对称的定序变量之间的相关关系,常用G来表示,计算公式为:-1G1Gamma系数并不考虑各种同分对,仅仅利用同序对和异序对进行分析,如果在所有对子中以同序对为主,G为正数,表示正相关;如果以异序对为主,G为负数,表示负相关;如果两者相当或者同分对较多,则相关程度较弱。,10,【练习1】,Ns=8Nd=2Nx=4Ny=6Nxy=1T=21,11,【练习2】,Ns=223Nd=125Tx=183Ty=165Txy=84T780,12,Gamma系数具有消减误差比例(PRE)的意义,(1)E1的含义:设想我们不知道X和Y存在等级相关,我们把所有的对子都瞎猜一遍,就是猜测哪个对子比较高,哪个比较低。对于那些同分对,我们不考虑,因为谈不上谁高谁低。每猜一对,猜错的概率是1/2,一共猜n(n-1)/2-Tx-Ty-Txy次,则犯错误的次数是(Ns+Nd)/2=E1(2)E2的含义:当知道X和Y存在等级相关时,我们根据X的等级顺序来猜Y的等级顺序,猜都是同序对,也就是说,只要X高我们就猜Y高,X低我们就猜测Y低,则错误的对数就是E2Nd,13,2、肯德尔等级相关系数Kendalls系数肯德尔系数因为考虑了同分对,所以是对Gamma系数的一种修正,分为三种情况来讨论:(1)系数没有同分对时,其实就是Gamma系数有同分对时,其绝对值比Gamma系数要小。,14,【练习2】,Ns=223Nd=125Tx=183Ty=165Txy=84T780,G0.28,15,(2)系数,16,【练习2】,Ns=223Nd=125Tx=183Ty=165Txy=84T780,G0.28,17,(3)系数,其计算公式为:,18,【练习2】,Ns=223Nd=125Tx=183Ty=165Txy=84T780,G0.28,19,前两个系数都具有PRE含义。特别适合不存在任何同分对的情况;的特殊性在于它仅适用于r=c的列联表,否则其取值的范围难以确定。但是社会学研究中比较常见的情况是同分对很多,并且大多数列联表的行数与列数不相等,这种情况下就要采用系数,美中不足的是这个系数没有PRE含义。,三个Kendalls系数的比较,20,3、Somersd系数,萨默斯(Somers)提出了另外一个Gamma系数的修正系数,既考虑同分对,又具有消减误差比例意义的定序相关测量法,即d系数。d系数是一种不对称相关关系的等级测量办法。若Y是因变量,以X来预测Y时,用dYX来表示;若用Y来预测X,则用dXY来表示。其计算公式为:,21,【练习2】,Ns=223Nd=125Tx=183Ty=165Txy=84T780,G0.28,若以变量X工作满足感来预测变量Y归属感,其等级相关系数为:若以变量Y归属感来预测工作满足感变量X,dXY=0.185,22,小结:,目前为止,我们介绍了Gamma系数、三个Kendalls系数和Somersd系数,这个五个系数相比,分子都是相同的,只是分母有所变化。d系数的分母分别加上了NX和NY,所以d系数的绝对值总是小于Gamma系数的绝对值。G系数,和d系数都具有消减误差比例的意义,只有不具PRE含义。G系数和Kendalls系数都可用来测量对称关系的两个定序变量,只有d系数是一种不对称测量。,23,4、斯皮尔曼等级相关系数(Spearmansrho),又称秩相关系数第一位推导等级之间相关系数的人是英国的斯皮尔曼,他发明了一个等级相关的公式,用来计算两个定序变量之间的相关程度。斯皮尔曼系数通常以rs来表示。其计算公式是:rs【-1,1】di表示每个样本单位在两个变量上的等级之差。,24,【例】比赛名次和观众评选最受欢迎的球队,问:比赛名次和受观众欢迎的排名之间相关程度如何?,25,Notice:,(1)di表示每个样本单位在两个变量上的等级之差,而非变量值本身之差;(2)适用于对称关系的两个变量;(3)rs的平方有PRE意义,测量不同等级级别之间差距的程度。,26,如我们想了解学生活动能力与智商之间是否相关,对10名同学进行抽样调查。,27,28,第四节:定类变量与定距变量(定序定距)NominalorOrdinalbyInterval,当两个变量一个为定类或定序变量,另一个为定距或定比变量时,我们用相关比率(correlationratio)E2或eta系数(E)来测量二者之间的相关程度。相关比率E2数值范围由0到1,也具有消减误差比例的意义。其计算公式为:,Y是依因变量的数值;是因变量的均值;是在自变量X的每个取值Xi上的因变量的均值。,29,【例子】调查得到如下数据,求职业与收入水平之间的相关程度。,从E值可见,职业与收入水平之间有中等程度的相关;而用E2值则可说明,用职业预测收入水平,可以消减20的误差。,30,(2)用第二种方法,会更加简化计算过程,提高精确度。也需要计算,方法同上,还需要分别计算。,31,第五节:定距变量与定距变量(IntervalbyInterval),前面几类相关的测量大多利用变量值的频数来进行计算,这是由定类、定序变量的数学特征决定的。对于定距变量来说,由于它们是数值型的,因而我们可以利用变量的取值本身计算更精确一些的相关系数来反映它们之间的相关程度,这种系数就是皮尔逊相关系数r,或称皮尔逊积差相关系数,其计算公式为:-1r1,32,【例1】对10人工人进行调查得到以下数据,试求工人的年龄和收入之间的相关程度,【,为了便于计算,先求出然后再编制表格:,33,r系数显示,在年龄和收入之间,具有很强的正相关关系,即年龄越大,工资收入越多。,34,对于频数分布表,r的计算公式为:f为各组所对应的频数。,35,【例2】100名青年受教育年限与理想子女数表,结论:计算结果显示,所调查的100名青年中,受教育年限与理想的子女数目之间存在着较强的负相关,即受教育年限越长,其理想的子女数目越少。,36,Notice:,(1)r是一种对称关系的测量,如果将XY的位置互换,r的取值不变;(2)r的取值在【1,1】之间,绝对值越大,相关程度越高;绝对值越小,相关程度越低。社会科学中的现象一般都是弱相关,r的取值通常在0.30.7之间就算是明显的相关了;(3)r的取值具有方向性,取值为正表明是正相关,取值为负表明是负相关;(4)r本身不具有消减误差比例的意义,但是其平方r2具有消减误差比例的意义。r2又称为决定系数或判定系数,它具有直观的解释意义。,37,决定系数r2的PRE意义:,比如【例1】中研究工人的年龄和收入之间的关系,r0.86,r20.74,说明用工人的年龄来预测收入时能够消减74的误差;【例2】中研究100名青年受教育年限与理想子女数之间的关系时,r0.79,r20.62,说明用受教育年限来预测和估计其理想子女数时可以消减62的误差。,38,各种层次变量之间的相关测量方法总结表,39,第六节:回归分析(RegressionAnalysis),回归概念的提出(了解):回归的概念是由英国的生物学家高尔顿首先提出的,他在1887年研究人体身高的遗传问题时发现,身高的遗传与遗传学通常的观点并不一致。按遗传学的观点,子辈身高Y与父辈身高X之间有相关关系,通常父辈较高者,其子辈也高,依此推论,一代代的遗传下来,人们的身高必然两极分化。但事实上,在每个族群中个体的身高一般都在某个平均身高附近波动,也就是说子辈身高趋向父辈平均身高,高尔顿把这种趋向中心的现象称为回归。,40,回归分析是一种因果分析,对象是定距及以上层次的变量。如果自变量只有一个,称为一元回归;如果自变量有两个或两个以上称为多元回归;回归分析的中心是建立回归方程;根据回归方程的特征,由可以分为线性回归和非线性回归。一元线性回归分析是所有回归分析的基础,也是我们介绍的重点和难点,其统计学基础是最小二乘法。,41,回归分析的步骤:,(1)首先根据理论分析或根据研究的需要确定自变量X和因变量Y;(2)先根据相关数据作散点图来观察X和Y的关系,如果两变量的确呈现出一定的线性相关趋势,便可以进行回归分析;张彦教材P224225(3)回归直线方程为:YabX,其中常数a表示直线在Y轴上的截距,b表示直线的斜率,被称为回归系数。,42,Y=a+bX,43,【例】下面是10个女性教育年限和家务劳动时间的关系,求回归直线方程。,44,回归方程的作用:,回归方程有很好的预测功能,比如我们知道受教育年限跟家务劳动的时间的回归方程为Y7.070.48X,如果X10,则家务劳动的时间为:Y7.070.48102.27;如果X8,则家务劳动的时间为:Y7.070.4883.23.,45,课堂练习,46,47,Notice:,(1)回归分析是因果分析,所以是一种不对称测量。比如用受教育年限来预测家务劳动的时间,前者是自变量,后者是因变量;(2)我们把b叫做回归系数,它实际上是直线的斜率。表示X每变化一个单位,Y变化多少个单位;例题中,表示教育程度每增加一年,家务劳动的时间会减少0.48个小时;如果b0,则表示X对Y没有影响,不管教育年限有多长,家务劳动的时间都是7个小时;b的正负表示了X和Y的相关的方向。(3)b不是相关系数。我们说相关系数的变动在1和1之间,b并不如此。b表示了变化的程度,如果单位发生变化,b的取值会相应的改变,如果我们把家务劳动用分钟来表示,b就会变得很大。如果用月数来表示教育时间,b就会变得很小。(4)相关的程度用皮尔逊r或者r2系数表示。变化的程度和我们所说的相关的程度不同,也就是说,即使X和Y的关系非常松散,我们仍然可以作出回归方程,这和X和Y的相关程度并没有关系。,48,相关系数和回归系数的性质:一个对比性的讨论,(1)对称的关系,一般不论对称非对称皆会应用相关系数;这表示应用相关系数是并不要求X和Y具有因果关系;但是回归预测却是要求有明确的因果关系;(2)相关系数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广西北海市产业投资有限责任公司招聘4人备考题库含答案详解【综合题】
- 2026平安财险甘孜县支公司农险客户经理招聘备考题库(四川)【综合题】附答案详解
- 2026浙江杭州电子科技大学招聘(劳务派遣)14人备考题库(a卷)附答案详解
- 2026安徽六安市舒城县中医院招聘10人笔试备考题库及答案解析
- 2026江苏事业单位统考连云港市灌南县招聘9人笔试参考题库及答案解析
- 2026广西北海市产业投资有限责任公司招聘4人备考题库及完整答案详解【考点梳理】
- 2026云南临沧市耿马孟康中医医院招聘6人备考题库(夺冠系列)附答案详解
- 2026浙江国检检测技术股份有限公司第一轮招聘员工5人备考题库附参考答案详解【满分必刷】
- 2026浙江杭州市西湖区云浦幼儿园招聘幼儿教师备考题库(非事业)及完整答案详解【考点梳理】
- 2026四川乐山市沐川县招募见习人员1人备考题库及完整答案详解【典优】
- 入职心理测试题目及答案300道
- JTG F90-2015 公路工程施工安全技术规范
- 实验室计量器器具校准操作规程
- 2024年湖南出版投资控股集团招聘笔试参考题库含答案解析
- DL∕T 547-2020 电力系统光纤通信运行管理规程
- 电气控制与PLC教案电气控制与PLC教案
- 建筑材料说课公开课一等奖市赛课获奖课件
- 湖南2023年长沙银行理财经理社会招聘(37)考试参考题库含答案详解
- 混凝土搅拌车维护保养
- 薄膜的物理气相沉积
- 铣刨加罩道路工程施工组织设计方案
评论
0/150
提交评论