社会统计学 社会学 测量尺度 复习资料 大纲 总结.doc_第1页
社会统计学 社会学 测量尺度 复习资料 大纲 总结.doc_第2页
社会统计学 社会学 测量尺度 复习资料 大纲 总结.doc_第3页
社会统计学 社会学 测量尺度 复习资料 大纲 总结.doc_第4页
社会统计学 社会学 测量尺度 复习资料 大纲 总结.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 四种测量尺度:(1)定类尺度:按现象性质差异进行的辨别与区分。测量结果形成定类变量或指标。定类变量或指标确切的值是以文字表述的,可用数值标识,但仅起标签作用。各类别间是平等的,没有高低、大小、优劣之分。分类的原则:穷尽性或无遗性;互不重叠或互斥性属性:对称性;传递性(2) 定序尺度:按现象顺序差异进行的辨别与区分。测量结果形成定序变量或指标。定类变量或指标确切的值是以文字表述的,可用数值标识,但仅起标签作用。定序变量或指标各类别间有高低优劣之分,不能随意排列。(3) 定距尺度:按现象绝对数量差异进行的辨别与区分。测量结果形成定距变量或指标。定居变量或指标的值以数字表述,有计量单位可进行加减运算,不能进行乘除运算。各类别间有大小之分,但没有绝对零点。(4) 定比尺度:按现象绝对差异与相对差异进行的辨别与区分。测量结果形成定比变量或指标。定比变量或指标确切的值以数字表述,有计量单位,可加减。有绝对意义上的零点,可乘除。2、 测量尺度的作用:(1)决定数据的整理、显示方法。(2)决定数据的分析方法。(3)决定计算机的处理方法。3、 对测量尺度的判断:测量精度、计算方法、信息数量4、 条形图和直方图的区别:条形图:是以长方形的长度(宽度相同)来表示次数或百分率的多少,为求清楚长方形之间可以分开(当然也可以不分),宽度没有意义。直方图:又称矩形图,以一个矩形的面积(长宽)表示每组数值的次数或百分率的多少。与条形图的不同。条形图的宽度没有意义,直方图的长度与宽度均有意义;直方图各个矩形要相连排列,条形图可以分开。5、 累加次数:累加次数就是把次数逐级相加起来,分为两种;一种是向上累加(cf),一种是向下累加(cf),其作用是使我们容易知道某值以下(或以上)之次数总和。向上累积表示由低层向高层累加。向下累积表示由高层向低层累加。6、 众值:众值(Mo)就是次数最多之值。对于定类变项,以众值作预测所犯的错误是最小的。众值适合于分析定类变项,也可以用来分析定序、定距变项的资料。7、 中位值:中位值(Md)就是在一个序列的中央位置之值,即高于此值的有50%的研究个案,低于此值的也有50%。即:按大小次序排列的N个数值的中间值。注意:(1)如果N是奇数,中位数个案就是第(N+1)/2个个案。 (2)如果N是偶数,中位数就是第N/2个个案和N/2+1个个案之间的数值;如果两个中间的个案碰巧都是一样的数,那么中位数也就是那个数本身。 (3)可以利用累加次数寻找中位值 (4)根据分组资料计算中位值 公式:Md=L+( )W L:中位值组的真实下限 f:中位值组的频数 CF:低于中位值组真实下限的累积次数 W:中位值组的组距 N:全部个案数目8、 均值:分数之和除以个案的总数目。习惯上用X来代表均值。 均值具有以下代数性质:(1)每一个记分数对均值的偏差的总和为0,即:(xi-x)=0 (2)各数值对均值的偏差平方和小于任何其他数的偏差平方和,换句话说,就是:(xi-x)2=极小值 根据原始资料求均值: 根据频数分布求均值: 根据分株数据求均值: 为组中心值 二种情况一般不用均值:(1)开放间距 (2)存在极端个案9、 众值、中位值和均值比较三值设计的目的是共同的,都是希望通过一个数值来描述整体特征,以便简化资料。它们都是反映了变量的集中趋势。一般说来:众值:适用于定类、定序和定距变量。中位值:适用于定序和定距变量。均值:适用于定距变量。众值仅使用了资料中最大频次这一信息,因此,资料使用是不完全的。中位值:由于考虑了变量的顺序和居中位置,它和总体的频次分布有关。均值:由于它既考虑到频次,又考虑变量值的大小,因此它是最灵敏的。虽然均值对资料的信息利用最充分,但对严重偏态的分布,会失去它应有的代表性。(1)均值受极端值的变化影响;中位值则不受影响,除非中位值本身变化。(2)均值随样本变化较少,与中位数相比,一般是比较稳定的量度;往往不同的样本之间,中位数比均值有更大的差异。(3)均值比较容易进行算术运算。 (4)计算均值以定距尺度为前提,中位数既可用于定序的,也可以用于定距的尺度。对于对称的图形,众值、中位值和均值三者位置重叠,当图形正偏或负偏时,均值变化最快,中位值次之,众值不变。10、 集中趋势测量法:找出一个数值来代表变项的资料分布,以反映资料的集中情况。集中趋势测量法有一个特殊意义,就是可以根据这个代表值来估计或预测每个研究对象(即个案)的数值。这样的估计或预测,由于所根据的数值最有代表性,故所发生错误的总和是最小的。11、 离散趋势测量法:指求出一个值来表示一个变项上的个案与个案之间的差异情况。12、 四分位差:检验中位数代表性高低;是定序及以上变量度量分散程度的一种方法。注意:中位值两旁的Q1和Q3之间,共有50%的个案,其分布愈远离中位值,中位值代表性就愈小,以之作估计的标准所犯错误就愈大。 计算方法:将个案由低至高排列,然后分为四个等分(即每个等分包括25%的个案),则第一个四分位置的值(Q1)与第三个四分位置的(Q3)的差异,就是四分位差(简写Q),公式是Q=Q3-Q1。(一) 未分组数据:首先求出Q1与Q3的位置,公式是:Q1位置=(N+1)/4Q3位置=3/4(N+1)(其中N是全部个案数目),然后求出相应的Q1和 Q3的值;最后 Q=Q3-Q1。(2) 根据分组资料求四分位差:第一步:计算累加次数(Cf);第二步:求出Q1和Q3位置,Q1位置=1/4N Q3位置=3/4N;第三步:参考累加次数分布,决定Q1和Q3的位置应属于哪一组;第四步:从所属的组中,计算Q1位置和Q3位置的数值。Q1=L1+( )W1 Q3=L3+()W3L1=Q1属组之真实下限L3=Q3属组之真实下限f1=Q1属组之次数 f3=Q3属组之次数Cf1=低于Q1属组下限之累加次数Cf3=低于Q3属组下限之累加次数W1=Q1属组之组 W3=Q3属组之组距N=全部个案数目例题:生产队的育龄妇女节育情况如下表,求四分位差。13、 定距变量离散程度测量:极差(全距:R):最高与最低的记分数之差。优点:计算简单,一目了然,特别是对外行来说,极差是唯一可理解的离差量度。缺点:仅仅以两个个案为依据,而且是两个极端个案;随着样本变化而变化很大,一般来说大样本的极差比小样本更大一些。因此,极差难以真正反映资料全体的分散程度。平均差:各记分数偏离均值的绝对差的算术平均数。 A.D= 严重缺点:(1)用绝对值不容易进行代数运算;(2)平均偏差既不容易做理论 上的阐释,又会导致较复杂的数学结论。标准差:对均值的偏差平方的算术平均值的平方根。S= 或者S= 计算方法:取每个记分数对于均值的偏差,取每个差的平方,再相加取和,除以个案数目,然后取平方根。 明显的性质:(1)数据在均值周围的散布范围越大,标准差越大。 (2)对于均值的极端偏差在决定标准差的数值方面具有最大的加权作用。如果分布中有很少极端个案而且数值可能非常大,标准差就会导致错误的结论。这种情况下可用中位数作为集中趋势的量度,用四分位差作为离差的量度。对于分组资料,用组中值来代表变量值,标准差计算公式与上述相同。方差:标准差的平方。14、标准分:它是以均值为基点,以标准差为度量单位,因此,各总体之间可以通过标准分进行合理的比较和相加。 为标准差标准分的意义:它是以均值为基点,以标准差为度量单位,因此,各总体之间可以通过标准分进行合理的比较和相加。 15、 相关:是指一个变项的值与另一个变项的值具有连带性。即:如果一个变项的值发生变化,另一个变项的值也有变化,则两个变项就是相关了。相关测量种类:1、从变量或现象多少看,单项关和负相关 2、从变量变化的形式看,直线相关和曲线相关3、从测量层次上看,定类定类 定序定序 定距定距 定类定序 定类定距 定序定距16、 交互分类:同时依据两个变项的值,将所研究的个案分类。17、 条件次数:表示在自变项的每个值(条件)的情况下依变项的各个值的个案数目(次数)。18、 边缘次数:表中表示总和的次数19、 条件次数表有大小之分。计算方法:依变项值数目乘上自变项值数目。20、 如果将依变项放于表的旁边,自变项放于表的上端,则表的大小就是横行数目(r)乘上纵列数目(c),即表的大小为C。21、 条件次数表的缺点:难于比较不同条件下的次数分布,因为作为基数的边缘次数各有不同。22、 条件百分表结论表制定原则:每个表的顶端要有表号和标题。绘表所用的线条要尽可能简洁。在表的上层(即自变项的每个值之下)写上%符号,表示下列的数值都是百分率。在下端的括孤内的数值,表示在计算百分率时所根据的个案总数。表内百分率数值的小数位保留多少视研究需要,但要有一致性。23、 条件百分表里有自变项和依变相两类数据,常用的规则是:根据自变项的方向(即纵向百分比或列百分比)。但是,如果依变项在样本内的分布不能代表其在总体内的分布,则百分率的计算要根据依变项的方向,不在等比情况下抽样。24、 消减误差比例(PRE):表示用一种现象(x)来解释另一种现象(y)时,减少百分之几的误差。PRE= E1:表示在不知道X的情况下,预测Y值所产生的全部误差;E2:表示在知道X的情况下,可以根据X的每个值来预测Y值时产生的误差;E1-E2:表示在知道X的情况下用X预测Y,和在不知道X的情况下预测Y时相比所减少的误差。25、 如果E2=0,即标示以X预测Y不会产生任何误差,则PRE=1,反映X与Y是全相关;如果E2=E1,即意味着以X预测Y所产生的误差等于不以X预测Y所产生的误差,则PRE=0,反映X与Y是无相关。如:PRE=0.80,表示用X预测Y可减少80%的误差,反映两者相关程度很高。又如:PRE=0.08,就表示只能消减8%的误差,即X对Y的影响很小。(例题)26、 对于rc表,有两类讨论方法。一类是以 值为基础来讨论变量的相关性。一类是以减少误差比例(PRE)为准则来讨论变量间的相关性。27、 Lambda相关测量法基本逻辑是计算以一个定类变项的值来预测另一个定类变项的值时,如果以众值为预测的准则,可以减少多少误差。消减的误差在全部误差中所占的比例愈大,就表示这两个变项的相关愈强。=PRE My=Y变项的众值次数;my=X变项的每个值之下y变项的众值次数;N=全部个案数目。若以Y为自变量,X为依变量,则 其中:Mx为x变项的众值次数;mx为y变项的每个值之x变项的众值次数;N为全部个案数目如果是对称的情况,即:x与y可相互预测,不分自变项与依变项,则:Lambda 相关测量的性质:(1) 系数的取值范围0xj,则yiyj,则称A和B为同序对。同序对只要求X变化方向与Y变化方向相同,但并不要求A与B中X的变化量(xi-xj)与Y的变化量(yi-yi)相等。 异序对(Nd):设单元A的变量X和Y具有等级(xi,yi),单元B的变量X和Y具有等级(xj,yj),如果xixj,yiyj,称A和B是异序对。异序对只要求X变化与Y变化的方向相反,但并不要求A与B中变化量|xi-yj|与Y的变化量|yi-yj|相等。同分对TX:如果单元A与单元B中,变量X具有相同的等级,则称X同分对。同分对Ty:如果单元A与单元B中,变量Y具有相同的等级,则称Y同分对。同分对Txy:如果单元A与单元B中,变量X与变量Y等级都相同,则称X、Y同分对。G系数: Ns为同序对的数目。Nd为异序对的数目。 G系数不考虑同分对。如果在单元对中是以同序对为主,则变量x和变量Y正相关,反之为负相关。同序对和异序对数量之差,则反映了等级相关的程度。G系数的特征:1、G系数的取值范围:-1G1。 G=1,则Nd=0,即均为同序对。 G=0,则Ns=Nd,即同序对和异序对相等。 G=-1,则Ns=0,即均为异序对。 2、分母表示预测时可能犯的最大错误。分子表示的是可以减少的误差。 因此G具有PRE性质。 3、G属于对称相关测量法。 4、G系数不考虑同分对。 5、当定序变量只有两种等级时,则G系数有: 可见,当G系数不计及符号(或方向)时,与2*2列联表中的Q系数相同,所以Q系数可看作G系数的特例。 dyx相关测量法萨默斯(Somers)dyx系数:Gamma系数是属于对称相关测量法。如果我们认为某定序变项是自变项(X),另一个变项是依变项(Y),最好是采用适宜于简化不对称关系的dyx系数。dyx= (x是自变量、y为依变量) dxy=(y为自变量、x为依变量)Ns是同序对数,Nd是异序对数,Ty是只在依变项y上同分的对数。 dyx 是非对称的测量:XY;-1=dyx=1;具有PRE意义。29、 回归(两个定距变量分析)回归研究的是定距变量与定距变量之间的非确定关系。回归分析法的目的,是要找出一个通过定距变量来预测另一个定距变量犯错误最小的方法。相关关系可以归结为两点:变量间存在着关系;这种关系是非确定的,或者说只存在着统计规律性。相关系数的描述:设有两个变量X和Y,当X变化时会引起Y相应的变化,但它们之间的变化关系是不确定的。如果当X取得任何一可能值Xi时,Y相应地服从一定的概率分布,则称随机变量Y和变量X之间存在着相关。回归方程:由于确定的X=Xi,Y的均值也是确定的,因此X和均值Y之间就形成了确定的函数关系Y=f(x)。Y=f(x)称作Y对X的回归方程,可见,回归方程是研究自变量X不同取值的,因变量Y平均值的变化。当因变量Y的平均值与自变量X呈现线性规律时,称作线性回归方程。只有一个自变量时,称一元线性回归方程,记作:Y=bx+a。其中b称作回归系数、a称作回归常数。回归常数a表示回归直线的截距,即回归线与Y轴的交割点;回归系数b表示回归直线的斜率。每一个真实Yi与回归线的关系是:yi=bxi+a+ei 其中yi是随机变量,ei是随机误差,由于ei的值是非固定的,从而使X和Y呈现非确定的关系。如果所研究的变项都是属于定距测量层次,可以用简单直线回归分析法来以自变项的数值预测或估计依变项的值。30、 积矩相关测量法(皮尔逊Pearson的积矩相关系数r)协方差: 表示X和Y两变量观测值相对其各自均值所选成的共同平均偏差。相关系数(即标准化的协方差)简化公式:积矩相关系数r具有以下性质:1、r系数假定x与y的关系是对称关系,即是对称测量,ryx=rxy。 2、适用定距测量层次。 3、取值范围-1,+1注意:r=0.2,社会学中一般认为不呈直线相关(经济学中为0.3);0.2r=0.5,低度相关;0.5r0.8,高度相关。 4、相关系数受变量取值范围的影响很大。 5、相关系数不因坐标原点的改变或单位的变化而变化。 6、相关系数R的平方具有PRE的意义。R2称为决定系数(或制定系数)31、 相关与回归的比较相关和回归研究的都是变量间的非确定性关系,而且研究的都是其中的线性关系。但是两者研究的角度是不同的。1.从研究关系性质看:回归是研究变量间的因果关系的,要建立模型Y=a+bX;相关关系则不一定具有因果关系,它们往往是伴随、共存的关系,当然也不排斥一方为主的情况。2. 从对称来看:相关关系是双向对称的,即X对Y的相关和Y对X的相关是一样的,即ryx=rxy。回归是不对称的:byx不等于bxy。3.从两者的数量关系来看:回归直线中Y的变化,反映的是真实Y值平均值的变化(即B是集中趋势),而真实数据与回归直线分散的情况在Y=a+bX中是不反映的,相关系数R则正是表现了真实数据与回归直线靠拢程度,因此,R是离散趋势。通过回归方程,X可以预测Y,但无法回答预测的能力(或效果);R反映了预测效果的好坏;0=R2=1越大,效果越好。R与b的区别:R对称测量, b非对称测量;R不受单位影响, b受单位影响;b反映回归强度,R反映预测效果,且R受取值范

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论