




已阅读5页,还剩47页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章 单变量描述性统计分析在上一章中,我们回顾了社会调查研究的历程,了解了统计分析在社会调查研究中的地位,学习了统计分析的内容以及如何选用相应的统计分析方法。有没有同学,能够说一下,选择统计分析方法的标准有哪些?那么,今天这节课,我们就要开始学习社会统计学的核心内容了。通过之前的介绍,大家知道,借助社会调查,我们可以收集到大量的资料,但这些原始资料,往往是杂乱无章的。因此,在学会正确收集资料或数据的同时,我们还必须学习如何正确地处理这些数据。如果不对其进行加工处理,那么我们的调查研究活动将是毫无意义的,收集上来的不过是一堆堆的废纸。面对纷繁复杂、毫无章法可言的原始资料,我们应该从何着手呢?一般来说,人们做事习惯于先易后难。这里,我们同样遵循这个规律。大家还记不记得,统计分析包括哪两类?描述统计法和推论统计法。简单来说,描述性统计是就样本说样本,就总体说总体。而推论统计则是要由样本的情况来推论总体。这二者相比,显然,前者更为简单。而且它是推论统计的前提。所以,在获取资料之后,我们首先要进行描述性统计。比如,我们抽取了一个由100人组成的样本,现在要了解他们的年龄状况。由于这里只涉及年龄这一个变量。因此,我们将选用的是单变量描述统计法。而假如,我们想要了解样本中职业与收入的关系。请同学们告诉我,这里涉及几个变量?两个,对不对?一个是职业,一个是收入。而且,这里我们要了解的是样本中职业和收入两个变量之间的关系,因此,我们要选用双变量描述统计法。同样遵循先易后难的原则。我们首先会选择适当的描述统计方法来简化每一个变量的资料,既使用单变量描述统计。这也是我们第三章中将要给大家介绍的。之后,我们会再进一步分析变量与变量之间的关系,即采用双变量描述统计法。至于哪一种统计分析方法更加合适呢?刚才大家回顾了我们第一章中学习的选择统计方法的标准。其中最重要的标准是什么啊?变量的测量层次:定类、定序、定距。很好。在第三章中我们将按照变量的测量层次为大家介绍单变量描述统计法。在介绍之前,我们要重申一个原则,即适用于较低测量层次的统计法,也可以适用于较高的层次。为什么会这样呢?大家还记不记得?这是由于后者具有前者的数学特质。反之,要求较高测量层次的统计法,不能用于较低的层次,因为后者的数学特质未能符合该统计法的要求。明确了这一点之后,我们就来学习本章的第一节最基本的单变量描述统计技术。在大多数的调查问卷中,都会设置有关性别的问题。上节课,我们介绍过,性别是一个典型的定类变量。假设,我们对本班同学进行一次调查,那么现在,我希望大家能够对性别这个变量的相关情况进行一下说明。有没有同学能够回答我?很好,刚才这位同学说明了咱们班学生的性别构成状况。实际也就是统计了一下本班男女生的人数?这其实就是一种单变量的描述统计方法次数分布的方法。它是用于简化一个定类变量资料的最基本方法。简单来说,就是计算变量的各个取值出现的次数或频次。因此,它又被称为频次分布。以分析性别变量为例,实际就是要计算男生和女生各有多少名。要对频次分布情况进行描述,我们可以采用四种方法。第一种方法是文字法。如某班60名学生中,32人是女生、28人是男生;第二种方法是集合法。第三种是统计表法。第四种则是统计图法。第一种方法十分简单,我们不再详述,下面,我们一起看一下第二种方法。同样以刚才的性别状况为例。我们将性别看作一个变量X,它的可能取值包括:X1-男,X2-女。现在我们采用高中所学的集合方式对其分布情况进行描述。(X1,32)(X2,28)。通过这个例子,大家可以发现,括号中的第一项是变量X的一种可能取值,第二项则是这一取值对应的次数。以这种集合方式将某个变量的所有取值及其对应的次数表示出来,我们就可以了解其次数分布情况。记住,一定要列出某个变量的所有取值及其对应的次数。职业次数比例频率%干部1100.20020.0工人1520.27627.6农民2880.52452.4总数5501.000100.0当然,我们也可以采用统计表的方式来描述变量的次数分布情况。如,我们知道某学校550名学生的父亲职业,其中110名学生的父亲是干部,152名学生的父亲是工人,另有288名学生的父亲是农民。这是采用的文字法说明了次数分布情况。如果,要求采用集合法呢?应该怎么写?将父亲职业看作变量X,它包括三个取值,X1-干部,X2-工人,X3-农民。接下去呢?(X1,110)(X2,152)(X3,288)。现在,我们根据这一系列数据做一个统计表。通过这个表格,我们可以更加清楚地了解该学校学生父亲的职业分布情况。至于统计图法,我们在后面的内容中一起为大家介绍。频次分布可以对原资料进行初步的简化,但是,现在面临这样一个问题。我们知道了另一学校学生父亲的职业分布情况。通过这两个表格,我发现,前一所学校中学生父亲为干部的多于后一所学校,父亲职业为工人的也较后一所学校更多。大家仔细思考一下,我这个说法有没有问题?或者说,这样的比职业次数比例频率%干部500.10410.4工人1350.28128.1农民2950.61561.5总数4801.000100.0较有没有意义?前一所学校的学生总数多于后一所学校。因此,尽管我们知道了两所学校的频次分布情况,但却不能盲目地进行比较,因为两个学校的样本容量不同,即调查对象的总数不同。这个时候,我们应该怎么办啊?如果要对其进行比较,我们可以计算比例或频率(即每个取值对应的次数在调查总体中所占的比例或频率),这里,我们较常使用的是频率。借助它们,我们可以将比较的基数统一起来。如果只是单纯地看次数,前一个学校的工人家庭学生比乙校的多。但这种比较是错误的,因为两个学校的样本总数不同。因此,我们要采用比例或频率的方法将两个样本的总数转化为同一个基数。比例是将基数转化为1,计算公式为f/N,其中N是样本总数,f是变量某个取值所对应的次数。这里,我们先将上述两个表格的次数转化为比例。而频率则将基数变大了,使读者容易领会,一般习惯用百分率,即将基数转化为100。百分率计算公式=f/N*100。这是第二类基本的单变量描述统计法频率分布。对于频率分布,我们同样可以采用文字法、集合法、统计表法以及统计图法来表示。只要将之前的频次换为频率即可。比如,我们在这个统计表的后面再加一列频率。计算百分率的时候,我们需要对小数位数做出取舍?那么取舍的标准是什么呢?这决定于研究工作所要求的精确程度和样本大小。一般来说,要求精确程度越高或样本越大,可以保留的小数越多。社会学研究通常是保留小数点以后的一位或两位数字。还有一点需要大家注意的是,以往在数学课上,我们学习过“四舍五入”的取舍方法,但在进行统计分析时,“四舍”是没有问题的,但不能无原则地“五入”。因为它可能会产生一定的误差。现在,有这样一组数值:6.25、4.45、3.75、7.15,请大家计算一下,它们的总和是多少?21.60。现在按照四舍五入,原数就会变成多少?6.3、4.5、3.8、7.2,总和是?21.8。很明显,把原来的总和变大了。那么我们应该如何进行“五入”呢?近代统计学中为了解决这个问题,提出了“前单五入”的方法,即最后一位是“五”或五以上的数字,而且它前面的一位是单数就进位,若是双数就舍掉(0也算双数)。依此原则,刚才的四个数值就会变为,6.2、4.4、3.8、7.2,其总和是?21.6,与原来总和相同。如果百分率的数值也嫌太小,可以选用千分率、万分率等。如某地某时间的犯罪人数是318人,总人口为521,000人,那么百分率便是百分之零点零六一,数值太小,不容易看。若用千分率便是千分之零点六一,也不容易看。若用十万分率则变成十万分之六十一,即每10万人中有61人犯罪,这就比较清楚了。犯罪研究的统计,通常是用十万为基数。人口学的研究则较常使用千分率。除了频次分布、频率分布外,我们也可以采用两数值的对比值来分析定类变量。如某地总人口中有28,600名男性和23,500名女性,则性别对比值=男性人数:女性人数=28600:23500=1217:1000,即每千名女性对应1217名男性。以上我们主要介绍了频次分布和频率分布,并且说明了如何使用文字法、集合法、统计表法来描述变量的频次、频率分布。它们实际都是在用数值简化资料,其计算结果相当准确,但是不够生动直观。因此,为了达到生动的效果,我们还可以选用统计图法来简化资料,表明变量的分布情况。对于定类变量来说,可以选用条形图和圆瓣图。条形图是用长条的长度来表示资料类别即变量取值的次数或百分数。而长条的宽度没有意义。一般在作图时,会使之等宽。作条形图,一般首先要确定纵轴和横轴。长条可以平行于横轴,即以横轴表示频次或频率,也可平行于纵轴,即以纵轴表示频次或频率。这一点,画图者可根据自己的偏好进行选择。对于定类变量来说,为了使图形清楚,我们可以使各个长条之间保持分散。大家要记住,一个长条即代表了变量的一个取值。条形图即可以根据次数,也可以根据频率作图,以我们班的性别状况为例,我们先根据频次作长条图。如果根据频率作的话,要改动哪里啊?与长条图不同,圆瓣图只可以根据频率作图,它又被称为扇形图。它是用圆形来代表现象的总体(某一变量),圆瓣代表现象中的一种情况(变量的各个取值),其大小代表变量取值在总体中所占的百分比。课本30页介绍了绘制圆瓣图的方式。首先计算各个变量取值所对应的百分率,之后将计算所得的百分数乘以360,以此获得各圆瓣所对应的圆心角度数。最后据此对圆形进行分割。具体的作图方法,大家对照课本看一下,我就不再讲了。以上我们介绍了定类变量的统计分析方法,那么遇到单独的定序变量,我们应该如何进行统计分析呢?首先,我要说明的是,以上我们介绍的各种方法同样适用于定序变量。在使用条形图的过程中,有一点是需要大家注意的:如果是定序变量,长条的排列次序应与变量取值的次序相一致,且图形可以画作紧挨着的长条或离散的长条。以年龄变量为例,某次调查中,老年人100人,中年人300人,青年人150人,此时应该如何作图?由于这是定序变量,所以,在作条形图时,我们必须按照顺序排列。在作统计表时也是如此。而圆瓣图由于无法体现变量取值的排列顺序,因此,它更多地被用于定类变量。除了适用于定类变量的统计分析方法外,定序变量也有自己独特的分析方法,即累加频次(cumulative frequenciescf)和累加百分率(cumulative percentagesc%)。这二者的基本原理一样,即将次数或百分率逐级相加。相加的具体方式分为两种:一种是向上累加,一种是向下累加。大家知道,依照定序变量的取值,可以对调查对象进行等级排列。因此,我们一般将变量取值等级高的规定为上的方向。借助累加次数,我们可以很容易地知道某值以下或以上的次数总和。而借助累加百分率,我们可以知道某值以上或以下的样本在样本总数中所占的比率。接下来,我们一起了解一下累加频次和累加百分比的具体算法。这个表格给出的是频次分布情况。其中列出了每种情况对应的次数,如果我们对它进行向上累加,那么每种情况对应的数值分别是什么呢?其实所谓累加,就是一项一项的叠加。向上累加次数,就是把由较低等级至较高等级的次数相加起来。对于喜爱程度这个变量来说,我们将非常爱看视作最高层次的取值,而很反感是最低层次的。所以在进行向上累加时,我们应该从很反感着手,一步一步向上累加。对于很反感,它本身就是最低层次的了,所以,它对应的向上累加次数就是它本身。而不爱看对应的向上累加次数,是它本身加上反感所对应的次数,为13,由此,我们可以看出不爱看及很反感的学生有13人。以此类推,一般对应的向上累加次数是23,爱看是32,非常爱看是39。向下累加的过程与向上累加相反,它是由较高等级至较低等级的次数相加起来。有没有同学能够说一下?喜爱程度fcfcf非常爱看7397爱看93216一般102326不爱看101336很反感3339总数39喜爱程度%c%c%非常爱看17.999.917.9爱看23.18241一般25.658.966.6不爱看25.633.392.2很反感7.77.799.9总数99.9那么,同样的道理,我想请同学们做一下累加百分比。我们先将百分比分布列出来。大家可以看到,我们在画统计表的时候,刻意保留了各个取值之间的顺序排列,这是不可以任意打乱的。做条形图时也是如此。关于累加频次和累加百分比,有一点需要大家注意的就是这个箭头。它表示累加的方式。向上的箭头表示向上累加,即累加时按照变量取值由低到高的顺序,向下的箭头表示向下累加,即按照变量取值由高到低的顺序。借助累加表,我们可以比较个体在总体中的位置。这应该如何理解?我们一起看一下课本36页的例子。甲、乙两同学分别在班里都考得80分,那么谁在班里的成绩更好呢?如何判断啊?可以借助名次是不是?但是,我们并不知道名次。假设,我们根据两班的成绩分别做了累计表,分别得知80分在两班所对应的向上累加频次。甲同学所在班中80分对应的向上累加频次是95。甲:cf=95,乙同学所在班中80分对应的向上累加频次是60,乙:cf=60。这两个数值分别代表什么啊?在甲班,有多少人的成绩低于80啊?95。那乙班呢?60。很好。但是仅仅知道向上累加次数是不够的,因为两个班的总人数很可能不同,所以我们还需要知道累加频率。为了便于计算,我们假设两班人数都为N=100人。那么,甲、乙在各自班里的向上累加百分比怎么算啊?c%= cfN*100%,得到的结果分别是多少啊?甲在班里的向上累加百分比是95%,乙则是60%。有没有同学能够解释一下这两个数值。甲在班里的考试成绩为80分,班里有95%的人,低于80分,乙在班里也考了80分,但他的班里只有60%的人成绩低于80分,这说明,甲在班里相对成绩要好于乙。细心的同学可能会注意到,例子中选取的变量是定距变量,它同样可以采用定类以及定序变量的各种统计分析方法。因为它的测量层次更高,具有定类、定序变量的数学特质。课本还介绍了如何制作累计图,大家感兴趣的话,可以自己了解一下,我们不再介绍了。虽然定距变量可以采用以上定类以及定序变量的各种统计分析方法,但是在使用之前,有一点是需要加以注意的。家庭子女数和家庭月收入均可以作为定距变量,但是这两个定距变量之间是存在区别的。大家知不知道区别在哪里?还记不记得在上一章的最后,我们提到过变量的类型划分不是唯一的。数学中经常将变量划分为离散型、连续型变量。这里,家庭子女数和家庭月收入,哪一个是离散型,哪一个是连续型啊?家庭子女数只能取正整数,因此是离散型定距变量。而家庭月收入则是连续型变量,因为,原则上来说,它的任意两个取值之间都是无穷的,而且任意两个调查对象的取值都不相等。在对这种类型的变量进行统计分析时,就需要有所顾虑了。对于离散型变量,我们可以采用与定序变量相同的方法进行分析,而对于连续型变量,我们应该如何处理呢?例如,我们要研究某校学生的家庭月收入情况,调查后,我们会获得一系列的取值,有2100元、2300元、3000元、3300元等等。如果每个值都要计算频次有多少、频率有多少,就会很麻烦、很琐碎。因为,每一名学生的家庭月收入都可能不同。那么,我们该如何解决呢?方法很简单,即将所有的变量值分为若干组,然后统计每个组内的频次或频率。以学生的家庭月收入为例,我们应该如何进行分组呢?是按2000元-2500元;2500元-3000元;分呢?还是2000-3000元;3000-4000元这样分呢?这就需要了解一下分组时的考虑因素了。一般说来,在分组时,有这样几个因素:一是组数,即将所有数值分为几组。组数太少容易掩盖变量变动时频次的变化。比如,只分一个组,那我们就什么分布情况都看不出来了。但组数太多,又会使每组内频次过少,增加偶然因素,难以看出明显的规律。课本27页表2-8为我们指明了调查总数N与分组数之间的关系。这是根据以往的研究经验总结得出的,大家在分组时可以作为参考。二是采取等距分组还是非等距分组。一般情况下,我们会选择等距分组的方法。如人口学中一般以5年作为一档,1-5岁,6-10岁,11-15岁,16-20岁,这样20档正好代表人的寿命为1岁-100岁。但在社会研究中,为了更好地反映事物的本质,可能会选取非等距分组。例如,收入为月薪500元和1000元的职工,他们的生活水平差距是显著的,但月薪为5000元和5500元之间,其差距就小得多。而且这样的人数相对较少。所以,在对收入进行分组时,我们可以将低收入分得细一些,高收入分得粗些。三是如何决定分组点的精度。之前我们提到,年龄的分组可采用1岁-5岁,6岁-10岁;等等。由此,我们可以看出统计年龄的精度以年为标准。如果我们统计的精度提高,例如说,统计到月,那么,5岁半的儿童应该分到上一组还是下一组呢?可见,随着精度的提高,分组点的精度也要提高。一般分组点比原统计资料的精度要高一位。如统计资料的精度为整数,则分组点就取小数点后面一位计算。以学生家庭月收入为例,原统计资料的收入以元计算,经过对资料的初步整理,我们发现,最低的收入为1000元。按照1000元一个分组,我们就有:1000-1999;2000-2999;3000-3999;4000-4999,5000以上。根据刚才提到的,分组点比原统计资料的精度高一位。我们可以将分组转化为999.5-1999.5,1999.5-2999.5,2999.5-3999.5,3999.5-4999.5,4999.5以上。说到这里,大家可能有些糊涂了。按照你这样讲,我们究竟应该如何分组呢?这里就涉及到标示组限和真实组限的问题了。所谓组限就是每组的范围,它包括上限和下限。如,刚才的分组,1000-1999;它的上限是1999,下限是1000。依据原统计资料的精度设置的组限,读者容易领会,我们将之称为标示组限。我们在制作统计表时,为了简便,经常直接采用标示组限。而真实组限的精度比原统计资料及标示组限要高一位。我们刚才提到的999.5-1999.5,1999.5-2999.5,2999.5-3999.5,3999.5-4999.5,就属于真实组限。真实组限介于前后两组标示组限之间,它是相邻两组标示组限的中点。关于这二者之间的关系,我们可以用下式表示:真实上限=标示上限+0.5真实下限=标示下限-0.5真实组限的精度比标示组限要高一位,组与组之间的分界是连续的,而标示组限则是离散的。标示组限只是分组资料的简化表示,而在实际运算时,都要使用真实组限。每个组的宽度,简称为组距。它的计算公式为:组距=真实上限-真实下限组中点就是真实上限和真实下限的算术平均数。根据各组的次数,我们同样可以计算百分率、累加次数和累加百分率。以上是关于分组的问题。此外,我们也同样可以用图示法来显示定距资料。这里,我们要介绍两种用于分析定距变量的图形,一种是矩形图,又称为直方图,一种是多角线图或折线图。直方图从图形上看,类似于条形图,它也是由紧挨着的长条组成。但是需要提醒大家的是,直方图中长条的宽度是有意义的。为什么呢?这是因为,在直方图中,是以长条的面积表示每组数值的频次或频率。而条形的长度,则表示的是频次密度(单位组距所含有的频次)或频率密度(Relative frequency density)。频次密度=频次/组距;频率密度=频率/组距。所以,长条的宽度表示的其实是组距。之所以使用条形长度来表示密度,是因为连续型定距变量可以采用非等距分组的方法。对于等距分组,用频次或密度作为条形高度,图形的相对比例关系是不变的,因此,我们仍然可以选用频次或频率作为条形的高度。做图的方法类似于条形图。但在非等距分组情况下,如果用频次作为条形高度,将会产生错误。课本32页为我们列举了一个例子,大家可以一起看一下。如果我们将直方图中条形顶端的中点用直线连接起来,我们就可以获得折线图。相比直方图,折线图使得资料的分布情况更加一目了然。对于离散型连续变量,获得折线图的方式较为简单,无需直方图的辅助,直接以坐标的横轴来表示变量值,纵轴表示频次或频率,之后根据每个变量值及其对应的频次或频率确定相应的点,最后将点一一连接起来即可获得。这个在课本的33页有例图,大家可以看一下。它是根据离散型定距变量做成的折线图。现在,我想请一位同学上来,根据课本34页的表2-14做一个折线图。对于连续型定距变量,则可以采用一开始介绍的方法,将直方图中各条形顶端的中点,连接起来。要注意的是,各组距(即长条的宽度)的大小,会影响线条的平滑程度。一般是组距越小,线条就越平滑。因为前、后两个长条的顶端中点会越接近。这里,需要大家充分发挥自己的想象力。假定我们能把组距变得无限小,线条就会十分平滑,折线就会变为曲线。连续型定距变量,由于任意两个取值之间是无穷的,原则上可以使组距无限小,因此可以用平滑曲线来表示次数分布。在社会学研究中经常采用平滑曲线来表示定距变量的分布情况,因此,我们有必要介绍几种社会学研究中常用的曲线类型:一是J形曲线。它的特点是下降时是先急后缓或上升时是先缓后急。婚姻次数和人数的关系即满足这类分布。结婚次数为1次的人很多。而结婚次数为2次的要少得多。至于3次及以上的,则更是少之又少。所以,它的下降是先急后缓。二是U形曲线,特点是先降后升或先升后降。人口死亡率与年龄之间的关系就满足这种分布。年龄小和年龄大的人,死亡率偏高,而中青年死亡率较低。第三种是峰状曲线。它的特点是曲线有峰点,根据峰顶数目的不同,可以分为单峰、双峰和多峰曲线。大家可以看一下单峰曲线,从这个曲线中,我们可以看到有一个变量值对应的频次最高,或某一个区间对应的频次密度最高,且向两边逐渐递减。而双峰、多峰则是出现了两个或三个峰点值。第四种曲线类型是根据图形的对称情况划分的。如果把曲线从中央分隔,两边的资料分布完全相同,且图形对称就是对称曲线,否则就是非对称曲线。非对称曲线又称为偏态曲线。如果偏态曲线左边尾巴拖得较长,则称左偏态或负向偏态。右边尾巴拖得较长的称右偏态或正向偏态。如果一个曲线图即满足单峰,又满足对称条件,呈钟型,则我们称其为正态分布图。关于它的内容,我们在后面会进一步介绍。到这里,关于单变量的基本统计技术,就已经介绍完了。最后,我们再给大家补充一个内容。即统计表的制作。大家可以对照课本24页的表2-5。在这类统计表中包含如下几项内容。1、表号:统计表X.X或X_Y。表号的作用是方便查找。尤其是在撰写大型调查报告的过程中,涉及的统计表不止一个,为它们编上号,我们查找起来,方便很多。2、表头:包括标题,时间,地点。标题一定要简明,能使读者容易领会表内数值的含义。时间、地点则起进一步明示的作用,它们是可以省略的。3、标识行。统计表中的第一行,称为是标识行。其中第一项是变量名称,如表2-5、2-6中的家庭结构。第二项则是变量对应数值的说明,如表2-5中的频次,2-6中的百分比。4、主体行。我们之前说过,变量对应的取值不惟一,例如性别对应了男、女两项取值,这里的家庭结构则对应了核心、直系、联合以及其他家庭四个取值。主体行因为要根据变量取值而定,因此至少要有两行以上。其中第一列按行填写变量的不同取值。定类变量的取值顺序可以任意排列,而定序以上层次的变量则要按照等级顺序排列。第二列则填写该取值对应的频次或频率等。通过之前的例子,大家可以知道,频次、频率等等可以列在同一个表格中。一般在统计表中,我们还必须增加一行,注明统计总数。5、表尾。如果我们引用的是间接资料,必须在表格的下方注明资料来源。大家可以看一下课本12页的表1-9,它的下方就有资料来源。需要说明的是,在制作表格的过程中表的结构要尽可能简洁,一些不必要的线条省去即可。在制作频率分布表的时候,如果每格都带有%的话,那么,就显得太繁琐了,所以,我们可以在标题的后面或频率这一格中注明%,其余的则省略。再者,在频率分布表中,必须列明统计总数。如课本的表2-6。 接下来,我们再给大家简单介绍一下制表过程。其实,这个过程十分简单。只是在涉及连续型定距变量的时候,会相对复杂一些。我们一起看一下课本28页的例题。以上所介绍的是有关单变量描述统计的基本方法。其中频次分布和频率分布是最基本的。统计表、统计图以及累加频次、累加频率等都是依据它们而形成的。再者,通过前面的介绍,大家可以发现,他们都是以若干数值来简化变量的资料分布情况。虽然提供的信息较为全面,但是不够精简。我们如何才能做到进一步的简化呢?这就要用到我们接下来介绍的集中趋势测量法(measures of central tendency)了。这是第二章的第二节。所谓集中趋势测量法是指找出一个数值来代表变量的资料分布,以反映资料的集结情况。大家还记不记得,我们第一次上课就曾经让大家计算过均值,它其实就是一种集中趋势测量法。采用这种方法有一个特殊的意义,即可以根据这个代表值(或称典型值)来估计或预测每个研究对象(个案)的数值。虽然,这样做会掩盖变量的某些信息,导致估计时产生错误。比如说,我们刚刚提到的平均值,尽管它具有一定的代表性,但是以它进行预测时,无法保证百分之百的准确。但是,由于选择的数值是最有代表性的,因此从长远来看,以它来估计或预测变量时所产生的误差最小。下面,我们就根据测量层次的不同来介绍三种主要的集中趋势测量法。一、 定类变量:众值(Mode)大家知道,定类变量可以把调查对象区分为不同的类别和属性。根据这一特点,我们选取众值作为它的集中值。众值(简写Mo),是指次数最多的值。假设,某班有男生15人,女生30人。那么,由于女生次数最多,因此众值是女生。需要大家注意的是,众值指的是变量的某一个取值。由于众值出现的次数最多,最有代表性,因此,它具有估计或预测的意义。例如,我们从该班任意抽取一名学生,事先我们并不了解该生的任何情况,根据刚刚得知的众值信息,我们就可以估计该生是一名女生。那么,我想问一下,这一估计犯错的可能性是多少?或者说误差有多大?如果我们以男生为标准进行估计呢?犯的错误总数是66%,显然误差更大。因此,长远来说,以众值作预测所犯的错误总数是最小的。众值主要适用于定类变量。当然,它也同样可以应用于较高层次的变量,但对于较高层次的变量来说,其代表性要差一些。由于高层次的变量可以使用较低层次的统计分析方法,因此,众值的使用范围非常广泛。不过,如果我们碰到连续型定距变量,因为涉及到分组的问题,因此,以频次密度最高的组作为众值所在的组,而以该组的组中心值作为变量的众值。众值是最易求出的集中值。它特别适用于单峰对称的情况,也是比较两个分布是否相近首先要考虑的参数。对于多峰的图形由于众值不唯一,一般不用众值来进行分析。二、 定序变量:中位值(Median)有没有同学记得,定序变量具有什么样的数学特性?可以将研究对象按照等级高低进行排序。而中位值即是借用了这一特性。它(简写Md)指的是在一个序列的中央位置之值,即高于此值的有50%的个案,低于此值的也有50%的个案。这里,我们先来看一下如何根据未分组数据计算中位值。未分组数据又可以分为两类。一类是原始资料。一类是频次分布表。当原始资料较少的时候,要计算中位值,我们首先要对个案进行排序。例如,我们知道甲地五户人家的人数由少至多排列如下:2,3,4,6,8。这五个值中处于中间位置的是哪个?4,对不对。因为有两户多于4人,也有两户少于4人,数目相同。在实际计算的过程中,我们首先要找到中位值所在的位置。Md位置=n+1/2。其中的n是个案数目,即样本容量。以上例来说,借助这个公式,我们可以算出中位值位于第三个位置。而处于第三个位置的值4即是中位值。Md=4。大家注意,这里的个案数目是奇数5,因此,我们在计算中位值位置时得到的是整数。如果个案数目是偶数,我们应该怎么办呢?如乙地有8户人家,每户人数由少至多分别是:2,4,4,5,7,8,10,10。根据公式,计算得出的中位值位置为4.5。这表示中位值的位置落在第四户与第五户之间,因此,我们可以将位于中央位置的两个数值的平均值作为中位值。即Md=(5+7)/2。这里需要说明的是,中位值有可能只是一个理论上的数值,而实际上并不存在。上述例子涉及的个案数目都比较少,如果个案数目很多时,我们无法将其一一列出,然后从中查找处于中央位置的值。比如,我们做了项调查,样本容量为500,显然,如果要将这500名调查对象的情况一一排列出来,太耗费时间。因此我们需要借助累加频次分布表来帮忙。我们一起看一下课本42页的表2-18。以上介绍的是根据未分组数据计算中位值。但是,有些时候,我们面对的既不是原始资料,也不是节育率(%)Fcf5.5或以下16165.5-15.5385415.5-25.5409425.5-35.53012435.5-45.52314745.5-55.52417155.5-65.51919065.5或以上22212总数212简单的频次分布表,而是经过分组以后的资料情况。这主要是针对连续型定距变量来说的。例如,调查某地区的212个乡,目的是要知道每个乡的育龄妇女(15-44岁)落实计划生育的比率。搜集资料以后,将212个乡分为八组,它的统计表是这样的需要大家注意的是,这里各组的组限都是真实组限。根据这样的分组资料,我们应该如何计算中位值呢?首先,第一步同计算原始资料中位值一样,计算中位值所在的位置212/2=106。这里之所以使用n/2,是因为分组资料往往涉及的样本容量较大,所以n/2近似于(n+1)/2。第二步,根据统计表中的累计次数,找出中位值所在的组。在例题中,中位值所在的组应该是25.5-35.5这一组。第三步,就要想办法求出中位值了。根据统计表,我们知道,中位值所在组的真实下限L是25.5,真实上限U是35.5。组距w是35.5-25.5=10。该组对应的次数f是30,位于该组以下的个案数目是多少?实际就是低于中位值组真实下限的累加次数cf94。我们如何才能根据这一系列数值计算出中位值呢?【我们知道这一组的真实下限,那么,如果我们能算出中位值与真实下限之间的差距,我们就可以算出中位值是多少了?所以,我们要想办法算出这二者之间的差距。假设这个差距为X。根据各组的组限以及它们对应的累计次数,我们可以在坐标图中做出一条直线。根据这个坐标图,我们可以得出X/w=(n/2-cf)/f,所以,X=(n/2-cf)/f*w。Md=L+X。】中位值的公式为:Md=L+ 其中, L=中位值组之真实下限 f=中位值组之次数 w=中位值组之组距 cf=低于中位值组真实下限之累加次数 n=全部个案数目根据这个公式,我们得出例题的中位值=29.5。换言之,在212个乡中,有半数乡的育龄妇女节育率低于29.5%,也有半数高于29.5%。我希望大家不仅会计算中位值,而且会解释中位值的含义。至于公式的推算过程,大家了解一下就可以了。它主要是帮助大家记忆公式的。利用累计百分比同样可以计算中位值,课本为我们详细介绍了其计算方式。基本思路与利用累计频次是一样的。只是将次数换成了频率而已。大家感兴趣的话可以自己了解一下。由于中位值具有估计或预测的意义。所以,假定从212个乡中任意抽取一个乡,我们应该估计其节育率是29.5%。长远来说,以中位值来估计定序变量的数值,所犯的错误总数是最小的。中位值适用于定序以上层次的变量。因此,对定序变量来说,我们有两种集中值可以使用。但是由于众值不考虑变量次序,所以对定序以上层次的变量,是一个损失。以上介绍了定类变量和定序变量,下面我们一起学习一下适用于定距变量的集中值均值。其实,均值,大家都知道,将变量的各个数值相加起来,求取一个平均的数值,即均值。与中位值的计算一样,均值的计算方法也可以分为两种情况,即使用未分组数据和使用分组资料。首先,我们了解一下未分组数据中,如何根据原始资料计算均值。其实方法很简单,大家以前都学过。计算公式: n是全部个案数目表示各个个案数值之和例如调查某地的五户干部家庭和六户农民家庭,每户的人数如下:干部家庭:4,2,3,3,5农民家庭:6,4,4,8,6,3根据公式计算均值:干部家庭人数的均值是3.4人,农民家庭是5.2人。比较一下,农民家庭的平均人数多于干部家庭。当涉及的样本数量较大时,我们就要先统计每个变量值出现的次数,之后利用频次分布来计算均值了。所使用的公式为其中x是变量的各个取值,f是每个变量值对应的次数。n则是全部个案数目。这里,我们一起看一下课本45页的例1。要求计算550人的平均分数。那么,如果面对分组数据,我们应该如何计算均值呢?其实方法很简单,只需要用组中心值代替变量值即可。计算公式与使用频次分布相似。其中xm是组中心值。注意,组中心值不同于我们之前讲的中位值。组中心值等于真实上限和真实下限的算术平均数。这里,我们一起看一个例子。f表示每组的次数表示组中点n是全部个案数目青年人阅读小说书的数目书数fxmf xm2-42365-746248-10594511-133123614-162153017-1911818总数17159按照公式,大家计算一下,均值是多少?可知平均来说,每名青年人一年读9.4本小说书。这里有一点提醒大家注意。用组中心值计算的均值与使用原始数据计算的均值是存在出入的。但对社会学来说,大多数情况下,其精确度已经足够了。均值主要是为了描述平均水平,它对每个个案的取值都十分敏感,在分布中如有少数非常极端的变量值,则均值会受到较大影响。这时它的代表性会减弱。而中位值的意义更大,因为它不受极端值的影响。介绍了三个集中值之后,我们有必要对它们进行一下简单的比较。 三值设计的共同目的,都是希望通过一个数值来描述整体特征,以便简化资料。他们都反映了变量的集中趋势,一般说: 众值:适用于定类、定序和定距变量; 中位值:适用于定序和定距变量; 均值:适用于定距变量。它们三者的代表性决定了它们具有估计和预测的作用。 众值仅使用了资料中最大频次这一信息,因而资料使用不完全。中位值,考虑了变量的顺序和居中位置,因此和总体频次分布有关,但因为只考虑居中位置,因而其他变量值的变化很难影响中位值,它也是三个集中值中最不敏感的。均值,既考虑频次又考虑变量值的大小,因而更灵敏。它的解释力最强,具有较高的统计价值。均值虽然灵敏,但对严重偏态的分布容易失去代表性。即存在非常极端的分布值时,代表性不足。例如,一个国家会因某些少数富翁的存在,使平均收入变得很高。且在分组资料中的极端组没有组限时,不能求出均值,只能用中位值。偏态图形和三值的关系。对于正态分布的图形来说,三值是合一的。当图形正偏或负偏时,均值变化最快,中位值次之,众值不变。为什么均值变化最快,这是因为它极易受到极端值的影响。关于这一点,大家可以看一下课本48页上方的三个图形。到这里,有关单变量的描述统计技术已经全部介绍完了。简单来说,我们共介绍了三种方法,一是化约、简化,即第三章第一节的内容,次数分布、频率分布、统计图、统计表等。二是集中趋势测量法,即求出一个数值用以代表变量的资料分布,反映资料的集结情况。三是离散趋势测量法,即求取一个数值来表示个案与个案之间的差异情况。集中趋势测量法和离散趋势测量法是相互补充的。我们再一起回顾一下适用于不同测量层次的集中值和离散值。它们是这一章需要重点掌握的内容,我们先以表格的形式比较一下三个集中值。集中值均值中位值众值测量层次定距变量定序变量定类变量敏感程度最敏感(受极端值影响)不敏感较敏感(尤其适用于单峰对称的情况)计算难度最难一般最易计算解释力最好(解释力强、具有统计价值)其次最低、差那么离散值的情况如何呢?与这三个集中值一一对应的离散值是什么啊?异众比率、四分位差和标准差。它们在测量层次、敏感程度、计算难度和解释力上也是与这三个集中值一一对应的。我们不再一一介绍了。那么极差仅仅考虑了两个极端值,因而带有很大的偶然性,对于大量的处于极端值之间的数值分布情况,以及在中心点周围的集中情况,都无法提供任何信息,主要适用于定序以上层次的变量。离散系数是一种相对的离散量数统计量,可以用于对同一总体中两种不同的离散值进行比较,或者对两个不同总体中的同一离散值进行比较,适用于定距以上层次的变量。第三章 简化两个变量的分布第一节 统计相关的性质 大家知道,在社会学研究中,不仅要求我们对社会现象进行描述,而且要求我们对现象的原因进行分析。因此,我们不但要了解一个变量的情况,更要进一步了解一个变量与另一个变量之间的关系。例如,在某地区调查100名青年人的最大志愿,假定其中有40%选择快乐家庭,50%选择理想工作,10%选择增广见闻。我们要问:为什么这些青年人的最大志愿会有不同?又假定我们发现这些青年人的教育水平可以分为高(高中或以上程度)、中(初中程度)、低(小学或以下程度)三个等级,每级人数分别占10%、60%、30%。据此,我们就可以追问:青年人的志愿与其教育水平是否有关系呢?换言之,是否因为教育水平不同,所以人生志愿也不同。一、 什么是相关?由此,我们可以引入相关这个概念。所谓相关,是指一个变量的值与另一个变量的值有连带性。具体来说,如果一个变量的值发生变化,另一个变量的值也有变化,则两个变量就是相关了。例如,教育水平是一个变量,最大志愿是另一个变量,如果青年人的教育水平不同,其志愿也不同,我们就可以说这两个变量是相关的了。二、相关的强度和方向在明确了何为相关以后,进一步要考虑的问题是相关的强度和方向。例如:我们通过调查发现,父亲的教育水平与孩子的教育水平相关,母亲的教育水平也与孩子的教育水平相关,那么究竟是前者的相关程度大,还是后者的相关程度大呢?或者说,究竟是父亲教育水平对孩子的影响大,还是母亲的教育水平影响大呢?对于这一点,我们可以用统计法进行测量,也就是计算相关系数。相关系数是用来表示变量间的相关程度的量的指标。它具有这样几个特征。第一,相关系数不具有实际数学运算意义。为什么这么说呢?假如,我有100元,他有50元,我们可以说,我的钱是他的两倍。但如果通过计算得知,父亲教育水平与孩子教育水平的相关系数是0.50,而母亲教育水平与孩子教育水平的相关系数是0.25,我们却不能说前者是后者的两倍,因为相关系数只能表示相关程度更强。第二,相关系数是统计得来的,它只能说明两种现象间可能存在一定的关联度,不一定具有实际意义,即实际上可能并不存在相关关系,这也就是我们讲的统计相关。例如,在山东大学有个很奇怪的现象。山大每年暑期开学那天往往会下雨。给我印象最深的就有三次。如果我们将开学看作变量X,下雨看作变量Y,通过统计,我们很可能得出二者的相关系数很高,但是这二者之间并不存在真正的联系。也就是说统计上相关,但实际上不相关。第三,相关系数大多介于-1,1之间。为什么还有正负之分呢?有没有同学知道?这实际就涉及到第二个问题相关的方向了。大家有没有听过“造原子弹的不如卖茶叶蛋的”。它描述了我国改革开放初期的职业收入情况。说明当时人们的收入与其教育水平是怎么样的?成正比还是反比?那现在呢?这二者的关系发生了什么变化?是不是基本呈现正比的趋势?由此我们可以看出,变量与变量之间的关系,可以分为正与负两个方向。即根据相关方向的不同,可以将相关分为正相关和负相关。所谓正相关,是指一个变量的值增加时,另一个变量的值也随着增加。例如,收入水平越高,消费水平越高。所谓负相关,是指一个变量的值增大时,另一个变量的值却减小。例如,教育水平越高,理想子女数目越少。需要大家注意的是,相关方向的分析只限于定序以上层次的变量。为什么?有没有人能够解释一下?我们一再地提不同层次变量的属性。这是因为定序以上层次变量的值有高低或多少之分。至于定类变量,由于变量的值只有类别之分而无高低之分,因此它与其他变量相关时不会有正或负的方向。相关系数的正负号表明了相关的方向。其绝对值则表明了相关的程度。一般0表示无相关,1代表全相关(-1是完全负相关,1则是完全正相关)。绝对值越大,说明两变量之间的相关程度越强。在社会现象或人类行为研究中,各种相关系数的取值很难达到全相关。各种相关情况,可以用简单的图表说明。x y x1x2总数y1aba+by2cdc+d总数a+cb+dn=a+b+c+d其中x、y分别代表两个变量,它们各有两个取值x1,x2,y1,y2.。其中的a、b、c、d代表交叉分类后的个案数目。a表示变量x与变量y分别取值为x1, y1的个案数目。其余类似。现在,我们就这个图表分别讨论一下全相关、无相关的情况。就这个图表来说,如果a=d=0(或b=c=0),即全部个案集中在同一对角线上,则表示变量x与变量y是全相关。例如,我们试图通过调查来了解性别是否会影响人们对足球的喜爱程度。一共调查了20名学生,其中10名是男生,10名是女生。发现,a=10,c=0,b=0,d=10,有没有同学能够解释一下这个图表。当调查对象为男生时,他一定喜欢足球,而当调查对象为女生时,她一定不喜欢足球。二者之间的关系是完全确定的,因此可以说达到了全相关。当然,这种情况在社会生活中几乎不会出现。如果a*d=b*c,即两对角线的乘积相等,则表示无相关。同样以刚才的调查为例,当a=5,b=5,c=5,d=5时, 表示什么啊?当性别发生变化时,他们对足球的喜爱程度并没有发生任何变化,同样是一半男生喜欢足球,一半男生不喜欢足球,女生也是一半对一半。如果a=10,b=0,c=10,d=0,表示什么?大家好好想一想?是不是也表示性别与人们对足球的喜爱程度无关啊。因为,无论是男生还是女生都一定喜欢足球。当两个变量无关时,我们可以说这两个变量之间是相互独立的。如果a*d与 b*c的差异越大,就表示相关程度越强。关于这个问题,稍候还会为大家做进一步的解释。三、相关关系的类型刚才在介绍相关的方向时,我们已经将相关关系区分为了正相关和负相关。而按变量变化的表现形式进行划分,我们还可以将相关关系划分为直线相关和曲线相关两种。在介绍直线相关和曲线相关之前,我们有必要给大家介绍一下用于描述两变量间关系状况的散点图。散点图仅适用于定距以上层次的变量,它是以直角坐标的横轴表示变量X的取值变
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖北省汉川市金益高级中学2025-2026学年高二上学期9月月考考试物理试卷
- 低温热水地面辐射-洞察及研究
- 天津市第二十一中学2024-2025学年上学期八年级历史期中考试试题(无答案)
- 缺陷形貌自动测量-洞察及研究
- 20xx开学主持词4篇
- 部门安全培训教育时间课件
- 达芬奇鸡蛋课件
- 辨证施膳课件
- 基于工业物联网的凸轮式收卷机多设备集群联动控制与数据孤岛问题
- 基于区块链的制图数据版权确权与跨境共享的智能合约设计
- 大学预算绩效管理办法(试行)模板
- 西方音乐史全套完整教学课件
- 急诊急救护理教学课件
- 最新医疗安全十八项核心制度课件
- 住宅小区供配电系统设计课件
- 社保费和非税收入课件
- “三高”讲座-课件
- 建设工程施工合同(GF-2017-0201) 专用条款模板
- 普通冲床设备日常点检标准作业指导书
- 少儿英语字母操
- 义务教育(数学)新课程标准(2022年修订版)
评论
0/150
提交评论