第2章单变量描述分析(下)_第1页
第2章单变量描述分析(下)_第2页
第2章单变量描述分析(下)_第3页
第2章单变量描述分析(下)_第4页
第2章单变量描述分析(下)_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章 单变量描述分析(下) 第四节 集中趋势测量法 第五节 离散趋势测量法 第六节 偏态与峰态的测量 第四节第四节 集中趋势测量法集中趋势测量法 l 我们可以用某些典型的变量值或特征值(根据变量值 计算出来的值)来代表全体变量值,这个典型的变量 值或特征值就称作集中值集中值或集中趋势测量值集中趋势测量值 (Central Tendency)。)。 l 这样做当然会损失变量的某些信息, 集中趋势测量 的目的就是: l (1)选出的集中趋势最有代表性(最典型或者最平均); l (2)损失的信息最少,或者说所产生的误差最小。 选取集中值的方法取决于三个因素: l 常见的集中趋势测量值有众数、中位数

2、、算术平均 数、几何平均数、调和平均数等。 l (1)变量的测量层次(测量尺度);对于不同层 次的变量尺度我们采用不同的集中值来描述变量; l (2)变量的分布形状(the shape of the distribution);变量的分布情况不同,选取的集中 值也有所不同;如果是极端分布,选取平均数就不 太合适。 l (3)研究的目的 一、众数(一、众数(Mode) l 众数就是分布中频数或频率最高的变量值。众数就是分布中频数或频率最高的变量值。 l 表1 Notice l (1)众数是变量的一个取值或者一类,而不是这 个取值所对应的频数或频率。我们说美国非本土 语言的众数是“西班牙语”而非“

3、170万”。 l (2)不要求众数的频率超过50。 l (3)众数多用来测量定类变量,当然也可以测量 定序和定距变量。 l (4)众数不唯一确定,有的给定数据没有众数, 有的只有一个众数,有的存在好几个众数。 众值的计算 l1、利用原始数据求众数、利用原始数据求众数 lA组:61,68,71,75,75,81,83 lB组:61,68,71,74,75,81,83 lC组:71,75,83,75,83,68,81 2、利用频数、利用频数/频率分布表求众数频率分布表求众数 l 表2、家庭结构分布表 众数众数Mo核心家庭核心家庭 3、利用分组材料(组距式分组)求众数、利用分组材料(组距式分组)求众

4、数 l (1)组中值法:)组中值法: l 对于分组的定距变量,可以把频数出现最高的组的组对于分组的定距变量,可以把频数出现最高的组的组 中值作为众数。中值作为众数。 l 例如下表:例如下表: 表3、100名男性青年的身高统计表 l众数众数Mo171 (2)比例插值法:)比例插值法: l 我们假定众数所在组的变量值是均匀分布的,所以根据公我们假定众数所在组的变量值是均匀分布的,所以根据公 式:式: l Mo为众数; l L为众数所在组的下限; l 为众数所在组频数与前一组频数之差; l 为众数所在组频数与后一组频数之差; l h为众数所在组的组距; l 还是利用上表可以计算100名男青年的身高,

5、 l L169; 28253; 281711;h5 l hLM o 21 1 1 2 1 2 hLM o 21 1 1 .1705 113 3 169 二、中位数(二、中位数(Median) l中位数是变量的这样一个取值,它把所有 的观察个体(ALL Case)一分为二,其中 一半具有比它小的变量值,另一半具有比 它大的变量值。所以,中位数是处于数据中位数是处于数据 序列中央位置的个案的变量值,用序列中央位置的个案的变量值,用Md表示。表示。 Notice: l(1)中位数是把个案而非取值一分为二的)中位数是把个案而非取值一分为二的 那个值。它是个取值而不是一个个案!那个值。它是个取值而不是一

6、个个案! l(2)中位数最适合用于定序变量,可以用)中位数最适合用于定序变量,可以用 于定距变量。于定距变量。 表4、家庭人口数量分布表 中位数不是中位数不是4(中间的变量取值),(中间的变量取值), 也不是也不是5(中间变量值的频数)(中间变量值的频数) l 具体而言,先根据取值情况把这个具体而言,先根据取值情况把这个“中间中间”个案找个案找 出来,在把它的值作为中位数。出来,在把它的值作为中位数。 l 将所有将所有个案按取值大小高低排列 l 找出位于中间的那个个案个案 l 找出这个个案的取值取值 l 中位数是把总数(总频数数)分成相等之两半的中位数是把总数(总频数数)分成相等之两半的 那个

7、个案的取值。那个个案的取值。 l 如果是条形图,则是两边的频数数之和相等,如如果是条形图,则是两边的频数数之和相等,如 果是直方图,则是两边的面积相等,而不是横轴果是直方图,则是两边的面积相等,而不是横轴 的中点。的中点。 中位数的计算中位数的计算 l1、利用原始数据求中位数 l1)定序变量: lN为奇数时有中位数;N为偶数时,如果恰 好落在两个变量值之间,没有中位数,若 不是恰好落在两个变量之间,则有中位数。 表5 这时中位数这时中位数Md应该在初中和高中之间,我们这个时候说应该在初中和高中之间,我们这个时候说 没有中位数;没有中位数; 表6 此时中位数此时中位数Md就是就是“高中高中” 2

8、)定距变量: l先按顺序排列; lMd= 这是错的!(这样算出来的是中间 的那个序列号) l如果N为奇数,则容易算出: lMd的个案位置 Md = l如果N为偶数,则将中位数上下两个个案的 取值再取中间值,作为中位数。 l公式:公式: 2 1 22 2 1 NN Nd XX XM 2 1N 2 1N X 2 1N 对于有偶数个案的定距变量而言,其中位数对于有偶数个案的定距变量而言,其中位数可能可能是个特是个特 征值而非变量值。征值而非变量值。 表7 中位数位置中位数位置 5 . 3 2 16 2 1 N 5 . 6 2 85 2 43 5 . 3 2 1 XX XXM Nd 练习: l(1)求

9、72,81,86,69,57这些数字的 中位数; l(2)求72,81,55,86,69,57这些数 字的中位数; 2、利用频数分布求中位数 需要先做累计频数/频率表 l表8 中位数位置中位数位置= =250.5 Md=乙乙 2 1N 定距变量也一样,方法即作累计频率表,找出定距变量也一样,方法即作累计频率表,找出 50 所对应的个案,它的取值就是中位数。所对应的个案,它的取值就是中位数。 表9、美国进口的中国母猪产仔数量统计表 3、利用分组数据求中位数(只适用于定距变量):、利用分组数据求中位数(只适用于定距变量): l (公式中的(公式中的N/2应该是有问题的,如果精确点,应该是(应该是有

10、问题的,如果精确点,应该是(N+1)/2) l L 中位数所在组之下限;中位数所在组之下限; l N 总频数数(样本总数)总频数数(样本总数) l F m 1 中位数所在组之下的累计频数(不包括此组); 中位数所在组之下的累计频数(不包括此组); l fm = 中位数所在组之频数;中位数所在组之频数; l h 中位数所在组之组距;中位数所在组之组距; l c%m 1= 中位数所在组之下的累计频率(不包括此组); 中位数所在组之下的累计频率(不包括此组); l Pm中位数所在组之频率;中位数所在组之频率; h %50 h 2/ 1 1 m m d m m d p c LM f FN LM 表表1

11、0、每周工作时间的分布 求中位数。求中位数。 l【解】 l(1)计算向上累计频数 l(2)找出中位数所在组,为4049一组; l(3)L=40,Fm1=12,fm19,h=10 l(4)中位数 6 .4210 19 12-34/2 40h 2/ 1 m m d f FN LM 三、均值(三、均值(Mean) l 算术平均数也称作算术平均数也称作均值,它是用变量值总和 除以总个案数得到,一般用 表示,(读作 X拔)仅适用于定距和定比变量。 X 1、原始数据 l l 均值 l 变量观察值 l 变量取值之和 l N 个体之和(个案总数) i X X N X i X i X 【例】某研究生班10名同学

12、的年龄如下: 21,32,23,41,20,30,36,22,25,27 求平均年龄。 l【解】 l 21 32 23 41 20 30 36 22 25 27 277 lN 10 l l i X i X X N 277 27.7 10 2、根据频数分布求均值(加权平均数) l 11122 12 1 . . K ii ikk K k i i n X n Xn Xn X X nnn n ii n X N 【例】求以下550人的平均分数 表12 ii n X N X 9 .69 550 38450 如果是如果是频率分布频率分布,则是,则是 ii ii i p X Xp X p 3、分组数据 l对于

13、分组数据,由于每一个组变量值不只 一个,因此可以用组中值组中值bi来代替变量值来代替变量值, 然后再根据未分组数据相同的方法计算平 均数。 l公式为: l ii i nb X n N bn ii 表14、每天看电视时间的统计 i n iib n 8 . 1 10 18 ? N bn X ii 四、众数、中位数与均值的进一步讨论四、众数、中位数与均值的进一步讨论 l众数、中位数和均值是我们在研究集中趋 势时最经常使用的三个指标,它们设计的 目的是共同的,都是希望通过一个数值来 描述整体特征,以便简化材料。 l但是具体来看三者在实际运用过程中也存 在着差别。 (1)三个集中值的适用范围)三个集中值

14、的适用范围 l 变量的测量层次(测量尺度) 可以看出,定距变量的集中值最多,而定类变可以看出,定距变量的集中值最多,而定类变 量的集中值最少。量的集中值最少。 (2)三个集中值实际含义上的差别 l 众数仅使用了资料中最大频数这一信息,因此资料使 用是不完全的。比如两份资料中只要最大频数所对应 的变量值相等,那么,用众值来评价资料,两者就没 有区别了。 l 而中位数由于考虑了变量的顺序和居中位置,因此它 和总体的频数分布有关;但由于它只考虑居中位置, 因此其他变量值比中位值大多少或小多少是不影响中 位值的。 l 均值由于既考虑到频数,又考虑变量值的大小,因此 它是最敏感的,也是利用信息最充分的集

15、中值。但是 它受极端值的影响很大,比如一个国家会因为某些少 数富翁的存在,而使平均收入变得很高。因此,均值 只适用分布基本对称的情况。 (3)什么情况下不宜采用均值? l两种情况时不宜用均值: lA 对于偏态分布,均值不能反映整体情况, 这时候用中位数比较合理。比如收入的差 距如果拉的过大,会影响到均值,而中位 数不考虑这些差距,反而比较好。 lB 分组资料的极端组没有组限时,即开放式 组距情况下无法计算平均值。 (4)三者的数量关系如何? l 这是英国的统计学家皮尔逊发现的,用此公式可以在知 道三者之中两者的情况下近似的计算出第三者。 l 对于对称的分布,如标准正态分布,众数、中位数、平 均

16、数三者是互相重合的。 XMM do 23 第五节第五节 离散趋势测量法离散趋势测量法 l甲班:50,60,70,70,80,90 l乙班:70,70,70,70,70,70 l离散趋势分析(离散趋势分析(dispersion tendency analysis)指的是用一个特别的数值来反映 一组数据相互之间的离散程度。它与集中 趋势分析一起,分别从不同的侧面描述和 揭示数据的分布情况。 一、极差(一、极差(Range)R l一种最简单的度量数据分散度的方法即计一种最简单的度量数据分散度的方法即计 算极差,极差又叫全距,它是变量观察值算极差,极差又叫全距,它是变量观察值 中最大值与最小值的差,用

17、中最大值与最小值的差,用R来表示来表示。 lR最大值最小值最大值最小值 l上例中甲班的极差是上例中甲班的极差是40分;乙班的极差是分;乙班的极差是0 分。分。 notice l (1)极差仅适用于定距变量及以上的变量)极差仅适用于定距变量及以上的变量(不能 用于定类变量,因为定类变量的取值分不出大小 高低)。 l (2)极差的优点是容易理解,计算方便;并且)极差的优点是容易理解,计算方便;并且 在一定程度上说明了数据的离散程度。在一定程度上说明了数据的离散程度。极差越大 表示资料数据越分散,集中值的代表性越低;极 差越小表明数据越集中。 l (3)极差的缺点是仅仅依靠两个极端值,所以)极差的缺

18、点是仅仅依靠两个极端值,所以 受样本变化的影响很大受样本变化的影响很大,大样本的极差就会大, 小样本的极差就会小;另外它对于大量的处于两 个极端值之间的数值分布情况无法提供任何信息。 二、四分位差(二、四分位差(interquartile range)Q l四方位差也叫做四分互差,它是先将一组数四方位差也叫做四分互差,它是先将一组数 据按照大小排列成序,然后将其据按照大小排列成序,然后将其4等分,去掉等分,去掉 序列中最高的序列中最高的1/4和最低的和最低的1/4后,中间的一半后,中间的一半 数值之间的极差。四分位差通常用数值之间的极差。四分位差通常用Q来表示。来表示。 l其中其中 表示表示c

19、为为75对应的变量值;对应的变量值; l 表示表示c为为25对应的变量值。对应的变量值。 l 四分位差的意义在于克服极端值对分散度量的干扰,实四分位差的意义在于克服极端值对分散度量的干扰,实 际上是测量的位于际上是测量的位于“中央中央”的的5050个案的取值范围有多个案的取值范围有多 大。大。 7525 QQQ 75 Q 25 Q Q25和Q75位置的确定 2 1N 4 1N l 中位数的位置: l Q25的位置: l Q75的位置: 4 ) 1(3N 假如假如Xi是一个从是一个从1开始的整数数列,开始的整数数列, 则则 当当n=4时,时,Q25的位置:的位置:1.25 Q75的位置:的位置:

20、3.75 当当n=5时,时,Q25的位置:的位置:1.5 Q75的位置:的位置:4.5 当当n=6时,时,Q25的位置:的位置:1.75 Q75的位置:的位置:5.25 当当n=7时,时,Q25的位置:的位置:2 Q75的位置:的位置:6 当当n=8时,时,Q25的位置:的位置:2.25 Q75的位置:的位置:6.75 四分位差的计算四分位差的计算 l (1)根据原始资料求四分位差)根据原始资料求四分位差 l 例1、甲村11户人家,人口数: l 2,2,3,4,6,9,10,10,11,13,15 l 求中位数和四分位差。 l Md的位置=(N+1)/2=6 l 中位数Md=9 l 的位置=(

21、N+1)/4=3 l =3 l 的位置=3(N+1)/4=9 l =11 l 四分位差 =11-3=87525 QQQ 25 Q 25 Q 75 Q 75 Q 例2、乙村有8户人家,人口数: 2,3,4,7,9,10,12,12 求中位数和四分位差。 l Md的位置 =(N+1)/2=4.5 =(7+9)/2=8 l 也可以写成: l Md=7+0.5(9-7)=8 l Q25的位置的位置 l Q25=3+0.25(4-3)=3.25 l Q75的位置的位置 l Q75 =100.75(12-10) =10+1.5=11.5 Q= Q75 Q25=11.5-3.25=8.25 2 1 22 2

22、 1 NN Nd XX XM 25. 2 4 18 4 1 N 75. 6 4 ) 1(3 N (2)根据频数分布表频数分布表求四分位差 中位值中位值Md的位置的位置:(80+1)/2=40.5 Md丙丙 Q25的位置的位置:(80+1)/4=20.25 Q25丁丁 Q75的位置的位置:(80+1)3/4=60.75 Q75乙乙 四分位差四分位差Q Q75Q25 乙丁乙丁 (3)分组资料分组资料 l L: Q25 或或Q75所在组的下 限; l N:样本容量或个案总数; l Cf25l为小于Q25所在组的 各组累计频数; l f25为Q25所在组的频数; l w25为Q25所在组的组距。 75

23、25 25 2525 25 75 7575 75 4 3 4 l l QQQ N cf QLw f N cf QLw f 例4、调查某地区212个乡育龄妇女(15-44)节育情况 l Md=26+ =30 l Q25的位置=N/4=53 Q75的位置=3N/4=159 l 结论:有50%的乡的节育率是位于15.7%和51%之间,四 分位差是35.3%。 10 30 94 2 212 3 .357 .1551 5110 24 147 4 2123 46Q 15.710 38 16 4 212 6Q 2575 75 25 QQQ ? ? 三、标准差(三、标准差(Standard Deviation

24、Standard Deviation)和方差()和方差(VarianceVariance) l 标准差是最常用的统计量,它主要用来说明一个 观察值与均值相差多远。标准差越大,说明观察 值离均值越远,数据越分散。 l 大多数个案在一个标准差之内,极少个案会离开 均值2个或3个标准差以上。常用常用S来表示标准差来表示标准差。 标准差的平方即方差,用标准差的平方即方差,用S2来表示来表示。其计算公式 如下: 2 2 2 i i XX S N XX S N 【例【例5】求】求72、81、86、69、57的标准差和方差。的标准差和方差。 06.10 5 506 )( 2 .101 5 506 )( 2

25、2 2 N XX S N XX S XX i 2 )(XXi 均值在计算中只是过渡步骤。为了简化计算,可对 分子项做变换: N X X XNXXNXNX XNXXXXXXXXX i i ii iiiii 2 2 2 2 22 2 2 2 2 2 2 )( 2 2)2()( 2 2 2 2 2 2 2 2 2 2 )( 1 )()( ) )( ( 1 )( ii iii i i i XXN N N X N X N XX S N X X NN XX S 利用简化的公式同样可以得到相同的结果: 当均值取小数点后有限位时,简化公式的计算结果比原公式还要精确。 XX 2 )(XX 2 i X 06.10

26、365-271515 5 1 )( 1 2 .101) 5 365 27151( 5 1 ) )( ( 1 22 2 2 2 2 2 ii i i XXN N S N X X N S (2)根据频数分布频数分布 l求所有变量值的平方和,如果是原始数据 的话,同一变量值出现多少次,就实际上 加了多少次,也就是 l所以 l所以标准差的公式演化为: 2 ii n X 22 iii Xn X 2 2 2 1 i iiii XX SNn Xn X NN 2 2 2 1 i iiii XX SNn Xn X NN 2 1 71 11062561.61 71 (3)根据分组资料分组资料 l对于分组材料,用组

27、中值bi代替变量值Xi, 标准差计算公式与上述相同: l显然,用组中值bi计算的方差或标准差,不 及用原始数据计算精确,但对社会学来说, 大多数情况下已足够用了。 S 2 2 1 iiii bnbnN N 四、标准分 (standard score) l1. 也称标准化值 l2. 对某一个值在一组数据中相对位置的度量 l3. 可用于判断一组数据是否有离群点 l4. 用于对变量的标准化处理 l5. 计算公式为 S XX Z i 标准分数 (性质) 均值等于0 l2.方差等于1 0 01 )( 1 sns xx nn z z ii 1 )( 1 )0()( 2 2 2 2 222 2 s s s

28、xx n n z n z n zz s i ii z 标准分数 (性质) lz分数只是将原始数据进行了线性变换,它并没有 改变一个数据在改组数据中的位置,也没有改变该 组数分布的形状,而只是将该组数据变为均值为0 ,标准差为1。 标准化值 (例题分析) 经验法则经验法则 l经验法则表明:当一组数据对称分布时 l约有68%的数据在平均数加减1个标准差 的范围之内 l约有95%的数据在平均数加减2个标准差 的范围之内 l约有99%的数据在平均数加减3个标准差 的范围之内 切贝谢夫不等式 (Chebyshevs inequality ) 1. 如果一组数据不是对称分布,经验法则就不再 使用,这时可使

29、用切贝谢夫不等式,或叫切贝谢切贝谢 夫定理夫定理Chebyshevs Theorem。 2. 任何在均值周围均值周围k倍标准差内的频率至少是 l其中k是大于1的任意正数,但不一定是整数。 3. 适用于所有的分布所有的分布。 2 1 1 k 切比雪夫不等式 (Chebyshevs inequality ) l对于k=2,3,4,该不等式的含义是 至少有75%的数据落在平均数加减2个标 准差的范围之内 至少有89%的数据落在平均数加减3个标 准差的范围之内 至少有94%的数据落在平均数加减4个标 准差的范围之内 l【例】某人调查了某人调查了200200人的日平均收入,平人的日平均收入,平 均收入为

30、均收入为8080元,标准差为元,标准差为1010元。问元。问6060100100 元之间至少会有多少人?元之间至少会有多少人? l解:用切贝谢夫定理,先算出解:用切贝谢夫定理,先算出 0.750.75200200150150,说明至少有,说明至少有150150人在人在60-60- 100100元之间。元之间。 2 80100 S k 75. 0 1 1 2 k 五五、异众比率(、异众比率(Variation Ratio)VR l异众比率是非众数在总数N中所占的比例, 用VR来表示,其公式为: l(注意公式中不是减掉Mo) lfMo:众数的频数,N是总体容量。 l0VR1 (用小数来表示) N

31、fN VR Mo 675. 0 1262 4101262 N fN VR o M Notice l(1)异众比率是一个“比率”,而不是一个 变量值。 l(2)只要有众数,就有异众比率。因此异 众比率可以适用于众数适用的那些变量。 l(3)简单而易于计算,但是忽略了众数以 外的其他值的分布情况。 六六、离散系数、离散系数 (Coefficient of VariationCoefficient of Variation)CV l 离散系数也叫做变差系数或者标准差系数,它是 指标准差与算术平均数的比值,用百分比百分比来表示, 记为CV,其计算公式是: l 离散系数是一种相对的离散统计值,它使我们能

32、 够对同一总体中的两种不同的离散统计量进行比 较,或者对两个不同总体中的同一离散统计量进 行比较。 100% X S CV 【例【例8】一项调查得到下列结果:某市人均月收入为】一项调查得到下列结果:某市人均月收入为 92元,标准差为元,标准差为17元;人均住房面积元;人均住房面积7.5平方米,标平方米,标 准差准差1.8平方米。试比较该市人均收入和人均住房情平方米。试比较该市人均收入和人均住房情 况哪一个差异程度更大。况哪一个差异程度更大。 l 解:解:人均收入的离散系数为:人均收入的离散系数为: l人均住房面积的离散系数为:人均住房面积的离散系数为: l可见人均住房面积的差异情况比人均收入的可见人均住房面积的差异情况比人均收入的 差异情况要大。差异情况要大。 18.5%100 92 17 100% X S CV %42%100 7.5 1.8 100% X S CV 【例【例9】对广州和武汉两地居民生活质量调查发现,广】对广州和武汉两地居民生活质量调查发现,广 州居民平均收入为州居民平均收入为680元,标准差为元,标准差为120元;武汉居民元;武汉居民 平均收入为平均收入为360元,标准差为元,标准差为80元。问广州居民相互之元。问广州居民相互之 间在收入上的差异程度,与武汉居民相互

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论