社会统计学-卢淑华(第4版)-第2章x.ppt_第1页
社会统计学-卢淑华(第4版)-第2章x.ppt_第2页
社会统计学-卢淑华(第4版)-第2章x.ppt_第3页
社会统计学-卢淑华(第4版)-第2章x.ppt_第4页
社会统计学-卢淑华(第4版)-第2章x.ppt_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第2章 单变量描述统计分析,第1节 统计分组,一、分布(distribution),变量各种可能取值及其出现的次数或频次,又称频次分布。 频数、频次、次数(frequency),二、统计表,多选项二分法,多选项二分法,多选项分类法,P26 例2 P27 例3,3、加权平均法,P28 例4,(二)定序变量,(三) 定距变量,统计分组的步骤(等距、重合、组距式分组),第一:确定组数。,经验公式 k=1+lgn/lg2,k =1+lg100/lg2=7.64,第二:确定组距。,组距 =(最大值-最小值)/组数 =(1.56-1.27)/10=0.029,原则:以5或10的倍数作为组距。本例选择:0.

2、03,第三:确定组限。,要求:第一组下限要小于所有数据的最小值,最后一组上限要大于所有数据的最大值,原则:以5或10的倍数作为组限。,(三) 定距变量,统计分组的步骤(等距、重合、组距式分组),第四:计数。,以0.03作为组距的分组情况。 1.265-1.295;1.295-1.325,,1.255-1.285;1.285-1.315,,1.245-1.275;1.275-1.305,,(三) 定距变量,表2.11 100名儿童身高统计分组表,向上累计:由低到高,上限以下 向下累计:由高到低,下限以上,思考:360体 您本次开机共用时1分10秒,击败了全国12%的电脑,关于统计分组的个人认识,

3、原则:统计分组没有对错,只有好坏。,开口组实际中应用更广。,极端值,extreme value,判断依据:发生概率非常小,后果很严重,911事件,2004印度洋海啸,飞机失事、英法核潜艇相撞、美、俄卫星相撞,股灾,亚洲金融危机,图2.1 家庭结构分布图,饼图(Pie),条形图 bar,100名儿童身高向上累计直方图,100名儿童身高向下累计直方图,父亲身高(800名),母亲身高(800名),父亲体重(800名),母亲体重(800名),分年龄别的死亡率,三次产业构成比,数据描述的数值方法,数据描述的数值方法,分布的形状,集中趋势,离散程度,众 数,中位数,均 值,离散系数,方差和标准差,峰 度,

4、四分位距,极差,偏 态,第2节,第3节,一、众数(Mode) 概念 :出现次数最多的标志值 计算 (一)定类数据 表2.5 P24,第二节:集中趋势的测量,Mo=“核心家庭”,(二)定序 表2.7 P29,Mo=“不爱看”,Mo=“一般”,(三)定距,1.未分组资料 表2.10,2.单项式 表2.14,3.组距式 表2.11,Mo=1.38,1.39,1.40,1.41,1.42,1.43,1.44,Mo=1,2,Mo=1.40,1.43,二、中位数Median,(一)定序 表2.7 找中位数组:向上累计次数首次超过N/2的组即为中位数组; 该组的标志值即为中位数值,Me=“一般”,(二)定距

5、,1.未分组资料 表2.10,方法:中位数位置=(N+1)/2,概念解释:次序统计量 (order statistics),表2.10,2.分组资料,(1)单项式分组 表2.18 向上累计次数首次超过N/2的组即为中位数组; 该组的标志值即为中位数,Me=“乙”,(三)组距式分组,首先确定中位数组;使用公式 下限公式: 上限公式:,公式中各字母含义,U:中位数组的上限; L:中位数组的下限; fm:中位数组的频数; Sm-1:向上累计时中位数组前一组的累计频数, 即中位数前一组所对应的向上累计频数; Sm+1:向下累计时中位数组后一组的累计频数 即中位数后一组所对应的向下累计频数; i:中位数

6、组的组距。,f 2,x,向上累计,Sm-1,Sm,L,U,Me,A,b,中位数组 前一组,中位数组,B,C,a,E,D,下限公式,Me=L+a,上限公式,Me=U-b,下限公式推导,表2.11 100名儿童身高统计分组表,f,中位数组次数,中位数组 上限,首次大于 50%,首次大于 50,中位数组前一组所对应向上累计次数,中位数组,中位数组 下限,L=1.385,U=1.415,fm=24,Sm-1=34,i=0.03,西藏,辽宁,天津,上海,图1 我国分地区人口年龄中位数(2000年),北京,河南,三、四分位数(quartile),概念:数据排序后处在25%,50%和75%位置上的数。,25

7、%,25%,25%,25%,Q1,Q2,Q3,Q2=Me,(一)定序 表2.7 找Q1、 Q2、 Q3所在组 Q1所在组:向上累计次数首次超过f/4的组; Q2所在组:向上累计次数首次超过f/2的组; Q3所在组:向上累计次数首次超过3f/4的组;, Q1 = Q1所在组标志值; Q2 = Q2所在组标志值; Q 3= Q3所在组标志值;,19.5,9.75,Q1所在组,Q1=“不爱看”,Q2所在组,Q2=“一般”,29.25,Q3所在组,Q3=“爱看”,(二)定距数据,1、未分组资料(spss版本),Q1位置=(n+1)/4; Q2位置=(n+1)/2; Q3位置=3(n+1)/4,表2.1

8、0 Q1位置=(n+1)/4=25.25; Q2位置=(n+1)/2=50.5; Q3位置=3(n+1)/4=75.75,Q1=x(25)+0.25 x(26)-x(25)=1.37+0.25 1.37-1.37=1.37,Q2=x(50)+0.5 x(51)-x(50)=1.4+0. 5 1.41-1.4=1.405,Q3=x(75)+0.75 x(76)-x(75)=1.44+0.75 1.44-1.44=1.44,(二)定距数据,1、未分组资料(excel版本),Q1位置=(n+3)/4; Q2位置=(n+1)/2; Q3位置=(3n+1)/4,表2.10 Q1位置=(n+3)/4=25

9、.75; Q2位置=(n+1)/2=50.5; Q3位置=(3n+1)/4=75.25,Q1=x(25)+0.75 x(26)-x(25)=1.37+0.75 1.37-1.37=1.37,Q2=x(50)+0.5 x(51)-x(50)=1.4+0. 5 1.41-1.4=1.405,Q3=x(75)+0.25 x(76)-x(75)=1.44+0.25 1.44-1.44=1.44,Excel 操作 :quartile,2.分组资料 (1)单项式分组 找Q1、 Q2、 Q3所在组 Q1所在组:向上累计次数首次超过f/4的组; Q2所在组:向上累计次数首次超过f/2的组; Q3所在组:向上累

10、计次数首次超过3f/4的组;, Q1 = Q1所在组标志值; Q2 = Q2所在组标志值; Q 3= Q3所在组标志值;,(2)组距式分组,使用公式, 找Q1、 Q2、 Q3所在组 Q1所在组:向上累计次数首次超过f/4的组; Q2所在组:向上累计次数首次超过f/2的组; Q3所在组:向上累计次数首次超过3f/4的组;,表2.11 100名儿童身高统计分组表,f,首次大于 50,首次大于 25,Q3所在组,首次大于 75,Q1所在组,Q2所在组,L1=1.355,U1=1.385,表2.11 100名儿童身高统计分组表,三、均值,(一)未分组资料(简单算术平均数),(二)分组资料(加权算术平均

11、数),三、均值,(一)未分组资料(简单算术平均数),(二)分组资料(加权算术平均数),例 2.10,Excel 内置函数 =average(),例 2.11,Excel 内置函数 sumproduct(),sum(),众数、中位数和算术平均数的关系,分配为钟形、轻微不对称的经验公式:,第三节:离散趋势测量法,数据集中趋势的测度指标确实能反映某种事物的一般水平,在比较不同空间和时间上的情况是能消除规模大小的影响,是衡量其差距的重要指标。但只依据平均指标来评价事物的优劣远远不够。因为总体内部各单位标志值具有差异,有高低、大小、多少之别。就总体而言,平均数背后隐藏最大值与最小值之间的差距,有的差距不

12、大,有的则非常悬殊。总体内部各单位标志值差距悬殊的平均数就掩盖着尖锐的矛盾,让人们感到不真实。所以,在反映具体问题时,除了从集中趋势角度分析外,还应把总体内部各单位标志值中最大值、最小值及其差距摆出来,要列出平均差异大小和差异的相对程度,即要对待研究现象进行离散程度的测度。,一、异众比率,异众比率=1-1050/2130=50.70%,一、异众比率 (定类数据),2.全距(Range),全距也称极差,是一组数据的最大值与最小值之差。 R=最大值-最小值 组距分组数据可根据最高组上限 -最低组下限计算。 受极端值的影响。,1.未分组资料 表2.10,R=1.56-1.27=0.29,Excel操

13、作,最大值 =max(),=large(data,1),最大值 =min(),=large(data,1),2. 分组资料 表2.11,R=1.565-1.265=0.3,等于上四分位数与下四分位数之差 反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。 不受极端值的影响。 可以用于衡量中位数的代表性。,2 四分位距(Inter-Quartile Range, IQR),2,2,3,4,4,4,5,5,6,6,7,Q1=3, Q2=6, Q3=6,方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。 总体方差和样本方差的符号不同,计算公式也不一样。 是反映

14、定量数据离散程度的最常用的指标。,3 方差和标准差,方差的计算公式,样本方差用(n-1)去除,从数学角度看是因为它是总体方差2的无偏估计量。,P56.表2-26,(一)未分组资料,Excel操作,总体方差 =varp(data),总体标准差 =stdevp(data),样本方差 =var (data),样本标准差 =stdev(data),(二)分组资料,表2.11,4 离散系数(Coefficient of Variation),标准差与其相应的均值之比,表示为百分数。 特点: 反映了相对于均值的相对离散程度; 可用于比较计量单位不同的数据的离散程度; 计量单位相同时,如果两组数据的均值相差

15、悬殊,离散系数可能比标准差等绝对指标更有意义。,离散系数:例子,对30名经理人员的调查表明年平均收入=$500,000,标准差 = $50,000。 对30名工人的调查表明平均收入= $32,000,标准差 = $5,000。 离散系数: 经理人员: 工人: 虽然经理人员收入的绝对离散程度远远大于工人,但经理人员收入的相对离散程度小于工人。,1 偏态及其测定(Skewness),数据分布的不对称性称作偏态。 偏态系数就是对数据分布的不对称性(即偏斜程度)的测度。 偏态系数有多种计算方法,在统计软件中(如Excel等)通常采用以下公式:,Excel操作:=skew(data),偏态系数的含义,2 峰度及峰度系数(Kurtosis),峰度:数据分布的扁平或尖峰程度。 峰度系数:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论