数值变量的统计描述_第1页
数值变量的统计描述_第2页
数值变量的统计描述_第3页
数值变量的统计描述_第4页
数值变量的统计描述_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数值变量的统计描述第一节频数与频数分布

(frequencydistribution)

频数分布表,又称频数表,是对样本量较大的资料进行统计描述的常用方法。通过频数表可以显示数据分布的范围与形态。例1:某地用随机抽样方法检查140名成年男子的红细胞数5.953.82一、连续型数值变量的频数分布频数表(frequencytable)的编制:求极差(range):R=Max-Min=5.95-3.82=2.13确定组段数、组距和组段1.确定组段数(k):通常10-15个。2.确定组距(i):相邻两组段的最小值(下限)之差,一般用等距。i=R/k,一般取整取偶数。3.确定组限:界限分明,每个组段的起点称下限,终点称上限。最末一行应同时写出下限和上限。

4.列表划记:得到各组段的观察单位数。红细胞数(×1012/L)组中值频数频率(%)

3.80~3.902

1.44.00~4.106

4.34.20~4.3011

7.94.40~4.502517.94.60~4.703222.94.80~4.902719.35.00~5.101712.15.20~5.3013

9.35.40~5.504

2.95.60~5.702

1.45.80~6.005.901

0.7表2-2某地140名正常男子红细胞数频数表直方图频数分布表的用途可以替代繁琐的原始资料,便于进一步分析;便于观察数据的分布类型;便于发现资料中某些远离群体的特大或特小的可疑值;样本含量较大时,可用各组段的频率作为概率的估计值。频数分布的类型对称分布偏态分布正偏态:负偏态:二、离散型数值变量的频数分布例2:1998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,……….,4,7。表2-1是96名妇女产前检查次数分布的频数表表2-11998年某地96名妇女产前检查次数分布检查次数频数频率(%)累计人数累计频率

044.244.2177.31111.521111.52222.931313.53536.542627.16163.552324.08487.5

>51212.596100.0

合计96100.0--第二节集中趋势指标集中趋势指标用于描述一组同质计量资料的集中趋势或反映一组观察值的平均水平。常用的平均数有算术均数、几何均数及中位数三种。一、算术均数(mean)算术均数简称均数。X表示变量X的样本均数,(希腊字母)表示总体均数。均数适用于对称分布资料,正态或近似正态分布资料。计算方法直接法:当样本含量n较小时,可选用此法。设有n个观察值,分别为X1,X2……,Xn,均数的计算公式为:例1.10名12岁男孩身高(cm)分别为125.5,126.0,127.0,128.5,147.0,131.0,132.0,141.5.122.5,140.0。求平均数。加权法:当样本含量n较大时,一般将观察值分组,列出频数表,再用加权法计算均数。其计算公式为:式中f为各组的频数,x为各组的组中值。1.编制频数表(1)求全距:R=183.5-162.9=20.6(cm)(2)求组段和组距:20.6÷10=2.06,取整数2.0cm为组距;第一组段的下限为162(3)列出频数表:表7-1中第3列为组中值X,计算方法是将本组下限和下组下限相加除以2,如第一组X1=(162+164)/2=163cm,余此类推。第4列fX是频数f和组中值X的乘积。2.根据公式计算110名20岁健康男大学生的身高均数为172.73cm。二、几何均数

(geometricmean,G)几何均数用G表示。适用于对数正态分布资料或等比资料,例如抗体的平均滴度和平均效价。计算方法:直接法:样本含量n较小时,选用此法。有n个观察值X1,X2,……Xn,几何均数的计算公式为:上式计算时需作连乘,还要开n次方,比较麻烦,一般采用对数形式计算。例.6份血清抗体滴度为:1:2,1:4,1:8,1:8,1:16,1:32,求平均数。几何平均滴度为1:8

102名健康人的钩端螺旋体血清抗体平均滴度抗体滴度(1)人数f(2)滴度倒数X

(3)

lgX(4)

flgX(5)=(2)(4)

1︰100

7

100

2.000

14.000

1︰200

19

200

2.301

43.719

1︰400

34

400

2.602

88.468

1︰800

29

800

2.903

84.187

1︰1600

13

1600

3.204

41.652合计

102

272.026三、中位数(median,M)将一组观察值从小到大按顺序排列,位次居中的观察值就称中位数。用M表示。中位数适用于任何一种分布的计量数据,一般多用于描述偏态分布或数据一端无界资料的集中趋势。计算方法直接法:样本含量n较小时,可根据下式计算:n为奇数时n为偶数时某病患者5人潜伏期分别为2,4,6,7,20,求中位数。本例n=5,为奇数天若上例在第25天又发现一例患者,患者数增加为6名频数表法:样本含量n较大时计算中位数可用频数表法。将观察资料归纳成频数表,计算累计频数,按下式计算。L为本组(中位数所在组)下限,i为本组组距,f为本组频数,ΣfL为上一组的累计频数。本组位置可根据累计频数的数值来判断。当某一组的累计频数首先超过n/2时或累计频率首先超过50%时,即定为本组。107名正常人尿铅含量分布尿铅(mg/l)例数f累计频数ΣfL累计频率(%)

0~

14

14

13.1

4~

22

36

33.6

8~

29

65

60.7

12~

18

83

77.6

16~

15

98

91.6

20~

6

104

97.1

24~

1

105

98.1

28~

2

107

100.0附:百分位数(PX)百分位数是一种位置指标,用PX表示。对总体来说,它表示总体中数值小于PX的个体恰有X%;对样本来说,它表示按照升序排列的数列里小于PX的个体恰占X%百分位数是一个有序数列百等分的分割值。第50百分位数(P50)也就是中位数,中位数是一个特定的百分位数。计算公式:对上例的资料计算P25,P75。求P25,由第4栏可见,第2组的累计频率超25%,该组即P25所在组。求P75,同理P75在第4组段内第三节离散趋势指标两组计量数据如下,分析其分布特征。甲组:98,99,100,101,102乙组:80,90,100,110,120两组数据的均数都是100,说明集中趋势相同。但两组数据的分布特征不尽相同,5个数据间的参差不齐的程度不一样。甲组数据的变化范围较小,而乙组数据的变化范围较大,即两组的离散度不同,离散度是一个非常重要的统计指标。一、全距(range,R)亦称极差,用R表示,是一组观察值中最大值与最小值之差,反映个体差异的范围。全距大,说明变异度大;反之,说明变异度小。如上例中甲组全距为4,乙组全距为40,表明乙组变异度大。但全距除了最大值和最小值之外,不能反映组内其它数据的变异度;易受个别数据的影响,稳定性较差,抽样误差较大,而且还受n大小的影响,平均起来,n越大,全距越大。二、四分位数间距

(quartilerange,Q)四分位数间距是两个特定的百分位数之差,用Q表示Q=QU-QL=P75-P25适用于任何分布的计量资料,尤其适用于偏态分布的资料(不宜用标准差表示离散度)四分位数间距比全距稳定,但仍然未考虑到每个观察值的变异。三、方差与标准差为克服全距的缺点,应全面考虑组内每个观察值的离散情况。可考虑以总体中每个变量值X与总体平均数之差,称为离均差X-。由于离均差有正有负,其和为0,这样仍不能反映变异度的大小。故将离均差平方后再相加,称离均差平方和为了消除观察值的总个数N的影响,将离均差平方和除以N,这就是总体方差,用σ2表示。方差的单位是原度量单位(如kg)的平方,把总体方差开平方,这就是总体标准差,度量单位与原始观察值一致,即方差(variance)标准差(standarddeviation)实际工作中经常得到的是样本资料,总体均数是未知的,只能用样本均数X代替。这样用代替,用样本含量n代替N,所得的结果比σ偏小。英国统计学家W.S.Gosset提出用n-1代替n,求得样本标准差更接近总体标准差σ,样本标准差用S表示,公式为:上式n-1称为自由度(ν)。样本标准差计算也可用直接法或加权法。n较小时,选择直接法,n较大,选择加权法直接法:由于标准差的计算公式可改写为:计算两组数据的标准差甲组:n=5,ΣX=98+99+100+101+102=500ΣX2=982+992+1002+1012+1022=50010乙组:n=5,ΣX=500,ΣX2

=51000甲组:98,99,100,101,102

乙组:80,90,100,110,120加权法例:求表P7-1中110名20岁男大学生身高的标准差。已知Σf=110,ΣfX=19000,需要在该表中增加fx2栏,由第(3)、(4)栏相乘,再将该栏数据相加,将ΣfX2=3283646代入公式四、变异系数

(coefficientofvariation,CV)适用:(1)比较度量单位不同的多组资料的变异度(2)比较均数相差悬殊的多组资料变异度计算公式为:例:某地20岁男子100人,其身高均数为166.06cm,标准差为4.95cm,其体重均数为53.72kg,标准差为4.96kg。请比较何者变异度较大。由于两者度量单位不同,不能直接比较标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论