第2章 描述性统计_第1页
第2章 描述性统计_第2页
第2章 描述性统计_第3页
第2章 描述性统计_第4页
第2章 描述性统计_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章描述性统计描述性统计(descriptivestatistics)是一套用來整理和慨括数据的方法,它可以很快地显示出数据的基本倾向性,揭示你在什么地方值得使用统计推断的方法去更详细地考察数据第一节概述

描述性统计数值指标包括:(1)集中位置的指标,用以描述观察值的平均水平。如算术均数、几何均数、中位数、众数、百分位数等。(2)资料变异的指标,用以描述观察值间参差不齐的程度,即离散度或称变异度。如全距、标准差、方差、变异系数、四分位数间距等。第一节概述

描述性统计的表、图形式包括:(1)频数分布表(2)条形图、直方图、茎叶图、盒形图设原始观察值共n例,为X1,X2,……,Xn

。和(SUM):∑X=X1+X2+……+Xn。

平方和,SS(SUMOFSQUARE):∑X2=X12+X22+……+Xn2平方和又记为USS(UNCORRECTEDSUMOFSQUARE)

离均差平方和,记为CSS(CORRECTEDSUMOFSQUARE):

第二节

频数分布表频数表的编制编制步骤:

1.求极差(即全距)R;

2.确定组数n、组距i,并写出组段;

3.列表划记。某市1995年110名7岁男童的身高资料(cm)114.4119.2124.7125.0115.0112.8120.2110.2120.9120.1125.5120.3122.3118.2116.7121.7116.8121.6115.2122.0121.7118.8121.8124.5121.7122.7116.3124.0119.0124.5121.8124.9130.0123.5128.1119.7126.1131.3123.8114.7122.2122.8128.6122.0132.5122.0123.5116.3126.1119.2126.4118.4121.0119.1116.9131.1120.4115.2118.0122.4114.3116.9126.4114.2127.2118.3127.8123.0117.4123.2119.9122.1120.4124.8122.1114.4120.5115.0122.8116.8125.8120.1124.8122.7119.4128.2124.1127.2120.0122.7118.3127.1122.5116.3125.1124.4112.3121.3127.0113.5118.8127.6125.2121.5122.5129.1122.6134.5118.3132.8本例资料,最大值为134.5cm,最小值为110.2cm,故极差

R=134.5-110.2=24.3cm组数不宜太多,也不宜太少。一般根据样本量的多少分成8-15组。本例假设分成10组。理论上组距等于极差除以组数。但不拘泥于计算结果,而常常取一个比较好处理的数。组距可以相等,也可以不等。本例,组距=24.3/10=2.43,我们取为2cm。组段:上限、下限列表划记某市1995年110名7岁男童身高的频数分布表身高组段频数频率(%)累计频数累计频率(%)110~

1

0.91

1

0.91112~

3

2.73

4

3.64114~

9

8.18

13

11.82116~

9

8.18

22

20.00118~

15

13.64

37

33.64120~

18

16.36

55

50.00122~

21

19.09

76

69.09124~

14

12.73

90

81.82126~

10

9.09100

90.91128~

4

3.64104

94.55130~

3

2.73107

97.27132~

2

1.82109

99.09134~136

1

0.91110100.00合计110100.00频数表的用途

根据频数表,进而可以绘制频数图。揭示资料的分布特征和分布类型;资料的分布范围、峰(单峰或多峰)和离散情况。对于单峰分布资料,

对称分布,其中一种特殊的分布叫做正态分布;非对称分布,又称偏态分布。便于发现可疑值;便于进一步计算指标和统计分析处理。第三节集中位置的度量

一、算术平均数(ArithmeticMean)

简称为均数(Mean),总体均数用希腊字母μ表示,样本均数用表示。

x=nxxxn+++L21=鍈nx/

适用于服从正态分布的资料。一、算术平均数=120一、算术平均数

x为每个组段的组中值,f为相应组段的频数。原理:将落在某一组段内的观察值都视为组中值。本例:=(4.0×4+4.2×5+……+5.8×3)/120=595.8/120=4.965

如用原始观察值计算有=(5.195+5.070+……+5.010)/120=4.959二、几何均数(GeometricMean)

几何均数用G表示,为观察值的总乘积开n次方根,有

常用对数计算,公式如下:

LogG=∑logX/n再查反对数得出G。列成频数表时计算公式如下:

LogG=∑flogX/Σf适用条件:1.成倍数关系的资料。2.明显正偏态分布的资料。二、几何均数(GeometricMean)二、几何均数(GeometricMean)

例3.36例钩端螺旋体病人的潜伏期分别为7,10,12,14,18,20天,求其平均潜伏期。

解:

或者lgG=(lg7+lg10+……+lg20)/6=1.1045

查反对数得G=12.7(天)

二、几何均数(GeometricMean)当为滴度资料时,如5名学龄儿童的麻疹血凝抑制抗体滴度为1:25,1:50,1:50,1:100,1:100,可先取其倒数,25,50,50,100,100,再求取几何均数为57.43,则平均抗体滴度为1:57。

三.中位数(Median)

中位数用M表示,它将总体或样本的全部观察值分成两部分,每部分各有50%个观察值。计算方法为:先将原始观察值按由小到大顺序排列后,位次处于中间的那个观察值为中位数。观察值数为奇数时,处于中间的那个数为中位数。偶数时处于中间的两个数的均数为中位数。

三.中位数(Median)如求数列7,10,12,14,18,20的中位数。n=6,为偶数,取中间两个数的平均数,则

M=(12+14)/2=13(天)如求数列7,10,12,14,15,18,20的中位数。n=7,为奇数,取中间那个数为中位数。则

M=14(天)三.中位数(Median)适用于表示任何分布资料的平均水平。但常用于非正态分布资料。由于中位数不受个别特大,特小数值的影响,因此它比均数稳健,常用于资料分布不明,或明显偏态,或分布的一端无确定值的情况。

四.众数(Mode)

频数最大的变量值称为众数。列成频数表的资料,频数最大的组段的组中值为众数。

集中趋势的测度

五.百分位数(Percentile)

第X百分位数以Px表示,它将总体或样本的全部观察值分成二个部分,其中有x%个观察值小于Px,(100-x)%个观察值大于Px。用途:1.描述一组资料在各个百分位置上的水平,用一组百分位数如P5,P25,P50,P75,P95,可以描述总体或样本的分布特征,如集中位置、变异度等。百分位数70%下侧30%上侧第70个百分位数值四分之一分位数=25%四分之二分位数=50%五.百分位数(Percentile)

2.确定医学正常值范围。

P25称为第1四分位数;记为Q1。P50称为第2四分位数;记为Q2,就是中位数MP75称为第3四分位数;记为Q3。

计算百分位数时,特别是靠近两端的百分位数时,要求例数足够大,大于100例。

五.百分位数(Percentile)例:用直接法计算例3.2资料共120例的第5百分位数,用频数表法计算第95百分位数,解:将原始观察值由小到大排列,得3.980,4.065,4.070,4.070,4.2150,4.250,4.260,4.290,……5.850,5.875先确定第x百分位数在第几位。用公式:(n+1)×x%五.百分位数(Percentile)本例(120+1)×5%=6.05,第5百分位数在第6.05位,即第6到第7位之间。简单的算法是取第6和第7位数的平均值,P5=(4.250+4.260)/2=4.255(1012/L)。五.百分位数(Percentile)五.百分位数(Percentile)计算P951.列出频数分布表,计算累计频数。2.计算nx%,120×95%=1143.对照累计频数栏与nx%确定PX应落在哪一个组段中。114将在组限为5.5~的组中,该组段下限为L,组距为i,频数为f,上一组累积频数为Σfl。PX=L+i(nx%-Σfl)/f,P95=5.5+0.2×(114-108)/9=5.633(1012/L)第三节离散程度的指标1.全距(Range)是最大与最小观察值之差。全距计算方便,但仅利用最大与最小二个数据来代表全部数据的离散程度,信息利用差。全距受特大与特小值影响大,不稳定。

2.四分位数间距(InterquartileRange)

第三节离散程度的指标四分位数间距是第3四分位数与第1四分位数之差,即P75-P25。四分位数间距受特大值或特小值影响小,较稳定。中位数和四分位数间距相结合常用于表示非正态分布资料的平均水平和离散程度。第三节离散程度的指标3.标准差与方差(StandardDeviationandVariance)总体的标准差,方差符号为σ,σ2,样本的标准差,方差符号为S,S2。第三节离散程度的指标当为频数表资料时,公式如下:方差S2是标准差S的平方值。标准差(或方差)越大,表示观察值的分布越分散,反之,标准差(或方差)越小,表示观察值的分布越集中。实际应用时常以均数±标准差的写法综合观察值的集中和离散特征。

第三节离散程度的指标4.变异系数(CoefficientofVariation)简记为CV,它是标准差与均数之比,用百分数表达。由于CV无量度单位,而且消除了原始资料的平均水平的影响,因此常用于比较量度单位不相同的指标或者平均水平相差悬殊的指标的变异程度。第三节离散程度的指标

偏态系数(skewness):

评价正态分布对称性的指标。对称:skewness=0;正偏态:skewness>0;个别数据特别大。负偏态:skewness<0;个别数据特别小。

峰态系数(kurtosis):评价正态分布正态峰的指标。正态峰:kurtosis=0;

尖峭峰:kurtosis>0;

平阔峰:kurtosis<0;第四节统计表与统计图统计图表都是将已整理好的资料用简明的格式或图形表达出来,因此是表达和分析统计资料的重要工具。统计表可以代替冗长的文字叙述,便于计算、分析和对比。统计图则具有问题突出,简单明了,形象化等优点,能使人一目了然。但统计表不形象,统计图对数字的反映不精

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论