医学统计学:第二章 统计资料的整 理与描述_第1页
医学统计学:第二章 统计资料的整 理与描述_第2页
医学统计学:第二章 统计资料的整 理与描述_第3页
医学统计学:第二章 统计资料的整 理与描述_第4页
医学统计学:第二章 统计资料的整 理与描述_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第二章

统计资料的整理与描述2主要内容个体变异

(individualvariation)频数分布

(frequencydistribution)

集中趋势

(centraltendency)

离散趋势

(tendencyofdispersion)

3个体变异个体变异(individualvariation)是同质观察对象间表现出的差异。变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。就每个观察单位而言,其观察指标的变异是随机的(random)。就总体而言,个体变异是有规律的。4个体变异是统计学应用的前提个体变异抽样误差统计推断5个体变异生物体的变异是普遍存在的,是客观事实,无法准确预测。这种变异是有规律的,是可以认识的。6一个原始资料某市1997年12岁男童120人的身高(cm)资料如下。

142.3156.6142.7145.7138.2141.6142.5130.5134.5148.8134.4148.8137.9151.3140.8149.8145.2141.8146.8135.1150.3133.1142.7143.9151.1144.0145.4146.2143.3156.3141.9140.7141.2141.5148.8140.1150.6139.5146.4143.8143.5139.2144.7139.3141.9147.8140.5138.9134.7147.3138.1140.2137.4145.1145.8147.9150.8144.5137.1147.1142.9134.9143.6142.3125.9132.7152.9147.9141.8141.4140.9141.4160.9154.2137.9139.9149.7147.5136.9148.1134.7138.5138.9137.7138.5139.6143.5142.9129.4142.5141.2148.9154.0147.7152.3146.6132.1145.9146.7144.0135.5144.4143.4137.4143.6150.0143.3146.5149.0142.1140.2145.4142.4148.9146.7139.2139.6142.4138.7139.97由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的;现状:医学研究得到的原始数据(rawdata)往往是庞大的、混乱的。但变异也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution)。解决:频数分布表,频数分布图。2.1频数表与频数分布8频数表的编制(frequencydistributiondrawings)2.1频数表与频数分布求极差(R)。

R=160.9-125.9=35划分组段。定组数、组段、组距统计频数。9计量资料的频数、频率分布组段频数频率

124~ 1 0.0083128~ 2 0.0167132~ 10 0.0833136~ 22 0.1834140~ 37 0.3083144~ 26 0.2167148~ 15 0.1250152~ 4 0.0333156~ 2 0.0167160~ 1 0.0083合计 120 1.000010计量资料的频数分布xFreq.124~1*128~2**132~10**********136~22**********************140~37*************************************144~26**************************148~15***************152~4****156~2**160~1*Total120

11124~128~132~136~140~144~148~152~156~160~#################################################################################################################$$$$###计量资料的频数分布12124132140148156164010203040人数图某市120名12岁男童身高的频数分布计量资料的频数分布13分类资料的频数分布血型 频数 频率(%)O 205 40.43A 112 22.09B 150 29.59AB 40 7.89合计 507 100.0014分类资料的频数分布图OABAB15EXCEL制作的频数图16EXCEL制作的频率图17总结定量资料:将定量资料人为地划分为若干个相连接的区间,统计每个区间所包含的观察值数。定性资料:根据指标值的不同属性,归类统计各类的频数分布。频数分布用于表达指标的分布规律。分布规律:变异规律。

2.1频数表与频数分布18频数分布的类型

typesoffrequencydistribution对称分布

symmetricdistribution

偏态分布skewnessdistribution2.1频数表与频数分布19124132140148156164010203040人数身高(cm)对称分布2.1频数表与频数分布20偏态分布正偏态(positiveskew)

负偏态(negativeskew)

2.1频数表与频数分布21偏态(skewness):Skewnessmeansthelackofsymmetryinaprobabilitydistribution.

(TheCambridgeDictionaryofStatisticsintheMedicalSciences.)Anasymmetricdistributioniscalled

skew.

(Armitage:StatisticalMethodsinMedicalResearch.)2.1频数表与频数分布22非对称分布称为skewness;俗称偏态分布,有人称偏峰分布。“偏”是偏离的意思,表示个别观察值偏离均数较远,而不是“集中位置偏”;2.1频数表与频数分布23

“分布不对称者称为偏态分布。偏态分布又分为正偏分布和负偏分布。所谓正偏分布是指分布的长尾在峰的右侧,又称右偏分布;所谓负偏分布是指分布的长尾在峰的左侧,又称左偏分布。”2.1频数表与频数分布2470

3

5

7

9

11

13

15

17

19

21

10

20

30

40

50

60

0

1

人数大多数居民发汞含量在1~15

mol/kg之间,少数人的发汞大于15mol/kg,分布呈正偏态。发汞含量(

mol/kg)(a)239人发汞含量的频数分布25图某城市892名老年人生存质量自评分的频数分布0102030405060708090100自评分4003002001000人数260

5

10

15

20

25

30

35

40

45

0

10203040

(b)102名黑色素瘤患者的生存时间频数分布人数生存时间(月)患者生存时间大部份在30个月内,少数达45个月,分布呈极度偏态,又称L型分布。27图某地1990~1992年男性死亡年龄分布

0510152025

303540

455055606570758085死亡年龄(岁)2500200015001000500028频数分布表的用途观察有无可疑值

;便于进一步计算

;考察分布的类型

;考察分布的特征

;2.1频数表与频数分布集中位置(CentralTendency)离散趋势(TendencyofDispersion)292.2统计资料的描述图形描述

频数分布图 趋势图……指标描述

集中位置:算术均数、几何均数、中位数、百分位数

离散程度:极差、标准差、方差、四分位数间距30均数(arithmeticmean,mean)

几何均数(geometricmean)中位数(median)百分位数(percentile)2.2集中趋势的描述(average)312.2集中趋势的描述均数(arithmeticmean,mean)32加权均数(weightedmean)

均数是加权均数的一个特例2.2集中趋势的描述33均数的应用:最适于对称分布资料,特别是正态分布资料;对于偏态资料,均数不能较好地反映其集中趋势。我也知道了!34几何均数(geometricmean)

加权法:

flgx

fG=lg-1直接法:2.2集中趋势的描述35几何均数例1:10,1:20,1:40,1:80,1:16036几何均数的应用:1.等比资料,如抗体平均滴度2.对数正态分布资料Remember!37使用几何均数时的注意点:1)观察值不能有0。2)观察值不能同时有正值和负值。若全为负值,在计算时先把负号去掉,得出结果再加上负号。Becareful!38中位数(median)

将一组数据按从小到大的顺序排列,位置居中的数即是中位数。2.2集中趋势的描述39中位数例9例正常人的发汞值:

1.1,1.83.54.24.85.65.97.110.5

M=4.89例正常人的发汞值:

1.1,1.83.54.24.85.65.97.1>16

M=4.810例正常人的发汞值:

1.1,1.83.54.24.85.65.97.110.5>16

M=(4.8+5.6)/2=5.240百分位数(percentile)X%

PX

(100-X)%50%分位数就是中位数25%,75%分位数称四分位数(quartile)

41中位数的应用:中位数常用于描述偏态资料,开口资料,有不确定值的资料的集中趋势;中位数和均数在对称分布上理论上是相同的。42百分位数的应用:百分位数用于描述某个观察序列在某百分位置上的水平。常用于确定参考值范围,亦称正常值范围。43平均数应用的注意事项同质的资料计算平均数才有意义。均数适用于:单峰对称分布的资料几何均数适用于:对数变换后单峰对称的资料中位数适用于:任何分布资料,有不确定值的资料44只用平均数描述资料的弊病

Ithasbeensaidthatafellowwithonelegfrozeniniceandtheotherleginboilingwateriscomfortable.

ONAVERAGE!例如,设有三组同年龄、同性别儿童体重(kg)数据如下:甲组2628303234乙组2427303336丙组2629303134

2.3离散程度的描述4647描述离散程度的指标:极差(range)四分位数间距(inter-quartilerange)

方差(variance)标准差(standarddeviation)变异系数(coefficientofvariation)

48(一)极差(range)极差(全距),用字母R表示,描述数据分布的范围。极差大,说明数据分布较分散。49特点方法简单明了;不灵敏,除了最大最小值外,不能反映组内其他数据的变异;不稳定,样本较大时抽到较大值与较小值的可能性也较大,因而样本极差也较大,故样本含量相差较大时,不宜用极差来比较分布的离散度。50如上述三组数据中:甲组数据的极差R=34-26=8乙组数据的极差R=36-24=12丙组数据的极差R=34-26=8甲组、丙组数据分布较乙组集中。甲组与丙组的离散程度相同?51(二)四分位数间距

(inter-quartilerange)

(1)四分位数

(quartile,Q)下四分位数即第25百分位数,常用QL表示;上四分位数即第75百分位数,常用QU表示。52

(2)四分位数间距指上、下四分位数的间距,既QL与QU间的差距,它是从小到大排列后中间一半数据所在的范围。

53(三)方差与标准差

54(三)方差与标准差

55(三)方差与标准差

56(三)方差与标准差

57(三)方差与标准差

58(三)方差与标准差

59(三)方差与标准差

60(三)方差与标准差

61(三)方差与标准差

62标准差的计算直接法

总体标准差:样本标准差:63加权法

xi是各组段的组中值,fi是相应的频数64甲组:

2628303234乙组:

2427303336丙组:

2629303134

极差 方差 标准差甲组:8 10.0 3.16乙组:12 22.5 4.74丙组:8 8.5 2.9265(四)变异系数

变异系数(coefficientofvariation,CV)66由于度量单位不同,故不能直接比较两者

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论