医学第二章 定量资料的统计描述课件_第1页
医学第二章 定量资料的统计描述课件_第2页
医学第二章 定量资料的统计描述课件_第3页
医学第二章 定量资料的统计描述课件_第4页
医学第二章 定量资料的统计描述课件_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2019/4/4,1,第二章 定量资料的统计描述,景学安,2019/4/4,2,学习要求 了解:应用SAS程序编制频率表的方法和means、univariate过程对定量资料的描述。 熟悉:定量资料频率表的编制方法和用途。 掌握:算术均数、几何均数、中位数的计算方法和使用条件;四分位间距、方差、标准差、变异系数的计算方法和使用条件。,2019/4/4,3,统计描述是用统计图表、统计指标来描述资料的分布规律及其数量特征的。 第一节 频率分布表与频率分布图 医学研究资料变量值的个数较多时,对个变量值出现的频数或频率列表即为频数分布表或频率分布表(frequency distribution table),简称频数表或频率表。,2019/4/4,4,一、离散型定量变量的频率分布 例2-1 1998年某山区96名孕妇产前检查次数资料,编制频率表。 表2-1 1998年某地96名孕妇产前检查次数频率分布,2019/4/4,5,图2-1 1998年某地96名孕妇产前检查次数频率分布,离散型定量变量的频率分布图可用直条图表达,以等宽直条的高度表示各组频率的多少,2019/4/4,6,二、连续型定量变量的频率分布,例2-2 抽样调查某地120名1835岁健康男性居民血清铁含量(mmo/L),数据如下。试编制血清铁含量的频率分布表。,2019/4/4,7,频率表的编制步骤如下: 1. 计算极差 (range, R),亦称全距,即最大值与最小值之差。本例最大值为29.64,最小值为7.42,故R=29.64-7.42=22.22 (mmo/L)。 2. 确定组段数与组距(class interval) 组段数一般取10组左右。组距用i表示,组距=极差/组段数,本例拟分10组,i=22.22/10=2.22,一般取靠近的整数作为组距,本例取i2。 3. 确定各组段的上、下限 每个组段的起点称为组段的下限,终点称为组段的上限。第一组段要包括最小值,其下限取小于或等于最小值的整数,本例取6最为第一组段的下限(也可取7),最后一个组段要包括最大值。注意各组段不能重合,每组段只写出下限,如6,8,最后一个组段可包括其上限值,如本例2830。 4. 列表 清点各组的频数,计算频率、累积频率数和累计频率。,2019/4/4,8,表2-2 120名正常成年男子血清铁含量(mmo/L)频率分布,2019/4/4,9,图2-2 120名健康成年男子血清铁含量(mol/L)分布,2019/4/4,10,2-2 120名健康成年男子血清铁含量(mmo/L)分布,2019/4/4,11,三、频率分布表(图)的用途 1.揭示资料的分布类型,2019/4/4,12,正偏态(右偏态),负偏态(左偏态),2.观察资料的集中趋势和离散趋势 3.便于发现某些特大或特小的可疑值 4.便于进一步计算统计指标和作统计处理,2019/4/4,13,第二节 描述集中趋势的统计指标,医学定量资料中,描述集中趋势的统计指标主要有算术均数、几何均数和中位数。 一、算术均数(arithmetic mean) 简称均数。均数适用于对称分布或近似对称分布的资料。习惯上以希腊字母 表示总体均数(population mean),以表示样本均数 (sample mean)。常用计算方法有直接法和频率表法(亦称加权法)。,2019/4/4,14,1.直接法,例2-3 测得8至正常大白鼠血清总酸性磷酸酶(TACP)含量 (U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。 本例,(U/L),2019/4/4,15,2.频率表法 当变量值的个数较多时,在编制频率表的基础上,应用加权法计算均数的近似值。,公式中,f 为各组段的频数,X0为各组段的组中值, X0=(组段上限+组段下限)/2。 例2-4,(mmo/L),如用直接法计算, =18.61(mmo/L),2019/4/4,16,表2-3 频数表法计算均数,2019/4/4,17,二、几何均数(geometric mean,) 几何均数使用于原始变量不呈对称分布,但对变量经对数转换后呈对称分布的资料,又称对数正态分布资料。常见于正偏态分布资料,如抗体滴度,某些传染病的潜伏期,细菌计数等。计算公式亦可用直接法和频数表法。,1.直接法 对数的形式为,2019/4/4,18,例2-5 7名慢性迁延型肝炎患者的HBsAg滴度资料为: 1:16,1:32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。 本例先求平均滴度的倒数,7名慢性迁延型肝炎患者的HBsAg滴度几何均数为1:64。,2019/4/4,19,2.频率表法:当资料中相同变量值的个数f(即频数)较多时,可通过频率表法计算几何均数,公式为,表2-4 52例慢性肝炎患者的 HBsAg滴度资料,2019/4/4,20,本例f lgX= 108.06977 , f=52,代入公式得,52例慢性肝炎患者的 HBsAg滴度的几何均数为1:119.75 计算几何均数应注意:变量值中不能有0;不能同时有正值和负值;若全是负值,计算时可先把负号去掉,得出结果后再加上负号。,2019/4/4,21,2019/4/4,22,2019/4/4,23,2019/4/4,24,三、中位数及百分位数 1.中位数(median , M) 将一组变量值从小到大按顺序排列,位次居中的变量值称为中位数。在全部变量值中,大于和小于中位数的变量值的个数相等。 用中位数表示平均水平主要适用于:变量值中出现个别特小或特大的数值;资料的分布呈明显偏态,即大部分的变量值偏向一侧;变量值分布一端或两端无确定数值,只有小于或大于某个数值;资料的分布不清。,2019/4/4,25,(1)直接法 当例数较少时,先将变量值由小到大顺序排列,再按以下公式计算。,n为奇数时,n为偶数时,式中X的下标为变量值的位置。,2019/4/4,26,例2-7 某药厂观察9只小鼠口服高山红景天醇提物后在乏氧条件下的生存时间(min)如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,68.9,69.0。试求其中位数。 本例n=9,为奇数,如果n=10例,生存时间为69.6,则中位数为,2019/4/4,27,(2)频率表法 当例数较多时,先将变量值从小到大编制频率表,并分别计算累计频数和累计频率(见表2-5)。先从累计频率找出M所在的组段,然后按下式计算。,式中L为中位数所在组段的下限,i为该组段的组距,fm为该组段的频数,fL为小于L的各组段累计频数。 例2-8 50例链球菌咽颊炎患者的潜伏期(小时)如表2-5,试计算潜伏期的中位数。,2019/4/4,28,表2-5 50例链球菌咽颊炎患者的潜伏期(小时)的频率分布表,本例从累计频率看,M位于48组段,即L=48,i=12,fm=11, fL=19,(小时),2019/4/4,29,fL,M,fm,2019/4/4,30,1.百分位数 百分位数(percentile,P)是一种位置指标,以Px表示。百分位数是将频数等分为一百的分位数。一组观察值从小到大按顺序排列,理论上有x%的变量值比Px小,有(100x)%的变量值比Px大。故P50分位数也就是中位数,即P50=M 。百分位数的计算公式为,式中L为Px所在组段的下限,i为该组段的组距,fx为该组段的频数,fL为小于L的各组段累计频数。,2019/4/4,31,如 试求表2-5资料中百分位数P25、P75 。 由表2-5累计频数栏可见P25在“36”组段,L=36,i=12, fx=11, fL=8,代入公式得,(小时),同理可知 P75在“72”组段,L=72,i=12, fx=5, fL=74,代入公式得,(小时),百分位数的使用条件同中位数一样。主要用途为:描述一组资料在某百分位置上的水平;用于确定正常值范围;计算四分位数间距。,2019/4/4,32,四、众数( mode) 一组数据中出现次数最多的数值,叫众数。众数在频率分布表中是频数最多的那一组的组中值,有时众数在一组数中有好几个或者没有众数。 例如:1,2,3,3,4的众数是3 ;1,2,2,3,3,4的众数是2和3;1,2,3,4,5没有众数;表2-5众数为42和54。,2019/4/4,33,第三节 描述离散趋势的统计指标 例2-10 是观察三组数据的离散状况。A组:26,28,30,32,34;B组:24,27,30,33,36;C组:26,29,30,31,34。三组均数都是30。 A组 . . . . . B组 . . . . . C组 . . . . . 常用的离散指标有: 极差、四分位数间距、方差、标准差和变异系数,最常用的指标为标准差。,2019/4/4,34,一、极差和四分位数间距 1.极差 极差(range,R)亦称全距,即一组变量值中最大值与最小值之差。R值大,离散度就大;R值小,离散度就小。 A组: R=34-26=8 B组:R=36-24=12 C组:R=34-26=8 极差的特点是计算简单,但只考虑最大值和最小值,容易受个别极端值的影响,且不能反映组内其他变量值的离散情况。另外,当调查例数增多时,遇到较大或较小变量值的机会就大,极差就可能增大。,2019/4/4,35,2.四分位数间距(quartile interval,Q) 极差的不稳定主要受两端值的影响,如将两端数据各去掉一部分,这样所得的数据就比较稳定了。例如两端各去掉25,取中间50的数据的极差,这样可先计算P25和P75,求出P75与P25之差,即为四分位数间距。 Q= P75P25 P75又称为上四分位数(upper quartile ); P25又称为下四分位数(lower quartile )。,2019/4/4,36,例2-12 试计算表2-5中 50例链球菌咽颊炎患者的潜伏期(小时)的四分位间距。 已知P75=73.20小时,P25=40.91小时,代入公式得 Q=73.2040.91=32.29(小时) 由以上的结果可以看出:链球菌咽颊炎患者的潜伏期在40.9173.20小时之间,其四分位数间距为32.29小时。 四分位数间距可用于各种分布资料,特别是偏态分布资料,经常把中位数和四分位间结合起来描述资料的集中趋势和离散趋势。,2019/4/4,37,二、方差和标准差 方差(variance)和标准差(standard deviation)是描述对称分布,特别是正态分布或近似正态分布资料离散趋势(变异程度)的常用指标。 1.方差 总体方差用 表示,样本方差用S2表示。,2019/4/4,38,式中: n-1是自由度(degree of freedom),用希腊小写字母表示。它描述了当 不变的情况下,n个变量值(X)中能自由变动的变量值的个数。用n-1作分母,S2可作为 的无偏估计。 对于频率表资料,如例2-10三组数据其方差为,2019/4/4,39,2.标准差 标准差为方差的开方根,它与原始变量值单位相同。总体标准差用 表示 ,样本标准差用S表示。 总体标准差计算公式为,样本标准差计算公式为,2019/4/4,40,对于频率表资料,例 2-14 计算例2-2数据的标准差。 已算得fX0=2228, n=f=120, =43640,(mol/L),对于正态分布资料,研究报告中经常用 的形式来描述资料的集中趋势和离散趋势。,2019/4/4,41,三、变异系数(coefficient of variation, CV) 当两组或多组变量值的单位不同或均数相差较大时,不能或不宜用两个或多个标准差的大小来比较其离散程度的大小。此时可用变异系数反映变量值的相对离散程度。样本变异系数CV的计算公式,由上式可以看出:变异系数为无量纲单位,可以比较不同单位指标间的变异度;变异系数消除了均数的大小对标准差的影响,所以可以比较两均数相差较大时指标间的变异度。,2019/4/4,42,例2.14 1985年通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg,身高均数为72.4cm,标准差为3.0cm。试计算周岁女童身高与均数变异系数。,身高,体重,周岁女童体重的变异程度比身高的变异程度大。,2019/4/4,43,第四节 描述分布形态的统计指标,1.偏度系数(coefficient of skewness ,SKEW) 偏度系数(G1)按照以下公式计算,G1=0为正态分布;G10为正偏态分布;G10为负偏态分布。,2019/4/4,44,fx,fx,fx,正态G1=0,正偏态G10,负偏态G10,=M,M,M,2019/4/4,45,2.峰度系数(coefficient of kurtosis ,KURT) 峰度系数(G2)按照以下公式计算,G2=0,为标准正态峰; G20,为尖峭峰; G20,为平阔峰。,2019/4/4,46,第五节 定量资料描述的SAS过程,一、MEANS 过程 MEANS过程除了能对数值型变量进行一般的统计描述之外,还可以作配对设计资料的t检验。 语句格式:Proc means 操作选项统计量列表; VAR 变量名列 ; /*指定分析的变量名列,缺省为所有数值变量*/ CLASS 变量名列 ; /*按变量名列分组统计*/ FREQ 变量名 ; /*表明该变量为分析变量的频数*/ Run;,2019/4/4,47,Proc means 操作选项 data= 指定要分析的数据集名 maxdec= 指定输出结果最大的小数位数,默认为7位 alpha= 设定计算可信区间的水平,默认为0.05 注:在proc语句中的选项直接跟在proc名后,以空格分隔,中间不加“/” ,其他命令语句的选项需以“/” 分隔。,2019/4/4,48,Proc means 统计量列表选项 (缺省时只输出N、MEAN、STD、MIN、MAX 五项) 常用统计量:N(例数)、MEAN(均数)、STD(标准差)、STDERR(标准误)、MAX(最大值)、MIN(最小值)、CV(变异系数)、RANGE(全距)、VAR(方差)、CSS(离均差平方和)、USS(平方和)、SUM(合计)。 分位数:P50(中位数)、P75(上四分位数)、P25(下四分位数)、QRANGE(四分位间距)、P1、P5、P10、P90、P95、P99。 分布度量:SKEW(偏度系数)、KURT(峰度系数)。 可信区间:CLM(95%可信区间)、LCLM(95%可信区间下限)、UCLM(95%可信区间上限)。 单样本t检验:T(=0检验的t值)、PRT(t值对应的概率P值)。,2019/4/4,49,例1 例2-2 某地120名健康男性居民血清铁含量(mmo/L)资料。 data ex2_1; input x ; cards; 7.42 8.65 23.02 21.61 21.31 21.46 9.97 22.73 14.94 20.18 21.62 23.07 20.38 8.40 17.32 29.64 19.69 21.69 23.90 17.45 19.08 20.52 24.14 23.77 18.36 23.04 24.22 24.13 21.53 11.09 18.89 18.26 23.29 17.67 15.38 18.61 14.27 17.40 22.55 17.55 16.10 17.98 20.13 21.00 14.56 19.89 19.82 17.48 14.89 18.37 19.50 17.08 18.12 26.02 11.34 13.81 10.25 15.94 15.83 18.54 24.52 19.26 26.13 16.99 18.89 18.46 20.87 17.51 13.12 11.75 17.40 21.36 17.14 13.77 12.50 20.40 20.30 19.38 23.11 12.67 23.02 24.36 25.61 19.53 14.77 14.37 24.75 12.73 17.25 19.09 16.79 17.19 19.32 19.59 19.12 15.31 21.75 19.47 15.51 10.86 27.81 21.65 16.32 20.75 22.11 13.17 17.55 19.26 12.65 18.48 19.83 23.12 19.22 19.22 16.72 27.90 11.74 24.66 14.18 16.52 ; proc means maxdec=2 n mean std min max cv p50 p25 p75 qrange; run;,2019/4/4,50,The MEANS Procedure Analysis Variable : x Coeff of N Mean Std Dev Minimum Maximum Variation - 18.61 4.34 7.42 29.64 23.33 - 50th Pctl 25th Pctl 75th Pctl Quartile Range - 18.99 16.02 21.57 5.55 -,2019/4/4,51,例2 某克山病区测得11名克山病患者与13名健康人的血磷值(mmol/L)如下,试求两组的平均血磷值和标准差。 data ex2_2; input g x ; cards; 1 0.84 1 1.05 1 1.20 1 1.20 1 1.39 1 1.53 1 1.67 1 1.80 1 1.87 1 2.07 1 2.11 2 0.54 2 0.64 2 0.64 2 0.75 2 0.76 2 0.81 2 1.16 2 1.20 2 1.34 2 1.35 2 1.48 2 1.58 2 1.87 ; proc means ; var x ; class g; run;,2019/4/4,52,The MEANS Procedure Analysis Variable : x N g Obs N Mean Std Dev Minimum Maximum - 1 11 11 1.5209091 0.4217927 0.8400000 2.1100000 2 13 13 1.0861538 0.4240585 0.5400000 1.8700000 -,2019/4/4,53,例3 循环语句 data ex2_3; do g=1 to 2; /* g为分组变量,循环开始,循环次数为2 */ input n; /* 输入n值 */ do i=1 to n; /* i循环开始,循环次数为n */ input x ; /* 输入x 值,注意的合理使用*/ output; /* output将x输出,循环语句中必须使用。 */ end; /* i循环结束 */ end; /* g循环结束 */ cards; 11 0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11 13 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.58 1.87 ; proc means; var x; class g; run;,2019/4/4,54,二、几何均数的计算 SAS程序没有直接计算几何均数的模块,可用means 过程间接计算几何均数。 例4 例2-6资料计算几何均数。,data ex2_4; input x f ; y=log10(x); cards; 16 2 32 7 64 11 128 13 256 12 512 7 ; proc means; var y; freq f; output out=g mean=ym;,data g1; set g; G=10*ym; proc print data=g1; var G; run;,显示结果: Obs G 1 119.747,2019/4/4,55,三、UNIVARIATE 过程 univariate过程可对数值变量进行详细的统计描述。除了提供means过程所有的统计描述外,还可以给出了变量的峰度、偏度、众数、中位数及四分位数等更详尽的统计描述,同时还可进行正态性检验,单样本资料(或配对设计资料)的t检验,符号秩和检验以及几个描述分布的图。,2019/4/4,56,语句格式:PROC UNIVARIATE 操作选项 ; VAR 变量名列; /* 指定分析的变量名列表*/ CLASS 变量名列 ; /*按变量名列分组统计*/ FREQ 变量名 ; /* 表明该变量为分析变量的频数 */ HISTOGRAM 变量名列/绘图选择项 ; /*按变量名列绘制直方图*/ Run;,2019/4/4,57,PROC UNIVARIATE 语句的操作选项; data=数据集名 /*指定要分析的数据集名*/ normal /* 进行正态性检验*/ plot /*生成统计图:茎叶图,盒状图,正态概率图 */ mu0=总体均值 /*指定要比较的总体均值,缺省时总体均值为0。*/ HISTOGRAM 语句的绘图选择项 vscale=count; /* 纵轴用频数绘制直方图, 缺省时用频率绘制直方图*/ midpoints=各组中值; /*横轴指定各组组中值以确定各组组段.可以使用变量的循环语句,如 MIDPOINTS=7 TO 29 BY 2 */ cfill=填充颜色; /* 指定直方图的填充颜色。如cfill=blue,为蓝色。*/,2019/4/4,58,例5 例2-2 某地120名健康男性居民血清铁含量(mmo/L)资料。 data ex2_5; input x ; cards; 7.42 8.65 23.02 21.61 21.31 21.46 9.97 22.73 14.94 20.18 21.62 23.07 20.38 8.40 17.32 29.64 19.69 21.69 23.90 17.45 19.08 20.52 24.14 23.77 18.36 23.04 24.22 24.13 21.53 11.09 18.89 18.26 23.29 17.67 15.38 18.61 14.27 17.40 22.55 17.55 16.10 17.98 20.13 21.00 14.56 19.89 19.82 17.48 14.89 18.37 19.50 17.08 18.12 26.02 11.34 13.81 10.25 15.94 15.83 18.54 24.52 19.26 26.13 16.99 18.89 18.46 20.87 17.51 13.12 11.75 17.40 21.36 17.14 13.77 12.50 20.40 20.30 19.38 23.11 12.67 23.02 24.36 25.61 19.53 14.77 14.37 24.75 12.73 17.25 19.09 16.79 17.19 19.32 19.59 19.12 15.31 21.75 19.47 15.51 10.86 27.81 21.65 16.32 20.75 22.11 13.17 17.55 19.26 12.65 18.48 19.83 23.12 19.22 19.22 16.72 27.90 11.74 24.66 14.18 16.52 ; proc univariate nomal plot; var x; run;,2019/4/4,59,Moments N (样本含量) 120 Sum Weights (总权数) 120 Mean (均数) 18.6135833 Sum Observations (合计值) 2233.63 Std Deviation (标准差) 4.34319961 Variance (方差) 18.8633829 Skewness (偏度系数) -0.1939341 Kurtosis (峰度系数) -0.0178296 Uncorrected SS(平方和)43820.6007 Corrected SS(离均差平方和) 2244.74256 Coeff Variation(变异系数) 23.3334954 Std Error Mean(标准误) 0.39647807 Basic Statistical Measures Location Variability Mean(均数) 18.61358 Std Deviation (标准差) 4.34320 Median (中位数) 18.98500 Variance (方差) 18.86338 Mode(众数) 17.40000 Range(全距) 22.22000 Interquartile Range(四分位间距) 5.55000 NOTE: The mode displayed is the smallest of 6 modes with a count of 2.,2019/4/4,60,Tests for Location: Mu0=0 (均数是否为0的检验) Test -Statistic- -p Value- (检验方法) (统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论