第二章 数值变量的描述性统计教材_第1页
第二章 数值变量的描述性统计教材_第2页
第二章 数值变量的描述性统计教材_第3页
第二章 数值变量的描述性统计教材_第4页
第二章 数值变量的描述性统计教材_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章数值变量的描述性统计

对于数值变量资料,一般从集中趋势、离散趋势两个方面进行统计描述。而集中趋势和离散趋势又各有许多统计指标。研究资料的频数分布类型是选择合适的统计指标进行统计描述的基础。第一节频数分布一、频数分布表对一个变量进行重复观察,其中在某取值下出现的次数称作频数(frequency),频数在总的观察例数中所占的比例称作相对频数(relativefrequency)。若将频数累积,得到累积频数(cumulativefrequency),再计算它在总例数中的比例,即可得到相对累积频数(relativecumulativefrequency)。

频数分布表(frequencydistributiontable)常用来反映各变量取值及其相应频数之间的关系。下面以例2-1的数据说明频数分布表的制作步骤和上述几个频数指标的计算。例2-l测得130健康成年男子脉搏资料(次/分)如下,试编制频数表和观察频数分布情况。75767269667257687172697273828082676973647458706460776677646776757571656276727160677575737966697978707270727872677280687061707372718170667571637774766865776977757964797376618064697073696865706966816364807478768466707360768273646573736380687670797764706669737876制作频数表的步骤为:1.计算极差观察值中的最大值和最小值之差称为极差或全距(range),常用R表示。本例中最大值为84(次/分),最小值为57(次/分),极差R=84-57=27(次/分)。2.决定组数、组段和组距根据研究目的及观察例数确定组段数。若为计算用,组数可适当增多,以减少计算误差;若为显示分布特征,则组段数不宜太多或太少。相邻两组段下限值之差称为组距(classinterval)。一般都用等距,且用“极差/组段数”之商最接近的整数值作为组距。本例若分10个组段,则组距=极差/组段数,即组距为27/10==2.7(次/分),取整数为3,该样本可分为10组。第一个组段的下限应略小于最小值,即取56,最末组的上限要略大于最大值,即取85。3.列表划记组段确定后,将原始数据用划记法或计算机计算频数,得到各个组段的频数,见表2-l。通过对频数分布表的观察,可以看出频数的分布有两个重要的特征:其一为集中趋势(centraltendency),脉搏的测量值虽然高低不等,但向中间集中,脉搏次数为中等的人数最多,所占的比例较大;其二为离散趋势(tendencyofdispersion)或变异性(variability),即随着脉搏次数逐渐变大或变小,人数越来越少,所占的比例越来越小。利用频数分布表可以全面地了解所研究事物的分布情况。表2-1130名健康成年男子脉搏(次/分)的频数分布表脉搏组段频数相对频数(%)累积频数累积相对频数(%)(1)(2)(3)=(2)/N(4)=(2)(5)=(4)/N56~21.5421.5459~53.8575.3862~129.231914.6265~1511.543426.1568~2519.235945.3871~2620.008265.3874~1914.6210480.0077~1511.5411991.5480~107.6912999.2383~8510.77130100.00合计130二、频数分布图如果将表2-l的资料绘制成频数分布图(frequencydistributiondiagram)(图2-1),可以看出,图形中间的直条最高(高峰在中央),两边对称(或基本对称)地逐渐减少,统计学上称之为正态分布或近似正态分布。若集中的位置偏向左侧,则被称为正偏态分布(skewedpositivelydistribution),如研究有害化学物质在正常人体内的分布,可以观察到数值偏小的为多数;若集中的位置偏向右侧,为负偏态分布(skewednegativelydistribution),如高血压患者的年龄分布,年龄偏大者为多数。进行统计描述时,需要根据数值的分布形态选择适当的统计指标。频数分布类型对称分布(大多为正态分布)偏态分布(正偏态、负偏态)其他分布第二节集中趋势平均数(average)是一类用于描述数值变量资料集中趋势的指标。这类指标不但能给人一个简明概括的印象,而且还便于进行事物间的分析比较。统计上的平均数一般包括5种,即算术平均数、几何平均数、中位数、众数以及调和均数。在医学研究上较常用的一般为前3种。通常是根据资料的分布类型选择某种指标反映资料的集中趋势。下面分别介绍常用的集中趋势指标、适用条件和计算方法。

一、算术平均数算术平均数(arithmeticmean)一般简称为均数,它是一组已知性质相同的数值之和除以数值个数所得的商。总体均数用希腊字母µ(读作/mju:/)表示,样本均数用表示。适用于呈正态或近似正态分布的资料。大多数正常人的生理、生化指标,如身高、体重、胸围、血红蛋白、白细胞数等,都适宜用均数表达其集中趋势。均数的计算方法有直接法、加权法和简捷法三种。由于计算机的普及,多采用直接法计算。下面仅介绍前两种方法。1.直接法当观察例数不多(如样本含量n小于30)时,或观察例数虽然很多,但有计算机及统计软件,均可选择直接法。公式为:式(2-1)中Σ(读作sigma)为求和的符号,Xi为各观察值,n为总例数。例2-2从例2-1数据中随机抽取一行,计算均数。若抽取的数据为第6行,数值为:81706675716377747668657769,均数为:=(81+70+66+75+71+63+77+74+76+68+65+77+69)/13=932/13=71.69

2.加权法(weightedmethod)适用于频数表资料。当观察例数很多又缺乏计算机及统计软件时,若用直接法很容易出错,可以用加权法处理。加权法计算均数的步骤是:首先将数据编制成频数表,得出每组的频数人,求出各组的组中值(classmid-value)Xi

,由每个组段的下限与相邻较大组的下限之和除以2得到,然后将组中值Xi和频数fi代入式(2-2),得到均数。公式为将表2-2中fiXi和fi数据代人式(2-2),得

用加权法计算的均数71.12(次/分),若用直接法计算,均数值为71.32(次/分),两者非常接近。可见,加权法计算的均数是近似值。式(2-2)中各组段的频数fi(又称作权数)与组中值的积,近似地等于该组变量值的和;各组中值与相应频数乘积的总和,视为全部观察值的总和;这个总和除以总频数的商,就作为全部观察值的均数。各组的频数越大,频数与组中值乘积越大,对均数的影响也越大;频数小,影响越小,这就是该法被称为加权法的衫础均数容易理解,在医学研究中使用频率很高。若数据的分布服从正态分布,均数是分布曲线的最高处所对应的横轴上的数值。表2-2130名健康成年男子脉搏(次/分)的均数、标准差计算表脉搏组段i组中值(Xi)频数(fi)fiXifiXi256~572114649859~6053001800062~63127564762865~66159906534068~6925172511902571~7226187213478474~7519142510687577~781511709126080~81108106561083~85841847056合计1309246662076二、中位数中位数(median)用符号M表示。把一组变量值按大小顺序排列,位置居中的那个数值(若n为奇数)被称作中位数。中位数是一个位置指标,以中位数为界,将变量值分为左右两半。资料若呈明显的偏态分布(正偏态或负偏态分布),或者资料的分布情况不明,采用中位数反映一群数值变量资料在位次上的集中趋势或平均水平。例如,某些传染病或食物中毒的潜伏期、人体的某些测定指标(如发汞、尿铅),其平均水平可用中位数来表示。中位数的计算方法有直接法和频数表法两种。

l.直接计算法当样本含量不大时使用。将观察值按大小顺序排列,当样本含量n为奇数时,位置居中的那个数值(X(n+l)/2)就是M;当n为偶数时,位置居中的两个数值的平均数((Xn/2+X(n/2)+1)/2)就是M。例2-3有9名中学生甲型肝炎的潜伏期(天):12,13,14,14,15,15,15,17,19,试求中位数。对数值进行从小到大排序,位置居中的数值X(9+1)/2=X5,第5个数值(15)为中位数,M=15。若仅有前8名中学生的潜伏期,正中间有2个数据,二者的均数(X8/2+X(8/2)+l)/2=(X4+X5)/2=(14+15)/2=14.5为中位数,M=14.5。2.频数表计算法当观察例数较多时采用。计算中位数之前先将观察值编制成频数分布表,按所分组段由小到大计算累计频数和累计相对频数,找出中位数所在组(如表2-3中M所在组是累计相对频数含50%的组段),将该组段的下限(L)。组距(i)、频数(fM)和小于L的各组段累计频数(ΣfL)代入式(2-3)即可求出中位数M。

例2-4测定了107例正常人的尿铅含量,见表2-3,试根据分布计算集中趋势指标。从表2-3可以看出,该数据服从正偏态分布。因此选择中位数作为反映集中趋势的指标。在表中求出累积频数,累积相对频数,找出中位数所在组(即累积相对频数50%所在组,为第3组)。将中位数所在组的下限(L=8)、组距(i=4)、频数(fM=29)、总例数(n=107)和小于L的各组段累计频数(∑fL=36)代入式(2-3),得

M=10.41(μg/L)

用频数表法计算的中位数为10.41。表2-3107正常人的尿铅含量(μg/L)的中位数计算表尿铅含量(组段)频数累积频数↓

相对频数(%)累积相对频数(%)(j)(fj)Σfjfj/nΣfj/n0~141413.0813.084~(P25所在组)223620.5633.648~(M所在组)296527.1060.7512~(P75所在组)188316.8277.5716~159814.0291.5920~61045.6197.2024~11050.9398.1328~21071.87100.00合计107100.00对于偏态分布的资料,中位数代表性好,也相对稳定,不受两端其它数值的影响,只受居中的一个或两个变量值的影响。对于分布的末端无确切数值的资料,只有计算中位数。对于正态分布或对称分布的资料,理论上中位数等于均数。但中位数没有充分利用观察到的每个变量值的信息。三、几何均数几何均数(geometricmean)用C表示,是将n个观察值X的乘积再开n次方所得的根。若对各观察值X取对数,对数值均值的反对数即为G。其适用对象是:①当一组观察值不呈正态分布、且其差距较大时,若用均数表示其平均水平会受少数特大或特小值的影响;②数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系;③对数正态分布资料。如抗体的滴度、药物的效价等。其计算方法有两种:l.直接计算法当观察例数不多(如样本含量n小于30)时采用,公式为

例2-5有8份血清的抗体效价分别为1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640,求平均抗体效价。将各抗体效价的倒数代入式(2-4),得

G=lg-1[(lg5+lg10+lg20+…+lg640)/8]=lg-1(1.752575)=56.57

血清的抗体平均效价为1:56.57。2.频数表法当观察例数很多时采用,公式为:

例2-6有50人的血清抗体效价,分别为:5人1:10,9人1:20,20人1:40,10人1:80,6人1:160,求平均抗体效价。将抗体效价的倒数直接代入式(25),得

G=14.7050人的血清平均抗体效价为1:41.70。因为无法对0和负数求对数,因此,计算几何均数的观察值不能小于或等于0。同一组数据若服从正态分布,均数与中位数几乎相等,但几何均数小于均数。四、众数众数(mode)是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段。例2-7有16例高血压病人的发病年龄(岁)为:42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数。对这16例的发病年龄不分组,那么出现频数最多的那个数值为58,则众数为58。58岁是高血压的高发年龄。另外,众数也没有充分利用样本观察值的全部信息。例2-8若采用例24中的数据(见表2-3),则出现频率最高(27.10%)的组段为8~12,众数组段则为8~12。众数作为反映集中趋势的指标,从概念上容易理解,如反映疾病的高发年龄或年龄段。众数的使用也有很好的普遍性,还可用于非连续性资料。缺点是若数据出现若干个相同的频率的数据或组段,众数难以确定。另外,众数也没有充分利用样本观察值的全部信息。第三节离散趋势

平均数仅描述了一组数据的集中趋势,可以作为总体的一个代表值。由于变异的客观存在,需要一类指标描述资料的离散趋势。两者结合使用才能对数据进行全面的统计学描述。两组数据:甲组:98,99,100,101,102乙组:80,90,100,110,120两组数据的均数相同,但两组数据的离散(变异)度不同,显然甲组数据较乙组更集中。甲:乙:准确性相等,稳定性不同一、全距全距(range)又称为极差,是一组观察值中最大值与最小值之差,用R表示。全距作为反映离散趋势的指标便于理解和计算,故被广泛应用。但全距有这样几个弱点:①一组观察数据中从小到大排列后,全距仅利用两端的数值,未利用全部观察值的信息。增加或减少极端值时,全距也会相应地发生改变,故其稳定性差。若增加或减少中间水平的观察值时,全距不会发生改变,不能灵敏地反映数值的变动。②若观察的样本含量越大,数值波动的范围越大,全距就越大,故样本含量相差悬殊时,不能通过比较全距来比较离散趋势。③若一组观察值的一端或两端有不确切的数值(如大于或小于某数值),全距难以计算。鉴于全距的以上弱点,通常将全距和反映离散趋势的其它指标结合使用。二、百分位数百分位数(percentile)是把一组数据从小到大排列,分割成100等份,每等份含1%的观察值,分割界限上的值就是百分位数,用符号Px表示。又将数据分成两部分,有(100-x)%的数值大于Px,有x%的数值小于Px。中位数是第50百分位数,用P50表示。第5、第25、第75、第95百分位数分别记为P5、P25、P75、P95。这些百分位数也可以作为反映离散趋势的指标使用,如P5与P95之间的距离或P25与P75之间的距离。百分位数的计算通常采用频数表法,其公式为:公式中符号的意义同中位数。例2-9利用表2-3中的数据,计算P25与P75。找出第25和第75百分位数所在组分别为第二组和第四组。P25所在组的L=4,i=4,fx=22,∑fL=14,代入式(2-6)得:

P25=6.32(μg/L)P75所在组的L=12,i=4,fx=18,∑fL=65,代入公式(2-6)得:

P75=15.39(μg/L)三、四分位数间距四分位数间距(quartileinterval)用Q表示,是上四分位数QU(P75)和下四分位数QL(P25)之差。其值越大,说明变异程度越大。常用于描述偏态分布资料的离散程度。该指标比全距稍稳定,但仍未考虑每个观察值。

Q=QU-QL=P75-P25(2-7)

例2-10利用表2-3的资料计算四分位数间距Q。

在例2-9中已经计算出P75与P25,故Q=15.39-6.32=9.07(μg/L)。四、方差若要克服极差和四分位数间距不能反映每个观察值之间的离散情况的缺点,就必须全面考虑到每一个观察值。先就总体而言,离散情况能否用总体中每个观察值Xi与总体均数μ之差的总和(称为离均差总和)反映资料的离散程度呢?可以明显地看出若计算离均差平方和

结果则不为0,但又受观察例数多少的影响,为了消除这一影响,可取离均差平方和的均数,简称方差(variance)或均方(meanofsquares)。总体方差用σ2表示,样本方差用S2表示,公式分别为

方差的大小反映一组资料的离散趋势大小。但由于其意义相当于离均差平方和的均值,度量单位也是单位的平方,故难以解释,在科技报道中很少使用。五、标准差标准差(standarddeviation)是方差的平方根。由于每一个离均差都经过平方,使原来观察值的度量单位(如cm,mmHg等)也都变为平方单位了,导致计算结果难以解释。为了还原成为原来的度量单位,将方差开平方,得到标准差。总体标准差用。,样本标准差用S或SD表示,即

在此需要说明:式(2-11)中等式最右边的式子是经过推导出来的,以使运算方便;式(2-12)用于分组资料加权法计算标准差,其中Xi为各组的组中值。式(2-11)中的n-l和式(2-12)中的∑fi-1为自由度(degreeoffreedom)。由于用样本资料计算的标准差常常小于总体标准差,英国统计学家W.S.Gosset提出用样本例数减去1(n-l或∑fi-1)代替n,使得样本标准差成为总体标准差的无偏估计值。例2-11从例2-1上抽出的10个数据:75,76,72,69,66,72,57,68,71,72,试用直接法计算标准差。n=10,代入式(2-11),得:S=5.41(次/分)例2-l2利用表2-2中的数据和频数表法计算标准差。从表2-2计算得出:代入式(2-12)得:S=5.89(次/分)标准差的意义和用途有四:其一是说明资料的离散趋势(或变异程度),标准差的值越大,说明变异程度越大。由于标准差与原始数据的单位一致,在科技论文报告中,均数与标准差经常被同时用来描述资料的集中和离散趋势。标准差愈小,说明观察值的离散程度愈小,均数的代表性也就愈好。若比较的样本单位相同,均数接近,标准差小的,说明离散趋势小;其二是用于计算变异系数;其三是用于计算标准误(见第四章);其四是结合均值与正态分布的现律估计参考值的范围(见第五节)。六、变异系数变异系数(coefficientOfvariation)用CV表示。CV实际上是标准差的另一种表示方式,即将标准差转化为均数的倍数,以百分数的形式表示。CV常常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。公式为

例如,对例2-l资料用加权法计算出脉搏=71.12(次/分),S=5.89(次/分),则其变异系数为:脉搏CV=8.28%

另测得该人群的红细胞数的=4.7075(102/L),S=0.5662(102/L),其变异系数为:红细胞CV=12.03%

可见该人群的红细胞数的变异程度稍大于脉搏的变异程度。第四节正态分布一、正态分布和标准正态分布的概念正态分布(normaldistribution)是一种重要的连续型分布。我们从第一节图2-l中可见频数分布以均数为中心,左右两侧基本对称,靠近均数两侧频数较多,离均数愈远,频数愈少,形成一个中间多、两侧逐渐减少、基本对称的分布。当将样本含量扩大,将组段分细,图中直条将变窄,就会表现出中间高、两侧逐渐降低,并完全对称的特点(如图2-2(a)、(b)所示),将频数分布图各直条顶端的中点连线,就接近于一条光滑的曲线(如图2-2(c)所示),这条曲线被称作正态分布曲线,用N(μ,σ)表示,其位置与均数有关,形状与标准差有关。标准差大,离散程度大,正态分布曲线则“胖”,反之,则“瘦”。医学研究中许多正常人生理、生化指标的分布呈正态或近似正态分布。许多非正态分布的资料,当观察例数足够多时,其均数也呈正态分布。正态分布是数理统计中最基础的一种分布,很多统计推断都是在正态分布条件下进行的。其概率密度函数(probabilitydensityfunction),为:式(2-14)中f(X)称密度函数,是与X对应的正态曲线的纵坐标高度,μ与σ分别为总体均数和标准差,π为圆周率(π=3.14159),e为自然对数的底,即2.71828。因此,已知μ、σ和变量值X,就能按式(2-14)绘出正态曲线的图形,如图2-3a所示。为了应用方便,对于任何一个均数和标准差分别为μ与σ的正态分布,都可以通过变量的标准正态变换(),使之成为标准正态分布(standardizednormaldistribution),用N(0,1)表示,即均数为0,标准差为1。也就是将图2-3a的坐标原点移到0的位置,并使新坐标的横轴尺度以σ为单位。N(0,l)的概率密度函数为:式中为标准正态分布的密度函数,即纵坐标高度,根据u的不同取值,就可按式(2-15)绘出标准正态分布的图形,如图2-3b。二、正态分布的特征和曲线下面积分布规律正态分布有五个方面的特征:①正态曲线(normalcurve)在横轴上方,且均数μ所在处曲线最高;②正态分布以均数为中心,左右对称;③正态分布有两个参数,即均数与标准差(μ与σ),均数μ为位置参数,决定正态分布曲线所在的位置,标准差σ为形状参数,决定正态分布曲线的“胖”和“瘦”,

σ大,曲线为“矮胖型”,反之,为“高瘦型”,标准正态分布的均数和标准差分别为0和1;④正态曲线在±1σ,标准正态分布在±l处各有一个拐点(见图2-4);⑤正态分布的面积分布有一定的规律性。正态分布和标准正态分布的面积可借助高等数学中微积分的方法分别对式(2-14),(2-15)求积分而求得,从-∞到X或u的面积F(X)或Ф(u)见图2-3。统计学家已经根据式(2-15)求出了标准正态分布从一∞到Ф(-u)的面积(见附表2-l)。实际工作中经常要用的面积分布规律见表2-4及图2-4。三、对数正态分布有时也将一些非正态分布资料转化为正态分布资料来处理。若资料呈明显的正偏态分布,可将各观察值直接取自然对数(lnX)或取以10为底的对数(lgX);若资料呈负偏态分布,需要通过尝试找出一个合适的常数K(可用一个略大于最大值的数值),用常数K减去各观察值,然后取对数(lg(K-X)或ln(K-X),若对数值经观察或假检验呈正态分布,该分布被称作对数正态分布(logarithmicnormaldistribution)。对数正态分布曲线下横轴上的面积规律同正态分布,该规律可用于医学参考值的估计。第五节医学参考值的估计医学参考值是指正常人的各种生理、生化数据,组织或排泄物中各种成分的含量。同是一批正常人,由于个体差异的客观存在,“某一生理或生化指标的测定结果有大有小,即使是同一个体,其生理、生化测定数据也会随着机体内外环境的变化而相应地波动。因此,需要估计正常人测定值的波动范围,该范围称为参考值范围(referenceranges),参考值范围在诊断方面可用于划分正常与异常。随着新设备。仪器、试剂、测试方法的不断推出及对不同时代正常人某些变量测定值的比较,都需要进行医学参考值的研究。一、制定参考值的基本步骤1.从正常人总体中抽样所谓正常人,不是一点小病都没有的人,而是指排除了影响被研究指标的疾病或因素的人。例如,研究某市成人血铅的参考值范围,是以留住该市一年以上。无明显肝肾疾病、无铅作业或接触史的成人作为被研究的正常人总体。按随机化方法进行抽样研究。抽取样本含量要足够大,因参考值范围是根据样本数据估计的,样本分布愈接近总体分布,所得结果愈可靠。因此,样本含量不能过少,一般认为,估计每个人群组参考值范围(如男性或女性红细胞参考值范围)的样本含量一般应在100例以上。如果被研究指标的影响因素较多,数据变异大,样本含量应该相对多些,以能取得一个分布较为稳定的样本为原则。2.控制测量误差测量的方法、仪器、试剂、精密度、操作熟练程度都要统一,以便将测量误差控制在一定的范围内。3.判定是否需要分组确定参考值范围原则上,组与组之间差别明显,且差别有实际意义则应分开,否则应当合并确定。考察组间差别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论