数值变量资料的统计描述_第1页
数值变量资料的统计描述_第2页
数值变量资料的统计描述_第3页
数值变量资料的统计描述_第4页
数值变量资料的统计描述_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章数值变量资料的统计描述统计描述(statisticaldescription)即利用原始数据,选择适宜的统计指标及统计图表,简明准确地探察数据的分布类型和数量特征,以便研究者根据样本信息,正确地推论其总体规律的统计分析方法。统计指标(statisticalindex)是表示数据分布特征的一个或一组数值,是统计分析的基本依据.第一节频数分布的概念与应用对获取的数据进行统计学分析之前,了解数据的分布特征是至关重要的。因为很多参数分析方法都要求样本数据来自某种已知分布的总体,否则,就应对数据实施合适的数据转换,或者采用非参数分析方法。对频数表及频数图进行分析是描述性统计学分析的基本内容,也是表达或探索数据分布特征的基本手段.一、 频数分布频数分布(frequencydistribution)的概念频数(frequency)是相同观察值或观察结果出现的次数;分布(distribution)指随着随机变量取值的变化,其相应的概率变化的规律性。频数分布即观察值(变量值)按大小分组,各个组段内观察值个数(频数)的分布它是了解数据分布形态特征与规律的基础.频数分布的特征(1)集中趋势(centraltendency):指一组变量值的集中倾向或中心位置.(2)离散趋势(tendencyofdispersion):指一组变量值的分散倾向。频数分布的类型⑴对称分布:指集中位置居中、左右两侧的频数分布基本对称的频数分布。又可分为正态分布(normaldistribution)和非正态分布(non-normaldistribution).⑵偏态分布:是集中位置偏倚、两侧频数的分布不对称的频数分布,可分为两类:①正偏态:亦称右偏态,特点是峰偏左,此时均数与众数之差为正值,长尾向右侧(即观察值较大一端)伸延;②负偏态:亦称左偏态,特点为峰偏右,此时均数与众数之差为负值,长尾向左侧(即观察值较小一端)伸延。二、 频数表和频数图频数表(frequencytable):是频数分布表的简称,指观察值及其相应的频数按一定顺序排列的表格。频数图(frequencygraph):是在频数表的基础上,以直方的面积大小表示频数的多少、以直方面积在总面积中的比例表示频率大小的图形。数值变量资料频数表的编制例1-1随机抽取某地120例正常人,测得血清铜的含量如表1-1,试编制频数表。⑴找极值即找出最大值(Xmax)与最小值(X"Q.本例Xmax=19.84,xmin=9o23⑵求全距R本例R=19.8*^9.23=10.61 "「 牌、 "’「⑶定组数k k一般取8-—15,本例k定为11。R1061⑷求组距II= = =1o06181K-111-1⑸划分组段下限(L)即某一组段的起点。上限(U)是某一组段的终点。为计算方便,第一组段的L一般取略小于最小值的方便数,其余各组段依次累加i即可」但最后一个组段必须包含最大值,参见表1—2第1列。(6) 记频数通常以划记的方式归组,得出各组的频数,参见表1-2第⑵、⑶列。(7) 计算累计频数(fp与累计频率(Pc)fc与Pc均为由上向下累加运算而得・fc指小于该组段上限的数据个数。某一组段的fc=该组的f+上一组段的fc,见表1—2的第(5)列。Pc表示小于该组段上限的数据个数占总样本数的比例.某一组段的Pc=该组段的P+上一组段的Pc,或Pc=该组段的fc/n,见表1—2的第(6)列。表1-1某地120名正常人血清铜含量(umol/L)

13.8412。5313.7014.8917.5313。1918。8210.1514。5611。2314。7317.4413.9014.1012。2912.6114。7814.409。9315.1814。5914.7118.6219.0410.9513.8110。5318。0616.1815。6013。5611.4813。0716。8817.0417。9812.6710。6216。4314。2611。039。2315。0414。0915.9011.4814.6417。2415。4313.3713。6414.3915。7413.9911。3117.6116。2611.3217。8816.7813。5311.6813。2511.8814.2115。2115.2916.6312。8715.9313.7014。4511.2319.8413.1115.1511。7015。3712.3514。5114。0918.2214。3415。4811.9816.5412。9512。0616.6717.0916。8513。2016。4812.2912。0914。8315.6614。5016。4315。5712。8112。8917。3416。0413.4117.1312.329。2918。4214。1714.3516.1915.7313。7414.9417。2815。1911。9215.4715。33表1—2某地120名正常成年人血浆铜含量(Rmol/L)频数表组段⑴划记⑵频数f⑶频率P(%)⑷累积频数fC⑸累积频率Pc(%)⑹C9。00〜下32.532.510。00〜止43。375.811。00~正正T1210。01915.812。00~正正下1310.83226.613。00~正正正T1714.24940.814.00〜正正正正T2218。37159。115。00〜正正正下1815.08974。116.00〜正正下1310。810284.917.00~正正一119。211394.118。00〜正54.211898.319.00~T21。7120100.0合计120100。02.数值变量资料频数图的编制等距分组以横轴表示变量,以纵轴表示频数。由表1-2的资料绘制频数图(图3—1)。不等距分组以横轴表示变量,但纵轴是每个横轴单位的频数。由表1—3的资料绘制频数图(图3—2)。表1-3某市某年暑温患者年龄分布年龄(岁)病人数每岁病人数年龄(岁)病人数每岁病人数年龄(岁)病人数每岁病人数0〜335〜222210〜363.61〜336〜111120~131.32〜997〜141430〜111.13〜11118〜8840〜40.44〜23239〜6650〜6010。1

图3-1某地图3-1某地L2D例正常成年人血浆酮含呈某市某年目温患者年散分布第二节数值变量资料集中趋势的描述集中趋势(centraltendency)是度量由变异导致变量值多样性的数量指标,其代表值为平均数。平均数是一组描述或反映一组数值变量平均水平的统计指标。根据计算或确定方法的不同,平均数可分为算术平均数(arithmeticmean)、几何平均数(geometricmean)、中位数(median)、调和平均数(harmonicmean)和众数(mode)。一、算术平均数定义算术平均数简称为均数,是一组观察值之和与观察值个数之商。是数量上的平均。统计符号r。应用条件要求资料服从正态或近似正态分布。如生理指标.计算方法⑴直接法用于观察值例数不多的资料。计算公式见公式1—1.⑵加权法用于观察值例数较多或观察值中相同数据较多的资料。计算公式见公式1—2。(公式1-1)(公式1-2)式中希腊字母,为求和的符号。例1—212例肾虚失钠型哮喘病人甲皱微循环的管祥长度(^m)分别为125。0、125。0、125。0、187.5、187。5、187。5、187。5、250。0、250。0、250.0、312.5、312.5,求其均数.代入公式1-1得:X=25。0+125.0+125.0+187。5+187。5+187.5+187。5+250。0+250。0+250.0+312。5+312.5)/12=2500/12=208.3(顷)例1—3计算表1—2资料的均数。(1)列计算表见表1一4。表1—4某地120名正常成年人血浆铜含量(口mol/L)的均数、标准差计算表血浆铜含量(|imol/L)⑴组中值X⑵频数f⑶fx(4)=⑵⑶fx2(5)=⑵⑷9。00〜9.50828。50270。7510.00〜10。51442.00441.0011.00~11。5012138。001587。0012。00〜12.5013162。502031。2513.00〜13。5017229。503098。25

14。00〜14。5022819。004625。5015。00〜15.5018279.004324。5016。00〜16.5013214.503539。2517.00〜17。5011192.503368.7518。00〜18。50592.501711。2519.00〜19。50239。00760。501201737。0025758。00合计(Zf)(Zfx)(Zfx2)注:表中第⑵栏x为组中值,组中值=(本组段下限十本组段上限)/2,如“9。00~”组段的组中值为(9.00十10。00)/2=9.5,余类推。(2)计算均数将表1-4第⑶、⑷栏合计数代入公式1—2得:亍=1737。00/120=14。48(|Jmol/L)二、几何均数定义几何均数是n个数值连乘积的n次方根。是比例或倍数上的平均。统计符号G。应用条件等比数列资料。如抗体滴度。计算方法⑴直接法用于观察值例数不多的资料。计算公式见公式1—3.⑵加权法用于观察值例数较多或观察值中相同数据较多的资料。计算公式见公式1-4。G=nHx (公式1—3)注:式中希腊字母n为求积的符号。*flogxG=log—1—*f— (公式1—4)例1-4某医院测得8例脾虚纳呆患儿的尿液淀粉酶含量(U/10ml)为4,4,8,8,8,16,16,32,试求其均数。代入公式1-3,得:G=84x4x8x8x8x16x16x32=9.5例1—5某地46例暑温病人的血凝抑制抗体滴度如表3—8第⑴、⑵栏,试求其平均数。(1)列计算表见表1-5。表1-5 46例暑温病人的血凝抑制抗体滴度抗体滴度⑴例数f⑵滴度的倒数x⑶logx⑷flogx(5)=⑵⑷f(logx)2(6)=⑵⑷21:201201.30101。30101。69261:405401.60218。010512。83361:8010801。903119。031036.21791:160101602.204122。041048。58071:320113202.505127。556169.03081:64066402。806216.837247.24861:1280112803。10723。10729。65471:2560225603。40826.816423.2317合计46104。7004248。4906数值变量资料的统计描述(If) (Aflogx) (,f(logx)(2)计算几何均数将表1—5第⑵、⑸栏合计数代入公式1—4,得:G=log—i(104.7004/46)=log-i2.2761=189三、中位数定义将一组观察值按由小到大的顺序排列,位次居中的数值即中位数。是位次上的平均。统计符号M。应用条件不拘分布或分布类型不明的资料;一端或两端无界的资料.如潜伏期、治愈时间和发病年龄。计算方法⑴直接法用于观察值例数不多的资料。若观察值为偶数:m=x(+1)/2。若观察值为偶数,位次居中的两个观察值的均数即中位数。M=(X”2+X(n/2+1))⑵频数表法用于观察值例数较*的资'料。计算公式见公式1—5.M=L+L[立-Ef] (公式1-5)fI2勺m式中L为M所在组段的下限;i为该组段的组距;七为该组段的f;If为总例数(f之和);IfL为小于L的各组段fcO用该式求中位数时,需先编制频数表。 L例1-6某医院用大黄粉治疗胃热血瘀型血证病人9例,其大便转阴天数分别为1,1,2,2,3,4,5,7,10,试求其中位数。本例观察值的个数为奇数,将9个观察值按从小到大的顺序排列后,位次居中的第五个观察值“3天”即其中位数。如果观察值为10个,第10个数值为16天,则位次居中的两个观察值“3"和“4"的算术均数3.5即为M。例1—7某医院905例男性银屑病患者的发病年龄资料见表1—6第⑴、⑵栏,试求其M。M的累计频率应为50%.由表1—6第(4)栏可知,“20~”组段的累计频率已大于50%,故M应位于该组段内。代入公式1—5,得:M=20+(10/346)(905/2—306)=24。23(岁)表1-6 905例男性银屑病病人的发病年龄年龄(岁)⑴频数f⑵累计频数fc⑶累计频率pc(%)⑷<1054545。9710〜252306(IfL)33.8120〜(L)346f652L72.0430~12878086。1940〜8486495。4750~2989398。6760〜589899.23N707905(If)100。00第三节数值变量资料的离散趋势描述离散趋势指标亦称变异性指标,它们是在整体上描述一组同质观察值的变异程度大小的综合指标,常用的变异性指标有极差、四分位数间距、方差、标准差和变异系数。为了全面描述研究总体的特征,需要在计算集中性指标的同时计算离散性指标.如表1—7的两组数据,

数值变量资料的统计描述A与B两个学生五门课程成绩的均数都是80,但各科成绩分布情况却不相同。A较集中,变异较小;而日较分散,变异较大。表1-7变异指标示意(两个学生五门成绩分布)学生-12科目345X-变异指标RS2 SCVA78798081828042。5 1.581.98B607080901008040250 15。8119.76一、极差(range)极差亦称全距(R),其计算公式见公式1-2。R与变异程度成正比。其特点是意义明确、计算简便,但灵敏性和稳定性较差。二、百分位数(percentile)和四分位数间距(quartilerange)概念百分位数是把一组观察值从小到大排列,分为100等份,与x%位次所对应的数值即为第百分之x位数,以符号Px表示。如称居于全部观察值个数百分之五位置的点值为第百分之五位数,以符号P5表示。一个Px将全部观察值分为两部分,理论上有x%的观察值比它小,有(100—x)%的观察值比它大:故百分位数是一种位置指标。中位数即P5Q.TOC\o"1-5"\h\z四分位数间距是上四分位数Qu(P:;)与下四分位数七(P25)之差,符号为QR。它是中间50%观察值的极差。 ° 75 ' 25Px==L+-^(nx%~EfL)

fmQR=QPx==L+-^(nx%~EfL)

fmQR=Q—Q=P—P仍以例1—7资料为例,求其P25、P75和凉。「 75 25首先按Pc(%)找出P25所在的组段。。据表1-6可知,“10〜”组段的Pc已达33.81%,可见P25应在该组(公式1—6)(公式1-7)内。用公式3—7,得:P2:=10+(10/252)X(905X0.25—54)=16.84(岁) *同理,“30~”组段的S:已达86.19%,可见P75应在该组内。P75=30+(10/128)X(905X0.75—652)=32.09(岁) ° 75 75QR=P75—P25=32.09—16.84=15.25(岁)主要用途25⑴与中位数一起描述偏态分布资料的分布特征由于四分位数间距较极差稳定,与中位数一起描述偏态分布资料的分布特征时,简写为M(QR)。⑵表示参考值范围百分位数的另一个重要用途是表示偏态分布资料的参考值范围。三、方差定义方差(variance)即离均差平方和(sumofsquaresofdeviationsfrommean,SS)的均值.总体方差的符号为。2,样本方差的符号为S2。特点由于SS利用了每个个体观察值的信息,因而S2反映一批数据的变异程度时优于极差和四分位数间距,稳定性和精确性较好,故能综合反映一组观察值的变异情况。但是,由于在运算时需将各个离均差平方,使得观察值的原度量单位变成平方单位,不便于进行比较,故主要用于假设检验中的方差分析。应用条件要求资料服从正态或近似正态分布。计算方法见公式1-8。S2=eG二x力 (公式1-8)式中£°-元»为离均差平方和(SS);n-1为自由度,符号为V。由于方差近似等于SS的算术均数,亦称均方(meansquare,MS)。四、标准差(standarddeviation)1.定义标准差即方差的平方根。总体标准差的符号为。,样本标准差的符号为s;英文缩写为SD。定义公式见公式1—9。s=乙侦* (公式1—9)\n-1特点标准差除了具有方差的优点外,还克服了度量单位被平方的不足,运用较方便,是常用的离散性指标.它与观察值的变异程度正比,即标准差越大,表示各观察值的变异程度越大,其均数的代表性较差。应用条件要求资料服从正态或近似正态分布。计算方法⑴直接法用于小样本资料(nV30=,计算公式见公式1-10.Lx2 s=| 」 (公式1—10)|:n-1例1-8测得7例外感风寒女性病人的体温值(°C)为37。8,38。0,38。1,38.2,38.3,38.5,39.4。试求其标准差。本例n=7;Zx=37o8十38.0十38。1十38。2十38。3十38。5十39。4=268。33x2=37.82十38。02十38.12十38。22十38。32十38。52十39。42=10285。19代入公式1—10得:■10285.19-268^S=•「 7_7-1(公式1一11)(公式1一11)S\ ZfT例1-9求表1-4资料的标准差。由该表第⑶、⑷、⑸栏合计:,f=120,3fx=1737.00,3fx2=25758.00,代入公式1-11,得:〔25758.00-竺胆s= 120—=2.27(顷。1/1_)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论