




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据特征与统计描述
第二讲数据特征与统计描述第一节频数分布表与频数分布图第二节计量资料的常用统计指标第三节 计数资料的常用统计指标第四节统计图表本章结构
第二讲数据特征与统计描述第一节频数分布表与频数分布图第二讲数据特征与统计描述
一、频数分布表(frequencytable)
用途:用于描述资料的分布特征
频数:在一批样本中,相同情形出现的次数称为该情形的频数。资料类型组段频数计数和等级观察结果的所有分类相同类别出现的次数计量根据观察结果重新划分分组统计第二讲数据特征与统计描述表1某地150名正常成年男子红细胞数(1012/L)
编号红细胞数编号红细胞数13.98……24.541434.6734.741445.4045.131455.2954.431464.7764.811475.3874.981485.1583.791494.64……1505.19第二讲数据特征与统计描述1.频数表的编制步骤(1)求极差(range):即最大值与最小值之差,又称为全距。本例极差:R=5.88-3.79=2.09
(1012/L)(2)决定组数、组段和组距:根据研究目的和样本含量n确定。组距=极差/组数,通常分8-15个组,为方便计,组距参考极差的十分之一,再略加调整。本例i=R/10=2.09/10=0.209≈0.2。第二讲数据特征与统计描述(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。第二讲数据特征与统计描述
组段(1)
频数,f(2)
组中值,X(3)fX(4)=(2)×(3)3.7~13.83.83.9~44.016.04.1~114.246.24.3~174.474.84.5~264.6119.64.7~324.8153.64.9~265.0130.05.1~185.293.65.3~105.454.05.5~45.622.45.7~5.9
合计15.85.8150719.8第二讲数据特征与统计描述三、频数分布图
第二讲数据特征与统计描述二、频数表和频数分布图用途1.描述频数分布的类型*(1)对称分布:若各组段频数的分布以频数最多的组段为中心左右两侧大体对称(总体则完全对称),就认为该资料是对称分布(2)偏态分布:第二讲数据特征与统计描述右偏态分布(正偏态分布):频数最多组段右侧的组段数多于左侧的组段数,高峰向左偏移,频数向右侧拖尾。
表2115名正常成年女子血清转氨酶(mmol/L)含量分布第二讲数据特征与统计描述第二讲数据特征与统计描述左偏态分布(负偏态分布):
左侧的组段数多于右侧的组段数,频数向左侧拖尾。表3101名正常人的血清肌红蛋白()含量分布第二讲数据特征与统计描述第二讲数据特征与统计描述2.描述计量资料分布的
集中趋势和离散趋势①集中趋势(centraltendency):变量值集中位置。本例在组段“4.7~”。——平均水平指标②离散趋势(tendencyofdispersion):变量值围绕集中位置的分布情况。离“中心”位置越远,频数越小;且围绕“中心”左右对称。——变异水平指标
第二讲数据特征与统计描述3.便于发现一些特大或特小的可疑值*第二讲数据特征与统计描述4.便于进一步做统计分析和处理第二讲数据特征与统计描述第二节计量资料的常用统计指标描述集中趋势的特征数描述离散趋势的特征数第二讲数据特征与统计描述计量资料(定量资料、数值变量资料)总体:有限或无限个(定量)变量值样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xnn为样本例数(样本大小、样本含量)第二讲数据特征与统计描述一、描述集中趋势的特征数(平均指标)总称为平均数(average)反映了资料的集中趋势(centraltendency
)。常用的有:
1.算术均数(arithmeticmean),简称均数
(mean)
2.几何均数(geometricmean)
3.中位数
(median)
第二讲数据特征与统计描述均数(mean)Σ为求和符号,读成sigma,k,X,f意义“权数”符号:总体样本
适用条件:资料呈对称分布,尤其是正态或近似正态。
计算:
(1)直接法(2)频数表法第二讲数据特征与统计描述2.几何均数(geometricmean)几何均数:变量对数值的算术均数的反对数。
第二讲数据特征与统计描述几何均数的适用条件与实例适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料
例血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。此例的算术均数为22222,显然不能代表滴度的平均水平。同一资料,几何均数<均数第二讲数据特征与统计描述频数表资料的几何均数抗体滴度⑴
人数,f⑵
滴度倒数,X⑶lgX⑷
f·lgX⑸1:4
1:81:161:32┇1:512
合计1562┇572481632┇5120.60210.90311.20411.5051┇2.70930.60214.51557.22463.0102┇13.546572.2471例:几何均数=反对数(72.2471/40)=64.00第二讲数据特征与统计描述3.中位数(median)
意义:中位数是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在位次上的平均水平。符号:Md
适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料;②资料有不确定数值;③资料分布不明等。
第二讲数据特征与统计描述中位数计算公式与实例
先将观察值按从小到大顺序排列,再按以下公式计算:特点:仅仅利用了中间的1~2个数据例:5人潜伏期:2,3,5,8,20第二讲数据特征与统计描述频数表资料的中位数下限值L上限值Ui;fm中位数Md第二讲数据特征与统计描述
潜伏期/h
(1)
频数,f(2)
累计频数Sf(3)0~17176~466312~3810118~3213324~613930~013936~414342~48
合计2145145例中位数=12+6x[(145x50%-63)/38]
=13.5(h)第二讲数据特征与统计描述均数、中位数二者关系正态分布时:均数=中位数正偏态分布时:均数>中位数负偏态分布时:均数<中位数第二讲数据特征与统计描述小结:
集中趋势的描述——平均数
平均数:描述一组变量值的集中位置或平均水平的指标体系。
不同的分布使用不同的指标
(算术)均数:正态或近似正态或观察值相差不大的小样本资料
几何均数:对数正态分布或等比级数资料
中位数:一般偏态分布(传染病发病的潜伏期)第二讲数据特征与统计描述二、描述离散趋势的特征数
(变异(variation)指标)
反映数据的离散度(Dispersion
)。即个体观察值的变异程度。常用的指标有:
1.极差(Range)
(全距)
2.百分位数与四分位数间距
PercentileandQuartilerange
3.方差
Variance
4.标准差StandardDeviation
5.变异系数
CoefficientofVariation
第二讲数据特征与统计描述
盘编号甲乙丙14404804902460490495350050050045405105055560520510合计250025002500均数500500500
例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)甲乙丙第二讲数据特征与统计描述1.极差(Range)(全距)
1204020符号:R意义:反映全部变量值的变动范围。
优点:简便,如说明传染病、食物中毒的最长、最短潜伏期等。
缺点:1.只利用了两个极端值
2.n大,R也会大
3.不稳定适用范围:任何计量资料;是参考变异指标第二讲数据特征与统计描述2.百分位数与四分位数间距
Percentileandquartilerange百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。记为Px。四分位间距:
(定义:P53)Q=P75-P25
四分位半间距quartiledeviation:QD=QR/2P100(max)P75P50(中位数)P25P0(min)Px第二讲数据特征与统计描述频数表资料的百分位数下限值L上限值Ui;fm百分位数Px第二讲数据特征与统计描述P25=6+6x[(145x25%-17)/46]=8.51(h)P75=18+6x[(145x75%-101)/32]=19.45(h)Q=19.45-8.51=10.94(h)
潜伏期/h
(1)
频数,f(2)
累计频数Sf(3)0~17176~466312~3810118~3213324~613930~013936~414342~48
合计2145145第二讲数据特征与统计描述百分位数的应用确定医学参考值范围(referencerange):如95%参考值范围=P97.5-P2.5;表示有95%正常个体的测量值在此范围。中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征第二讲数据特征与统计描述3.方差
方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。第二讲数据特征与统计描述样本方差为什么要除以(n-1)数理统计证明,n代替N后,计算出的样本方差对总体方差的估计偏小。对于样本资料,对离均差平方和取平均时分母用n-1代替n。第二讲数据特征与统计描述4.标准差
标准差(standarddeviation)即方差的正平方根;其单位与原变量X的单位相同。第二讲数据特征与统计描述标准差的计算盘编号甲乙丙甲2乙2丙214404804901936002304002401002460490495211600240100245025350050050025000025000025000045405105052916002601002550255560520510313600270400260100合计250025002500标准差50.9915.817.91第二讲数据特征与统计描述方差=(3476.48-719.82/150)/(150-1)=0.1503标准差=0.39(1012/L)
组段(1)
频数,f(2)
组中值,X(3)fX(4)=(2)×(3)3.7~13.83.83.9~44.016.04.1~114.246.24.3~174.474.84.5~264.6119.64.7~324.8153.64.9~265.0130.05.1~185.293.65.3~105.454.05.5~45.622.45.7~5.9
合计15.85.8150719.8第二讲数据特征与统计描述5.变异系数(coefficientofvariation)符号:CV适用条件:①观察指标单位不同,如身高、体重②同单位资料,但均数相差悬殊均数
标准差变异系数青年男子身高170cm6cm3.5%体重60kg7kg11.7%
意义:挑选指标时变异系数越小,指标越好。第二讲数据特征与统计描述变异指标小结1.极差较粗,适合于任何分布2.标准差与均数的单位相同,最常用,适合于近似正态分布3.变异系数主要用于单位不同或均数相差悬殊资料4.平均指标和变异指标分别反映资料的不同特征,常配套使用如正态分布:均数、标准差;
偏态分布:中位数、四分位半间距第二讲数据特征与统计描述第三节计数资料的常用统计指标一、计数资料的数据整理二、常用相对数指标三、应用注意事项第二讲数据特征与统计描述
计数资料(分类资料):总体:有限或无限个定性(分类)变量值样本:从总体中抽取的n个定性(分类)变量值整理为:分类个体数,即:计数资料频数表绝对数第二讲数据特征与统计描述一、计数资料的数据整理
计数资料:按某种属性分类,然后清点每类的数据(以下是:孕妇分娩资料)住院号年龄职业文化程度分娩方式妊娠结局27无中学顺产足月22无小学助产足月25管理人员大学顺产足月24知识分子中学顺产早产30管理人员大学顺产足月32无小学剖宫产足月27无中学顺产死产29无大学剖宫产足月25农民中学顺产足月26无小学顺产足月第二讲数据特征与统计描述按年龄(2岁一组)与职业整理年龄工人管理人员农民商业服务无知识分子总计182000305209261018045222871024701115024503428521534436126504325451337036628343510347857248301114112239171143214231424360344253122283621145114383110218400020002合计2071411022085372061401第二讲数据特征与统计描述二、常用相对数绝对数:通过调查或实验得到的原始数据。如某病的出院人数、治愈人数、死亡人数等。但绝对数通常不具有可比性:1.如2005级临床五年制一、二大班学生人数不同时,比较两班医学统计学的及格人数没有意义,因此需要在绝对数的基础上计算相对数。相对数:两个有联系的指标之比,常用的相对数有:一、比二、比率三、速率第二讲数据特征与统计描述相对比简称比,是两个有关指标之比,说明两指标间的比例关系。计算公式为式中两指标可以是绝对数、相对数或平均数。(一)比(ratio)第二讲数据特征与统计描述
(一)两个绝对数之比:
如某年某医院出生婴儿中,男性婴儿为370人,女性婴儿为358人,则出生婴儿性别比例为370/358×100=103,说明该医院该年每出生100名女婴儿,就有103名男性婴儿出生,它反映了男性婴儿与女性婴儿出生的对比水平。
第二讲数据特征与统计描述(二)两个率之比:如相对危险度(RR)。
例如某地某年龄组男性吸烟和非吸烟的冠心病死亡资料如下表,试分析其相对危害度。
说明男性吸烟组的冠心病死亡率是非吸烟组的2.139倍。表4
某地某年龄组男性吸烟和非吸烟的冠心病死亡资料第二讲数据特征与统计描述
(三)两个相对比之比:如流行病学常用的比数比(OR)。
例服用反应停与肢体缺陷关系病例对照研究资料如表所示:
第二讲数据特征与统计描述比率分子分母都是绝对数,且分子必须是分母的一部分。无量纲,[0,1]
。1.率(rate)(强度相对数)说明某现象或某事物发生的频率或强度。
率=(实际发生数/可能发生总数)×比例基数如:治愈率、病死率、阳性率、人群患病率等比例基数:100%、1000‰、10000/万、100000(1/10万)等(按习惯,使结果保留1-2位小数)例如:患病率通常用百分率、婴儿死亡率用千分率、肿瘤死亡率以十万分率表示。(二)比率(proportion)第二讲数据特征与统计描述2.构成比(结构相对数)(proportion):表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布。通常以100%为比例基数。其计算公式为
如:教研室16人高级职称有4人,占25%;中级职称有8人,占50%;初级职称有4人,占25%。第二讲数据特征与统计描述(三)速率(rate):分母中含有时间量纲。是反映单位时间内某事件出现的可能性大小,多用于面向人群的出生、死亡和发病资料的统计.
人口出生率=(某年中活产总数/该年平均人口数)×100%第二讲数据特征与统计描述三、应用注意事项1、不能以构成比代替率。第二讲数据特征与统计描述率与构成比容易误用
年龄组⑴
受检人数⑵白内障例数⑶
患者年龄构成比(%)⑷患病率(%)⑸=(3)/(2)40~50~60~70~≥80合计5604412961492268129135971915.1828.7930.1321.654.2412.1429.2545.6165.1086.361468448100.0030.52第二讲数据特征与统计描述2、计算相对数的分母不宜过小。小则直接叙述。3、进行率的对比分析时,应注意资料可比性。如比较疗效时,比较组间应病情轻重相同,性别影响,应按性别分组后再作比较。第二讲数据特征与统计描述(1)观察对象是否同质,研究方法是否相同,观察时间是否相等,以及地区、周围环境、风俗习惯和经济条件是否一致或相近等。(2)观察对象内部结构是否相同,若两组资料的年龄、性别等构成不同,可以分别进行同年龄别、同性别的小组率比较或对总率(合计率)进行标准化后再作比较。
第二讲数据特征与统计描述4、正确求平均率。例:若P1=x1/n1,P2=x2/n2
P3=x3/n3
P=(x1+x2+x3)/n1+n2+n3)(正确)
P=(P1+P2+P3)/3(错误)5.样本率(或构成比)同样存在抽样误差,故应进行样本率(或构成比)差别的假设检验。第二讲数据特征与统计描述第四节统计图表
统计表(statisticaltable)——数据代替文字描述,便于统计结果的精确、简洁的表达和对比分析
统计图(statisticalchart)——用图形代替数据,获得直观、形象的效果第二讲数据特征与统计描述第二讲数据特征与统计描述一、统计表1.统计表的结构
2.统计表的种类
第二讲数据特征与统计描述标题:标目:线条:数字:无数字用“—”表示,缺失数字用“
”表示,数值为0者记为“0”,不要留空项。备注:1、统计表的基本结构
第二讲数据特征与统计描述顶线底线表名标题第二讲数据特征与统计描述
表5某省某工厂1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数异常人数检出率(%)
受检人数异常人数检出率(%)
血压心率
TTT
GPT
5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75
:TTT(麝香草酚浊度试验),
:GPT(谷丙转氨酶)。第二讲数据特征与统计描述2.统计表的种类
根据分组标目的复杂程度,统计表可大致分为简单表和复合表。
简单表(simpletable):只按一个特征或标志分组。见表6。
组合表(combinativetable):按两个或两个以上特征或标志结合起来分组。如表5。第二讲数据特征与统计描述简单表示例分组标志为矫治方法6第二讲数据特征与统计描述表5某省某工厂1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数异常人数检出率(%)
受检人数异常人数检出率(%)
血压心率
TTT
GPT
5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75
:TTT(麝香草酚浊度试验),
:GPT(谷丙转氨酶)。
(丁建生等.中国卫生统计1999;16(3):166)复合表示例
分组标志:不同年份不同检测指标第二讲数据特征与统计描述例下表是复方猪胆胶囊治疗两型老年性慢性支气管炎的疗效比较,请对该表的绘制进行评价,并指出所存在的问题。表
两个组的疗效观察
分型及疗效
单纯型慢性支气管炎
喘息型慢性支气管炎
指标
治愈
显效
好转
无效
治愈
显效
好转
无效
例数
60
98
51
12
23
83
65
11
合计
209
12
171
11
疗效
%
94.6
94.0
第二讲数据特征与统计描述表7复方猪胆胶囊治疗两型老年慢性支气管炎患者的疗效比较第二讲数据特征与统计描述一、统计图
统计图(statisticalchart或statisticalgraph)是用点、线、面等几何图形,直观形象地表达、描述数据或结果。
1.统计图的结构
2.
统计图的种类与绘制注意事项第二讲数据特征与统计描述1、统计图的结构标题:用于简明扼要地说明资料的内容,一般位于图的下方中央位置。图域:即制图空间,是整个统计图的视觉中心。除圆图外,一般都是存在于特定的坐标体系下。标目:分为纵标目和横标目,表示坐标系下纵轴与横轴的含义。图例:用于识别比较的统计图中各种图形所代表的含义。刻度:即纵轴和横轴上的坐标。刻度数值按从小到大的顺序,纵轴由下向上,横轴由左向右排列。第二讲数据特征与统计描述2.统计图的种类与绘制注意事项直条图百分条图圆图线图与半对数线图直方图箱图散点图统计地图第二讲数据特征与统计描述
(1)条图(bargraph)
1.概念
条图用等宽长条的高度表示按性质分类资料各类别的数值大小,用于表示他们之间的对比关系。
2.适用资料:相互独立的资料(资料有明确分
组,不连续)。
3.分类
(1)单式条图具有一个统计指标,一个分组因素。
(2)复式条图具有一个统计指标,两个分组因素。
第二讲数据特征与统计描述条图第二讲数据特征与统计描述表5某省某工厂1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数异常人数检出率(%)
受检人数异常人数检出率(%)
血压心率
TTT
GPT
5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75
:TTT(麝香草酚浊度试验),
:GPT(谷丙转氨酶)。
(丁建生等.中国卫生统计1999;16(3):166)条图第二讲数据特征与统计描述条图第二讲数据特征与统计描述绘制条图注意事项
⑴纵轴的刻度必须从“0”开始。
(2)横轴各直条一般按统计指标由大到小排列,也可按事物本身的自然顺序排列。
(3)各直条的宽度要一致,各直条应有相等的间隔,其宽度一般与直条的宽度相等或为直条宽度的一半。
第二讲数据特征与统计描述(2)圆图(piegraph)
1.概念
以圆形的总面积代表100%,把面积按比例分成若干部分,以角度大小来表示各部分所占的比重。
2.适用资料:构成比资料第二讲数据特征与统计描述2002年某医院1402例孕妇分娩结果分娩结果例数构成比(%)过期产211死产211早产21215足月114883总计1402100第二讲数据特征与统计描述(3)百分条图(percentagechart)
百分条图的作用与圆图相同。但更适用于多组百分比的比较。020406
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- JAVA性能优化与调试技巧试题及答案
- 财务托管报价方案(3篇)
- 性能测试中常见的工具介绍试题及答案
- 嵌入式技术的跨行业应用潜力试题及答案
- 2025年VFP考试难点试题及答案解析
- C语言考试准备指南试题及答案2025年
- C语言考试强化学习试题及答案2025年资源
- 网络应用的功能测试方法试题及答案
- 光伏维修合同协议书
- 2024-2025版高中地理刷题首秧第五章自然地理环境的整体性与差异第二节自然地理环境的差异性A卷含解析新人教版必修1
- 晚期胃癌护理
- 抗凝药术前停用的指南
- 废旧电缆采购合同协议
- 《2024 3573-T-424 重大活动食品安全保障规范 第 2 部分:食材》知识培训
- 欧氏距离在地理信息系统中的应用-全面剖析
- 新版静疗规范解读指南
- 2024年招聘辅导员的责任意识与服务能力测评试题及答案
- 主播行业研究报告
- 水利工程安全生产培训
- 全国爱眼日科学用眼预防近视9
- 2025 年上海社区工作人员招聘考试模拟卷
评论
0/150
提交评论