 
         
         
         
         
        版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据特征与统计描述第1页,课件共102页,创作于2023年2月第一节频数分布表与频数分布图第二节计量资料的常用统计指标第三节 计数资料的常用统计指标第四节统计图表本章结构
第2页,课件共102页,创作于2023年2月第一节频数分布表与频数分布图第3页,课件共102页,创作于2023年2月
一、频数分布表(frequencytable)
用途:用于描述资料的分布特征
频数:在一批样本中,相同情形出现的次数称为该情形的频数。资料类型组段频数计数和等级观察结果的所有分类相同类别出现的次数计量根据观察结果重新划分分组统计第4页,课件共102页,创作于2023年2月表4-3某地150名正常成年男子红细胞数(1012/L)
编号红细胞数编号红细胞数13.98……24.541434.6734.741445.4045.131455.2954.431464.7764.811475.3874.981485.1583.791494.64……1505.19第5页,课件共102页,创作于2023年2月1.频数表的编制步骤(1)求极差(range):即最大值与最小值之差,又称为全距。本例极差:R=5.88-3.79=2.09
(1012/L)(2)决定组数、组段和组距:根据研究目的和样本含量n确定。组距=极差/组数,通常分10-15个组,为方便计,组距参考极差的十分之一,再略加调整。本例i=R/10=2.09/10=0.209≈0.2。第6页,课件共102页,创作于2023年2月(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。第7页,课件共102页,创作于2023年2月组段(1)频数,f(2)组中值,X(3)
fX(4)=(2)×(3)3.7~13.83.83.9~44.016.04.1~114.246.24.3~174.474.84.5~264.6119.64.7~324.8153.64.9~265.0130.05.1~185.293.65.3~105.454.05.5~45.622.45.7~5.9
合计15.85.8150719.8第8页,课件共102页,创作于2023年2月三、频数分布图
第9页,课件共102页,创作于2023年2月二、频数表和频数分布图用途
1.描述频数分布的类型*(1)对称分布:若各组段频数的分布以频数最多的组段为中心左右两侧大体对称(总体则完全对称),就认为该资料是对称分布(2)偏态分布:第10页,课件共102页,创作于2023年2月右偏态分布(正偏态分布):频数最多组段右侧的组段数多于左侧的组段数,高峰向左偏移,频数向右侧拖尾。
表4-115名正常成年女子血清转氨酶(mmol/L)含量分布第11页,课件共102页,创作于2023年2月第12页,课件共102页,创作于2023年2月左偏态分布(负偏态分布):
左侧的组段数多于右侧的组段数,频数向左侧拖尾。表4-101名正常人的血清肌红蛋白()含量分布第13页,课件共102页,创作于2023年2月第14页,课件共102页,创作于2023年2月2.描述计量资料分布的
集中趋势和离散趋势①集中趋势(centraltendency):变量值集中位置。本例在组段“4.7~”。——平均水平指标②离散趋势(tendencyofdispersion):变量值围绕集中位置的分布情况。离“中心”位置越远,频数越小;且围绕“中心”左右对称。——变异水平指标
第15页,课件共102页,创作于2023年2月3.便于发现一些特大或特小的可疑值*第16页,课件共102页,创作于2023年2月4.便于进一步做统计分析和处理第17页,课件共102页,创作于2023年2月第二节计量资料的常用统计指标描述集中趋势的特征数描述离散趋势的特征数第18页,课件共102页,创作于2023年2月计量资料(定量资料、数值变量资料)总体:有限或无限个(定量)变量值样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xnn为样本例数(样本大小、样本含量)第19页,课件共102页,创作于2023年2月一、描述集中趋势的特征数(平均指标)总称为平均数(average)反映了资料的集中趋势(centraltendency
)。常用的有:
1.算术均数(arithmeticmean),简称均数
(mean)
2.几何均数(geometricmean)
3.中位数
(median)
第20页,课件共102页,创作于2023年2月均数(mean)Σ为求和符号,读成sigma,k,X,f意义符号:总体样本
适用条件:资料呈对称分布,尤其是正态或近似正态。
计算:
(1)直接法(2)频数表法第21页,课件共102页,创作于2023年2月2.几何均数(geometricmean)几何均数:变量对数值的算术均数的反对数。
第22页,课件共102页,创作于2023年2月几何均数的适用条件与实例适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料
例血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。此例的算术均数为22222,显然不能代表滴度的平均水平。同一资料,几何均数<均数第23页,课件共102页,创作于2023年2月频数表资料的几何均数抗体滴度⑴人数,f⑵滴度倒数,X⑶lgX⑷
f·lgX⑸1:4
1:81:161:32┇1:512
合计1562┇572481632┇5120.60210.90311.20411.5051┇2.70930.60214.51557.22463.0102┇13.546572.2471例5:几何均数=反对数(72.2471/40)=64.00第24页,课件共102页,创作于2023年2月3.中位数(median)意义:中位数是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在位次上的平均水平。符号:Md
适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料;②资料有不确定数值;③资料分布不明等。
第25页,课件共102页,创作于2023年2月中位数计算公式与实例先将观察值按从小到大顺序排列,再按以下公式计算:特点:仅仅利用了中间的1~2个数据例6:5人潜伏期:2,3,5,8,20第26页,课件共102页,创作于2023年2月频数表资料的中位数下限值L上限值Ui;fm中位数Md第27页,课件共102页,创作于2023年2月潜伏期/h
(1)频数,f(2)累计频数Sf(3)0~17176~466312~3810118~3213324~613930~013936~414342~48
合计2145145例8中位数=12+6x[(145x50%-63)/38]
=13.5(h)第28页,课件共102页,创作于2023年2月均数、中位数二者关系正态分布时:均数=中位数正偏态分布时:均数>中位数负偏态分布时:均数<中位数第29页,课件共102页,创作于2023年2月小结:
集中趋势的描述——平均数
平均数:描述一组变量值的集中位置或平均水平的指标体系。
不同的分布使用不同的指标
(算术)均数:正态或近似正态或观察值相差不大的小样本资料
几何均数:对数正态分布或等比级数资料
中位数:一般偏态分布(传染病发病的潜伏期)第30页,课件共102页,创作于2023年2月二、描述离散趋势的特征数
(变异(variation)指标)反映数据的离散度(Dispersion
)。即个体观察值的变异程度。常用的指标有:
1.极差(Range)
(全距)
2.百分位数与四分位数间距
PercentileandQuartilerange
3.方差
Variance
4.标准差StandardDeviation
5.变异系数
CoefficientofVariation
第31页,课件共102页,创作于2023年2月
盘编号甲乙丙14404804902460490495350050050045405105055560520510合计250025002500均数500500500例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)甲乙丙第32页,课件共102页,创作于2023年2月1.极差(Range)(全距)
1204020符号:R意义:反映全部变量值的变动范围。
优点:简便,如说明传染病、食物中毒的最长、最短潜伏期等。
缺点:1.只利用了两个极端值
2.n大,R也会大
3.不稳定适用范围:任何计量资料;是参考变异指标第33页,课件共102页,创作于2023年2月2.百分位数与四分位数间距
Percentileandquartilerange百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。记为Px。四分位间距:
(定义:P53)Q=P75-P25
四分位半间距quartiledeviation:QD=QR/2P100(max)P75P50(中位数)P25P0(min)Px第34页,课件共102页,创作于2023年2月频数表资料的百分位数下限值L上限值Ui;fm百分位数Px第35页,课件共102页,创作于2023年2月P25=6+6x[(145x25%-17)/46]=8.51(h)P75=18+6x[(145x75%-101)/32]=19.45(h)Q=19.45-8.51=10.94(h)潜伏期/h
(1)频数,f(2)累计频数Sf(3)0~17176~466312~3810118~3213324~613930~013936~414342~48
合计2145145第36页,课件共102页,创作于2023年2月百分位数的应用确定医学参考值范围(referencerange):如95%参考值范围=P97.5-P2.5;表示有95%正常个体的测量值在此范围。中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征第37页,课件共102页,创作于2023年2月3.方差
方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。第38页,课件共102页,创作于2023年2月样本方差为什么要除以(n-1)数理统计证明,n代替N后,计算出的样本方差对总体方差的估计偏小。对于样本资料,对离均差平方和取平均时分母用n-1代替n。第39页,课件共102页,创作于2023年2月4.标准差标准差(standarddeviation)即方差的正平方根;其单位与原变量X的单位相同。第40页,课件共102页,创作于2023年2月标准差的计算盘编号甲乙丙甲2乙2丙214404804901936002304002401002460490495211600240100245025350050050025000025000025000045405105052916002601002550255560520510313600270400260100合计250025002500126040012510001250250标准差50.9915.817.91第41页,课件共102页,创作于2023年2月方差=(3476.48-719.82/150)/(150-1)=0.1503标准差=0.39(1012/L)(例12)组段(1)频数,f(2)组中值,X(3)
fX(4)=(2)×(3)3.7~13.83.83.9~44.016.04.1~114.246.24.3~174.474.84.5~264.6119.64.7~324.8153.64.9~265.0130.05.1~185.293.65.3~105.454.05.5~45.622.45.7~5.9
合计15.85.8150719.8第42页,课件共102页,创作于2023年2月5.变异系数(coefficientofvariation)符号:CV适用条件:①观察指标单位不同,如身高、体重②同单位资料,但均数相差悬殊均数标准差变异系数青年男子身高170cm6cm3.5%体重60kg7kg11.7%意义:挑选指标时变异系数越小,指标越好。第43页,课件共102页,创作于2023年2月变异指标小结1.极差较粗,适合于任何分布2.标准差与均数的单位相同,最常用,适合于近似正态分布3.变异系数主要用于单位不同或均数相差悬殊资料4.平均指标和变异指标分别反映资料的不同特征,常配套使用如正态分布:均数、标准差;
偏态分布:中位数、四分位半间距第44页,课件共102页,创作于2023年2月第三节计数资料的常用统计指标一、计数资料的数据整理二、常用相对数指标三、应用注意事项第45页,课件共102页,创作于2023年2月计数资料(分类资料):总体:有限或无限个定性(分类)变量值样本:从总体中抽取的n个定性(分类)变量值整理为:分类个体数,即:计数资料频数表绝对数第46页,课件共102页,创作于2023年2月一、计数资料的数据整理
计数资料:按某种属性分类,然后清点每类的数据(以下是:孕妇分娩资料)住院号年龄职业文化程度分娩方式妊娠结局202565527无中学顺产足月202565322无小学助产足月202583025管理人员大学顺产足月202567724知识分子中学顺产早产202564730管理人员大学顺产足月202584832无小学剖宫产足月201991527无中学顺产死产202586129无大学剖宫产足月202460125农民中学顺产足月200038626无小学顺产足月第47页,课件共102页,创作于2023年2月按年龄(2岁一组)与职业整理年龄工人管理人员农民商业服务无知识分子总计18
2
0
0
0
3
0
520
9
2
610
18
0
452228
71024
70111502450342852153443612650432545133703662834351034
78572483011141122
39171143214
2
314
24
3
6034
4
2
5
3
12
2
2836
2
1
1
4
5
1
1438
3
1
1
0
2
1
840
0
0
2
0
0
0
2合计
207
1411022085372061401第48页,课件共102页,创作于2023年2月二、常用相对数绝对数:通过调查或实验得到的原始数据。如某病的出院人数、治愈人数、死亡人数等。但绝对数通常不具有可比性:1.如2005级临床五年制一、二大班学生人数不同时,比较两班医学统计学的及格人数没有意义,因此需要在绝对数的基础上计算相对数。相对数:两个有联系的指标之比,常用的相对数有:一、比二、比率三、速率第49页,课件共102页,创作于2023年2月相对比简称比,是两个有关指标之比,说明两指标间的比例关系。计算公式为式中两指标可以是绝对数、相对数或平均数。(一)比(ratio)第50页,课件共102页,创作于2023年2月
(一)两个绝对数之比:
如某年某医院出生婴儿中,男性婴儿为370人,女性婴儿为358人,则出生婴儿性别比例为370/358×100=103,说明该医院该年每出生100名女婴儿,就有103名男性婴儿出生,它反映了男性婴儿与女性婴儿出生的对比水平。
第51页,课件共102页,创作于2023年2月
(二)两个率之比:如相对危险度(RR)。
例如某地某年龄组男性吸烟和非吸烟的冠心病死亡资料如表7-2,试分析其相对危害度。
说明男性吸烟组的冠心病死亡率是非吸烟组的2.139倍。表7-2
某地某年龄组男性吸烟和非吸烟的冠心病死亡资料第52页,课件共102页,创作于2023年2月
(三)两个相对比之比:如流行病学常用的比数比(OR)。
例服用反应停与肢体缺陷关系病例对照研究资料如表所示:
第53页,课件共102页,创作于2023年2月比率:分子分母都是绝对数,且分子必须是分母的一部分。无量纲,[0,1]
。1.率(rate)(强度相对数)说明某现象或某事物发生的频率或强度。
率=(实际发生数/可能发生总数)×比例基数如:治愈率、病死率、阳性率、人群患病率等比例基数:100%、1000‰、10000/万、100000(1/10万)等(按习惯,使结果保留1-2位小数)例如:患病率通常用百分率、婴儿死亡率用千分率、肿瘤死亡率以十万分率表示。(二)比率(proportion)第54页,课件共102页,创作于2023年2月2.构成比(结构相对数)(proportion):表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布。通常以100%为比例基数。其计算公式为
如:教研室16人高级职称有4人,占25%;中级职称有8人,占50%;初级职称有4人,占25%。第55页,课件共102页,创作于2023年2月(三)速率(rate):分母中含有时间量纲。是反映单位时间内某事件出现的可能性大小,多用于面向人群的出生、死亡和发病资料的统计.
人口出生率=(某年中活产总数/该年平均人口数)×100%第56页,课件共102页,创作于2023年2月三、应用注意事项1、不能以构成比代替率。第57页,课件共102页,创作于2023年2月率与构成比容易误用年龄组⑴受检人数⑵白内障例数⑶患者年龄构成比(%)⑷患病率(%)⑸=(3)/(2)40~50~60~70~≥80合计5604412961492268129135971915.1828.7930.1321.654.2412.1429.2545.6165.1086.36
1468448100.0030.52第58页,课件共102页,创作于2023年2月2、计算相对数的分母不宜过小。小则直接叙述。第59页,课件共102页,创作于2023年2月4、正确求平均率。例:若P1=x1/n1,P2=x2/n2
P3=x3/n3
P=(x1+x2+x3)/n1+n2+n3)(正确)
P=(P1+P2+P3)/3(错误)
5.样本率(或构成比)同样存在抽样误差,故应进行样本率(或构成比)差别的假设检验。第60页,课件共102页,创作于2023年2月第四节统计图表
统计表(statisticaltable)——数据代替文字描述,便于统计结果的精确、简洁的表达和对比分析
统计图(statisticalchart)——用图形代替数据,获得直观、形象的效果第61页,课件共102页,创作于2023年2月第62页,课件共102页,创作于2023年2月一、统计表
1.统计表的结构
2.统计表的种类
第63页,课件共102页,创作于2023年2月标题:标目:线条:数字:无数字用“—”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。备注:1、统计表的基本结构
第64页,课件共102页,创作于2023年2月顶线底线表名标题第65页,课件共102页,创作于2023年2月
表4-8某省某工厂1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数异常人数检出率(%)受检人数异常人数检出率(%)
血压心率
TTTGPT5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75
:TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。第66页,课件共102页,创作于2023年2月
2.统计表的种类
根据分组标目的复杂程度,统计表可大致分为简单表和复合表。
简单表(simpletable):只按一个特征或标志分组。如表4-1。
组合表(combinativetable):按两个或两个以上特征或标志结合起来分组。如表4-8。第67页,课件共102页,创作于2023年2月简单表示例分组标志为矫治方法
第68页,课件共102页,创作于2023年2月表4-8某省某工厂1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数异常人数检出率(%)受检人数异常人数检出率(%)
血压心率
TTTGPT5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75
:TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。
(丁建生等.中国卫生统计1999;16(3):166)复合表示例分组标志:不同年份不同检测指标第69页,课件共102页,创作于2023年2月例下表是复方猪胆胶囊治疗两型老年性慢性支气管炎的疗效比较,请对该表的绘制进行评价,并指出所存在的问题。表
两个组的疗效观察
分型及疗效
单纯型慢性支气管炎
喘息型慢性支气管炎
指标
治愈
显效
好转
无效
治愈
显效
好转
无效
例数
60
98
51
12
23
83
65
11
合计
209
12
171
11
疗效
%
94.6
94.0
第70页,课件共102页,创作于2023年2月表复方猪胆胶囊治疗两型老年慢性支气管炎患者的疗效比较第71页,课件共102页,创作于2023年2月一、统计图
统计图(statisticalchart或statisticalgraph)是用点、线、面等几何图形,直观形象地表达、描述数据或结果。
1.统计图的结构
2.
统计图的种类与绘制注意事项第72页,课件共102页,创作于2023年2月1、统计图的结构标题:用于简明扼要地说明资料的内容,一般位于图的下方中央位置。图域:即制图空间,是整个统计图的视觉中心。除圆图外,一般都是存在于特定的坐标体系下。标目:分为纵标目和横标目,表示坐标系下纵轴与横轴的含义。图例:用于识别比较的统计图中各种图形所代表的含义。刻度:即纵轴和横轴上的坐标。刻度数值按从小到大的顺序,纵轴由下向上,横轴由左向右排列。第73页,课件共102页,创作于2023年2月2.统计图的种类与绘制注意事项直条图百分条图圆图线图与半对数线图直方图箱式图散点图第74页,课件共102页,创作于2023年2月(1)条图(bargraph)
1.概念
条图用等宽长条的高度表示按性质分类资料各类别的数值大小,用于表示他们之间的对比关系。
2.适用资料:相互独立的资料(资料有明确分
组,不连续)。
3.分类
(1)单式条图具有一个统计指标,一个分组因素。
(2)复式条图具有一个统计指标,两个分组因素。
第75页,课件共102页,创作于2023年2月条图第76页,课件共102页,创作于2023年2月表4-8某省某工厂1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数异常人数检出率(%)受检人数异常人数检出率(%)
血压心率
TTTGPT5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75
:TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。
(丁建生等.中国卫生统计1999;16(3):166)条图第77页,课件共102页,创作于2023年2月条图第78页,课件共102页,创作于2023年2月绘制条图注意事项
⑴纵轴的刻度必须从“0”开始。
(2)横轴各直条一般按统计指标由大到小排列,也可按事物本身的自然顺序排列。
(3)各直条的宽度要一致,各直条应有相等的间隔,其宽度一般与直条的宽度相等或为直条宽度的一半。
第79页,课件共102页,创作于2023年2月(2)圆图(piegraph)
1.概念
以圆形的总面积代表100%,把面积按比例分成若干部分,以角度大小来表示各部分所占的比重。
2.适用资料:构成比资料第80页,课件共102页,创作于2023年2月2002年某医院1402例孕妇分娩结果分娩结果例数构成比(%)过期产21
1死产21
1早产212
15足月1148
83总计1402100第81页,课件共102页,创作于2023年2月(3)百分条图(percentagechart)
百分条图的作用与圆图相同。但更适用于多组百分比的比较。020406080100呼吸系统病脑血管病恶性肿瘤损伤与中毒心脏疾病其它图2-18我国部分县1988年的死因构成比第82页,课件共102页,创作于2023年2月不同性别某癌三种类型的构成
分化型癌低分化腺癌未分化型合计男52.327.819.9100女30.218.151.7100第83页,课件共102页,创作于2023年2月(4)线图一、普通线图(线图)1.概念线图(linegraph)是用线段的升降来表示统计指标的变化趋势。如某事物随时间的发展变化,或某现象随另一现象变迁的情况。2.适用资料适用于随时间变化的连续性资料。第84页,课件共102页,创作于2023年2月3.分析目的:用线段的升降表示某事物在时间上的发展变化趋势。第85页,课件共102页,创作于2023年2月第86页,课件共102页,创作于2023年2月二、半对数线图1.概念是一种特殊的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 消化内镜中心护理操作并发症的预防及处理规范考核试题及答案
- 顶管施工纠偏方案
- 外墙真石漆抹面涂刷方案
- 旅馆单间出租合同(标准版)
- 2025年低空飞行器动力系统失效应急通信系统建设与保障研究
- 具身智能+商业零售无人化导购系统分析研究报告
- 2025年新能源光伏产业光伏产品出口现状与市场分析报告
- 2024年海上风电项目项目投资筹措计划书代可行性研究报告
- 2025及未来5年中国高温老化室市场调查、数据监测研究报告
- 2025及未来5年中国秸秆切碎青贮收获机市场调查、数据监测研究报告
- GB/T 46401-2025养老机构认知障碍老年人照护指南
- 2025江苏南京玄武区招聘社区工作者和“两新”组织专职党务工作人员70人备考考试题库附答案解析
- 基于六经病欲解时理论运用《伤寒论》经方治疗失眠症的创新性研究
- 箱式变电站迁移施工方案
- 2025江西吉安市国资委出资监管企业外部董事人选招录6人备考考试题库附答案解析
- 套筒工艺施工方案
- 超声引导下血管穿刺-张辉
- 软件考试-系统集成资料章节-记忆口诀
- GB/T 40545-2021煤层气井压裂作业导则
- GB/T 18028-2010中国盲文数学、物理、化学符号
- GB/T 11067.1-2006银化学分析方法银量的测定氯化银沉淀-火焰原子吸收光谱法
 
            
评论
0/150
提交评论