第二篇医学资料统计描述.ppt_第1页
第二篇医学资料统计描述.ppt_第2页
第二篇医学资料统计描述.ppt_第3页
第二篇医学资料统计描述.ppt_第4页
第二篇医学资料统计描述.ppt_第5页
免费预览已结束,剩余92页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一节频数分布表和频数分布图,第二章医学资料的统计描述,王晓敏,统计描述用适当的统计图(表)和统计指标(如均数、标准差、有效率、治愈率等)来描述资料的分布规律(图表)和数量特征(统计指标)。,目的:用直观的、简单的形式来表达描述的方法包括计算相关的指标、用统计表和统计图来表示。,资料的类型,定量资料,定性资料,等级资料,举例:,身高体重,治疗人数:100有效人数:85,化验结果:15人+:35人+:46人+:25人,不同的资料类型,要用不同的统计方法和指标,第一节频数分布表和频数分布图,在医学研究工作中,所收集到的原始数据一般是无规律所循的,特别当观察值较多时,直接从原始数据很难得出概括的印象。必须通过资料清理,编制频数表,来显示数据分布的范围、数据最集中的区间和频数分布的形态等。,第一节频数分布表和频数分布图,某年广西人均卫生事业费在全国位次,第一节频数分布表和频数分布图,某年中国农村死亡原因构成(%),第一节频数分布表和频数分布图,第一节频数分布表和频数分布图,一、频数分布表,资料,按某种标准或标志分组,统计不同组别的观察值个数,A8个,B11个,C15个,依次类推,称为频数,ABC,原始数据较大时,很难得出概括的印象。必须对原始数据进行整理:按数量分组或按属性或类别分组,然后统计各组的人数(频数)。,原始资料分组,定量资料频数分布表,定性资料频数分布表,按数量分组,按类别或属性分组,第一节频数分布表和频数分布图,(一)定性资料频数分布表,定性资料的频数分布表:按事物的属性特征进行归类后统计各类别观察单位数(人数/例数)所得的统计表。(9),第一节频数分布表和频数分布图,例2-1,第一节频数分布表和频数分布图,各类别及各类别下的观察单位数构成频数表,最小值,最大值,长度,分段,按数量大小分组,然后统计各组(段)的频数(人数),、定量资料的频数表的编制,步骤:,(1)计算极差(range),(2)确定组距和组段,(3)采用划记法,统计各组段频数,(4)列表,第一节频数分布表和频数分布图,最小值,最大值,(一)频数分布表的编制,R,最小值,最大值,例2-2150名男婴出生体重。,(1)求极差(全距)最大值最小值4.2-2.51.7(kg),(2)确定组距和组段,求组距(i):i极差/组数1.7/100.170.2,确定组数原则:n50,9-15组。实际应用时,应根据研究目的和分析要求,灵活确定组数。一般以能反映频数分布的特征为原则。,确定各组段的上下限原则:第一组段包括最小值,最后组段包括最大值。每一组段都有上限和下限下限:组段的起点(最小值)上限:组段的终点(最大值)最后组段应同时列出其上限和下限值,一般只列出下限!,注意:,每个数据只能归属一个组段!,划记,2.5,4.2,读取数据,然后“对号入座”,(3)采用划记法,统计各组段频数,将150个观察值划记归入相应的组段清点各组段内观察值个数即得各组段频数,频数合计为150.,划记,(4)计算频率及累计频率,二、频数分布图,以观察变量(组段)为横轴,频数或频率为纵轴绘制统计图。可直观地反映频数分布的特征。,三、频数表与频数直方图的用途:1、揭示资料分布的特征2、揭示资料分布的类型3、便于进一步计算指标和统计分析4、便于发现特大或特小的可疑值,频数分布的特征1、集中趋势:数据向某一数值集中的倾向2、离散趋势:从中间到两侧频数分布逐渐减少。,第一节频数分布表和频数分布图,集中趋势,离散趋势,离散趋势,频数分布的类型,1、对称分布:集中位置(高峰)居中,左右两侧频数分布大体对称,其中的正态分布是重要的分布形式。2、偏态分布:集中位置(高峰)不居中,偏向某侧。(1)正偏态:集中位置(高峰)偏向数值较小的一侧。(2)负偏态:集中位置(高峰)偏向数值较大的一侧。,频数分布的类型正态分布、对称分布偏态分布,正偏态,负偏态,王晓敏制作,24,频数分布的类型,正态分布(normaldistribution)中间高、两边低、左右对称,属于对称分布的一种许多医学资料都属于这种分布,例如人体正常的生理生化指标,正态分布,对称分布示意图,正态分布示意图,可以是多峰,只要左右对称,只能是单峰,王晓敏制作,27,正偏态分布:峰偏左,尾部向右侧延伸集中位置偏向年龄小的一侧,频数分布的类型,(positiveskewed),(negativeskewed),负偏态分布:峰偏右,尾部向左侧延伸集中位置偏向年龄大的一侧,28,正(右)偏态分布,2020/4/27,29,g,负(左)偏态分布,第二节集中趋势的描述,描述定量资料分布特征的指标,集中趋势指标,离散趋势指标,平均数,R、Q、S、CV,常用平均数的种类:1、算术均数(arithmeticmean)(简称均数)2、几何均数(geometricmean,G)3、中位数(median),平均数(average)是描述一组定量资料集中趋势的统计指标,常用于说明该组数据的平均水平。,第二节集中趋势的描述,32,(一)算术均数,又简称为均数(mean)定义:是反映一组观察值在数量上的平均水平。总体均数用希腊字母表示,样本均数用表示计算方法:直接法:加权法:,(arithmeticmean),一、算术均数(均数)样本均数用表示,总体均数用表示适用范围对称分布,尤其是正态分布的资料,王晓敏制作,34,计算方法直接法:将所有观察值x1,x2,x3,xn直接相加再除以观察值的个数,写成公式,为样本均数,n为变量值个数,i为各变量值,表示求和,(一)算术均数,王晓敏制作,35,例2-3某医师测得10名12岁健康男童体重(kg)分别为:39.6,33.2,32.1,29.9,43.7,33.8,35.1,37.8,32.4,38.5。求体重均数。,(一)算术均数,2020/4/27,王晓敏制作,36,加权法(weightingmethod)对于资料中相同观察值个数较多的频数表资料,可将相同观察值的个数,即频数f,乘以该观察值x,以代替相同观察值逐个相加。,(一)算术均数,公式,fi为各组段的频数xi为各组段的组中值,(2)加权法,f为相同观察值的个数(频数),例:2,3,3,4,4,4,5,5,5,6求均数。,方法一:,方法二:,直接法,加权法,加权法用于频数表资料,其中:X组中值(上限下限)/2f频数,为什么用组中值?,问题:所有的频数表资料计算均数都需要用组中值计算吗?,观察值x取组中值。,注,3.8,509.2,1743.76,72.2,274.36,2020/4/27,王晓敏制作,41,1、最常用,特别是正态分布资料(首选)2、均数对极值特别敏感,极大值或极小值通常将均数拉向自己如(1)2,3,5,10,50=14(2)4,30,35,36,40=29,均数的应用,(一)算术均数,均数两个重要特征:1.各离均差总和等于零(各观察值X与均数之差);.离均差的平方和小于各观察值X与任何数a之差的平方和。说明均数是一组观察值最好的代表值。,第二节集中趋势的描述,王晓敏制作,43,(二)几何均数,定义:有些医学资料,如抗体滴度、细菌计数、血清效价等,其频数分布明显偏态,各观察值之间呈倍数变化(等比关系),此时宜用几何均数反映其平均增减倍数。计算方法:直接法加权法,(geometricmean),原始数据的分布为偏态分布,但经对数变换后的分布呈正态分布,二、几何均数(geometricmean,简记为G),1、适用资料:对数正态分布资料,(1)等比级数资料(血清抗体滴度资料),(2)对数正态分布资料(微量元素资料),x,lgx,lgx,王晓敏制作,45,2、计算方法:直接法:直接将n个观察值(x1,x2,x3,xn)的乘积开n次公式写成对数形式为,几何均数:变量对数值的算术均数的反对数。,二、几何均数,X为抗体滴度的倒数,2、计算方法:(1)直接法,例1:10,1:100,1:1000,1:10000,1:100000,求平均血清抗体效价。,该5人的平均血清效价为1:1000。,注:用抗体倒数直接计算。,例2-5求平均抗体滴度,G=40,平均抗体滴度为1:40。,(2)加权法,Glog-1,抗体滴度资料的计算:不用组中值计算,为什么?,当资料中相同观察值个数f(即频数)较多时,不需计算组中值,为什么?,例:,Glog-1=44,3、应用几何均数注意事项:(1)观察值不能有0;(2)观察值不能同时有正负值;(3)同一资料求得的G,第二节集中趋势的描述,1、定义,中位数:将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数。在全部观察值中,大于和小于中位数的观察值的个数相等。,M,50%50%,(三)中位数和百分位数,百分位数:将一组观察值从小到大按顺序排列,一个百分位数将全部观察值分为两部分,理论上有x的观察值比它小,有(100-x)的观察值比它大。P50分位数也就是中位数。,25%P2575%,2、中位数和百分位数的适用范围:(1)偏态分布资料(2)分布不明资料(3)分布末端无确定值资料(开口资料)理论上,中位数和百分位数可用于任何分布的计量资料,但实际应用中常用于偏态分布,特别是开口资料。,某市238名健康人发汞含量发汞值(g/g)人数0.330.3170.7661.1601.5481.9182.3162.763.113.513.92合计238,偏态分布资料,开口资料,王晓敏制作,54,1、中位数,计算方法:直接由原始数据计算中位数先将观察值按大小顺序排列,再按下面公式计算:,(1)直接法:适用于观察数少资料(中位数),n为奇数时,,M,3,4,6,7,9,10,26,x1x2x3x4x5x6x7,M,n为偶数时,,M,x1x2x3x4x5x6x7x8,35789101327,M,第二节集中趋势的描述,57,例5有7名正常人的血压(舒张压)测定值(mmHg)为:72,75,76,77,81,82,86,求中位数。解:n=7为奇数变量x:72,75,76,77,81,82,86位次:1234567,1、中位数,请大家思考下:计算中位数和其他平均数有什么不同?,特点:仅利用了中间的12个数据,(2)频数表法:适用于频数表资料步骤:从小到大计算累计频率和累计频数;确定百分位数和中位数所在组段;计算百分位数Px和中位数M,第二节集中趋势的描述,Px,LPx或M所在组段的下限iPx或M所在组段的组距fxPx或M所在组段的频数小于L各组段的累计频数,60,0,2.27,4.55,10.61,28.03,46.21,65.15,80.30,89.39,96.97,1、中位数,累计频数,3614376186106118128132,例2-10试计算P25、P75、M,第二节集中趋势的描述,Px,62,1、中位数,反映了位次居中的观察值的水平优点:不受两端特大值和特小值影响缺点:并非考虑到每个观测值适用于各种分布类型的资料,特别适合于:大样本偏态分布资料或者一端/两端无确切数值的资料3.中位数和算术均数再对称分布的资料中,理论上数值是相同的。,中位数的特征:,中位数和百分位数的用途:(1)中位数描述一组偏态资料的集中趋势;百分位数描述一组资料在某百分位置的水平在对称分布资料中,M(2)百分位数用于确定医学参考值范围。,64,常用平均数的意义及其应用场合,小结,集中趋势指标的选择判断步骤:,资料抗体滴度G否偏态、开口M否X,是,是,66,第三节定量资料的离散趋势指标,平均水平的指标只是描述了一组数据的集中趋势指标,可以作为总体的一个代表值,那么这组观察值之间的是否存在差异?描述差异的指标有哪些呢?差异究竟有多大?如何计算?,67,例:设甲、乙、丙三人,采每人的耳垂血,然后作红细胞计数,每人数5个计数盘,得结果如下(万/mm3),甲,乙,丙,第三节定量资料的离散趋势指标,68,描述计量资料数据间离散程度的指标变异指标常用的指标:极差四分位间距方差标准差变异系数。,第三节定量资料的离散趋势指标,69,(一)极差,定义:亦称为全距,即一组观察值中最大值与最小值之差。计算方法:RXMaxXMin意义:R值越大,表示该组数据的变异越大。缺点:数据利用不全,仅利用了两个极端值,部分信息损失,在例数少时结果不稳定。,(Range),2020/4/27,70,(一)全距,例三组同龄男孩的身高值(cm)甲组909510010511010020乙组96981001021041008丙组96991001011041008,R,71,(二)四分位数间距,四分位数(quartile):可看作特定百分位数,第25百分位数P25,表示全部观察值中有25(四分之一)的观察值比它小,为下四分位数,记做QL;同理第75百分位数P75为上四分位数,记做Qu;,(inter-quartilerange),P50,P25,P75,72,四分位数间距:简记为Q,第75百分位数与第25百分位数之差。计算方法:Q=QuQL=P75%-P25%意义:Q值越大,表示该组数据的变异度越大。优点:1.可看成是中间一半观察值的极差。2.说明个体差异时,比极差稳定。缺点:未考虑到每个观察值的变异度大小。应用:常用于表示偏态分布资料的变异。,(二)四分位数间距,73,例7利用表8-3资料计算四分位数间距Q。,(二)四分位数间距,74,极差仅采用了观察值中的最大值和最小值;而四分位数间距也仅仅采用了上、下四分位数,均没有考虑每个观察值,因此这两项指标不能全面反映资料的离散程度。,离散趋势的描述,三、方差(总体方差简记,样本方差简记),一组观察值的离均差平方和,取其均数,即方差。,(XX)0(离均差和),(XX)20(离均差平方和),缺点:与例数多少有关,(variance),正态分布,中间高、两边低、以均数为中心左右对称,1、计算公式:,第三节定量资料的离散趋势指标,奇怪:为什么样本方差是除以(n-1)呢?,2020/4/27,78,n-1在数学上称为自由度,常用v表示即:V=n-1,意义:方差越大,表示观察值分布越离散,方差越小,表示观察值分布越紧密,2020/4/27,79,方差(variance)是全部观察值的离均差平方和的均值。表示一组数据的离散/变异情况。特点:方差的分子离均差平方和,反映了全部观察值的离散程度;但同时也将变量值的度量衡单位平方了,变成(m)2、(kg)2,唉!这个指标还是不够尽善尽美,继续探索,(三)方差与标准差,四、标准差(总体标准差简记,样本标准差简记S),方差的开方,即标准差。,1、计算公式:,2、意义:与方差的意义相同(注:n-1为自由度),(standarddeviation),3、计算方法:(1)直接法:,例试观察三组数据的离散状况。(均数都是30)A组:26,28,30,32,34B组:24,27,30,33,36C组:26,29,30,31,34,例分别计算例2-11中三组数据的标准差。按照公式(2-11)与标准差的定义A组B组C组C组数据的离散趋势最小,B组的离散趋势最大,(2)加权法:,X为组中值,X为组中值,3.8,509.2,1743.76,72.2,274.36,标准差,第三节定量资料的离散趋势指标,用途:(1)反映一组观察值的离散程度,标准差小,数据间的离散程度小,均数的代表性好。(2)用于计算变异系数(3)用于计算标准误(4)结合均值描述正态分布的特征和估计医学参考值范围。,A人群的月收入:300,350,320,400,350,360,200,10000X=1535(元)S=3420.9(元),B人群的月收入:300,350,320,400,350,360,200,500X=347.5(元)S=85.3(元),根据标准差大小,判断均数的代表性,88,(四)变异系数,变异系数(coefficientofvariation,CV)即标准差s与均数之比用百分数表示,写成公式为应用:(1)比较度量衡单位不同的多组资料的变异度(2)比较均数相差悬殊的多组资料的变异度。,89,单位:极差、四分位数间距和标准差都是有单位的,其单位与观察值单位相同,而变异系数是相对数,没有单位,更便于资料间的分析比较。,(四)变异系数,90,(1)比较度量衡单位不同的多组资料的变异度例比较某地20

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论