




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一节 频数分布表和频数分布图,第二章 医学资料的统计描述,王晓敏,统计描述用适当的统计图(表)和统计指标(如均数、标准差、有效率、治愈率等)来描述资料的分布规律(图表)和数量特征(统计指标)。,目的:用直观的、简单的形式来表达 描述的方法包括计算相关的指标、用统计表和统计图来表示。,资料的类型,定量资料,定性资料,等级资料,举例:,身高体重,治疗人数:100 有效人数: 85,化验结果: :15人 +:35人 +:46人 +:25人,不同的资料类型,要用不同的统计方法和指标,第一节 频数分布表和频数分布图,在医学研究工作中,所收集到的原始数据一般是无规律所循的,特别当观察值较多时,直接从原始
2、数据很难得出概括的印象。必须通过资料清理,编制频数表,来显示数据分布的范围、数据最集中的区间和频数分布的形态等。,第一节 频数分布表和频数分布图,某年广西人均卫生事业费在全国位次,第一节 频数分布表和频数分布图,某年中国农村死亡原因构成 (%),第一节 频数分布表和频数分布图,第一节 频数分布表和频数分布图,一、频数分布表,资料,按某种标准或标志分组,统计不同组别的观察值个数,A 8个,B 11个,C 15个,依次类推,称为频数,A B C ,原始数据较大时,很难得出概括的印象。必须对原始数据进行整理:按数量分组或按属性或类别分组,然后统计各组的人数(频数)。,原始资料分组,定量资料频数分布表
3、,定性资料频数分布表,按数量分组,按类别或属性分组,第一节 频数分布表和频数分布图,(一)定性资料频数分布表,定性资料的频数分布表:按事物的属性特征进行归类后统计各类别观察单位数(人数/例数)所得的统计表。(9),第一节 频数分布表和频数分布图,例 2-1,第一节 频数分布表和频数分布图,各类别及各类别下的观察单位数构成频数表,下表是甲、乙两医院治疗同一种疾病的情况,比较甲、 乙两医院的总治愈率有无差别。 甲医院乙医院 病情治疗人数治愈人数治愈率()治疗人数治愈人数治愈率() 轻 100 80 80.0 300 210 70.0 重 300 180 60.0 100 50 50.0 合计 40
4、0 260 65.0 400 260 65.0,甲、 乙两医院某病治愈率比较,第一节 频数分布表和频数分布图,(二)定量资料频数分布表,最小值,最大值,长度,分段,按数量大小分组,然后统计各组(段)的频数(人数),第一节 频数分布表和频数分布图,最小值,最大值,长度,分段,按数量大小分组,然后统计各组(段)的频数(人数),、定量资料的频数表的编制,步骤:,(1)计算极差(range),(2)确定组距和组段,(3)采用划记法,统计各组段频数,(4)列表,第一节 频数分布表和频数分布图,最小值,最大值,(一)频数分布表的编制,R,最小值,最大值,例 2-2 150名男婴出生体重。,(1)求极差(全
5、距) 最大值最小值 4.2-2.51.7 (kg),(2)确定组距和组段,求组距(i): i极差/组数1.7/10 0. 170.2,确定组数 原则:n50, 9-15组。实际应用时,应根据研究目的和分析要求,灵活确定组数。一般以能反映频数分布的特征为原则。,确定各组段的上下限 原则:第一组段包括最小值,最后组段包括最大值。 每一组段都有上限和下限 下限:组段的起点(最小值) 上限:组段的终点(最大值) 最后组段应同时列出其上限和下限值,一般只列出下限!,注意:,每个数据只能归属一个组段!,划记,2.5,4.2,读取数据,然后“对号入座”,(3)采用划记法,统计各组段频数,将150个观察值划记
6、归入相应的组段 清点各组段内观察值个数即得各组段频数,频数合计为150.,划记,(4)计算频率及累计频率,二、频数分布图,以观察变量(组段)为横轴,频数或频率为纵轴绘制统计图。可直观地反映频数分布的特征。,三、频数表与频数直方图的用途: 1、揭示资料分布的特征 2、揭示资料分布的类型 3、便于进一步计算指标和统计分析 4、便于发现特大或特小的可疑值,频数分布的特征 1、集中趋势:数据向某一数值集中的倾向 2、离散趋势:从中间到两侧频数分布逐渐减少。,第一节 频数分布表和频数分布图,集中趋势,离散趋势,离散趋势,频数分布的类型,1、对称分布:集中位置(高峰)居中,左右两侧频数分布大体对称,其中的
7、正态分布是重要的分布形式。 2、偏态分布:集中位置(高峰)不居中,偏向某侧。 (1)正偏态:集中位置(高峰)偏向数值较小的一侧。 (2)负偏态:集中位置(高峰)偏向数值较大的一侧。,频数分布的类型 正态分布、对称分布 偏态分布,正偏态,负偏态,王晓敏 制作,26,频数分布的类型,正态分布 ( normal distribution ) 中间高、两边低、左右对称,属于对称分布的一种 许多医学资料都属于这种分布, 例如人体正常的生理生化指标,正态分布,对称分布示意图,正态分布示意图,可以是多峰,只要左右对称,只能是单峰,王晓敏 制作,29,正偏态分布: 峰偏左,尾部向右侧延伸 集中位置偏向年龄小的
8、一侧,频数分布的类型,(positive skewed),(negative skewed),负偏态分布: 峰偏右,尾部向左侧延伸 集中位置偏向年龄大的一侧,30,正(右)偏态分布,2020/9/16,31,g,负(左)偏态分布,王晓敏 制作,33,便于发现某些特大或特小可疑值,可疑值?,可疑值?,第二节 集中趋势的描述,描述定量资料分布特征的指标,集中趋势指标,离散趋势指标,平均数,R、Q、S、CV,集中趋势,离散趋势,离散趋势,常用平均数的种类: 1、算术均数(arithmetic mean)(简称均数) 2、几何均数(geometric mean,G) 3、中位数(median),平均数
9、(average)是描述一组定量资料集中趋势的统计指标,常用于说明该组数据的平均水平。,第二节 集中趋势的描述,37,(一)算术均数,又简称为均数(mean) 定义:是反映一组观察值在数量上的平均水平。 总体均数用希腊字母 表示,样本均数用 表示 计算方法: 直接法: 加权法:,(arithmetic mean),一、算术均数(均数) 样本均数用 表示,总体均数用表示 适用范围 对称分布,尤其是正态分布的资料,王晓敏 制作,39,计算方法 直接法:将所有观察值x1,x2,x3,xn直接相加再除以观察值的个数,写成公式,为样本均数, n为变量值个数, i为各变量值, 表示求和,(一)算术均数,王
10、晓敏 制作,40,例2-3 某医师测得10名12岁健康男童体重(kg)分别为:39.6,33.2,32.1,29.9,43.7,33.8,35.1,37.8,32.4,38.5。求体重均数。,(一)算术均数,2020/9/16,王晓敏 制作,41,加权法(weighting method) 对于资料中相同观察值个数较多的频数表资料,可将相同观察值的个数,即频数f,乘以该观察值x,以代替相同观察值逐个相加。,(一)算术均数,公式,fi为各组段的频数 xi为各组段的组中值,(2)加权法,f为相同观察值的个数(频数),例:2,3,3,4,4,4,5,5,5,6 求均数。,方法一:,方法二:,直接法,
11、加权法,加权法用于频数表资料,其中: X组中值(上限下限)/ 2 f频数,为什么用组中值?,问题:所有的频数表资料计算均数都需要用组中值计算吗?,观察值x取组中值。,注,3.8,509.2,1743.76,72.2,274.36,2020/9/16,王晓敏 制作,46,f1, f2,fk分别为各组段的频数,这里的f起到了“权数”的作用,它权衡了各组中值由于频数不同对均数的影响。即频数多,权数大,作用也大;频数少,权数小,作用也小,故称为加权法。,用组中值,加权法计算出的均数是精确值吗?,(一)算术均数,2020/9/16,王晓敏 制作,47,1、最常用,特别是正态分布资料(首选) 2、均数对极
12、值特别敏感, 极大值或极小值通常将均数拉向自己 如(1)2,3,5,10,50 =14 (2) 4,30,35,36,40 =29,均数的应用,(一)算术均数,均数两个重要特征: 1.各离均差总和等于零(各观察值X与均数之差); .离均差的平方和小于各观察值X与任何数a之 差的平方和。 说明均数是一组观察值最好的代表值。,第二节 集中趋势的描述,王晓敏 制作,49,(二)几何均数,定义:有些医学资料,如抗体滴度、细菌计数、血清效价等,其频数分布明显偏态,各观察值之间呈倍数变化(等比关系),此时宜用几何均数反映其平均增减倍数。 计算方法: 直接法 加权法,(geometric mean),原始数
13、据的分布为偏态分布,但经对数变换后的分布呈正态分布,二、几何均数(geometric mean, 简记为G),1、适用资料: 对数正态分布资料,(1)等比级数资料(血清抗体滴度资料),(2)对数正态分布资料 (微量元素资料),x,lgx,lgx,王晓敏 制作,51,2、计算方法: 直接法:直接将n个观察值( x1,x2,x3,xn )的乘积开n次 公式 写成对数形式为,几何均数: 变量对数值 的算术均数 的反对数。,二、几何均数,X 为抗体滴度的倒数,2、计算方法: (1)直接法,例 1:10, 1:100, 1:1000, 1:10000, 1:100000, 求平均血清抗体效价。,该5人的
14、平均血清效价为 1: 1000。,注:用抗体倒数直接计算。,例 2-5 求平均抗体滴度,G=40,平均抗体滴度为1:40。,(2)加权法,Glog -1,抗体滴度资料的计算:不用组中值计算,为什么?,当资料中相同观察值个数 f(即频数)较多时,不需计算组中值,为什么?,例:,Glog -1 =44,王晓敏 制作,55,例 有7份血清的抗体效价分别为1:2,1:4,1:8,1:16,1:32,1:64,1:128,求平均抗体效价。 本例先求抗体效价的倒数,再求几何均数,血清抗体的平均效价为1:16,(二)几何均数,直接法,王晓敏 制作,56,例 有60人的血清抗体效价,分别为7人1:5,11人
15、1:10,22人1:20,12人1:40,8人1:80,求平均抗体效价。,60人的血清平均抗体效价为1:20.705,(二)几何均数,加权法,3、应用几何均数注意事项: (1)观察值不能有0; (2)观察值不能同时有正负值; (3)同一资料求得的G,第二节 集中趋势的描述,1、定义,中位数: 将一组观察值从小到大按顺序排列, 位次居中的观察值就是中位数。 在全部观察值中,大于和小于中位数的观察值的个数相等。,M,50% 50%,(三)中位数和百分位数,百分位数:将一组观察值从小到大按顺序排列, 一个百分位数将全部观察值分为两部分,理论上有x的观察值比它小,有(100-x)的观察值比它大。P50
16、分位数也就是中位数。,25% P25 75%,2、中位数和百分位数的适用范围: (1)偏态分布资料 (2)分布不明资料 (3)分布末端无确定值资料(开口资料) 理论上,中位数和百分位数可用于任何分布的计量资料, 但实际应用中常用于偏态分布,特别是开口资料。,某市238名健康人发汞含量 发汞值(g/g) 人数 0.3 3 0.3 17 0.7 66 1.1 60 1.5 48 1.9 18 2.3 16 2.7 6 3.1 1 3.5 1 3.9 2 合计 238,偏态分布资料,开口资料,王晓敏 制作,62,1、中位数,计算方法: 直接由原始数据计算中位数 先将观察值按大小顺序排列,再按下面公式
17、计算:,(1)直接法:适用于观察数少资料 (中位数),n为奇数时,,M,3, 4, 6, 7, 9, 10,26,x1 x2 x3 x4 x5 x6 x7,M,n为偶数时,,M,x1 x2 x3 x4 x5 x6 x7 x8,3 5 7 8 9 10 13 27,M,第二节 集中趋势的描述,65,例5 有7名正常人的血压(舒张压)测定值(mmHg)为:72,75,76,77,81,82,86,求中位数。 解:n=7 为奇数 变量x: 72,75,76,77,81,82,86 位 次: 1 2 3 4 5 6 7,1、中位数,请大家思考下:计算中位数和其他平均数有什么不同?,特点:仅利用了中间的
18、12个数据,2、百分位数(PX),Px=(X int(nx%)+ X int(nx%)+1)/2,当 nx%=int(nx%) 时:,式中 int(nx%) 为n与x%乘积的整数部分,当 nx%int(nx%) 时:,Px= X int(nx%)+1,注,nx%=15025%=37.5int(nx%), 即 P25=X38=3.1,例2-9 根据例2-2资料,求P25 、P75 、P90,nx%=15075%=112.5int(nx%), 即 P75=X113=3.6,nx%=15090%=135=int(nx%), 即 P90=(X135+X136)/2 =(3.8+3.8)/2=3.8,第
19、二节 集中趋势的描述,式中 int(nx%) 为n与x%乘积的整数部分,注,(2)频数表法:适用于频数表资料 步骤: 从小到大计算累计频率和累计频数; 确定百分位数和中位数所在组段; 计算百分位数Px和中位数M,第二节 集中趋势的描述,Px,LPx或M所在组段的下限 iPx或M所在组段的组距 fxPx或M所在组段的频数 小于L各组段的累计频数,71,0 ,2.27 ,4.55 ,10.61 ,28.03 ,46.21 ,65.15 ,80.30 ,89.39 ,96.97 ,1、中位数,累计频数,3 6 14 37 61 86 106 118 128 132,例2-10 试计算P25、P75、
20、M,第二节 集中趋势的描述,Px,73,1、中位数,反映了位次居中的观察值的水平 优点:不受两端特大值和特小值影响 缺点:并非考虑到每个观测值 适用于各种分布类型的资料, 特别适合于:大样本偏态分布资料 或者一端/两端无确切数值的资料 3. 中位数和算术均数再对称分布的资料中, 理论上数值是相同的。,中位数的特征:,中位数和百分位数的用途: (1)中位数描述一组偏态资料的集中趋势; 百分位数描述一组资料在某百分位置的水平 在对称分布资料中,M (2)百分位数用于确定医学参考值范围。,求:中位数 第1组数:1、4、 3、 2、 3 第2组数: 3、 2、1、 3 第3组数:-1、-2、 1、 2
21、,76,常用平均数的意义及其应用场合,小 结,某市238名健康人发汞含量 发汞值(g/g) 人数 0.3 3 0.3 17 0.7 66 1.1 60 1.5 48 1.9 18 2.3 16 2.7 6 3.1 1 3.5 1 3.9 2 合计 238,集中趋势指标的选择判断步骤:,资料 抗体滴度 G 否 偏态、开口 M 否 X,是,是,79,第三节 定量资料的离散趋势指标,平均水平的指标只是描述了一组数据的集中趋势指标,可以作为总体的一个代表值,那么这组观察值之间的是否存在差异?描述差异的指标有哪些呢?差异究竟有多大?如何计算?,80,例:设甲、乙、丙三人,采每人的耳垂血,然后作红细胞计数
22、,每人数5个计数盘,得结果如下(万/mm3),甲,乙,丙,第三节 定量资料的离散趋势指标,81,描述计量资料数据间离散程度的指标变异指标 常用的指标: 极差 四分位间距 方差 标准差 变异系数。,第三节 定量资料的离散趋势指标,82,(一)极差,定义:亦称为全距,即一组观察值中最大值与最小值 之差。 计算方法: RXMaxXMin 意义: R值越大,表示该组数据的变异越大。 缺点: 数据利用不全,仅利用了两个极端值,部分信息损失,在例数少时结果不稳定。,(Range),2020/9/16,83,(一)全距,例 三组同龄男孩的身高值(cm) 甲组 90 95 100 105 110 100 20
23、 乙组 96 98 100 102 104 100 8 丙组 96 99 100 101 104 100 8,R,84,(二)四分位数间距,四分位数( quartile ):可看作特定百分位数,第25百分位数P25,表示全部观察值中有25(四分之一)的观察值比它小,为下四分位数,记做QL ; 同理第75百分位数P75为上四分位数,记做Qu ;,(inter-quartile range),P50,P25,P75,85,四分位数间距:简记为Q,第75百分位数与第25百分位数之差。 计算方法:Q= Qu QL=P75%-P25% 意义: Q值越大,表示该组数据的变异度越大。 优点:1. 可看成是中
24、间一半观察值的极差。 2. 说明个体差异时,比极差稳定。 缺点:未考虑到每个观察值的变异度大小。 应用:常用于表示偏态分布资料的变异。,(二)四分位数间距,86,例7 利用表8-3资料计算四分位数间距Q。,(二)四分位数间距,87,极差仅采用了观察值中的最大值和最小值;而四分位数间距也仅仅采用了上、下四分位数,均没有考虑每个观察值,因此这两项指标不能全面反映资料的离散程度。,离散趋势的描述,三、方差(总体方差简记 ,样本方差简记 ),一组观察值的离均差平方和,取其均数,即方差。,(XX)0 (离均差和),(XX)20 (离均差平方和),缺点:与例数多少有关,(variance),正态分布,中间
25、高、两边低、以均数为中心左右对称,1、计算公式:,第三节 定量资料的离散趋势指标,奇怪:为什么样本方差是除以(n-1)呢?,2020/9/16,91,n-1在数学上称为自由度,常用v表示 即:V=n-1,意义: 方差越大,表示观察值分布越离散, 方差越小,表示观察值分布越紧密,2020/9/16,92,方差 (variance)是全部观察值的离均差平方和的均值。表示一组数据的离散/变异情况。 特点: 方差的分子离均差平方和,反映了全部观察值的离散程度;但同时也将变量值的度量衡单位平方了,变成(m)2、(kg)2,唉!这个指标还是不够尽善尽美,继续探索,(三)方差与标准差,四、标准差(总体标准差
26、简记,样本标准差简记S),方差的开方,即标准差。,1、计算公式:,2、意义: 与方差的意义相同 (注:n-1为自由度),(standard deviation),3、计算方法: (1)直接法:,例 试观察三组数据的离散状况。(均数都是30)A组:26,28,30,32,34B组:24,27,30,33,36C组:26,29,30,31,34,例 分别计算例2-11中三组数据的标准差。 按照公式(2-11)与标准差的定义 A组 B组 C组 C组数据的离散趋势最小,B组的离散趋势最大,(2)加权法:,X为组中值,X为组中值,3.8,509.2,1743.76,72.2,274.36,标准差,第三节
27、 定量资料的离散趋势指标,用 途: (1)反映一组观察值的离散程度,标准差小,数据间的离散程度小,均数的代表性好。 (2)用于计算变异系数 (3)用于计算标准误 (4)结合均值描述正态分布的特征和估计医学参考值范围。,A人群的月收入: 300,350,320,400,350,360,200,10000 X=1535(元) S=3420.9(元),B人群的月收入: 300,350,320,400,350,360,200,500 X=347.5(元) S=85.3(元),根据标准差大小,判断均数的代表性,101,(四)变异系数,变异系数(coefficient of variation,CV) 即标准差s与均数 之比用百分数表示,写成公式为 应 用: (1)比较度量衡单位不同的多组资料的变异度 (2)比较均数相差悬殊的多
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 尊重话题班会课件
- 2024年湖南长沙中考真题及答案
- 水粉教学课件儿童
- 片段教学课件一等奖
- 智能化生产厂房施工合同十项应用
- 茶园土地流转与种植承包合同
- 车用起重机租赁及设备操作规范培训合同
- 餐饮服务员劳动合同合同解除通知协议
- 中医正骨教学课件
- 无人驾驶车辆通信协议与网络安全研究考核试卷
- 2025年湖北省中考物理试题(含答案及解析)
- 房地产销售计划书
- 2025年劳动争议仲裁员(二级)考试试卷
- 空中安全保卫课件
- 中兴-5G-A高频毫米波网络规划方法论介绍V1.0
- 2024年全市首届档案职业技能竞赛考试题库(含答案)
- 2025年沈阳水务集团有限公司-企业报告(代理机构版)
- 数字化艺术-终结性考核-国开(SC)-参考资料
- 2025年佛山市南海区图书馆招聘题库带答案分析
- 2025盘锦市兴隆台区辅警考试试卷真题
- 二年级口才与演讲教案
评论
0/150
提交评论