计量资料的统计描述.ppt_第1页
计量资料的统计描述.ppt_第2页
计量资料的统计描述.ppt_第3页
计量资料的统计描述.ppt_第4页
计量资料的统计描述.ppt_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1,第 二 节 集中趋势的描述指标平均数,2,问题1:以何指标描述改组资料的集中趋势,为什么?,3,问题2:以何指标描述该组资料的集中趋势? 如何计算?,4,一、算术均数(mean) 简称均数。 总体均数 样本均数 1、均数的计算: 直接法:适用于小样本,n30。 式中为求和符号,n为样本含量,X为观察值。,5,例 某地140名正常成年男子红细胞均数为:, 加权法:适用于大样本(n30)。,式中X为组中值(本组段下限上限)2 , f 为相应组段的频数,k 为组段数。 计算步骤:编制频数表。 列表计算组中值X、fX、fX。 将数据代入公式计算均数。,6,例、 用加权法求某地140名正常成年男子红

2、细胞均数,7,将表中数据代入公式得,2、均数的应用 对同质事物求均数才有意义,才能反映事物的特征。 均数最适用于描述对称分布,特别是正态分布计量资料的集中趋势。,8,二、几何均数(geometric mean) 1、几何均数的计算: 直接法:即将n个观察值的乘积开n次方。,为方便运算,写成对数形式,推导过程,9,几何均数计算公式推导过程,10,例 10人的血清滴度为12,12,14,14,18,18,18,18,132,132。求其平均滴度。,故其平均滴度为17。,11, 加权法:当资料中相同观察值个数( f )较多时,比如频数表资料,可用下式计算。,例 40名麻疹易感儿童接种麻疹疫苗后一个月

3、,测其血凝抑制抗体滴度,结果如下表,求几何均数。,12,平均抗体滴度为148,13,2、 几何均数的应用 几何均数常用于偏态分布资料(观察值变化范围跨越多个数量级、各观察值呈倍数关系或服从对数正态分布的资料),如抗体平均滴度、血清平均效价。 观察值不能有0。因为0不能取对数,不能与任何数呈倍数关系。 观察值不能同时有正值和负值。若全为负值,计算时可把负号去掉,得出结果后再 加上负号。,14,三、中位数(median)和百分位数 将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数。 记为M。,M,百分位数(percentile)是一种位置指标,以Px表示。百分位数是一个界值。 P50是中

4、位数,也是一个特定的百分位数。,x,1x,Px,P50=M,15,1、中位数和百分位数的计算 直接法计算中位数。先将观察值按大小顺序排列,再按下列公式计算。,例 某病患者9人,潜伏期(天)分别为3,4,4,5,6,7,7,9,11,求其中位数。 n为奇数,则 (天),16,1、 2、 3、 4、 5 X1 X2 X3 X4 X5,1、 2、 3、 4、 5 6 X1 X2 X3 X4 X5 X6,M = X3 = 3,M = (X3 + X4)/2 = (3+4)/2=3.5,17,例 8名新生儿的身高()为55,58,54,50,53,51,54,52,求中位数。 先将8个数排序得: 50,

5、51,52,53,54,54,55,58 n为偶数,则,(),18, 利用频数表计算中位数和百分位数。,式中L为Px所在组段的下限,ix为组距,fx为Px所在组段的频数,n为样本含量,fL为小于Px所在组段的各组段的累计频数。,19,计算步骤: 1)编制频数表; 2)计算累计频数和累计频率; 3)确定Px所在的组段; 4)将数据代入公式,计算Px 。,例 某地630名5060岁正常女性血清甘油三脂含量资料整理见下表,求P25,P75及M 。,20,某地5060岁正常女性血清甘油三脂含量,21,0,4.3,57.6,31.1,100,M,P25,P75,25,50,22,因25%在4.3%和31

6、.1%之间,故P25在“40”组段内,则L=40,ix=30,fx=169,fL =27,代入公式,得,同理可求得:,23,2、中位数和百分位数的应用 中位数适用于描述任何分布类型的计量资料,但常用于描述偏态分布,当分布末端无确定数值或分布不明的资料,不能计算均数和几何均数时,应求其中位数。 Px用于描述一组观察值在某百分位置的水平。,24, Px常用于确定医学参考值范围(reference value range)。 医学参考值范围是指特定健康状况的人群(排除了有关疾病和因素对所研究指标有影响的所谓“正常人”)的解剖、生理、生化等各种数据的波动范围。习惯上是确定只包括95%参照总体的范围。,

7、0,100%,95,WBC(双侧),P 2.5,P 97.5,25,95,尿铅含量的95参考值范围(单侧),5,95,5,小,大,小,大,肺活量的95参考值范围(单侧),P95,P5,26,离散趋势的统计描述,27,有3组同龄男孩体重(kg)如表1,请对该资料的特征作出描述。,问题: 1、选择适宜指标描述上述资料的离散趋势。 2、为什么说 S 越大,均数的代表性越差? 3、 S 与CV的异同点?,28,第 一 节 衡量离散趋势的指标,29,一、极差 二、方差 三、标准差 四、变异系数 五、四分位数间距,30,一、极差 (range) 又称全距 ,用R 表示,是一组数据中最大值与最小值的差值。

8、意义:全距大说明变异程度大;反之说明变异程度小。 常用于描述样本含量较小的资料的变异程度。,如上例: 甲34268kg 乙362412kg 丙34268kg,31,优点: 极差用来表达变异程度大小,简单明了 ,计算方便。缺点: 计算时只考虑了两个变量值,不能反映组内所有变量偏离集中位置的程度 。,32,二、方差 (mean of square) 应考虑组内所有数据偏离集中位置的程度即总体中每个变量值与总体均数之差(离均差)。,33,1、平均偏差(mean difference):,甲的平均偏差2.4 乙的平均偏差3.6 丙的平均偏差2 可见,乙的变异程度大。但因为用了绝对值,数学上不便处理,所

9、以少用。,34,简写为SS,描述了每一个变量偏离集中位置的情况。 公式为:,2、离均差平方和(sum of square),3、方差(mean of square) 将SS取平均值即为方差,简写为MS。,35,“n1”称为自由度 (degree of freedom),简写为 d f 或,36,三、标准差(standard deviation) 方差的单位是原数据的平方,不利于进一步统计分析,常用其平方根标准差SD(或S)替代,用于描述数据分布的离散程度。,37,标准差的意义: 当两组(或几组)资料均数相近、度量衡单位相同时,标准差大表示变量值的变异程度大,各变量值离均数较远,均数的代表性较差

10、;反之,标准差小表示变量值的变异程度小,各变量值离均数较近,均数的代表性较好。 可结合均数一起全面描述对称分布的计量资料,常写作 , 如:170.505.35cm ,,38,标准差的计算:(1)直接法 经数学证明,标准差的计算公式也可写为:,39,三组男孩体重标准差计算表,40,41,从表1中分别计算3组男孩体重的标准差如下: S甲3.1623 kg, S乙4.7434 kg, S丙2.9155 kg 结果说明3组男孩体重平均水平相同,但变异程度不同,乙组男孩变异程度最大,甲组次之,丙组变异程度最小。,42,(2)加权法 当样本含量较大时,常利用频数表计算标准差。 计算公式为:,43,44,求

11、得: fX669.80 fX23224.20,45,四、变异系数(coefficient of variation) 若比较度量衡单位不同或均数相差悬殊的两组(或几组)资料的变异程度时,应计算变异系数。 变异系数用CV 表示 。 其计算公式如下:,46,由此可见,7岁男孩体重的变异程度大于身高的变异程度。,例1 某地岁男孩身高均数123.10cm,标准差为4.71cm;体重均数为22.29kg,标准差为2.26kg,试比较身高、体重何者变异程度大。,47,表2资料说明,当均数相差较大时,比较变量值的变异程度,不能用标准差,应由变异系数分析,从变异系数可以看出岁以下儿童随年龄增加,其身高的变异程

12、度逐渐减小。,48,五、四分位数间距(quartile) 简写为Q ,比极差稳定,适用于偏态分布资料,常和 M 一起描述偏态分布资料的频数分布特征。,P75,P25,计算公式: Q = P75 P25,49,计量资料 频数分布的特征,集中趋势,离散趋势,算术均数:对称分布,几何均数:偏态分布,中位数:偏态分布、分布末端无界值,极差:小样本,方差:对称分布,标准差:对称分布,变异系数 单位不同 均数相差悬殊,四分位数间距:偏态分布,50,正态分布及其应用,51,正态分布又称高斯(Gauss)分布,是最常见、最重要的一种连续型分布,医学资料中有许多指标的频数分布都呈正态分布,如身高、体重、脉搏、血

13、红蛋白、血清总胆固醇等。,52,一、正态分布的概念,53,54,55,56,57,当 n 趋于无穷大, 组距趋于 0, 组段数趋于无穷大时的频数分布图的顶端逐渐接近一条光滑曲线。此曲线呈钟型,两头低中间高,左右对称,近似于数学上的正态分布曲线。,58,二图形 正态分布密度函数 。,59,二、正态分布的特征,1、正态曲线以均数为中心,左右对称。,60,2、正态曲线下的面积 集中在以为中心的中心部分。,61,3、正态分布有两个参数,即均数和标准差。 是位置参数,当恒定后,越大,则曲线沿横轴越向右移动;反之,越小,则曲线沿横轴越向左移动。 是变异参数,当恒定后,越大,表示数据越分散,曲线就越“胖”;

14、越小,表示数据越集中,曲线就越“瘦”。 通常用N(,2)表示均数为,方差为2的正态分布资料。,62,N(1, 12),N(2, 12),N(2, 22),63,、正态曲线下面积有一定分布规律: 范围内,曲线下面积占总面积的68.27 。即有68.27%的变量值分布在此范围内; 1.96范围内,曲线下面积占总面积的95.00%;即有95.00%的变量值分布在此范围内; 2.58范围内,曲线下面积占总面积的99.00。即有99.00%的变量值分布在此范围内。,64,65,66,67,三、标准正态分布,为了应用方便,利用下面的公式进行变量变换,使=,=1,将坐标原点移到的位置,横轴尺度以为单位。即设

15、,则将正态分布变换为标准正态分布(standard normal distribution)。,68,标准正态分布 曲线下面积规律: 标准正态分布区间(-1,1)的面积占总面积的68.27; 标准正态分布区间(-1.96,1.96)的面积占总面积的95.00 %; 标准正态分布区间(-2.58,2.58) 的面积占总面积的99.00。,69,-2.58 -1.96 -1 0 1 1.96 2.58,70,实际应用中,经 变换后,就可把求解任意一个正态分布曲线下面积的问题,转化成标准正态分布曲线下相应的面积问题。附表1给出了标准正态分布曲线下从 到 的面积,根据正态分布的对称性,我们可以求出任何

16、一个区间内标准正态分布曲线下的面积,也就是 落在任何一个区间内的概率。,71,例3-1 在例2-1中求得150名12岁健康男童体重的均数 (kg),标准差 (kg),试估计该150名12岁健康男童所代表的总体中,体重在50kg以上的儿童所占的比例。,72,将 , , 代入公式 ,得 。 根据正态分布的对称性知,外侧尾部面积 与外侧尾部面积 相同,查附表1,得对应的概率为0.0136,体重在50kg以上的12岁儿童占1.36%。,73,四、正态分布的应用,1医学参考值范围的估计 不少医学现象如同性别、同年龄儿童的身高、体重,正常成年男子的红细胞数、血压等均服从正态分布,可以利用正态曲线下的面积规律估计其医学参考值范围。,74,如,某地调查正常成年男子144人的红细胞数,近似正态分布,均

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论