医学统计学 计量资料的统计描述_第1页
医学统计学 计量资料的统计描述_第2页
医学统计学 计量资料的统计描述_第3页
医学统计学 计量资料的统计描述_第4页
医学统计学 计量资料的统计描述_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、计量资料的统计描述 statistical description本次课内容一、频数表二、计量资料的频数分布三、集中趋势指标四、离散趋势指标五、正态分布频数表的绘制频数分布表(frequency distribution table)对资料中各变量值的频数汇总而成的表格,用来反映各变量值与其频数间的关系,可以观察该资料的分布类型。是最基础的统计描述。例:某市1995年110名7岁男童的身高(cm)某市1995年110名7岁男童的身高(cm)(1)计算极差:找出观察值中最大值与最小值,二者之差称为极差(全距Range)。R 表示。本例134.5-110.2=24.3。(2)决定组数(class

2、number)、组段(class)、组距(class interval):组数:不宜过多或过少。8-12组组段:变量值的范围。有上限,下限。组距:相邻两组段下限值之差称为组距,一般等距,R/组数之商。本例:预分为10组,组距:24.3/10=2.43,取2自上而下、从小到大排列。第一组段包括最小值,最后组段包括最大值。某市1995年110名7岁男童的身高(cm)(3)列表划记:将原始数据用划记法做出频数表,得出各组段的频数、频率、累计频率。注意事项:A: 除最后组段除外,组段无上限。B: 尽量做到等组距。特殊情况特殊对待。如年龄,数值差异很大;C:要有频数、频率、累计频率标记。某市1995年1

3、10名7岁男童的身高(cm)频数表频数表的用途:(1)揭示频数的分布特征:两个重要特征:集中趋势(central tendency):数值高低不等,但中等水平的人数最多。离散趋势(tendency of dispersion):是指一组数据背离分布中心值的特征,反映各变量值远离其中心值的程度 。 身高(cm)某市1995年110名7岁男童的身高分布直方图频数图(frequency diagram):统计描述(statistical description):描述必须基于资料的分布(distribution)类型,主要是资料的分布特征。分布类型不同,统计指标不同。分布:数值在所研究样本(或总体)

4、中的存在状态,通常用频数(frequency)来表示。频数:某变量值出现的次数(某现象发生的次数)。频数的分布特征:集中趋势(central tendency):数值高低不等,但中等水平的人数最多。离散趋势(tendency of dispersion):数值之间参差不齐;逐渐变大(或变小)的人数渐少。向两端分散。两方面含义:数值大小和位置。集中趋势central tendency平均数(average):用于描述数值变量资料的集中趋势(平均水平)。特点:简明概括,便于比较。包括:算术平均数,几何平均数,中位数,百分位数1、算术平均数(arithmetic mean)一组变量值之和除以变量值个

5、数所得的商,简称均数。总体均数 ,样本均数 表示。适用条件:资料成正态分布(或近似正态,或对称分布)。计算方法:直接法,加权法直接法:当样本的观察值个数不多时,将各观察值X1,X2,Xn相加再除以观察值的个数n(样本含量)即得均数。 公式:加权法weighted method当观察值个数较多时,可先将各观察值分组归纳成频数表,用加权法求均数。利用频数表,计算组中值(为本组段的下限与相邻较大组段的下限的均值),各组段频数与组中值的乘积,近似等于该组变量值之和,各乘积之和除以总频数,所得的商,就是均数。几何均数是算数均数的近似值。均数的两个重要属性:(1)各离均差(各观察值与均数之差)的总和等于零

6、。(2)离均差的平方和小于各个观察值X与任何数a(a )之差的平方和。均数是一组观察值理想的代表值。均数的应用:(1)只能在合理分布的基础上,对同质事物求均数才有意义,才能反映事物的特性。(2)均数最适用于对称分布,尤其是正态分布资料。此时,均数位于分布的中央,能反映观察值的集中趋势。2、几何均数geometric mean G将n个观察值的乘积再开n次方的方根(或各观察值对数值均值的反对数)。适用条件: (1)观察值为非对称分布,差距较大,用算术均数表示其平均水平会受少数特大或特小值影响;(2)数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。如:抗体滴度,药物效价等直接法:当观察例数

7、不多时采用。加权法:观察例数多时采用。几何均数的应用:(1)常用于等比级数资料,滴度,效价,卫生事业平均发展速度,人口几何增长,对数正态分布资料;(2)观察值不能有0;(3)观察值不能同时有正值和负值。(4)同一组资料求得的几何均数小于算术均数。中位数(median, M) :位于中间位置上的数值。把一组观察值,按大小顺序排列,位置居中的变量值(奇数个)或位置居中的两个变量值的均值(偶数个)。是位置指标,以中位数为界,将观察值分为两半,有一半比它大,一般比它小。适用于:(1)资料偏态分布;(2)两端无确定数值;(3)资料分布不清楚;潜伏期,毒物测定值等用中位数表示其集中趋势。中位数的算法:未分

8、组资料,依变量个数定。 分组资料,用下公式。L:中位数所在组的下限W:中位数所在组的宽度f:中位数所在组的频数(例数)n:总频数C:中位数所在组的前一组的累计频数百分位数(percentile, P):位于某个百分位置上的数值。把一组数据从小到大排列,分成100等份,各等份含1%的观察值,处在分割界线上的数值,就是百分位数,Pr 表示。百分位数将总体或样本的全部观察值分为两部分,理论上有r%的观察值比它小,有(100-r)%的观察值比它大。如含量为n的样本,P5即表示:理论上有n5%个观察值比P5小,有n95%个观察值比P5大。常用的百分位数:5,25,75,95 分位数。百分位数频数表法计算

9、:Pr:百分位数;L:该百分位数所在组段的下限;W: 组距;f:该百分位数所在组段的频数; C: 小于L的各组段的累积频数;n:样本数中位数是特定的百分位数。中位数常用于描述偏态分布资料的集中趋势,它反映居中位置的变量值的大小。不受特大,特小值的影响,只受位置居中的观察值的影响,因而不够敏感。而均数,几何均数是由全部观察值综合计算出的,敏感性好。但理论上,中位数等于算术均数。百分位数常用于描述一组资料在某百分位置上的水平和分布特征。多个百分位数结合使用,可更全面地描述总体或样本的分布特征,包括位置大小和变异度。百分位数常用于确定医学正常值范围(normal range)。医学正常值范围,不用样

10、本观察值的极差,习惯上用包括95%正常人的界值,百分位数是数列的百分界值。如:白细胞数的确定,过高,过低都属异常,故计算P2.5,P97.5,为双侧的正常值范围。如:肺活量95%正常值范围,只有过低算异常,故计算P5.如:尿铅,过高为异常,故计算P95.一般说,分布中部的百分位数相当稳定,具有较好代表性,靠近两端的百分位数,只在样本含量足够大时,才稳定,故,样本量不够大时,不应取太近两端的百分位数。 以上是集中趋势指标。A: 8 9 10 11 12B: 3 7 10 13 17 两组均数都为10,但离散程度不同,B组较大。均数只反映平均水平,不能反映离散度。离散趋势tendency of d

11、ispersion全距,四分位数间距,方差,标准差,变异系数全距(Range):极大与极小值之差。全距大,资料离散程度大,但易受极端值大小的影响。样本量越大,抽到极端值的可能性越大,全距可能会越大。故:全距不宜单独使用。四分位数间距(quartile interval Q):将一组资料分为四等份,上四分位数P75和下四分位数P25之差,叫四分位数间距。意义:Q越大,离散程度越大,通常用于描述偏态分布资料的离散程度。优点:比全距稳定;若资料一端或两端无确切数值,只能选择Q作为离散指标。缺点:未考虑全部观察值,不能全面反映资料离散趋势。方差(variance)和标准差(standard devia

12、tion SD)对总体而言,为了克服极差和四分位数间距的缺点,要描述资料的离散趋势,必须考虑到各个观察值,离均差的平方和是最好的指标, 为了消除例数的影响,将其取均值,就是方差。 总体方差: 样本方差:标准差:方差的平方根的正值。 总体的标准差: 样本的标准差:自由度=n-1样本的标准差:分组资料的标准差计算意义:方差,标准差越大,变异程度越大。其值越小,观察值的离散度越小,用均数反映平均水平的代表性越好。标准差应用:(1)反映一组观察值的离散程度: 直接比较标准差:数值单位相同; 计算变异系数:数值单位不同;变异系数(coefficient of variation, CV) 也称离散系数(

13、coefficient of dispersion)标准差与均数之比用百分数表示。公式:常用于比较度量单位不同或均数相差悬殊的资料的变异。同时考虑了均数和标准差,更客观。比如:身高,体重的变异比较;(2)估计变量值的频数分布:正态曲线,正态分布normal distribution正态分布标准正态分布面积(或概率) -1 +1 -1 +168.27% 1.96 +1.96-1.96 +1.9695.00% 2.58 +2.58-2.58 +2.5899.00%(3)计算标准误(4)估计医学正常值范围:双侧:均数 1.96倍标准差单侧:均数 1.645倍标准差概念: 频数分布以均数为中心,左右两

14、侧基本对称,靠近均数两侧频数较多,离均数愈远,频数愈少,形成一个中间多,两侧逐渐减少的对称分布。是一种连续型分布。又称高斯分布. 高斯(Johann Carl Friedrich Gauss,生于1777年4月30日于不伦瑞克,卒于1855年2月23日于哥廷根,德国著名数学家、天文学家、大地测量学家、物理学家。被认为是最重要的数学家,并有数学王子的美誉。 正态分布(normal distribution)正态分布用N(, )表示,其位置与均数有关,形状与标准差有关。医学现象许多呈正态分布,或近似正态分布:如正常人的生理,生化指标变量,等从直方图到正态曲线的过渡对称分布正(右)偏分布负(左)偏分

15、布几种常见的频数分布正态分布有两个特征:对称和正态峰。分布不对称就是偏态。峰偏左,长尾向右侧(即观察值较大一端)伸延的叫右偏态,此时均数与众数之差为正值,故称正偏态;峰偏右,长尾向左侧(即观察值较小一端)伸延的叫左偏态,此时均数与众数之差为负值,故称负偏态。正态分布之所以重要, 三个主要原因:1. 正态分布在分析上较易处理。2. 正态分布之概率密度函数(p.d.f.,probability density function)的图形为钟形曲线(bell-shaped curve), 对称, 很适合当做不少事件之机率模式。3. 正态分布可当做不少大样本的近似分布。 正态分布的密度函数:式中为均数;

16、为标准差;为圆周率;为自然对数的底,即2.71828。以上均为常数,仅x为变量。主要特征1集中性:正态曲线的高峰位于正中央,即均数所在的位置。 2对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。 3均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。 4正态分布有两个参数,即均数和标准差,可记作N(,2):均数决定正态曲线的中心位置;标准差决定正态曲线的陡峭或扁平程度。越小,曲线越陡峭;越大,曲线越扁平。 5u变换:为了便于描述和应用,常将正态变量作数据转换。 标准正态分布:为了应用方便,常将式进行变量变换,即:u变换. 所得到的新变量u的分布即为标准正态分布。

17、u的含义:变量到均数间的距离相当于标准差的倍数。标准正态分布的概率密度函数:正态分布曲线的模拟u变换后,=0,=1,使原来的正态分布变换为标准正态分布(standard normal distribution)亦称u分布。标准正态分布 N(0,1).正态分布的特征和分布规律: (1)曲线在x轴的上方,与x轴不相交,当x=时,曲线位于最高点。 f(u=0)=0.3989(2)曲线关于直线x=左右对称。(3)正态分布有两个参数:均数,标准差;标准正态的参数分别为:0, 1(4)正态分布的面积分布有一定规律。正态曲线下面积的分布规律正态曲线下,横轴上一定区间的面积,等于该区间的频数发生的概率(即所有

18、随机事件发生的概率)。面积可用积分求得。F(x)为正态变量X 的累积分布函数,反映正态曲线下,自- 到x的面积,即左侧累积面积。 统计学家已经按 编成了附表(p194),标准正态分布曲线下的面积。应用时注意:(1)当总体 , 已知时,先计算u值,再用u值查表,得出所求区间面积占总面积的比例。如果未知,常分别用样本均数和样本标准差来估计。(2)曲线下对称于0的区间,面积相等。如:区间(- ,-2.58)与区间(2.58, )的面积相等。(3)曲线下横轴上的总面积为100% 或为1。根据后两个特征,可计算右侧累积面积。3原则 P(-X+)=68.3%P(-2X+2)=95.4%P(-3X+3)=9

19、9.7%正态分布标准正态分布面积(或概率) -1_ +1 -1_+168.27%1.96_+1.96-1.96_+1.9695.00% 2.58_+2.58-2.58_+2.5899.00%正态分布和标准正态分布曲线下面积分布规律(-1,1),68.27%(-1.96,1.96),95%(-2.58,2.58),99%双侧概率单侧概率正态曲线下面积的分布规律的应用:一、确定医学参考值范围意义:是正常人指标测定值的波动范围,可用于划分正常,或异常。步骤:1、抽样 2、控制测量误差 3、取单侧或双侧 4、选定合适的百分界限 5、资料正态性检验 6、进行参考值估计常用方法:正态分布法,对数正态分布法,百分位数法95%正常值范围的估计适用对象双侧界限单侧上界单侧下界正态分布法正

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论