定性数据统计描述正态分布及其应用_第1页
定性数据统计描述正态分布及其应用_第2页
定性数据统计描述正态分布及其应用_第3页
定性数据统计描述正态分布及其应用_第4页
定性数据统计描述正态分布及其应用_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、正态分布(normal distribution),正态分布又称高斯(Gaussian distribution),是统计学中一种最常见、最重要的连续型变量的对称分布,医学资料中有许多指标如身高、体重、红细胞数、血红蛋白、收缩压等频数分布都呈正态分布。,一.概念,频数分布逐渐接近正态分布示意图 (若纵轴改为频率),正态曲线( normal curve ),图形特点: 钟型 中间高 两头低 左右对称 最高处对应于X轴的值就是均数 标准差决定曲线的形状 曲线下面积为1 拐点,数学式,正态分布密度函数 其中是均数,是标准差。记N (,2),正态分布的特殊形式:标准正态分布N (0 ,1); 即=0,

2、=1时(z分布、u分布) 标准正态变换(变换公式);u=,特征,1 是单峰曲线,x= 2 以均数为中心左右对称 3 有2个参数,:位置参数, :变异度参数 越大,数据越分散,曲线越平坦。,位置参数决定曲线的位置,形态参数决定曲线的形态,4正态曲线下面积的分布规律,横轴上曲线下的面积为1 曲线下,横轴上对称于的左右两边面积相等,标准正态分布,标准正态分布 (standard normal distribution)的两个参数为:=0,=1 记为 N(0,1),一般正态分布为一个分布族:N(m,s2) ;标准正态分布只有一个 N(0,1) ;这样简化了应用,u曲线下面积,u,-,附表(标准正态分布

3、左侧曲线下面积)就是根据此公式和图形制定的,曲线下面积分布规律,查附表,曲线下面积分布规律,以上讨论的是标准正态分布,对一般的正态分布,某指标XN(,2),则 u=(x-)/N(0,1) 即-1.96u1.96的面积为0.95 -1.96x+1.96的面积为0.95 经过标准化转换,就可以利用标准正太分布求出原始变量X有关的概率值,例如成年男子红细胞数近似服从正太分布, , 现想知道在4x1012/L以下所占的比例。 查附表1得: 表明成年男子的红细胞数低于4x1012/L的人约占总体的2%.,五 正态分布的应用,1许多医学指标服从正态分布或近似正态分布,如同性别、同年龄儿童的身高,同性别健康

4、成人的红细胞数、血红蛋白量等,及实验中的误差。,定义:又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上是确定包括95%的人的界值。,医学正常值范围,2. 估计医学参考值范围,单双侧: 根据指标的实际用途,有的指标有上下界值,过高过低均属异常;某些指标过高为异常,只需确定上限;某些指标过低为异常,只需确定下限。 估计的方法:1、正态分布法(正态分布)2、百分位数法(任何分布),应用条件:正态分布或近似正态分布资料 结果稳定,所需样本量不大 计算 95% 正常值(医学参考值)范围公式: 双侧:即 单下: 单上:,1.正态分布法,例 120名健康成年男性农民舒张压的均数

5、为 10.1kPa,标准差为0.93kPa,求舒张压的双侧95%正常值范围。 10.11.960.93 即8.2811.92 kPa,2.百分位数法,应用条件 : 任何分布,特别是偏态分布资料 计算公式: 双侧界值:P2.5 P97.5 单侧 上界:P95 单侧 下界:P5 630名正常女性血清甘油三酯含量的资料,注意 95%参考范围(reference range)或正常范围(normal range)仅仅告知健康者中95%的人测定值在此范围之内,并非告知凡在此范围之内皆健康,也非告知凡在此范围之外皆不健康,所以不可将之作为诊断标准。,3 正态分布是许多统计方法的理论基础,如后面要讲的t检验

6、、方差分析、相关回归等,t分布、二项分布、Poisson分布的极限分布也是正态分布。,t分布,随机变量X N(m,s2),标准正态分布 N(0,12),u变换,均数,标准正态分布 N(0,12),Student t分布 自由度:n-1,t分布的概率密度函数,式中 为伽玛函数; 圆周率(Excel函数为PI( )) 为自由度(degree of freedom),是t分布的唯一参数;t为随机变量。 以t为横轴,f(t)为纵轴,可绘制t分布曲线。,t分布曲线,t 分布有如下性质: 单峰分布,曲线在t0 处最高,并以t0为中心左右对称 与正态分布相比,曲线最高处较矮,两尾部翘得高(见绿线) 随自由度

7、增大,曲线逐渐接近正态分布;分布的极限为标准正态分布。,t分布曲线下面积(附表),双侧t0.05/2,92.262 单侧t0.025,9 单侧t0.05,91.833 双侧t0.01/2,93.250 单侧t0.005,9 单侧t0.01,92.821 双侧t0.05/2,1.96 单侧t0.025, 单侧t0.05, 1.64,查t 界值表,4估计频数分布(理论频数),例 出生体重低于2500克为低体重儿。若由某项研究得某地婴儿出生体重均数为3200克,标准差为350克,估计该地当年低体重儿所占的比例。,记x为当年该地婴儿出生体重,则x服从正态分布 N(3200,3502) P(x2500)

8、 查标准正态分布界值表 (-2)=0.0228 即估计该地当年低体重儿所占的比例为2.28% 如果当地每年婴儿出生人数约为,那么,小 结 1.描述一组观察值,除需要表示其平均水平外,还要说明它的离散或变异的情况。 2.衡量变异程度大小的指标有多种: 极差、四分位数间距、方差、标准差和变异系数。其中应用最多的是标准差和变异系数。 3.标准差与均数结合能够完整地描述一个正态分布。对任何参数的正态分布,都可以通过一个简单的变量变换化成标准正态分布。正态分布可以很容易地确定其数值出现在任意指定范围内的概率。,4.医学参考值范围指“正常参照人群”的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波

9、动范围。主要用作判断某项指标正常与异常的参考,而非诊断疾病的标准。 5.参考值范围估计的方法有多种,其中最基本的有百分位数法和正态分布法。正态法的优点是结果较稳定,但对资料要求严格;百分位数法适合于任何分布类型的资料,但要求大样本。,6.医学参考值范围的制定需要按照一定步骤进行。实际中最好结合正常人和病人的数据分布特点,权衡假阳性和假阴性的比例,选择一个适当的百分范围,最常用的百分界限是95%。 减少假阳性(用于确诊),范围取大(95%,99%) 减少假阴性(用于初筛),范围取小(90%,80%),习题: 1.各观察值加同一数后: A.均数不变,标准差改变 B.均数改变,标准差不变 C.二者均

10、不变 D.均改变 2.用均数和标准差可全面描述: A.正偏态资料 B.负偏态资料 C.正态分布和近似正态分布 D.任何分布 3.正态分布曲线下,从均数 到 +1.96的面积为; A.95% B.45% C. 97.5% D.47.5%,例如:正态分布数据,n=200,描述为7010 ,记作?求5080之间的理论频数?,计数资料统计描述,绝对数:通过调查或实验得到的原始数据。如某病的出院人数、治愈人数、死亡人数等。 但绝对数通常不具有可比性: 1. 如甲、乙两个医院某病出院人数不同时,两医院该病的死亡人数不具有可比性 2. 如2002级一、二班学生人数不同时,两班考试及格人数不具有可比性 因此需

11、要在绝对数的基础上计算相对数。 相对数:两个绝对数之比,或两个有联系的指标之比,常用的相对数有: 率(rate): 当比例与时间有关系时称为率(如发病率、患病率、死亡率、病死率等)。 构成比(constituent ratio )或( proportion): 比的分子是分母的一部分,各组成部分比重。 比(ratio) 或相对比(relative ratio) : 两个有联系的指标之比,两者对比水平。,率 率(rate):说明某现象发生的频率或强度。(每单位时间变化的瞬时测量值) 率 = 发生某现象的观察单位数 K(比例基数) 可能发生某现象的观察单位总数 K=100% 1000 万分率 10

12、万分率,常用的率: 发病率与患病率 死亡率与病死率,1、 发病率(incidence rate) (1)公式 IR= 某期某人群中某病的新病例数 K 同期暴露人口数,通常以年为单位,1、 发病率(incidence rate) (1)公式 IR= 某期某人群中某病的新病例数 K 同期暴露人口数,新发初次诊断 一人多次发病,1、 发病率(incidence rate) IR= 某期某人群中某病的新病例数 K 同期暴露人口数,可能发生该病的人群,不可能发病,1、 发病率(incidence rate) IR= 某期某人群中某病的新病例数 K 同期暴露人口数,该时期的平均人口数 (1)年中人口数(2

13、)平均值,分子 观察期内新发生的病人; 同一个体多次患病,应多次计数; 发病时间较难确定的以初次诊断作为发病时间。 分母 应为易感人口,实际大样本调查多用平均人口。 K 比例系数,可为1000 万分率 10万分率 时间单位 年、季、月,常以年为单位 (2)含义 表示一定期间内、一定人群中某病新病例出现的频率。 疾病发生的危险性,可分年龄、性别、职业、民族、种族、婚姻状况、病因等分别计算,即发病专率,2、 患病率 (prevalence rate),又称现患率 (1)公式 时点患病率 = 某时点某病的新旧病例数 K (一个月内) 当时受检人数(平均人口数),相当于一个时间端面 一般不超过一个月,

14、期间患病率 = 某期间某病的新旧病例数 K 受检人数(同期平均人口数),开始时点上的患病率该期间内发病率,(2)含义 指某特定时间内总人口中,某病新旧病例所占的比例。 强调的是某人群中某时间断面上患病者的比例。,例:某地1995年年初人口为2528人,19951998年某病三年间发病情况见图,期间无死亡、迁走或拒绝检查者。,图1 19951998年某病三年间发病情况,患病率与发病率区别与联系 本质含义不同 现患频率与发病危险 计算方法不同 分子、分母差异 观察方式不同 断面与纵向 应用范围不同 慢性与急性,患病率发病率 X 病程,长期保持稳定,例:患病率36710万 发病率30.710万 计算

15、得:病程12.0年,、死亡率(mortality rate, death rate) (1)公式 死亡率= 某人群某年总死亡人数 K 该人群同年平均人口总数,(2)含义 指在一定期间内总死亡人数与该人群同期平均人口数之比。 (3)应用 用于衡量某一时期、某一地区人群死亡危险性大小。 该死亡率又称粗死亡率 死亡专率(specific death rate) 按某一特定疾病、性别、年龄而计算的死亡率,称为疾病别、性别,年龄别死亡专率。,、病死率(fatality rate) (1)公式 病死率 = 一定时内某病死亡人数 100% 同期确诊的某病病例数,(2)含义 表示一定时期内(通常为1年),患某

16、病的全部病人中因该病而死亡者的比例。 (3)应用 它既表明疾病的严重程度,也可反映出当地的医疗水平(注意可比性)。,实例,某地人口1000人,某年发生霍乱20人,6人死于霍乱。 该年霍乱发病率 霍乱死亡率 霍乱病死率,20/1000=0.02=2% 6/1000=0.006=0.6% 6/20=0.3=30%,相对比简称比,是两个有关指标之比,说明两指标间的比例关系。 计算公式为 式中两指标可以是绝对数、相对数或平均数。,2、比(ratio),(一)两个绝对数之比: 如某年某医院出生婴儿中,男性婴儿为370人,女性婴儿为358人,则出生婴儿性别比例为370/358100% = 103%,说明该

17、医院该年每出生100名女婴儿,就有103名男性婴儿出生,它反映了男性婴儿与女性婴儿出生的对比水平。,(二)两个率之比:如相对危险度(RR)。 如某地某年龄组男性吸烟和非吸烟的冠心病 死亡资料如表7-2,试分析其相对危害度。,说明男性吸烟组的冠心病死亡率是非吸烟组的2.139倍。,表7-2 某地某年龄组男性吸烟和非吸烟的冠心病死亡资料,(三)两个相对比之比:如流行病学常用的比数比(OR)。 例 服用反应停与肢体缺陷关系病例对照研究资料如表所示:,3、构成比(constituent ratio or proportion) 说明某一事物内部各组成部分所占的比重或分布。 常以百分数表示。,表 某医院

18、1990年和1998年住院病人的五种疾病死 亡人数和构 成比,1990年 1998年 疾病构成 死亡人数 构成比(%) 死亡人数 构成比(%) 恶性肿瘤 58 30.53 40 26.85 循环系统疾病 44 23.16 44 29.53 呼吸系统疾病 37 19.47 29 19.46 消化系统疾病 19 10.00 18 12.08 传染病 32 16.84 18 12.08 合计 190 100.00 149 100.00,构成比特点: 1、说明同一事物的k个构成比的总和应等于100%,即各个分子的总和等于分母。 2、各构成部分之间是相互影响的,某一部分比重的变化受到两方面因素的影响。其

19、一是这个部分自身数值的变化,其二是受其它部分数值变化的影响。 3、构成比常用来表示疾病或死亡的顺位、位次或所占比重。,二、 应用相对数的注意事项,1、构成比不能代替率: 构成比是用以说明事物内部某种构成所占比重或分布,并不说明某现象发生的频率或强度。,例,表 某地日光性皮炎的患病情况 年龄段 患病例数 0 1 5 3 10 4 15 10 20 28 25 37 30 18 35 9 40 2 45 1 50 1 合计 114,结论:2530岁组更容易患日光性皮炎?,2、计算相对数应有足够数量 如果例数较少会使相对数波动较大。 如: 某疗法治疗5例病人5例全部治愈,则计算治愈率为100/%;若

20、4例治愈,则治愈率为80%。由100%至80%波动较大,但实际上只有1例的变化。 数量少用绝对是进行描述。,3、正确计算合计率 对分组资料计算合计率或称平均率时,不能简单地由各组率相加或平均而得,而应用合计的有关实际数字进行计算。,例:某疗法治疗肝炎 甲医院治疗150人,治愈30人,治愈率为20% 乙医院治疗100人,治愈30人,治愈率为30% 两个医院合计治愈率应该是: (30+30)/(150+100) * 100%=24% 若算为20%+30%=50%或(20%+30%)/ 2=25%,则是错的。,4、注意资料的可比性 在比较相对数时,除了要对比的因素(如不同的药物疗效),其余的影响因素应尽可能相同或相近。,率的标准化,概念:若比较的两组或多组率当其内部构成不相同时,需要统一的标准进行调整,使之具有可比性,称为“率的标准化法”,表 甲、乙两种疗法治疗某病的治愈率比较, 甲疗法 乙疗法 病型 病人数 治愈数 治愈率(%) 病人数 治愈数 治愈率(%) _ _ 普通型 300 180 60.0 100 65 65.0 重型 100 35 35.0 300 125 41.7 合计 400 215 53.8 400 190 47.5 ,标准化法的基本思想: 采用某影响因素的统一标准构成以消除内部构成不同对合

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论