卫生统计学常用概率分布课件_第1页
卫生统计学常用概率分布课件_第2页
卫生统计学常用概率分布课件_第3页
卫生统计学常用概率分布课件_第4页
卫生统计学常用概率分布课件_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

常用概率分布第一节二项分布一、二项分布的概念与特征(一)摸球模型与二项分布

一个袋子里有5个乒乓球,其中2个黄球,3个白球,我们进行摸球游戏,每一次摸到黄球的概率是0.4,摸到白球的概率是0.6,这个实验有三个特点:一是各次摸球是彼此独立的;二是每次摸球只有二种可能的结果,或黄球或白球;三是每次摸到黄球(或摸到白球)的概率是固定的。具备这三点,n次中有X次摸到黄球(或白球)的概率分布就是二项分布。例题例5-1:用针灸治疗头痛,假定结果不是有效就是无效,每一例有效的概率为π。某医生用此方法治疗头痛患者5例,3例有效的概率是多少?

因为每例有效的概率相同,且各例的治疗结果彼此独立,5例患者中可以是其中的任意3例有效。概念:

医学研究中很多现象观察结果是以两分类变量来表示的,如阳性与阴性、治愈与未愈、生存与死亡等等。如果每个观察对象阳性结果的发生概率均为,阴性结果的发生概率均为(1-);而且各个观察对象的结果是相互独立的,那么,重复观察n个人,发生阳性结果的人次数X的概率分布为二项分布,记作B(X;n,π)。二项分布应用的先决条件:

(1)一个实验有两种对立的可能结果,如“阳性”与“阴性”;(2)n次独立的实验;(3)产生一种结果(如阳性)的概率不变;(4)求在n次实验中有X阳性的概率.(二)二项分布的概率函数二项分布的概率函数P(X)可用公式(5-1)来计算。例题例5-2:临床上用针灸治疗某型头痛,有效的概率为60%,现以该法治疗3例,其中两例有效的概率是多大?表5-1治疗3例可能的有效例数及其概率

有效人数(x)x(1-)n-x出现该结果概率P(X)010.60=10.4×0.4×0.40.064130.60.4×0.40.288230.6×0.60.40.432310.6×0.6×0.60.400.216

由表4-1可知,各种可能结果出现的概率合计为1,即P(X)=1(X=0,1,…,n)。因此,如果欲求1例以上有效的概率可以是:P(x≥1)=P(1)+P(2)+P(3)=0.288+0.432+0.216=0.936也可以是P(x≥1)=1-P(0)=1-0.064=0.936(三)二项分布的特征1、二项分布的图形特征

接近0.5时,图形是对称的,如图4-1。离0.5愈远,对称性愈差,但随着n的增大,分布趋于对称,如图4-2。

当n→∞时,只要不太靠近0或1,当nP和n(1-P)都大于5时,二项分布近似于正态分布。

二项分布图形取决于与n,高峰=n处。图5-1π=0.5时,不同n值对应的二项分布图5-2π=0.3时,不同n值对应的二项分布2、二项分布的均数和标准差总体均数:方差:标准差:如果将出现阳性结果的频率记为:P的总体均数:P的总体标准差:例题例5-4

研究者随机抽查某地150人,其中有10人感染了钩虫,钩虫感染率为6.7%,求此率的抽样误差。二、二项分布的应用(一)概率估计例5-5

如果某地钩虫感染率为13%,随机观察当地150人,其中有10人感染钩虫的概率有多大?从n=150,π=0.13的二项分布,由公式(5-1)和(5-2)可以得出150人中有10人感染钩虫的概率为:(二)单侧累积概率计算二项分布出现阳性的次数至多为k次的概率为:出现阳性的次数至少为k次的概率为:例题例5-6

例4-5中某地钩虫感染率为13%,随机抽查当地150人,其中至多有2名感染钩虫的概率有多大?至少有2名感染钩虫的概率有多大?至少有20名感染钩虫的概率有多大?根据公式(5-10)至多有2名感染钩虫的概率为:至少有2名感染钩虫的概率为:至少有20名感染钩虫的概率为:

第二节Poisson分布一、Poisson分布的概念

Poisson分布也是一种离散型分布,用以描述罕见事件发生次数的概率分布。常用于研究单位时间内(或单位空间内)某事件发生不同次数的分布。医学上人群中出生缺陷、多胞胎、染色体异常等事件等都是罕见的,可能发生这些事件的观察例数n常常很大,但实际上发生类似事件的数目却很小很小。

Poisson分布可以看作是发生的概率(或未发生的概率1-)很小,而观察例数n很大时的二项分布。除二项分布的三个基本条以外,Poisson分布还要求或(1-)接近于0或1(例如<0.001或>0.999)。二、Poisson分布的特征Poisson分布的概率函数为:式中为Poisson分布的总体均数,X为观察单位内某稀有事件的发生次数;e为自然对数的底,为常数,约等于2.71828。

由图5-3可以看到Poisson分布当总体均数λ值小于5时为偏峰,λ愈小分布愈偏,随着λ增大,分布趋向对称。Poisson分布有以下特性:(1)Poisson分布的总体均数与总体方差相等,均为λ。

(2)Poisson分布的观察结果有可加性。

当λ增大时,Poisson分布逐渐逼近正态分布。一般来说λ≥20时,Poisson分布的资料可按正态分布处理。当n很大,p很小,np=λ为一常数时,二项分布近似Poisson分布,p越小,近似程度越好。Poisson分布图图5-3λ取不同值时的Poisson分布图

(一)概率估计例5-7

实验显示某100cm2的培养皿平均菌落数为6个,试估计该培养皿菌落数等于3个的概率。该培养皿菌落数等于3个的概率:三、Poisson分布的应用例5-8

如果某地居民脑血管疾病的患病率为150/10万,那么调查该地1000名居民中有2人患脑血管疾病的概率有多大?

λ=n=1000×0.0015=1.5

即调查该地1000名居民中有2人患脑血管疾病的概率为25.1%。

例5-9

实验显示某100cm2的培养皿平均菌落数为6个,试估计该培养皿菌落数等于3个的概率。

该培养皿菌落数小于3个的概率:

(二)单侧累计概率计算如果稀有事件发生次数的总体均数为λ,那么该稀有事件发生次数至多为k次的概率

发生次数至少为k次的概率:

例5-9

实验显示某100cm2的培养皿平均菌落数为6个,试估计该培养皿菌落数小于3个的概率,大于1个的概率。该培养皿菌落数小于3个的概率:菌落数大于1个的概率为:例题

例5-10

例5-8中,至多有2人患脑血管疾病的概率有多大?至少有3人患脑血管疾病的概率有多大?至多有2人患脑血管疾病的概率:至少有3人患脑血管疾病的概率:第三节正态分布一、正态分布的概念

正态曲线(normalcurve)是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的“钟型”曲线,该曲线表现为中间高,两边低,左右对称。因为频率的总和等于1,故横轴上曲线下的面积等于1。正态分布是一种重要的连续型分布。医学研究中许多正常人生理、生化指标变量的分布呈正态或近似正态分布。正态分布是数理统计中发展得最为完善的一种分布,很多统计推断都是在正态分布条件下进行的。许多非正态分布的资料,当观察例数足够多时,也可以用正态分布作为它的极限分布形式。有时也将一些非正态分布资料转化为正态分布来处理。表5-4骨密度测量值的频数分布组段频数1.228~21.234~21.240~71.246~171.252~251.258~371.264~251.270~161.276~41.282~1.2881正态分布图5-4体模“骨密度”测量值的分布接近正态分布示意图(频率密度=频率/组距)正态分布

正态概率密度曲线的位置与形状具有如下特点:

(1)关于x=μ

对称。(2)在x=μ处取得该概率密度函数的最大值,在处有拐点,表现为钟形曲线。(3)曲线下面积为1。(4)μ决定曲线在横轴上的位置,μ增大,曲线沿横轴向右移;反之,μ减小,曲线沿横轴向左移。(5)σ决定曲线的形状,当μ恒定时,σ越大,数据越分散,曲线越“矮胖”;σ越小,数据越集中,曲线越“瘦高”。见图4-5。正态分布u1u2u3不同均数正态分布不同标准差正态分布对任意一个服从正态分布的随机变量,可作如下的标准化变换,也称Z变换:Z服从总体均数为0、总体标准差为1的正态分布。我们称此正态分布为标准正态分布(standardnormaldistribution),用N(0,1)表示。正态分布统计学家编制了标准正态分布曲线下面积分布表(附表1),因为正态分布两边对称,所以只给出Z取负值的情况。表内所列数据表示Z取不同值时标准正态分布的分布函数值,此值大小相当于Z值左侧标准正态曲线下面积,记作Φ(z)。正态分布

例5-9已知X服从均数为μ、标准差为σ的正态分布,试估计:

X取值在区间上的概率;

X取值在区间上的概率。正态分布查附表1,,因为曲线下两侧面积对称,区间(1.96,∞)相应面积也是0.025,故Z取值于(-1.96,1.96)的概率为1-2×0.025=0.95,即取值在区间上的概率为0.95。同理,我们可以求出X取值在区间上的概率为0.99。二、正态曲线下面积的分布规律μ-3σμ-2σμ-σμμ-σμ-2σμ-3σ68.27%95.44%99.74%正态分布曲线下面积分布有一定规律:µ±σ

包含面积占曲线下总面积的68.27%µ±1.96σ

包含面积占曲线下总面积的95.00%µ±2.58σ

包含面积占曲线下总面积的99.00%正态分布zΦ(z)正态分布-1.961.960.0250.025正态分布1.46-1.460.070.07图5-9例4-10示意图正态分布例5-11

某地1986年120名8岁男孩身高均数为=123.02cm,标准差为S=4.79cm,试估计:(1)该地8岁男孩身高在130cm以上者占该地8岁男孩总数的百分比;(2)身高在120cm~128cm者占该地8岁男孩总数的百分比;(3)该地80%的男孩身高集中在哪个范围?求Z值:查表:理论上该地8岁男孩身高在130cm以上者占该地8岁男孩总数的7.21%。正态分布先计算120和128所对应的Z值:正态曲线下区间(-0.63,1.04)上的面积等于:查附表1,标准正态分布曲线下左侧面积为0.10所对应的Z值为-1.28,80%的8岁男孩身高集中在区间内,即116.9cm与129.2cm之间。三、正态分布的应用(一)估计频数分布(二)确定医学参考值范围1、医学参考值范围(referenceranges)意义:指特定健康人群的解剖、生理、生化等各种数据的波动范围。是“正常”人群数据中大多数个体的取值所在的范围。人们习惯用该人群95%的个体某项医学指标的取值范围作为该指标的医学参考值范围。2.制定参考值的基本步骤

(1)从正常人总体中抽样所谓正常人,是指排除了影响被研究指标的疾病或因素的人。具体抽样时要注意:

1)随机化原则和方法进行抽样研究。

2)取样本含量要足够大。(2)控制测量误差

测量的方法、仪器、试剂、精密度、操作熟练程度都要统一,以便将测量误差控制在一定的范围内。(3)判定是否需要分组确定参考值范围原则上组间差别明显,且差别有实际意义则应分开,否则应当合并确定。(4)决定取单侧还是双侧单侧或双侧是根据指标的实际用途而定,指标(如红细胞、白细胞)过高与过低均为异常则取双侧,正常值范围要分别确定下限和上限;指标仅过高或过低为异常,则取单侧。双侧---过高、过低均异常单侧下限异常正常单侧上限异常正常异常正常双侧下限双侧上限异常单侧上限---过高异常单侧下限---过低异常(5)选定合适的百分界限参考值范围是指绝大多数正常人的测定值应该所在的范围。这个“绝大多数”习惯上95%或99%。(6)对资料的分布进行正态性检验。(7)根据资料的分布类型选定适当的方法进行参考值范围的估计。3.参考值范围的估计方法估计参考值范围的方法很多,在此以制定95%的参考值范围为例,介绍正态分布法(适用正态分布资料或能够转化为正态分布的资料)、百分位数法(适用于任何分布型的资料)的适用对象和界限值的计算公式,见下表。参考值范围所对应的正态分布区间百分范围(%)单侧双侧下限上限下限上限9599百分范围(%)单侧双侧下限上限下限上限95P5P95P25P97.599P1P99P0.5P99.5参考值范围所对应的百分位数例5-11调查某地120名健康女性血红蛋白,直方图显示,其分布近似于正态分布,(g/L),(g/L),试估计该地健康女性血红蛋白的95%参考值范围。因血红蛋白过高、过低均为异常,所以按双侧估计95%医学参考值范围:例题

即该地健康女性血红蛋白的95%的参考值范围为97.41g/L~137.39g/L

例题:见下表资料,为该地区50岁~60岁的女性高血脂诊断与治疗提供参考依据,试估计其血清甘油三

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论