常见概率分布_第1页
常见概率分布_第2页
常见概率分布_第3页
常见概率分布_第4页
常见概率分布_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

卫生统计学第五章常见概率分布主要内容二项分布二项分布的概念与特征二项分布的应用Poisson分布Poisson分布的概念Poisson分布的特征Poisson分布的应用正态分布正态分布的概念正态概率密度曲线下的面积正态分布的应用2第一节二项分布一、二项分布的概念与特征一个袋子里有5个乒乓球,其中2个黄球,3个白球,我们进行摸球游戏。

每一次摸到黄球的概率是0.4,摸到白球的概率是0.6。

这个实验有三个特点:一是各次摸球是彼此独立的;二是每次摸球只有二种可能的结果,或黄球或白球;三是每次摸到黄球(或摸到白球)的概率是固定的。具备这三点,n次中有X次摸到黄球(或白球)的概率分布就是二项分布。3二项分布例4-1用针灸治疗头痛,假定结果不是有效就是无效,每一例有效的概率为π。某医生用此方法治疗头痛患者3例,2例有效的概率是多少?因为每例有效的概率相同,且各例的治疗结果彼此独立,3例患者中可以是其中的任意2例有效4用表示有效,表示无效。各次治疗结果彼此独立。3例病人,2例有效的组合情况有

表示“3取2的组合数”3例中2例有效的概率为:5二项分布二项分布的概率函数P(X)可用公式(4-1)来计算。X=0,1,2,…,n6二项分布的概念

(Binomialdistribution)

医学研究中很多现象观察结果是以二分类变量来表示的,如阳性与阴性、治愈与未愈、生存与死亡等等。

如果每个观察对象阳性结果的发生概率均为,阴性结果的发生概率均为(1-);而且各个观察对象的结果是相互独立的,那么,重复观察n个人,发生阳性结果的人数X的概率分布为二项分布。参数:n和,记为:X~B(n,)。n——观察次数;由实验者确定;——常常是未知的。7二项分布例4-1临床上用针灸治疗某型头痛,有效的概率为60%,现以该法治疗3例,其中2例有效的概率是多大?8例4-2假定π=0.60,随机治疗3例,有效例数为0,1,2,3例的概率各多少?1例以上有效的概率多大?9二项分布表4-1治疗3例可能的有效例数及其概率10二项分布由表4-1可知,各种可能结果出现的概率合计为1,即P(X)=1(X=0,1,…,n)。因此,如果欲求1例及1例以上有效的概率可以是P(x≥1)=P(1)+P(2)+P(3)=0.288+0.432+0.216=1-P(0)=1-0.064=0.936也可以是P(x≥1)=1-P(0)=1-0.064=0.93611(二)二项分布的特征——图形特征图5-1π=0.5时,不同n值对应的二项分布(如黑笔红笔试验)特点:对称分布横轴——X纵轴——X的概率P(X)12二项分布图5-2π=0.3时,不同n值对应的二项分布特点:n较小时,不对称,随着n增大,分布趋于对称

13二项分布的图形特征当=0.5时,分布对称;当

0.5,分布呈偏态;当<0.5时分布呈正偏态;当>0.5时分布呈负偏态;特别是当n值不是很大时,偏离0.5愈远,分布愈偏。随着n的增大,二项分布逐渐逼近正态分布。如

=0.3,n=5和n=10时,图形呈偏态,当n=30时,图形已接近正态分布。一般地说,如果n和n(1-)大于5时,常可用正态近似原理处理二项分布问题。142.二项分布的均数和标准差例4-3求例4-2的均数和方差152.二项分布的均数和标准差1、X的均数和标准差X的总体均数(数学期望):X的方差:X的标准差:16样本率的均数和标准差

出现阳性结果的频率为样本率的总体均数p:

样本率的总体标准差p:样本率的标准差(标准误)Sp(反映抽样误差大小)17公式的应用例4-4已知某地钩虫感染率为6.7%,研究者随机抽查某地150人,记样本钩虫感染率为p,求p的标准差。18二、二项分布的应用1.概率估计例4-5如果某地钩虫感染率为13%,随机观察当地150人,其中有10人感染钩虫的概率有多大?从n=150,π=0.13的二项分布,由公式(4-1)和(4-2)19二、二项分布的应用可以得出150人中有10人感染钩虫的概率为20二、二项分布的应用2.单侧累积概率计算二项分布出现阳性的次数至多为k次的概率为出现阳性的次数至少为k次的概率为21阳性次数至少为k次,至多为K次的概率(k<K)为22单侧累积概率计算例4-6例4-5中某地钩虫感染率为13%,随机抽查当地150人,其中至多有2名感染钩虫的概率有多大?至少有2名感染钩虫的概率有多大?至少有20名感染钩虫的概率有多大?23单侧累积概率计算根据公式(5-10)至多有2名感染钩虫的概率为24单侧累积概率计算至少有2名感染钩虫的概率为

25单侧累积概率计算至少有20名感染钩虫的概率为26第二节Piosson分布

泊松分布Piosson分布的意义盒子中装有999个黑棋子,一个白棋子,在一次抽样中,抽中白棋子的概率1/1000在100次抽样中,抽中1,2,…10个白棋子的概率分别是……28每毫升水中的大肠杆菌数每个立方气体中粉尘的计数血细胞或微生物在显微镜下的计数单位面积内细菌计数每1000个新生儿中某出生缺陷、多胞胎、染色体异常等出现的例数等特点:罕见事件发生数的分布规律可能发生这些事件的观察例数n常常很大,但实际上发生类似事件的数目却很小很小。29主要内容Piosson的概念Piosson分布的特征Piosson分布的应用取名于法国数学家SDPoisson(1781-1840)30概念:也是一种离散型分布,用以描述单位时间、空间、面积等的罕见事件发生次数的概率分布。Poisson分布记为X~P(λ),λ为Poisson分布的唯一参数。Poisson分布可以看作是发生的概率(或未发生的概率1-)很小,而观察例数n很大时的二项分布。应用条件:Poisson分布还要求或(1-)接近于0或1(例如<0.001或>0.999)。一、Piosson分布的概念31泊松分布的前提条件:①事件发生的概率不变;②每个事件发生与否是独立的。(传染病不能看作poisson分布)事实上,Poisson分布是二项分布在n很大而π很小时的极限分布.当n很大时用下式很难计算。

32二、Poisson分布的特征Poisson分布的概率函数为式中,——Poisson分布的总体均数,X——观察单位内某稀有事件的发生次数;

e——自然对数的底,为常数,约等于2.71828。

Piosson分布的特征33某地20年间共出生肢短畸形儿10名,平均每年0.5名。用=0.5(观察单位为年),代入公式估计该地每年出生此类畸形人数为0,1,2个,……的概率P(X)表4-2某地每年出生短肢畸形儿概率分布X012345P(X)0.6070.3030.0760.0130.0020.00034Poisson分布图4-3λ取不同值时的Poisson分布图横轴——事件发生数X,纵轴——对应于X的概率P(X)35Poisson分布由图4-3可以看到Poisson分布当总体均数λ值小于5时为偏峰,λ愈小分布愈偏,随着λ增大,分布趋向对称。Poisson分布有以下特性:(1)Poisson分布的总体均数与总体方差相等,均为λ;(2)Poisson分布的观察结果有可加性36Piosson分布的可加性观察某一现象的发生数时,如果它呈Piosson分布,那么把若干个小单位合并为一个大单位后,其总计数亦呈Piosson分布。如果X1P(1),X2P(2),…XKP(K),那么X=X1+X2+…+XK,

=1+2+…+k,则XP()。

如:同一水源独立地取水样5次,每次1ml,每次水样中的菌落数Xi均服从Poisson分布。5份混合后,合计菌落数也服从Poisson分布(观察单位是5ml)

医学研究常利用其可加性,将小观察单位合并,增大发生次数,以便分析。37式中的总体平均数λ=6,代入公式得:概率估计:例4-7实验显示某100cm2的培养皿中平均菌落数为6个,试估计该培养皿菌落数等于3个的概率?三、Poisson分布的应用38式中的总体平均数λ=1000×0.0015=1.5代入公式得:例4-8如果某地居民脑血管疾病的患病率为150/10万,那么调查该地1000名居民中有2人患脑血管疾病的概率有多大?392.单侧累计概率估计:设k为一给定值,X为随机变量,λ为总体平均数,那么该稀有事件发生次数至多为k次的概率为:(X=0,1,2,…,k)该稀有事件发生至少为k次的概率为:(X=k,k+1,…,∞)40例4-9在例4-7,试估计每一个培养皿中菌落数小于3个的概率,大于1个的概率.41式中的总体平均数λ=1000×0.0015=1.5代入公式得:例4-10如果某地居民脑血管疾病的患病率为150/10万,那么调查该地1000名居民中至多有2人患脑血管疾病的概率有多大,至少有3人患病血管病的概率有多大?42第三节正态分布一、正态分布的概念:正态分布(normaldistribution)又称高斯分布描述连续型随机变量的分布规律.43表4-3某地正常人心率(次/分)的频数分布组段频数频率%45~10.6750~53.3355~128.0060~138.6765~2617.3370~3120.6775~2416.0080~1510.0085~96.0090~74.6795~53.33100-10521.33表4-4(体模)骨密度测量值的频数分布组段频数频率%1.228~21.141.234~21.141.240~74.001.246~179.711.252~2514.291.258~3721.141.264~2514.291.270~169.141.276~42.291.282~121.1444正态分布曲线形态:中间高、两边低、左右完全对称、两端与横轴永不相交的钟形曲线。451.正态分布以均数为中心,关于x=μ对称。2.正态曲线在横轴上方,且均数所在处最高,函数取得最大值;在X=μ±σ处有拐点;3.曲线下面积为1;4.μ值大小决定曲线在横轴上的位置,又称位置参数(locationparameter);5.标准差的大小决定曲线的形状,又称形状参数(shapeparameter)。越大,数据越分散,曲线‘矮胖’。越小,数据越集中,曲线‘瘦高’。6.正态分布曲线下的面积分布有一定规律性。

正态分布表示方法:X~N(,2)正态分布的特点:4647服从正态分布的变量同性别、同年龄儿童的身高同性别健康成人的红细胞数、血红蛋白含量、脉搏数等试验中的随机误差。正态分布是许多统计方法的理论基础。48二、正态曲线下面积的分布规律(µ-1σ,µ+1σ)占总面积的68.27%(0.6827)(µ-2σ,µ+2σ)占总面积的95.44%(0.9544)(µ-3σ,µ+3σ)占总面积的99.74%(0.9974)++2+349正态曲线下的面积规律-1.64+1.645%5%90%50正态曲线下的面积规律-1.96+1.962.5%2.5%95%51正态曲线下的面积规律-2.58+2.580.5%0.5%99%52(µ-1.64σ~µ+1.64σ)占总面积的90.0%(0.90)(µ-1.96σ~µ+1.96σ)占总面积的95.0%(0.95)(µ-2.58σ~µ+2.58σ)占总面积的99.0%(0.99)532、Z变换与标准正态分布(standardnormaldistribution)(-1.96~+1.96)占总面积的95.0%(0.95)(-2.58~+2.58)占总面积的99.0%(0.99)54标准正态分布曲线下面积(z)

z 0.00 -0.02 -0.04 -0.06 -0.08-3.0 0.0013 0.0013 0.0012 0.0011 0.0010-2.5 0.0062 0.0059 0.0055 0.0052 0.0049-2.0 0.0228 0.0217 0.0207 0.0197 0.0188-1.9 0.0287 0.0274 0.0262 0.0250 0.0239-1.6 0.0548 0.0526 0.0505 0.0485 0.0465-1.0 0.1587 0.1539 0.1492 0.1446 0.1401-0.5 0.3085 0.3015 0.2946 0.2877 0.28100 0.5000 0.4920 0.4840 0.4761 0.46810z55标准正态分布面积的计算:例4-11已知X服从均数为μ、标准差为σ的正态分布,试估计:

(1)X取值在区间μ±1.96σ的概率.

(2)X取值在区间μ±2.58σ的概率。问题(1):“X取值在区间μ±1.96σ的概率”计算步骤:(1)X在横轴上有两点:X1=μ-1.96σ,X2=μ+1.96σ;(2)Z变换:变换公式:Z=(X-μ)/σ(3)查附表1:标准正态分布曲线下面积:

Φ(-1.96)=0.025,Φ(1.96)=0.975,(4)计算区间面积:A(-1.96~+1.96)=0.975-0.025=0.955657例4-12某地1986年120名8岁男孩身高平均值为x=123.02㎝,标准差为S=4.79㎝,试估计:(1)该地8岁男孩身高在130㎝.以上者占该地8岁男孩总数的百分比;(2)身高在120㎝~128㎝者占该地8岁男孩总数的百分比;(3)该地80%的男孩身高集中在哪个范围?问题(1):“身高在130㎝以上者占总数的百分比”的解题步骤:(1)Z变换:Z=(X-μ)/σ=(130-123.02)/4.79=1.46(2)查附表1:标准正态分布曲线下面积,Φ(-1.46)=0.0721(3)根据对称性质,有面积A(1.46~+∞)=0.0721,7.21%58问题(2):“身高在120㎝.~128㎝.者占总数的百分比”的解题步骤:

z变换z1=(120-123.02)/4.79=-0.63,z2=(128-123.02)/4.79=1.04(2)查附表1:Φ(-0.63)=0.2643,Φ(1.04)=1-Φ(-1.04)=0.8508(3)计算面积A(-0.63~1.04)=0.8508-0.2643=0.5865,58.65%59问题(3):“该地80%的男孩身高集中在哪个范围?”的解题步骤:(1)求出Φ(z1)=0.10和Φ(z2)=0.90的z1和z2值:查附表1得:Φ(-1.28)=0.10和Φ(1.28)=0.90

(2)将z1=-1.28和z2=1.28转换成身高值x1和x2:按转换公式:-1.28=(x1-123.02)/4.79,1.28=(x2-123.02)/4.79得到:x1=-1.28×4.79+123.02=116.89或116.9㎝x2=1.28×4.79+123.02=129.15或129.2㎝答案:该地80%的男孩身高集中在116.9㎝~129.2㎝之间。603.正态变量的和与差的分布服从正态分布的随机变量X1、X2的和与差的分布,仍然是正态分布。不论X1与X2独立与否当X1与X2独立时,其和与差的方差等于方差的和61三、正态分布的应用1、确定医学参考值范围(referencerange)(1)概念:指特定的“正常”人群(排除了对所研究指标有影响的疾病和有关因素的特定人群)的解剖、生理、生化指标及组织代谢产物含量等数据中大多数个体的取值所在的范围。常用95%。62“正常人”不是指机体任何器官、组织的形态和功能都正常的人,而是指符合特定健康水平的人;绝对健康是不存在的,在每个人身上都可能存在着某种程度的病理状态,在使用或制定临床参考值范围时,“正常人”的健康水平应有明确的界定。

63

选择参照样本必须要考虑可能影响所要制定参考值范围指标的各种疾病及干扰因素,将这些人排除在外。例如:在制定血清谷-丙转氨酶活性正常值范围时,选取正常人的条件为肝、肾、心、脑、肌肉等无器质性疾患,近期无特殊用药史等。64注意95%医学参考值范围仅指某特定人群中,95%的个体指标测定值在此范围内,不能说明凡在此范围内都“正常”;也不能说明不在此范围内都不“正常”,临床上仅作参考。65(2)意义:1、用于划界、分类:判断某指标异常与否2、动态分析:不同时期正常值可反映环境污染的动态变化或环保效果。如降低血铅、血汞的参考值。66参考值范围分为单侧和双侧两种:

单侧:过低(或过高)不好时用单侧,划定上限或下限,如肺活量,血氟含量。双侧:过低或过高都不好时用双侧,如白细胞数。67

有些指标如白细胞数过高或过低均属异常(a),故其参考值范围需要分别确定下限和上限,称作双侧。有些指标如24小时尿糖含量仅在过高(b)、肺活量仅在过低时为异常(c),只需确定其上限或下限,称作单侧参考值范围。(a)白细胞数参考值范围(b)24小时尿糖参考值范围(c)肺活量参考值范围决定取单侧范围还是双侧范围值68根据资料的分布特点选用(1)百分位数法:例如双侧95%用P(2.5%)~P(97.5%)区间(适合于任何分布类型资料)图示(2)正态分布法:例如双侧95%用区间(适合于正态分布、近似正态分布或可转化为正态分布的资料)图示确定医学参考值范围的方法69参考值范围的估计方法:百分位数法P2.5P97.570参考值范围的估计方法:正态分布法12.5%2.5%95%-1.96+1.9671估计医学参考值范围的界限

表1参考值范围所对应的百分位数

表2参考值范围所对应的正态分布区间72例4-13调查某地120名健康女性血红蛋白,直方图显示,其分布近似正态分布,x=117.4(g/L),s=10.2(g/L),试估计该地健康女性血红蛋白的95%参考值范围.73确定医学参考值范围注意的问题:必须抽取足够例数的样本判断是否应该分“层”:男女,平原高原选择适当的百分范围74

参考值的百分范围应根据资料的性质和研究目的选择,它与诊断阈值有确定的关系。百分范围的不同将导致不同的假阳性率和假阴性率。图3-6正常人和病人数据分布重叠75实际中最好结合正常人和病人的数据分布特点,权衡假阳性和假阴性的比例,选择一个适当的百分范围。若应用是主要目的在于减少假阳性(如确诊病人),则参考值范围的百分数范围要取大一些(如95%或99%);反之,若主要目的在于减少假阴性(如初筛病人),百分数范围可适当小一些(如90%或80%)。762、质量控制(qualitycontrol):

许多指标,当影响它的随机因素很多,而每个因素所起的作用均不太大时,这个指标的随机波动属于随机误差,则往往服从正态分布。相反,如还存在影响较大的因素导致的误差,这时指标的波动就不服从正态分布。

为了保证产品合格或检验结果的质量,对生产或实验中的误差加以检测与控制,及时发现次品或废品,以免造成大的损失。统计学方法:质量控制图。常以X±2S作为上、下警戒限,以X±3S作为上、下控制限。异常情况的判断标准:有8种(见page75及图4-10).77质量控制图(qualitycontrolchart)UCL(上控制限)UWL(上警戒限)CL(中心线)LWL(下警戒限)LCL(下控制限)样本编号、取样时间M+3SDM+2SDMM-2SDM-3SD78质量控制图(qualitycontrolchart)UCL(上控制限)UWL(上警戒限)CL(中心线)LWL(下警戒限)LCL(下控制限)样本编号、取样时间M+2.58SDM+1.96SDMM-1.96SDM-2.58SD79质量控制图(qualitycontrolchart) 1 2 3 4 5 6 7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论