版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四节第四节 正态分布及标准误正态分布及标准误本次课要点:本次课要点:l1、熟悉正态分布、标准正态分布的概念;掌握其主要特征及其应用;l2、掌握医学参考值的概念及其范围的制定方法。l3、了解均数标准误的意义及计算l4、掌握总体均数可信区间的概念及计算方法第四节 正态分布 (normal distribution)一、正态分布的概念一、正态分布的概念 1. 图形图形正态分布正态分布u=(x- )/ 标准正态分布标准正态分布 高峰位于中央(均数所在处)、两侧逐渐降低且左右对称、不与横轴高峰位于中央(均数所在处)、两侧逐渐降低且左右对称、不与横轴相交的光滑曲线。正态分布是一种重要的连续型分布。相交的
2、光滑曲线。正态分布是一种重要的连续型分布。正态曲线(正态曲线(normal curve)在横轴上方均数处最高;)在横轴上方均数处最高;正态分布以均数为中心,左右对称;正态分布以均数为中心,左右对称;正态分布有两个参数,即均数正态分布有两个参数,即均数 与标准差与标准差 ,常用,常用n( , , )表示,用表示,用n(0,1)表示标准正态分布。其位置与均)表示标准正态分布。其位置与均数有关,形状与标准差有关。标准差大,离散程度大,正态数有关,形状与标准差有关。标准差大,离散程度大,正态分布曲线则分布曲线则“胖胖”,反之,则,反之,则“瘦瘦”;正态分布的面积分布有一定的规律性正态分布的面积分布有一
3、定的规律性。二二 正态分布分布曲线的特征三三 正态曲线下面积的分布规律正态曲线下面积的分布规律统计学家求出了标准正态分布从统计学家求出了标准正态分布从- 到(到(-u)的面积。)的面积。实际工作中经常要用的面积分布规律有以下三点:实际工作中经常要用的面积分布规律有以下三点:三三 正态曲线下面积的分布规律正态曲线下面积的分布规律正态曲线下的面积规律正态曲线下的面积规律-1.96+1.962.5%2.5%95%正态曲线下的面积规律正态曲线下的面积规律-1.64+1.645%5%90%正态曲线下的面积规律正态曲线下的面积规律-2.58+2.580.5%0.5%99%三、正态分布的应用1. 1. 估计
4、参考值范围;估计参考值范围;2. 2. 估计总体参数的可信区间;估计总体参数的可信区间;3. 3. 差异显著性检验;差异显著性检验;4. 4. 质量控制。质量控制。1、估计频数分布、估计频数分布l出生体重低于2500g为低体重儿,某市婴儿出生体重均数3200g,标准差为s=350g。设该资料服从正态分布,试求该地低体重儿占该地所有出生婴儿的比例。 计算:计算:首先计算标准离差:查标准正态分布表: (-2)=0.0228结果:估计低体重儿的比例为2.28%.250032002350u 参考值范围参考值范围(reference interval)l参考值范围又称正常值范围(normal range
5、)。l什么是参考值范围:是绝大多数正常人的某观察指标所在的范围。绝大多数:90%,95%,99%等等。l确定参考值范围的意义:用于判断正常与异常。l“正常人”的定义:排除了影响所研究的指标的疾病和有关因素的同质的人群。参考值范围确定的原则参考值范围确定的原则l选定足够例数的同质的正常人作为研究对象 l控制检测误差l判断是否分组(性别,年龄组) l单、双侧问题 l选择百分界值(90%,95%) l确定可疑范围参考值范围的估计方法:正态分布法参考值范围的估计方法:正态分布法2.5%2.5%95%-1.96+1.96参考值范围的估计方法:百分位数法参考值范围的估计方法:百分位数法p2.5p97.59
6、5%参考值范围的估计方法参考值范围的估计方法方法双侧 单侧下限单侧上限正态分布法百分位数法 p2.5p97.5 p5 p951.96xs 1.64xs 1.64xs 例:参考值范围的计算例:参考值范围的计算l某地调查了200名成年女子的平均血清总蛋白为73.5(g/l),标准差3.9 (g/l),试估计该地成年女子血清总蛋白95的参考值范围。由得95参考值范围:下限: 1.96s=73.51.963.9=65.9(g/l)上限: 1.96s=73.51.963.9=81.1(g/l) 此可作为判断该地区成年女子血清总蛋白含量正常与否的参考值。xx单侧与双侧参考值范围单侧与双侧参考值范围l根据医
7、学专业知识确定!双侧:白细胞计数,血清总胆固醇,单侧:上限: 转氨酶,尿铅,发汞 下限: 肺活量,iq, 第五节 均数的抽样误差及应用一、概念一、概念误差:实测值与真值之差。误差:实测值与真值之差。(1 1)系统误差:在收集资料过程中产生的误差,值恒定)系统误差:在收集资料过程中产生的误差,值恒定不变,遵循一定的规律变化。不变,遵循一定的规律变化。(2 2)随机误差:一类不恒定、随机、变化的误差。如)随机误差:一类不恒定、随机、变化的误差。如抽样误差。抽样误差。 2. 2. 抽样:从总体中获得有代表性样本的过程。抽样:从总体中获得有代表性样本的过程。3.均数的抽样误差:均数的抽样误差: 由抽样
8、而造成的样本均数与总体均数的由抽样而造成的样本均数与总体均数的差异或各样本均数的差异。差异或各样本均数的差异。抽样误差的定义抽样误差的定义l假如事先知道某地七岁男童的平均身高为119.41cm。为了估计七岁男童的平均身高(总体均数),研究者从所有符合要求的七岁男童中每次抽取100人,共计抽取了三次。119.41cm= 4.38cm118.21cm=4.45cmxs120.18cm=4.90cmxs120.81cm=4.33cmxs抽样误差的定义抽样误差的定义l三次抽样得到了不同的结果,原因何在?个体变异随机抽样不同男童的身高不同每次抽到的人几乎不同抽样误差【定义】由于个体变异的存在,在抽样研究
9、中产生样本统计量和总体参数之间的差异,称为抽样误差。各种参数都有抽样误差,这里我们以均数为研究对象抽样误差的定义抽样误差的定义nx: 总体标准差总体标准差 n:样本含量:样本含量nxnssxs s : 样本标准差样本标准差 计算公式计算公式反映均数抽样误差大小的指标。样本均数的反映均数抽样误差大小的指标。样本均数的标准差。标准差。标准误越小,说明样本均数与总体标准误越小,说明样本均数与总体均数越接近,样本均数的代表性越好均数越接近,样本均数的代表性越好意义意义二、标准误二、标准误例:对某地成年男性红细胞数的抽样调查中,随例:对某地成年男性红细胞数的抽样调查中,随机抽取了机抽取了100名成年男性
10、,调查得到其均数是名成年男性,调查得到其均数是5.38 /l ,标准差为,标准差为0.44 /l,求其标准,求其标准误。误。 依题意,依题意,n=100n=100;s=0.44s=0.4410101212/l/l。计算得到标准误为计算得到标准误为: :例题:例题:044. 010044. 0nssx12101210(10101212/l/l)1210标准误的意义标准误的意义l反映了样本统计量(样本均数,样本率)分布的离散程度,体现了抽样误差的大小。l标准误越大,说明样本统计量(样本均数,样本率)的离散程度越大,即用样本统计量来直接估计总体参数越不可靠。反之亦然。l标准误的大小与标准差有关,在例
11、数n一定时,从标准差大的总体中抽样,标准误较大;而当总体一定时,样本例数越多,标准误越小。说明我们可以通过增加样本含量来减少抽样误差的大小。样本均数的抽样分布规律样本均数的抽样分布规律l中心极限定理u从均数为,标准差为的正态总体中随机抽样,样本均数服从均数为,标准差为 的正态分布。u从均数为,标准差为的任意总体中随机抽样,当样本含量足够大时,样本均数近似服从均数为,标准差为 的正态分布。 nnt分布的演化分布的演化l根据中心极限定理的内容,当样本含量足够大时,对从均数为,标准差为的任意总体中随机抽样所得的样本均数进行标准化变换,有(0,1)iixnnt分布的演化分布的演化l由于总体标准差往往是
12、未知的,此时往往用样本标准差代替总体标准差,这里,为自由度,取值为n-1l由w.s. gosset提出xttsnt分布的图形分布的图形自由度分别为1、5、 时的 t 分布t分布的性质分布的性质lt分布为一簇单峰分布曲线,高峰在0的位置上,说明从正态总体中随机抽样所得样本计算出的t值接近0的可能性较大。lt分布以0为中心,左右对称。l分布的高峰位置比 u 分布低,尾部高。lt分布与自由度有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。l每一自由度下的t分布曲线都有其自身分布规律。t界值表 。t t界值
13、表界值表单侧: p(t =t,)= 双侧: p(t =t,)= 即:p(-t,t t,)= 1-例 查t界值表得t值表达式 t 0.05,10=2.228 (双侧) t 0.05,10=1.812 (单侧)-tt0统计推断统计推断l所谓统计推断(statistical inference),是指如何抽样,以及如何用样本性质推断总体特征。参数估计(parameter estimation)l点估计l区间估计假设检验(hypothesis testing)参数估计之一:点估计参数估计之一:点估计l用样本统计量作为总体参数的估计 例如: 用样本均数作为总体均数的一个估计点估计的缺陷点估计的缺陷区间估
14、计区间估计l可信区间的定义l总体均数之可信区间的求解l可信区间的要素l正确理解可信区间的含义区间估计区间估计【例4.1】 随机抽取某地25名正常成年男子,测得该样本的脉搏均数为73.6次/分,标准差为6.5次/分,估计正常成年男子脉搏总体均数。区间估计的实质区间估计的实质l假设某个总体的均数为,需要找到两个量a和b,使得在一个比较高的可信度下(如95%),区间(a,b)能包含。即p(ab)=0.95可信区间的定义可信区间的定义l按一定的概率或可信度(1-)用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区间或者置信区间(confidence interval,ci),预先给定的概率
15、(1-)称为可信度或者置信度(confidence level),常取95%或99%。 l可信区间(cl, cu )是一开区间 cl、cu 称为可信限均数的均数的(1-)100%可信区间可信区间/2,/2,/2,/2,/2,/2,() 1() 1() 1xxxptttxpttsp x tsxts -t/2, v 0 t/2, v 1- /2 /2/2,()p tt 均数的均数的95%可信区间可信区间l样本含量不是很大时,l样本含量较大时,t分布逼近u分布0.0250.025,xxxusxus0.025,0.025,xxxtsxts例:例:【例4.1】 随机抽取某地25名正常成年男子,测得该样本的脉搏均数为73.6次/分,标准差为6.5次/分,求该地正常成年男子脉搏总体均数95%的可信区间。【例4.2】 某市2001年120名7岁男童的身高=123.62(cm),标准差s=4.75(cm),计算该市7岁男童总体均数90%的可信区间。可信区间的两个要素可信区间的两个要素l可信度(confidence):准确性,可靠性,即1-。一般取90%,95,可人为控制l精确性(precision):区间的大小,越小越好。l必须二者兼顾95%可信区间的含义可信区间的含义-2 -1 0 1 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医学心理学与临床人文融合模式优化
- 企业名称转让协议书
- 拆迁房面积转让合同协议书
- 毕业季职业规划指南
- 护理专硕职业发展路径
- 八大主题教育体系-1
- 医学影像云与家庭医生服务结合
- 教学材料《程序设计》-第3章
- 定义、命题、定理课件 2025-2026学年人教版七年级数学下册
- 实际问题与一次函数第1课时课件 -2025-2026学年人教版数学八年级下册
- 2026年及未来5年中国通信机柜行业发展运行现状及投资战略规划报告
- 《2026年》档案管理岗位高频面试题包含详细解答
- 《学做“快乐鸟”》-2025-2026学年统编版(新教材)小学道德与法治二年级下册
- 生鲜客服培训
- 奶茶店垃圾制度规范
- GB 4053.2-2025固定式金属梯及平台安全要求第2部分:斜梯
- 2026年春冀人版(新教材)小学科学三年级下册(全册)教学设计(附教材目录P142)
- 苏科版(2024)七年级上册数学期末考试全真模拟测试卷1(含答案)
- 门诊护理中的PDCA循环:提升患者满意度
- 绿电交易课件教学
- 2025 年本科智能采矿技术(智能采矿系统)试题及答案
评论
0/150
提交评论