




已阅读5页,还剩65页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章总体均数的估计与假设检验,2020年6月10日星期三,2,抽样误差与标准误样本均数的抽样分布t分布总体均数的估计假设检验,本次讲授内容,2020年6月10日星期三,3,统计推断(Statisticalinference):用样本信息推论总体特征的过程。即采用样本统计量对相应总体参数所做的非确定性的推估。主要包括:参数估计假设检验,第一节抽样误差与标准误,2020年6月10日星期三,4,参数估计:运用统计学原理,用从样本计算出来的统计指标量,对总体统计指标量进行估计。假设检验:又称显著性检验,是指由样本间存在的差别对样本所代表的总体间是否存在着差别做出判断。方法:均数的参数估计、均数t检验,第一节抽样误差与标准误,2020年6月10日星期三,5,了解总体特征的最好方法是对总体的每一个体进行观察、试验,但这在医学研究实际中往往不可行。对无限总体不可能对所有个体逐一观察,对有限总体限于人力、财力、物力、时间或个体过多等原因,不可能也没必要对所有个体逐一研究。借助抽样研究。,第一节抽样误差与标准误,2020年6月10日星期三,6,例如从总体均数为4.136mol/L、标准差为0.817mol/L的正态分布总体N(4.136,0.8172)中,随机抽取5人为一个样本(n=5),并计算该样本的均数、标准差。如此重复抽取1000次(g=1000),可得到1000份样本,可得到1000对均数和标准差S。,正态总体=4.136=0.817,1.4.158,0.8182.4.090,0.8453.4.076,0.749999.4.187,0.7591000.4.079,0.839,S,抽样试验,一、均数的标准误,2020年6月10日星期三,7,将这1000份样本均数看成新变量值,按频数分布方法,绘制这1000份样本均数的直方图。(n5),频数,样本均数,均数:4.14030标准差:0.36305,2020年6月10日星期三,8,按上述方法再做样本含量n10的抽样实验;将这1000份的样本均数看成新变量值,制作这1000份样本均数的频数分布直方图。(n10),频数,样本均数,均数:4.14039标准差:0.25024,2020年6月10日星期三,9,按上述方法再做样本含量n20的抽样实验;将这1000份的样本均数看成新变量值,制作这1000份样本均数的频数分布直方图。(n20),频数,样本均数,均数:4.13859标准差:0.17849,2020年6月10日星期三,10,按上述方法再做样本含量n30的抽样实验;将这1000份的样本均数看成新变量值,制作这1000份样本均数的频数分布直方图。(n30),频数,样本均数,均数:4.14173标准差:0.14954,2020年6月10日星期三,11,1000份样本均数的抽样试验结果:,样本含量均数均数标准差最大值中位数最小值nmeansdmaxmedianmin54.140300.363055.048484.142942.93542104.140390.250244.904334.143623.25962204.138590.178494.768874.141683.63810304.141730.149544.583584.147493.72554,4.136,0.817,2020年6月10日星期三,12,中心极限定理:,若个体资料服从正态总体,则样本均数也服从正态分布个体资料服从偏态分布,当样本量n较大时,样本均数近似服从正态分布:,中心极限定理,2020年6月10日星期三,13,样本均数的总体均数仍为原变量的总体均数样本均数间变异较原变量值的变异小,即样本均数的标准差明显变小,2020年6月10日星期三,14,通过增加样本含量n来降低抽样误差。,某一个样本的标准差,该样本的个体例数,标准误(standarderror,SE)即样本均数的标准差,可用于衡量抽样误差的大小。,因通常未知,用S来估计。计算标准误采用下式:,2020年6月10日星期三,15,标准误的特点:当样本例数n一定时,标准误与标准差呈正比;当标准差一定时,标准误与样本含量n的平方根呈反比。意义*:反映样本均数间离散程度。反映抽样误差的大小。标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性越大。,2020年6月10日星期三,16,计算公式常未知,用S来估计。,估计值,2020年6月10日星期三,17,例3-1:在例2-1中,S13.027g/L,n=102,请计算标准误。,未知S代替,2020年6月10日星期三,4个抽样实验结果比较,2020年6月10日星期三,19,二、标准误与标准差的区别与联系,2020年6月10日星期三,20,标准误的应用衡量抽样误差大小估计总体均数可信区间用于假设检验,2020年6月10日星期三,21,第二节样本均数的抽样分布t分布,随机变量xN(,2),标准正态分布N(0,12),抽样,样本均数N(,2/n),标准正态分布N(0,12),未知S代替,u变换,Studentt分布自由度:n-1,t变换,2020年6月10日星期三,22,标准误,t值,总体为N的m个样本(样本大小为n)的t值,t分布,2020年6月10日星期三,t分布的概率密度函数,式中为伽玛函数;圆周率为自由度(degreeoffreedom),是t分布的唯一参数;t为随机变量。以t为横轴,f(t)为纵轴,可绘制t分布曲线。,2020年6月10日星期三,24,t分布的曲线:与有关,t分布,2020年6月10日星期三,25,t分布的图形与特征以0为中心,左右对称的单峰分布;t分布曲线是一簇曲线,其形态变化与自由度的大小有关。自由度越小,则t值越分散,t分布曲线的峰部越矮而尾部翘得越高;说明尾部面积(概率P)就越大;与u分布曲线相比,t分布低平;自由度逐渐增大时,t分布逐渐逼近u分布(标准正态分布);当趋于时,逼近,t分布即为u分布。,t分布,2020年6月10日星期三,26,附表2t界值表(P246),2020年6月10日星期三,27,t界值表(附表2P246)横坐标:自由度,纵坐标:概率,P,即曲线下阴影部分的面积;表中的数字:自由度为,P为(检验水准)时,相应的|t|界值,常记做。由于t分布是以0为中心的对称分布,表中只列出了正值,故查表时,不管t值正负只用绝对值。,t分布,2020年6月10日星期三,28,如左图所示,图中的阴影部分表示以外尾部面积占总面积的百分数,即概率。如查表单侧,表示从正态总体作样本例数n为11的随机抽样,其t值服从=n-1=11-1=10的t分布。,1.812,理论上:v=10,单=0.05,则有:一般表示:,t分布,2020年6月10日星期三,29,如图所示:相同自由度下,双侧P值为单侧P值得两倍。t界值表中,,2.228,-2.228,同理:,t分布,2020年6月10日星期三,30,t分布曲线下面积的规律:-t0.05/2,t0.05/2,,中间面积为95%-t0.01/2,t0.01/2,,中间面积为99%中间,2020年6月10日星期三,31,t分布,2020年6月10日星期三,32,参数估计:用样本均数估计总体均数。,参数的估计,点估计:由样本统计量直接估计总体参数,区间估计:获得一个可信区间(confidenceinterval,CI)由样本数据估计得到的、100(1)可能包含未知总体参数的一个范围值。,第三节总体均数的估计,2020年6月10日星期三,33,一、点(值)估计:用相应样本统计量直接作为总体参数的估计值。即用估计其方法虽简单,但未考虑抽样误差的大小,2020年6月10日星期三,34,概念:根据样本均数,按照预先给定的概率(1)称为置信度(confidencelevel)所确定的包含未知总体参数的一个数值范围,这个范围称为总体均数的可信区间(confidenceinterval,CI)。置信区间通常由两个数值即可信限(confidencelimit,CL)构成。其中较小的值称可信下限(lowerlimit,L),较大的值称可信上限(upperlimit,U),一般表示为LU。,二、区间估计,2020年6月10日星期三,35,可信区间(confidenceinterval,CI)是根据一定的可信度估计得到的区间。估计正确的概率(1)称为可信度或置信度(confidencelevel),常取95或99。*总体均数的95%可信区间的涵义是指:从理论上来说,做100次抽样,可算得100个可信区间,平均有95个可信区间包括总体均数,只有5个可信区间不包括总体均数。,2020年6月10日星期三,36,已知,按u分布未知,但n足够大,按u分布未知,且n较小,按t分布,(一)总体均数可信区的计算,2020年6月10日星期三,37,(1)u分布,已知时,按u分布原理,u0.05/2=1.96u0.05=1.645,代入公式,移项,总体均数双侧95%可信区间:,2020年6月10日星期三,38,u0.05/2=1.96u0.05=1.645,总体均数单侧1-可信区间:,(1)u分布,2020年6月10日星期三,39,未知,但n足够大时,按u分布原理双侧95%可信区间为:用样本标准差s代替总体标准差,(1)u分布,2020年6月10日星期三,40,(2)t分布,未知、样本例数较小时,按t分布原理,95%的t值在之间。,总体均数双侧95%可信区间:,2020年6月10日星期三,41,2020年6月10日星期三,42,小结,2020年6月10日星期三,43,95%的可信区间表示:如果从同一总体中重复抽取100个独立样本,将可能有95个可信区间包括总体均数,有5个可信区间不包括总体均数。对于一次估计的可信区间,可能有95%的正确率,但仍有5%的可信区间估计错误。,(三)可信区间的两个要素,2020年6月10日星期三,44,2.区间的宽度(精密度,precision),区间愈窄愈好。,置信区间估计的优劣:置信度大好,还是小好?,1.置信度1(准确度,accuracy),愈接近1愈好,如99%的置信度比95%的置信度要好;,在置信度确定的情况下,增加样本含量可减小区间宽度。,当样本含量为定值时,上述两者互相矛盾。,(三)可信区间的两个要素,2020年6月10日星期三,45,(四)总体均数可信区间与参考值范围的区别,2020年6月10日星期三,46,假设检验(HypothesisTesting)的基本原理,例:某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L?,第四节假设检验,2020年6月10日星期三,47,n=36,已知总体,未知总体,图1,2020年6月10日星期三,48,2020年6月10日星期三,49,假设检验(hypothesistesting),样本均数与总体均数不等或两样本均数不等,有两种可能:由抽样误差所致两者来自不同的总体,2020年6月10日星期三,50,样本均数不等由抽样误差所致,n=30,图1,2020年6月10日星期三,51,n=30,来自不同的总体,图3,2020年6月10日星期三,52,2020年6月10日星期三,53,利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0成立的条件下计算检验统计量,最后获得P值来判断。当P小于或等于预先规定的概率值,就是小概率事件。根据小概率事件的原理:小概率事件在一次抽样中发生的可能性很小,如果它发生了,则有理由怀疑原假设H0,认为其对立面H1成立,该结论可能犯大小为的错误。,假设检验的基本思想利用反证法的思想,2020年6月10日星期三,54,假设检验的基本步骤,1.建立假设,确定检验水准2.选定检验统计方法,计算检验统计量3.确定P值,作出推断结论,2020年6月10日星期三,55,1.建立假设,确定检验水准,2020年6月10日星期三,56,建立假设:检验假设是针对总体而言,而不是针对样本H0和H1是相互联系、对立的假设,二者缺一不可。H0为无效假设,通常是:某两个(或多个)总体参数相等,或某两个总体参数之差等于0,或无效,或某资料服从某一特定分布(如正态分布、Poisson分布)等;H1的内容直接反映了检验的单双侧。H1:0或0,单侧检验。有无差异及差异方向。H1:0,双侧检验。,1.建立假设,确定检验水准,2020年6月10日星期三,57,单、双侧检验的选择:(1)根据专业知识事先不知道会出现什么结果双侧事先知道只能出现某种结果单侧如:难产儿的出生体重与一般婴儿出生体重-单侧一般预实验有探索性质,对结果的考虑思路应宽些,多双侧(2)问题的提法如:可否据此认为该山区成年男子的脉搏数高于一般成年男子的脉搏均数?*通常用双侧(除非有充足的理由选用单侧之外,一般选用保守的双侧较稳妥),1.建立假设,确定检验水准,2020年6月10日星期三,58,检验水准的意义及确定检验水准(sizeofatest):亦称显著性水准(significancelevel),用表示,在实际工作中常取0.05。意义:假设检验时,根据研究的目的或要求预先规定的概率值,是判定小概率事件发生的标准(H0)或阈值;亦是允许结果出现错误的概率。取值并非一成不变,可根据研究目的给予不同设置。,1.建立假设,确定检验水准,2020年6月10日星期三,59,注意:H0,H1和的确定,以及单双侧检验的选择,都应结合研究设计,在未获得样本结果之前决定,而不要受样本结果的影响。假设检验是针对总体而不是针对样本。,1.建立假设,确定检验水准,2020年6月10日星期三,60,要根据研究设计的类型和统计推断的目的选用不同的检验方法,如:两样本均数的比较用t检验,两样本率的比较用卡方检验,2、选定检验方法,计算检验统计量,2020年6月10日星期三,61,检验统计量是用于选择是否拒绝H0的统计量,其统计分布在统计推断中是至关重要的,不同的检验方法要用不同的的公式计算现有样本的检验统计量值。所有检验统计量都是在H0成立的前提条件下计算出来的。,2、选定检验方法,计算检验统计量,2020年6月10日星期三,62,P值是指由H0所规定的总体作随机抽样,获得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。例如求得t=-2.138,v=35,=0.05,P是在=0=140g/L的前提条件下随机抽样,得到t-2.138和t2.138的概率,-2.138,2.138,P,P,3、确定P值,作出推断结论,2020年6月10日星期三,63,将计算得出的概率P,与事先规定的概率进行比较,看其是否为小概率事件而得出结论。例如求得t=-2.138,v=36,=0.05,查附表2其相应的t界值为2.030,根据t分布特征,可得出P0.05.,3、确定P值,作出推断结论,2020年6月10日星期三,64,如何下结论?P0.05,按=0.05检验水准,不拒绝H0,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年互联网金融平台资金存管合规性评估及安全保障措施研究
- 2025年互联网金融平台资金存管安全防护技术与解决方案研究报告
- 2025年互联网金融平台用户信任度提升策略与市场拓展研究报告
- 电焊车间安全试题及答案
- 工程测量二题目及答案
- 黄淮学院《高等数学一级下》2023-2024学年第二学期期末试卷
- 重庆交通职业学院《版式设计》2023-2024学年第二学期期末试卷
- 贵州医科大学《运动训练专业导论》2023-2024学年第二学期期末试卷
- 常州工业职业技术学院《生态学及实验》2023-2024学年第二学期期末试卷
- 无锡科技职业学院《汽车车身结构与设计》2023-2024学年第二学期期末试卷
- 音乐与艺术在全球中的多样性与融合
- 基于项目驱动的创新实践课程设计
- 2025电子产品供销合同
- 2025中考英语阅读考点专项突破训练:旅游(学生版+解析)
- 安全月考试试题及答案
- 专利培训试题及答案
- 国际工程投标管理制度
- 2025河南濮阳市南乐县纪委监委招聘编外看护队员笔试易考易错模拟试题(共500题)试卷后附参考答案
- java高级程序员面试题及答案
- T/BCEA 003-2022数字工程装配式混凝土结构智慧工地建设导则
- 纳米技术在靶向药物delivery中的创新应用-洞察阐释
评论
0/150
提交评论