




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四节 抽样误差与假设检验,一、抽样误差的概念,(一)均数的抽样误差与标准误 在医学科研中常采用抽样研究的方法,由于存在个体差异,样本均数一般不恰好等于总体均数,这种由个体变异产生的、由抽样误差造成的样本均数与样本均数以及样本均数与总体均数之间的差异( )称为均数的抽样误差。抽样误差在抽样研究中是不可避免的。但有一定的规律可循,我们可以用特定的指标来描述抽样误差的大小。 用样本信息来推断相应总体的特征,这一过程称为统计推断。 统计推断包括两方面的内容:参数估计和假设检验,为了与反映观察值离散程度的标准差相区别,统计学上把样本均数的标准差称为样本均数的标准误,简称为标准误(standard er
2、ror),其值越大就说明均数的抽样误差就越大,样本均数的离散程度就越高,也就是与总体均数的差异程度越大。,抽样实验:假定从13岁女学生身高总体均 =155.4cm,总体标准差=5.3cm 的正态总体中进行随机抽样。,样本均数的分布特点: 1.各样本均数未必等于总体均数; 2.样本均数之间存在差异; 3.样本均数的分布很有规律,围绕着总体均数,中间多,两边少,左右基本对称,也服从正态分布。,数理统计证明: 从正态分布N(,2)中随机抽取例数为n的样本,其样本均数的分布仍服从正态分布;即使总体不呈正态分布,只要n很大, 的分布也近似正态分布N(, )。 均数标准误(理论值)的计算公式为:,样本均数
3、的标准差 是说明均数抽样误差大小的指标。 大,抽样误差也大,反之,抽样误差小。,而在实际工作中只有用S估计,故标准误的估计值计算公式为 例4-4-1 用例4-2-1某地101例3040岁骨科病人血清胆固醇值资料计算标准误,均数标准误的用途: 衡量样本均数的可靠性,其值越小则用其估计总体均数越可靠; 结合样本均数和正态分布曲线下的面积分布规律,可用于估计总体均数的置信区间(后述); 可用于均数的假设检验(后述)。,(二) t分布,样本均数的分布服从正态分布N (, ) ,按照标准正态分布变换方法,N (, ),也可变换成标准正态分布N(0,1), 由于往往未知常用s作为的估计值,则此时对变量 采
4、用的就不是z变换而是t变换,即服从=n-1的t分布,统计量是t的分布就是t分布。 t分布的特征: 以0为中心,左右对称呈单峰分布; t分布是一簇曲线,分布参数为自由度。 t分布的形状与样本例数n有关,高峰比正态分布略低,两侧尾部翘得比正态分布略高。越大,曲线越近正态分布,当=时,t分布即为z分布。 由于t分布是一簇曲线,为了便于应用,统计学家编制了表4-4-1 t界值表。,表4-4-1 t界值表,t界值表(续),与单侧概率相对应的t值用 t (,) 表示,与双侧概率相对应的t值用t(/2,)表示。,由于t分布是以0为中心的对称分布,表中只列出了正值,故查表时,不管t值正负只用绝对值表示。,正确
5、使用t界值表!,由表4-4-1 可知,同一自由度下,t值越大P值越小;在同一P值下,随自由度增加,t界值减少并逐渐趋于稳定的z值。,二、总体均数的估计,用样本指标(统计量)估计总体指标(参数)称为参数估计。总体均数的估计有两种方法, 一是点估计:直接用统计量 估计总体参数,此法并不常用; 例如 于2000年测得某地27例健康成年男性血红蛋白量的样本均数为125g/L,试估计其总体均数。 ,即认为2000年该地所有健康成年男性血红蛋白量的总体均数为125g/L 。 其二是区间估计(参数估计):较常用,即按一定的概率估计总体均数所在数值范围,常用双侧95%可信区间(置信区间),其通式为,当已知或未
6、知但n足够大(如n100)用公式: 例4-4-2 由例4-2-2中5名17岁女中学生肺活量资料得 =2.44 L,S=0.33L,试估计该地17岁女中学生肺活量的95%的可信区间。 本例n=5, =4,t0.05,4=2.776,=2.442.7760.33/ =2.032.85(L),该地17岁女中学生肺活量均数的95%可信区间为2.03L2.85L。,例4-4-3 由例4-2-1 101名3049岁健康男子血清总胆固醇 mmolL-1,S=0.88 mmolL-1,求该地健康男子血清总胆固醇值均数的95%可信区间。,=4.7351.960.88/ =4.5634.907(mmolL-1),
7、置信区间的两个要素 准确度:反映置信度的大小,即区间包含总体均数的概率大小。 精度:反映区间的长度。 在置信区间确定的情况下,增加样本例数,会减小 t, 和 ,可减少区间长度,提高精度。,意义: 95%的参考值范围是指同质总体内包括95%个体值的估计范围。若总体为正态分布,常按 计算。 95%的可信区间是指按95%的置信度估计的总体参数的所在范围。若为大样本,按 计算。 计算上: 置信区间用标准误,参考值范围用标准差。,均数置信区间与参考值范围的区别,思考!,标准差与标准误的区别 1)概念不同:标准差是描述样本中个体值间的变异程度的指标,标准差越小,表示变量值围绕均数的波动越小。标准误是描述样
8、本均数间变异程度的指标,标准误越小,表示样本均数围绕总体均数的波动越小。,2) 用途不同:标准差常用于表示变量值对均数波动的 大小,当资料呈正态分布时,与均数结合可估计正常值范 围,计算变异系数等;标准误常用于表示样本统计量(样 本均数,样本率)对总体参数(总体均数,总体率)的波 动情况,可估计参数的可信区间,进行假设检验。,思考!,联系;二者均为变异指标,如果把总体中各样本均数看成一个变量,则标准误可称为样本均数的标准差。当样本含量不变时,均数的标准误与标准差成正比。两者均可与均数结合运用,但描述的内容各不相同。,3)与例数的关系不同:当样本含量足够大时,标准差趋向稳定。而标准误随例数的增大
9、而减小,甚至趋向于0。若样本含量趋向于总例数,则标准误接近于0。,三、总体率的估计(置信区间),(一)率的抽样误差及标准误 与均数一样,率也存在抽样误差。率的标准差又称率的标准误为:,当总体率0.5时为正偏态,当0.5时为负偏态,当=0.5时为对称分布。,(二)总体率的区间估计 当样本例数n足够大,且样本率p和(1-p)都不太小时,即np和n(1-p)均大于5时,样本率p的抽样分布近似正态分布,可用正态近似法,按下式估计总体率的可信区间: ( , ),缩写为:,式中, 为标准正态离差。,例4-4-4 从某地人群中随机抽取144人,检查乙型肝炎表面抗原携带状况,阳性率为9.20,求该地人群的乙型
10、肝炎表面抗原阳性率的95可信区间。 本例n =144,p=9.20,可用近似正态法计算可信区间。 先按式计算 :,95可信限为:9.20%1.962.41%,即该地人群的乙型肝炎表面抗原阳性率的95可信区间为:4.48%13.92%。,正态近似法仅用于当样本例数n较大,且样本率p不接近0或1时。否则,近似程度不够,会出现估计的可信限小于0或大于1的不合理情况。,四、假设检验的基本原理和基本步骤,(一)假设检验的基本原理:假设检验亦称显著性检验,是统计推断的另一个非常重要的方面。 假设检验的原理: 假设检验的基本思想是反证法和小概率的思想。 反证法思想:首先提出假设(由于未经检验是否成立,所以称
11、为无效假设),用适当的统计方法确定假设成立的可能性大小,如果可能性小,则认为假设不成立,拒绝它;如果可能性大,还不能认为它不成立。 小概率思想:是指小概率事件在一次随机试验中认为 基本上不会发生。 概率小于多少算小概率是相对的,在进行统计分析时要事先规定,即检验水准。,例4-4-5 根据大量调查健康成年男子脉搏的均数为72次/分,某医生在山区随机调查了25名健康成年男子,其脉搏的均数为74.2次/分,标准差为6.5次/分,能否认为该山区成年男子的脉搏高于一般人群?,本例已知总体均数0=72次/分,而来自于总体为的样本均数 =74.2次/分,与0不等,其产生的可能原因有两种: 总体相同=0,差别
12、由抽样误差造成;统计学上称为差异无显著性。 总体不同0 ,差异是本质上的差异,即二者来自不同总体。统计学上称为差异有显著性。 要直接判断0是不可能的,但我们可以利用=0(即差别由抽样误差造成)的可能性大小即概率来判断,若概率小按小概率原理拒绝=0,从而判断0,否则接受=0。,(二)假设检验的基本步骤,1建立检验假设 假设有两种: 一是假设总体相同=0,称检验假设即无效假设,又称零假设,用H0表示。 二是假设总体不同0,称备择假设,用H1表示。 2确定检验水准:检验水准是预先确定的概率值,即小概率事件的标准,一般情况下取=0.05,同时要确定单侧还是双侧检验。,这两种假设都是根据统计推断的目的要求而提出的对总体特征的假设。应当注意检验假设是针对总体而言,而不是针对样本,3.选择正确的检验方法和计算统计量 根据资料类型和分析目的以及检验方法的适用条件来选择检验方法。如选用t检验计算t统计量,若用2检验则计算2统计量。 4确定P值和判断结果 根据计算出的检验统计量查相应的界值表即可得到概率P。所谓P值是指从H0所规定的总体随机抽得(或)现有统计量的概率。 按检验水准,得出统计结论,即有或无统计学意义。统计结论必须和专业有机结合,才能得出最终结论。,(三)假设检验应注意的问题,1.要有严密的抽样设计:应随机抽取样本,组间应具可比性,实
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025届永州市重点中学高二物理第二学期期末达标检测试题含解析
- 2025届湖南省道县第二中学高一物理第二学期期末综合测试模拟试题含解析
- 2025届河北省承德市重点高中联谊校物理高二第二学期期末综合测试试题含解析
- 2025届河北省衡水高一物理第二学期期末学业水平测试试题含解析
- 2025届上海高中高二物理第二学期期末统考试题含解析
- 2025届湖南省浏阳一中、株洲二中等湘东六校物理高二下期末复习检测试题含解析
- 农业生产技术合作与研发协议
- 绿色能源产业项目开发协议
- 企业品牌公关与危机处理服务协议
- 媒体推广及营销合作协议条款
- 中药湿敷技术
- 2023年上海市教师招聘考试《教育心理学》考前模拟题及答案
- DLT-969-2023年变电站运行导则
- ZAPI交流故障表 萨牌代码
- 《健康经济学》课件Chapter16
- 儿童用药剂量
- 2023年感动中国十大人物颁奖词-范文汇编
- 人教版高中化学必修1教师用书
- 四员一长抽考题库
- 鲁班奖大型游乐场施工组织设计
- 牛津译林版小学英语二年级下册同步练习试题(全册)
评论
0/150
提交评论