版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2021/4/272一、抽样误差的概念一、抽样误差的概念(一)均数的抽样误差与标准误(一)均数的抽样误差与标准误 在医学科研中常采用抽样研究的方法,由于存在个体差异,在医学科研中常采用抽样研究的方法,由于存在个体差异,样本均数一般不恰好等于总体均数,这种由个体变异产生的、样本均数一般不恰好等于总体均数,这种由个体变异产生的、由抽样误差造成的样本均数与样本均数以及样本均数与总体均由抽样误差造成的样本均数与样本均数以及样本均数与总体均数之间的差异数之间的差异( )称为均数的抽样误差。抽样误差在抽称为均数的抽样误差。抽样误差在抽样研究中是不可避免的。但有一定的规律可循,我们可以用特样研究中是不可避免
2、的。但有一定的规律可循,我们可以用特定的指标来描述抽样误差的大小。定的指标来描述抽样误差的大小。 统计推断包括两方面的内容:参数估计和假设检验统计推断包括两方面的内容:参数估计和假设检验X2021/4/273 为了与反映观察值离散程度的标准差相区为了与反映观察值离散程度的标准差相区别,统计学上把样本均数的标准差称为别,统计学上把样本均数的标准差称为样本样本均数的标准误,简称为标准误均数的标准误,简称为标准误(standard error),其值越大就说明均数的抽样误差就,其值越大就说明均数的抽样误差就越大,样本均数的离散程度就越高,也就是越大,样本均数的离散程度就越高,也就是与总体均数的差异程
3、度越大。与总体均数的差异程度越大。2021/4/274抽样实验:假定从抽样实验:假定从1313岁女学生身高总体均岁女学生身高总体均 =155.4cm=155.4cm,总体,总体标准差标准差=5.3cm=5.3cm 的正态总体中进行随机抽样。的正态总体中进行随机抽样。)(4 .155cm)( 3 . 5cm 2021/4/275v样本均数的分布特点:样本均数的分布特点: 1.1.各样本均数未必等于总体均数;各样本均数未必等于总体均数; 2.2.样本均数之间存在差异;样本均数之间存在差异; 3.3.样本均数的分布很有规律,围绕着总体样本均数的分布很有规律,围绕着总体均数,中间多,两边少,左右基本对
4、称,也服均数,中间多,两边少,左右基本对称,也服从正态分布。从正态分布。2021/4/2762021/4/2772021/4/278数理统计证明:数理统计证明:从正态分布从正态分布N(,2)中随机抽取例数为中随机抽取例数为n的样的样本,其样本均数的分布仍服从正态分布;即使总本,其样本均数的分布仍服从正态分布;即使总体不呈正态分布,只要体不呈正态分布,只要n很大,很大, 的分布也近似的分布也近似正态分布正态分布N(, )。 均数标准误(理论值)的计算公式为:均数标准误(理论值)的计算公式为:2XXnXxx样本均数的标准差样本均数的标准差 是说明均数抽样误差大小的指标。是说明均数抽样误差大小的指标
5、。 大,大,抽样误差也大,反之,抽样误差小。抽样误差也大,反之,抽样误差小。 2021/4/279 而在实际工作中只有用而在实际工作中只有用S估计估计,故标准,故标准误的估计值计算公式为误的估计值计算公式为例例4-4-1 用例用例4-2-1某地某地101例例3040岁岁骨科病人血清胆固醇值资料计算标准误骨科病人血清胆固醇值资料计算标准误 nSSXLmmolsX/(0876. 010188. 02021/4/2710均数标准误的用途:均数标准误的用途:o衡量样本均数的可靠性,其值越小则用其衡量样本均数的可靠性,其值越小则用其估计总体均数越可靠;估计总体均数越可靠;o结合样本均数和正态分布曲线下的
6、面积分结合样本均数和正态分布曲线下的面积分布规律,可用于估计总体均数的置信区间布规律,可用于估计总体均数的置信区间(后述);(后述);o可用于均数的假设检验(后述)。可用于均数的假设检验(后述)。2021/4/2711(二)(二) t分布分布 样本均数的分布服从正态分布样本均数的分布服从正态分布N (, ) ,按,按照标准正态分布变换方法,照标准正态分布变换方法,N (, ),也可变换,也可变换成标准正态分布成标准正态分布N(0,1), 由于由于往往未知常用往往未知常用s作为作为的估计值,则此时对的估计值,则此时对变量变量 采用的就不是采用的就不是z变换而是变换而是t变换,即服从变换,即服从=
7、n-1的的t分布分布x2x2xXz/XsxtX2021/4/27122021/4/2713 统计量是统计量是t的分布就是的分布就是t分布。分布。ot分布的特征:分布的特征: 以以0为中心,左右对称呈单峰分布;为中心,左右对称呈单峰分布; t分布是一簇曲线,分布参数为自由度分布是一簇曲线,分布参数为自由度。 t分布的形状与样本例数分布的形状与样本例数n有关,高峰比正态分有关,高峰比正态分布略低,两侧尾部翘得比正态分布略高。布略低,两侧尾部翘得比正态分布略高。 越大,越大,曲线越近正态分布,当曲线越近正态分布,当=时,时,t分布即为分布即为z分布。分布。o由于由于t分布是一簇曲线,为了便于应用,统
8、计学家分布是一簇曲线,为了便于应用,统计学家编制了表编制了表4-4-1 t界值表。界值表。2021/4/2714表表4-4-1 t界值表界值表自自由由度度概率,概率,P 单侧单侧:0.250.200.100.050.0250.010.0050.00250.0010.0005 双侧双侧:0.500.400.200.100.050.020.010.0050.0020.00111.0001.3763.0786.31412.70631.82163.657127.321318.309636.61920.8161.0611.8862.9204.3036.9659.92514.08933.32731.599
9、30.7650.9781.6382.3533.1824.5415.8417.45310.21512.92440.7410.9411.5332.1322.7763.7474.6045.5987.1738.61050.7270.9201.4762.0152.5713.3654.0324.7735.8936.86960.7180.9061.4401.9432.4473.1433.7074.3175.2085.95970.7110.8961.4151.8952.3652.9983.4994.0294.7855.40880.7060.8891.3971.8602.3062.8963.3553.8334.
10、501504190.7030.8831.3831.8332.2622.8213.2503.6904.2974.781100.7000.8791.3721.8122.2282.7643.1693.5814.1444.587t值大则值大则P值小值小t值随自由度增大而渐小值随自由度增大而渐小2021/4/2715110.6970.8761.3631.7962.2012.7183.1063.4974.0254.437120.6950.8731.3561.7822.1792.6813.0553.4283.9304.318130.6940.8701.3501.7712.1602.6503.0123.372
11、3.8524.221140.6920.8681.3451.7612.1452.6242.9773.3263.7874.140150.6910.8661.3411.7532.1312.6022.9473.2863.7334.073160.6900.8651.3371.7462.1202.5832.9213.2523.6864.015170.6890.8631.3331.7402.1102.5672.8983.2223.6463.965180.6880.8621.3301.7342.1012.5522.8783.1973.6103.922190.6880.8611.3281.7292.0932.5
12、392.8613.1743.5793.883200.6870.8601.3251.7252.0862.5282.8453.1533.5523.850300.6830.8541.3101.6972.0422.4572.7503.0303.3853.646400.6810.8511.3031.6842.0212.4232.7042.9713.3073.551500.6790.8491.2991.6762.0092.4032.6782.9373.2613.49610006770.8451.2901.6601.9842.3642.6262.8713.1743.3900.67450.84161.2816
13、1.6451.962.332.582.80703.09023.2905t界值表(续)界值表(续)2021/4/2716 与单侧概率相对应的与单侧概率相对应的t值用值用 t (,) 表示,与双侧概率表示,与双侧概率相对应的相对应的t值用值用t(/2,)表示。表示。 由于由于t t分布是以分布是以0 0为中心的对称分布,表中只列出为中心的对称分布,表中只列出了正值,故查表时,不管了正值,故查表时,不管t t值正负只用绝对值表示。值正负只用绝对值表示。 由表由表4-4-1 4-4-1 可知,可知,同一自由度下,同一自由度下,t t值越大值越大P P值越小值越小;在同一在同一P P值下,随自由度增加,
14、值下,随自由度增加,t t界值减少并逐渐趋于稳界值减少并逐渐趋于稳定的定的z z值值。2021/4/2717二、总体均数的估计二、总体均数的估计 用样本指标(统计量)估计总体指标(参数)称为参数估计。总用样本指标(统计量)估计总体指标(参数)称为参数估计。总体均数的估计有两种方法,体均数的估计有两种方法, 一是一是点估计点估计:直接用统计量:直接用统计量 估计总体参数估计总体参数,此法并不常用;,此法并不常用;例如例如 于于2000年测得某地年测得某地27例健康成年男性血红蛋白量的样本均数为例健康成年男性血红蛋白量的样本均数为125g/L,试估计其总体均数。,试估计其总体均数。 ,即认为,即认
15、为2000年该地所有健康成年男性血红蛋白量的总体均数年该地所有健康成年男性血红蛋白量的总体均数为为125g/L 。 其二是其二是区间估计区间估计(参数估计):较常用,即按一定的概率估计总体均(参数估计):较常用,即按一定的概率估计总体均数所在数值范围,常用双侧数所在数值范围,常用双侧95%可信区间(置信区间),其通式为可信区间(置信区间),其通式为 Xxstx05.0X2021/4/2718 当当已知或未知但已知或未知但n足够大(如足够大(如n100)用公式:)用公式: 例例4-4-2 由例由例4-2-2中中5名名17岁女中学生肺活量资料岁女中学生肺活量资料得得 =2.44 L,S=0.33L
16、,试估计该地,试估计该地17岁女中学生肺岁女中学生肺活量的活量的95%的可信区间。的可信区间。 本例本例n=5, =4,t0.05,4=2.776)S或(1.96xxxxxstx05. 0=2.442.7760.33/ =2.032.85(L) 该地该地17岁女中学生肺活量均数的岁女中学生肺活量均数的95%可信区间为可信区间为2.03L2.85L。52021/4/2719例例4-4-3 由例由例4-2-1 101名名3049岁健康男子血清总岁健康男子血清总胆固醇胆固醇 mmolL-1,S=0.88 mmolL-1,求该,求该地健康男子血清总胆固醇值均数的地健康男子血清总胆固醇值均数的95%可信
17、区间。可信区间。735. 4Xxsx196=4.7351.960.88/ =4.5634.907(mmolL-1) 1012021/4/2720 置信区间的两个要素置信区间的两个要素 准确度:反映置信度的大小,即区间包含准确度:反映置信度的大小,即区间包含总体均数的概率大小。总体均数的概率大小。 精度:反映区间的长度。精度:反映区间的长度。1. 在置信区间确定的情况下,增加样本例在置信区间确定的情况下,增加样本例数,会减小数,会减小 t, 和和 ,可减少区间长度,可减少区间长度,提高精度。提高精度。XSXS S2021/4/2721: 95%的参考值范围是指同质总体内包括的参考值范围是指同质总
18、体内包括95%个体值的估计个体值的估计范围。范围。若总体为正态分布,常按 计算。 95%的可信区间是指按的可信区间是指按95%的置信度估计的总体参数的所的置信度估计的总体参数的所在范围。若为大样本,按在范围。若为大样本,按 计算。计算。: 置信区间用标准误,参考值范围用标准差。置信区间用标准误,参考值范围用标准差。均数置信区间与参考值范围的区别均数置信区间与参考值范围的区别SX96. 1XSX96. 1思考!思考!2021/4/2722 标准差与标准误的区别标准差与标准误的区别:标准差是描述样本中个体值间的变异程度的:标准差是描述样本中个体值间的变异程度的指标,标准差越小,表示变量值围绕均数的
19、波动越小。标准误指标,标准差越小,表示变量值围绕均数的波动越小。标准误是描述样本均数间变异程度的指标,标准误越小,表示样本均是描述样本均数间变异程度的指标,标准误越小,表示样本均数围绕总体均数的波动越小。数围绕总体均数的波动越小。:标准差常用于表示变量值对均数波动的:标准差常用于表示变量值对均数波动的大小,当资料呈正态分布时,与均数结合可估计正常值范大小,当资料呈正态分布时,与均数结合可估计正常值范围,计算变异系数等;标准误常用于表示样本统计量(样围,计算变异系数等;标准误常用于表示样本统计量(样本均数,样本率)对总体参数(总体均数,总体率)的波本均数,样本率)对总体参数(总体均数,总体率)的
20、波动情况,可估计参数的可信区间,进行假设检验。动情况,可估计参数的可信区间,进行假设检验。思考!思考!2021/4/2723 ;二者均为变异指标,如果把总体中各样本均;二者均为变异指标,如果把总体中各样本均数看成一个变量,则标准误可称为样本均数的标准差。数看成一个变量,则标准误可称为样本均数的标准差。当样本含量不变时,均数的标准误与标准差成正比。当样本含量不变时,均数的标准误与标准差成正比。两者均可与均数结合运用,但描述的内容各不相同。两者均可与均数结合运用,但描述的内容各不相同。:当样本含量足够大时,标准:当样本含量足够大时,标准差趋向稳定。而标准误随例数的增大而减小,甚至趋差趋向稳定。而标
21、准误随例数的增大而减小,甚至趋向于向于0。若样本含量趋向于总例数,则标准误接近于。若样本含量趋向于总例数,则标准误接近于0。2021/4/2724三、总体率的估计(置信区间)三、总体率的估计(置信区间)(一)率的抽样误差及标准误(一)率的抽样误差及标准误与均数一样,率也存在抽样误差。率的标准差与均数一样,率也存在抽样误差。率的标准差又称率的标准误为:又称率的标准误为:nppsp)1 ( 当总体率当总体率 0.50.5时为正偏态,当时为正偏态,当 0.50.5时为负偏时为负偏态,当态,当 =0.5=0.5时为对称分布。时为对称分布。 2021/4/2725(二)总体率(二)总体率 的区间估计的区
22、间估计 当样本例数当样本例数n足够大,且样本率足够大,且样本率p和(和(1-p)都不太小时,即都不太小时,即np和和n(1-p)均大于)均大于5时,样时,样本率本率p的抽样分布近似正态分布,可用正态近的抽样分布近似正态分布,可用正态近似法,按下式估计总体率似法,按下式估计总体率 的可信区间:的可信区间:( , ),缩写为:),缩写为:pszppszppszpz式中,式中, 为标准正态离差。为标准正态离差。2021/4/2726例例4-4-4 从某地人群中随机抽取从某地人群中随机抽取144人,检人,检查乙型肝炎表面抗原携带状况,阳性率为查乙型肝炎表面抗原携带状况,阳性率为9.20,求该地人群的乙
23、型肝炎表面抗原阳,求该地人群的乙型肝炎表面抗原阳性率的性率的95可信区间。可信区间。本例本例n =144,p=9.20,可用近似正态法,可用近似正态法计算可信区间。计算可信区间。先按式计算先按式计算 : ps%41. 20241. 0144/ )092. 01 (092. 0ps9595可信限为:可信限为:9.20%9.20%1.961.962.41%2.41%,即该地人群,即该地人群的乙型肝炎表面抗原阳性率的的乙型肝炎表面抗原阳性率的9595可信区间为:可信区间为:4.48%13.92%4.48%13.92%。2021/4/2727正态近似法仅用于当样本例数正态近似法仅用于当样本例数n较大,
24、且样本较大,且样本率率p不接近不接近0或或1时。否则,近似程度不够,会时。否则,近似程度不够,会出现估计的可信限小于出现估计的可信限小于0或大于或大于1的不合理情况。的不合理情况。2021/4/2728四、假设检验的基本原理和基本步骤四、假设检验的基本原理和基本步骤(一)假设检验的基本原理:假设检验亦称显著性检验,(一)假设检验的基本原理:假设检验亦称显著性检验,是统计推断的另一个非常重要的方面。是统计推断的另一个非常重要的方面。假设检验的原理:假设检验的原理: 假设检验的假设检验的基本思想基本思想是反证法和小概是反证法和小概率的思想。率的思想。反证法思想:反证法思想:首先提出假设(由于未经检
25、验是否成立,所首先提出假设(由于未经检验是否成立,所以称为无效假设),用适当的统计方法确定假设成立的可以称为无效假设),用适当的统计方法确定假设成立的可能性大小,如果可能性小,则认为假设不成立,拒绝它;能性大小,如果可能性小,则认为假设不成立,拒绝它;如果可能性大,还不能认为它不成立。如果可能性大,还不能认为它不成立。小概率思想:小概率思想:是指小概率事件在一次随机试验中认为是指小概率事件在一次随机试验中认为基本上不会发生。基本上不会发生。 概率小于多少算小概率是相对的,在进行统计分析时要概率小于多少算小概率是相对的,在进行统计分析时要事先规定,即检验水准事先规定,即检验水准 。 2021/4
26、/2729例例4-4-5 根据大量调查健康成年男子脉搏的根据大量调查健康成年男子脉搏的均数为均数为72次次/分,某医生在山区随机调查了分,某医生在山区随机调查了25名健康成年男子,其脉搏的均数为名健康成年男子,其脉搏的均数为74.2次次/分,标准差为分,标准差为6.5次次/分,能否认为该山区成分,能否认为该山区成年男子的脉搏高于一般人群?年男子的脉搏高于一般人群?2021/4/2730本例已知总体均数本例已知总体均数0=72次次/分,而来自于总分,而来自于总体为体为的样本均数的样本均数 =74.2次次/分,与分,与0不等,不等,其产生的可能原因有两种:其产生的可能原因有两种:总体相同总体相同=
27、0,差别由抽样误差造成;统计,差别由抽样误差造成;统计学上称为差异无显著性。学上称为差异无显著性。总体不同总体不同0 ,差异是本质上的差异,即,差异是本质上的差异,即二者来自不同总体。统计学上称为差异有显著二者来自不同总体。统计学上称为差异有显著性。性。 要直接判断要直接判断0是不可能的,但我们可以是不可能的,但我们可以利用利用=0(即差别由抽样误差造成)的可能性即差别由抽样误差造成)的可能性大小即概率来判断,若概率小按小概率原理拒大小即概率来判断,若概率小按小概率原理拒绝绝=0,从而判断,从而判断0,否则接受,否则接受=0。X0 0 X2021/4/2731(二)假设检验的基本步骤(二)假设检验的基本步骤1建立检验假设建立检验假设 假设有两种:假设有两种: 一是假设总体相同一是假设总体相同=0,称检验假设即无效假设,称检验假设即无效假设,又称零假设,又称零假设,用用H0表示表示。 二是假设总体不同二是假设总体不同0,称备择假设,称备择假设,用用H1表示表示。2确定检验水准:检验水准是预先确定的概率值,即确定检验水准:检验水准是预先确定的概率值,即小概率事件的标准,一般情况下取小概率事件的标准,一般情况下取=0.05,同时要,同时要确定单侧还是双侧检验。确定单侧还是双侧检验。这两种假设都是根据统计推这两种假设都是根据统计推断的目
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年安徽工业经济职业技术学院单招综合素质考试备考题库带答案解析
- 2026年贵州工业职业技术学院单招职业技能考试模拟试题带答案解析
- 2026年甘肃林业职业技术学院单招综合素质笔试备考试题带答案解析
- 2026年河北青年管理干部学院单招职业技能考试参考题库带答案解析
- 2026年湖北城市建设职业技术学院高职单招职业适应性测试模拟试题有答案解析
- 2026年黑龙江信息技术职业学院高职单招职业适应性测试备考题库有答案解析
- 2026年湖南安全技术职业学院高职单招职业适应性测试备考题库有答案解析
- 2025年贵州省体育彩票管理中心公开招聘笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2025年绥化学院下半年公开招聘工作人员1人(第二次)笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2026年双溪乡人民政府关于公开选拔重点公益林护林员备考题库参考答案详解
- 2025年部编版道德与法治六年级上册全册教案设计(共4个单元含有教学计划)
- 2025-2030中国电动警用摩托车和应急摩托车行业市场现状供需分析及投资评估规划分析研究报告
- 农机安全操作培训课件
- 企业所得税纳税申报表(2024年修订)填报要点及相关政策分析
- 课程设计说明书
- 2025年中国纳秒紫外激光器行业市场运行现状及投资规划建议报告
- 房屋租赁合同(附房屋交割清单)
- 奥特曼涂色画简笔画直接打印版A4
- 小学五年级上册英语(外研一起)期末模拟测试卷(一)
- 2022浪潮信创服务器CS5260H2技术白皮书
- 成品保护图册
评论
0/150
提交评论