卫生统计学.doc_第1页
卫生统计学.doc_第2页
卫生统计学.doc_第3页
卫生统计学.doc_第4页
卫生统计学.doc_第5页
已阅读5页,还剩113页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

公卫执业医师考试辅导 卫生统计学卫生统计学江枫老师 2015-1-12第一节统计学的几个基本概念一、统计学的几个基本概念(一)总体与样本总体(population):根据研究目的确定的同质的研究对象,其某项变量值的全体。某省2000年14岁男孩的身高抽样(sampling):从研究总体中随机抽取一部分有代表性的个体的方法。样本(sample):从研究总体中随机抽取的一部分有代表性的个体(其某项变量值的全体)。统计推断(inference):利用样本信息推断总体特征。(二)同质与变异1.同质 (homogeneity): 一个总体中有许多个体大同小异,存在共性,这些个体处于同一总体。某省2000年14岁男孩的身高2.变异(variation):在同质基础上个体间的差异。变异性是统计学的根本需要(三)抽样误差(sampling error)定义:由个体变异产生,由抽样引起的总体指标(参数)与样本指标(统计量)以及样本指标之间的差异特点:不可避免目的:减小抽样误差方法:减小个体间的差异;增大样本含量(四)参数与统计量1.参数(parameter):是由总体中个体值计算出来的用于描述总体特征的指标。其大小是客观存在的,然而往往是未知的。2.统计量(statistic):是由样本中个体值计算出来的用于描述样本特征的指标。 统计学关心的常常是总体参数的大小,其依据却是统计量及其性质。(五)概率(Probability)定义:描述随机事件发生可能性大小的数值(P)随机事件取值范围: 不可能事件必然事件估计方法:当n足够大时,用频率估计概率小概率事件:某随机事件发生可能性很小含义:在一次试验或观察中某随机事件发生可能性很小(六)资料类型变量:根据研究目的,对研究对象的某个或某些特征(研究指标或项目)实施观测,这些特征(指标或项目)称为变量(variable)资料(数据):变量的取值(变量值)二、医学统计工作的基本步骤【例题】下面的变量中,属于分类变量的是A.脉搏B.血型C.肺活量D.红细胞计数E.血压【答案】B【例题】小概率事件在统计学上的含义是A.指发生概率的随机事件B.指一次实验或观察中绝对不发生的事件C.指一次实验或观察中发生的可能性很小的事件,一般指D.指发生概率的随机事件E.以上都不正确【答案】C第二节定量资料的统计描述统计描述:利用统计表、图以及统计指标描述资料的数量特征及其分布规律一、频数与频数分布频数:某个测量值的个(例)数。频数分布表(frequency distribution table):又称频数表,一个统计表,有两个栏目(列)组成,其中一个栏目是观察单位的观察值或组段,另一个栏目是相应的频数。是对样本量较大的资料进行统计描述的常用方法。通过频数表可以显示数据分布的范围与形态。1.离散型定量变量的频数分布1998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7等共96个数值96名妇女产前检查次数分布的频数分布表1998年某地96名妇女产前检查次数分布检查次数频数频率(%)累计人数累计频率(%)(1)(2)(3)(4)(5)44.244.2177.31111.521111.52222.931313.53536.542627.16163.552324.08487.551212.596100.0合计96100.0直条图(bar chart)2.连续型定量变量的频数分布某市2005年进行的小学生体质评价研究中,120名9岁男孩的肺活量(L)资料如下,试分析其频数分布特征及类型。1.706 1.326 1.632 1.876 2.1611.684 1.533 1.175 1.867 1.6761.930 1.725 1.374 1.654 1.6631.438 1.645 1.214 1.184 1.7352005年某市120名9岁男孩肺活量(L)频数分布组段(1)频数(f)(2)频率(%)(3)累计频数(4)累计频率(%)(5)0.9801.1101.2401.3701.5001.6301.7601.8902.O202.1502.2802.41055714192915126444.174.175.8311.6715.8324.1712.5010.O05.O03.333.3351017315079941061121161204.178.3314.1725.8341.6765.8378.3388.3393.3396.67100.00合计120100.00频数分布图从频数分布图中 可以看出两个趋势: 集中趋势和离散趋势从频数分布图中可以看出,图形中间的直条最高,两边对称(或基本对称)地逐渐减少,统计学上称之为正态分布。二、集中趋势的描述描述数值变量资料的集中趋势指标平均数平均数:它是一类指标,统计中常用的平均数包括:算术平均数、几何平均数、中位数。平均数的选取:根据资料的分布类型(一)算术平均数算术平均数简称均数,总体均数,样本均数1.适用条件:对称分布,特别适用于正态或近似正态分布资料2.计算方法:(1)直接法观察单位较少公式:某市10名4岁女孩的身高(cm)分别为:112.9,108.0,99.8,102.5,116.3,105.6,100.7,103.2,104.9,98.9,试求其均数。(2)加权法频数表资料公式:(二)几何均数几何均数(geometric mean)用G表示 。1.适用条件:观察值呈倍数关系或对数正态分布,多用于描述抗体的平均滴度等。2.计算方法:(1)直接法观察单位较少公式:例题 某地5例微丝蚴血症患者治疗7年后用间接荧光抗体试验测得其抗体滴度分别为1:10,1:20,1:40,1:40,1:160,求抗体的平均滴度。解:平均指标选用几何均数(观察值呈倍数关系)首先取观察值的倒数5份血清抗体效价的平均滴度为1:34.8(2)加权法频数表资料公式: 例题:69例类风湿关节炎(RA)患者血清EBV-VCA-lgG抗体滴度的分布如下,求其平均抗体滴度。某医院预防保健科用流脑疫苗为75名儿童进行免疫接种,1个月后测定其抗体滴度如下表所示,试求其平均滴度。75名儿童的平均抗体滴度计算表抗体滴度滴度倒数XlgX频数fflgX1:41:81:161:321:641:1281:256481632641282560.60210.90311.20411.50511.80622.10722.408249212012542.40848.127925.286130.102021.674410.53609.6328合计75107.7676(三)中位数中位数(median)用M表示,是一组观察值按由小到大的顺序排列后,位于中间位置上的那个数值。1.适用条件:(1)变量值中出现个别特小或特大的数值(2)资料的分布呈明显的偏态(3)变量值分布一端或两端无确定数值,只有小于或大于某个数值()。(4)资料的分布不清 2.计算方法:(1)当样本含量为奇数时,1,8,2,4,12 1,2,4,8,12 (2)当样本含量为偶数时,1,8,2,4,12,31,2,3,4,8,12 (四)百分位数百分位数(percentile)用 (第x百分位数)表示,也是一种位置指标,观察值按由小到大的顺序排列后,一个百分位数将全部变量值分为两部分,其中有x%的变量值比它小,(100x)%变量值比它大。适用条件同中位数频数表法:第X百分位数所在组段的组下限:组距:第X百分位数所在组段对应的频数:为小于的各组段的累计频数例题测得某地200名正常人发汞值(g/g),试计算其平均水平及P75百分位数。某地200名正常人发汞值频数分布 组段(g/g)(1)频数f(2)频率(%)(3)累计频数(4)累计频率(%)(5)0.30.71.11.51.92.32.73.13.53.94.3205046302516642110.025.023.015.012.58.03.O2.01.00.5207011614617118719319719920010.035.058.073.085.593.596.598.599.5100.0合计200100.0三、离散趋势(一)极差(全距)1.定义:极差(R)=最大值最小值 极差越大变异程度越大。例:甲乙两组球员身高资料如下:甲组:184,186,188,190,192 乙组:180,184,188,192,196 甲乙两组的集中趋势相同(有相同的平均水平),但离散程度不同(乙组大于甲组)。也就是说,既考虑集中趋势,又要考虑离散趋势,这样才能全面对数值变量资料进行描述。2.应用范围:适用于任何分布类型的资料,描述偏态分布资料。3.优缺点优点:计算简单、概念清晰。缺点: 只考虑了最大值与最小值,容易受个别极端值的影响,且不能反应组内其它变量值的变异情况。 受样本含量影响,不稳定(一般样本含量越大越有机会观察到偏小或偏大的数据)。(二)四分位数间距1.定义:2.应用范围:适用于任何分布类型的资料,主要和中位数一起描述偏态分布资料。3.优缺点优点:要比极差稳定缺点:仍未考虑到全部观察值的变异程度(三)方差公式的由来样本方差在实际应用时,总体均数常常是未知的,往往也很大,或者总体内的个体有无限多个,因此,总体方差的公式就不太适合应用了。在抽样研究中往往是用样本的方差来估计总体方差,也就是用,用也即,但是经数理统计学证明这样代替后样本方差值会变小,因此统计学家进一步完善将其中是自由度(四)标准差由于方差的单位是原单位的平方,因此为了应用方便,对方差进行开方得到 ,该公式就是样本的标准差。标准差的简化公式方差和标准差主要应用于正态分布(五)变异系数1.应用条件:反映资料的相对变异程度。常用于比较度量衡单位不同或均数相差悬殊的两组(或多组)资料的变异度。2.公式 :例 比较单位不同的几组资料的离散程度某年某市城区120名5岁女孩身高均数为110.15cm,标准差为5.86cm,体重均数为17.71kg ,标准差为1.44kg,比较其离散程度。例 比较均数相差悬殊的几组资料的离散程度某年某市城区120名5岁女孩体重均数为17.71kg ,标准差为1.44kg,同年该地120名5个月女孩体重均数为7.37kg ,标准差为0.77kg,比较其离散程度。【例题】正态分布资料宜用()来描述其集中趋势。A.算术平均数B.标准差C.几何均数D.变异系数E.四分位数间距【答案】A【例题】变异系数越大说明A.标准差越大B.标准差越小C.均数越大D.均数越小E.以均数为准变异程度大【答案】E【例题】数列8,3,5,0,1,4,1的中位数是A.2B.0C.2.5D.0.5E.1【答案】E【例题】原始数据呈倍数关系的资料,宜用()描述其分布的集中趋势。A.算数均数B.几何均数C.极差D.中位数E.百分位数 【答案】B【例题】离散程度指标中,最容易受极端值影响的是A.极差B.标准差C.变异系数D.方差E.四分位数间距【答案】A【例题】以下关于偏态分布资料的说法,不正确的是A.正偏态分布的频数分布集中位置偏向数值大的一侧B.负偏态分布的频数分布集中位置偏向数值大的一侧C.不宜用均数描述其集中趋势 D.偏态分布资料频数分布左右不对称E.不宜用变异系数来描述其离散程度【答案】A四、正态分布正态分布是医学和生物学中最常见,也是最重要的一种连续性分布,如正常人的身高,体重,红细胞数,血红蛋白等。我们可以从频数表和频数图对正态分布进行研究。120名正常成年男子红细胞计数的频数表(1012/L)组段(1)频数(2)频率(%)(3)累计频数(4)累计频率(%)(5)3.2021.721.73.5054.275.93.80108.31714.24.101915.83630.04.402319.25949.24.702420.08369.25.002117.510486.75.30119.211595.95.6043.311999.25.906.2010.8120100.0合计120100.0频数分布以均数为中心,向两侧逐渐减少,并且基本对称所有长方形面积之和等于1或100%(一)正态分布的概念和特征1.概念如果随机变量的分布服从概率密度函数,则称服从正态分布,记作 ,为 的总体均数, 为总体标准差。2.正态分布的特征(1)在直角坐标的横轴上方呈钟形曲线,两端与 轴永不相交,且以 为对称轴,左右完全对称。(2)在 处, 取最大值,其值为 ,并且 越远离 , 值越小。(3) 正态分布有两个参数:一个为位置参数 ,一个为形态参数 。3、正态分布曲线下的面积分布规律 (二)标准正态分布正态分布是一个分布簇,对应不同的参数和会产生不同位置、不同形状的正态分布,为了应用方便我们将正态分布转化成标准正态分布。由于我们实际面对的大多是正态分布,因此可采用如下的方法求其曲线下面积:正态分布 标准正态分布查表求面积美元人民币商品 正态分布的应用例: 调查某单位101名正常成年女子的血清总胆固醇,得其均数,标准差。试估计该单位正常女子血清总胆固醇在4.00mmol/L以下者及5.00mmol/L以下者各占正常女子总人数的百分比。 五、参考值范围(一)基本概念1.定义医学参考值(medical reference value):是指包括绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标常数,也称正常值。2.一点说明由于个体间存在差异,医学参考值并非常数,而是在一定范围内波动,因此采用医学参考值范围(reference ranges)作为判定正常和异常的参考标准。(二)制定参考值范围的步骤1.从正常人总体中抽样2.控制测量误差3.判定是否需要分组确定参考值范围4.决定取单侧还是双侧5.选定合适的百分界限6.根据资料的分布类型选定适当的方法进行参考值范围的估计1.从正常人总体中抽样:注意以下几点: 正确理解正常人的含义正常人:不是一点小病都没有的人,而是排除了对研究指标有影响的疾病或因素的人。例如:研究某市成人血铅的参考值范围,是以留住该市一年以上、无明显肝肾疾病、无铅作业或接触史的成人作为被研究的正常人总体。 抽样应遵循随机化的原则保证总体中每一个个体都有相同的机会被抽中 抽取的样本含量应足够大原因:参考值范围是根据样本数据估计的。只有样本含量足够大时,样本分布才越接近总体分布,所得结果才能比较真实的反映总体的情况。样本含量的要求:一般n1002.控制测量误差统一测量的方法、仪器、试剂、精密度、操作熟练程度,以便将测量的误差控制在一定的范围内。3.判断是否需要分组测定参考值范围例:欲制定正常人肺活量的参考值范围,经研究发现该指标在男女间有明显的差别,且差别具有实际意义,因此肺活量的参考值范围应按照不同的性别分别制定。4.确定取单侧还是双侧依据:实际用途和专业知识例:指标异常情况单、双侧上、下限红细胞过高与过低双侧上限和下限尿铅过高单侧上限肺活量过低单侧下限5.选择合适的百分界限参考值范围是指绝大多数正常人的测定值应该所在的范围。“绝大多数”:习惯上指80%、90%、95%或99%。目的:(1)减少假阳性(确诊病人)减少把正常人诊断为病人的可能性。较大的百分界限(2)减少假阴性(病人初筛)减少把病人诊断为正常人的可能性。较小的百分界限实际中最好结合正常人和病人的数据分布特点,权衡假阳性和假阴性的比例,选择一个适当的百分界限。6.根据资料的分布类型选定适当的方法进行参考值范围的估计不同分布类型下的95%参考值范围估计方法分布类型估计方法公式双侧单侧上限单侧下限正态分布正态分布法偏态分布百分位数法正态分布法例:已知正常成年女子血清总胆固醇均数,试估计正常成年女子血清总胆固醇的95%参考值范围(双侧)。计算:下限:上限:所以正常成年女子血清总胆固醇的95%参考值范围为(2.78mmol/L5.34mmol/L)百分位数法例:测得某年某地282名正常人的尿汞值如下表,试制定正常人尿汞值的95%参考值范围。某年某地282名正常人尿汞值测量结果尿汞值频数f累计频数 累计频率(%)0454516.08.06410938.616.09620572.724.03824386.232.02026393.340.01127497.248.0527998.956.0228199.664.072.01282100.0由频数分布表可知尿汞值呈偏态分布,且尿汞值仅以过高为异常(单侧),所以采用百分位数法计算上侧界值即求第95百分位数P95。公式:所以该地正常人的尿汞值的95%医学参考值范围为【例题】下列关于正态分布描述错误的是A.是医学和生物学中常见的一种连续型分布 B.正态分布曲线的对称轴是x=这条直线C.正态分布曲线有两个参数,为形态参数,为位置参数D.正态分布曲线是一簇曲线E.正态分布曲线下的总面积为1【答案】C【例题】在正态曲线下,区间所包含的面积为A.1% B.1.5% C.97% D.2% E.95%【答案】D【例题】下列关于标准正态分布的说法中错误的是A.标准正态分布曲线下总面积为1B.标准正态分布是总体均数为0,总体标准差为1的正态分布C.标准正态分布的曲线是一簇曲线D.标准正态分布是对称分布E.不同的正态分布都可以通过变换转化为标准正态分布【答案】C第三节总体 均数的估计和假设检验总体均数的参数估计一、均数的抽样误差和标准误二、t 分布三、总体均数的估计假设检验四、假设检验的原理和步骤五、t 检验六、假设检验的两型错误一、均数的抽样误差和标准误例 若某市1999年18岁男生身高服从均数、标准差的正态分布。从该正态分布N(167.7,5.32)总体中随机抽样,共抽了100次,每次样本含量nj=10人,得到每个样本均数及标准差如下图1999年某市18岁男生身高N(167.7,5.32)的抽样示意抽样示意图显示:1.样本均数与总体均数之间不一定恰好相等。2.样本均数之间也不一定恰好相等。思考:样本均数与总体均数以及样本均数之间的差异是有什么原因造成的?个体变异均数的抽样误差:由个体变异引起,由抽样产生的样本均数与总体均数之间以及样本均数与样本均数之间的差异。由于个体变异是客观存在的,因此抽样误差(均数)是不可避免的,但是有一定的规律可循,可以用特定的指标描述抽样误差的大小N(167.7,5.32)总体中100个随机样本的均数与标准差样本号1167.412.742165.566.573168.205.36100165.695.09我们把样本均数(j=1、2、3、100)看作是一个新的变量,那么这100个变量值构成一个新的分布,绘制频数分布图如下: 样本均数的分布特征:围绕着总体均数(167.7cm),中间多,两边少,左右基本对称,也服从正态分布从上面的实例可以看出(以下两个结论可通过中心极限定理证明):从正态总体中随机抽取例数为n的样本,样本均数同样也服从正态分布;即使是从偏态总体中抽样,当n足够大时(比如n50),样本均数也近似服从正态分布。从均数为,标准差为的正态总体中抽取例数为n的样本,样本均数的总体均数也为,样本均数的标准差为其中为了与反映观察值离散程度的标准差相区别,统计学中把样本均数的标准差称为样本均数的标准误,简称为标准误(standard error)。均数标准误的含义:均数标准误就是均数的标准差,因此它反映的是样本均数间的离散程度,也反映样本均数与相应总体均数间的差异,因而它说明了均数抽样误差的大小,也就是说标准误越大,抽样误差也就越大,样本均数的离散程度高,与总体均数的差异程度越大标准误是描述均数的抽样误差大小的统计指标。抽样误差 标准误 可证明均数标准误的计算公式为理论值计算公式 估计值计算公式标准误与标准差成正比,与样本含量的平方根成反比。均数标准误的用途1. 可用来衡量样本均数的可靠性标准误抽样误差均数间的差异(样本和总体)样本均数估计总体均数 小 小 小 可靠2. 与样本均数结合,可用于估计总体均数的置信区间3. 可用于进行均数的假设检验二、t分布1.t分布的概念正态分布 标准正态分布实际工作中,由于未知,用代替,这样u不再服从标准正态分布,而服从t分布,即统计量t的分布称为t分布。t分布与自由度有关,不同的自由度对应着不同的t分布曲线。2.t分布的图形与特征t分布的图形: t分布是一簇曲线,自由度不同,曲线的形状不同,t分布的图形与自由度有关。当,t分布趋近于标准正态分布,但当自由度较小时,t分布与标准正态分布的差异较大。其图形如下图t分布特征:单峰分布,以0为中心,左右对称自由度越小,峰部越矮,而尾翘得越高当,t分布逼近u分布(标准正态分布),将标准正态分布看做t分布的特例。t界值表简介:横标目为自由度,纵标目为概率P,表中数字表示自由度为,P为(单侧或双侧概率)时,t的界值,单侧常记为,双侧常记为。由于t分布是以0为中心的对称分布,表中只列出正值,查表示不管t正负都用绝对值。自由度概率单尾0.250.10.050.0250.010.0050.00250.0010.0005双尾0.50.20.10.050.020.010.0050.0020.00111.0003.0786.31412.70631.82163.657127.321318.309636.61920.8161.8862.9204.3036.9659.92514.08922.32731.59930.7651.6382.3533.1824.5415.8417.45310.21512.92440.7411.5332.1322.7763.7474.6045.5987.1738.61050.7271.4762.0152.5713.3654.0324.7735.8936.86960.7181.4401.9432.4473.1433.7074.3175.2085.95970.7111.4151.8952.3652.9983.4994.0294.7855.40880.7061.3971.8602.3062.8963.3553.8334.5015.04190.7031.3831.8332.2622.8213.2503.6904.2974.781 自由度概率单尾0.250.10.050.0250.010.0050.00250.0010.0005双尾0.50.20.10.050.020.010.0050.0020.001100.7001.3721.8122.2282.7643.1693.5814.1444.587110.6971.3631.7962.2012.7183.1063.4974.0254.437120.6951.3561.7822.1792.6813.0553.4283.9304.318130.6941.3501.7712.1602.6503.0123.3723.8524.221140.6921.3451.7612.1452.6242.9773.3263.7874.140150.6911.3411.7532.1312.6022.9473.2863.7334.073160.6901.3371.7462.1202.5832.9213.2523.6864.015170.6891.3331.7402.1102.5672.8983.2223.6463.965 自由度概率单尾0.250.10.050.0250.010.0050.00250.0010.0005双尾0.50.20.10.050.020.010.0050.0020.001180.6881.3301.7342.1012.5522.8783.1973.6103.922190.6881.3281.7292.0932.5392.8613.1743.5793.883200.6871.3251.7252.0862.5282.8453.1533.5523.850210.6861.3231.7212.0802.5182.8313.1353.5273.819220.6861.3211.7172.0742.5082.8193.1193.5053.792230.6851.3191.7142.0692.5002.8073.1043.4853.768240.6851.3181.7112.0642.4922.7973.0913.4673.745250.6841.3161.7082.0602.4852.7873.0783.4503.725 自由度概率单尾0.250.10.050.0250.010.0050.00250.0010.0005双尾0.50.20.10.050.020.010.0050.0020.001260.6841.3151.7062.0562.4792.7793.0673.4353.707270.6841.3141.7032.0522.4732.7713.0573.4213.690280.6831.3131.7012.0482.4672.7633.0473.4083.674290.6831.3111.6992.0452.4622.7563.0383.3963.659300.6831.3101.6972.0422.4572.7503.0303.3853.646310.6821.3091.6962.0402.4532.7443.0223.3753.633320.6821.3091.6942.0372.4492.7383.0153.3653.622 自由度概率单尾0.250.10.050.0250.010.0050.00250.0010.0005双尾0.50.20.10.050.020.010.0050.0020.001330.6821.3081.6922.0352.4452.7333.0083.3563.611340.6821.3071.6912.0322.4412.7283.0023.3483.601350.6821.3061.6902.0302.4382.7242.9963.3403.591360.6811.3061.6882.0282.4342.7192.9903.3333.582370.6811.3051.6872.0262.4312.7152.9853.3263.574380.6811.3041.6862.0242.4292.7122.9803.3193.566390.6811.3041.6852.0232.4262.7082.9763.3133.558400.6811.3031.6842.0212.4232.7042.9713.3073.551500.6791.2991.6762.0092.4032.6782.9373.2613.496600.6791.2961.6712.0002.3902.6602.9153.2323.460自由度概率单尾0.250.10.050.0250.010.0050.00250.0010.0005双尾0.50.20.10.050.020.010.0050.0020.001700.6781.2941.6671.9942.3812.6482.8993.2113.435800.6781.2921.6641.9902.3742.6392.8873.1953.416900.6771.2911.6621.9872.3682.6322.8783.1833.4021000.6771.2901.6601.9842.3642.6262.8713.1743.3905000.6751.2831.6481.9652.3342.5862.8203.1073.31010000.6751.2821.6461.9622.3302.5812.8133.0983.3000.67451.28161.64491.962.32632.57582.8073.09023.2905阴影以外面积(概率)双侧,一般表达式为: 三、总体均数的置信区间估计参数估计:用样本指标(统计量)去估计总体指标(参数)参数估计有两种方法:点值估计和区间估计。点值估计(point estimation):直接用样本统计量去估计总体参数。总体均数的点值估计就是直接用样本均数去估计总体均数(就是把样本均数看作是总体均数)。缺点:没有考虑到抽样误差区间估计(interval estimation):结合样本统计量和标准误可以确定一个具有较大概率(可信度)的包含总体参数的区间,该区间称为总体参数的1可信区间。预先给定的概率称为可信度用1表示,常用的可信度为95% 或99%。如没有特别说明,一般取双侧95%。区间估计的计算方法(根据资料的条件选用不同的方法):(1)总体标准差未知,且样本含量较少时(n50)。一般按照t分布的原理用下式作区间估计总体均数的置信区间为例 随机抽查某地30名20岁青年男性,测得其心率均数为73次/分,标准差为7次/分,试估计该地20岁青年男性心率总体均数的95%置信区间。?本例, ,查表得估计该人群用此批号结核菌素,该地20岁青年男性心率总体均数的95%置信区间为(70.4,75.6)次/分。 未知,但样本例数n足够大,按正态分布原理。总体均数的95%可信区间分别为:未知式中 。如计算95%可信区间 ;如计算99%可信区间 实际工作中未知,所以 更为常用。例 随机抽取某地200名40岁以上正常成人,测定其空腹血糖值,求得=4.91mmol/L,S=0.72mmol/L,试估计该地40岁以上正常成人空腹血糖值的总体均数的95%置信区间。本例, ,由于n较大,且总体标准差未知,因此选用公式,其中 ,代入数据可得:可信区间的确切含义(95%)意味着从正态总体中随机抽取100个样本,可算得100个样本均数和标准差,也可算得100个均数的可信区间。在这100个可信区间中,有95个可信区间包含了总体均数,另外5个没有包含总体均数。但在实际工作中,我们只抽一次样,获得一个样本,也就算得一个可信区间,如由一个样本算得的某地成年男子红细胞均数的95%可信区间为 ,根据小概率事件不太可能在一次试验中发生的原理,我们就认为该区间包含了总体均数,但是该结论会冒5%犯错误风险。可信区间的两个要素准确度:反映在可信度上,可信度越大,准确度越高。精密度:精密度反映在可信区间的宽度上,宽度越小,精密度越高。在样本含量固定的情况下,增加可信度 ,变小,变大,可信区间变大不能同时增加准确度和精密度。但是在可信度固定的情况下,增加样本含量,可缩小可信区间,提高精密度。四、假设检验例据大量调查得知,健康成年男子脉搏的均数为72次/分,某医生在山区随机调查了25名健康成年男子,其脉搏均数为74.2次/分,标准差为6.5次/分,能否认为该山区成年男子的脉搏高于一般人群?题意分析见下图:之间的差异(不相等)应有两种可能:1.本来相等,只是因为去估计时存在抽样误差,所以导致了之间的差异。2.本来就不相等,所以导致了之间的差异。因为均数有抽样误差,所以当观察到样本均数不等时,不能下结论,那么到底的原因是上述两种可能中的哪一种造成的呢?统计上是通过假设检验来判断的。(一)假设检验的基本思想:先提出假设,然后在某假设成立的前提下看实际抽到的样本是否属于小概率事件,若属于小概率事件,则拒绝该假设,若不属于小概率事件,则不拒绝该假设。如何提出假设?可根据的两种可能性(互相对立的):第一个假设:设(只是由于抽样误差使得),我们把这个假设称为检验假设或无效假设,用H0(hypothese)表示。具体表示方法为第二个假设:设(不只是由于抽样误差使得,主要原因是两者本来就不同),我们把这个假设称为备择假设,用H1表示。具体表示方法为(二)假设检验的基本步骤:1.(选择检验方法)建立假设,确定检验水准。选择检验方法:根据资料的类型和分析目的选择适当的检验方法无效假设备择假设检验水准(单、双侧),常取0.05,小概率事件的标准单侧检验:根据专业知识已知山区的脉搏均数不会低于一般人群或是研究者只关心山区是否高于一般,不关心山区是否低于一般(这时备择假设应为)。双侧检验:不管是山区高于一般还低于一般,两种可能性都存在,研究者都同等关心。2.计算统计量由选定的检验方法根据样本数据计算相应的统计量。3.确定P值,做出统计推断(1)P值确定方法通过第2步计算的统计量获得(2)如何作出统计推断统计推断是通过比较P值与检验水准的大小来进行的。两种假设选择的规则:如果,意味着在H0成立的前提下发生了小概率事件,根据小概率事件在一次随机实验中不大可能发生原理,怀疑H0的真实性从

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论