医学统计学知识点_第1页
医学统计学知识点_第2页
医学统计学知识点_第3页
医学统计学知识点_第4页
医学统计学知识点_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章 绪论 1、统计学统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。 2、研究对象研究对象:具有不确定性结果的事物。 3、统计学作用统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。 4、统计分析要点统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。 5、医学统计学基本内容医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。 6、医学统计学中的基本概念 (1) 同质与变异 同质,指根据研究目的所确定的观察单位其性质应大致相同。 变异,指总体内的个体间存在的、绝对的差异。 统计学通过对变异的研究来探索事物。统计学通过对变异的研究来探索事物

2、。 (2) 变量与数据类型 变量变量,是反映实验或观察对象生理、生化、解剖等特征的指标。 变量的观测值,称为数据数据 分为三种类型:定量数据定量数据,也称计量资料计量资料,指对每个观察单位某个变量用测量或其他定量 方法准确获得的定量结果。(如身高、体重、血压、温度等) 定性定性数据数据,也称计数资料计数资料,指将观察单位按某种属性分组计数计数的定性观察结果。包括二分 类、无序多分类。(进一步分为二分类和多分类,如性别分为男和女,血型分为 a、b、o、ab 等) 有序数据有序数据,也称半定量数据或等级资料半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成 等级等级后分组计数的观察结

3、果,具有半定量性质。 统计方法的选用与数据类型有密切的关系。统计方法的选用与数据类型有密切的关系。 (3)总体与样本 总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量 值。 样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。 抽样,是从研究总体中随机抽取部分有代表性的观察单位。 参数,指描述总体特征的指标。 统计量,指描述样本特征的指标。 (4)误差 误差,指观测值与真实值、统计量与参数之间的差别。 可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误 差的大小通常恒定,具有明确的方向性具有明确的方向性。 随机

4、测量误差,是偶然机遇所致,误差没有固定的大小和方向误差没有固定的大小和方向。 抽样误差,是抽样引起的统计量与参数间的差异。 抽样误差主要来源于个体的变异。抽样误差主要来源于个体的变异。 统计学主要研究抽样误差。统计学主要研究抽样误差。 (5)概率 概率,是描述某事件发生可能性大小的量度。 必然事件,事件肯定发生,概率 p(u)1; 随机事件,事件可能发生,可能不发生,概率介于 0p(a) 1; 不可能事件,事件肯定不发生,概率 p()0; 小概率事件,事件发生的可能性很小,概率 p(a) 0.05、或 p(a) 0.01。 医学科研中,医学科研中, p(a) 0.05 作为事物差别有统计意义,

5、作为事物差别有统计意义, p(a) 0.01 作为事物差别有高度统计作为事物差别有高度统计 意义。意义。 第二章第二章 定量数据的统计描述定量数据的统计描述 定量数据的统计描述方法:定量数据的统计描述方法:频数表、直方图、统计指标。 (1)频数分布)频数分布 频数分布的目的:频数分布的目的:了解数据的分布范围、集中位置以及分布形态等特征,以便根据资料分 布情况选择合适的统计方法。 频数分布的用途:频数分布的用途: 作为陈述资料的形式; 便于观察数据的分布类型; 便于发现数据中特大或特小的可疑值; 当样本量大时,可用各组段的频率作为概率的估计值。 计算全距(计算全距(range,r):):是一组

6、数据的最大值与最小值之差。rmax-min 确定组数与组距 样本量在样本量在 100 例左右,组数选择例左右,组数选择 815 之间,一般取之间,一般取 10 组左右。组左右。 组距全距/组数 确定组限确定组限 第一组段必须包括最小值,最后一组段必须包括最大值。 最后一组段包括最大值,且一般情况下应包含该组段上限,其余各组段区间左闭右开。 计算各组段频数(计算各组段频数(frequency):):即计算各组段内观察值的个数。 计算各组段频率(计算各组段频率(percent):):即计算各组段频数与总观察值个数之比,用百分数表示。 计算累计频数(计算累计频数(cumulative frequen

7、cy)和累计频率()和累计频率( cumulative percent):累计频数):累计频数是 由上至下将频数累加;累计频率累计频率是由上至下将频率累加。 (2)直方图)直方图 直方图,直方图,是以垂直条段代表频数分布的一种图形。 (3)频数分布表的用途)频数分布表的用途 1、作为称述资料的形式,可以代替原始资料,便于进一步分析。 2、便于观察数据的分布类型。资料分布类型分为:对称分布和偏态分布。 在统计分析时常需要根据资料的分布形式选择相应的统计分析方法,因此对数据分布形式 的判定非常重要。 3、便于发现资料中某些远离群体的特大或特小值。 4、当样本含量比较大时,可用各组段的频率作为概率的

8、估计值。 集中趋势的统计指标集中趋势的统计指标 平均数,平均数,是描述一组观察值集中位置或平均水平的统计指标,常作为一组数据的代表值用 于分析和进行组间的比较。 常用的有算术均数、几何均数、中位数、百分位数等。常用的有算术均数、几何均数、中位数、百分位数等。 算术均数,算术均数,等于一个变量所有观察值的和除以观察值个数。 总体均数用希腊字母 表示,样本均数用符号 拔 表示。 算术均数适用于适用于对称分布的资料,如分布均匀的小样本数据或近似正态分布的大样本数据。 算术均数易受极端值的影响,并且受极大值的影响大于受极小值的影响。 几何均数几何均数 几何均数(几何均数(geometric mean,

9、g),),等于一个变量所有 n 个观察值的乘积的 n 次方根。 几何均数适用于取对数后近似呈对称分布的资料,尤其是右偏态分布数据。医学研究中常 用于比例数据。 【注注】计算几何均数的观察值不能小于或等于计算几何均数的观察值不能小于或等于 0,因为无法求对数。,因为无法求对数。 中位数中位数 中位数(中位数(median,m),),是在按大小顺序排列的变量的所有观察值中,位于正中间的一个 或两个数值。 当数据呈偏态分布、或频数分布两端无确定数值,均宜采用中位数描述集中趋势。 中位数的确定取决于它在数据序列中的位置,因此对极端值不敏感。 百分位数百分位数 百分位数(百分位数(percentile)

10、,),是一个位置指标,它将一组变量值排列后划分为若干相等部分的 分割点数值。用 px 表示,x 用百分数表示。 表示在按照升序排列的数据中,其左侧( px )的观察值个数在整个样本中所占百分比为 x %,其右侧( px )的观察值个数在整个样本中所占百分比为(100x )%。 百分位数不论资料分布类型均可计算,在实际工作中常用于确定医学参考值范围;在假设 检验中用作拒绝或不拒绝检验假设的界值。 百分位数并非由全部观察值综合计算得来,因此,它不如均数和标准差精确;然而中间部 分的百分位数因不受资料中个别极端数据的影响,具有较好的稳定性。 小小 结结 指指 标标意意 义义适用场合适用场合 均均 数

11、数个体的平均值个体的平均值对称分布,特别是正态分布资料。对称分布,特别是正态分布资料。 几何均数几何均数平均倍数平均倍数取对数后对称分布。取对数后对称分布。 中位数中位数位次居中的观察值位次居中的观察值非对称分布;非对称分布;半定量资料;半定量资料; 末端无确切数值;末端无确切数值;分布不明。分布不明。 变异程度的统计指标变异程度的统计指标 变异指标,又称离散指标,变异指标,又称离散指标,用以描述一组计量资料各观察值之间参差不齐的程度。 变异指标越大,观察值之间差异愈大,说明变异程度越大;反之亦然。 常用的有极差、四分位数间距、方差、标准差和变异系数。常用的有极差、四分位数间距、方差、标准差和

12、变异系数。 极极 差差 极差(极差(range,r),等于一个变量所有观察值中最大值与最小值之间的差值。 r max min 缺点:缺点: 没有利用观察值的全部信息,不能反映其它数据的离散度; 各样本含量大小悬殊时,不宜比较其极差; 极差的抽样误差也较大,所以不够稳定。 极差仅适用于对未知分布的小样本资料作粗略的分析。 四分位数间距四分位数间距 四分位数,四分位数,是统计学对特殊的三个百分位数 p25% 、 p50% 和 p75%的统称 四分位数间距(quartile range,q), 等于第三四分位数与第一四分位数之间的差值。 q p75% p25% 缺点:缺点: 没有利用观察值的全部信息

13、,不能反映其它数据的离散度; 四分位数间距仅用来描述大样本偏态资料的变异情况。 方方 差差 方差(方差(variance), 是描述一个变量的所有观察值与总体均数的平均离散程度的指标。 总体方差用 2 表示,样本方差用 s2 表示。 标准差标准差 标准差(标准差(standard deviation,s ),), 是描述一个变量的所有观察值与均数的平均离散程 度的指标。 总体标准差用 表示,样本标准差用 s 表示。 标准差标准差 方差或标准差属同类变异指标,它们多用来描述均匀分布或近似正态分布的资料,大、小 样本均可,其中以标准差的应用最广,通常与均数结合使用。比如在许多医学研究报告中 常用

14、x 拔s 的形式表达资料。 变异系数变异系数 变异系数(变异系数(coefficient of variation,cv ),), 是一个度量相对离散程度的指标。 cv 是无量纲的指标,可以用来比较几个量纲不同的指标变量之间的离散程度的差异,或 比较量纲相同但均数相差悬殊的变量之间的离散程度的差异。 小小 结结 指指 标标意意 义义适用场合适用场合 极极 差差观察值的取值范围观察值的取值范围不拘分布形式,概略分析。不拘分布形式,概略分析。 四分位数四分位数 间距间距 居中半数观察值的极差居中半数观察值的极差非对称分布;非对称分布;半定量资料;半定量资料; 末端无确切数值;末端无确切数值;分布不

15、明。分布不明。 标准差标准差 (方差)(方差) 观察值距离均数的平均程度观察值距离均数的平均程度对称分布,特别是正态分布资料。对称分布,特别是正态分布资料。 变异系数变异系数变异程度大小的对比变异程度大小的对比不同量纲的变量间比较;不同量纲的变量间比较; 量纲相同但数量级相差悬殊的变量纲相同但数量级相差悬殊的变 量间比较。量间比较。 第三章第三章 正态分布与医学参考值范围正态分布与医学参考值范围 正态分布,正态分布,是一种连续型随机变量常见而重要的分布。 正态曲线正态曲线,是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交 的钟型曲线。 如果随机变量 x 的分布服从概率密度函

16、数和概率分布函数称连续型随机变量 x 服从正态分 布,记为 xn (, 2 )。 为圆周率, e 为自然对数的底值, 为总体标准差, 为总体均数。 正态分布的特征正态分布的特征 1、正态分布是单峰分布,以 x = 为中心,左右完全对称,正态曲线以 x 轴为渐近线,两 端与 x 轴不相交。 2、正态曲线在 x = 处有最大值,其值为 f()=1/(2) ;x 越远离 ,f(x)值越小,在 x= 处有拐点,呈现钟形。 3、正态分布完全由参数 和 决定。 是位置参数,决定正态曲线在 x 轴上的位置。在 一定时, 增大,曲线沿横轴 向右移动; 较小,曲线沿横轴向左移动。 是形状参数,决定正态曲线的分布

17、形态。 越大,曲线的形状越“矮胖”,表示数据分布越 分散; 越小,曲线的形状越“瘦高”,表示数据分布越集中。 正态曲线下面积分布规律正态曲线下面积分布规律 1、服从正态分布的随机变量在某一区间上的曲线下面积与其在同一区间上取值的概率相等。 2、曲线下的总面积为 1 或 100%,以 为中心左右两侧面积各占 50%,越靠近 处曲线下 面积越大,两边逐渐减少。 3、所有的正态曲线,在 左右的任意个标准差范围内面积相同。 一些特殊情况,在 范围内的面积约为 68.27%,在 1.96 范围内的面积约为 95.00%,在 2.58 范围内的面积约为 99.00%。 标准正态分布标准正态分布 对任意一个

18、服从 n (, 2 )分布的随机变量 x,经 z=x-/ 变换都可以转为 =0、=1 的标准正态分布,也称随机变量的标准化变换。 标准正态分布的应用标准正态分布的应用 实际应用中,经 z 变换可把求解任意一个正态分布曲线下面积的问题,转化成标准正态分 布曲线下相应面积的问题。 正态分布的应用正态分布的应用 1、制定医学参考值范围 2、质量控制 3、正态分布是很多统计方法的理论基础 医学参考值范围医学参考值范围 医学参考值范围医学参考值范围,指正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据 的波动范围。 医学参考值范围,习惯上是包含 95%的参照总体的范围。 制订的注意事项制订的注

19、意事项 a、抽取足够例数的同质“正常人”样本 “正常人”的定义,样本量(n120),随机化。 b、确定具有实际意义的统一测量标准 指标的测量方法等要有规定,控制测量误差。 c、根据指标的性质确定是否要分组 根据实际情况、专业知识。 d、根据指标含义决定单、双侧范围 单侧下限,过低异常;单侧上限,过高异常;双侧,过高、过低均异常。 e、选择适当的百分范围 绝大多数人,一般 80%、90%、95%、99%; 减少误诊,取较大范围;减少漏诊,取较小范围。 f、估计参考值范围 根据资料分布类型:正态分布法、百分位数法。 第四章第四章 定性数据的统计描述定性数据的统计描述 相对数相对数,是两个有关的绝对

20、数之比,也可以是两个统计指标之比。 计算相对数的意义计算相对数的意义主要是把基数化作相等,便于相互比较。 相对数主要用于主要用于定性资料的统计描述。 常用的指标有频率、构成比、相对比。 频频 率率 频率频率(rate),表示在一定范围内某现象的发生数与可能发生的总数之比,说明某现象出现 的频率或概率。 总体率总体率用 来表示,样本率样本率用 p 来表示。 需要注意的是,率在更多情况下是一个具有时间概念的指标,即用于说明在一段时间内某 现象发生的强度或频率。 构成比构成比 构成比,构成比,表示某事物内部各组成部分在整体中所占的比重。 构成比之和应为 100,某一构成部分的增减会影响其他构成部分相

21、应的减少或增加;而 某一部分率的变化并不影响其他部分率的变化,且其平均率不能简单地将各率相加后平均 求得。 相对比相对比 相对比相对比,是 a、b 两个有关联指标之比,用以描述两者的对比水平。 相对危险度(相对危险度(relative risk,rr),),用于流行病学中队列研究资料。 比数比(比数比(odds ratio,or),用于流行病学中病例对照研究资料。 小小 结结 指指 标标计算公式计算公式适用场合适用场合 频率频率n/n估计总体中某一结局发生的概率或可能性估计总体中某一结局发生的概率或可能性 构成比构成比n1/n,n2/n,nk/n估计总体中所有可能结局所占的比例或比重估计总体中

22、所有可能结局所占的比例或比重 相对比相对比a/b估计两个指标的相对大小估计两个指标的相对大小 构成比表示某事物内部各部分所占的比例或比重,频率是表明某现象发生的频率或概率。构成比表示某事物内部各部分所占的比例或比重,频率是表明某现象发生的频率或概率。 构成比的分子中的个体一定是分母中的一部分,而相对比则不一定;构成比是同一类事物构成比的分子中的个体一定是分母中的一部分,而相对比则不一定;构成比是同一类事物 的数值之比,相对比可以是任意两个数值之比。的数值之比,相对比可以是任意两个数值之比。 相对数的使用注意相对数的使用注意 a、区别构成比和频率、区别构成比和频率 频率,强度相对数;构成比,结构

23、相对数。 b、使用相对数时分母不宜过小、使用相对数时分母不宜过小 如分母太小,用绝对数表示,如“3 例中死亡例”。 c、注意相对数的可比性、注意相对数的可比性 研究对象要同质,方法要相同,观察时期要一致等。 d、考虑存在抽样误差、考虑存在抽样误差 对总体进行推断应作统计学检验。 率的标准化率的标准化 标准化率,标准化率,是为了在比较两个不同人群的患病率、发病率、死亡率等资料时,消除内部构 成(如年龄、性别、工龄、病程长短等)不同而不能直接比较所产生的影响。 标准化率仅用于相互比较,不代表实际水平;当标准构成不同时,标准化率一般也不相同。标准化率仅用于相互比较,不代表实际水平;当标准构成不同时,

24、标准化率一般也不相同。 标准构成的选取标准构成的选取 从外部取一个公认的标准构成比,如全国范围或全省范围的数据、国际间比较时取世界 通用标准。 将几个组的观察例数合并,计算出合并的构成比,以其作为标准构成比。 取某一个组的构成比为标准构成比。 医学中常用相对数指标医学中常用相对数指标 死亡率,又称粗死亡率,死亡率,又称粗死亡率,表示某年某地每千人中的死亡人数。反映当地居民总体死亡水平。 对不同地区的死亡率进行比较时,应注意不同地区人口年龄或性别构成的影响。若年龄或 性别构成存在差异,需先将死亡率标化后再进行比较。 年龄别死亡率,年龄别死亡率,表示某年某地某年龄组每千人口中的死亡数。 死因别死亡

25、率,死因别死亡率,表示某年某地每 10 万人中因某种疾病死亡的人数。反映各类病伤死亡对居 民生命的危害程度。 死亡死亡(因因)构成,也称相对死亡比,构成,也称相对死亡比,表示全部死亡人数中,死于某死因者占总死亡数的百分 比。反映各种死因的相对重要性。 疾病统计指标疾病统计指标 发病率,发病率,表示在一定期间内,一定人群中某病新发生的病例出现的频率。反映疾病对人群 健康影响和描述疾病分布状态的一项测量指标。 患病率,也称现患率,患病率,也称现患率,表示某一时点某人群中患某病的频率。反映病程较长的慢性病的发 生或流行情况。 病死率,病死率,表示某期间内,某病患者中因某病死亡的频率。反映该疾病的严重

26、程度和医疗水 平。 治愈率,治愈率,表示接受治疗的病人中治愈的频率。 第五章第五章 统计表与统计图统计表与统计图 统计表,统计表,把反映某事物的数量特征以及相互关系的统计数字用表格的形式归纳起来。 特点:特点: 避免冗长的文字叙述、减少篇幅; 便于表达事物间的内在联系和区别; 便于分析、比较并易于发现和纠正错误。 编制原则编制原则 a、重点突出,简单明了、重点突出,简单明了 一张表表达一个中心内容或主题。 b、主谓分明,层次清楚、主谓分明,层次清楚 定语在标题内,主语作为横标目,谓语作为纵标目。 c、数据表达规范、文字和线条从简、数据表达规范、文字和线条从简 结结 构构 a、标题、标题 位于统

27、计表的最上部,应包括表的编号。 b、标目、标目 纵标目标示相应一列(或数列)的内容;横标目标示相应行的内容。 c、线条、线条 不宜太多,一般为三线表; 不允许使用竖线与斜线。 d、数字、数字 一律使用阿拉伯数字; 同一指标的小数位数应一致,位次要对齐; 数值为零时应写“0”,缺省用“”表示,不存在或不需要用“”表示。 e、备注、备注 不是统计表的必须项目,需要时才用; 位于统计表的最下部,表格之外,用“*”号标出。 统计图统计图 统计图,统计图,是指用几何图形(点、线段、直条等)显示统计指标的大小、对比关系或变化趋 势。 特点:特点:与统计表相比,统计图更加直观,更便于比较和分析。但它不能确切

28、地显示数字大 小,因此常与统计表一并使用。 常用的统计图有:条图、圆图、百分条图常用的统计图有:条图、圆图、百分条图 、线图、直方图等。、线图、直方图等。 制作原则制作原则 a、根据资料性质、分析目的选用适当的统计图 b、一个图表达一个中心内容或主题。 c、图形应准确、美观。 结结 构构 a、标题、标题 位于统计图的下方,应包括图的编号。 b、图域、图域 一般用直角坐标系第一象限的位置表示图域。 c、标目、标目 纵标目和横标目,表示纵轴和横轴数字刻度; 一般有度量衡单位。 d、图例、图例 对图中不同颜色或图案代表的指标进行注释; 图例放在横标目与标题之间,或放在图域中。 e、刻度、刻度 刻度数

29、值从小到大,纵轴由下向上,横轴由左向右。 描述定量数据的统计图描述定量数据的统计图 直方图,直方图,用于表示连续变量频数分布情况。 线图线图,适用于描述一个变量随另一个变量变化的趋势。 半对数线图,半对数线图,用来比较事物之间相对的变化速度。 箱图,箱图,适用于比较多组资料的集中趋势和离散趋势。一般选用五个描述统计量 (min、p25、m、p75、max)来绘制。 误差条图,误差条图,适用于比较多组资料的均值和可信区间。 散点图,散点图,用点的密集程度和变化趋势来表示两指标之间的直线或曲线关系。 条图条图,适用于各组资料之间指标的比较。 圆图,圆图,描述一组构成比资料。 百分条图,百分条图,描

30、述多组构成比资料 小小 结结 图形图形主要目的主要目的说说 明明 条图条图比较各组之间的统计指标比较各组之间的统计指标 的差别的差别 一个坐标轴为组名称,另一个坐标轴为频率;一个坐标轴为组名称,另一个坐标轴为频率; 多个指标变量可放在一个图中多个指标变量可放在一个图中 圆图圆图描述变量的构成比描述变量的构成比没有坐标轴;用图例区分各部分没有坐标轴;用图例区分各部分 百分条图百分条图 比较多个指标变量的构成比较多个指标变量的构成 比比 一个坐标轴为各变量名称,另一个坐标轴刻度一个坐标轴为各变量名称,另一个坐标轴刻度 为为 0100%;用图例区分各部分;用图例区分各部分 线图线图描述一个变量随另一

31、个变描述一个变量随另一个变 量变化的趋势量变化的趋势 两个变量的观察值必须一一对应;横轴为自变两个变量的观察值必须一一对应;横轴为自变 量,纵轴为因变量量,纵轴为因变量 半对数线半对数线 图图 同上同上因变量的变异较大时使用;其他同上因变量的变异较大时使用;其他同上 箱图箱图比较一个变量在多个组上比较一个变量在多个组上 的分布的分布 一个坐标轴为组名称,另一个坐标轴为该变量一个坐标轴为组名称,另一个坐标轴为该变量 的取值的取值 散点图散点图描述两个指标变量之间的描述两个指标变量之间的 直线相关关系直线相关关系 两个变量的观察值可以不一一对应;横轴为自两个变量的观察值可以不一一对应;横轴为自 变

32、量,纵轴为因变量变量,纵轴为因变量 第六章第六章 参数估计参数估计 抽样误差抽样误差:由个体差异和抽样造成的样本统计量与总体参数的差异。 包括:样本统计量与总体参数间的差异,样本统计量间的差异。 具有如下特点:1、各样本均数未必等于总体均数; 2、 各样本均数间存在差异; 3、样本均数的分布围绕着总体均数呈现中间多、两边少、左右基本对称,近似服从正态分 布; 4、样本均数的变异范围较之原变量的变异范围小; 5、随着样本含量的增大,样本均数的变异范围逐渐缩小。 均数的标准误均数的标准误 标准误标准误(standard error ,se),指样本统计量的标准差。 均数的标准误均数的标准误(sta

33、ndard error of mean,sem),指样本均数的标准误。它反映样本均 数间的离散程度,反映样本均数与相应总体均数间的差异,说明了均数抽样误差的大小。 在 n 一定的情况下,标准误与标准差呈正比,说明当总体中各观测值变异较小时,抽到的 x 拔 与 可能相差较小,x 拔 用估计 的可靠程度高;反之,当总体中各观测值变异较 大时,可靠程度较低。 标准误与样本含量的平方根呈反比,说明在同一总体中随机抽样,n 越大,标准误越小。 率的抽样误差率的抽样误差 率的标准误率的标准误(standard error of rate,ser),指样本率的标准误。它反映样本率间的离 散程度,反映样本率与

34、相应总体率间的差异,说明了率抽样误差的大小。 总体率标准误用 p 表示,样本率标准误用 sp 表示。 总体均数的估计总体均数的估计 概 述 点估计点估计(point estimation),是用样本统计量直接作为其总体参数的估计值。 区间估计区间估计(interval estimation),是按预先给定的概率(1-)所确定的包含未知总体参数的一 个范围。 点估计点估计:优点:表达简单 缺点:未考虑抽样误差,无法评价参数估计的准确程度 可信区间可信区间 在区间估计中,预先给定的概率 (1-) ,称为可信度可信度( confidence level ),常取 95% 或 99% 。 通过可信度,

35、计算得到的区间范围,称为可信区间可信区间( confidence interval ,ci )。 可信区间由两个数值界定的可信限( confidence limit ,cl )构成,较小的数值为下限( lower limit ,l ) ,较大的数值为上限( upper limit ,u ),一般表示为lu 。 可信度为可信度为95%可信区间的涵义:可信区间的涵义:若重复100次样本含量相同的抽样,每个样本均按同一方法 构建95%可信区间,则理论上平均有95个可信区间包含了总体均数,只有5个可信区间未包 含。 可信区间估计的优劣:可信区间估计的优劣:准确性,反映可信度1-的大小,其值越接近1越好

36、。 精确性,用可信区间的宽度cucl衡量,宽度越小越好。 t 分布分布 t 分布分布:主要用于总体均数的区间估计和 t 检验等。 为自由度为自由度(degree of freedom,df ),指能够自由取值的变量个数。 t 分布的特点:1、t 分布图是一簇曲线,曲线的形态变化与自由度有关。 2、随的增大,曲线越来越接近标准正态分布曲线; 3、当时,t 分布的极限分布就是标准正态分布。 4、t分布的密度曲线下面积有一定的规律性。 在 t 界值表中,横标目为自由度,纵标目为尾部概率。一侧尾部面积称为单侧概率( one-tailed probability ),两侧尾部面积之和称为双侧概率( tw

37、o-tailed probability )。 从t界值表中看出:在相同自由度时,t值越大,概率p越小。 小小 结结 两总体均数差值的区间估计两总体均数差值的区间估计 估估计绝计绝大多数大多数观观察察对对象某象某 项项指指标标的分布范的分布范围围 估估计总计总体均数体均数用途用途 n 越大,参考越大,参考值值范范围围越越稳稳 定定 n 越大,越大,ci 越小;越小; n, ,ci0 样样本本 量量 的作的作 用用 正正态态分布:分布: z/2s (双双侧侧) ) 偏偏态态分布:分布:px p100-x (双双侧侧) ) 未知:未知: 已知或已知或未知但未知但n60: : 计计算算 公式公式 “

38、正常人正常人”的解剖,生理,的解剖,生理, 生化等某生化等某项项指指标标的波的波动动范范 围围。 。 个体个体值值的波的波动动范范围围 按按预预先先给给定的概率确定的定的概率确定的 未知参数未知参数的可能范的可能范围围。 。 总总体均数的波体均数的波动动范范围围 含含义义 参考参考值值范范围围总总体均数的可信区体均数的可信区间间区区别别 点点 在实际工作中,常常需要估计两总体均数之差12的大小,需估计两总体均数差值的可 信区间。 总体率的区间估计总体率的区间估计 小样本率的区间估计: 在样本例数较小,且样本率接近1或0时,利用二项分布可估计其总体率的(1-)可信区间。 当n50,样本例数n和阳

39、性例数xn/2时,直接查表得到95%和99%可信区间。 当阳性例数xn/2时,用nx查表,获得总体阴性率可信区间,再用1减去总体阴性率可 信区间,既为总体阳性率可信区间。 大样本率的区间估计 在样本例数较大,且 p 和 1p 均不太小,如 np 与 n(1p)均大于 5 时,样本率 p 的抽样分 布近似正态分布,可按正态分布近似法求总体率的(1-)可信区间。 两总体率差值的区间估计两总体率差值的区间估计 设两样本率分别为p1和p2,当n1与n2均较大,且p1 ,1 p1及p2 ,1 p2均不太小,如 n1 p1 、 n1(1 p1) 、 n2 p2 、 n2(1 p2)均大于5时, 可采用正态

40、近似法对两总体率 差值进行可信区间估计。 第七章第七章 假设检验假设检验 假设检验假设检验(hypothesis testing )也称显著性检验(significance test ),是用来判断样本与 样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。 假设检验的基本思想假设检验的基本思想 反证法思想反证法思想:先提出假设,再用适当的统计方法确定假设成立的可能性大小,如可能性小, 则认为假设不成立。 小概率事件小概率事件:是指在一次试验中基本上不大会发生的事件。 假设检验的基本步骤假设检验的基本步骤 a、建立假设 无效假设(null hypothesis),记为 h0,

41、指需要检验的假设,即 1=2。 b、确定检验水准 检验水准( level of a test )也称为显著性水准( significance level ),是预先规定的判断 小概率事件的概率尺度,记为 。实际中一般取 =0.05 或 =0.01 。 c、选择检验方法,计算统计量 根据资料类型、研究设计方案和统计推断的目的,选择适当的检验方法和计算公式。 如:t 检验、u 检验、f 检验、2检验。 c、确定 p 值,作出统计推断结论 p 值值(probability value),指由 h0 所规定的总体做重复随机抽样,获得等于及大于当前 检验统计量的概率。 确定p 值的方法: 依据检验统计量

42、的自由度、检验水准,查检验统计量对应的界值表,通过检验界值,得到 与检验统计量相对应的p 值范围。如:u0.05/2=1.96对应的p 值为0.05。 d、确定 p 值,作出统计推断结论 假设检验规定:如果一次试验结果 p,拒绝h0 ,结论为“差别有统计学意义”。 p,不拒绝h0 ,结论为“差别没有统计学意义”。 p 值的习惯表述: p 0.05称“不显著”(not significant); p 0.05称“显著”( significant); p 0.01称“非常显著”(highly significant)。 假设检验中两类错误假设检验中两类错误 假设检验是利用小概率反证法思想,从问题的

43、对立面(h0)出发间接判断要解决的问题(h1) 是否成立,然后在假定h0成立的条件下计算检验统计量,最后根据p值判断结果,此推断 结论具有概率性,因而无论拒绝还是不拒绝h0,都可能犯错误。 检验效能检验效能( power of test ),指当两总体确有差别,按 水准,假设检验能发现其差别 的能力。记为 1- 。 愈小,愈大; 愈大,愈小。若要同时减小型错误和型错误,唯一方法是增加样 本量。 第七章 单样本 t 检验(one sample t-test),适用于样本均 x 拔与已知均数 0 的比较,目的是检 验样本均数 0 所代表的未知总体均数 是否与已知总体均数 0 有差别。 已知总体均数

44、 0 一般指理论值、标准值或经过大量观察所得到的稳定值。 配对样本均数 t 检验(paired t-test),适用于配对设计的计量资料两相关样本均数的比较, 目的是检验两相关样本均数所代表的未知总体均数是否有差别。 配对设计(paired design),是将受试对象按某些重要特征相近的原则配成对子,每对中的 两个个体随机地给予两种处理。 配对设计处理分配方式:配对设计处理分配方式: 将同一受试对象处理前后的结果进行比较;将同一受试对象处理前后的结果进行比较; 同一受试对象随机分配接受不同处理;同一受试对象随机分配接受不同处理; 同一标本的两个部位测试同一指标;同一标本的两个部位测试同一指标

45、; 两个同质受试对象分别接受两种处理。两个同质受试对象分别接受两种处理。 两独立样本均数两独立样本均数 t 检验(检验(two independent samples t-test),适用于完全随机设计两独立样),适用于完全随机设计两独立样 本均数的比较,目的是检验两独立样本均数所代表的未知总体均数是否有差别。本均数的比较,目的是检验两独立样本均数所代表的未知总体均数是否有差别。 完全随机设计(完全随机设计(completely random design):从某研究总体随机抽取一定数量的研究对象,):从某研究总体随机抽取一定数量的研究对象, 将其随机分配到两组,接受不同的处理后,测量某指标后

46、进行组间比较。将其随机分配到两组,接受不同的处理后,测量某指标后进行组间比较。 两独立样本均数两独立样本均数 t 检验要求两样本所代表的总体方差相等检验要求两样本所代表的总体方差相等 ,即方差齐性,即方差齐性 注意事项:注意事项: a、假设检验结论正确的前提、假设检验结论正确的前提 作假设检验用的样本资料,必须能代表相应的总体,各对比组具有良好的组间均衡作假设检验用的样本资料,必须能代表相应的总体,各对比组具有良好的组间均衡 性。性。 b、检验方法的选用及其适用条件、检验方法的选用及其适用条件 根据分析目的、研究设计、资料类型、样本量大小等选用适当的检验方法。根据分析目的、研究设计、资料类型、

47、样本量大小等选用适当的检验方法。 c、双侧检验与单侧检验的选择、双侧检验与单侧检验的选择 根据研究目的和专业知识予以选择,一般选用双侧检验。根据研究目的和专业知识予以选择,一般选用双侧检验。 d、假设检验的结论不能绝对化、假设检验的结论不能绝对化 列出概率的确切数值或给出范围,注明采用单侧检验还是双侧检验。列出概率的确切数值或给出范围,注明采用单侧检验还是双侧检验。 e、正确理解、正确理解 p 值的统计意义值的统计意义 第八章第八章 方差分析方差分析 方差分析,能用于两个或两个以上样本均数的比较,还可分析两个或多个研究因素的交互方差分析,能用于两个或两个以上样本均数的比较,还可分析两个或多个研

48、究因素的交互 作用以及线性回归方程的假设检验等。作用以及线性回归方程的假设检验等。 基本思想是:分析变异,也就是分解变异,即将数据总的变异分解为处理因素引起的变异基本思想是:分析变异,也就是分解变异,即将数据总的变异分解为处理因素引起的变异 和随机误差引起的变异,通过对两者进行比较作出处理因素有无作用的统计推断。和随机误差引起的变异,通过对两者进行比较作出处理因素有无作用的统计推断。 应用条件应用条件 各组样本是相互独立的随机样本各组样本是相互独立的随机样本 各组样本都来自正态总体。各组样本都来自正态总体。 各组总体方差相等,即方差齐性。各组总体方差相等,即方差齐性。 完全随机设计的方差分析完

49、全随机设计的方差分析 完全随机设计,是按一个处理因素随机分组,统计分析处理因素各个水平组间均数差别有完全随机设计,是按一个处理因素随机分组,统计分析处理因素各个水平组间均数差别有 无统计学意义。无统计学意义。 a、 变异的分解变异的分解 b、 自由度分解自由度分解 c、 估计方差(均方)估计方差(均方) d、 f 统计量的计算统计量的计算 e、 f 分布及确定分布及确定 p 值值 随机区组设计的方差分析随机区组设计的方差分析 随机区组设计(随机区组设计(randomized block design),是先按对试验结果有影响的非研究因素将受),是先按对试验结果有影响的非研究因素将受 试对象配成

50、若干个区组,再分别将各区组内的受试对象随机分配到处理水平不同的各个组。试对象配成若干个区组,再分别将各区组内的受试对象随机分配到处理水平不同的各个组。 多个样本均数的两两比较多个样本均数的两两比较 经方差分析,若各组的均数差别无统计学意义,则不需要作进一步的统计处理,但是当方经方差分析,若各组的均数差别无统计学意义,则不需要作进一步的统计处理,但是当方 差分析结果为差分析结果为 p 时,只说明各组总体均数不相同或不全相同,不能说明各组总体均数时,只说明各组总体均数不相同或不全相同,不能说明各组总体均数 间有差别。间有差别。 如果要分析哪两组间均数有差别,需进行多组均数间的多重比较。如果要分析哪

51、两组间均数有差别,需进行多组均数间的多重比较。 多个样本均数两两比较方法选择策略多个样本均数两两比较方法选择策略 第九章第九章 卡方检验卡方检验 方差齐性检验的作用方差齐性检验的作用:bartlett 检验法主要适用于正态分布资料的方差齐性检验问题。 卡方卡方检验检验常用于常用于推断两个总体率(或构成比)之间有无差别。 2 值反映了实际频数与理论频数的吻合程度。值反映了实际频数与理论频数的吻合程度。 若假设成立,实际频数与理论频数的差值较小,若假设成立,实际频数与理论频数的差值较小, 2 值也较小;值也较小; 若假设不成立,实际频数与理论频数的差值较大,若假设不成立,实际频数与理论频数的差值较

52、大, 2 值也较大。值也较大。 配对四格表资料的卡方检验配对四格表资料的卡方检验 计数资料的配对设计常用于两种检验方法、培养方法、诊断方法的比较。计数资料的配对设计常用于两种检验方法、培养方法、诊断方法的比较。 特点是对样本中各观察单位分别用两种方法处理,然后观察两种处理方法的某两分类变量特点是对样本中各观察单位分别用两种方法处理,然后观察两种处理方法的某两分类变量 的计数结果的计数结果 rc 列联表资料的卡方检验列联表资料的卡方检验 用于多个样本率的比较、两个或多个构成比的比较。用于多个样本率的比较、两个或多个构成比的比较。 基本数据为:基本数据为: 多个样本率比较时,有多个样本率比较时,有

53、 r 行行 2 列;列; 两个样本构成比比较时,有两个样本构成比比较时,有 2 行行 c 列;列; 多个样本构成比比较时,有多个样本构成比比较时,有 r 行行 c 列。列。 采用采用 bonferroni 法进行多个样本率的两两比较,步骤如下:法进行多个样本率的两两比较,步骤如下:对需要比较的行对需要比较的行列表资料列表资料 进行进行 2 分割,变成多个四格表;分割,变成多个四格表;对每个四格表进行对每个四格表进行 2 检验;检验;采用(采用(=/比较次数比较次数 )计算调整的水准,其中)计算调整的水准,其中 为事先确定的水准;为事先确定的水准;以以 调整作为检验检验水准,作出结论。调整作为检

54、验检验水准,作出结论。 rc 列表表列表表 2 检验注意事项:检验注意事项: 若有若有 1/5 以上的格子出现以上的格子出现 1t5,则,则 增大样本含量,以达到增大理论频数的目的;增大样本含量,以达到增大理论频数的目的; 结合专业,删去理论频数太小的格子对应的行或列;结合专业,删去理论频数太小的格子对应的行或列; 结合专业,将理论频数太小的行或列与性质相近的行或列合并;结合专业,将理论频数太小的行或列与性质相近的行或列合并; 用双向无序用双向无序rc表资料的表资料的fisher确切概率法。确切概率法。 b、多个样本率比较,若统计推断为拒绝、多个样本率比较,若统计推断为拒绝 h0 ,接受,接受

55、 h1 ,只能认为各总体率或构成比之,只能认为各总体率或构成比之 间总的来说有差别。若要进一步了解哪两者之间有差别,可用卡方分割法,或者调整检验间总的来说有差别。若要进一步了解哪两者之间有差别,可用卡方分割法,或者调整检验 水准。水准。 c、对于单向有序的、对于单向有序的 rc 表资料,在比较各处理组的效应有无差别时,应该用秩和检验。表资料,在比较各处理组的效应有无差别时,应该用秩和检验。 第十章第十章 非参数秩和检验非参数秩和检验 参数检验,是基于随机样本来自某已知分布的总体,推断两个或两个以上总体参数是否相参数检验,是基于随机样本来自某已知分布的总体,推断两个或两个以上总体参数是否相 同的

56、方法。常用的方法有:同的方法。常用的方法有:t 检验、方差分析。检验、方差分析。 特点主要有:特点主要有: 对总体参数进行估计或检验是主要目的;对总体参数进行估计或检验是主要目的; 要求总体分布已知;要求总体分布已知; 统计量有明确的理论依据;统计量有明确的理论依据; 有严格的使用条件,要求总体分布符合正态分布、总体方差齐性、数据间相互独立。有严格的使用条件,要求总体分布符合正态分布、总体方差齐性、数据间相互独立。 非参数检验(非参数检验(nonparametric test),是在不考虑总体参数和分布类型的情况下,对总体的),是在不考虑总体参数和分布类型的情况下,对总体的 参数和分布位置进行

57、检验的方法。常用的方法有:秩和检验、符号检验。参数和分布位置进行检验的方法。常用的方法有:秩和检验、符号检验。 特点主要有:特点主要有: 适用范围广,可应用于总体分布类型未知的计量资料、偏态分布的资料、等级资料、不适用范围广,可应用于总体分布类型未知的计量资料、偏态分布的资料、等级资料、不 满足参数检验条件的资料等;满足参数检验条件的资料等; 受限条件少,更适合一般情况;受限条件少,更适合一般情况; 具有较好的稳健性;具有较好的稳健性; 方法简便,易于理解和掌握。方法简便,易于理解和掌握。 秩和检验(秩和检验(rank sum test),是基于秩次的假设检验方法,属非参数检验范畴。),是基于

58、秩次的假设检验方法,属非参数检验范畴。 秩次(秩次(rank),是将数值变量值从小到大,或等级变量值从弱到强所排列的序号。),是将数值变量值从小到大,或等级变量值从弱到强所排列的序号。 秩和(秩和(sum of ranks),是用秩次号代替原始数据后,所得某些秩次号之和。),是用秩次号代替原始数据后,所得某些秩次号之和。 配对设计资料的符号秩和检验配对设计资料的符号秩和检验 基本思想:假定两种处理效应相同,则差值的总体分布对称,总体中位数为基本思想:假定两种处理效应相同,则差值的总体分布对称,总体中位数为 0,也就是说,也就是说 样本的正负秩和绝对值应相近;样本的正负秩和绝对值应相近; 若两种处理效应不相同,则差值的总体中位数不为若两种处理效应不相同,则差值的总体中位数不为 0,中位数偏离,中位数偏离 0 越明显,样本的正越明显,样本的正 负秩和绝对值就会相差越大,原假设负秩和绝对值就会相差越大,原假设 h0 成立的可能性越小。成立的可能性越小。 第十

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论