




已阅读5页,还剩84页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
卫生统计学Health Statistics LI2013/10/41 / 89卫生统计学网上教案 2第一章 绪 论 2第一节 卫生统计学的定义和内容 3第二节 统计工作的步骤 4第三节 统计学中的几个基本概念 5第四节 学习卫生统计学应注意的问题 8第二章 定量资料的统计描述 8第一节 数值变量资料的频数表 8第二节 集中趋势的统计描述指标 10第三节 离散程度的统计描述指标 12第三章 正态分布及其应用 14第一节 正态分布的概念和特征 14第二节 正态分布的应用 16第四章 总体均数的估计和假设检验 18第一节 抽样研究与抽样误差 18第二节 t 分布 .21第三节 总体均数的估计 23第四节 假设检验的基本步骤 24第五节 样本与总体比较的假设检验 26第六节 配对设计(paired design)资料的假设检验 27第七节 两样本比较的假设检验 28第八节 第一类错误与第二类错误 29第五章 方差分析 30第一节 方差分析的基本思想 31第二节 完全随机设计的单因素方差分析(one-way ANOVA) 34第三节 随机区组设计的两因素方差分析(two-way ANOVA ) .36第四节 多个样本均数间的多重比较 39第五节 多个样本的方差齐性检验 43第六节 变量变换 44第六章 定性资料的统计描述 45第七章 二项分布与 Poisson 分布及其应用 48第一节 二项分布的概念与特征 48第二节 二项分布的应用 51第三节 Poisson 分布的概念与特征 .52第四节 Poisson 分布的应用 .55第八章 2 检 验 58第一节 四格表资料的 2 检验 58第二节 配对四格表资料的 2 检验 60第三节 四格表资料的 Fisher 确切概率法 62第四节 行列表资料的 2 检验 64第五节 多个样本率比较的 2 分割法 65第六节 频数分布拟合优度的 2 检验 69第九章 秩和检验 70第一节 配对设计和单样本资料的符号秩和检验 71第二节 完全随机化设计两独立样本的秩和检验 73第三节 完全随机化设计多组独立样本的秩和检验 74第四节 随机化区组设计资料的秩和检验 75第五节 多个样本间的多重比较 77第六节 小结 80第十章 直线回归与相关 81第一节 直线回归 81第二节 直线相关分析 90第三节 等级相关 94第四节 曲线拟合 96第十二章 统计表和统计图 99第十三章 实验设计 105第一节 实验设计的特点及分类 106第二节 实验设计的基本要素 106第三节 实验设计的基本原则 109第四节 常用的实验设计方法 123第十四章 调查设计 131第一节 调查研究的特点 131第二节 调查设计的基本原则与内容 132第三节 常用的抽样方法 134第四节 调查的质量控制 134第十五章 医学人口统计学与疾病统计常用指标 135第一节 医学人口统计常用指标 135第二节 疾病统计常用指标 1401 / 89第一章 绪 论学时分配:2 学时掌握内容:1、卫生统计学的定义2、统计工作的步骤3、统计学中的几个基本概念4、学习卫生统计学应注意的问题了解内容:卫生统计学的内容第一节 卫生统计学的定义和内容1、卫生统计学的定义统计学(statistics)是研究数据的收集、整理和分析的一门科学,帮助人们分析所占有的信息,达到去伪存真、去粗取精、正确认识世界的一种重要手段。卫生统计学(health statistics)是应用数统计学的原理与方法研究居民健康状况以及卫生服务领域中数据的收集、整理和分析的一门科学。Webster 国际大辞典(第三版)对统计学的定义是“a science dealing with the collection , analysis , interpretation and presentation of numerical data” 。Last JM 主编的一本流行病学辞典对统计学的定义是“the science and art of dealing with variation in data through collection , classification and analysis in such a way as to obtain reliable results” 。由此看出:统计学是处理资料中变异性的科学和艺术,是在收集、归类、分析和解释大量数据的过程中获取可靠结果的一门学科。这里强调了“过程”,但在实际工作中,许多人往往是忽略了设计、收集和归类(整理) ,到了分析数据时才想到统计学,此时难免发生“悔之晚矣”的憾事。作为统计学的应用者应充分认识到这一点。2、卫生统计学的内容:1)健康统计:医学人口统计、疾病统计和生长发育统计等;2)卫生服务统计:包括卫生资源利用、医疗卫生服务的需求、医疗保健体制改革等方面的统计学问题。本教材的主要内容为:1)卫生统计学的基本原理和方法:包括统计描述(定量资料和分类资料的描述性指标以及常用统计图表) 、常见的理论分布及其应用(正态分布、二项分布与 Poisson 分布) 、总体参数的估计(分总体均数、总体率和总体平均数) 、假设检验(t 检验、 u 检验、方差分析、 2 检验、秩和检验等) 、回归与相关、多元线性回归与logistic 回归、实验设计和调查设计(第 2第 14 章) ;2)健康统计:医学人口与疾病统计中常用的指标(第 15 章) 、寿命表(第 16 章) 、生存率分析(第 17 章) ;3)常用的综合评价方法(第 18 章) 。第二节 统计工作的步骤统计学对统计工作的全过程起指导作用,任何统计工作和统计研究的全过程都可分为以下四个步骤:1、设计(design):在进行统计工作和研究工作之前必须有一个周密的设计。设计是在广泛查阅文献、全面了解现状、充分征询意见的基础上,对将要进行的研究工作所做的全面设想。其内容包括:明确研究目的和研究假说,确定观察对象、观察单位、样本含量和抽样方法,拟定研究方案、预期分析指标、误差控制措施、进度与费用等。设计是整个研究工作中最关键的一环,也是指导以后工作的依据(详见第 13、14 章) 。2、收集资料(collection):遵循统计学原理采取必要措施得到准确可靠的原始资料。及时、准确、完整是收集统计资料的基本原则。卫生工作中的统计资料主要来自以下三个方面:统计报表:是由国家统一设计,有关医疗卫生机构定期逐级上报,提供居民健康状况和医疗卫生机构工作的主要数据,是制定卫生工作计划与措施、检查与总结工作的依据。如法定传染病报表,职业病报表,医院工作报表等。经常性工作记录:如卫生监测记录、健康检查记录等。专题调查或实验。3、整理资料(sorting data):收集来的资料在整理之前称为原始资料,原始资料通常是一堆杂乱无章的数据。整理资料的目的就是通过科学的分组和归纳,使原始资料系统化、条理化,便于进一步计算统计指标和分析。其过程是:首先对原始资料进行准确性审查(逻辑审查与技术审查)和完整性审查;再拟定整理表,按照“同质者合并,非同质者分开”的原则对资料进行质量分组,并在同质基础上根据数值大小进行数量分组;最后汇总归纳。4、分析资料(analysis of data):其目的是计算有关指标,反映数据的综合特征,阐明事物的内在联系和规律。统计分析包括统计描述(descriptive statistics)和统计推断(inferential statistics) 。前者是用统计指标与统计图(表)等方法对样本资料的数量特征及其分布规律进行描述(详见第 2、6、12 章) ;后者是指如何抽样,以2 / 89及如何用样本信息推断总体特征(详见第 4、5、7、8、9、10、11、17、18 章) 。进行资料分析时,需根据研究目的、设计类型和资料类型选择恰当的描述性指标和统计推断方法。统计工作的四个步骤紧密相连、不可分割,任何一步的缺陷,都将影响整个研究结果。第三节 统计学中的几个基本概念1、同质(homogeneity)与变异(variation)严格地讲,同质是指被研究指标的影响因素完全相同。但在医学研究中,有些影响因素往往是难以控制的(如遗传、营养等) ,甚至是未知的。所以,在统计学中常把同质理解为对研究指标影响较大的、可以控制的主要因素尽可能相同。例如研究儿童的身高时,要求性别、年龄、民族、地区等影响身高较大的、易控制的因素要相同,而不易控制的遗传、营养等影响因素可以忽略。同质基础上的个体差异称为变异。如同性别、同年龄、同民族、同地区的健康儿童的身高、体重不尽相同。事实上,客观世界充满了变异,生物医学领域更是如此。哪里有变异,哪里就需要统计学。若所研究的同质群体中所有个体一模一样,只需观察任一个体即可,无须进行统计研究。2、总体(population)与样本(sample)任何统计研究都必须首先确定观察单位(observed unit) ,亦称个体(individual) 。观察单位是统计研究中最基本的单位,可以是一个人、一个 家庭、一个地区、一个样品、一个采样点等。总体是根据研究目的确定的同质观察单位的全体,或者说,是同质的所有观察单位某种观察值(变量值)的集合。例如欲研究山东省 2002 年 7 岁健康男孩的身高,那么,观察对象是山东省 2002 年的 7 岁健康男孩,观察单位是每个 7 岁健康男孩,变量是身高,变量值(观察值)是身高测量值,则山东省 2002 年全体 7 岁健康男孩的身高值构成一个总体。它的同质基础是同地区、同年份、同性别、同为健康儿童。总体又分为有限总体(finite population)和无限总体( infinite population) 。有限总体是指在某特定的时间与空间范围内,同质研究对象的所有观察单位的某变量值的个数为有限个,如上例;无限总体是抽象的,无时间和空间的限制,观察单位数是无限的,如研究碘盐对缺碘性甲状腺病的防治效果,该总体的同质基础是缺碘性甲状腺病患者,同用碘盐防治;该总体应包括已使用和设想使用碘盐防治的所有缺碘性甲状腺病患者的防治效果,没有时间和空间范围的限制,因而观察单位数无限,该总体为无限总体。在实际工作中,所要研究的总体无论是有限的还是无限的,通常都是采用抽样研究。样本是按照随机化原则,从总体中抽取的有代表性的部分观察单位的变量值的集合。如从上例的有限总体(山东省 2002 年 7 岁健康男孩)中,按照随机化原则抽取 100 名 7 岁健康男孩,他们的身高值即为样本。从总体中抽取样本的过程为抽样,抽样方法有多种,详见第 14 章。抽样研究的目的是用样本信息推断总体特征。统计学好比是总体与样本间的桥梁,能帮助人们设计与实施如何从总体中科学地抽取样本,使样本中的观察单位数(亦称样本含量,sample size)恰当,信息丰富,代表性好;能帮助人们挖掘样本中的信息,推断总体的规律性。3、资料(data)与变量(variable)及其分类总体确定之后,研究者应对每个观察单位的某项特征进行测量或观察,特征称为变量。如“身高”、 “体重”、“性别”、 “血型”、 “疗效” 等。变量的测定值或观察值称为变量值(value of variable)或观察值(observed value) ,亦称为资料。按变量的值是定量的还是定性的,可将变量分为以下类型,变量的类型不同,其分布规律亦不同,对它们采用的统计分析方法也不同。在处理资料之前,首先要分清变量类型。1)数值变量(numerical variable):其变量值是定量的,表现为数值大小,可经测量取得数值,多有度量衡单位。如身高(cm) 、体重(kg) 、血压(mmHg kPa) 、脉搏(次/min )和白细胞计数(10 9 /L)等。这种由数值变量的测量值构成的资料称为数值变量资料,亦称为定量资料(quantitative data) 。大多数的数值变量为连续型变量,如身高、体重、血压等;而有的数值变量的测定值只能是正整数,如脉搏、白细胞计数等,在医学统计学中把它们也视为连续型变量。 2)分类变量(catagorical variable):其变量值是定性的,表现为互不相容的类别或属性。分类变量可分为无序变量和有序变量两类:(1)无序分类变量(unordered categorical variable)是指所分类别或属性之间无程度和顺序的差别。 ,它又可分为二项分类,如性别(男、女) ,药物反应(阴性和阳性)等;多项分类,如血型(O、A 、B 、AB) ,职业(工、农、商、学、兵)等。对于无序分类变量的分析,应先按类别分组,清点各组的观察单位数,编制分类变量的频数表,所得资料为无序分类资料,亦称计数资料。(2)有序分类变量(ordinal categorical variable)各类别之间有程度的差别。如尿糖化验结果按、 、分类;疗效按治愈、显效、好转、无效分类。对于有序分类变量,应先按等级顺序分组,清点各组的观察单位个数,编制有序变量(各等级)的频数表,所得资料称为等级资料。变量类型不是一成不变的,根据研究目的的需要,各类变量之间可以进行转化。例如血红蛋白量(g/L)原属数值变量,若按血红蛋白正常与偏低分为两类时,可按二项分类资料分析;若按重度贫血、中度贫血、轻度3 / 89贫血、正常、血红蛋白增高分为五个等级时,可按等级资料分析。有时亦可将分类资料数量化,如可将病人的恶心反应以 0、1、2、3 表示,则可按数值变量资料(定量资料)分析。4、随机事件(random event)与概率(probability)医学研究的现象,大多数是随机现象,对随机现象进行实验或观察称为随机试验。随机试验的各种可能结果的集合称为随机事件,亦称偶然事件,简称事件。例如用相同治疗方案治疗一批某病的患者,治疗转归可能为治愈、好转、无效、死亡四种结果,对于一个刚入院的患者,治疗后究竟发生哪一种结果是不确定的,可能发生的每一种结果都是一个随机事件。对于随机事件来说,在一次随机试验中,某个随机事件可能发生也可能不发生,但在一定数量的重复试验后,该随机事件的发生情况是有规律可循的。概率是描述随机事件发生的可能性大小的数值,常用 P 表示。例如,投掷一枚均匀的硬币,随机事件 A 表示“正面向上”,用 n 表示投掷次数 ;m 表示随机事件 A 发生的次数;f 表示随机事件 A 发生的频率 (f=m/n ) ,0mn, 0f1。用不同的投掷次数 n 作随机试验,结果如下:m/n=8/10=0.8, 7/20=0.35, , 249/500=0.498, 501/1000=0.501, 10001/2000=0.5000,由此看出当投掷次数 n 足够大时,f=m/n0.5,称 P(A)=0.5,或简写为:P=0.5 。当 n 足够大时,可以用 f 估计 P。随机事件概率的大小在 0 与 1 之间,即 0100)时 由 t 分布可知,当自由度越大,t 分布越逼近 u 分布,此时 t 曲线下有 95%的 t 值在1.96 之间,即:P(-1.96 t+1.96)=0.95P(-1.96 +1.96)=0.95 xs/)(P( )=0.95x96.1x96.113 / 89故总体均数 的 95%可信区间为( , ) (4.6)xs96.1xs.3 未知且 n 小时 某自由度的 t 曲线下有 95%的 t 值在 之间,,05.即: 95.0)(,5.,05. ttP.)/(,.,. tsxx90,05.,05. xt故总体均数 的 95%可信区间为( , ) (4.7)xst,05.xst,05.例 3.3 对某人群随机抽取 20 人,用某批号的结核菌素作皮试,平均浸润直径为 10.9cm,标准差为3.86cm。问这批结核菌素在该人群中使用时,皮试的平均浸润直径的 95%可信区间是多少?该例 n=20, n 较小,按公式(4.7)计算。=20-1=19,查 t 界值表,得=2.09319,05.t估计这批结核菌素在该人群中使用,皮试的平均浸润直径的 95%可信区间为(10.9-2.093*3.86/ ,10.9+2.093*3.86/ )cm 即(9.1 ,12.7)cm。220(三)可信区间的注意问题1可信区间的涵义 意思是从总体中作随机抽样,每个样本可以算得一个可信区间。如 95%可信区间意味着做 100 次抽样,算得 100 个可信区间,平均有 95 个估计正确,估计错误的只有 5 次。5%是小概率事件,实际发生的可能性很小,当然这种估计方法会有 5%犯错误的风险。2可信区间的两个要素:一是准确度,反映在可信度的大小,即区间包含总体均数的概率的大小,愈接近1 愈好。二是精密度,反映在区间的长度,长度愈小愈好。在样本含量确定的情况下,二者是矛盾的,若只管提高可信度,会把区间变得很长,故不宜认为 99%可信区间比 95%可信区间好,需要兼顾准确度和精密度,一般来说 95%可信区间更为常用,在可信度确定的情况下,增加样本含量,可减少区间长度,提高精密度。(王淑康)第四节 假设检验的基本步骤一、假设检验的基本思想在抽样研究中,由于样本所来自的总体其参数是未知的,只能根据样本统计量对其所来自总体的参数进行估计,如果要比较两个或几个总体的参数是否相同,也只能分别从这些总体中抽取样本,根据这些样本的统计量作出统计推断,籍此比较总体参数是否相同。由于存在抽样误差,总体参数与样本统计量并不恰好相同,因此判断两个或多个总体参数是否相同是一件很困难的事情。如医生在某山区随机测量了 25 名健康成年男子的脉搏,平均次数为 74.2 次分钟,标准差为 5.2 次分钟,但是根据医学常识,一般男子的平均脉搏次数为 72 次分钟,问该山区男子脉搏数与一般男子是否不同?要回答这个看似简单的问题并非易事。这个问题难以从正面直接回答,可以先假定该山区所有男子脉搏数数值组成一个总体,其总体均数和标准差均为未知数,不妨分别以 、 表示。如果我们假设该山区男子的脉搏数与一般地区的男子相同,即属于同一总体, 72,所测量的 25 名男子的平均脉搏数(样本均数)之所以不恰好等于 72 次分,是由于抽样误差所致。如果上述假设成立,则理论上讲,样本均数很可能在总体均数( 72)的附近,样本均数远离总体均数的可能性很小。如果将样本均数变换为 值,则 值很可能在 0 的附近, 值远离 0 的可能性很小。如果 值很tt t t小上述假设可能不正确,可拒绝上述假设。假设检验包括单侧检验和双侧检验两种情况,当根据专业知识已知两总体的参数中甲肯定不会小于乙,或甲肯定不会大于乙时,可考虑用单侧检验,否则,宜用双侧检验。假设检验中的如何下检验结论(以 检验为例):t1、单侧检验:如计算统计量 为正值t拒绝 ,接受tP0H114 / 89不拒绝tP0H如计算统计量 为负值t拒绝 ,接受t01不拒绝2、双侧检验:拒绝 ,接受2|tP0H1不拒绝|二、假设检验的一般步骤假设检验一般分为三步:1、建立假设,确定检验水准。一般假设检验中的检验假设 (或称为零假设、无效假设) ,假设样本来0H自同一总体,即其总体参数相等。往往建立两个假设,除建立检验假设外,还建立备择假设 ,作为拒绝检1H验假设时的备选假设,检验水准为拒绝检验假设是犯第一类错误的概率。2、为选择检验方法,并计算统计量。的类型不同、变量的分布类型不同、研究目的不同,都决定着选择何种检验方法。因此需选择合适的检验方法,并计算统计量。3、为根据统计量确定 值,做出统计推断。根据计算的统计量,查阅相应的统计表,确定 值,以 值P P与检验水准 比较,若 ,则拒绝 ,接受 ;若 ,则不拒绝 。0H1P0第五节 样本与总体比较的假设检验本章第一节中,在某山区随机测量 25 名男子的脉搏数得一样本均数,而一般男子的脉搏数为可视为一般地区男子的总体均数。假设该山区男子的脉搏数与一般地区相同,即于一般地区的男子属于同一总体,并将该样本均数转化为 值t(式 1)nsxt0(式 2)1式中 为样本均数; 为已知总体的均数; 为样本标准差; 为样本含量。0sn如果样本含量足够大时,可将样本均数转化为 值u(式 3)nsxu0例 1 以上述资料为例,比较某山区男子的脉搏数与一般地区的男子是否相同。假设检验的过程如下:1、建立假设,确定检验水准。:该山区男子脉搏数与一般地区男子相等,即0H0:该山区男子脉搏数与一般地区男子不等,即 5.2、选择检验方法计算统计量 15.2.740nsxt自由度 43、查 界值表,确定 值,以 查 界值表得, ,本例的统计量 值为 2.115,大于界tPt 064.24,05.t t值,因此 ,按 水准,拒绝 ,接受 ,可认为该山区男子的脉搏数与一般地区的男子不05.0.0H1同。本例中 值的确切值为 2.515 / 89如果本例用单侧检验,其 与双侧检验相同,但 有不同,根据专业知识知道,山区男子的脉搏数不会0H1H低于一般地区,因此 为:该山区男子脉搏数高与一般地区男子,即 ,所得的 值为:1 0P。0.25.0P第六节 配对设计(paired design)资料的假设检验配对设计是为了控制某些非处理因素对实验结果的影响。将那些因素相同或相近的受试对象配成对子,使得同一对子中的受试对象除处理因素不同外,其他因素相同或相近,同一对子中的两受试对象分别接受不同的处理,其实验结果的差异可以简单的认为是“纯”处理因素的作用。对于配对资料可以分析其差值。对配对资料的分析,一般用配对 检验(paired t-test) ,其检验假设为:差值的总体均数为零。计算统计量t的公式为(式 4)nsdt(式 5)1式中 为差值的均数; 为差值的标准差; 为对子数。dsn例 1 将大白鼠按照同窝、同性别和体重接近的的原则配成 8 对,每对中两只大白鼠随机确定一只进食正常饲料,另一只进食缺乏维生素 E 饲料,一段时间以后,测量两组大白鼠的肝中维生素的 A 的含量如表 1,问食物中维生素 E 的缺乏能否影响大白鼠肝中维生素 A 的含量?表 1 两种饲料喂养大白鼠肝中维生素 A 的含量对子号(1)正常饲料(2)缺乏维生素 E饲料(3)差值 d(4)2(5)1 3350 2450 1100 12100002 2000 2400 -400 1600003 3000 1800 1200 14400004 3950 3200 750 5625005 3800 3250 550 3025006 3750 2700 1050 11025007 3450 2500 950 9025008 3050 1750 1300 1690000合计 6500 7370000计算得 5.1260nd25.468)60(731)( 222 sd:两种饲料喂养的大白鼠肝中维生素含量相等,即0H0d:两种饲料喂养的大白鼠肝中维生素含量不等,即1 5.207.48/.651nsdt7查表知, ,按 水准,拒绝 ,接受 ,可认为两组大白鼠肝中维生素 A 的含量不0P.0H1等,维生素 E 缺乏饲料组的大白鼠肝中维生素 A 含量低。16 / 89第七节 两样本比较的假设检验完全随机设计两样本的比较,用 检验或 检验时,要求样本服从正态分布,并且两样本方差齐同。 如果tu资料满足上述要求,样本含量小时,用下式计算 统计量t(式 6)21xst(式 7)nv式中 和 分别为两样本的均数; 为两样本均数差值的标准误,可用下式计算21xs(式 8) 21212)()(21 nnssx如果样本含量足够大时,可计算 统计量u(式 9)21nsu如果方差不齐,可以考虑用 检验。两样本的方差是否齐同,可对样本的方差做方差齐性检验t(式 10)2小大sF, 11nv12nv式中 和 分别为较大和较小的方差, 和 分别为方差较大和较小样本的样本含量。大 小 1n2根据计算得的 统计量,查 界知表(方差齐性检验用) ,作出推断。F第八节 第一类错误与第二类错误假设检验是反证法的思想,依据样本统计量作出的统计推断,其推断结论并非绝对正确,结论有时也可能有错误,错误分为两类。型错误又称第一类错误(type error):拒绝了实际上成立的 ,为“弃真”的错误,其概率通常用 表0H示。 可取单尾也可取双尾,假设检验时研究者可以根据需要确定 值大小,一般规定 0.05 或 0.01,其 意义为:假设检验中如果拒绝 时,发生型错误的概率为 5或 1,即 100 次拒绝 的结论中,平均有 50H 0H次或 1 次是错误的。型错误又称第二类错误(type error):不拒绝实际上不成立的 ,为“存伪”的错误,其概率通常用0表示。 只取单尾,假设检验时 值一般不知道,在一定情况下可以测算出,如已知两总体的差值 (如 ) 、样本含量 和检验水准 。21n17 / 89以下图说明两类错误:图 a 中为均数( )已知的总体和均数( )未知的总体。从后者中随机抽样,其样本均数( )服从正0 x态分布,若 ,则正态曲线为图(b)中右侧曲线,若 则正态曲线为左侧曲线。将样本均数变换为 0值曲线如图( c) 。若为单侧检验,从图(c)中可以清楚地看出两条曲线下 与 的意义,即 为 成立,t 0但由于 ,被错误地拒绝的概率;而 为: 不成立,但由于 ,不被拒绝的概率。t0t第五章 方差分析学时分配:6 学时掌握内容:1、方差分析的基本思想2、完全随机设计的单因素方差分析3、随机区组设计的两因素方差分析熟悉内容:1、多个样本均数间的多重比较2、变量变换了解内容:多个样本的方差齐性检验第一节 方差分析的基本思想1、方差分析的意义前述的 t 检验和 u 检验适用于两个样本均数的比较,对于 k 个样本均数的比较,如果仍用 t 检验或 u 检验,需比较 次,如四个样本均数需比较 次。假设每次比较所确定的检验水准)!2()2kk 6)!24()2=0.05,则每次检验拒绝 H0 不犯第一类错误的概率为 1-0.05=0.95;那么 6 次检验都不犯第一类错误的概率为(1-0.05)6=0.7351,而犯第一类错误的概率为 0.2649,因而 t 检验和 u 检验不适用于多个样本均数的比较。用方差分析比较多个样本均数,可有效地控制第一类错误。方差分析(analysis of variance,ANOVA)由英国统计学家R.A.Fisher 首先提出,以 F 命名其统计量,故方差分析又称 F 检验。2、方差分析的基本思想下面通过表 5.1 资料介绍方差分析的基本思想。18 / 89例如,有 4 组进食高脂饮食的家兔,接受不同处理后,测定其血清肾素血管紧张素转化酶(ACE)浓度(表 5.1) ,试比较四组家兔的血清 ACE 浓度。表 5.1 对照组及各实验组家兔血清 ACE 浓度(u/ml)实 验 组对照组A 降脂药 B 降脂药 C 降脂药61.24 82.35 26.23 25.4658.65 56.47 46.87 38.7946.79 61.57 24.36 13.5537.43 48.79 38.54 19.4566.54 62.54 42.16 34.5659.27 60.87 30.33 10.9620.68 48.23injx1329.92 372.59 229.17 191.00 1122.68 ( )xi6 6 7 7 26 (N )54.99 62.10 32.74 27.29 43.18 ( )injx1218720.97 23758.12 8088.59 6355.43 56923.11 ( )2x由表 5.1 可见,26 只家兔的血清 ACE 浓度各不相同,称为总变异;四组家兔的血清 ACE 浓度均数也各不相同,称为组间变异;即使同一组内部的家兔血清 ACE 浓度相互间也不相同,称为组内变异。该例的总变异包括组间变异和组内变异两部分,或者说可把总变异分解为组间变异和组内变异。组内变异是由于家兔间的个体差异所致。组间变异可能由两种原因所致,一是抽样误差;二是由于各组家兔所接受的处理不同。正如第四章所述,在抽样研究中抽样误差是不可避免的,故导致组间变异的第一种原因肯定存在;第二种原因是否存在,需通过假设检验作出推断。假设检验的方法很多,由于该例为多个样本均数的比较,应选用方差分析。方差分析的检验假设 H0 为各样本来自均数相等的总体,H 1 为各总体均数不等或不全相等。若不拒绝 H0 时,可认为各样本均数间的差异是由于抽样误差所致,而不是由于处理因素的作用所致。理论上,此时的组间变异与组内变异应相等,两者的比值即统计量 F 为 1;由于存在抽样误差,两者往往不恰好相等,但相差不会太大,统计量 F 应接近于 1。若拒绝 H0,接受 H1 时,可认为各样本均数间的差异,不仅是由抽样误差所致,还有处理因素的作用。此时的组间变异远大于组内变异,两者的比值即统计量 F 明显大于 1。在实际应用中,当统计量 F 值远大于 1 且大于某界值时,拒绝 H0,接受 H1,即意味着各样本均数间的差异,不仅是由抽样误差所致,还有处理因素的作用。(5.1) 组 内组 间MS方差分析的基本思想是根据研究目的和设计类型,将总变异中的离均差平方和 SS 及其自由度 分别分解成相应的若干部分,然后求各相应部分的变异;再用各部分的变异与组内(或误差)变异进行比较,得出统计量F 值;最后根据 F 值的大小确定 P 值,作出统计推断。例如,完全随机设计的方差分析,是将总变异中的离均差平方和 SS 及其自由度 分别分解成组间和组内两部分,SS 组间 / 组间 和 SS 组内 / 组内 分别为组间变异(MS 组间 )和组内变异(MS 组内 ) ,两者之比即为统计量F(MS 组间 /MS 组内 ) 。又如,随机区组设计的方差分析,是将总变异中的离均差平方和 SS 及其自由度 分别分解成处理间、区组间和误差 3 部分,然后分别求得以上各部分的变异(MS 处理 、MS 区组 和 MS 误差 ) ,进而得出统计量 F 值(MS 处理/MS 误差 、MS 区组 /MS 误差 ) 。3、方差分析的计算方法下面以完全随机设计资料为例,说明各部分变异的计算方法。将 N 个受试对象随机分为 k 组,分别接受不同的处理。归纳整理数据的格式、符号见下表:处理组(i ) 1 2 3 k19 / 891x2131x 1kx22 2 ij1n2n3n kn合 计 jjx1jj1jjx jx1i123 k1)总离均差平方和(sum of squares,SS)及自由度(freedom,)总变异的离均差平方和为各变量值与总均数( )差值的平方和,离均差平方和和自由度分别为:x(5.2)kinjiji NxxS1 22)()(总=N-1 (5.3)总2)组间离均差平方和、自由度和均方组间离均差平方和为各组样本均数( )与总均数( )差值的平方和ixxkiixnS12)组 间(5.4)NxnSkiinji212)()(组 间(5.5)组 间(5.6)组 间组 间组 间MS3)组内离均差平方和、自由度和均方组内离均差平方和为各处理组内部观察值与其均数( )差值的平方和之和,ix。数理统计证明,总离均差平方和等于各部分离均差平方和之和,因此, kinjiijixS12)(组 内(5.7)组 间总组 内 S(5.8)kN组 内(5.9)组 内组 内组 内 SM4)三种变异的关系:2112 )()()( xxxS iikinjijkinjij ii 总 组 内组 间 snikinjijiki i2121 )()(= N-1= (k-1)+(N-k) =总组 内组 间 可见,完全随机设计的单因素方差分析时,总的离均差平方和(SS 总 )可分解为组间离均差平方和(SS 组间 )与组内离均差平方和(SS 组内 )两部分;相应的总自由度( )也分解为组间自由度( )和组内自由度(总组 间)两部分。组 内5)方差分析的统计量:20 / 89(5.10)组 内组 间 MSF/4、方差分析的应用条件与用途方差分析的应用条件为各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等,即方差齐。方差分析的用途两个或多个样本均数间的比较;分析两个或多个因素间的交互作用;回归方程的线性假设检验;多元线性回归分析中偏回归系数的假设检验;两样本的方差齐性检验等。第二节 完全随机设计的单因素方差分析(one-way ANOVA)1、用途:用于完全随机设计的多个样本均数间的比较,其统计推断是推断各样本所代表的各总体均数是否相等。完全随机设计(completely random design)不考虑个体差异的影响,仅涉及一个处理因素,但可以有两个或多个水平,所以亦称单因素实验设计。在实验研究中按随机化原则将受试对象随机分配到一个处理因素的多个水平中去,然后观察各组的试验效应;在观察研究(调查)中按某个研究因素的不同水平分组,比较该因素的效应。2、计算公式:完全随机设计的单因素方差分析是把总变异的离均差平方和 SS 及自由度 分别分解为组间和组内两部分,其计算公式如下。表 5.2 单因素方差分析的计算公式变异来源 离均差平方和(SS) 自由度( )均方(MS) F总 变 异 *2CxN-1组间变异 *12)(nkiijik-1 组 间组 间S组 内组 间M组内变异 组 间总 SN-k 组 内组 内* C 为校正数 x2)(3、分析步骤(以例说明):例 5.1 某军区总医院欲研究 A、B、C 三种降血脂药物对家兔血清肾素血管紧张素转化酶(ACE)的影响,将 26 只家兔随机分为四组,均喂以高脂饮食,其中三个试验组,分别给予不同的降血脂药物,对照组不给药。一定时间后测定家兔血清 ACE 浓度(u/ml) ,如表 5.1,问四组家兔血清 ACE 浓度是否相同?本例的初步计算结果见表 5.1 下部,方差分析的计算步骤为1)建立检验假设,确定检验水准H0:四组家兔的血清 ACE 浓度总体均数相等, 1=2=3=4H1:四组家兔的血清 ACE 浓度总体均数不等或不全相等,各 i 不等或不全相等=0.052)计算统计量 F 值按表 5.2 所列公式计算有关统计量和 F 值NxC2)(487.326).1(2总S45.786.-59.2 21 / 89324.870.1972.659.372.9)(12 CnxSkiiji组 间=5515.3665组 内S 2930.4151.-84.7组 间总 S 总 =N-1=26-1=25 组间 =k-1= 4-1=3 组内 =N-K=26-4=22183.456.5组 间组 间组 间 SM.202.90组 内组 内组 内 13.8.458组 内组 间MSF表 5.3 例 5.1 的方差分析表变异来源 S MS F总变异 8445.7876 25组间变异 5515.3665 3 1838.4555 13.80组内变异 2930.4211 22 133.20103)确定 P 值,并作出统计推断以 = 3 和 = 22 查 F 界值表(方差分析用) ,得 P F 0.01(3,21), P F 0.01(7,21), P0.051 与 3 29.36 4.540 6.47 3 3.58 4.64 0.05(2)计算各对比组均数的差值 ,如 ,余类推。将各对比组均数差值BAx1.79.5410.621x列入第(2)栏。(3) 计算各对比组均数差值的标准误,按式 5.13 或式 5.14 计算各对比组均数差值的标准误,并列入第(3)栏。如=4.712 =4.5406201.21xs )76(20.31 xs(4)计算统计量 q。两对比组的样本均数之差除以其标准误得统计量 q,即第(2)与第(3)栏数据的比值。如第 1 组与第 2 组:7.11/4.712=1.51 。余见第(4)栏。(5)确定组数 a。组数是指两对比组间所包含的组数(包括两对比组本身) ,如第 1 组与第 2 组比较,组数 a=2;第 2 组与第 4 组之间比较组数 a=3。余类推,见第(5)栏。(6)查 q 界值。根据组数 a 及自由度(方差分析中组内或误差自由度)查 q 界值表。本例 =22,查得=2.95。余见第(6)和第(7)栏。),0(5.25 / 893确定 P 值,并作出统计推断本例第 1 组与第 2 组、第 3 组与第 4 组比较的 q 统计量均小于 q0.05,P0.05,不拒绝 H0,故尚不能认为 A药组与对照组、B 药组与 C 药组家兔的血清 ACE 浓度不同;其余各对比组的 q 统计量均大于 q0.01,P0.05A 药组与 B 药组 29.36 13.32 18.10 0.053确定 P 值,并作出推断结论。当相互对比的两组 大于或等于界值时,P 小于或等于相应的概BAx率;反之,P 大于相应的概率。本例对照组与 A 药组、B 药组与 C 药组的 均小于 LSD0.05,P 大于BAx26 / 890.05,不拒绝 H0;其余对比组的 均大于 LSD0.01,PP0.01,按 =0.05 水准拒绝 H0,接受 H1,可以认为四总体2方差不同或不全相同。27 / 89第六节 变量变换参数统计分析方法对资料有一定的要求,如 t 检验和方差分析要求样本来自正态分布总体,并且方差齐同;直线相关(回归)分析要求两变量间呈直线关系。但实际工作中并非所有的统计资料都能满足参数统计分析方法的条件;对于不能满足条件的资料,则不能直接应用参数统计分析方法,否则有可能导致错误的结论。解决的办法:一是通过适当的变量变换,使之达到方法的要求,这是本节所要介绍的方法;二是选用非参数统计分析方法。一般情况下,若能通过变量变换使资料符合参数方法条件时,应尽量用参数统计方法。常用的变量变换方法有1对数变换(transformation of logarithm) 将原始数据 X 取对数,以其对数值作为分析变量(5.22)xlog还可根据需要用 (5.23))(K或 (5.24)式中 K 为常数,须经尝试得到。若原始数据中有小值或零时,可用下式:(5.25))1l(x对数变换的用途:使服从对数正态分布的资料正态化;使方差不齐且各组的 接近的资料达到方差xs齐的要求;使曲线直线化,常用于曲线拟合。2平方根变换 (square root transformation) 将原始数据 X 的平方根作为分析变量(5.26)x或 (5.27)或 KXx(5.28)x式中 K 为常数,须经尝试得到。当有小值或零时,可用(5.29)1或 (5.30)5.0平方根变换的用途:使服从 Poisson 分布的计数资料,或轻度偏态资料正态化; 使方差不齐且各样本的方差与均数间呈正相关的资料达到方差齐的要求。3平方根反正弦变换 (arcsine trasformation of square root) 将原始数据 X 的平方根反正弦作为分析变量(5.31)pxarcsin平方根反正弦变换的用途:使总体率较小(70%)的二项分布资料达到正态或方差齐的要求。(王洁贞)第六章 定性资料的统计描述学时分配:2 学时学习要求:1掌握常用相对数指标的用途.2熟悉常用率的区别3熟悉应用相对数时应注意的事项。以相对数描述分类变量的水平可以消除由于基数导致不同资料间的不可比。如:甲、乙两地某病的发生例数分别为 100 例和 150 例,仅从发病例数难以比较两地的发病严重程度,如果已知两地的人口数均为 200000 人,则两地的发病率分别为 5和 7.5,很容易地判断出乙地的发病情况比甲地严重。1率(rate) 率是一频度指标,用以反映某某现象发生的频度或强度。常以百分率() 、千分率() 、万分率(1万)和十万分率(1十万)等表示,计算公式为:(式 1)) ( 或单 位 总 数可 能 发 生 某 现 象 的 观 察 数发 生 某 现 象 的 观 察 单 位率 10式中 100、1000、10000/10000 、10 万10 万等,依据习惯选定,或使得所计算得的率保留一到两位整数。常用的率包括发病率、患病率、死亡率、病死率等,应用计算各率时的不同,要特别注意不同的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025及未来5年中国扇筋市场调查、数据监测研究报告
- 2025及未来5年中国IC封装料市场调查、数据监测研究报告
- 2025及未来5年中国多机能弹性外墙防水涂料市场调查、数据监测研究报告
- 解析卷-人教版八年级上册物理声现象《声音的特性声的利用》专题测试练习题(含答案详解)
- 2025及未来5年中国微型耕作机市场调查、数据监测研究报告
- 考点攻克人教版八年级上册物理声现象《声音的特性声的利用》专题训练试卷(详解版)
- 2025及未来5年中国静音箱无油润滑空压机市场调查、数据监测研究报告
- 难点详解人教版八年级上册物理《机械运动》重点解析练习题(含答案详解)
- 难点解析人教版八年级上册物理声现象《声音的特性声的利用》难点解析练习题(解析版)
- 2025年巴乐兔租房合同样本分析
- 手术部(室)医院感染控制标准WST855-2025解读课件
- 制造车间作业指导书范本
- 机动车检验检测机构质量管理体系指导手册
- 青岛版(五四制)(2024)小学科学三年级上册《制作“冰琥珀”》教案
- 2025中央八项规定精神学习教育知识测试竞赛试卷题库及答案
- 2025-2030中国工业自动化控制系统国产化替代进程分析报告
- 小学信息技术第一课课件
- 《黄金分割》的教学课件
- 医务人员院感考试试题及答案
- 2025上交所技术有限责任公司校园招聘20人笔试历年参考题库附带答案详解
- 软件系统运维操作手册
评论
0/150
提交评论