人群健康研究的统计方法课件_第1页
人群健康研究的统计方法课件_第2页
人群健康研究的统计方法课件_第3页
人群健康研究的统计方法课件_第4页
人群健康研究的统计方法课件_第5页
已阅读5页,还剩239页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 人群健康研究的统计方法预防医学系指导教师:方亚电话:2188682统计学医学统计学的基本概念和步骤计量资料的统计描述计量资料的统计推断计数资料的统计描述计数资料的统计推断相关与回归医学统计学简介一、医学统计学的定义 统计学是一门研究数据的科学。它指导人们在科学实践中如何有效地获取数据、正确地分析数据以及合理地解释所得到的结果。医学统计学是统计学的一个分支。它是把概率论和数理统计学的基本原理和方法应用于医学科学领域,涉及医学研究设计、数据搜集、数据整理和数据分析的一门应用性学科。医学研究的对象是人,而人既具有生物属性,又具有社会属性,其变异性大,影响因素错综复杂。例如:1)同样是健康人,即使年

2、龄和性别相同,其身高、体重、血压等数值有所不同;2)同一个人,即使在同一天中,其不同时间段的血压等数值有所不同;3)采用同样方案治疗某病,即使年龄、性别、病情、病程均相同,其治疗效果有所不同; 上述几例都是由于个体存在变异的结果。变异是人群的特征,医学统计学研究的对象就是来自人群的、具有变异特征的数据资料。 偶然现象合理的统计分析客观规律性如:1948年,链霉素治疗结核病的对照研究临床试验 随机化原则 将病人分别分配到链霉素疗效观察组与对照组(不用链霉素)。6个月治疗后 观察组 55名结核病人 死亡4人 对照组 52名结核病人 死亡14人 X光检查,观察组病人的病情比对照组有更大的改善又如:孕

3、期补充维生素(叶酸)与婴儿神经管缺陷80年代初,有文章报道孕期补充维生素(叶酸)可以减少生育神经管缺陷婴儿的危险。 据报道,先服用维生素后怀孕的妇女比怀孕后才开始服用维生素的妇女和拒绝参加试验的怀孕妇女所生的婴儿神经管缺陷的发生率要低。 参加服用维生素试验和拒绝试验的孕妇之间存在某些生理特征上的系统差别,致使在解释试验结果时发生困难。这不能不认为是因实验设计缺乏周密考虑所造成的经验教训。补救 随机化分配受试者叶酸补充组 安慰剂组样本人数过少 无法作出肯定的科学结论1991年 大样本的随机化试验 获得了肯定的科学结论 怀孕妇女 新生儿神经管缺陷 安慰剂组 602名 21名 叶酸补充组 592名

4、6名 统计学分析证实,叶酸对预防新生儿神经管缺陷确有明显的效果 学习医学统计学的重要性医学统计学在医学领域里具有不可低估的重要性, 是医学科学工作者不可缺少的知识和技能。第一节 统计学中的几个基本概念第一章 医学统计学的基本概念和步骤一、总体和样本 总体(population) 根据研究目的确定的同质的全部研究对象。 有限总体:总体中个体的总数是有限的。 无限总体:总体的时间、空间未加以限制,总体中的个 体数可无限增加。 如研究糖尿病人的血压测定值; 由于无时间和空间的限制,全部糖尿病人的血压测定值 为无限总体。 样本(sample) 根据随机化的原则从总体中抽出有代表性的一部分观察单位。 抽

5、样:抽取样本的过程。 统计推断:对样本进行观察,用样本的特征推断总体的 特征。是研究人群健康经常用到的方法。二、同质和变异同质(homogeneity)指被研究指标的非实验因素相同.变异(variation) 指在同质的基础上各观察单位(或个体)之间的差异。同性别、同年龄、同地区、同体重儿童的某项指标有高有低,称为某项指标的变异。被研究指标:儿童身高影响较大、易控制的因素:性别、年龄、民族、地区(相同)三、参数和统计量 参数(parameter ) 描述总体的统计指标。 如研究中国12岁以上男性的吸烟率,观察12岁以上的全部中国男性,登记他们的目前吸烟情况,计算出的吸烟率即为参数。 统计量(s

6、tatistic)描述样本的统计指标。用随机的方法从总体中抽出一部分12岁的男性,计算的吸烟率称作统计量。四、误差误差(error):观察值与实际值之差 。主要有3种:系统误差,随机测量误差,抽样误差 1. 系统误差 在资料的搜集过程中,因试剂未标定、仪器未校正、标 准未统一等而导致测量结果有倾向性的误差。应严格控 制,它影响结果的准确度。2. 随机测量误差 在试剂、仪器已校正,操作方法已统一的情况下,由于 偶然因素的影响,导致同一研究对象在多次测定中结果 不一致的情况。应控制在允许范围内。3.抽样误差 由于抽样而使某变量值的统计量与总体参数不相同。 抽样误差不可避免,但它可以用统计学方法处理

7、。五、概率 概率(probability)描述随机事件发生可能性大小的数值,常用P表示。小数或百分数。 P值的范围:介于0和1之间。 P值愈接近1,表示事件发生的可能性愈大; P=1,表示该事件一定会发生; P值愈接近0,表示事件发生的可能性愈小; P=0,表示该事件一定不会发生; 在医学统计学中,主要是处理大概率和小概率的问题。大小概率的分界点为0.05(5%)。习惯上称P0.05为小概率事件,表示在一次实验或观察中该事件发生的可能性很小。 统计分析中的很多结论都是带有概率性的。六、变量及变量值变量(variable):观察对象的特征或指标 如,性别,年龄,体重 变量值(value of v

8、ariable):测量的结果 如,性别男、女 年龄数值,体重测量值第二节 统计资料的类型定量计量资料 measurement data用定量的方法对观察单位进行测量取得的资料。如身高、体重、血压等。计数资料 enumeration data用定性的方法取得的资料。如性别,职业等等级资料 rank data将观察对象按照某种属性分为几个等级的资料。如将贫血分为轻、中、重3个等级,治疗效果分为显效、好转、有效和无效4个等级等。资料类型不同,选择的统计分析方法也不同较常见的是计量资料和计数资料,区分方法:计量资料:(1)可以是任意数,如整数、小数、正数、负数;(2)有明确的计量单位,如 kg, cm

9、。计数资料: (1)只能是正整数; (2)无计量单位。资料间的相互转化: 血红蛋白 正常与异常(计数资料) 正常否重度贫血,中度贫血,轻度贫血,正常,血红蛋白增高(等级资料)含量多少血红蛋白含量(g/L)(计量资料)第三节 统计工作的基本步骤 1.设计 2.搜集资料 3.整理资料 4.分析资料四个步骤相互联系科学、周密、严谨的设计是搜集准确可靠资料的保证;准确、完整、及时地搜集资料、恰当地整理资料是统计分析的基础;选择正确的方法分析资料和表达资料可获得科学的结论。一、设计(design) 调查设计实验设计专业设计统计设计资料搜集资料整理资料分析三个原则 对照重复随机二、资料搜集 (data c

10、ollection) 资料来源: 1. 统计报表 医院工作报表、疫情报表 2. 报告卡传染病、职业病、肿瘤、出生、死亡 3. 日常医疗卫生工作记录门诊及住院病历 4. 专题调查或实验 要求:及时、完整、准确 参与搜集资料人员的选择是关键。 高素质、有相关专业基础、以往曾有类似研究经历 严格培训和管理三、资料整理(data sorting)目的:将搜集到的原始资料系统化、条理化,便于进一步计算统计指标和深入分析。整理前:要对资料再次检查与核对,发现缺项或错项较多的调查表,须补查或剔除。审查无误后,设计分组 分组方式常用的有两种:1. 质量分组 将观察单位按属性和类别分组,如按性别、职业、病种等分

11、组。2. 数量分组 将观察单位按数值大小分组,如划分年龄组、身高组等。 手工汇总或计算机汇总四、资料分析(data analysis) 根据研究设计的目的、要求、资料的类型和分布特征选择正确的统计方法进行统计分析:统计描述统计推断第四节 医学统计学的应用一、拓宽医学研究思路二、医学科研设计科学合理三、资料准确可靠四、选择合适分析方法及正确解释结果小结 SUMMARY一、医学统计学定义 运用概率论和数理统计的基本原理和方法,结合医学实际,研究数据收集、整理和分析的一门应用性科学。二、几个基本概念1.总体和样本 总体:同质的全部研究对象。有限总体,无限总体 样本:总体中有代表性的一部分2.同质和变

12、异 同质:被研究指标的非实验因素相同 变异:在同质的基础上各观察单位之间的差异3.参数和统计量 参数:总体 统计量:样本4.误差观察值 实际值 主要有3种:系统误差,随机测量误差,抽样误差5. 概率 可能性大小,常用P表示。 P值的范围:0-1 分界点为0.05(5%)。P0.05为小概率事件。6. 变量及变量值 变量:指标 变量值:观察值三、统计资料类型 计量资料、计数资料、等级资料四、统计工作的基本步骤 1.设计:专业、统计 2.搜集资料:准确、完整、及时 3.整理资料:质量分组,数量分组 4.分析资料:统计描述,统计推断五、医学统计学的应用返回目录第二章 计量资料的统计描述第一节 计量资

13、料的频数分布例 某农村地区2001年14岁女孩的身高资料如下,请编制频数表和观察频数分布情况。 表 某农村地区2001年14岁女孩的身高资料(cm) 一、频数分布表及其制作 1计算极差或全距(range) 常用R表示 R=最大值-最小值 即R162.6-125.9=36.7(cm) 2决定组段和组距 组段:10个左右 下限,上限 组距(class interval):相邻两组段下限值之差。 等距,“极差组段数”的整数值 本例:分10个组段 组距极差组段数=36.7/10=3.67(cm) 取整为4cm 第一个组段的下限应略小于最小值,即取124cm 最末组上限要略大于最大值,即取164cm。3

14、列表划记 某农村地区2001年14岁女孩的身高资料(cm) 频数分布图两个重要的特征 集中趋势(central tendency)身高的测量值虽然高低不等,但向中间集中,中等身材(140-144cm)的人数最多离散趋势 (tendency of dispersion)随着身高测量值逐渐变大或变小,人数越来越少,向两端分散第二节 集中趋势指标 一、均数(mean)-算术均数 描述一组计量资料集中趋势(或平均水平)的指标。 总体均数:(读作mu) 样本均数: 适用条件:资料呈正态或近似正态分布。作用:描述数值变量资料的平均水平常用指标:算术均数、几何均数、中位数1. 直接法 观察例数不多(如样本含

15、量n小于30) 公式: :求和,读作sigma,xi:各观察值, n:总例数例 有8名正常人的空腹血糖测定值(mmol/L)为6.2,5.4,5.7,5.3,6.1,6.0,5.8,5.9,求其均数。 5.8(mmol/L) 2. 加权法 观察例数很多,先编制频数表,再计算 (自 学)fi 每组的频数 xi 组中值- (下限+上限)/2二、几何均数(geometric mean) 表示法:G 适用条件: 1.资料呈偏态分布,但经对数变换后呈正态分布; 2.观察值间呈倍数关系或近似倍数关系的资料。 如抗体的平均滴度、药物的平均效价等。计算方法: 1.直接法 : 观察例数不多(如样本含量n30)

16、例 有8份血清的抗体效价分别为 1:5, 1:10, 1:20, 1:40, 1:80, 1:160, 1:320, 1:640, 求平均抗体效价。将各抗体效价的倒数代入公式,得: =lg-1(1.752575)=57即血清的抗体平均效价为1:572. 加权法:观察例数很多时采用(自 学)三、中位数和百分位数 (一)中位数(median)定义:一组由小到大排列的观察值中位置居中的数值 中位数是一个位置指标,以中位数为界,将观察值 分为左右两半。表示法:M适用条件:资料呈明显的偏态分布;开口资料; 资料分布不清楚计算方法: 1. 直接法 (n较小时) (1)将观察值按大小顺序排列; (2)n为奇

17、数 n为偶数 例 (1)有7个人的血压(收缩压)测定值(mmHg)为: 120,123,125,127,128,130,132, 求中位数。 (2)若又观察了一个人的血压值为118(mmHg), 求中位数。(1)M=127 (mmHg)(2)M=(125+127)/2=126(mmHg)2. 频数表法(n较大时) 参见百分位数计算公式(二)百分位数(percentile) 把一组数据从小到大排列,分成100等份,各等份含1%的观察值,分割界限上的值就是百分位数。它是一个位置指标。 Px中位数是第50百分位数,用P50表示。第25,第75,第95百分位数记为P25, P75, P95是统计学上常

18、用的指标。计算:(1)将观察值编制成频数表;(2)按所分组段由小到大计算累计频数和累计频率;(3)找出百分位数所在组(如P95所在组为累计频率为 95%的所在组)L:Px 所在组段下限i:组距 n:总例数f:Px所在组段频数fL:小于L的各组段累计频数例 某传染性疾病的潜伏期(天)见下表, 求潜伏期的第95百分位数P95 某传染性疾病的潜伏期(天)的百分位数计算表18.4(天)求平均潜伏期M。10.33(天)对于任何分布的资料都可以用中位数反映平均水平。中位数不受个别特大或特小值的影响,只受位置居中的观察值波动的影响。 若资料呈对称或正态分布,中位数=均数 百分位数用于描述一组资料在某百分位置

19、上的水平,常常用于正常值范围的估计。第三节 离散趋势指标三组同龄男孩体重(kg)如下: 甲组 26 28 30 32 34 均数=30 (kg) 乙组 24 27 30 33 36 均数=30 (kg) 丙组 26 29 30 31 34 均数=30 (kg)平均水平指标仅描述一组数据的集中趋势,可作为总体均数的一个估计值。由于变异的客观存在,需要一类指标描述资料的离散趋势。常用指标:全距,四分位数间距,方差,标准差,变异系数一、全距(range)定义:一组资料中最大值与最小值之差。表示法:R R最大值最小值意义:反映个体变异范围的大小。 R越大,变异度(离散程度)越大。缺点:仅考虑两端数据的

20、差异,未考虑其它数据的变异 情况,不能全面反映一组资料的离散程度,且不稳 定,易受极端值的影响。二、四分位数间距(quartile interval)定义:上四分位数QU(P75)与下四分位数QL(P25)之差, 即包括了全部观察值中间的一半。表示法: Q意义: Q值越大,说明变异程度越大。常用于描述偏态 分布资料的离散程度。缺点:该指标比全距稍稳定,但仍未考虑每个观察值。某传染性疾病的潜伏期(天) QL(P25)所在组在潜伏期为8组,L=8, fx=48,i=4, fL=26;QU(P75)所在组为12组,L=12,fx=25,i=4,fL=74,分别代入公式得三、方差(variance)和

21、 标准差(standard deviation) 克服极差和四分位数间距不能反映每个观察值之间的离散情况这一缺点 离均差总和=总体中每个观察值xi与总体均数之差的 总和 =( xi - )=0 离均差平方和=( xi - )2 受观察单位数的影响 取离均差平方和的均数:方差方差(variance):离均差平方和的均数样本方差用S2表示,公式总体方差用2表示,公式标准差(standard deviation):方差开平方,取平方 根的正值。(恢复原度量单位)总体标准差、样本标准差的公式分别为:(n-1)和(fi-1)为自由度(degree of freedom)适用条件:对称分布,特别是正态或近

22、似正态分布资料意义:说明资料的变异程度,其值越大,说明变异程度越大S甲=3.16(kg); S乙=4.74(kg); S丙=2.92 (kg)标准差的应用:1.表示观察值的变异程度。 标准差愈小,说明观察值的离散程度愈小,从而也反映了用平均数反映平均水平,其代表性愈好。 2. 估计医学参考值范围。 标准差在科技论文报告中经常与算术均数一起使用。3. 计算标准误。4. 计算变异系数。 四、变异系数(coefficient of variation) 表示法:CV 适用条件:比较度量单位不同或均数相差悬殊的两组 (或多组)资料的变异程度。 公式:例 某地调查110名20岁男大学生,其身高均数为 1

23、72.73cm,标准差为4.09cm;其体重均数为 55.04kg, 标准差为4.10kg,试比较两者变异度。身高 CV=(4.09/172.73)100%=2.37%体重 CV=(4.10/55.04) 100%=7.45%该地20岁男大学生体重的变异度大于身高的变异度第四节 正态分布和医学参考值范围 一、正态分布 正态分布(normal distribution) 高峰位于中央(均数所在处)、两侧逐渐降低且左右对称、不与横轴相交的光滑曲线。正态分布是一种重要的连续型分布。正态分布和标准正态分布的概率密度函数(probability density function) 正态分布的概率密度函数

24、为: 标准正态分布的概率密度函数为:正态分布u=(X- )/ 标准正态分布二、正态分布的特征正态曲线(normal curve)在横轴上方均数处最高;正态分布以均数为中心,左右对称;正态分布有两个参数,即均数与标准差,常用N(, 2)表示,用N(0,1)表示标准正态分布。其位置与均 数有关,形状与标准差有关。标准差大,离散程度大, 正态分布曲线则“胖”,反之,则“瘦”;正态分布的面积分布有一定的规律性。三、正态曲线下面积的分布规律四、医学参考值范围 (一)参考值(reference ranges)的意义 医学参考值:正常人指标测定值的波动范围。(二)制定参考值的基本步骤1从正常人总体中抽样 按

25、随机化原则和方法进行抽样研究 抽取样本含量要足够大,最好在100例以上 2决定取单侧还是双侧 3. 选定合适的百分界限 参考值范围是指绝大多数正常人的测定值应该所在的范围。 习惯上指80、90、95或994选定适当的方法进行参考值范围的估计 (三) 参考值范围的估计方法利用某农村地区2001年14岁女孩的身高资料(cm)求95%的参考值范围。从图可以看出该资料基本服从正态分布,因此采用正态分布法公式。本例的,S=6.58,双侧95%的参考值范围为: =(130.18155.98)(cm)总 结一、集中趋势指标(说明一组同质资料的平均水平) 均数,几何均数,中位数二、离散趋势指标(说明一组同质资

26、料的离散度大小) 全距,四分位数间距,方差,标准差,变异系数三、正态分布和医学参考值范围 1.正态分布 图形,特征,面积分布规律 N(,2),N(0,1) 2.参考值范围 参考值范围的估计方法百分范围 (%) 单 侧 双 侧 95 99返回目录第三章 计量资料的统计推断统计分析统计描述统计推断用统计指标、统计表和统计图来描述资料的分析规律及其数量特征总体参数估计 假设检验统计推断(statistical inference)通过样本统计量信息推断相应总体参数的方法。包括对总体参数的置信推断及参数间差异的假设检验。 第一节 均数的抽样误差和总体均数的估计一、均数的抽样误差和标准误1. 均数的抽样

27、误差( sampling error of mean ) 由抽样而造成的样本均数与总体均数的差异或各样本均数的差异。2.标准误 standard error( SE, SEM ) 样本均数的标准差。反映均数抽样误差大小的指标。: 总体标准差 n:样本含量S : 样本标准差 计算公式标准误越小,说明样本均数与总体均数越接近,样本均数的代表性越好意义用途(1)衡量抽样误差大小(2)估计总体均数的置信区间(3)用于假设检验例:对某地成年男性红细胞数的抽样调查中,随机抽取了100名成年男性,调查得到其均数是5.381012/L,标准差为0.441012/L,求其标准误。 n=100 s=0.44101

28、2/L(1012/L)二、 t 分布(t-distribution) X1,X2,X3, N ( , 2 ) N (0,1 )u 分布X1,X2,X3, N ( , 2x )N (0,1 )Sxt 分布xSx(nu)t分布形状 N(0,1) =n-1n:样本含量表示法:双侧 单侧 用 途:1. 总体均数置信区间的估计 2. 用于t检验 自由度相同时,P值 , t值 P值相同时,自由度 , t值 自由度 时, t值=u值三、总体均数置信区间的估计 1、总体均数的点值估计 (point estimation) 2、总体均数的区间估计 (interval estimation) 置信度( confi

29、dence level):估计正确的概率(1-) 95%,99% :错误概率,0.05,0.01 置信区间 confidence interval(CI):按一定的置信度估计总体均数所在的区间按一定的置信度估计得到的区间n 较大时,总体均数的95%可信区间 n 较小时,总体均数的95%可信区间例 从某年某地20岁健康男大学生中抽得110名的一个样本, 求得身高的均数为172.73cm, 标准差为4.09cm, 试估计该地20岁健康男大学生身高均数的95置信区间。 该地20岁健康男大学生身高均数的95置信区间为(171.97, 173.49) cm(172.731.960.39 , 172.73

30、1.960.39) =(171.97, 173.49) cm例 从某年某地20岁健康男大学生中抽得11名的一个样本, 求得身高的均数为172.25cm, 标准差为3.31cm, 试估计该地20岁健康男大学生身高均数的95置信区间。 该地20岁健康男大学生身高均数的95置信区间为(170.03, 174.47) cm=11-1=10,查附表9-1得t0.05/2(10)=2.228(172.252.2280.996, 172.252.2280.996)=(170.03, 174.47)总体均数的95置信区间 100次抽样,可得到100个置信区间,平均有95个置信区间包括客观存在的总体均数,只有5

31、个置信区间未包括总体均数第二节 假设检验的基本思想和基本步骤例 根据大量调查,已知健康成年男子脉搏均数为72次/分。某医生在山区随机抽查25名健康成年男子,获得其脉搏均数为74.2次/分,标准差为6.5次/分,问该山区成年男子的脉搏是否不同于一般?一、假设检验的基本思想 引起两个样本均数不相等的原因有两种可能 : 1、来自相同的总体,由于抽样误差所致; 2、来自不相同的总体,由于本质差异所致。 假设检验就是在这两者中作出决策的过程。二、假设检验的基本步骤 1、建立检验假设,确定检验水准 (1)两种假设 H0: 无效假设(null hypothesis) 差异由抽样误差所致 H1: 备择假设(a

32、lternative hypothesis)(2)两侧检验:单侧,双侧(3)检验水准(显著性水平) =0.05 双侧检验: H0: H1: =0.05单侧检验: H0: H1: (或 ) =0.05 2、计算统计量 3、确定P值,作出统计推断结论 u 值 p值 结论0.05 不拒绝 H0,差异无统计学意义(1.645)1.96 0.05 拒绝 H0,差异有统计学意义(1.645)t检验单样本t检验:样本均数与总体均数的比较 成组t 检验:两个样本均数的比较配对 t 检验 :配对资料的比较 第三节 t检验和u检验u检验 适用条件:正态分布,总体方差齐同一、样本均数与总体均数的比较例 根据大量调查

33、,已知健康成年男子脉搏均数为72次/分。某医生在山区随机抽查25名健康成年男子,获得其脉搏均数为74.2次/分,标准差为6.5次/分,问该山区成年男子的脉搏是否不同于一般?总体均数:大量观侧得到的稳定值或理论值。01、建立检验假设,确定检验水准2、计算检验统计量t3、确定概率 =n-1=25-1=24,查t界值表:t0.05/2(24)2.064 t=1.6920.054、判断结果 按=0.05水准,不拒绝H0,尚不能认为该山区成年男 子的脉搏不同于一般。1、建立检验假设,确定检验水准2、计算检验统计量t3、确定概率 =n-1=25-1=24,查t界值表:t0.05(24)1.711 t=1.

34、6920.054、判断结果 按=0.05水准,不拒绝H0,尚不能认为该山区成年男 子的脉搏高于一般。该山区成年男子的脉搏是否高于一般?二、配对资料的比较差数的均数差数的标准差差数均数的标准误n 对子数【例】某医院用某中药治疗高血压病人10名,治疗前后舒张压的变化情况如下,试问此药有无降压作用?患者号 舒 张 压 差值 d2 治疗前治疗后 1 115 116 -1 1 2 110 90 20400 3 129 108 21441 4 109 89 22484 5 110 92 18324 6 116 90 26676 7 116 110 6 36 8 116 120 -4 16 9 120 88

35、 321024 10 104 96 8 64 1483466 1.建立检验假设,确定检验水准 H0: H1:2.计算统计量t值 已知 则3.确定P值 由t界值表得 t0.05/2,9 = 2.262, t0.01/2,9 = 3.250本例t=3.936 t0.01/2,9 P0.014.判断结果 在 概率水平下拒绝H0,可以认为该中草药有降血压的作用。三、两个样本均数的比较 的标准误 合并方差【例】用两组小白鼠分别给以高蛋白和低蛋白饲料,实验期间自出生后28天至84天共8周,观察各鼠所增体重(mg),结果如下。问两组膳食对小白鼠增加体重有无不同? 高蛋白组 134 146 104 119 1

36、24 161 107 83 113 129 97 123 低蛋白组 70 118 101 85 107 132 94 1、建立假设,确定检验水准 2、计算统计量t值 已知 则3、确定概率 t=1.89150 and n250例:某地抽样调查了部分健康成人的红细胞数,其中男性360人,均数为4.661012/L,标准差为0.5751012/L;女性255人,均数为4.1781012/L,标准差为0.2911012/L,试问该地男、女红细胞数的均数有无差别?u检验正态近似检验用途:两个或两个以上样本均数的比较使用条件:1.样本来自正态总体 2.样本相互独立 3.总体方差齐同第四节 方差分析(Ana

37、lysis of variance,ANOVA)例:随机抽取50-59岁男性正常者、冠心病人、脂肪肝患者各11人,测定空腹血糖值(见下表),试推断这三类人群总体均值是否相同? 正常组 冠心病组 脂肪肝组 4.75 6.26 5.78 4.75 4.36 6.68 4.77 5.24 5.44 4.61 4.67 5.86 4.49 4.55 5.67 4.02 5.18 5.24 5.03 4.61 5.42 4.57 5.12 5.14 4.21 5.26 6.09 4.88 4.83 5.74 4.62 5.59 5.72 ANOVA t-test单因素方差分析(one-factor AN

38、OVA)单方向方差分析(one-way ANOVA)一、单因素方差分析变异 SS 与自由度 (1)总变异 SS总= 总=N-1 (N:总例数) 全部观察值与总均数差异的平方和 (2)组内变异 SS组内= 组内=N-k (k:组数) 全部组内观察值与组均数差异的平方和 (3)组间变异 SS组间= 组间= k-1 各组均数与总均数差异的平方和 SS总= SS组内+ SS组间总= 组内+ 组间2. 均方 MS (1)组内均方 MS组内= SS组内/ 组内 (2)组间均方 MS组间= SS组间/ 组间3. F 值 F = MS组间/ MS组内单因素方差分析步骤1. 建立检验假设,确定检验水准 H0:

39、1=2 = a H1: i j , =0.052. 计算统计量F (1)计算各部分离均差平方和: SS总= =SS组间= =SS组内= SS总-SS组间(2)计算自由度:总=N-1 组间= k-1 组内=N-k(3)计算均方:(4)计算统计量F:F = MS组间/ MS组内 MS组间= SS组间/ 组间 MS组内= SS组内/ 组内 单因素分析的方差分析表3. 确定概率,判断结果查F表,得到F0.05,(组间, 组内) 的临界值,如果FF0.05,(组间, 组内) ,则p5.39,则 p0.01,拒绝H0 可认为三组人群的空腹血糖有显著性差异3. 确定概率,判断结果 方差分析表变异来源 SSM

40、SFP组间组内总 6.70 2 3.35 17.63 则P ,拒绝H0。二、多个样本均数间的两两比较 q-检验 样本均数排序,编秩次a=3,组内 =30,q 0.01(30,3)=4.458.46,p0.01,拒绝H0。 Group 脂肪肝组 冠心病组 正常组 Mean 5.71 69.30 4.61 Rank (1) (2) (3) H0: A=B H1: A B , =0.05 1. 建立检验假设,确定检验水准 2. 计算统计量q:3. 确定概率,判断结果 两两比较计算用表比较组组间跨度a统计量 qq(30,a)临界值P值(1)(2)(3)=0.05=0.01(4)(5)(6)(1)与(3

41、)38.463.49 4.450.01(1)与(2)(2)与(3)25.0023.462.89 3.892.89 3.890.015一、样本率与总体率的比较例:已知某地一般人群高血压患病率为13.26%,某医师在农村随机抽取460人进行观察,有43 人确诊为高血压,问该人群高血压患病率是否低于一般人群?1. H0:=0.1326 H1:u0.01 P0.01 拒绝H0 可认为该人群高血压患病率低于一般人群。二、两样本率的比较例 为研究某职业人群颈椎病发病的性别差异,今随机抽查了该职业人群男性120人和女性110人,发现男性中有36人患有颈椎病,女性中有22人患有颈椎病。试作统计推断。 1. H

42、0:1= 2 H1:12 0.052. Sp1-p2=0.0573 u=1.7453. u=1.7451.96, p0.05尚不能认为该职业人群颈椎病发病有性别差异。第三节 2 检 验 1. 检验两个或多个样本率(或构成比)之间差异是否有显著性2. 说明两种属性或现象之间是否存在相关关系3. 拟合优度检验 一、四格表资料的2 检验 例:为了解某中草药预防流脑的效果,将410名观察者随机分为两组,观察结果如表, 问两组流感发病率是否有差别? 两组人群流感发病率比较 分组 例数 发病人数 未发病人数 发病率() 服药组 230 40(50.49) 190(179.51) 17.39 对照组 180

43、 50(39.51) 130(140.49) 27.78 合 计 410 90 320 21.95(一)2 检验的基本思想 (实际频数-理论频数)2 (A-T)2 2 = 理论频数 T nR nC TRC n=(行数-1)(列数-1)=(R-1)(C-1)1. 建立检验假设,确定检验水准 H0:1=2 H1:12 =0.052. 计算统计量2值 (A-T)2 nR nC 2 TRC T n3. 确定P值,判断结果 =(R-1)(C-1) 3(二)2 检验的基本步骤 2 检验结果判断 2 值 P 差别 H00.05 无统计学意义 不拒绝2 0.05() 0.05 有统计学意义 拒绝2 0.01(

44、) 0.01 有统计学意义 拒绝20.05(1)=3.84 P=0.0520.01(1)=6.63 P=0.01 两组人群流感发病率比较 分组 例数 发病人数 未发病人数 发病率() 服药组 230 40(50.49) 190(179.51) 17.39 对照组 180 50(39.51) 130(140.49) 27.78 合 计 410 90 320 21.951. 建立检验假设,确定检验水准 H0 : 1 2 H1 : 1 2 0.052. 计算2 值 (1)T (2)2 =公式=6.363. 确定概率, 判断结果 (2-1)(2-1)1;2 6.363.84, P40, 且T5) 专用

45、公式 (n40, 且T5) 四格表形式 某情况 分组 合 计 是 否 甲 a b ab 乙 c d cd 合计 ac bd n (ad-bc)2 n 2 (ab)(cd)(ac)(bd) 四格表资料2 值计算表 发病数 未发病数 合 计 服药组 40(a) 190(b) 230(ab) 对照组 50(c) 130(d) 180(cd) 合 计 90(ac) 320(bd) 410(n) (40 130- 190 50)2 410 2 6.36 230 180 90 320校正公式 (n40, 且1T2 0.05(1) , 故P0.05, 拒绝无效假设H0 , 认为甲乙两种药物治疗某病的疗效不同

46、, 乙药的有效率 高于甲药。 Fisher确切概率法 应用条件: T1 或 n40 配对四格表形式 乙 合 计 a b ab甲 c d cd 合计 ac bd n 二、配对资料的2 检验 例: 甲乙两名医师对120张X线片子的矽肺诊断结果如下表, 试分析两名医师诊断结果的差别有无显著意义。 甲乙两医师X线矽肺诊断结果 乙 医 师 合计 甲 48 12 60 医 师 2 58 60 合 计 50 70 120 (b-c)2 2 bc40 bc 或 (b-c-1)2 2 bc40 bc 1 1. 建立检验假设,确定检验水准 H0 : 两医师诊断结果相同,bc H1 : 两医师诊断结果不同, bc

47、0.05 2. 计算2值: 因bc1440, 故 (12-2-1)2 2 5.786 1223. 确定P值,判断结果 2 5.7862 0.05(1),则0.01P0.05,按0.05水准, 拒绝H0 , 接受H1 , 认为两医生诊断矽肺的结果不同, 甲医师诊断阳性率高于乙医师。三、R C表资料的2 检验适用:多个样本率(或构成比)比较 A2 2 n ( -1) =(R-1)(C-1) nR nc nR 行合计数 nC 列合计数 n 总例数 A 实际观察数 某年3个地区婚检检出疾病构成 生殖S病 遗传病 传染病 内科病 合计 甲 72 5 19 15 111 乙 51 6 31 9 97 丙

48、68 5 42 5 120合 计 191 16 92 29 328 例:某年3个地区婚检检出疾病分类如下表, 试分 析3个地区婚检检出疾病的构成比有无差别? 1. 建立检验假设,确定检验水准 H0 : 3个地区婚检疾病构成比相同 H1 : 3个地区婚检疾病构成比不同或不全相同 0.05 2. 计算2值 2 14.970 3. 确定P值,判断结果 (4-1) (3-1)6 查附表, 2 0.05(6) 12.59, 2 0.01(6) 16.81, 故P0.05, 按0.05水准拒绝H0 , 接受H1 , 可认为3个地区婚检检出疾病的构成比不同, 有地区差异。应用R C表2 检验的注意事项 1.

49、T不宜太小,否则导致分析偏性。 一般不宜有1/5以上格子的T5, 或有一个T1。 对太小的T有三种处理办法: (1)增加样本含量; (2)将理论数太小的行或列与相邻的行或列的观察值合并,但应注意合并的合理性; (3)删除理论数太小的行或列。 2.当检验结论为拒绝H0时只能认为所比较的各组间总的差异有显著意义(或至少有两组之间差异有显著意义),但不能确定哪两组之间的差异,或彼此间的差异有显著意义。SUMMARY一、率的抽样误差和总体率的估计二、率的u检验三、2 检验 (一)四格表资料的2 检验 1.基本公式(n40, 且T5) 2.专用公式 (n40, 且T5) 3.校正公式 (n40, 且1T

50、5 )20.05(1)=3.84 P=0.0520.01(1)=6.63 P=0.01(二)配对资料的2 检验 (b-c)2 2 bc40 bc 或 (b-c-1)2 2 bc 40 bc(三)R C表资料的2 检验 1.计算 2.注意事项一、率的抽样误差和总体率的估计二、2 检验的原理和基本步骤 20.05(1)=3.84 P=0.05 20.01(1)=6.63 P=0.01三、四格表资料的2 检验(一)基本公式(n40, 且T5) (二)专用公式 (n40, 且T5) (三) 校正公式 (n40, 且1T5 ) 返回 目录第六章 相关与回归 变量间的关系: 年龄与血压,身高与体重,胰岛素

51、与血糖水平,药物剂量与疗效,污染物浓度与污染源的距离, 分析方法? 直线相关与直线回归1. 研究变量间的相互关系及紧密程度 相关分析2. 研究变量间的数量依存关系 回归分析最简单的分析方法 直线相关,直线回归 (1)只涉及两个变量 X,Y (2)X与Y之间呈直线关系 第一节 直 线 相 关 linear correlation 一、概 念1.直线相关:两个变量之间的线性关系。 (1)正相关,完全正相关 (2)负相关,完全负相关 (3)零相关2. 判断:作散点图(scatter plot),是否呈直线。0r1-1r0 :正相关 r0 :负相关0r1 : 正相关r=1 : 完全正相关1r0 : 负

52、相关r=-1 : 完全负相关注:r=0 零相关 (无相关)0r1-1rt 0.01(8) , 故P0.01, 表明红细胞体积与红细胞数之间的线性关系存在。 2. 查表法: 附表13-1:相关系数r界值表 r P 对r的判断 0.05 无统计学意义 r0.05() 0.05 有统计学意义 r0.01() 0.01 有统计学意义 上例: 查附表, r0.01(8) 0.765, 本例r0.952, rr0.01(8) ,故P0, 直线与纵轴的交点在原点的上方; (2) b0 =0, 直线通过原点; (3) b0 0, 直线从左下方走向右上方,即Y随X的增大而增大; (2) b=0, 直线与X轴平行

53、,即X与Y无线性关系; (3) b0, 直线从左上方走向右下方,即Y随X的增大而减小求最适合直线的最普通的方法 最小二乘法(least square method)使得各实测点与直线的纵向距离平方和,即误差平方和(y- )2为最小的方法。由此导出b,b0算式: blxy/lxx b0 b lxy=离均差积和 (x )(y )xy(x)(y)/n lxx=x的离均差平方和 (x )2x2(x)2/n (二)直线回归方程的计算步骤例 用分光光度计测物质含量, 其光密度读数与物质含量有关, 现有丙酮酸钠含量(mol/L)与光密度读数, 要求标准曲线。 丙酮酸钠含量与光密度读数 样品号 丙酮酸钠含量

54、光密度读数 1 1 1.0 2 2 2.1 3 3 3.2 4 4 4.2 5 5 4.81. 绘制散点图:以丙酮酸钠含量为横坐标, 光密度为纵坐标,散点呈直线趋势。 5 4 3 2 1 0 1 2 3 4 5 2. 计算基本数据:x、x2、y、y2、xy、 ,lxx、lxy。 x15 x255 y15.3 y256.33 xy55.6 x/n15/53 y/n15.3/53.06 lxxx2(x)2/n55(15)2/510.0 lxyxy(x)(y)/n55.6(1515.3)/5 9.703. 计算b、 b0 ,得回归方程: blxy/lxx9.70/100.97 b0 b 3.060.9730.15 0.150.97x4. 画回归直线:以x1及x5代入回归方程, 求相应的 。 x1时, 1.12; x5时, 5.0。 以(1, 1.12)、(5, 5.0)两点作直线即是所求的回归直线, 5 4 3 2 1 0 1 2 3 4 5(三)回归系数的假设检验1. lyy与的分解 应变量y的平

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论