医学统计学ppt课件.ppt_第1页
医学统计学ppt课件.ppt_第2页
医学统计学ppt课件.ppt_第3页
医学统计学ppt课件.ppt_第4页
医学统计学ppt课件.ppt_第5页
已阅读5页,还剩660页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学本科生用 医 学 统 计 学,第1页 共666页,第1章绪论,The teaching plan for medical students,Professor Cheng Cong,Dept. of Preventive Medicine Taishan Medical College,第2页 共666页,第1章绪论,医学统计学总目录,第1章绪论,第2章定量资料统计描述,第3章总体均数的区间估计和假设检验,第4章方差分析,第5章定性资料的统计描述,第6章总体率的区间估计和假设检验,第7章二项分布与泊松分布,第8章秩和检验,第9章直线相关与回归,第10章实验设计,第11章调查设计,第12章统计表与统计图,第3页 共666页,第1章绪论,第1章绪论 目录,第五节 学习统计学应注意的几个问题,第二节 统计工作的基本步骤,第三节 统计资料的类型,第四节 统计学中的几个基本概念,第一节 医学统计学的定义和内容,第4页 共666页,第1章绪论,第一章 绪论 第一节 医学统计学的定义和内容,医学统计学(medical statistics) -是以医学理论为指导,运用数理统计学的原理和方法研究医学资料的搜集、整理与分析,从而掌握事物内在客观规律的一门学科。,第5页 共666页,第1章绪论,医学研究的对象-主要是人以及与其健康有关的各种影响因素。 医学统计学的主要内容 : 1.统计设计 包括实验设计和调查设计,它可以合理地、科学地安排实验和调查工作,使之能较少地花费人力、物力和时间,取得较满意和可靠的结果。 2.资料的统计描述和总体指标的估计 通过计算各种统计指标和统计图表来描述资料的集中趋势、离散趋势和分布特征况(如正态分布或偏态分布);利用样本指标来估计总体指标的大小。,第6页 共666页,第1章绪论,3.假设检验 是通过统计检验方法(如t检验、u检验、F检验、卡方检验、秩和检验等)来推断两组或多组统计指标的差异是抽样误差造成的还是有本质的差别。 4.相关与回归 医学中存在许多相互联系、相互制约的现象。如儿童的身高与体重、胸围与肺活量、血糖与尿糖等,都需要利用相关与回归来分析。,第7页 共666页,第1章绪论,5.多因素分析 如多元回归、判别分析、聚类分析、正交设计分析、主成分分析、因子分析、logistic回归、Cox比例风险回归等,都是分析医学中多因素有效的方法(本书不涉及,请参考有关统计书籍)。这些方法计算复杂,大部分需借助计算机来完成。 6.健康统计 研究人群健康的指标与统计方法,除了用上述的某些方法外,他还有其特有的方法,如寿命表、生存分析、死因分析、人口预测等方法,第8页 共666页,第1章绪论,医学统计工作可分为四个步骤: 统计设计、搜集资料、整理资料和分析资料。 这四个步骤密切联系,缺一不可,任何一个步骤的缺陷和失误,都会影响统计结果的正确性。,第二节 统计工作的基本步骤,第9页 共666页,第1章绪论,设计(design)是统计工作的第一步,也是关键的一步,是对统计工作全过程的设想和计划安排。 统计设计就是根据研究目的确定试验因素、受试对象和观察指标,并在现有的客观条件下决定用什么方式和方法来获取原始资料,并对原始资料如何进行整理,以及整理后的资料应该计算什么统计指标和统计分析的预期结果如何等。,一、统计设计,第10页 共666页,第1章绪论,搜集资料(collection of date) 是根据设计的要求,获取准确可靠的原始资料,是统计分析结果可靠的重要保证。 医学统计资料的来源主要有以下三个方面: 1.统计报表 统计报表是医疗卫生机构根据国家规定的报告制度,定期逐级上报的有关报表。如法定传染病报表、出生死亡报表、医院工作报表等,报表要完整、准确、及时。,二、搜集资料,第11页 共666页,第1章绪论,2.医疗卫生工作记录 如病历、医学检查记录、卫生监测记录等。 3.专题调查或实验研究 它是根据研究目的选定的专题调查或实验研究,搜集资料有明确的目的与针对性。它是医学科研资料的主要来源。,第12页 共666页,第1章绪论,整理资料(sorting data)的目的就是将搜集到的原始资料进行反复核对和认真检查,纠正错误,分类汇总,使其系统化、条理化,便于进一步的计算和分析。整理资料的过程如下: 1.审核:认真检查核对,保证资料的准确性和完整性。 2.分组:归纳分组,分组方法有两种: 质量分组,即将观察单位按其类别或属性分组,如按性别、职业、阳性和阴性等分组。 数量分组,即将观察单位按其数值的大小分组,如按年龄的大小、药物剂量的大小等分组。,三、整理资料,第13页 共666页,第1章绪论,3.汇总: 分组后的资料要按照设计的要求进行 汇总,整理成统计表。原始资料较少时用手工汇 总,当原始资料较多时,可使用计算机汇总。 四、分析资料 分析资料(analysis of data) 是根据设计的要求,对整理后的数据进行统计学分析,结合专业知识,作出科学合理的解释。,第14页 共666页,第1章绪论,1.统计描述(descriptive statistics) 将计算出的统计指标与统计表、统计图相结合,全面描述资料的数量特征及分布规律。 2.统计推断(inferential statistics) 使用样本信息推断总体特征。通过样本统计量进行总体参数的估计和假设检验,以达到了解总体的数量特征及其分布规律,才是最终的研究目的。,统计分析包括以下两大内容:,第15页 共666页,第1章绪论,医学统计资料按研究指标的性质一般分为定量资料、定性资料和等级资料三大类。 一、定量资料 定量资料(quantitative data) 亦称计量资料(measurement data),是用定量的方法测定观察单位(个体)某项指标数值的大小,所得的资料称定量资料。如身高()、体重()、脉搏(次/分)、血压(kPa)等为数值变量,其组成的资料为定量资料。,第三节 统计资料的类型,第16页 共666页,第1章绪论,定性资料(qualitative data) 亦称计数资料(enumeration data)或分类资料(categorical data),是将观察单位按某种属性或类别分组,清点各组的观察单位数,所得的资料称定性资料。 定性资料的观察指标为分类变量(categorical variable)。如人的性别按男、女分组;化验结果按阳性、阴性分组;动物实验按生存、死亡分组;调查某人群的血型按A、B、O、AB分组等,观察单位出现的结果为分类变量,分类变量没有量的差别,只有质的不同,其组成的资料为定性资料。,二、定性资料,第17页 共666页,第1章绪论,三、等级资料,等级资料(ranked data)亦称有序分类资料(ordinal categorical data),是将观察单位按属性的等级分组,清点各组的观察单位数,所得的资料为等级资料。 如治疗结果分为治愈、显效、好转、无效四个等级。,第18页 共666页,第1章绪论,根据需要,各类变量可以互相转化。若按贫血的诊断标准将血红蛋白分为四个等级:重度贫血、中度贫血、轻度贫血、正常,可按等级资料处理。有时亦可将定性资料或等级资料数量化,如将等级资料的治疗结果赋以分值,分别用0、1、2等表示,则可按定量资料处理。 如调查某人群的尿糖的情况,以人为观察单位,结果可分、五个等级。,第19页 共666页,第1章绪论,同质(homogeneity) 是指观察单位或研究个体间被研究指标的主要影响因素相同或基本相同。如研究儿童的生长发育,同性别、同年龄、同地区、同民族、健康的儿童即为同质儿童。 变异(variation) 由于生物个体的各种指标所受影响因素极为复杂,同质的个体间各种指标存在差异,这种差异称为变异。如同质的儿童身高、体重、血压、脉搏等指标会有一定的差别。,第四节 统计学中的几个基本概念 一、同质与变异,第20页 共666页,第1章绪论,二、总体与样本,样本(sample):是从总体中随机抽取的部分观察单位变量值的集合。样本的例数称为样本含量(sample size)。 注意: 1。总体是相对的,总体的大小是根据研究目的而确定的。 2。样本应有代表性,即应该随机抽样并有足够的样本含量。,第21页 共666页,第1章绪论,图示:总体与样本,population,sample2,sample1,sample3,sample4,sample5,第22页 共666页,第1章绪论,三、参数与统计量,参数(parameter):由总体计算或得到的统计指标称为参数。总体参数具有很重要的参考价值。如总体均数,总体标准差等。 统计量(statistic):由样本计算的指标称为统计量。如样本均数,样本标准差s等。 注意:一般不容易得到参数,而容易获得样本统计量。,第23页 共666页,第1章绪论,四、抽样误差,抽样误差(sample error): 由于随机抽样所引起的样本统计量与总体参数之间的差异以及样本统计量之间的差别称为抽样误差。如样本均数与总体均数之间的差别,样本率与总体率的差别等。 注意:抽样误差是不可避免的。无论抽样抽得多么好,也会存在抽样误差。,第24页 共666页,第1章绪论,五、概率,概率(probability):是描述随机事件发生可能性大小的量值。用英文大写字母P来表示。概率的取值范围在01之间。当P0时,称为不可能事件;当P1时,称为必然事件。 小概率事件:统计学上一般把P0.05或P0.01的事件称为小概率事件。 小概率原理:小概率事件在一次试验中几乎不可能发生。利用该原理可对科研资料进行假设检验。,第25页 共666页,第1章绪论,第五节 学习医学统计学应注意的问题,1.重点掌握医学统计学的基本知识、基本技能、基本概念和基本方法,掌握使用范围和注意事项。 2.要培养科学的统计思维方法,提高分析问题、解决问题的能力。 3.掌握调查设计和实验设计的原则,培养搜集、整理、分析统计资料的系统工作能力。,第26页 共666页,第1章绪论,课后作业,列举出计量资料、分类资料、等级资料各10个实例。 列举出可能事件、必然事件、不可能事件及小概率事件各10个。 认真复习本章已学过的基本概念23遍。,第27页 共666页,第1章绪论,Best Wishes to All of You! Thank You for Listening!,THE END,第28页 共666页,第1章绪论,医学本科生用,主讲 程 琮,泰山医学院预防医学教研室 zcheng,医学统计学,第29页,第2章定量资料统计描述,The teaching plan for medical students,Professor Cheng Cong,Dept. of Preventive Medicine Taishan Medical College,第30页,第2章定量资料统计描述,第2章定量资料的统计描述 目录,第二节 集中趋势的描述,第三节 离散趋势的描述,第四节 正态分布,第一节 频数分布表,第31页,第2章定量资料统计描述,统计描述:是用统计图表、统计指标来描述资料的分布规律及其数量特征。 频数分布表(frequency distribution table):主要由组段和频数两部分组成表格。,第一节 频数分布表,第二章 定量资料的统计描述,第32页,第2章定量资料统计描述,二、频数分布表的编制,编制步骤 : 1. 计算全距 (range): 一组变量值最大值和最小值之差称为全距(range),亦称极差,常用R表示。 2. 确定组距(class interval): 组距用i表示; 3. 划分组段: 每个组段的起点称组下限,终点称组上限。一般分为815组。 ; 4. 统计频数: 将所有变量值通过划记逐个归入相应组段 ; 5.频率与累计频率: 将各组的频数除以n所得的比值被称为频率。累计频率等于累计频数除以总例数。,第33页,第2章定量资料统计描述,表2-2 某年某市120名12岁健康男孩身高(cm)的频数分布,第34页,第2章定量资料统计描述,第35页,第2章定量资料统计描述,二、频数分布表的用途,1.揭示资料的分布类型 2.观察资料的集中趋势和离散趋势 3.便于发现某些特大或特小的可疑值 4.便于进一步计算统计指标和作统计处理,第36页,第2章定量资料统计描述,第37页,第2章定量资料统计描述,第二节 集中趋势的描述,集中趋势 :代表一组同质变量值的集中趋势 或平均水平。 常用的平均数有算术均数、几何均数和中位数。 另外不常用的有:众数,调和平均数和调整均数等。,第38页,第2章定量资料统计描述,一、算术均数,算术均数 (arithmetic mean): 简称均数。 适用条件:对称分布或近似对称分布的资料。 习惯上以希腊字母表示总体均数(population mean),以英文字母表示样本均数(sample mean),第39页,第2章定量资料统计描述,1. 直接法:用于观察值个数不多时,计算方法,第40页,第2章定量资料统计描述,2.加权法(weighting method):用于变量值个数 较多时。,注意:权数即频数f,为权重权衡之意。,第41页,第2章定量资料统计描述,表2-4 120名12岁健康男孩身高(cm)均数和标准差加权法计算表,第42页,第2章定量资料统计描述,第43页,第2章定量资料统计描述,120名12岁健康男孩身高均数为143.07cm。,计算结果,第44页,第2章定量资料统计描述,几何均数(geometric mean,简记为):表示其平均水平。 适用条件:对于变量值呈倍数关系或呈对数正态分布(正偏态分布),如抗体效价及抗体滴度,某些传染病的潜伏期,细菌计数等。 计算公式:有直接法和加权法。,二、几何均数,第45页,第2章定量资料统计描述,1.直接法: 用于变量值的个数n较少时,第46页,第2章定量资料统计描述,直接法计算实例,第47页,第2章定量资料统计描述,2.加权法 : 用于资料中相同变量值的个数f(即频数)较多时。,第48页,第2章定量资料统计描述,表2-5 50名儿童麻疹疫苗接种后血凝抑制抗体滴度几何均数计算表,第49页,第2章定量资料统计描述,第50页,第2章定量资料统计描述,50名儿童麻疹疫苗接种后平均血凝抑制抗体滴度为1:60.55。,计算结果:将有关已知数据代入公式有,第51页,第2章定量资料统计描述,变量值中不能有0; 不能同时有正值和负值; 若全是负值,计算时可先把负号去掉,得出结果后再加上负号。,计算几何均数注意事项:,第52页,第2章定量资料统计描述,中位数 定义:将一组变量值从小到大按顺序排列,位次居中的变量值称为中位数(median,简记为M)。 适用条件:变量值中出现个别特小或特大的数值;资料的分布呈明显偏态,即大部分的变量值偏向一侧;变量值分布一端或两端无确定数值,只有小于或大于某个数值;资料的分布不清。,三、中位数及百分位数,第53页,第2章定量资料统计描述,定义:百分位数(percentile)是一种位置指标,以Px表示。百分位数是将频数等分为一百的分位数。一组观察值从小到大按顺序排列,理论上有x%的变量值比Px小,有(100-x)%的变量值比Px大。故P50分位数也就是中位数,即P50=M 。, 百分位数,第54页,第2章定量资料统计描述,描述一组资料在某百分位置上的水平; 用于确定正常值范围; 计算四分位数间距。,百分位数的应用条件:,第55页,第2章定量资料统计描述,计算方法:有直接法和加权法,1.直接法:用于例数较少时,n为奇数时,n为偶数时,第56页,第2章定量资料统计描述,2.频数表法: 用于例数较多时,中位数,百分位数,第57页,第2章定量资料统计描述,表2-6 145例食物中毒病人潜伏期分布表,第58页,第2章定量资料统计描述,第59页,第2章定量资料统计描述,先找到包含Px的最小累计频率; 该累计频率同行左边的组段值为L; L同行右边的频数为fx(或fm); L前一行的累计频数为fL; 将上述已知条件代入公式计算Px或P50 。,计算中位数及百分位数的步骤:,第60页,第2章定量资料统计描述,计算结果:,第61页,第2章定量资料统计描述,定义:用来说明变量值的离散程度或变异程度。 注意:仅用集中趋势尚不能完全反映一组数据的特征。故应将集中趋势和离散趋势结合起来才能更好地反映一组数据的特征。 常用离散指标有:极差、四分位数间距、标准差、方差、变异系数。,第三节 离散趋势的描述,第62页,第2章定量资料统计描述,甲组: 184 186 188 190 192 乙组: 180 184 188 192 196 两组球员的平均身高都是188cm,但甲组球员身高比较集中,乙组球员身高比较分散。为了说明离散趋势,就要用离散指标。,实例分析,第63页,第2章定量资料统计描述,极差 极差(range,简记为R)亦称全距,即一组变量值中最大值与最小值之差 。 特点:计算简单,不稳定,不全面,易变化;可用于各种分布的资料。,一、极差和四分位数间距,第64页,第2章定量资料统计描述,四分位数间距,公式: Q= P75P25 特点:比极差稳定,只反映中间两端值的差异。 计算不太方便。可用于各种分布的资料。,第65页,第2章定量资料统计描述,二、方差和标准差,方差(variance),总体方差,样本方差,第66页,第2章定量资料统计描述,自由度(degree of freedom)的概念,n-1是自由度,用希腊小写字母表示,读作nju:。 定义:在N维或N度空间中能够自由选择的维数或度数。 例:ABC,共有n=3个元素,其中只能任选2个元素的值,故自由度n-1=3-1=2。,第67页,第2章定量资料统计描述,方差的特点,充分反映每个数据间的离散状况,意义深刻; 指标稳定,应用广泛,但计算较为复杂,不易理解; 方差的单位与原数据不同,有时使用时不太方便; 在方差分析中应用甚广而极为重要。,第68页,第2章定量资料统计描述,(二)标准差(standard deviation),总体标准差,样本标准差,第69页,第2章定量资料统计描述,牢记:离均差平方和展开式:,第70页,第2章定量资料统计描述,标准差的特点:,意义同方差,是方差的开平方; 标准差的单位与原数据相同,使用方便,意义深刻,应用广泛;故一般已作为医学生物学领域中反映变异的标准,故称标准差。,第71页,第2章定量资料统计描述,标准差的计算方法:可分为直接法和加权法。,1.直接法,2.加权法,第72页,第2章定量资料统计描述,直接法:标准差计算实例:,例2.12 例2.2中7名正常男子红细胞数(1012/L)如下:4.67, 4.74, 4.77, 4.88,4.76, 4.72, 4.92,计算其标准差。 x=4.67+4.74+4.77+4.88+4.76+4.72+4.92=33.46 x2=4.672+4.742+4.772+4.882+4.762+4.722+4.922=159.99,第73页,第2章定量资料统计描述,计算结果:,第74页,第2章定量资料统计描述,例2.13 对表2-4资料用加权法计算120名12岁健康男孩身高值的标准差。,加权法:标准差计算实例:,在表2-4中已算得fx=17168,fx2 =2460040, 代入公式,第75页,第2章定量资料统计描述,变异系数(coefficient of variation): 简记为CV ; 特征:变异系数为无量纲单位,可以比较不同单位指标间的变异度;变异系数消除了均数的大小对标准差的影响,所以可以比较两均数相差较大时指标间的变异度。,三、变异系数,第76页,第2章定量资料统计描述,例2.14 某地20岁男子160人,身高均数为166.06cm,标准差为4.95cm; 体重均数为53.72kg, 标准差为4.96kg。试比较身高与体重的变异程度。,变异系数 计算实例,第77页,第2章定量资料统计描述,身高,体重,变异系数 计算结果,第78页,第2章定量资料统计描述,第四节 正态分布,一、正态分布的概念和特征,正态分布(normal distribution):也称高斯分布,是医学和生物学最常见的连续性分布。如身高、体重、红细胞数、血红蛋白等。,第79页,第2章定量资料统计描述,图2-1 120名12岁健康男孩身高的频数分布,第80页,第2章定量资料统计描述, 正态分布的函数和图形,正态分布的密度函数,即正态曲线的方程为:,第81页,第2章定量资料统计描述,图2-2 频数分布逐渐接近正态分布示意,第82页,第2章定量资料统计描述,为了应用方便,常按公式(2.19)作变量变换,u值称为标准正态变量或标准正态离差,有的参考书也将u值称为z值。,第83页,第2章定量资料统计描述,这样将正态分布变换为标准正态分布 (standard normal distribution),第84页,第2章定量资料统计描述,图2-3 正态分布的面积与纵高,第85页,第2章定量资料统计描述,正态分布的特征,1. 集中性 正态曲线的高峰位于正中央, 即均数所在的位置。 对称性 正态曲线以均数为中心,左右对称, 3. 正态分布有两个参数,即均数和标准差。 4. 正态曲线下面积有一定的分布规律,第86页,第2章定量资料统计描述,图2-4 不同标准差的正态分布示意,第87页,第2章定量资料统计描述,二、正态曲线下面积的分布规律,第88页,第2章定量资料统计描述,标准正态分布表(u值表),标准正态分布曲线下的面积,由此表可查出曲线下某区间的面积。查表时应注意: 表中曲线下面积为-到u 的下侧累计面积; 当已知、和X时,先按公式(2.19)求得u值,再查表;当和未知时,并且样本例数在100例以上,常用样本均数和标准差S分别代替和 ,按公式(2.19)求得u值; 曲线下横轴上的总面积为100%或1,第89页,第2章定量资料统计描述,例2.16 前例2.1中,某年某市120名12岁健康男孩身高,已知均数=143.07cm,标准差S=5.70cm, 估计该地12岁健康男孩身高在135cm以下者占该地12岁男孩总数的百分数; 估计身高界于135cm150cm范围内12岁男孩的比例; 分别求出均数1S、均数1.96S、均数2.58S范围内12岁男孩人数占该120名男孩总数的实际百分数,说明与理论百分数是否接近。,第90页,第2章定量资料统计描述,根据题意,按公式(2.19)作u变换,第91页,第2章定量资料统计描述,身高范围所占面积,故估计该地12男孩身高在135cm以下者约占7.78; 身高界于135cm150cm范围内者约占81.10。,第92页,第2章定量资料统计描述,三、正态分布的应用,制定医学参考值范围 参考值范围也称为正常值范围。医学上常把绝大数正常人的某指标范围称为该指标的正常值范围。这里的“绝大多数”可以是90、95、99,最常用的是95。 质量控制 常以均数2S作为上、下警戒值,以均数3S作为上、下控制值。 正态分布是很多统计方法的理论基础,第93页,第2章定量资料统计描述,THE END,THANK YOU FOR LISTENING,第94页,第2章定量资料统计描述,本科生用 医学统计学教案,主讲 程 琮,泰山医学院预防医学教研室 Zcheng,第95页,第3章总体均数的区间估计和假设检验,The teaching plan for medical students,Professor Cheng Cong,Dept. of Preventive Medicine Taishan Medical College,第96页,第3章总体均数的区间估计和假设检验,第3章总体均数的区间估计和假设检验 目录,第五节 均数的 u 检验,第二节 t 分布,第三节 总体均数的区间估计,第四节 假设检验的意义和基本步骤,第一节 均数的抽样误差与标准误,第六节 均数的 t 检验,第七节两个方差的齐性检验和t检验,第八节 型错误和型错误,第九节 应用假设检验应注意的问题,第97页,第3章总体均数的区间估计和假设检验,图示:总体与样本,Population ,sample2,sample1,sample3,sample4,sample5,第98页,第3章总体均数的区间估计和假设检验,一、标准误的意义及其计算 统计推断(statistical inference) :根据样本信息来推论总体特征。 均数的抽样误差 :由抽样引起的样本均数与总体均数的差异称为均数的抽样误差。 标准误(standard error):反映均数抽样误差大小的指标。,第一节 均数的抽样误差与标准误,第99页,第3章总体均数的区间估计和假设检验,已知:,标准误计算公式,未知:,第100页,第3章总体均数的区间估计和假设检验,实例:如某年某市120名12岁健康男孩,已求得 均数为143.07cm,标准差为5.70cm,按公式计算,则标准误为:,第101页,第3章总体均数的区间估计和假设检验,1.表示抽样误差的大小 ; 2.进行总体均数的区间估计; 3.进行均数的假设检验等 。,二、标准误的应用,第102页,第3章总体均数的区间估计和假设检验,正态变量X采用u(X)/变换,则一般的正态分布N (,)即变换为标准正态分布N (0,1)。 又因从正态总体抽取的样本均数服从正态分布 N(, ),同样可作正态变量的u变换,即,第二节 t 分布 一、t 分布的概念,第103页,第3章总体均数的区间估计和假设检验,实际工作中由于理论的标准误往往未知,而用样本的标准误作为的估计值, 此时就不是u变换而是t变换了,即下式:,第104页,第3章总体均数的区间估计和假设检验,t分布于1908年由英国统计学家W.S.Gosset以“Student”笔名发表,故又称Student t 分布(Students t-distribution)。,第105页,第3章总体均数的区间估计和假设检验,二、t分布曲线的特征,t分布曲线是单峰分布,以0为中心,左右两侧对称, 曲线的中间比标准正态曲线(u分布曲线)低,两侧翘得比标准正态曲线略高。 t分布曲线随自由度而变化,当样本含量越小(严格地说是自由度 =n-1越小),t分布与u分布差别越大;当逐渐增大时,t分布逐渐逼近于u分布,当 =时,t分布就完全成正态分布 。 t分布曲线是一簇曲线,而不是一条曲线。 t分布下面积分布规律:查t分布表。,第106页,第3章总体均数的区间估计和假设检验,t 分布示意图,第107页,第3章总体均数的区间估计和假设检验,t分布曲线下双侧或单侧尾部合计面积,我们常把自由度为的t分布曲线下双侧尾部合计面积或单侧尾部面积为指定值时,则横轴上相应的t界值记为t,。如当 =20, =0.05时,记为t0.05, 20;当 =22, =0.01时,记为t0.01, 22。对于t, 值,可根据和值,查附表2,t界值表。,第108页,第3章总体均数的区间估计和假设检验,t分布是t检验的理论基础。由公式(3.4)可知,t值与样本均数和总体均数之差成正比,与标准误成反比 。 在t分布中t值越大,其两侧或单侧以外的面积所占曲线下总面积的比重就越小 ,说明在抽样中获得此t值以及更大t值的机会就越小,这种机会的大小是用概率P来表示的。 t值越大,则P值越小;反之,t值越小,P值越大。根据上述的意义,在同一自由度下,t t ,则P ; 反之,tt,则P。,第109页,第3章总体均数的区间估计和假设检验,第三节 总体均数的区间估计,参数估计:用样本指标(统计量)估计总体指标(参数)称为参数估计。 估计总体均数的方法有两种,即: 点值估计(point estimation ) 区间估计(interval estimation)。,第110页,第3章总体均数的区间估计和假设检验,一、点值估计,点值估计:是直接用样本均数作为总体均数的估计值。 此法计算简便,但由于存在抽样误差,通过样本均数不可能准确地估计出总体均数大小,也无法确知总体均数的可靠程度 。,第111页,第3章总体均数的区间估计和假设检验,二、区间估计,区间估计是按一定的概率(1-)估计包含总体均数可能的范围,该范围亦称总体均数的可信区间(confidence interval,缩写为CI)。 1-称为可信度,常取1-为0.95和0.99,即总体均数的95%可信区间和99%可信区间。 1-(如95)可信区间的含义是:总体均数被包含在该区间内的可能性是1-,即(95),没有被包含的可能性为,即(5)。,第112页,第3章总体均数的区间估计和假设检验,总体均数的可信区间的计算,1.未知且n较小(n100) 按t分布的原理,2.已知或n较大(n100) 按u分布的原理,第113页,第3章总体均数的区间估计和假设检验,95%的可信区间 为123.72.0642.38,即(118.79, 128.61)。故该地1岁婴儿血红蛋白平均值95的可信区间为118.7128.61(g/L)。,例3.1 为了了解某地1岁婴儿的血红蛋白浓度,从该地随机抽取了1岁婴儿25人,测得其血红蛋白的平均数为123.7g/L,标准差为11.9g/L。试求该地1岁婴儿的血红蛋白平均值95的可信区间。,第114页,第3章总体均数的区间估计和假设检验,例3.2 上述某市120名12岁健康男孩身高均数为143.07cm,标准误为0.52cm,试估计该市12岁康男孩身高均数95%和99%的可信区间。,95%的可信区间为 143.071.960.52,即(142.05,144.09)。 99%的可信区间为 143.072.580.52, 即(141.73,144.41)。,第115页,第3章总体均数的区间估计和假设检验,注 意 点,标准误愈小,估计总体均数可信区间的范围也愈窄,说明样本均数与总体均数愈接近,对总体均数的估计也愈精确; 反之,标准误愈大,估计总体均数可信区间的范围也愈宽,说明样本均数距总体均数愈远,对总体均数的估计也愈差。,第116页,第3章总体均数的区间估计和假设检验,表3-1 标准差和标准误的区别,第117页,第3章总体均数的区间估计和假设检验,第四节 假设检验的意义和基本步骤,假设检验(hypothesis test):亦称显著性检验(significance test),是统计推断的重要内容。它是指先对总体的参数或分布作出某种假设,再用适当的统计方法根据样本对总体提供的信息,推断此假设应当拒绝或不拒绝。,第118页,第3章总体均数的区间估计和假设检验,例3.3 根据大量调查,已知健康成年男子脉搏的均数为72次/分钟,某医生在一山区随机测量了25名健康成年男子脉搏数,求得其均数为74.2次/分钟,标准差为6.5次/分钟,能否认为该山区成年男子的脉搏数与一般健康成年男子的脉搏数不同?,本例两个均数不等有两种可能性: 山区成年男子的脉搏总体均数与一般健康成年男子的脉搏总体均数是相同的,差别仅仅由于抽样误差所致; 受山区某些因素的影响,两个总体的均数是不相同的。如何作出判断呢?按照逻辑推理,如果第一种可能性较大时,可以接受它,统计上称差异无统计学意义(no statistical significance); 如果第一种可能性较小时,可以拒绝它而接受后者,统计上称差异有统计学意义(statistical significance)。,第119页,第3章总体均数的区间估计和假设检验,假设检验的一般步骤如下:,1.建立检验假设 一种是无效假设(null hypothesis),符号为H0; 一种是备择假设(alternative hypothesis) 符号为H1。,H0:,H1:,第120页,第3章总体均数的区间估计和假设检验,表3-2 样本均数所代表的未知总体均数 与已知总体均数的比较,第121页,第3章总体均数的区间估计和假设检验,表3-3 两样本均数所代表的未知总体均数的比较,第122页,第3章总体均数的区间估计和假设检验,2.确定检验水准 检验水准(size of a test)亦称显著性水准(significance level),符号为 。它是判别差异有无统计意义的概率水准,其大小应根据分析的要求确定。通常取 = 0.05。 3.选定检验方法和计算统计量 根据研究设计的类型和统计推断的目的要求选用不同的检验方法。如完全随机设计中,两样本均数的比较可用t检验,样本含量较大时(n100),可用u检验。不同的统计检验方法,可得到不同的统计量,如t 值和u值。,第123页,第3章总体均数的区间估计和假设检验,4.确定概率P值 P值是指在H0所规定的总体中作随机抽样,获得等于及大于(或小于)现有统计量的概率。 t t, ,则P ;t 。,第124页,第3章总体均数的区间估计和假设检验,5.作出推断结论 当P时,表示在H0成立的条件下,出现等于及大于现有统计量的概率是小概率,根据小概率事件原理,现有样本信息不支持H0,因而拒绝H0,结论为按所取检验水准拒绝H0,接受H1,即差异有统计学意义,如例3.3 可认为两总体脉搏均数有差别; 当P时,表示在H0成立的条件下,出现等于及大于现有统计量的概率不是小概率,现有样本信息还不能拒绝H0,结论为按所取检验水准不拒绝H0,即差异无统计意义,如例3.3 尚不能认为两总体脉搏均数有差别。,第125页,第3章总体均数的区间估计和假设检验,下结论时的注意点:,P ,拒绝H0,不能认为H0肯定不成立,因为虽然在H0成立的条件下出现等于及大于现有统计量的概率虽小,但仍有可能出现; 同理,P ,不拒绝H0,更不能认为H0肯定成立。由此可见,假设检验的结论是具有概率性的,无论拒绝H0或不拒绝H0,都有可能发生错误,即第一类错误或第二类错误,第126页,第3章总体均数的区间估计和假设检验,第五节 均数的u检验,国外统计书籍及统计软件亦称为单样本u检验(one sample u-test)。 样本均数与总体均数比较的u检验适用于: 总体标准差已知的情况; 样本含量较大时,比如n100时。对于后者,是因为n较大,也较大,则t分布很接近u分布的缘故。,一、样本均数与总体均数比较的u检验,第127页,第3章总体均数的区间估计和假设检验,u 值的计算公式为:,总体标准差已知 时,不管n的大小。,总体标准差未知 时,但n100时。,第128页,第3章总体均数的区间估计和假设检验,例3.4 某托儿所三年来测得2124月龄的47名男婴平均体重11kg。查得近期全国九城市城区大量调查的同龄男婴平均体重11.18kg,标准差为1.23kg。问该托儿所男婴的体重发育状况与全国九城市的同期水平有无不同?(全国九城市的调查结果可作为总体指标),实 例,第129页,第3章总体均数的区间估计和假设检验,(1)建立检验假设 H0: 0 ,即该托儿所男婴的体重发育状况与全国九城市的同期水平相同, 0.05(双侧) H1: 0 ,即该托儿所男婴的体重发育状况与全国九城市的同期水平不同。 (2)计算u值 本例因总体标准差已知,故可用u检验。 本例n=47, 样本均数=11, 总体均数=11.18,总体标准差=1.23, 代入公式(3.7),第130页,第3章总体均数的区间估计和假设检验,(3)确定P值,作出推断结论 查u界值表(附表2,t界值表中为一行),得u0.05=1.96,u=1.0030.05。按=0.05水准,不拒绝H0,差异无统计学意义。 结论:可认为该托儿所男婴的体重发育状况与全国九城市的同期水平相同。,第131页,第3章总体均数的区间估计和假设检验,二、两样本均数比较的u检验,该检验也称为独立样本u检验(independent sample u-test),适用于两样本含量较大(如n150且n250)时,u值可按下式计算:,第132页,第3章总体均数的区间估计和假设检验,例3.5 测得某地2024岁健康女子100人收缩压均数为15.27kPa,标准差为1.16kPa;又测得该地2024岁健康男子100人收缩压均数为16.11kPa,标准差为1.41kPa。问该地2024岁健康女子和男子之间收缩压均数有无差别?,实 例,第133页,第3章总体均数的区间估计和假设检验,(1)建立检验假设 H0:1 2 ,即该地2024岁健康女子和男子之间收缩压均数相同; H1: 12 ,即该地2024岁健康女子和男子之间收缩压均数不同。 0.05(双侧) (2)计算u值 本例 n1=100, 均数1=15.27, S1=1.16 n2=100, 均数2=16.11, S2=1.41,第134页,第3章总体均数的区间估计和假设检验,(3)确定P值,作出推断结论 查u界值表(附表2,t界值表中为一行),得u0.05=1.96,现uu0.05=1.96,故P0.05。按水准 =0.05,拒绝H0,接受H1,差异有统计学意义。 结论:可认为该地2024岁健康人的收缩压均数男性高于女性。,第135页,第3章总体均数的区间估计和假设检验,第六节 均数的 t 检验,当样本含量较小(如n50)时,t分布和u分布有较大的出入,所以小样本的样本均数与总体均数的比较以及两个样本均数的比较要用t检验。 t检验的适用条件:样本来自正态总体或近似正态总体;两样本总体方差相等。,第136页,第3章总体均数的区间估计和假设检验,一、样本均数与总体均数比较的t检验,亦称为单样本t检验(one sample t-test)。即样本均数代表的未知总体均数与已知的总体均数(一般为理论值、标准值或经过大量观察所得的稳定值等)进行比较。这时检验统计量t值的计算在H0成立的前提条件下由公式(3.4)变为:,第137页,第3章总体均数的区间估计和假设检验,例3.6 对例3.3资料进行t检验。,(1)建立检验假设 H0: 0 ,即该山区健康成年男子脉搏均数与一般健康成年男子脉搏均数相同; H1:0 ,即该山区健康成年男子脉搏均数与一般健康成年男子脉搏均数不同。 0.05(双侧) (2)计算t值 本例n = 25 , s = 6.5 , 样本均数=74.2 ,总体均数 =72 , 代入公式(3.10),第138页,第3章总体均数的区间估计和假设检验,(3)确定P值, 作出推断结论 本例 =251=24,查附表2,t界值表,得t0.05,24=2.064,现t=1.6920.05。按 =0.05的水准,不拒绝H0,差异无统计学意义。 结论:即根据本资料还不能认为此山区健康成年男子脉搏数与一般健康成年男子不同。,第139页,第3章总体均数的区间估计和假设检验,二、配对资料的t检验,医学科研中配对资料的三种主要类型: 同一批受试对象治疗前后某些生理、生化指标的比较; 同一种样品,采用两种不同的方法进行测定,来比较两种方法有无不同; 配对动物试验,各对动物试验结果的比较等。 配对实验设计得到的资料称为配对资料。,第140页,第3章总体均数的区间估计和假设检验,先求出各对子的差值d的均值, 若两种处理的效应无差别,理论上差值d 的总体均数应为0。 所以这类资料的比较可看作是样本均数与总体均数为0的比较。 要求差值的总体分布为正态分布。 t检验的公式为:,配对资料的 t 检验(paired samples t-test),第141页,第3章总体均数的区间估计和假设检验,例3.7 设有12名志愿受试者服用某减肥药,服药前和服药后一个疗程各测量一次体重(kg),数据如表3-4所示。问此减肥药是否有效?,(1)建立检验假设 H0:d=0, 即该减肥药无效; H1:d0 ,即该减肥药有效。 单侧=0.05,第142页,第3章总体均数的区间估计和假设检验,表3-4 某减肥药研究的体重(kg)观察值,第143页,第3章总体均数的区间估计和假设检验,(2)计算t值 本例n = 12, d = -16,d2 = 710, 差值的均数=d /n = -16/12 = -1.33(kg ),第144页,第3章总体均数的区间估计和假设检验,(3)确定P值,作出推断结论 自由度=n-1=12-1=11,查附表2,t界值表,得单侧t0.05,11=2.201,现t=0.58 0.05。按=0.05水准,不拒绝H0, 差异无统计学意义。 结论:故尚不能认为该减肥药有减肥效果。,第145页,第3章总体均数的区间估计和假设检验,例3.8 某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系,将同种属的大白鼠按性别相同,年龄、体重相近配成8对,并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组,然后定期将大白鼠杀死,测得其肝中维生素A的含量如表3-5。 问不同饲料组的大白鼠肝中维生素A含量有无差别? (自学内容),第146页,第3章总体均数的区间估计和假设检验,三、两样本均数比较的t检验,两本均数比较的t检验亦称为成组t检验,又称为独立样本t检验(independent samples t-test)。 适用于比较按完全随机设计而得到的两组资料,比较的目的是推断它们各自所代表的总体均数和是否相等。,第147页,第3章总体均数的区间估计和假设检验,样本估计值为 :,总体方差已知:,标准误的计算公式,第148页,第3章总体均数的区间估计和假设检验,若n1=n2时:,已知S1和S2时:,第149页,第3章总体均数的区间估计和假设检验,例3.9 测得14名慢性支气管炎病人与11名健康人的尿中17酮类固醇(mol/24h)排出量如下,试比较两组人的尿中17酮类固醇的排出量有无不同。,原始调查数据如下: 病 人X1:n=14; 10.05 18.75 18.99 15.94 13.96 17.67 20.51 17.22 14.69 15.10 9.42 8.21 7.24 24.60 健康人X2:n=11; 17.95 30.46 10.88 22.38 12.89 23.01 13.89 19.40 15.83 26.72 17.29,第150页,第3章总体均数的区间估计和假设检验,(1)建立检验假设 H0:1 2 ,即病人与健康人的尿中17酮类固醇的排出量相同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论