定量资料的参数估计和假设检验基础_第1页
定量资料的参数估计和假设检验基础_第2页
定量资料的参数估计和假设检验基础_第3页
定量资料的参数估计和假设检验基础_第4页
定量资料的参数估计和假设检验基础_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章

定量资料的参数估计

和假设检验基础医学实验班总结:周璇张思阳习题:王燕陈芝羽本章重点中心极限定理标准误的概念及计算均数的参数估计(置信区间与医学参考值范围的区别)计算题学习内容一、抽样误差二、t分布三、参数估计一、抽样误差抽样误差:总体中个体变异的存在,在抽样过程中产生的样本统计量与总体参数间的差异以及样本统计量与样本统计量间的差异。两种表现形式:——

样本统计量与总体参数间的差异——

样本统计量间的差异产生的基本条件:个体变异抽样研究

正态总体中抽样时样本均数的抽样分布特点各样本均数未必等于总体均数(155.4cm);样本均数之间存在差异;样本均数的分布很有规律:围绕着总体均数(155.4cm),中间多、两边少,左右基本对称,也服从正态分布。样本均数的变异较之原变量的变异(5.3cm)大大缩小。

图1从N(155.4,5.32)抽样得到的样本均数的频数分布频率中心极限定理

(centrallimittheorem)

从正态分布总体N(μ,σ)

中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则样本均数也服从正态分布。——样本均数的均数为μ;——样本均数的标准差为标准误(standarderrorofmean,SEM或SE)样本均数的标准差,也被称为均数的标准误,它反映了样本均数间的离散程度,也反映了样本均数与总体均数间的差异,说明均数抽样误差的大小。样本统计量(均数或率)的标准差称为标准误。公式:在实际应用中可通过增加n来减小样本均数的标准误,从而降低抽样误差。注:S为样本标准差,n为样本含量。往往不知道总体标差σ为均数标准误的估计值σ

=5.3cm标准误:标准误:均数标准误的应用1、表示均数抽样误差大小,描述(n相同)样

本均数的离散程度,反映用样本均数估计或推断总体均数的可靠性;

2、与样本均数相结合,用于估计总体均数的置信(置信)区间;

3、用于进行均数的假设检验。表3标准差与标准误的区别与联系联系:⒈都是表示离散程度的指标⒉都与n大小有关均数的参数估计置信区间的概念总体均数置信区间的计算1、t分布法σ未知且样本例数n较小时,按t分布原理。2、正态分布法(1)σ已知,按标准正态分布原理计算(2)σ未知但样本例数n足够大(n>50)时,由t分布可知,自由度越大,t分布越逼近标准正态分布,按标准正态分布原理计算注:σ指总体标准差;n指的是样本含量。

置信区间

(confidenceinterval,CI)

按(1-

)的概率或置信度,估计总体参数所在范围,称作置信度为(1-

)的置信区间。置信区间:结合样本统计量和标准误确定,具有较大置信度(1

)可能包含总体参数。置信区间通常由两个置信限构成,其中较小者称为下限,记为CL,较大者称为上限,记为CU。(CL,CU)置信度:预先给定的概率(1

)称为可信度(置信度),常取95%或99%。若无特殊说明,一般取双侧95%。*2.两总体均数之差的1–α置信区间双侧均数参数估计的计算步骤first:看σ已知or未知,n与50的关系。σ未知,n≤50,t分布;σ已知或n>50,正态分布。

计算自由度:v=n-1;查t介值表;按公式计算:双侧置信区间表达式单侧置信区间表达式t分布正态分布-za/2za/2a/2a/21.若σ已知2.两总体均数之差的1–α置信区间双侧t分布的概念设从正态分布N(

,

2)中随机抽取含量为n的样本,样本均数和标准差分别为和s,则:

~t分布,

=n

1则t值服从自由度为n-1的t分布(t-distribution)。单峰分布,曲线以0为中心,左右对称类似于标准正态分布。t分布的形状与自由度

有关自由度越小,则越大,曲线越“扁平”;自由度越大,则越小,曲线越“瘦高”;当自由度为无穷大时,t分布曲线与标准正态分布曲线完全吻合,故标准正态分布是t分布的特例。

双侧t0.05/2,9=2.262表明:从正态分布总体中随机抽样,取样本含量n=10的样本,则由该样本计算的t值大于等于2.262的概率为0.025,小于等于-2.262的概率亦为0.025。P(t≤-2.262)+P(t≥2.262)=0.05或:P(-2.262<t<2.262)=1-0.05=0.95。

例:已知某地27名健康成年男子的血红蛋白量均数=125g/L,标准差S=15g/L。试问该市地健康成年男子血红蛋白平均含量的95%置信区间和99%置信区间各是多少?

计算自由度:v=27-1=26查t界值表:

=0.05时,双侧

t0.05/2,26=2.056,

=0.01时,双侧

t0.01/2,26=2.779;按公式计算:σ未知,n≤50,t分布

例:某市2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2cm,标准差为4.5cm,估计该市2000年19岁健康男大学生平均身高的95%置信区间。Z分布n=90>50置信区间与医学参考值的区别置信区间指的是平均数(μ)落在范围内有(1

)的可能性(往往为95%)。医学参考值指的是个体对应的值落在范围内有(1

)的可能性(往往为95%)。第五章

定量资料的t检验

通过假设检验判断两样本均数之间的差异是由于抽样误差所致还是由于来自不同的总体所致。μ1

=μ2?一、假设检验(Hypothesistest)的基本思想2.反证法:在假定H0(μ1=μ2)成立的条件下,得出一个错误的结论或小概率事件,那么就有理由推翻H0,也就是说拒绝H0

,接受H1(μ1

μ2)

。3.小概率原理(一)假设检验的基本步骤假设检验的方法很多,但其检验的基本步骤是一致的1、建立检验假设及确定检验水准

假设有两种:1、检验假设或无效假设或称零假设(Hypothesistobetested,nullhypothesis)用H0表示;2、备择假设(alternativehypothesis),用H1表示。H0和H1都是根据统计推断的目的提出的对总体特征的假设,是相互联系且对立的一对假设。H0和H1含义及注意事项:1、检验假设是针对总体,而非样本;2、H0和H1是互相对立,不是可有可无,而是缺一不可;3、H0无效假设,通常是某两个或多个总体参数相同或总体参数之差为0,或某资料服从某一分布等;4、H1的内容反映出单侧还是双侧。单侧、双侧问题建立假设前,先要根据分析目的和专业知识明确单侧检验还是双侧检验以及检验水准

,不能在假设检验结果得出后再加以选择。两样本均数所代表的未知总体均数

μ1与μ2的比较目的H0H1双侧检验μ1=μ2?μ1=μ2μ1

μ2单侧检验μ1>μ2?μ1=μ2μ1>μ2μ1<μ2?μ1=μ2μ1<μ2检验水准(sizeofatest)符号为

;也称显著性水准(significancelevel);是预先规定的概率值,它确定了小概率事件的标准。一般常取0.05或0.01;方差齐性检验与正态性检验时常取0.10或0.20;

存在单、双侧问题

2、选定检验方法及计算检验统计量

不同分析目的、不同设计类型和不同资料类型,选用不同检验方法。样本均数与总体均数比较用单样本t检验t值3、确定P值,作出统计推断

算出样本统计量t值后,查相应的t界值表,确定P值选择检验方法的根据是什么?根据实验设计类型,选择检验方法实验设计数据类型

检验方法完全随机设计(二样本)、多样本配对设计、配伍组设计t分布的发现使小样本统计推断成为可能;以t分布为基础的检验称为t检验;t

检验的主要类型:单组样本资料的t

检验配对设计资料的t

检验两组独立样本资料的t检验二、t检验第一节单组样本t检验(Onesamplettest)适用于样本均数与已知总体均数μ0的比较,其比较目的是检验样本均数所代表的总体均数μ是否与已知总体均数μ0有差别。已知总体均数μ0一般为标准值、理论值或经大量观察得到的较稳定的指标值。单样t检验的应用条件是总体标准差

未知的小样本资料(如n<50),且服从正态分布。

单个样本t检验——检验步骤1.建立检验假设,确定检验水准H0、H1、

2.计算检验统计量在μ=μ0成立的前提条件下,计算统计量为:3.确定P值,做出推断结论第二节配对样本均数t检验(Pairedttest)适用于配对设计计量资料均数的比较,其比较目的是检验两相关样本均数所代表的未知总体均数是否有差别。应用配对设计可以减少实验的误差和控制非处理因素,提高统计处理的效率。配对设计概述配对设计处理分配方式主要有三种情况:①两个同质受试对象分别接受两种处理,如把同窝、同性别和体重相近的动物配成一对,或把同性别和年龄相近的相同病情病人配成一对;②同一受试对象或同一标本的两个部分,随机分配接受两种不同处理,如分别用两种仪器测肺活量;③自身对比(self-contrast)。即将同一受试对象处理(实验或治疗)前后的结果进行比较,如对高血压患者治疗前后、运动员体育运动前后的某一生理指标进行比较。

配对样本均数t检验原理配对设计的资料具有对子内数据一一对应的特征,研究者应关心是对子的效应差值而不是各自的效应值进行配对t检验时,首选应计算各对数据间的差值d,将d作为变量计算均数配对样本t检验的基本原理是假设两种处理的效应相同,理论上差值d的总体均数μd

为0,现有的不等于0差值样本均数可以来自μd=0的总体,也可以来μd≠0的总体可将该检验理解为差值样本均数与已知总体均数μd(μd=0)比较的单样本t检验。其检验统计量为:

式中d为每对数据的差值,为差值样本的均数,Sd为差值样本的标准差,为差值样本均数的标准差即差值样本的标准误,n为配对样本的对子数。计算差值的标准差计算差值的标准误按公式计算,得:配对样本均数t检验——检验步骤建立检验假设,确定检验水准H0、H1、

计算检验统计量确定P值,作出推断结论自由度计算查t界值表t三、两独立样本均数比较的t检验

(twoindependentsamplettest)▲目的:由两个样本均数的差别推断两样本所取自的总体中的总体均数间有无差别?▲公式:ν=n1+n2-2其中:Sc2—合并方差(combined/pooledvariance)检验步骤建立检验假设,确定检验水准H0、H1、

计算检验统计量确定P值,做出推断结论由原始数据算出所需量,代入公式t

检验应用条件两组计量资料小样本比较;各观察值间相互独立,不互相影响;样本来自正态分布总体,配对t检验要求差值服从正态分布;大样本时,用

u检验(也称Z检验),且正态性要求可以放宽;两独立样本均数t检验要求方差齐性——两组总体方差相等或两样本方差间无显著性。正态性检验方法正态性检验(normalitytest):统计指标:偏度系数、峰度系数;W值、D值等统计图:P-P图、Q-Q图、直方图、茎叶图、箱图等统计软件的实现Kolmogorov-Smirnov检验(K-S检验),也是一种基于经验累积分布函数(ECDF)的算法,K-S检验最吸引人的特性是适用于任何连续分布,很适合小样本(也适合大样本)。

Z检验根据数理统计的中心极限定理,不论变量X的分布是否服从正态分布,当随机抽样的样本例数足够大,样本均数服从正态分布其中

为原来的总体均数,

为总体标准差为均数标准误标准正态变量为

单样本Z检验:与Z0.05=1.96Z0.01=2.58

进行比较

两大样本均数的比较:与Z0.05=1.96Z0.01=2.58

进行比较

两独立样本均数比较的t检验,要求相应的两总体方差相等,即方差具有齐性。为此,我们要对两样本的方差作统计学检验方差齐性检验方差齐性的检验用F检验,统计量F值:求得F值后,其自由度分别为:

查附表,进行方差齐性检验,ν1=n1-1,ν2=n2-1

取α=0.05水准,若F<F0.05(ν1,ν2),P>0.05,两总体方差相等,则用t检验;若F≥F0.05(ν1,ν2),P≤0.05,拒绝H0,接受H1,可认为两总体方差不等,则用t’检验。(一)先进行方差齐性检验H0:

12=

22H1:

12≠

22

计算检验统计量F值:确定P值,作出统计推论自由度ν1=n1-1ν2=n2-1查F界值表若两总体方差不等1、近似t检验2、采用数据变换3、非参数检验t

检验计算公式:两独立样本均数比较的t’检验

(twoindependentsamplet-test)按Cochran&Cox法,tα’界限值计算公式:此处。α可取0.05或0.01。当α确定后,可查t界值表求得tα。ν1及tα,v2,将它代入上式即可求得tα’(双侧用tα/2’)。若t

’>tα’,则P<α,反之P>α。同时减小Ⅰ型错误

和Ⅱ型错误

,唯一的方法就是增加样本含量n

Ⅰ型错误与Ⅱ型错误示意图(以单侧u检验为例)

样本量一定时,愈小,

愈大1-a即可信度(confidencelevel):重复抽样时,样本区间包含总体参数的可能性;1-β称为检验效能(powerofatest),也称把握度,意义为,当两总体确有差别,按检验水准α,假设检验能发现其差别(拒绝H0)的能力。注意事项

1.假设检验结论正确的前提是样本资料必须能代表相应的总体,同时各对比组具有良好的组间均衡性,即各组间除了要比较的主要因素不相同外,其它影响结果的因素应尽可能相同或基本相近。为了保证资料的可比性,严密的试验设计随机抽样,随机分组

2.

检验方法的选用及其适用条件,应根据分析目的、研究设计、资料类型、样本量大小等选用适当的检验方法。

t检验是以正态分布为基础的,资料的正态性可用正态性检验方法检验予以判断。若资料为非正态分布,可采用数据变换的方法,尝试将资料变换成正态分布资料后进行分析。3.正确理解差别有无显著性的统计学意义

对假设检验结论中的“拒绝H0,接受H1”称为“有统计学意义”;“不拒绝H0”称为“无统计学意义”。不应把“有统计学意义”误解为差别很大,甚至在医学实践中有重要的价值;同理,也不应把“无统计学意义”误解为差别不大,或一定相等。拒绝H0,可能产生I型错误;不拒绝H0,可能产生II型错误。另外,是否拒绝H0不仅决定于被研究事物有无本质差异,还决定于抽样误差大小、检验水准

的高低以及单侧、双侧检验,样本例数。4.结论不能绝对化假设检验的结论是根据P值大小作出的,不是百分之百的正确。5.上述检验方法应用条件t检验的应用条件:

未知且n较小时,要求样本来自正态分布总体;两样本均数比较时,还要求两样本所属总体的方差相等。但在实际工作中,与上述条件略有偏离时,也可应用。

u检验的应用条件:

已知或

未知但n足够大(如n>100)。6.假设检验和可信区间的关系假设检验用以推断总体均数间是否相同,而可信区间则用于估计总体均数所在的范围。方差分析基本思想:把全部观察值的不同(即总变异)按设计和需要分解成两个或多个部分,不同设计中总变异的分解各有不同,其中一定包括随机误差,将其他部分的变异分别于随机误差进行比较,从而判断均数间的差别是否具有统计学意义。主要包括总变异,组间变异和组内变异。第六章定量资料的方差分析本章重点完全随机设计资料方差分析要求:掌握基本步骤,能看懂相关表格。可能题型:计算题(详见P63例题)有大量计算的概率:较低60是采用完全随机化的分组方法,将全部试验对象分配到g个处理组(水平组),各组分别接受不同的处理,试验结束后比较各组均数之间的差别有无统计学意义,推论处理因素的效应。完全随机设计(completelyrandomdesign)61统计分析方法选择:1.对于正态分布且方差齐同的资料,常采用完全随机设计的单因素方差分析(one-wayANOVA)或成组资料的t检验(g=2);2.对于非正态分布或方差不齐的资料,可进行数据变换或采用Wilcoxon秩和检验。方差分析的应用条件各样本是相互独立的随机样本各样本来自正态分布各样本方差相等,即方差齐。

例:某医生为了研究一种降血脂新药的临床疗效,按统一纳入标准选择120名高血脂患者,采用完全随机设计方法将患者等分为4组,进行双盲试验。6周后测得低密度脂蛋白作为试验结果,见表3。问4个处理组患者的低密度脂蛋白含量总体均数有无差别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论