




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、医学统计学总结绪论1、随机现象:在同一条件下进行试验,一次试验结果不能确定,而在一定数量的重复试验之 后呈现统计规律的现象。2、同质:统计学中对研究指标影响较大的,可以控制的主要因素。3、变异:同质基础上各观察单位某变量值的差异。厂数值变量:变量值是定量的,由此而构成的资料称为数值变量资料或计量资料,其数值是连续性的,称之为连续型变量。变量彳r无序分类变量:所分类别或属性之间无顺序和程度上的差异分类变量:定性变量-V有序分类变量:有顺序和程度上的差异4、总体:根据研究目的确定的同质研究对象中所有观察单位某变量值的集合。可以分为有限 总体和无限总体。5、样本:是按随机化原则从同质总体中随机抽取的
2、部分观察单位某变量值的集合。样本代表 性的前提:同质总体,足够的观察单位数,随机抽样。统计学中,描述样本特征的指标称为统计量,描述总体特征的指标称为参数。&概率:描述随机事件发生的可能性大小的一个度量。若P( A)=1,则称A为必然事件;若P (A) =0,则称A为不可能事件;随机事件 A的概率为0v PV 1.小概率事件:若随机事件 A的概率Pa,则称随机事件A为小概率事件,其统计学意义为: 小概率事件在一次随机试验中认为是不可能发生的。统计描述1、频数分布有两个重要的特征:集中趋势和离散程度。频数分布有对称分布和偏态分布之分。 后者是指频数分布不对称,集中趋势偏向一侧,如偏向数值小的一侧为
3、正偏态分布, 如偏向数 值大的一侧为负偏态分布。2、常用的集中趋势的描述指标有:均数,几何均数,中位数等。均数:适用于正态或近似正态的分布的数值变量资料。样本均数用x表示,总体均数用卩表示。几何均数:适用于等比级数资料和对数呈正态分布的资料。注意观察值中不能有零,一组 观察值中不能同时有正值和负值。中位数:适用于偏态分布资料以及频数分布的一端或两端无确切数据的资料。3、常用的离散程度的描述指标有:全距,四分位数间距,方差,标准差,变异系数。全距:任何资料,一组中最大值与最小值的差。四分位数间距:适用于偏态分布以及分布的一端或两端无确切数据资料。方差和标准差:正态分布资料。标准差表示观察值的变异
4、度的大小。 变异系数:比较度量单位不同或均数相差悬殊的两组资料的变异度。4、标准正态分布:对正态分布的(X-卩)/ c进行u的变换,u= (X-卩)/(T ,则正态分布变 换为卩=0,c =1的标准正态分布,亦称u分布。u被称为标准正态变量或标准正态离差。 两个参数:卩是位置参数,c是形状参数。 用N (0,1 )表示标准正态分布。常用估计医学参考值范围的方法有:(1) 正态分布方法:适用于正态或近似正态分布的资料。双侧界值:X Ua/2S单侧上界:X + LL S,或单侧下界:X-Ua S(2) 对数正态分布方法:适用于对数正态分布资料。双侧界值:Lg-1 (X lgx Ua /2S lgx
5、 )单侧上界:Lg-1 (X lgx +U a S Igx ),或单侧下界:Lg-1 ( X lgx -u aS lgx )(3) 百分位数法:用于偏态分布资料以及资料中一端或两端无确切数值的资料。 双侧上界:P2.5和P97.5 ;单侧上界:P95,或单侧下界:F5常用的U值表参考值范围(%单侧双侧800.8421.282901.2821.645951.6451.96992.3262.5765、分类变量资料的统计描述:常用相对数指标描述,包括:率,构成比,相对比。 率:说明某现象发生的频率或强度。(病死率不等于死亡率) 构成比:说明某现象内部组成部分所占的比重或分布,常以百分数表示。相对比:
6、亦称比,是A、B 2个有关指标之比,说明A为B的若干倍或百分之几。两个指 标可以性质相同,也可以性质不同。应用相对数时的注意事项:1 、计算相对数的分母不宜过小;2、分析时不能以构成比代替率;3、对观察单位数不等 的几个率,不能直接相加求其平均率;4、比较相对数时应注意其可比性;5、对样本率(或构 成比)的比较应遵循随机抽样,并做假设检验。&标准化法:标准化的目的在于消除混杂因素对结果的影响,使资料更具有可比性。其基本 思想是:将所比较的两组或多组资料的构成按统一的“标准”调整后,计算标化率,使其更具 有可比性。标准化率的计算方法:亦称标化率,直接法用于已知被标化组的年龄别率, 以及已知标准组
7、的 年龄别人口数或年龄别人口构成比时;间接法用于已知被标化组的年龄别人口数与发病 (死亡) 总数,但年龄别率未知,以及已知标准组年龄别发病(死亡)率与总发病(死亡)率时。通常可从下列3种方法选用标准组:以两组资料中任一组的年龄别人口数或构成比作为标准 组;以两组资料合并的各年龄组的人口数或构成比作为标准组;以公认的或便于与他人资料比较的标准作为标准组。7、统计表:结构:由标题、标目、线条和数字构成。编制统计表的要求: 标题:概括表的内容,列于表的上方居中,应注明时间和地点; 标目:主语和谓语分别列于横、纵标目,文字简明,层次清楚。横标目列于表的左侧,通常 为被研究的事物,纵标目列于表的上端,为
8、说明横标目的统计指标。 线条:通常,除表的顶线、底线、纵标目下以及合计上的横线外,其余线条均省去,顶线和 底线应略粗些,表的左上角不宜用斜线。 数字:用阿拉伯数字表示,同一指标的小数位数要一致并对齐, 数字暂缺或无数字者分别用 “”或“-”表示,数字为0者要记作“ 0”,不应空项,为方便核实和分析,应有合计。 备注:一般不列入表内,必要时可用“ *”标出,列于表下。8、统计图: 条图:用于相互对比关系的资料; 圆图与百分条图:适用于百分构成比资料,表示事物各组成部分所占的比重或构成; 线图:用于连续性资料,用于说明事物在时间上的发展变化, 或某现象随另一现象而变动的 情况; 直方图:表示连续性
9、资料的频数分布; 散点图:适用于直线相关分析,说明两个变量间的数量关系和变化趋势。抽样分布与参数估计抽样研究的目的是用样本信息来推断总体特征,即统计推断,包括两个内容:一是总体参数的估计,二是假设检验。1、抽样误差:由于变异的存在,抽样研究所造成的样本统计量与总体参数之间的差异或各样本统计量之间的差异称为抽样误差。常用标准误x反映均数抽样误差的大小;用率的标准误c p反映率的抽样误差的大小;用Possion计数的标准误口反映其抽样误差的大小。2、中心极限定理和正态分布推理:从正态分布 N(y,c2)总体中以固定n随机抽取样本,样本均数X的分布仍服从正态分布,即使是从偏态分布总体中随机抽样,只要
10、n足够大,X的分布也近似正态分布。样本均数的均数仍为卩,样本均数的标准差为-。样本均数的抽样误差 x (简称标准误)是反映均数抽样误差大小的指标。c用样本均数s作为的估计值,则 七3、t分布:将X看成变量值,那么可将正态变量进行 u变换(u=x-卩/ c)后,也可将N(u,2-)变换成标准正态分布N( 0, 1)。常用s作为c的估计值,统计量为t,此分布为t分布统计量t= t曲线的形态变化与自由度V的大小有关。V越小,t值越分散,曲线越低 Sx平,V逐渐增大时,则t分布逐渐逼近正态分布,当V二无穷大时,t分布即为U分布。4、总体均数的估计有两种方法:一种是点估计,即用统计量X估计总体均数 ;二
11、是区间估计,亦称可信区间。(1) c 未知且 n 小:X-t a /2,V S X X+t a/2,V S X(2) c未知,但n足够大,t分布逼近u分布:X-u a/2SX x+u/2SX(3) c 已知:X -U a /2 c XU X +Ua/2 c X标准差标准差和标准误的比较标准误 一 2V n 1表示观察值的变异程度大小计算变异系数CV仝100%x确定医学参考值的范围 计算标准误s尸n估计均数的抽样误差大小估计总体均数可信区间x-t a /2 , V S xVyV X +t a/2 , V S x进行假设检验数值变量资料的假设检验1、 假设检验的原理:假设在一次抽样研究中得出了 U
12、A 1.96,则pw 0.05,此为小概率事件, 依据“小概率事件在一次随机试验中认为是不可能发生的” 的定理,可认为此样本不是来自该 总体。2、 步骤:建立假设和确定检验水准;假设有两种,一种是检验假设,常称 无效假设或零假 设,记为H),假设样本所代表的总体参数与已知总体参数相等;另一种是 备择假设,记为H, 是与H0相联系且对立的假设;检验水准,亦称显著性水准,是判断拒绝或不拒绝H0,也是允 许犯I型错误的概率,通常用0.05。 选定检验方法和计算统计量确定 P值,做出推断结论。P值是指从H)所规定的总体中随机 抽样时,获得等于及大于现有样本统计量的概率。3、 t检验:适用于:样本均数与
13、总体均数比较(c未知且nv50或nv30);成组设计的 两小样本均数的比较(n1,n2均小于30或50);配对设计的两样本均数比较。应用条件:当样本含量较小(nv 50或nv30)时,要求样本来自正态分布总体;用于成 组设计的两样本均数比较时,要求两样本来自总体方差相等的总体。4、单样本t检验:用于样本均数与已知总体均数的比较,研究目的是推断样本所代表的总体 均数卩与已知总体均数卩0有无差别。统计量t=-一畀v=n-1s/Jn5、配对t检验:用于配对设计资料的 两均数的比较。其研究目的是推断某种处理有无作用, 或两种处理的效果有无差别。配对设计类型有3种:先将受试对象按配比条件配对,然后用随机
14、分组方法将各对中的2个受试对象分别分配到不同的处理组;同一对象分别接受2种不同处理;同一对象处理前后。t=产 (d是差值的样本均数)v二n-1sd / J n&两样本t检验:用于完全随机设计的两样本均数的 比较,两个样本来自两个总体,其研究 目的是推断两样本所分别代表的总体均数是否相等。t=SX1X2X1Xix222s1 (n1 1)s2 (n2X1x2v=n i+n 2-2n1n22J * 1)1 n 2检验。研究目的是推u=7、单样本u检验:用于样本均数与已知总体均数比较,其研究目的同断样本所代表的总体均数卩与已知总体均数卩0有无差别。其统计量8、两样本的u检验:用于完全随机设计的两样本均
15、数的比较,两个样本来自两个总体,其研 究目的是推断两样本所分别代表的总体均数是否相等。其统计量为:X1 X2X1 X2u二一 -=-sX1 X2s总离均差平方和SS和自由度vk n,_ 2SS总=(Xjj x) = X2 ( x) 2 / n / 口1 S; / 门29、正态性检验和方差齐性检验:资料在做假设检验之前首先应该检验资料是否来自正态总体, 并且它们的方差是否齐。10、两类错误:v 总二n-13、组间离均差平方和SS 组间,自由度v组间 和均方MS且间nik( . X)( x)2SS、SS组间= 丄v 组间=k_1 MS 组间=组间i 1ninV组间4、组内离均差平方和 SS组内,自
16、由度v组内和均方MS且内SS组内=SS总-SS 组间 v 组内 =n-k MS 组内=SS组内/v组内多样本均数比较的方差分析的应用条件:各样本是相互独立的随机样本;各样本来自正态 分布总体;各总体方差相等,即方差齐。5、完全随机设计资料的方差分析:亦称单因素的方差分析,可用于完全随机设计的多个样本 均数比较的资料,研究目的是推断各个样本所代表的总体均数是否相等。单因素方差分析的计算公式变异来源Ssv MS f总变异x2 Cn-1组间变异k( Xij)2j1Ci 1mk-1SSa间MS组间v组间MS组内组内变异SS 总-SS组间n-kSS组内/v组内C为校正系数C= ( x)2/n&配伍组设计
17、资料的方差分析:亦称两因素的方差分析,用于配伍组设计的多个样本均数比 较的资料,其研究目的是推断各样本所代表的总体均数是否相等,但考虑了个体差异对试验 效应的影响。两因素方差分析的计算公式变异来源SSv MSF总变异x2 C n-1处理组b(Xij)2j 1k-1SS处理/v处理 MS处理/MS误差配伍组kb(Xj)2i 1b-1SS 配伍/v配伍MS 配伍 /MS 误差误差SS总-SS处理-SS配伍(k-1)(b-1)SS误差/v误差C为校正系数C= ( x)2/ n b为配伍组数分类资料的假设检验1、二项分布:应用条件:各观察单位只能具有两种相互对立的结果已知发生某结果的概率为冗,其对立结
18、果的概率为1- nn次试验是在相同的条件下进行的。性质:卩二nn(T 二.nn( 1 n) n未知时,用样本率P作为冗的估计值,则 Sp= . p(1 p)/n若均数和标准差用率表示,则卩 p=n(T p= . n( 1 n) / n总体率的估计:正态近似法:当样本含量n足够大,且样本率p或1-p均不太小,如np与n(1-p )均大于5时样本率p的抽样误差分布近似正态分布,可信区间为:(p-U a/2Sp, p + Ua /2Sp)2、Poisson分布:对于二项分类变量,若某结果发生的概率很小,如nV 0.05时,单位时间、 人群、空间内“阳性”发生次数x (x=0,1, 2,)的概率可用P
19、oisson分布概率函数来描述:1! xp(x)=e(!/x!)递推公式:P (0) =e!P (x) = P (x 1 ! x应用条件:nV 0.05夕卜,其余同二项分布。分布的性质:(1)、Poisson分布式一种单参数的离散型分布,其参数为!,表示单位时间、人群、空间内 某事件平均发生的次数。(2) 、Poisson分布的方差 扌与均数相等。(3) 、Poisson分布可以看成是二项分布的极限形式。(4) 、Poisson分布的极限形式也是二项分布,一般当 n20时,可按正态分布处理,当nW 0.01时,二项分布可以当作 Poisson分布来处理。(5) 、Poisson分布具有 可加性
20、。总体均数的估计:(正态近似法)x Ua/2jx, x Ua/2仮3、服从二项分布资料的假设检验:(1)样本率和总体率的估计:k直接计算法:最多有k例阳性的概率:P(xk) = P(x)=1- P(x)k0正态近似法:当n0不太靠近0或1,且样本含量n足够大;或门冗0 5且n (1-冗0) 5时,二项分布接近正态分布P n Ox n n ou= =冗0(1 n 0) nn 冗o(1 冗o)(2)两样本率的比较:目的是推断两个样本各自代表的两总体率是否相等,当两个样本率均 满足正态近似条件时,可用u检验。其公式为:u=PlSrP2 =PiP2.Pc(1叽 Apc为合并阳性率,Pc=(xi+x2)
21、/(ni+n2)X1,X2为两个样本的阳性例数。4、服从Poisson分布的假设检验:对于Poisson分布的假设检验,对于总体均数可以用乘法将 小单位化大,也可以用除法将大单位化小,对于样本均数,只能用除法将大单位化小,而不能 用乘法将小单位化大。(1)样本均数与总体均数的比较:适用于卩ov20,且样本阳性数X较小作单侧检验时。k直接计算法:最多有k例阳性的概率:P(xk) = P(x)=1- P(x)k0正态近似法:当卩20时,Poisson分布逼近正态分布。u=(x卩0).卩0当两样本(2)两样本阳性数的比较:目的是推断两样本各自代表的两总体平均数是否相等。 阳性数X1, X2均大于20
22、时,可用u检验。其计算用两种情况:两样本观察单位(时间、面积、容积等)相同时:X1X2x1x2两样本观察单位(时间、面积、容积等)不同时:X2x1x2u= .x-i n1 x2 n2x1x22检验:是2检验的检验统计量为,其基本公式为:22(AJ ,自由度 v=(行数-1)(列数-1)式中A为实际频数,T为理论频数。理论频数T的计算公式为:Trc此匹n为第R| RC自由度v= (R-1)2值才能正确行第C列的理论频数,nR为相应行的合计,nc为相应列的合计,n为总例数。(C-1).2反映了实际频数与理论频数的吻合程度。只有考虑了自由度v的影响,地反应实际频数A和理论频数T的吻合程度件为:b+c
23、40)2(lb c 1)2v=1 (条件为:b+cv 40)b c2&四格表资料的检验:最小理论频数T的判断,R行与C列中,行合计数中的最小值与| RC列合计数中的最小值所对应的理论频数最小。(1) 四个表资料检验的专用公式:2(2) 四个表资料检验的校正公式:2(|A T| 0.5)2T(ad bc)2 n(a b)(c d )(a c)(b d)2(ad bc n 2)2 nc (a b)(c d)(a c)(b d)在实际工作中,对于四个表资料,通常规定为:2(1)当n40且所有的T 5时,用检验的基本公式或四个表资料2检验的专用公式;当Pa时,改用四个表资料的 Fisher确切概率法2
24、(2)当n40,但 KT5时,用四格表资料的检验的校正公式;或改用四个表资料的Fisher确切概率计算法。(3) 当nv40,或Tv 1时,用四个表资料的Fisher确切概率法。2(4) 连续性校正仅用于v=1的四格表资料,尤其是n小时。当v2时一般不做校正7、配对四个表资料的$检验:由于在抽样研究中,抽样误差是不可避免的,样本中的b和c往往不相等(即bM c),为此,需进行假设检验,其检验统计量为:2 (b c)2b cv=1 (条本方法只适用于样本含量不太大的资料,它仅考虑了两种方法结果不一致的情况,而未考 虑样本含量n和两种方法一致的两种情况,所以当 n很大且a与d的数值也很大,而b与c
25、 的数值相对较小时,即使检验统计结果有统计学意义,其实际意义也不大。8、行*列表资料的 2检验:只适用于多个样本率的比较,两个或多个构成比的比较以及双向无序分类资料的关联性检验。其基本数据由三种情况: 多个样本率的比较时,有 R行2列,称为R*2表 两个样本的构成比比较时,有 2列C列,称为2*C表R行C列,称为R*C表。 多个样本的构成比比较以及双向无序分类资料关联性检验时,有 以上三种可统称为行*列表资料基本公式:基本公式为:(A T)2专用公式:2n(A1 2nRnC1)自由度 V=(行数-1)(列数-1)注意事项:一般人行*列表资料中各格的理论频数不能小于 1,且1T5格子数不能超过总
26、数的1/5。如果 出现以上情况,可通过以下方法解决:最好是增加样本含量,使得理论频数增大;根据专 业知识,考虑能否删去理论频数太小的行和列, 能否将理论频数太小的行和列于性质相近的邻 行或邻列合并;改用双向无序 R*C的Fisher确切概率计算法。当多个样本率比较时,所得统计推断为拒绝 Ho,接受H1时,只能认为各样本率间总的来说 有差别,但不能说明任两个样本率间均有差别,需要做多个样本率的多重比较。2对于有序的R*C表资料不宜用 检验。对于R*C表的资料要根据分类类型和研究目的选 用恰当的检验方法。9、双向无序分类资料的关联性检验: 对于此资料,常常需要分析两个分类变量之间有无关系,符合参数
27、检验应用条件的资料应首选参数检验; 而不能满足参数检验应用条件的资料, 应选用 非参数检验。主要选择编秩的方法,比较统计变量T,而做出统计推断。直线回归与相关分析1、直线相关:如果两个随机变量中,当其中的一个变量由大到小的变化时,另一个变量也相 应的由大到小(后由小到大)的变化,并且相应变化的散点图在直角坐标系呈现直线趋 势,则称这两个随机变量存在直线相关。相关分析是研究变量和变量集合之间数量协同变化关系的密切程度和方向的统计方法。要求:两个变量X和丫都服从正态分布,严格说应服从双变量正态分布。直线相关系数:用于说明具有直线相关关系的两个变量间的相关关系的密切程度和相关方向; 亦称积差相关系数
28、,总体的为P,样本的为丫。大时,Z近似服从均数为Z,方差为的正态分布x和y的协方差(x x)(y y)口2z2戶则z的可信区间为(U(n 3) , u . (n 3),对其进行的变换,可以得出的可信区间直线相关分析的注意事项: 算相关系数时首先绘制散点图,判断两变量是否存在线性趋势;相关分析时要求X、丫均为随机变量,而不能用于事先界定 X、丫的资料;相关分析时必须剔除异常点;相关分析要有实际意义,两变量相关,并不一定存在联系,可能是另外一种因素引起的;分层资料不宜盲目的合并,进行相关分析;同时进行相关分析时,如果不能确定各层研究对 象具有同质基础,不宜盲目合并。不能将假设检验中 显著性大小理解
29、为两变量相关程度的大小,后者是由相关系数的大小决定 的。2、等级相关:适用于不服从双变量正态分布或总体分布未知的资料,还可用于等级资料的相关分析。等级相关系数表示两个变量间相关系数的密切程度与相关方向s基本思想:对于不符合正态分布的资料或等级资料, 将两个变量的原始观察值分别由小到大编 秩,然后利用量变量的秩次计算相关系数。回归方程为:? a bx3、直线回归: 处理两个变量间线性数量依存关系的一种统计分析方法。?为应变量,给定x的y的条件均数的估计值;b为回归斜率,表示当自变量x每变化1个单位时,应变量y平均变化b个单位;a为截距,表示没有自变量x时 其他因素对y的平均影响。线性回归模型的前
30、提条件:线性:应变量y的总体均数与自变量x呈线性关系;因此进行回归分析前应先绘制散点图;独立:任意两个观察单位之间相互独立;正态性:对任意给定x的值,y均服从正态分布;该分布的均数是回归直线上与 x值相对应 的那点的纵坐标;等方差:自变量x的取值范围内,不论x取什么值,y都具有相同的方差。直线回归分析的步骤:绘制散点图,通过观察散点的形态来判断线性假设是否成立;建立直线回归方程,即求出回归参数 a和b;通常用最小二乘法估计参数,即要求残差平方 和达到最小;a y bxxxxyn_(Xi x)(yi y)i 1 1(x)2n(x)( y) xyn绘制回归线;注意:不应超过 x的实测值范围;所绘制
31、的直线必然通过(x , y );直线的左端延长与纵轴的焦点必然是截距a。回归方程的假设检验:检验方法有方差分析和 t检验 方差分析:基本思想:将应变量 y的总变异SS总分解成SS回归和SS剩余两部分,然后利用F 检验来判断回归方程是否成立。任意一点P( x,y)的纵坐标被回归直线与均数y截成3段:三部分的变异可以表示为:(y y)2y)2 + (y y)2即卩SS总=SS回归+SS剩余各部分的意义:SS总:即lyy(y y)2,为y的总离均差平方和,反映未考虑 x和y的回归关系时的y的变异;ss回归:即 (y?y)2,称回归平方和,反映在y的总变异中,由于x和y的直线关系而使y即在总变异中可以
32、用 x解释的部分;SS回归越大,说明回归效果越好,即SS变异减小的部分,总中可用X与丫线性关系解释的变异越多。SS剩余:即 (y y)2,残差平方和或剩余平方和,反映x和y的线性影响之外的一切因素对 y的变异的作用,即在总变异中无法用x解释的部分 小;各部分的自由度为:总=该部分越小说明直线回归的估计值误差越各部分变异的计算公式为:回归+剩余剩余=n-2SS总=(y y)2(y)2S気归blxy2 xyxxSS 剩余 =SS 总-SS 回归MS回归SS剩余 剩余 MS剩余回归系数的t检验:基本思想:通过样本回归系数 回归方程是否成立。有关公式如下:统计量F的计算公式:Fb与总体均数回归系数B进
33、行比较来判断btb s;;Sb ; sxy . MS 剩余, lxxSXY为剩余标准差,是指扣除了 x因变量线性影响后离散程度。拟合效果评价:回归模型的拟合优度假设检验,检验回归方程对样本数据的拟合程度。 决定系数R2表示,R2(y ?) 2 S 尙归 2 2 Fl? R 亦 R r总体回归系数的区间估计:J)回归方程的应用:利用回归方程进行预报;统计控制。直线回归分析的注意事项:I回归分析要有实际意义,注意变量之间的内在联系和规律,两变量之间还必须是因果关系; n对资料的要求:一般y来自正态总体的随机变量,x可以是正态总体的随机变量,也可以 是精确测量和严密控制的值;川进行分析前应先绘制散点
34、图;IV必须剔除一些异常点;V回归方程的适用范围不能随意外延。其适用范围一般以自变量取值范围为界。 直线相关和回归的区别与联系:区别: 资料的要求不同:相关要求两个变量呈双变量正态分布;回归要求y服从正态分布,而x可以是精确测量和严格控制的变量; 统计意义不同:相关反映的是两变量间的伴随关系, 二者的关联程度如何,而回归反映的是 两变量间的依存关系,即因果关系,或从属关系; 分析的目的不同:相关分析的目的是描述两个变量间的相互关系, 用r来反映这种关系的方 向以及密切程度,而回归分析的目的是描述两个变量间的数量依存关系, 从而进行统计预测和 统计控制;联系: 对于同一资料,r和b的符号一致,说
35、明两变量间关系的方向; 相关系数与回归系数的假设检验是等价的,对于同一样本,右 仏,实际应用中只检验其中之一即可; 二者可以相互解释,相关系数的平方和等于回归平方和占总平方和的比例,即反映应变量y的总变异中归因于x的部分;实验设计的概述厂实验室研究:以动物或标本为研究对象实验研究的分类 Logistic回归分析中偏回归系数的意义:在其他自变量固定的条件下,第j个自变量每改变 一个单位时Logit(p)的改变量。流行病学意义:在其他因素不变的条件下,暴露因素使疾病或死亡发生的改变量。3、Cox回归模型中偏回归系数的意义:当其他协变量都不变时,Xi每变化一个单位,相对危险度的自然对数(LnRR)变
36、化匚个单位。流行病学意义:在其他因素不变的条件下,暴露组发病或死亡是非暴露组的倍数。生存分析生存时间:广义的生存时间是指从某个起始事件开始到某个终点事件的发生(出现反应)所 经历的时间。也称为失效时间。特点:分布类型不宜确定;生存时间的影响因素多而复杂且不宜控制。 截尾数据:又称为截尾值、删失数据、不完全数据,尚未观察到研究对象出现反应(终点 事件)时,即由于某种原因停止了随访,这时记录到的时间信息是不完整的。截尾的原因主要有三方面:失访:失去联系,观察期内由于搬迁或观察对象不配合的原因 可造成失访;退出:退出研究,如观察期内研究对象意外死亡,死于其他疾病,临时改变 治疗方案等而中途退出研究;
37、停止:观察期结束时仍未出现结局。死亡概率:是指某单位时段期初的观察对象在该单位时段死亡的可能性大小:某单位时段内死亡数q 该时段期初观察人数1若该时段内有删失,则分母用校正人口数:校正人口数 期初观察人数 -删失数2死亡率:指单位时间内研究对象的死亡频率或强度,即平均每千人(或万人、百人)中的死 亡人数:m 某单时段平均人死亡数 100%0平均人口数 丄(该时段期初人口数 期末人口数) 该时段平均人口数2生存概率:表示某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小,用活满某时段的人口数i q该时段期初观察人数若有删失,则分母用校正人口数生存率:指研究对象经历 t)表示。生存率随时间
38、记为S(t):t个时段后仍存活的概率,及生存时间大于等于t的概率,用P (Tt的变化而变化,即生存率是相对于时间 t的函数,称为生存函数,若前t个时段没有删失:St时段结束时仍存活的人数S(t) p(T t)研究期初观察人数若观察期内有删失,假定观察对象在各个单位时段内是否生存的时间是相互独立的,其生 存概率分别用 p1, p2.pt,贝U S(t) p1 p2.ptPjtj t生存函数又称累积生存概率,即将时刻 t尚存活看成是前t个时段一直存活的累计结果。2、生存分析的基本思路:对资料的要求:样本要有代表性,由随机抽样的方法获得,要有一定的数量;完全数据所占的比例不能太 少,即截尾值不宜太多
39、;截尾值出现的原因无偏性;生存时间尽可能精确;缺项要尽量 补齐。选择合适的生存分析方法: 非参数法:不论资料是什么样的分布形式,只根据样本提供的顺序统计量对生存率进行估计, 常用的方法有乘积极限法和寿命表法; 参数法:假定生存时间服从特定的参数分布,然后根据已知分布的特点对影响生存的时间进行分析,常用的方法有指数分布法、Weibull分布法、对数正态回归分析法和对数 Logistic回归分析法等。 半参数法:主要用于分析影响生存时间和生存率的因素,属多因素分析方法,为Cox模型I型错误:拒绝了实际上成立的1-0,即样本来自卩=U 0的总体,由于抽样的偶然性,按a =0.05 检验水准拒绝了 H
40、),接受H。这类在假设检验中拒绝了原本正确的H0的错误称为I型错误。,理论上犯I型错误的概率为a,a值得大小视研究目的而定。通常设a =0.05。U型错误:不拒绝了实际上不成立的 H0,即样本来自卩工卩0的总体,由于抽样的偶然性,按 a =0.05检验水准不拒绝H),这类在假设检验中不拒绝原本不正确的 H)的错误称为U型错误。 犯U型错误的概率为B,它只有与特定的 Hi结合起来才有意义。同时减少a和B的方法是 增加样本含量。1- B称为检验效能或把握度,即两总体确有差别时, 按a水准能识别该差别的能力。 如1- B =0.95表示:若两总体确有差别,理论上平均100次抽 样中,有95次能得出两总体有差别的结论。11、假设检验时应注意的事项: 要有严密的抽样研究设计-假设检验的前提 正确选用检验方法:完全随机的设计的两数值变量资料比较时, 若n小且方差齐,则选用两 样本t检验;若方差不齐,则选用t检验或成组设计的两样本比较的秩和检验;若 n1,n2均大 于50,则选用两样本u检验。 正确理解“显著性”的含义 对差别有无统计学意义的判断不能绝对化。方差分析1、 基本思想:按研究目的和设计类型,将总变异的离均差平方和SS和自由度v分别分解成 若
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年事业单位招聘考试试卷及答案
- 江苏苏州太仓市2025届小升初总复习数学测试题含解析
- 2025年艺术设计专业本科生考试试卷及答案
- 2025年英语四级考试试卷及答案
- 2025年体育教师资格考试试卷及答案
- 辽宁师范高等专科学校《史书选读》2023-2024学年第二学期期末试卷
- 山东省济南市部分区县2024-2025学年高三下学期期初检测试题物理试题含解析
- 辽宁省沈阳市苏家屯区市级名校2025年初三百日冲刺考试语文试题含解析
- 外交官离婚补偿协议及子女抚养、教育费用协议
- 跨界合作自媒体品牌账号整体转让协议
- 【MOOC】营养与健康-南京大学 中国大学慕课MOOC答案
- 医学教材 产褥感染护理查房
- 小学生五年级汉字听写大赛题库
- 静脉血栓栓塞症护理
- 2024年北京客运驾驶员技能测试题库及答案
- 买床合同范本
- 社区获得性肺炎(1)护理病历临床病案
- GB/T 35428-2024医院负压隔离病房环境控制要求
- 新《建筑节能》考试复习题库(浓缩500题)
- 2024年高中生物学业水平合格考及答案
- 安徽省合肥市科大附中2025年第二次中考模拟初三数学试题试卷含解析
评论
0/150
提交评论