版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1,肿瘤研究中的统计方法,陈万青 全国肿瘤防治研究办公室 全国肿瘤登记中心,主要内容,统计学基本概念的简介 统计描述常用指标和分布 统计推断 线性回归 Logistic 回归分析 生存分析,2,第一部分,统计学基本概念的简介,3,4,医学中统计思维的发展,1834 英国皇家统计学会 1894 Pearson 现代统计教育 Pearson和Galton的努力将其变为高级的应用 数学学科,并用于解决医学、生物学问题 1903 Lister预防医学研究所创建第一个统计系 统计在医学中的作用开始得到强调和认可 强调医学艺术 统计艺术 强调个人经验 科学证据,5,统计医学领域的应用,实验研究-实验数据分
2、析 临床研究-个体 临床试验-临床治疗的有效性和安全性 临床用某种药物治疗缺铁性贫血的疗效 甲:治疗10人,8人有效 乙:治疗10人,4人有效 临床科研 外科医生观察了100例肺癌患者的术后生存情况(月): 3,10,20,12,28,70,9,6,统计在医学领域的应用,公共卫生-人群数据的分析 流行病研究-吸烟与肺癌 卫生服务-卫生资源需求和利用、医保改革 健康统计-医学人口、生长发育、疾病统计等,7,统计在医学领域的应用,公共卫生-人群数据的分析 建模-癌症治疗预后的预测或治疗方法选择 通过临床对某肿瘤治疗的有效性和安全性,结合病人的其他指标,建立病人治疗效果的预测或建立治疗方法选择的预测
3、模型 理论研究如肿瘤发病的模型、预测 根据某地区人群的历史数据,分析未来发病的变化趋势 其他,统计分析的基本框架,8,统计学,通过样本信息推断总体特性,9,统计工作的步骤,研究设计: 科学、可行的研究设计是研究成败的关键 每一项研究的初期就应该考虑统计分析的情况,而非收集到数据之后才考虑统计分析 资料收集与整理: 收集:统计报表、工作记录、专题调查或实验 整理:原始资料的清理、录入、检查 分析评估: 统计描述和统计推断,由样本估计总体,由样本统计量估计总体参数; 阐明事物的内在联系和规律,合理呈现,10,统计的作用,统计工作在研究中的作用: 参与研究的设计、观察和资料的搜集,处理研究阶段与统计
4、相关的问题并提出建议 根据统计学原理对资料进行统计分析和推断 统计的目的: 通过样本信息推断总体特性,11,研究个体(观察单位): 根据研究目的确定的最基本的研究对象单位,也称观察单位。 研究对象根据不同的研究设定有不同的界定,可以是研究的患者,如肺癌患者、乳腺癌患者等,也也可以为正常的对照组对象。,基本概念-个体,12,基本概念-总体,总体: 根据研究目的确定的同质的所有个体某项观察值(测量值)的集合。 实际研究中往往观察/测量多个指标,构成个体的一组观察指标,因此简单的称总体是根据研究目的确定的同质个体的全体。 如:某时某地区50岁以上女性乳腺癌发病情况,13,基本概念-总体,总体: 有限
5、总体和无限总体: 总体中的个体有限与否 研究总体和目标总体: 目标总体:用某药治疗的全部肺癌患者 研究总体:符合研究条件的患者,14,基本概念-样本,样本:样本是研究中实际观测或调查到的那部分个体的集合 样本量:样本中的个体数量 抽样:在研究对象(总体/总体的一部分)中抽取一部分个体,样本数据的选取决定总体推论的结果,15,基本概念-样本,在实际工作中,一般不可能或不必要对每个观察单位逐一进行研究。我们只能从中抽取一部分对象加以实际观察或研究,根据对这一部分样本的观察研究结果去推论和估计总体情况。 透过样本数据研究总体规律,通过对样本的分析了解总体的基本情况或推断总体的特征,16,基本概念-概
6、率和频率,随机事件:随机现象的某个可能观察结果。如治疗的结果:治愈和未愈 频率:在n次观察中,随机事件A发生了m次,则A发生的比例为f=m/n。 频率呈现随机性和波动性:治愈率不同 随着观察次数n的增大,f随机波动幅度减小,并趋于常数概率。,17,基本概念-概率和频率,概率:描述随机事件发生的可能性大小 小概率事件原理:小概率事件在一次随机抽样中不会发生 小概率事件:随机事件发生的概率小于等于0.05 是未知的总体参数(通过样本估计),18,基本概念-概率和频率,概率:描述随机事件发生的可能性大小(01) 小概率事件原理:小概率事件在一次随机抽样中不会发生-统计推断的基本思想 小概率事件:随机
7、事件发生的概率小于等于0.05 是未知的总体参数(通过样本估计),19,基本概念-变量,变量-所研究的观察对象的一个或几个特征,观察指标 随机变量random variable:观察结果是随机的。随机变量分为:连续型资料和离散型资料,20,变量类型 连续型变量-取值范围是一个区间,连续取值 离散型变量-取值范围是有限个值或一个数列构成。表示分类情况的离散型变量又称为分类变量,基本概念-变量,21,离散型变量 离散型变量-取值范围是有限个值或一个数列构成。表示分类情况时又称为分类变量: 无序变量:两分类和多分类如血型,也可用数字进行编码,但没有大小关系。 有序变量或等级变量:取值为互不相容的类别
8、,而且在研究背景下有等级顺序,如疗效(无效、有效、显效),基本概念-变量,22,变量的转化 变量的转换顺序 连续型变量 有序变量 分类变量 变量的转换会导致信息的损失,且变量转换不可逆,基本概念-变量,23,变异(variation): 指个体的某指标之间的差异性,变异具有普遍性和随机性 同一总体的同质性,不同总体的异质性 做统计推论时一般假设来自同一总体的任意两部分的变异属性相同,基本概念-变异,24,同类个体变异在概率意义下是有规律的,表现为观察值出现在不同范围中的概率大小 同一总体的个体之间的差异具有一定的规律性,以变量值的分布来反映,如正态分布,称为某变量服从正态分布。 任何随机现象或
9、随机变异都有其固有的分布规律,即概率分布,在大量重复观察实验中会呈现其规律性,基本概念-变异,25,基本概念-参数,参数:描述总体特征的指标,也称为总体参数。 参数可用来确定某一分布的特征;如总体均数,总体发病率 参数往往是未知的,一般通过样本估计总体参数,26,基本概念-统计量,统计量:刻画样本特征的指标。 由观察资料计算出来的量; 可以用来近似的反映总体参数 统计的任务:由样本估计总体,由样本统计量估计总体参数,第二部分,统计描述常用指标和分布,27,统计描述,28,数值型资料: 集中趋势:均值(算术、几何)、中位数; 离散程度:方差、标准差、变异系数、全距、四分位数、百分位数。 频数分布
10、表和频数分布图。 离散型资料(分类资料): 频数分布:率,结构比、相对比; 频数分布表和频数分布图。,频数分布,29,频数分布的两个特征: 集中趋势与离散趋势(共性与个性) 频数分布的类型: 对称分布与偏态分布(集中位置偏向小的一侧叫正偏态,反之叫负偏态) 频数表的主要用途: 1. 揭示分布类型 2. 发现特大值和特小值 3. 计算集中趋势指标与离散趋势指标,算术均数,意义:一组性质相同的观察值在数量上的平均水平。 表示 (总体), (样本) 计算:直接法、间接法、软件计算 特征: 估计误差之和为0。 应用:正态分布或近似正态分布 注意:合理分组,才能求均数,否则算出的均数没有实际意义。,30
11、,几何均数,意义:N个数值的乘积开N次方即为这N 个数的几何均数。 表示:G 计算: 应用:原始数据分布不对称,经对数转换后呈对称分布的资料。数值范围跨越多个数量级。例如抗体滴度。,31,中位数、百份位数,意义:将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。 表示:M 、PX 计算: 百分位数:将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X百分位数。中位数是百分位的特殊形式。 应用:偏态资料,32,中位数、百份位数,偏态资料用算术均数处理会产生什么样的结果? 正态分布资料用中位数、百份位数处理会产生什么样的结果?,33,标准差,相关概念:离均
12、差、离均差之和、离均差平方和、方差(2 S2 ) 标准差的符号:S (样本)、 (总体) 意义:全面反映了一组观察值的变异程度.(越大说明围绕均数越离散,反之说明较集中在均数周围,均数的代表性越好) 应用:描述变异程度、计算标准误、计算变异系数、描述正态分布、估计正常值范围,34,变异系数,意义:标准差与均数之比用百分数表示。 符号: CV 计算: CV=(S/X)100% 应用:单位不同的多组数据间比较 均数相差悬殊的多组资料,35,标准误(Standard error),概念 抽样误差:由于抽样引起的样本统计量与总体参数之间的差异。 标准误 :(x Sx) 表示抽样误差大小的指标和样本均数
13、的标准差。,36,标准误(Standard error),(均数)的标准误 意义:反映抽样误差的大小。标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性越大。 与样本量的关系:S 一定,n,标准误,37,常见分布,正态分布XN(, 2) 经过标准变换:标准正态分布XN(0, 1) 二项分布 XB(n, ) Poisson分布 t 分布,38,正态分布,39,正态分布的特点,40,均数处最高(说明什么?) 均数为中心左右对称 2个参数 N(u ,)决定图形的位置和形状 标准正态分布:N(0 ,1); 标准正态变换(变换公式); 曲线下的面积有一定规律,正态分布曲线下面积,41,正态分布应用
14、,医学参考值的确定 一般用正常人群某指标95%的取值范围作为医学参考值 医学参考值的确定方法 百分位数法 双侧(P2.5, P97.5)或 单侧P5以上 或P95以下 正态分布法 1.96S 质量控制:3倍标准差定义异常值,42,t 分布,43,哥塞特(W.S. Gosset,18761937) 1908年,哥塞特首次以“学生”(Student)为笔名,在生物计量学杂志上发表了“平均数的概率误差”。由于这篇文章提供了 “学生t检验”的基础,t分布,44,t 分布的图形(u 分布 是t 分布的特殊形式),t分布,45,t分布类似于标准正态分布。 标准正态曲线的方差为1,而在小样本时可以证明t是大
15、于1的,而当n无限大时,t趋向于1。 对于小的n值,t分布比标准正态分布要分散些,t依赖于两个随机变量: 当n无限增大时t的变异减少,事实上存在着整个一族的t分布。每一个样本容量n对应该分布族的一个成员。 当n增大时,t分布就接近于正态分布,当n增至30以上时,t分布和正态分布几乎没有区别。,第三部分,统计推断与假设检验,46,统计推断,47,统计推断,统计推断(Statistical inference):用样本信息推论总体特征的过程。 参数估计: 运用统计学原理,采用样本计算出来的统计指标量对总体指标量进行估计。 假设检验:又称显著性检验,是指由样本间存在的差别对样本所代表的总体间是否存在
16、着差别做出判断。,48,统计推断, 参数:总体的统计指标称为参数( 、) 统计量:样本的统计指标叫统计量(X、s、p) 参数统计:我们介绍的统计推断方法,通常要求样本来自正态总体,或方差齐等,在这些假设的基础上,对总体参数进行估计和检验,称为参数统计。 非参数统计:有许多资料不符合参数统计的要求,不能用参数统计的方法进行检验,而需要一种不依赖于总体分布类型,也不对总体参数进行统计推断的假设检验,称为非参检验。,49,统计推断参数估计,参数估计:用样本统计量估计总体参数。 点(值)估计(近似值) 用样本均数直接作为总体均数的估计值, 未考虑抽样误差。 区间估计(近似范围) 根据样本统计量,按一定
17、的可信度计算 出总体参数可能在的一个范围区间,称为总体参数的可信区间(confidence interval, CI),50,注意:样本估计的区间反应的是总体参数的范围,区间估计,51,公式1,(x ts x,xt s x) 即(xts x),公式2,(xus x,xu s x) 即(xus x),(1-) 可衡量估计的准确度,一般用用 取值0.05或0.01,即估计的准确度为95%或99%,取值的理解小概率原理,统计推断:假设某一事件发生的可能性很小,而“一个概率很小的事件在一次实验中一般是不会发生的”,所以如果检验的结果显示概率比小则反推出假设是不对的。(小概率原理) 取值0.05,实际应
18、用中多取 =0.05,52,假设检验,假设检验也叫显著性检验; 假设检验是科研数据处理的重要工具; 为什么要做假设检验? 如果某事发生了,那么发生的原因是由于碰巧?还是由于必然的原因?因此需要运用显著性检验来回答这类问题。 目的:判断由于何种原因造成的不同,53,假设检验的原理/思想,反证法的思想:当一件事情的发生只有两种可能A和B,为了肯定其中的一种情况A,但又不能直接证实A,这时通过否定另一种可能B而则间接的肯定了A。 概率论(小概率原理):如果一件事情发生的概率很小,那么在进行一次试验时,我们说这个事件是“不会发生的”。从一般的常识可知,这句话在大多数情况下是正确的,但是它一定有犯错误的
19、可能,因为概率再小也是有可能发生的。,54,假设检验的一般步骤,建立假设: 检验假设(H0) 与 被择假设(H1) 确定显著性水平():一般=0.05 计算统计量:u, t, 2 , F 统计量是在检验假设(H0)成立的情况下,才会出现的分布类型或满足公式 确定概率值并做出推论 根据计算的统计量确定p值,与比较,55,假设检验,当p,即得到大于现有统计量值的可能性p大于,假设H0不属于小概率事件,则不拒绝H0,即认为差异无统计学意义 当p,说明如果H0成立,则得到等于或大于现有统计量的可能性p小于,因此,H0为小概率事件(一次实验不应该出现),则拒绝假设H0 ,即认为差异有统计意义,56,理解
20、假设检验的结果,思考: 既然在统计检验中表示假设检验犯错的概率,那么,是不是的取值越小越好?为什么?,57,理解假设检验的结果,假设检验的结论是根据概率推断的,所以不是绝对正确: 当 p , 拒绝 H0, 接受H1,按接受H1下结论,可能犯错误,可能拒绝了实际上成立的H0, 称为 类错误( “弃真”的错误 ),其概率大小用 表示。,58,理解假设检验的结果,当 p , 不能拒绝 H0, 不能接受H1,按不能接受H1下结论,也可能犯错误,没有拒绝实际上不成立的H0 , 这类称为 II 类错误( “存伪”的错误), 其概率大小用 表示值一般不能确切的知道,59,理解假设检验的结果,I 类错误 和
21、II 类错误 当样本量一定时,愈小, 则愈大,反之亦然; 2.当一定时, 样本量增加, 减少. 为了平衡两类错误的大小, 取值并不是越小越好,当然也不能太大!,60,思考:什么时候犯I 类错误,什么时候犯II 类错误?,假设检验的注意事项,假设检验的注意事项 选择假设检验方法要注意符合其应用条件 当不能拒绝H0时,即差异无显著性时,应考虑 可能是样本例数不够的因素 单侧检验与双侧检验的问题 二者的统计量取值不一样,61,统计推断分析的基本方法,62,t - 检验 方差分析 相关分析 回归分析 卡方检验 秩和检验,条 件,计量资料的总体参数与点估计,63,标准误,均值,标准差,总体参数 样本估计
22、值,总体均数的( 1-)100%的置信区间,64,1) 当 x N(,),未知,n 足够大时,2) 当 x N(,),未知,n 不足够大时,3) 当 x N(,),已知时,总体率的( 1-)100%的置信区间,65,二项分布 XB(n, ) 总体率的比较,常用假设检验方法的介绍,t检验(小样本资料的检验,t分布见 P43) 条件:正态性和方差齐性 类型: 一组样本资料的t检验 配对资料的t检验 两组独立样本资料的t检验 注意:如果资料不满足条件,应该考虑对进行资料变换,否则应该考虑用非参检验的方法,66,t检验举例说明,设样本观察值为X1,X2, Xn ,欲检验该样本是否来自均数为0的已知总体
23、。 t检验步骤为: (1)建立假设: H0:样本来自均数为0的总体 H1:样本所来自的总体均数不为0 检验水准取值:双侧= 0.05,67,t检验举例说明,(2)计算统计量,求P值 求得t值后,据查t临界值表得t0.05,t0.01。,68,自由度=n-1,t检验举例说明,t检验的结果判定 如果tt0.05,则P0.05,不拒绝H0。即样本均数和0的差异无统计学意义。 t0.05tt0.01,则0.01P0.05,在=0.05水平上拒绝H0, 即样本均数和0的差异有统计学意义。 认为该样本并非来自均数为0的总体。 t0.01t,则P0.01,在=0.01水平上拒绝H0,69,t检验举例说明,随
24、机抽取某地区96个成年男子的脉搏平均数是每分钟73.7次,标准差为8.8次,试问该地区成年男子的脉搏平均数和每分钟72次有无差别? 查t界值表 =95时, t0.05=1.982,70,t检验举例说明,随机抽取某地区96个成年男子的脉搏平均数是每分钟73.7次,标准差为8.8次,试问该地区成年男子的脉搏平均数和每分钟72次有无差别? H0: =72 H1:72 t=|73.7-72|/(8.8/ )=1.893 自由度: =96-1=95 查t界值表 =95时,t0.05=1.982,t=1.893t0.05,故P0.05。认为某地区成年男子的平均脉搏数与每分钟72次差别无统计学意义。,71,
25、t检验举例说明,配对t检验 配对t检验(Paried t Test)用于配对试验设计的资料分析,配对设计是按一些非实验因素条件将受试对象配成对子,给予每对中的个体以不同的处理。配对的条件一般为年龄、性别、体重、。其优点是在同一对的试验对象间取得均衡,从而提高试验的效率。,72,t检验举例说明,配对t检验 欲比较配对试验中两种处理的效果, 或者自身对照中比较试验前后某指标的变化。可先求出成对数据之差值d。然后使用t检验,检验d是否来自均数为0 的总体。 配对t检验公式为:,73,配对比较设计资料类型,自身前后比较 例号 用药前 用药后 1 118 112 2 110 98 10 122 108
26、治疗前后舒张压的改变,两种处理的配对比较 对子号 A药 B药 1 0.2 -0.1 2 1.0 1.8 10 0.4 0.8 两种药物治疗疗效的比较,74,例4.3 用某药治疗10例伴有高血压的肺癌患者,治疗前后各患者舒张压测量结果如下,问该药是否有降低患者舒张压的作用?,t检验举例说明,解:H0:差数总体均数d=0,H1:差数总体均数d0。 =9.7 , =12.3473/ 代入公式, t=9.7/(12.3473/ )=2.4843 , df=10-1=9 查t界值表,df=9时, t0.05=2.262, t0.01=3.25,75,例4.3 用某药治疗10例伴有高血压的肺癌患者,治疗前
27、后各患者舒张压测量结果如下,问该药是否有降低患者舒张压的作用?,t检验举例说明,解:H0:差数总体均数d=0,H1:差数总体均数d0。 =9.7 , =12.3473/ 代入公式, t=9.7/(12.3473/ )=2.4843 , df=10-1=9 查t界值表,df=9时, t0.05=2.262, t0.01=3.25 现t0.05tt0.01 ,故0.01P0.05,所以,拒绝H0, 认为治疗前后舒张压之相差有统计学意义,可以认为该药有降低舒张压作用。,76,完全随机化设计的两样本均数比较,完全随机化设计 两个样本均数比较,方差齐,方差不齐,方差齐性检验,t检验,样本大小,合并方差估
28、计法,各自方差估计法,77,两独立样本资料的t检验,分母称为两样本之的标准误,1. 小样本时,用合并方差估计法:,自由度: DF=n1+n2-2,2. 大样本时,用各自方差估计法:,自由度可用公式计算,两独立样本资料的t检验,两独立样本资料的t检验,DATA T; INPUT X GROUP; CARDS; 3.22 1 3.70 2 3.98 1 3.71 2 ;RUN;,PROC TTEST DATA=T; CLASS GROUP; VAR X; RUN;,79,正态性检验 PROC UNIVARIATE NORMAL PLOT DATA=T; VAR=X; RUN;,t检验小结,公式需要
29、记住吗? 公式可以作为理解检验假设和结果解释的参考,不需要记住,也不需要手算,可以用软件实现,如SAS、SPSS、STATA、R等等 掌握使用的条件 1. 样本来自正态分布的总体。 2 . 配对t检验:差值的总体为正态分布。 3 . 两组样本的t检验: 两个样本都来自正态分布的总体。 两个总体方差相等。,80,t检验小结,思考:如果资料不满足t检验的要求怎么办? 进行变量变换,如对数变换,变换成正态分布后再进行t检验。 用非参数检验的方法。 两样本比较的t检验时,如正态分布但方差不齐,可用t检验。,81,问题,t检验可以处理的资料类型主要是单组资料或者两组独立资料的总体均数的比较 如果面对三组
30、或以上资料要比较其总体均数是否有差异怎么办? 是否把多组资料拆开用t检验两两比较?,82,如果把多组资料拆开比较,83,当有k个均数需作两两比较时,比较的次数共有 c= k!/(2!(k-2)!)=k(k-1)/2 设每次检验所用类错误的概率水准为 ,累积类错误的概率为 ,则在对同一实验资料进行c次检验时,在样本彼此独立的条件下,根据概率乘法原理,其累积类错误概率 与c有下列关系: 1(1 )c 例如,设 =0.05,c=3(即k=3),其累积类错误的概率为 1(1-0.05)3 =1-(0.95)3 = 0.143,对多组资料的比较不能随意拆开用t检验做两两比较,会增加累积类错误的概率,如何
31、处理多组资料的比较问题?,针对这一类问题英国统计学家R.A.Fisher 提出方差分析 (Analysis of Variance) 。 方差分析 即分解变异(Variation)的思想 将试验看成一个整体,计算出总变异,然后将观察值变异原因进行分解,分成处理因素的方差效应和误差的方差效应,然后比较两方面的效应。,84,方差分析,85,86,离均差平方和的分解,组间变异,总变异,组内变异,总变异:全部测量值Xij与总均数 间的差别,该变异既包含了随机误差,也包含了三组用药即处理的不同。 组间变异:各组的均数 与总均数 间的差异,它反映了三组用药不同的影响,同时也包括了随机误差。 组内变异:每组
32、内的数据大小各不相同,与本组的均数 的差异,它仅反映随机误差。,数据有三个不同的变异,下面先用离均差平方和(sum of squares of deviations from mean,SS)表示变异的大小,87,总变异,总变异用SS总表示,反映了所有测量值之间总的变异程度, SS总=各测量值Xij与总均数 差值的平方和,88,组间变异,89,SS组间反映了各组均数 间的变异程度 组间变异随机误差+处理因素效应,组间变异,90,组内变异,91,在同一处理组内,虽然每个受试对象接受的处理相同,但测量值仍各不相同,这种变异称为组内变异。SS组内仅仅反映了随机误差的影响。也称SS误差,组内变异,92
33、,三种“变异”之间的关系,方差的显著性测验 F测验,94,方差分析表,95,结果的解释,96,由于实得F=21.9 F0.01,即P0.01,因此可以认为处理组之间的差异有统计学意义,如何进行两两比较?,F检验的结果只是能得到总体之间是否存在差异,但如果存在差异时,两组之间的情况如何两两比较(多重比较) 多重比较的方法较多,常用的有SNK、Dunnett、LSD、LSR、Bonfferoni等。 两两比较公式比较复杂,具体的计算都可以通过软件实现。重点理解统计思想,97,方差分析,DATA T; INPUT X GROUP; CARDS; 3.22 1 3.70 2 3.98 3 3.71 4
34、 ;RUN;,PROC anova DATA=T; CLASS GROUP; model x=group/snk; RUN;,98,方差分析小结,99,数据类型: 计量资料 设计方法: 完全随机设计或成组设计 分析目的: 参数法 : 要求 :各样本相互独立均服从正态分布,方差齐性。,F-检验,方差分析小结,在方差分析的基础上还发展有以下方法: 协方差分析(考虑协变量) 重复测量资料的方差分析 不同实验设计的方差分析 析因设计 随机区组 正交设计,100,尽管存在不同的设计和分析,但是方差分析的根本思想都是分解变异到不同维度然后比较,方差分析小结,t-检验与方差分析的关系 成组t-检验是完全随机
35、设计的单因素方差分析的特例 前者仅可以比较两组均值,使用t-检验; 后者可以比较两组或多组均值,使用F-检验; 当组数k=2时,两者相等, 且F=t2 。 配对t-检验是随机区组设计的双因素方差分析的特例 前者消除个体差异后比较两组均值,使用t-检验; 后者消除个体差异后比较两组或多组均值,使用F- 检验; 当组数k=2时,两者相等, 且F=t2。,101,第四部分,线性回归分析,102,线性回归分析,103,医学上,许多现象之间也都有相互联系,例如:身高与体重、体温与脉搏、乙肝病毒与乙肝等。 在这些有关系的现象中,它们之间联系的程度和性质也各不相同。 可以说乙肝病毒感染是前因,得了乙肝是后果
36、,乙肝病毒和乙肝之间是因果关系;但是,有的现象之间因果不清,只是表现出有关系。,相关就是用于研究和解释两个变量之间相互关系的。,父亲身高与儿子身高的关系,104,相关和回归分析,105,线性相关的基本概念,相关分析 (correlation analysis) 研究两个或多个变量之间关联性或关联程度的一种统计分析方法。 相关系数 (correlation coefficient) 描述具有线性关系的两变量间,相关关系的密切程度(大小)和相关方向的指标,一般用r和来表示。,106,散 点 图,107,散点图能直观地看出两变量间的关系,因此研究两变量的关系应先绘出散点图,而后再确定两者的量化关系,
37、1.正相关,2.负相关,3.非线性相关,4.零相关,相关系数的特点,样本的相关系数用r (correlation coefficient)表示 相关系数r的值在(-1,1)之间。 正相关时,r值在0和1之间,这时一个变量增加,另一个变量也增加; 负相关时,r值在-1和0之间,此时一个变量增加,另一个变量将减少。 r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。,108,线性回归分析,设法找出变量间的依存(数量)关系, 用函数关系式表达出应变量(Y)随自变量(X)的变化而变化的线性关系,109,线性回归分析的基本概念,110,1、应变量(dependent v
38、ariable) 2、自变量(independent variable) 3、一元线性回归 直线回归方程的模型是:yi=a+bxi+ei, 其中 ()a是截距 ()b是回归系数(regression coefficient)(回归直线的斜率) 回归系数的统计学意义是:自变量每变化一个单位,应变量平均变化的单位数 ()ei是残差,多元线性回归,当涉及到的自变量X有多个时,建立的回归模型中包含多个自变量X即为多元线性回归 yi=b0+b1x1i+b2x2i+bnxni+ei b0是常数项,是各自变量都等于0时,应变量的估计值。有时,人们称它为本底值。 b1,b2,bn是偏回归系数( pertial
39、 regression coefficient ),其统计学意义是在其它所有自变量不变的情况下,某一自变量每变化一个单位,应变量平均变化的单位数。 ei是残差,111,线性回归的理论假设,线性回归的条件 LINE 线性 L linear(自变量x与应变量y之间存在线性关系) I independence(自变量x之间相互独立,无共线性) N normal distribution(随机误差服从正态分布) E equal variance(自变量x的残差e的方差相同,且为常数),112,模型的预测效果检验,113,决定系数(determination coefficient)( R square
40、) 调整(校正)决定系数(adjusted R square) 复相关系数R (multiple correlation coefficient),R2 模型可以 解释的百分比,共线性诊断,容差(tolerance) 方差膨胀因子(variance inflation factor) 一般认为两变量的容差越小或方差膨胀因子接近1说明自变量之间的共线性小 共线性的诊断可以借助统计软件完成,114,线性回归SAS程序,线性回归的sas程序的一般形式: proc reg data=data; model dependents= run; OPTION 表示可增加的选择项: 变量筛选标准、预测、共线性
41、诊断、残差分析、作图等等,115,线性回归SAS程序例,data insurance; input time size type ; sizetype=size*type; datalines; 17 151 0 26 92 0 21 175 0 30 31 0 22 104 0 0 277 0 12 210 0 19 120 0 4 290 0 16 238 0 28 164 1 15 272 1 11 295 1 38 68 1 31 85 1 21 224 1 20 166 1 13 305 1 30 124 1 14 246 1 ; run; proc reg data=insuran
42、ce; model time = size type sizetype; run;,116,第五部分,Logistic 回归分析,117,Logistic 回归分析,临床上经常碰到的需要分析资料的类型为分类变量,如治疗效果:治愈与否。 此时因变量y的取值为0,1 概率模型为 P(y=1|x) = f(x),即 如果令f(x)为线性函数,则y的值域不对,118,LOGISTIC 模型,二值变量(0,1)资料的logit变换 设P为事件发生的概率,119,logit 函数图,LOGISTIC分析,设P表示暴露因素X时个体发病的概率,则发病的概率P与未发病的概率1-P 之比为优势(odds), lo
43、git(P)就是odds的对数值。,120,Logistic回归模型,121,Logistic回归模型 Logistic回归的logit模型 Logistic回归模型,Logistic回归系数的意义,单纯从数学上讲,Logistic回归系数的意义与多元线性回归分析中回归系数的解释相同,即bi表示xi改变一个单位时, logit P的平均变化量。,122,流行病学中的一些基本概念:,相对危险度(relative risk): RR=P1/P2 比数Odds=P/(1-P) 比数比OR=P/(1-P)/P/(1-P) 因此在患病率较小情况下,ORRR,123,Logistic回归系数的意义,Log
44、istic回归中的常数项(b0)表示,在不接触任何潜在危险保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。 Logistic回归中的回归系数( bi )表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR的对数值。,124,Logistic回归系数的意义,分析因素xi为二分类变量时,存在(暴露)xi ,不存在(未暴露)xi ,则Logistic回归中xi的系数bi就是暴露与非暴露优势比的对数值 即OR=exp(bi)=e (bi),125,Logistic回归系数的意义,分析因素xi为多分类变量时,为方便起见,常用1,2,k分别表示k个不同的类别。进
45、行Logistic回归分析前需将该变量转换成k-1个指示变量或哑变量,这样指示变量都是一个二分变量,每一个指示变量均有一个估计系数,即回归系数,其解释同前。,126,Logistic回归系数的意义,分析因素xi为等级变量时,如果每个等级的作用相同,可按计量资料处理:如以最小或最大等级作参考组,并按等级顺序依次取为0,1,2,。此时, e(bi) 表示xi增加一个等级时的优势比, e(k* bi)表示xi增加k个等级时的优势比。如果每个等级的作用不相同,则应按多分类资料处理。 分析因素xi为连续性变量时, e(bi)表示xi增加一个计量单位时的优势比。,127,Logistic回归系数的意义,因
46、素Logistic回归分析时,对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。存在因素间交互作用时, Logistic回归系数的解释变得更为复杂,应特别小心。,128,Logistic回归系数的意义,129,根据Wald检验,可知Logistic回归系数bi服从u分布。因此其可信区间为 进而,优势比e(bi)的可信区间为,Logistic回归分析方法,从所用的方法看, 强迫法 前进法 后退法 逐步法 在这些方法中,筛选变量的过程中所用的统计量是似然比检验、比分检验、 Wald检验,130,条件Logistic回归,对配对/比调查资料,应该用条件Logistic回归分析。 对于配比资
47、料,第i个配比组可以建立一个Logistic回归:,131,假设自变量在各配比组中对结果变量的作用是相同的,即自变量的回归系数与配比组无关。 配比设计的Logistic回归模型 其中不含常数项。,条件Logistic回归,132,可以看出此回归模型与非条件Logistic回归模型十分相似,只不过这里的参数估计是根据条件概率得到的,因此称为条件Logistic回归模型。 条件Logistic回归的回归系数检验与分析,和非条件Logistic回归完全相同。,条件Logistic回归,133,Logistic回归的应用,危险因素的筛选,并确定其作用大小 预测:预测某种情况下或者某个病例,某特定事件发
48、生的概率。,134,例 饮酒与高血压,Data a; Input y drink a1 a2 a3 a4 a5 count; Cards; 1 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0 1 1 1 0 0 0 0 4 1 0 1 0 0 0 0 5 1 1 0 1 0 0 0 25 1 0 0 1 0 0 0 21 1 1 0 0 1 0 0 42 1 0 0 0 1 0 0 34 1 1 0 0 0 1 0 19 1 0 0 0 0 1 0 36 1 1 0 0 0 0 1 5 1 0 0 0 0 0 1 8 0 1 0 0 0 0 0 9 0 0 0 0 0 0 0 10
49、6 0 1 1 0 0 0 0 26 0 0 1 0 0 0 0 164 0 1 0 1 0 0 0 29 0 0 0 1 0 0 0 138 0 1 0 0 1 0 0 27 0 0 0 0 1 0 0 138 0 1 0 0 0 1 0 18 0 0 0 0 0 1 0 88 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 31 ;,proc logistic descending; freq count; model y=a1 a2 a3 a4 a5 drink; run;,Logistic应用举例SAS 程序,例1 SAS结果解释-变量赋值,Response Profile
50、 Ordered Total Value y Frequency 1 1 200 2 0 774 Probability modeled is y=1.,模型中假(哑)变量的定义问题,模型检验,模型的检验: H0:均数模型合适,即 beta=0 H1: beta0 检验统计量: G (deviance) G=(-2Ln(LH0) - (-2Ln(LH1) =自变量的个数 G 服从2 (),变量筛选,似然比检验(最常用) 记分检验: 统计量:SCORE (公式略) Wald检验,例1 模型检验统计量SAS,Model Fit Statistics Intercept Intercept and
51、Criterion Only Covariates AIC 991.029 802.456 SC 995.910 836.626 -2 Log L 989.029 788.456,例1 模型检验结果,Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr ChiSq Likelihood Ratio 200.5731 6 .0001 Score 183.5523 6 .0001 Wald 125.0228 6 .0001,例1 模型拟合优度评价指标,Association of Predicted Probabilities a
52、nd Observed Responses Percent Concordant 75.1 Somers D 0.594 Percent Discordant 15.7 Gamma 0.654 Percent Tied 9.1 Tau-a 0.194 Pairs 154800 c 0.797,例1 结果参数估计,Standard Wald Parameter DF Estimate Error Chi-Square Pr ChiSq Intercept 1 -5.0534 1.0094 25.0637 .0001 a1 1 1.5426 1.0659 2.0944 0.1478 a2 1 3.
53、1990 1.0231 9.7763 0.0018 a3 1 3.7182 1.0185 13.3264 0.0003 a4 1 3.9667 1.0230 15.0337 0.0001 a5 1 3.9616 1.0650 13.8375 0.0002 drink 1 1.6671 0.1896 77.2908 .0001,例1结果优势比,Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits a1 4.677 0.579 37.774 a2 24.508 3.299 182.048 a3 41.190 5.
54、595 303.229 a4 52.810 7.110 392.225 a5 52.543 6.516 423.683 drink 5.297 3.653 7.681,参数的意义,优势 / 对数优势 优势比 / 相对危险度 多分类自变量的logistic模型参数及其解释,常数项与预测和判别的关系,病例对照研究中,常数项不代表各 变量取值为零时人群患病OR估计值的对数。 不可用于预测和判别!,思考:40岁饮酒者和60岁不饮酒者的风险比较问题?谁的风险大?大多少?,Standard Wald Parameter DF Estimate Error Chi-Square Pr ChiSq Inter
55、cept 1 -5.0534 1.0094 25.0637 .0001 a1 1 1.5426 1.0659 2.0944 0.1478 a2 1 3.1990 1.0231 9.7763 0.0018 a3 1 3.7182 1.0185 13.3264 0.0003 a4 1 3.9667 1.0230 15.0337 0.0001 a5 1 3.9616 1.0650 13.8375 0.0002 drink 1 1.6671 0.1896 77.2908 .0001,Logistic应用的注意事项,应用条件 1. 各观察对象间相互独立; 2. logit P与自变量呈线性关系。 异常值
56、 计量资料间的共线性问题,应用 筛选危险因素 / 校正混杂因素 / 预测与判别 问题 1 样本量不能太小 2 不应单纯依赖程序筛选变量,注意变量的医学意义 3 自变量的类型和参数意义的解释问题 4 多数情况下,模型常数项没有意义 5 条件logistic模型不能用于预测,Logistic应用的注意事项,第五部分,生存分析,151,生存率分析,基本概念 观察生存率 相对生存率 统计学检验 COX分析,152,基本概念,生存分析是一类时间到事件变量数据的分析 (analysis of time-to-event data)。 医学研究中用生存分析这一术语(工业工程 中则称作寿命时间分析或失效时间分
57、析)。 时间到事件变量三个基本限定: 1)起点的时间是明确的。 2)指标单位(时、天、月、年)要统一。 3)事件发生的界定要明确。,时间-事件变量由于存在截尾数据及反应变量往往呈非正态分布,故应用标准的统计方法处理是不合适的。 生存率是一比例(不是率),但习惯上称作率。 生存率是肿瘤登记数据的常用统计指标。 临床疗效评价中常用的痊愈率、有效率、病死率等百分率指标,其统计效能较差。,基本概念,例子1,人群1 10000人随访3年 15人在1年内死亡 9985人在随访结束时存活 死亡率=5/10000(年),人群2 10000人随访3年 15人在3年内死亡 9985人在随访结束时存活 死亡率=5/10000(年),例子2,人群1 10000人随访3年 15人在1年内死亡 9985人在随访结束时存活 死亡率=5/10000(年),人群2 10000人随访3年 15人在3年内死亡 9985人在随访结束时存活 其中有10人在结束时失访 死亡率=5/10000(年),生存(失效)时间的界定,癌症诊断到死亡的时间 癌症临床实验中随机分组到死亡的时间 随机分组到癌症复发的时间 淋巴瘤治疗期间缓解到复发的时间 HIV感染到死亡的时间 电灯(可)使用的时间 各学科中均涉及这类变量的处理。,生存分析应用,研究群体的率在观察期内不一致(动态) 关心生存时间的长短 截尾观察存在,生存时间的计算,时间=
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年电子商务运营测试题精
- 论安全保障义务:法理、实践与完善路径
- 2026年学生青春期安全知识
- 2026年金融销售面试常见问题
- 2026年人力资源师考试笔试劳动关系模拟题
- 2026年安全生产管理能力考核
- 2026年小学生防火知识安全教育
- 2026年Python编程入门模拟试题及答案
- 2026年选派生考试笔试模拟题集
- 2026年自然资源管理基础知识手册
- 2026年贵州综合评标专家库评标专家考试经典试题及答案
- 代煎中药评估考核制度
- 厂中厂安全培训教学课件
- 2026年1月浙江首考英语真题(原卷版)
- 银行消防安全教育培训课件
- 水资源保护规划编制规程(2025版)
- 2026年高考全国II卷历史真题解析含答案
- 宁夏黄河农村商业银行流动性风险管理:现状、挑战与优化策略
- 培训学校学生成长记录册
- TCCIIA0004-2024精细化工产品分类
- TCAME 66-2024《一次性手术铺单使用》
评论
0/150
提交评论