




已阅读5页,还剩80页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1,常用多变量统计分析方法简介,2,多变量统计方法是运用数理统计的方法来研究多变量问题的理论和方法,它是单变量统计统计方法的推广,是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学分支学科。近年来,多变量统计方法已广泛应用到医学研究的各个领域。医学现象涉及到的变量不止一个,而是多个变量,且这些变量间又存在一定的联系,需要处理多个变量的观测数据。,多变量统计分析方法概述,3,对于多变量医学问题,如果用单变量统计方法就要对多方面分别进行分析,而一次分析一个方面,同时忽视了各方面之间存在的相关性,这样会丢失很多信息,分析的结果不能客观全面地反映情况。多变量统计方法不仅能够研究多个变量之间的相互关系以及揭示这些变量之间内在的变化规律,而且能够使复杂的指标简单化,并对研究对象进行分类和简化。,多变量统计分析方法概述,4,回归分析的分类,多个因变量(y1,y2,yk),一个因变量y,5,一、多重线性回归二、Logistic回归三、Cox比例风险回归四、其他常用多变量统计方法,多变量统计分析方法概述,6,Multivariatelinearregression,概念:,多重线性回归分析也称复线性回归分析(multiplelinearregressionanalysis),它研究一组自变量如何直接影响一个因变量。自变量(independentvariable)是指独立自由的变量,用向量X表示;因变量(dependentvariable)是指非独立的、受其它变量影响的变量,用向量Y表示;由于模型仅涉及一个因变量,所以多元线性回归分析也称单变量线性回归分析(univariatelinearregressionanalysis),7,人的体重与身高、胸围血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、照射的时间,一个变量的变化直接与另一组变量的变化有关:,如:,8,一、多元线性回归方程模型,9,只有一个自变量时,回归的结果为二维平面上的一条直线;而有两个自变量时,回归的结果为三维空间的一个平面;有更多自变量时,回归的结果则是在三维以上空间的“超平面”,无法用直观图形表达。,10,应用条件:,注意:虽然模型要求因变量是连续数值变量,但对自变量的类型不限。若自变量是分类变量,特别是无序分类变量,要转化为亚变量才能分析。对于自变量是分类变量的情形,可以应用广义线性回归模型分析。,11,二、多元线性回归分析的步骤,(一)估计各项参数,建立多元线性回归方程模型(二)对整个模型进行假设检验,模型有意义的前提下,再分别对各偏回归系数进行假设检验。(三)计算相应指标,对模型的拟合效果进行评价。,12,(一)模型的参数估计,13,27名糖尿病患者的血清总胆固醇(x1)、甘油三酯(x2)、空腹胰岛素(x3)、糖化血红蛋白(x4)、空腹血糖(y)的测量值列于表中,试建立血糖与其它几项指标关系的多元线性回归方程。,例16.1,14,各变量的离均差矩阵,15,线性回归方程模型为:,16,1、对模型的假设检验F检验2、对偏回归系数的假设检验F检验和t检验3、标准化偏回归系数,(二)对模型及偏回归系数的假设检验,17,1、对模型的假设检验F检验,18,各变量的离均差矩阵,19,SS总=lyy=222.5519;总=n-1=26SS剩余=SS总-SS回归=222.5519-133.7107=88.8412剩余=n-m-1=22MS回归=SS回归/回归;MS剩余=SS剩余/剩余;F=MS回归/MS剩余,1、对模型的假设检验F检验,20,1、对模型的假设检验F检验,21,2、对偏回归系数的假设检验F检验和t检验,回归方程成立只能认为总的来说自变量与因变量间存在线性关系,但是否每一个自变量都与因变量间存在线性关系,须对其偏回归系数进行假设检验。,方差分析法t检验法,22,偏回归系数的假设检验-方差分析法,23,偏回归系数的假设检验-方差分析法,24,偏回归系数的假设检验t检验,系数矩阵A,25,指定REG过程进行多元线性回归分析,拟合y与四个自变量间的多元线性回归方程,26,整个方程有统计学意义,27,28,3、标准化偏回归系数,29,30,(三)计算相应指标,对模型的拟合效果进行评价,评价回归方程回归效果的优劣是回归分析的重要内容之一。常用评价指标有:决定系数、校正决定系数、剩余标准差等。,31,1.决定系数,32,2、剩余标准差,33,34,3、校正决定系数,35,三、逐步回归分析,36,(一)最优子集回归法,求出所有自变量可能组合子集的回归方程的模型(共有2m1个),按一定准则选择最优模型。,最优子集法的局限性:如果自变量个数为4,则所有的回归有24115个;当自变量数个数为10时,所有可能的回归为21011023个;.;当自变量数个数为50时,所有可能的回归为25011015个。,37,(二)逐步选择法,1.前进法(forwardselection)2.后退法(backwardelimination)3.逐步回归法(stepwiseregression)。,它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对偏回归平方和的F检验,38,(1)前进法,自变量从无到有、从少到多,Y对每一个自变量作直线回归,对回归平方和最大的自变量作F检验,有意义(P小)则引入。在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F检验,。局限性:后续变量的引入可能会使先进入方程的自变量变得不重要。,39,(2)后退法,先将全部自变量放入方程,然后逐步剔除,偏回归平方和最小的变量,作F检验及相应的P值,决定它是否剔除(P大)。建立新的回归方程。重复上述过程。局限性:自变量高度相关时,可能得不出正确的结果;开始时剔除的变量即使后来变得有显著性也不能再进入方程。,40,(3)逐步回归法,双向筛选:引入有意义的变量(前进法),剔除无意义变量(后退法),小样本检验水准a一般定为0.10或0.15,大样本把a值定为0.05。a值越小表示选取自变量的标准越严。,41,逐步回归分析的基本思想,42,用逐步回归法筛选自变量,43,y=0.35409x2-0.36013x3+0.41334x4,44,变量筛选后去掉截距项后方程各项评价指标的变化,45,第三节多元线性回归的应用及其注意事项,46,二、多元线性回归应用时的注意事项,1样本含量2方程“最优”问题3关于逐步回归4多元共线性5.异常值识别与强影响分析,47,48,进行变量筛选的结果及方程的残差,49,对于最优子集回归,可以用SAS中的最大R2筛选变量的方法进行,50,对于最优子集回归,可以用SAS中的最大R2筛选变量的方法进行,51,52,4残差分析,modely=x1-x4/selection=stepwiser;outputout=bbResidual=z;run;proccc;setbb;procunivariatenormal;varz;run;,正态性检验检验方法-统计量-P值-Shapiro-WilkW0.968787PrD0.1300Cramer-vonMisesW-Sq0.070919PrW-Sq0.2500Anderson-DarlingA-Sq0.372642PrA-Sq0.2500,从散点图可以看出,各点子分布无明显规律性,可认为近似随机分布,所以拟合的方程可认为是合适的。,53,例题14.2,非线性的例子,54,直接拟合x1和x2与y的线性模型:,例题14.2,55,例题14.2,X1、x2与y的图形,56,多元共线性是指在进行多元回归分析时,自变量间存在较强的线性相关关系。共线关系的存在,可使得估计系数方差加大,系数估计不稳,结果分析困难。因此在多元回归分析时,特别是当回归结果难以用专业知识解释时,要进行共线性诊断,找出存在共线性且不重要的那些自变量,剔出方程,另行回归分析。对于存在共线性的资料,可以利用共线性诊断有选择的保留自变量以消除共线性;或者采用岭回归、主成分回归等回归分析方法以避免共线性指标对结果的影响。,5多元共线性,57,“多元共线”一词最早由R.佛里希于1934年提出,其最初的含义是指回归模型中的某些自变量是线性相关的,即对于出现在模型中的自变量有关系成立.其中常数km(m=1,2,n)不全为0.称为完全多元共线;,现在所说的“多元共线”有更广泛的含义,除包括完全共线性的情况,也包括变量间有某种关系但又不是十分完全的线性关系.如下式所示的情况其中为随机误差项.此时可称为近似多元共线。,58,多元共线性问题产生的根源:,1、由变量性质引起,多元统计分析时,作为自变量的某些变量高度相关,比如身高、体重和胸围,变量之间的相关性是由变量自身的性质决定的,此时不论数据以什么形式取得,样本含量是大是小,都会出现自变量的共线性问题。因此,变量间自身的性质是导致多元共线性的重要原因。,59,多元共线性问题产生的根源:,2、由数据问题引起:样本含量过小、强影响观测值、时序变量,样本含量过小:假设只有两个自变量X1与X2,当n=2时,两点总能连成一条直线,即使性质上原本并不存在线性关系的变量X1与X2,由于样本含量问题产生了共线性。样本含量较小时,自变量容易呈现线性关系。,如果研究的自变量个数大于2,设为X1,X2,.,XP,虽然各自变量之间没有线性关系,但如果样本含量n小于模型中自变量的个数,就可能导致多元共线性问题。,60,多元共线性问题产生的根源:,2、由数据问题引起:样本含量过小、强影响观测值、时序变量,强影响观测值:其存在会(1)导致或加剧多重共线性;(2)掩盖存在着的多重共线性。,61,多元共线性的表现在实际应用中主要表现为:,(1)模型拟合效果很好,但偏回归系数几乎都无统计学意义;(2)偏回归系数估计值的方差很大;(3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归系数发生较大变化或当一个自变量被引入或剔除时其余变量偏回归系数有很大变化;(4)偏回归系数估计值的大小与符号可能与事先期望的不一致或与经验相悖,结果难以解释出现以上情况,提示存在多元共线性问题,应进行多元共线性诊断。,62,63,64,modelx2=x3x4;R-Square=0.0492;VIF1=1/(1-0.0492)=1.0517modelx3=x2x4;R-Square=0.1099;VIF1=1/(1-0.1099)=1.1235modelx4=x2x3;R-Square=0.1514;VIF1=1/(1-0.1514)=1.1783,procreg;modely=x2-x4/tolvifcollin;run;,tol输出容许度;vif输出方差膨胀因子;collin输出所有特征值、特征值对应的条件指数及每一个自变量在每一个特征值上的方差比。,65,如果某一自变量只是和截距项存在共线性的话,可以认为不存在共线性。,66,67,68,69,相关分析结果,例16.3,70,71,72,例题14.5,为了分析和预测人体吸入氧气的效率,收集了31名中年男性的健康状况资料。共7个指标:吸氧效率(y)、年龄(x1)、体重(x2)、跑1.5km所用时间(x3)、休息时心跳次数(x4)、跑步是心跳次数(X5)、和最高心率(x6)。该问题中y是因变量,试用多元回归分析建立预测人体吸氧效率的模型。,73,对上述资料进行逐步回归分析,输出结果为:,这个结论易造成误导,因为在年龄、跑1.5km时间和跑步时心率相同的条件下,最高心率越大,吸氧效率越高,这与实际相矛盾。,例题14.5,74,对上述资料进行逐步回归分析,输出结果为:,X5和x6同时进入模型,模型拟合良好。但x6的回归系数为正,与x6和y的相关系数符号相反。,例题14.5,75,(1)检验自变量的内相关性,proccorrdata=a;varx1-x6;run;,OUTPUT,例题14.5,76,(1)检验自变量的内相关性,OUTPUT,procregdata=a;modely=x1-x6/tolvifcollin;run;,条件数197.95,远远大于10,数据存在严重共线性。,变量X5和x6的方差比例(vp)很大,接近于1,二者具有很强的共线性。,vp(x6)vp(x5),因此,决定拟合模型时将变量x6排除在外。,例题14.5,77,(2)用逐步法拟合y在x1x5上的线性回归模型。,procregdata=a;modely=x1-x5/selection=stepwise;titlestepwiseregressionanalysis:excludingx6;run;,第一步将x3加入到模型中。,例题14.5,78,(2)用逐步法拟合y在x1x5上的线性回归模型。,第二步将x1加入到模型中。,例题14.5,79,(2)用逐步法拟合y在x1x5上的线性回归模型。,第三步将x5加入到模型中。,逐步回归得到的最后模型拟合数据很好(p0.05,R2=0.8200),偏回归系数均有统计学意义。,例题14.5,80,(2)用逐步法拟合y在x1x5上的线性回归模型。,注意!,逐步回归得到的最后模型拟合数据很好(p0.05,R2=0.8200),偏回归系数均有统计学意义。,总结:,例题14.5,81,(3)通过误差诊断判断上述模型是否可靠,所有学生化残差的绝对值小于2.2(基本满足要求),而所有CooksD小于0.5,所以可认为数据中没有异常值。,procregdata=a;modely=x1x3x5/pr;outputout=bp=pr=r;plotr.*p.;run;procunivariatenormaldata=b;varr;run;,例题14.5,82,(3)通过误差诊断判断上述模型是否可靠,procregdata=a;modely=x1x3x5/pr;outputout=bp=pr=r;plotr.*
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度建筑工程合同争议解决机制
- 2025年度时尚潮流导购服务协议
- 二零二五年度西餐厅合作经营合同示范文本
- 二零二五年度老旧小区改造装修垫资合同
- 二零二五年度股权投资合作协议书范本
- XX二零二五年度官方铣刨料融资租赁与投资合同
- 2025版美食摊位租赁与食品安全监管协议
- 2025年度新型餐饮租赁服务协议
- 2025版建筑工程竣工验收合同标准文本
- 2025版茶叶线上线下销售合作协议范本
- 医疗护理员培训课件
- 征兵体检外科标准
- 供水公司报装管理制度
- 床上用品采购 投标方案
- 标识、文化墙及灯箱采购服务方案
- 标本馆规则管理制度
- 执业药师职业资格考试《药事管理与法规》真题及答案(2025年新版)
- 伤口获奖个案护理比赛
- JG/T 438-2014建筑用真空绝热板
- 超市过期商品赔偿协议书
- 丁晓兵的课件
评论
0/150
提交评论