




已阅读5页,还剩32页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多重回归分析中的 注意事项,医学统计学教研室 柳伟伟,2,内 容,3,一、自变量的数量化,1. 定量变量:通常将定量变量的原始观察值代入方程进行计算。当某个自变量X与因变量Y之间不呈线性关系时,可以考虑对X作某种变换,以改善回归方程的拟合优度。如果数据变换恰当,应使决定系数R2有明显的增大,4,一、自变量的数量化,2. 二值变量 :赋值后代入方程进行计算,赋值的方式可以有多种,如对性别的赋值方法可为,或,5,一、自变量的数量化,3. 多值名义变量 :需要产生哑变量,每个哑变量都是一个指示变量,所需哑变量的数目为多值名义变量的类别数减1。如“血型”是一个多值名义变量,有A、B、AB、O四种,若以O型血为基准,需引入3个(4-1=3)哑变量来描述。,6,一、自变量的数量化,治疗高血压的疗法分为中医、西医及中西医结合,可用两个哑变量D1、D2表示,赋值方式为,7,一、自变量的数量化,8,一、自变量的数量化,两种赋值方法在使用上的侧重点不同,方法一强调参数解释;方法二采用的是方差分析编码的方法,更注重的是假设检验 采用不同的回归方法,得到的回归方程不同,但回归分析的总体效果不改变,9,一、自变量的数量化,4.多值有序变量 :有两种处理方式,方法一是将有序变量各等级分别赋值1、2、3、后,直接代入方程计算,这种方式适合于自变量较多、样本含量又不够大的场合;方法二是赋哑变量,这种方式适合于自变量不是很多、样本含量又比较大的场合,10,二、共线性诊断与异常点诊断,1. 条件数 设X为n个研究对象在k个自变量上的取值数据矩阵,则可求出其交叉乘积矩阵XX的k个特征根,记为li(i=1、2、 、k),且有l1l2 lk。,11,二、共线性诊断与异常点诊断,1. 条件数 最大特征根与其余每个特征根比值的平方根,称为条件指数(conditional number),公式为:,12,二、共线性诊断与异常点诊断,1. 条件数 而最大条件指数,简称为条件数,其值为最大特征根与最小特征根之比值的平方根。即:,13,二、共线性诊断与异常点诊断,1. 条件数 直观上,条件数度量了信息矩阵X X的特征根散布程度,可用来判断多重共线性是否存在及其严重程度。 条件数越大,说明设计矩阵X具有越强的共线性。,14,二、共线性诊断与异常点诊断,1. 条件数 经验上,若030,则认为自变量间存在严重的多重共线性。,15,二、共线性诊断与异常点诊断,2. 方差分量 SAS软件在进行回归诊断时,自动对模型中的全部自变量进行主成分分析,使每个标准化后的自变量相应的方差(值为1)被分解到同等数目的主成分变量上。每个主成分变量分得的方差称为方差分量。,16,二、共线性诊断与异常点诊断,2. 方差分量 强的多重共线性可以表现在变量的方差分量上。若条件数(即最大条件指数)所在行同时有两个以上的变量方差分量超过0.5,就意味着这些变量间存在一定程度的相关。,17,二、共线性诊断与异常点诊断,3. 容许度(tolerance,TOL) 对自变量Xi而言,其容许度的计算公式为:,18,二、共线性诊断与异常点诊断,3. 容许度(tolerance,TOL) 其中,Ri2指模型中其余自变量对自变量Xi的决定系数。 Ri2越大,则1- Ri2值越小,容许度越差。说明该自变量不由其他自变量说明的部分相对较小,即该自变量与其他某些自变量关系较为密切。,19,二、共线性诊断与异常点诊断,4. 方差膨胀因子(variance inflation factor,VIF) Xi的方差膨胀因子计算公式为: 根据经验,VIF5或10时,一般存在严重的多重共线性。,20,二、共线性诊断与异常点诊断,5. 共线性的解决方法 (1)变量筛选 自变量存在多重共线性时,说明部分自变量间有较高的相关性。可认为这些自变量对因变量的作用部分重叠或存在包含作用。 故可采用自变量筛选的方法选出对因变量有统计学影响且相互之间独立或相关性较低的一组自变量。,21,二、共线性诊断与异常点诊断,5. 共线性的解决方法 (2)有偏估计 自变量间存在多重共线性且专业上认为需要保留在模型中时,不宜使用最小二乘法估计模型。此时,可采用有偏估计。 所得回归系数的估计值与参数的偏离不大,且较为稳定,另回归系数的标准误比最小二乘法小。 此类方法包括岭回归分析、主成分回归分析等。,22,二、共线性诊断与异常点诊断,5. 共线性的解决方法 (3)偏最小二乘回归分析 此法是最小二乘法的一种拓展,最早产生于化学界。建模过程中,集成了主成分分析、典型相关分析和线性回归分析的特点,具有传统经典回归分析所没有的优点。,23,二、共线性诊断与异常点诊断,5. 共线性的解决方法 (4)增大样本含量 通过增加样本含量,减少估计量的方差,提高估计精度,可在一定程度上克服多重共线性。,24,二、共线性诊断与异常点诊断,1. 学生化残差统计量 Studentized residual,计算公式为: 该统计量的绝对值大于2时,所对应的观测点可能是异常点。,25,二、共线性诊断与异常点诊断,2. Cooks D统计量 库克距离统计量。 一般认为, Cooks D0.5时,可认为此观测点对回归模型的拟合有强影响,即可认为是异常点。,26,二、共线性诊断与异常点诊断,3. 异常点的处置 认真核对原始数据。若属抄写或输入等人为错误,应予以纠正;若非人为错误,可删除异常点,重新拟合回归模型。 如有可能,最好在此实验点上补做实验,进一步确定此可疑异常点是否属实。,三、主成分回归分析,1. 基本概念 主成分回归分析是将多个彼此相关、信息重叠的自变量通过适当的线性组合,使之成为彼此独立而又提取了原指标变异信息并带有特定专业含义的综合潜变量,即主成分,建立潜变量和因变量的线性回归方程,再将回归方程中的潜变量转换为原自变量的一种多元统计方法。,三、主成分回归分析,2. 实现步骤 (1)进行多重回归分析,并进行共线性诊断; (2)如果自变量之间存在共线性,则可选择进行主成分回归分析,以解决由于共线性的影响,造成回归结果不合理或无法解释;,三、主成分回归分析,2. 实现步骤 (3)用主成分分析求自变量的主成分和主成分得分; (4)使用因变量与主成分进行回归分析; (5)将主成分的表达式回代,最后得到因变量与原始自变量的回归模型,并给予专业解释。,30,四、最优回归子集法,1. R2选择法(RSQUARE) 从模型语句中的各自变量所有可能子集中选出规定数目的子集,使该子集所构成的模型的决定系数R2最大。,31,四、最优回归子集法,1. R2选择法(RSQUARE) 注意:当观测点少、且模型语句中变量数目过多时,程序不能运行,因为过多自变量使误差项无自由度,设计矩阵不满秩,所以最多只能从所有可能的变量中选择观测点数减1个变量放入回归方程。,32,四、最优回归子集法,1. R2选择法 局限性 其一,当样本含量小于等于自变量(含交互作用项)个数时,只能在一定数目的变量中穷举,为找到含各种变量数目的最优子集,要么增加观测,要么反复给出不同回归方程; 其二,选最优子集的标准是R2 ,完全没有考虑其他标准。,33,四、最优回归子集法,2. 修正R2选择法(ADJRSQ) 根据修正的决定系数R2取最大的原则,从回归方程的所有自变量中选出规定数目的子集。程序能运行的条件是设计矩阵X满秩。 本法的局限性与R2选择法相似:其一,与R2选择法中“其一”相同;其二,选最优子集的标准只是用修正的R2取代未修正的R2而已,完全没有考虑其他标准。,34,四、最优回归子集法,3. Mallows Cp选择法(Cp) 从k个自变量中选出p个时,可使用Cp统计量鉴别模型的好坏,其定义为: 其中SSE是选用p个自变量时的残差平方和, 是选用k个自变量(即全回归模型)时的残差方差2的估计值。当回归方程中包含截距项时,i=1;反之,i=0。,35,四、最优回归子集法,3. Mallows Cp选择法 理想的回归方程应当使Cp =p,在p取不同值时,可能有多个回归方程的Cp接近于p,这时可取p较小的回归方程。 根据Mallows Cp统计量,从模型变量子集中选出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年事业单位工勤技能-浙江-浙江垃圾清扫与处理工一级(高级技师)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-河南-河南广播电视天线工二级(技师)历年参考题库含答案解析
- 2024版仿古建筑修复工程施工合同
- 2025年事业单位工勤技能-江西-江西广播电视天线工五级(初级工)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-广西-广西计算机文字录入处理员二级(技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广东-广东热处理工一级(高级技师)历年参考题库典型考点含答案解析
- 2025年中级卫生职称-主管技师-心电学技术(中级)代码:387历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-北京-北京图书资料员五级(初级工)历年参考题库含答案解析
- 烯烃分离基础知识培训课件
- 2025年职业技能鉴定-铁路职业技能鉴定-铁路职业技能鉴定(铁路钢轨探伤工)初级历年参考题库含答案解析(5套)
- 粮食仓储(粮库)安全生产标准化管理体系全套资料汇编(2019-2020新标准实施模板)
- 喜茶运营管理手册和员工操作管理手册
- 比亚迪汉DM-i说明书
- 心肾综合征及其临床处理
- 普通高中课程方案
- 2022年山东高考生物试卷真题及答案详解(精校版)
- GB/T 38936-2020高温渗碳轴承钢
- 高考地理一轮复习课件 【知识精讲+高效课堂】 农业区位因素及其变化
- 教师专业发展与名师成长(学校师范专业公共课)
- 互通立交设计课件
- 生物竞赛辅导 动物行为学第七章 行为发育(38)课件
评论
0/150
提交评论