版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多重回归中的注意事项第1页,课件共36页,创作于2023年2月2内容共线性诊断与异常点诊断
自变量的数量化
主成分回归分析
最优回归子集法第2页,课件共36页,创作于2023年2月3一、自变量的数量化1.定量变量:通常将定量变量的原始观察值代入方程进行计算。当某个自变量X与因变量Y之间不呈线性关系时,可以考虑对X作某种变换,以改善回归方程的拟合优度。如果数据变换恰当,应使决定系数R2有明显的增大第3页,课件共36页,创作于2023年2月4一、自变量的数量化2.二值变量:赋值后代入方程进行计算,赋值的方式可以有多种,如对性别的赋值方法可为或第4页,课件共36页,创作于2023年2月5一、自变量的数量化3.多值名义变量:需要产生哑变量,每个哑变量都是一个指示变量,所需哑变量的数目为多值名义变量的类别数减1。如“血型”是一个多值名义变量,有A、B、AB、O四种,若以O型血为基准,需引入3个(4-1=3)哑变量来描述。
第5页,课件共36页,创作于2023年2月6一、自变量的数量化治疗高血压的疗法分为中医、西医及中西医结合,可用两个哑变量D1、D2表示,赋值方式为疗法哑变量D1D2中医00西医10中西医结合01第6页,课件共36页,创作于2023年2月7一、自变量的数量化疗法哑变量D1D2中医10西医01中西医结合-1-1第7页,课件共36页,创作于2023年2月8一、自变量的数量化两种赋值方法在使用上的侧重点不同,方法一强调参数解释;方法二采用的是方差分析编码的方法,更注重的是假设检验采用不同的回归方法,得到的回归方程不同,但回归分析的总体效果不改变第8页,课件共36页,创作于2023年2月9一、自变量的数量化4.多值有序变量:有两种处理方式,方法一是将有序变量各等级分别赋值1、2、3、…后,直接代入方程计算,这种方式适合于自变量较多、样本含量又不够大的场合;方法二是赋哑变量,这种方式适合于自变量不是很多、样本含量又比较大的场合第9页,课件共36页,创作于2023年2月10二、共线性诊断与异常点诊断1.条件数设X为n个研究对象在k个自变量上的取值数据矩阵,则可求出其交叉乘积矩阵X′X的k个特征根,记为li(i=1、2、…、k),且有l1>l2>…>lk。
第10页,课件共36页,创作于2023年2月11二、共线性诊断与异常点诊断1.条件数最大特征根与其余每个特征根比值的平方根,称为条件指数(conditionalnumber),公式为:
第11页,课件共36页,创作于2023年2月12二、共线性诊断与异常点诊断1.条件数
而最大条件指数,简称为条件数,其值为最大特征根与最小特征根之比值的平方根。即:
第12页,课件共36页,创作于2023年2月13二、共线性诊断与异常点诊断1.条件数
直观上,条件数度量了信息矩阵X′X的特征根散布程度,可用来判断多重共线性是否存在及其严重程度。
条件数越大,说明设计矩阵X具有越强的共线性。第13页,课件共36页,创作于2023年2月14二、共线性诊断与异常点诊断1.条件数经验上,若0<CNk<10,可认为自变量间不存在多重共线性;若10≤CNk≤30,可认为自变量间存在中等程度的多重共线性;若CNk>30,则认为自变量间存在严重的多重共线性。
第14页,课件共36页,创作于2023年2月15二、共线性诊断与异常点诊断2.方差分量
SAS软件在进行回归诊断时,自动对模型中的全部自变量进行主成分分析,使每个标准化后的自变量相应的方差(值为1)被分解到同等数目的主成分变量上。每个主成分变量分得的方差称为方差分量。
第15页,课件共36页,创作于2023年2月16二、共线性诊断与异常点诊断2.方差分量强的多重共线性可以表现在变量的方差分量上。若条件数(即最大条件指数)所在行同时有两个以上的变量方差分量超过0.5,就意味着这些变量间存在一定程度的相关。
第16页,课件共36页,创作于2023年2月17二、共线性诊断与异常点诊断3.容许度(tolerance,TOL)对自变量Xi而言,其容许度的计算公式为:第17页,课件共36页,创作于2023年2月18二、共线性诊断与异常点诊断3.容许度(tolerance,TOL)其中,Ri2指模型中其余自变量对自变量Xi的决定系数。
Ri2越大,则1-Ri2值越小,容许度越差。说明该自变量不由其他自变量说明的部分相对较小,即该自变量与其他某些自变量关系较为密切。第18页,课件共36页,创作于2023年2月19二、共线性诊断与异常点诊断4.方差膨胀因子(varianceinflationfactor,VIF)
Xi的方差膨胀因子计算公式为:根据经验,VIF>5或10时,一般存在严重的多重共线性。第19页,课件共36页,创作于2023年2月20二、共线性诊断与异常点诊断5.共线性的解决方法(1)变量筛选自变量存在多重共线性时,说明部分自变量间有较高的相关性。可认为这些自变量对因变量的作用部分重叠或存在包含作用。故可采用自变量筛选的方法选出对因变量有统计学影响且相互之间独立或相关性较低的一组自变量。第20页,课件共36页,创作于2023年2月21二、共线性诊断与异常点诊断5.共线性的解决方法(2)有偏估计自变量间存在多重共线性且专业上认为需要保留在模型中时,不宜使用最小二乘法估计模型。此时,可采用有偏估计。所得回归系数的估计值与参数的偏离不大,且较为稳定,另回归系数的标准误比最小二乘法小。此类方法包括岭回归分析、主成分回归分析等。第21页,课件共36页,创作于2023年2月22二、共线性诊断与异常点诊断5.共线性的解决方法(3)偏最小二乘回归分析此法是最小二乘法的一种拓展,最早产生于化学界。建模过程中,集成了主成分分析、典型相关分析和线性回归分析的特点,具有传统经典回归分析所没有的优点。第22页,课件共36页,创作于2023年2月23二、共线性诊断与异常点诊断5.共线性的解决方法(4)增大样本含量通过增加样本含量,减少估计量的方差,提高估计精度,可在一定程度上克服多重共线性。第23页,课件共36页,创作于2023年2月24二、共线性诊断与异常点诊断1.学生化残差统计量Studentizedresidual,计算公式为:
该统计量的绝对值大于2时,所对应的观测点可能是异常点。
第24页,课件共36页,创作于2023年2月25二、共线性诊断与异常点诊断2.Cook’sD统计量库克距离统计量。一般认为,
Cook’sD>0.5时,可认为此观测点对回归模型的拟合有强影响,即可认为是异常点。
第25页,课件共36页,创作于2023年2月26二、共线性诊断与异常点诊断3.异常点的处置
认真核对原始数据。若属抄写或输入等人为错误,应予以纠正;若非人为错误,可删除异常点,重新拟合回归模型。
如有可能,最好在此实验点上补做实验,进一步确定此可疑异常点是否属实。
第26页,课件共36页,创作于2023年2月三、主成分回归分析1.基本概念主成分回归分析是将多个彼此相关、信息重叠的自变量通过适当的线性组合,使之成为彼此独立而又提取了原指标变异信息并带有特定专业含义的综合潜变量,即主成分,建立潜变量和因变量的线性回归方程,再将回归方程中的潜变量转换为原自变量的一种多元统计方法。第27页,课件共36页,创作于2023年2月三、主成分回归分析2.实现步骤(1)进行多重回归分析,并进行共线性诊断;(2)如果自变量之间存在共线性,则可选择进行主成分回归分析,以解决由于共线性的影响,造成回归结果不合理或无法解释;第28页,课件共36页,创作于2023年2月三、主成分回归分析2.实现步骤(3)用主成分分析求自变量的主成分和主成分得分;(4)使用因变量与主成分进行回归分析;(5)将主成分的表达式回代,最后得到因变量与原始自变量的回归模型,并给予专业解释。第29页,课件共36页,创作于2023年2月30四、最优回归子集法1.R2选择法(RSQUARE)
从模型语句中的各自变量所有可能子集中选出规定数目的子集,使该子集所构成的模型的决定系数R2最大。第30页,课件共36页,创作于2023年2月31四、最优回归子集法1.R2选择法(RSQUARE)
注意:当观测点少、且模型语句中变量数目过多时,程序不能运行,因为过多自变量使误差项无自由度,设计矩阵不满秩,所以最多只能从所有可能的变量中选择观测点数减1个变量放入回归方程。
第31页,课件共36页,创作于2023年2月32四、最优回归子集法1.R2选择法
局限性∶
其一,当样本含量小于等于自变量(含交互作用项)个数时,只能在一定数目的变量中穷举,为找到含各种变量数目的最优子集,要么增加观测,要么反复给出不同回归方程;
其二,选最优子集的标准是R2,完全没有考虑其他标准。
第32页,课件共36页,创作于2023年2月33四、最优回归子集法2.修正R2选择法(ADJRSQ)
根据修正的决定系数R2取最大的原则,从回归方程的所有自变量中选出规定数目的子集。程序能运行的条件是设计矩阵X满秩。
本法的局限性与R2选择法相似:其一,与R2选择法中“其一”相同;其二,选最优子集的标准只是用修正的R2取代未修正的R2而已,完全没有考虑其他标准。第33页,课件共36页,创作于2023年2月34四、最优回归子集法3.MallowsCp选择法(Cp)
从k个自变量中选出p个时,可使用Cp统计量鉴别模型的好坏,其定义为:其中SSE是选用p个自变量时的残差平方和,
是选用k个自变量(即全回归模型)时的残差方差σ2的估计值。当回归方程中包含截距项时,i=1;反之,i=0。
第34页,课件共36页,创作于2023年2月35四、最优回归子集法3.MallowsCp选择法
理想的回归方程应当使Cp=p,在p取不同值时,可能有多个回归方程的Cp接近于p,这时可取p较小的回归方程。
根据MallowsC
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026东莞乐理考级全真模拟题(带官方标准答案)
- 2025肿瘤放疗面试常见问题及答题思路标准答案
- 2022扬职院单招无冗余内容全是考点的试题及答案
- 2020年仪表工技师试题集及答案全解析 高频考点全覆盖
- 2021滑县城投面试冷门考点题库及补充标准答案
- 2025中国铁路南宁局招聘笔试社会考生专属备考题库附答案
- 2026万豪收益管理成本控制专项测试题 附满分答案
- 2023届深信服校招技术笔试高频真题及答案
- 医共体联合门诊协议书
- 湖州解除医保协议书
- 12《古诗三首》课件-2025-2026学年统编版语文三年级下册
- 团队精神与忠诚度培训讲义
- 2026河南新乡南太行旅游有限公司招聘16岗49人考试参考试题及答案解析
- 2026年辽宁点石联考高三年级3月学情调研语文试卷及答案
- 短剧网络播出要求与规范手册
- 2026年春季西师大版(2024)小学数学三年级下册教学计划含进度表
- 高二物理下学期期中考试试卷含答案
- 泌尿生殖系统肿瘤PPT
- 体外膜肺氧合ecmo的护理
- 医药药店保健品销售技巧与关联销售保健品完整版
- 2023年02月上海市嘉定区马陆镇公开招考14名农村储备干部笔试参考题库含答案解析
评论
0/150
提交评论