版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
广义可加模型方法相关介绍综述目录TOC\o"1-3"\h\u13013广义可加模型方法相关介绍综述 1158091.1广义可加模型基本原理 1292671.1.1广义可加模型的提出 1167771.1.2广义可加模型的估计 416191.2广义可加模型诊断 5299901.1.1共曲线性 6132571.1.2有效自由度 6200881.3模型评价方法 61.1广义可加模型基本原理1.1.1广义可加模型的提出广义可加模型是由Hastie和Tibshirani(1986)在广义线性模型和可加模型的基础上提出的一种非参数回归分析方法。回归分析是揭示响应变量和解释变量间关系的常用统计方法,经典的多元线性回归模型表达式为:2-(1)公式2-(1)中表示响应变量,它在解释变量条件下服从正态分布,响应变量和解释变量间存在线性关系是多元线性回归模型的前提假设,和是待估的未知参数,可利用普通最小二乘估计、极大似然估计、矩估计等方法对参数进行估计。当响应变量和解释变量间存在线性关系,但响应变量的分布为非正态的其他指数族分布时,可建立由Nelder和Wedderburn(1972)提出的广义线性模型,定义连接函数表示解释变量关系式和响应变量间的关系,广义线性模型表达式为:,2-(2)如果响应变量服从条件正态分布,但响应变量和解释变量间存在非线性关系时,可以用非参数回归方法来对变量间的关系进行拟合,可建立由Stone(1985)提出的可加模型,表达式为:2-(3)公式2-(3)中是变量的平滑函数,用于表示变量和响应变量间的关系。而当响应变量的分布为非正态的其他指数族分布,且响应变量和解释变量间存在复杂非线性关系时,GAM是较为合适的一种回归方法,其表达式为:,2-(4)从公式2-(4)可以看出,GAM包含三个部分:解释变量和响应变量,连接函数,平滑函数。(1)变量GAM的潜在假定是解释变量的函数是可加的,且GAM的各个成分都是平滑的。相比于多元线性回归方法要求假定响应变量服从正态分布,GAM假定响应变量服从指数分布族中的某个指数分布,其概率密度函数为:2-(5)公式2-(5)中,和分别表示该指数分布的自然参数和尺度参数,、和是任意函数,它们决定了概率密度函数的特殊形式。虽然GAM存在对响应变量的概率密度的假定,但由于、和的存在,该概率密度能包含大部分响应变量的分布情况。(2)连接函数连接函数的形式由响应变量的分布决定,不同分布对应的连接函数有差异,部分响应变量分布所对应的连接函数形式在表1.1中列示。由于连接函数的存在,解释变量和响应变量间的关系可以设定为非线性关系,克服了多元线性回归模型的局限,更符合实际情况中解释变量和响应变量之间存在的复杂关系。表1.1响应变量分布与其对应的连接函数响应变量分布常用连接函数正态分布Identity连接:二项分布Logit连接:Gamma分布Log连接:Poisson分布Log连接:(3)平滑函数GAM中使用的平滑函数估计方法主要有三类:局部回归、平滑样条、回归样条。局部回归是根据在每个近邻窗口内拟合加权回归模型得到平滑函数。计算目标点的平滑函数值的步骤为:第一步,确定窗宽,窗宽是指每个对称滑动邻域包含数据的比例,通过控制窗宽大小可确定平滑度;第二步,计算权重,权重是基于抑制远离目标点的数据点思想的核函数,若用二次函数表示权重,则权重,,是邻域的宽度;第三步,建立加权回归模型,对目标点的加权回归拟合值就是相应的平滑函数值。平滑样条是对自然样条的正则化回归,可通过最小化惩罚平方和来估计平滑函数。是在相应节点上的基函数,节点在每个观测点处。是拟合观测值的残差平方和,是为提高拟合曲线平滑度的惩罚项,平滑参数控制模型的拟合优度和平滑度间的权衡。回归样条可表示为一组有限基函数的线性组合,基函数不依赖于响应变量Y,因此回归样条是一种较为实用的平滑函数。阶回归样条表达式为,其中是次样条在给定节点上的基函数,是基函数的模型矩阵,是基函数的对应系数。基函数的数量取决于内部节点的数量和样条阶数,节点数量控制平滑度,记为内部节点的数量,则基函数的数量为。常用的回归样条有B样条、P样条和薄板样条等。回归样条可通过最小化惩罚平方和估计平滑函数,惩罚项的常用方法是使用P样条,它通过直接惩罚相邻系数之间的差异来提高平滑度,表达式为。1.1.2广义可加模型的估计GAM是由多个平滑函数和参数项组成,所以估计GAM就是同时估计模型中的所有平滑函数和模型中的参数项。主要有两种估计方法:局部积分算法和惩罚迭代重加权最小二乘法(PenalizedIterativelyRe-weightedLeastSquares,简记为“PIRLS”)。两种估计方法的最终目标都是最大化惩罚似然函数:2-(6)PIRLS只可应用于回归样条,而局部积分算法可应用于模型中任意类型的平滑函数,但局部积分算法计算量较大且不能如PIRLS一样可自动选择合适的平滑参数。本部分主要介绍PIRLS方法。(1)PIRLS估计GAMGAM表达式的标准形式为:,2-(7)公式2-(7)中是参数模型矩阵的第行,具有相应参数项系数,是解释变量的平滑函数,表示均值为、尺度参数为的指数族分布。平滑函数的基函数模型矩阵表示为,惩罚矩阵表示为。如果是的第个基函数,那么。设和分别表示施加约束后的的基函数模型矩阵和惩罚矩阵,参数模型矩阵和按列组合成总模型矩阵。模型系数向量包括参数项系数和所有基函数系数。模型总惩罚项为,其中是平滑参数,是将作为块对角嵌入在矩阵中的块对角矩阵,是的惩罚项。所以GAM可表示为过度参数化的GLM:,2-(8)公式2-(8)中,为总模型矩阵的第行。可以通过最大化惩罚似然函数来估计,惩罚似然函数表达式为:2-(9)在给定平滑参数的情况下,可以通过PIRLS来最大化,其步骤如下:第一步,初始设置和。重复以下两个步骤至收敛。第二步,构造变量,计算迭代权重。其中,,是由指数族分布确定的方差函数。第三步,最小化加权最小二乘表达式:,将求出的代入计算和。其中,。(2)平滑参数选择准则当平滑参数为0时,惩罚项将不会对模型产生任何惩罚作用,拟合模型容易产生过拟合问题,方差趋于无穷大。当平滑参数趋于无穷时,惩罚项的影响增加,拟合曲线可能会过于平滑,得到的结果与普通最小二乘回归法得到的结果接近,模型的拟合和预测效果会特别差。确定最优平滑参数可以使用广义交叉验证(GeneralizedCrossValidation,简记为“GCV”)方法或限制性极大似然(RestrictedMaximumLikelihood,简记为“REML”)方法。REML方法只可应用于使用PIRLS方法估计GAM时,但REML方法收敛速度比GCV方法快,且GCV方法趋向于不平滑。GCV方法是基于缺一交叉验证方法提出的,统计量。而使用R软件拟合GAM时出现的无偏风险估计量(Un-BiasedRiskEstimator,简记为“UBRE”)本质上是尺度参数已知时的GCV统计量,,也称为。REML方法是通过在PIRLS迭代中嵌套限制性似然函数来确定最优平滑参数。限制性似然函数为,其取决于平滑参数向量和待估参数。确定最优的步骤为:第一步,设置初始值,使用PIRLS方法估计;第二步,通过最大化限制性似然函数更新;第三步,重复第一、二步至收敛。1.2广义可加模型诊断1.1.1共曲线性模型中平滑函数所解释的变化空间可以分解成两部分,位于其他平滑函数所解释的变化空间部分和不位于其他平滑函数所解释的变化空间部分。如果所解释的变化空间部分占解释的变化空间部分较多,则可认为存在共曲线性问题。依据上述思想计算的worst指标、observed指标和estimate指标均可评估GAM的共曲线性情况,如果该指标大于0.5,可认为模型中变量存在共曲线性问题。1.1.2有效自由度GLM的自由度等于模型中待估参数的数量,可由帽子矩阵的迹计算,模型自由度。同理,GAM的有效自由度可表示为,。随着平滑参数的增加,有效自由度将减少。建立GAM后对有效自由度进行判断,若变量平滑函数有效自由度接近1,则可对该变量进行参数估计,否则使用平滑函数进行拟合。对拟合的平滑函数进行基维度检验,令k表示平滑项的基维度,则k-1为自由度上限值。k应设置的足够大以避免平滑项拟合过平滑,但k过大会影响计算效率。如果模型中平滑项的有效自由度估计远小于k-1,则k不需要增加,但当有效自由度接近k-1,应增加k使有效自由度增加。1.3模型评价方法为评价预测模型的预测效果,即由预测模型所得出的预测值与实际观测值拟合程度的优劣,可用均方根误差(RootMeanSquareError,简记为“RMSE”)、平均绝对误差(M
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 装修项目后期维护管理方案
- 铁矿生产过程风险评估方案
- 水库泄洪系统运行维护方案
- 人防工程环境监测方案
- 监控系统安装与维护实施方案
- 企业紧急库存管理应急预案
- 电池组安装与连接规范
- 企业大数据分析在库存管理中的应用
- 绿化工程香料植物种植方案
- 智慧物流园项目建议书
- 【《柴油列管式换热器工艺计算案例》6700字(论文)】
- 实施方案中项目建设方案
- QC/T 1254-2025汽车用B型焊接圆螺母
- 地基检测部门管理制度汇编(3篇)
- 网络社群语用规约演化-第1篇-洞察与解读
- 教育强国建设三年行动计划(2025-2027年)
- 20S515 钢筋混凝土及砖砌排水检查井
- 永辉生鲜采购制度
- 盘锦北方沥青股份有限公司招聘笔试题库2026
- 律所反洗钱内部控制制度
- 《半纤维素》团体标准(征求意见稿)-0629
评论
0/150
提交评论