




已阅读5页,还剩173页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
现代回归分析方法 上海财经大学统计系韩小亮 目的 回归分析研究的是一个变量 应变量 和其他变量 自变量 之间的关系 其目的可能是 1 确定哪些变量有关及其程度 2 预测 3 找出最优的组合 4 控制 5 寻求合适的数学模型 6 评估两个或两个以上因素的交互影响等等 1 回归分析 RegressionAnalysis 数据资料 data 应变量 response 自变量 independentvariables predictorvariables 这里n是记录数目 k是自变量数目 包括常数项 基本模型 2 线性回归 LinearRegression 模型 Y X 这里X是Z的函数 已知 是未知参数向量 是误差项 也就是说有 线性模型的假设 1 正态分布 2 互相独立 3 同方差 4 一个随机误差项 5 系统影响的相加性 additivityofsystematiceffects 6 资料完整 参数估计 最小二乘估计 有 注意 这里没有用到正态分布的假定 极大似然估计这里在正态分布的假定下这个估计是所谓BLUE的 估计量的分布 残差平方和的分布 方差的估计 矩估计 显著性 1 模型的显著性 即检验假设使用统计量当为真时 2 某个因素的显著性 即检验假设定义对称方阵设为其对角元素 则有检验统计量当成立时 模型选择 变量数目 当两个模型有嵌套的 nested 关系时 可以用下述F检验来决定取舍模型1 模型2 当为真时这里是回归平方和 是残差平方和 方差分析表 拟合优度 确定系数 R2statistic R2c adjustR2 UnderH0 1 2 p 1 0 testR2exactlyequivalenttoFtest 应变量的变换 transformationofresponse 目的 1 正态分布 对称 2 同方差 3 相加性 异方差或者不独立 加权最小二乘估计 假如Y X N 0 2V 而且V已知 则存在满秩对称矩阵PP P PP P V且有P 1 N 0 2In 即P 1Y X N P 1X 2In 对P 1Y P 1X P 1 取最小二乘估计 得 XTV 1X 1XTV 1Y称之为加权最小二乘估计 weightedleastsquareestimator 有 N 2 XTV 1X 1 3 共线性 Multicollinearity collinearity 这里主要讨论 几乎 共线性 顺便也讨论一下精确的共线性 定义 自变量之间存在强烈的线性关系 精确地说 存在使或对至少一个k成立 迹象 XTX至少有一个很小的特征值 0 注意 j 0forj 1 2 p 这里 j是XTX的特征值 影响 典型的影响是使参数估计的方差增大从而使整个估计不精确 总的说来 Var 2 XTX 1具体地说 Var j forj 0 1 p 1 这里R2j是即其它自变量对自变量j回归的确定系数 线性回归的理想要求是 Y对X有很强的线性关系 而X之间有较弱的线性关系 共线性的测度 1 VIF varianceinflationfactor VIFj 1 1 R2j forj 0 1 2 p 1 当max VIFj 10时 有共线性问题 这是经验公式 无精确理论基础 注意 VIF0 1 1 R20 其对应模型是此模型右边无常数项 2 ConditionNumber这里 j 是按大小排列的矩阵XTX的特征值 当 1000时 可能有严重的共线性问题 3 ConditionIndexforj 2 3 pConditionIndex能发现多于一个的共线性关系 经验公式 列出所有的 j 100 解决方法 1 从模型中除去一些变量 例如对应于比较大的VIFj的Xj 这个问题与变量选择和模型确定的方法有关 如果 j 0 则剔除 j会导致 即最小二乘估计成为有偏估计 2 主成分回归 PrincipalComponentRegression Y X X UUT XU UT G 这里U是XTX的特征向量矩阵 XTX U UT G XU G称为主成分principalcomponent UT 这时 的LS估计是 GTG 1GTY 1GTY U 如果把G去掉 p r 列 比如说对应于较小的 i 记为G r G r XU r 取 GT r G r 1GT r Y U r U GT r G r 1GT r Y称之为主成分估计 principalcomponentestimator 这时有SV 2SMSE 2即这个估计是有偏的 除非 2i 0i r 1 p 注意 主成分回归只减少 成分 个数 没有减少变量个数 3 岭回归 Ridgeregression XTX kI 1XTY这里k 0通常是个小正数 前面有SV 2现在有SV 2SV 当k 时 SV 0事实上Var 2U UT这里 ii i i k 2 然而SMSE 2 是 的有偏估计 当k 有Var 同时bias 注意到上述SMSE 的第二项是单调增函数 且有当k 0时为0 则存在k 使SMSE k SMSE 0 但事实上koptimal不可求 因为式中的 未知 经验方法是 1 k p 2 T 这里 2 Y X T Y X n p 2 找出使 稳定 下来的k 1 VIFmax 10 3 画脊岭迹 ridgetrace 即对j 0 1 p 1画出 j k k 脊岭迹也可用来作为除去变量的标准 除去那些不稳定 变号 很快趋于零 的变量 广义逆回归 如果完全的共线性存在 即XTX的秩小于p 则最小二乘估计 不唯一 可用广义逆 如Moore Penrose广义逆 找出 的一般解 4 重大影响点 异类点和稳健性回归 Influentialpoints OutliersandRobustregression 定义 残差 residual 这里hatmatrix H X XTX 1XT有var e I H 2和var ei 1 hii 2且有 含有 0项时 和 定义 标准残差 Standardizedresidual zi ei s有 定义 学生残差 Studentizedresidual 在回归模型假定下ri渐进服从自由度为 n p 的学生分布 定义 大折刀残差 Jackkniferesidual 这里s2 i 是指去掉第i项的方差估计 在回归模型假定下r i 精确地服从自由度为 n p 1 的学生分布 当 n p 30时ri r i 都渐进服从N 0 1 常用残差图 1 分布图或直方图 histogram 2 盒子图 box plotorschematicplot 3 正态图或半正态图 4 二维图 如Y r i 重大杠杆点 highleveragepoint 一个事实 fori 1 2 n single roweffects 帽子矩阵H的一些性质 1 对称 symmetric 2 幂等 idempotent H2 H 3 1 n hii 1 4 特征值 theeigenvaluesarealleither0or1 of1s Rank H 5 Rank H Rank X p tr H hii p Onaverage hii p n 经验公式 Aruleofthumb hii 2p n highleveragepointi Leverage的度量 Cook sdistance当Di 1时 没有highleverage的问题 注意 highleveragepoint不一定会很大地改变参数估计值 图 异类点及其处理 异类点 Outliers 通常指的是这样一种情况 资料不纯 contamination 即资料中的一个记录 点 或某项记录 点 显然与其他大部分记录 点 不一样 异类点的统计模型 原假设 备用假设1 确定性备用假设 deterministicalternative 有记录或测量误差 备用假设2 内在性备用假设 inherentalternative 备用假设3 混合型备用假设 mixturealternative 备用假设4 滑动型备用假设 slippagealternative 除了事先确定的k个点之外 确定指的是数目k而不是点 所有其他点都属于F F由位置参数 location 和等级参数 scale 2确定 而k个点则来自 和 2有变动的版本F 备用假设5 可变换型备用假设 exchangeablealternative 只有一个异类点j等可能地来自 1 2 n 异类点的处理方法 1 找出并剔除 discardancytest 例如基于残差的检验 注意 当用max r i n的P值进行检验时 需要考虑所谓的Bonferronicorrection 2 去除或减少其影响 accommodation 稳健性 robust 统计 注意 异类点常常是重大杠杆点 但重大杠杆点不一定是异类点 BonferroniInequality ntestseachofsize theprobabilityoffalselylabellingatleastonepoint anoutlierisnograterthann 如果选 n 则可得保守的 值 稳健性回归 Robustregression 稳健性统计的一些方法 以位置 location 估计为例 1 修剪法 trimming 略去r个最小的和s个最大的样本值 或者取 n r f 0 f 1 2 温莎法 Winsorizing 或者类似于定义 3 L估计量 M估计量和R估计量L estimators LinearOrderStatisticsestimators 注意 修剪法和温莎法都是L估计量 M estimators找出方程关于的解 注意 当密度函数为f x 时 取 就是似然方程的解 R estimators由一定的秩检验 ranktest 如Wilcoxontest 的程度所取得 为什么要稳健性回归 替代方法是分两步走 1 去除异类点 2 用经典方法进行回归 但是去除异类点首先需要可靠的参数估计 原先的分布假设可能不对 经验表明稳健性方法往往比剔除异类点的方法更可取 因为它不决断地接受或拒绝一个观察点 稳健性回归的要求 1 在假定模型下是好的估计 2 假如资料对模型假定有一点偏离 其参数估计还是 稳健的 3 如果资料对模型假定有较大的偏离 参数估计也不是 灾难性 的 稳健性回归的几个例子 1 考虑M估计量当时 它就是LS估计 取这里0 f 2 较小的f等价于给较大的残差以较小的权 特别地 当f 1时 称之为LeastAbsoluteDeviationEstimation 又叫L1 regression 或者取这里c 0是一个常数 2 考虑下列步骤 i 对Yi回归 得Y i s和ri 或r i ii WinsorizeYi 这里c是稳健控制值 一般取1到2之间 iii 对Y i回归 得新的Y i s和ri 或r i 重复 i 和 ii 直到收敛 注意 当用 e i Y i Y i代替 ei Yi Y i时 将会低估 2修正方法 这里m是未修改的Y的数目 3 LTSregression这里h n 称之为LeastTrimmedSquaresRegression 4 LMSregression称之为LeastMedianofSquaresRegression注意 稳健性回归的思想具有一般的意义 5 广义线性模型 GeneralizedLinearModels 线性模型的推广一大类回归模型有完整的理论结构 逻辑回归 LogisticRegression 如果应变量Yi只能取两个值0和1 则Yi服从二点分布 Bernoullidistribution 设则 逻辑函数 逻辑回归模型 设这里g定义为连系函数 linkfunction 连系函数将线性组合Xi 与数学期望pi连在一起 则即p是关于 的逻辑函数 且有0 pi 1 参数 的极大似然估计 由得似然函数于是forr 1 2 k 费雪信息矩阵 Fisherinformationmatrix 这里 当是逻辑连系函数时注意 需用叠代算法求出 即解方程组 参数估计 的性质 事实上 是渐进正态分布的 拟合优度 差异函数 deviancefunction 注意 0 log 0 0 如果模型假定正确 D渐进服从 如有两个嵌套模型H0和HA 则D0 DA渐进服从 注意 嵌套模型的检验比显著性检验D更强 即D服从的要求比较高 D0 DA服从的要求比较低 甚至当D0和DA都不服从和时亦成立 二项分布 Binomialdistribution 的情形 等价于mj个贝努里实验 且有 设连系函数为似然函数 去掉常数项 为 有这里 当是逻辑连系函数时差异函数 正态连系函数 probitlinkfunction 如果连系函数取所谓的probitlink的话 即则有 和将此式代入 既可得对应的和W 普阿松回归 PoissonRegression 应变量Yi只能取非负的离散值 事实上只需要一边有界 其离散程度大致与其水平成正比例 设即则 设 对数连系函数 则对任何X和 有 参数 的极大似然估计 去掉常数项后这里 当时 对数连系函数 注意 需用叠代算法求出 即解方程组 参数估计 的性质 渐进服从N XTWX 1 拟合优度 差异函数 如果模型假定正确 D渐进服从 如有两个嵌套模型H0和HA 则D0 DA渐进服从 过度离散 over dispersion 实际案例中常有如对应于负二项分布的情形 解决方法 设估计 广义线性模型 四个组成部分1 数学期望 均值 E Yi i2 线性预测量 linearpredictor i Xi 3 连系函数 linkfunction g i i4 方差函数 variancefunction Var Yi V i 线性指数分布族 linearexponentialfamily 形式如 L y exp y c h y 这里假定 是已知的 如果 是未知的 它可能是二参数的指数分布族 也可能不是 对线性指数分布族有 E y c Var y c V 这里 称之为离散参数 dispersionparameter 常用分布的离散参数和方差函数 当连系函数 取c 的反函数 记之为c 1 形式时 我们称 为标准连系函数 canonicallink 常用分布的标准连系函数 其他常用连系函数 正态 probit g 1 幂族 powerfamily g 0 g log 0 余双对数 complementarylog log g log log 1 参数估计 线性指数分布族的似然估计方程组是 Yi i iV i i r 0r 1 2 k对广义线性模型 它成为 Yi i iV i xir g i 0r 1 2 k 当离散参数 i aii 1 2 n时 该方程组成为 Yi i aiV i xir g i 0 r 1 2 k而当连系函数 是标准连系函数时 有 Yixir ai ixir air 1 2 k 一般来说方程组 没有直接的解法 当V 1 g 时 线性模型 解是 XTW 1X 1XTW 1Y这里W diag 1 ai 迭代加权最小二乘法 iterativeweightedleastsquares 简写为IWLS 考虑变量zi i Yi i g i 有E zi i xi rVar zi g i 2aiV i 迭代算法 1 从某一个 i 0 开始 通常取 i 0 Yi 得 i 0 g i 0 2 给定 i t 和 i t 算出zi t i t Yi i t g i t wi t 1 g i t 2aiV i t i 1 2 n 3 给出估计 t 1 XTW t X 1XTW t z t 这里W t diag wi t 定义 t 1 X t 1 t 1 g 1 t 1 重复步骤 2 和 3 直到收敛 迭代加权最小二乘估计的性质 N i 1 这里i 1 1XTWXW diag wi wi 1 g i 2aiV i i 1 2 n 估计量方差的估计 Cov XTW X 1 的估计 1 n p Yi i aiV i 拟合优度 定义差异函数 deviance 为D y 2 l y y l y 如果模型假定正确 D渐进服从 如有两个嵌套模型H0和HA 则D0 DA渐进服从 常用分布的差异函数 正态分布 y 2普阿松分布2 y log y y 二项分布2 y log y m y log m y m 伽玛分布2 log y y 在原假定下 D渐进服从 如有两个嵌套模型H0和HA 则D0 DA渐进服从 非参数回归 non parametricregression 离散图平滑法 scatterplotsmoother 假定X只含有一个变量x 在x上定义一个函数 s x S Y x 一般s x 定义在x的所有定义域上 但也可能只定义在观察值上 这时对一般的s x0 就需要用某种插值法计算 类型 1 格子平滑法 binsmoother regressogram 选点 定义 取 2 移动平均法 running meansmoother movingaveragesmoother 定义 取 3 跑动直线平滑法 running linesmoother 取 这里是对回归的LS估计量 倘若这个回归是加权的 则是所谓的loess locally weightedrunning linesmoother 具体地说可采取下列步骤 i 找出与最接近的k个样本点 记为 ii 定义 iii 取权数这里 iv 4 核平滑法 kernelsmoother 取 对点的权数为 这里 是窗宽参数 window widthparameter c0是个常数 通常使权数的和为一 d t 是关于 t 的减函数 如 Gaussiankernel Epanechnikovkernel minimumvariancekernel 等等 注意 窗宽参数 的选择比核函数的选择重要的多 Gaussiankernel Epanechnikovkernel minimumvariancekernel 5 回归样条 regressionspline 找出k个节点 knots 取 表示正的部分 S x 有三个特性 i 在任何区间内是三次函数 ii 有一阶和二阶连续导数 iii 三阶导数是个阶梯函数 当加上节点以外函数为线性的附加限制时 三次 样条称之为自然样条 naturalspline 给定节点的数目和位置 未知参数可用回归法求得 但如何确定节点的数目和位置是个较复杂的问题 6 三次平滑样条 cubicsmoothingspline 找出一个有一阶和二阶连续导数的任意函数f 使这里 是个固定常数 可以证明这个函数是节点取在所有上的naturalcubicspline 平滑参数 设离散图平滑的模型是 定义 averagemean squarederror averagepredictivesquarederror 这里Yi 是在点xi上的一个新观察值 有 定义 cross validationsumofsquares 有 注意 averagesquaredresidual 不是PSE的好的估计量 可以用下列标准确定 定义 线性平滑法 对任意常数a和b 有上述平滑法都是线性平滑法 对于观察点来说 一个线性平滑法可表示为这里S是一个矩阵 称为平滑矩阵 smoothermatrix 对于一个线性平滑法来说 定义偏 有 定义 Mallows Cp这里 是个很小的数 尽量减小偏 因为所以Cp是PSE的一个估计 可以用下列标准确定 注意 1 Cp只适用于线性平滑法 CV则适用于一般的平滑法 2 在实际应用时上述两法时常特性不佳 这时用直观的图像法选择 可能更可靠一些 3 用自由度来确定 也是常用的方法 平滑法的自由度 有三个表示 1 自由度 对于一个线性平滑法 2 误差自由度 对非线性平滑法的一般定义是 3 方差自由度 对非线性平滑法的一般定义是 注意 I如果S是个对称投影矩阵 symmetricprojectionmatrix 例如线性回归 多项式回归 回归样条 则有II对于三次平滑样条有并且三者都是关于 的减函数 置信区间 对于线性平滑有这里偏向量是依赖于未知函数f的 在一定假定下偏的一个估计是于是可取的对角线元素构造置信区间 这里取自由度 近似的F检验 对于两个线性平滑法 假定f1 比f2 更平滑 有 一个更好的检验是取有 相加模型 additivemodel 一般的相加模型可表示为这里 惩罚性的最小二乘条件 penalizedleast squares 可以用使penalizedleast squares最优化的方法来求得合适的相加模型 注意 1 所谓半参数模型 semi parametricmodel 是相加模型的一个重要特例 如 2 相加模型可以包括某一个或某几个自变量是离散变量的情况 3 相加模型可以包括某一个或某几个函数是多元函数的情况 如 当然这时需用scatterplotsmoother的多维推广 广义相加模型 generalizedadditivemodels 类似于从线性模型推广到广义线性模型的思路 相加模型可以推广成广义相加模型 即定义四个组成部分1 数学期望 均值 2 相加预测量 additivepredictor 3 连系函数 linkfunction 4 方差函数 variancefunction Algorithm 其求解的思路也类似广义线性模型 1 Initialize 2 Update with ConstructweightsFitaweightedadditivemodeltozi toobtainestimatedComputetheconvergencecriterion 3 Repeatstep 2 replacingbyuntilisbelowsomesmallthreshold 注意 所谓半参数广义线性模型 semi parametricgeneralizedlinearmodel 是广义相加模型的一个重要特例 如 7 模型选择 模型选择的目的常常是寻找一个最简单的合理的模型来恰当地描述所观察到的资料 可以粗略地分为两大类问题 1 同一类模型中参数和变量个数的选择 2 不同类模型之间的比较 一个事实 如果真正的模型是而我们所用的回归模型是最小二乘估计是则即一般这个估计是有偏的 且有注意 项数太少会造成参数估计有偏 项数太多不会造成参数估计有偏 但因为减少了自由度从而造成效率 精确度 的丧失 选择回归变量的基本步骤 1 确定最大的模型 保证 正确 的模型在它之内 2 确定选择模型的条件 3 确定选择变量的策略 4 用最后的模型分析资料 5 评估模型的可靠性 确定最大的模型 可以包括 1 所有基本的回归变量 2 基本回归变量的高阶幂 等等 3 基本回归变量的其它转换如对数 倒数等等 4 基本回归变量之间二阶或更高阶的交互影响 interaction 5 在某些问题中 所有的控制变量和它们的 2 3 4 注意 不要选太大的最大模型 会损失可靠性 宜中心突出 针对问题 还应注意共线性问题 经验公式 样本大小和变量个数的比例 确定选择模型的条件 1 确定系数此法只适用于参数个数相同的情形 因为对嵌套模型而言 是关于p的增函数 而无理论基础 2 对于嵌套的线性回归模型 可用统计量当F检验不显著时 可以用较简单的p个变量模型 3 定义选择较小的 4 Mallow sCp这里k是最大的模型 选择较小的或最小的Cp注意 当时 ACI Akaikeinformationcriterion 选择较小的或最小的ACI注意 Mallow sCp是ACI的一个特例 确定选择变量的策略 1 列出所有的回归模型 共有个 通常不实际 2 向后剔除法 Backwardelimination 步骤 i 给出最大的回归模型 ii 一次去掉一个变量 其对应的t值 或等价地 其PartialF值 在所有变量只中是最小的 且低于给定的显著性水平 直到没有这样的变量 注意 两次去掉一个变量不等价于一次去掉两个变量 即使是相同的两个变量 3 向前选进法 Forwardselection 步骤 i 选进相关系数最大的第一个变量 ii 一次一个 选进一个变量 其PartialF最大 在已定模型 既现有变量下 且其p值大于给定的显著性水平 直到没有这样的变量 注意 A两次进一个变量不等价于一次进两个变量 B ii 等价于计算部分相关系数 即Residualofcurrentmodel对Xj 4 逐步回归 Stepwiseregression 步骤 i 同向前选进法 i ii 选进一个变量 同向前选进法 ii iii 去掉一个变量 如有必要 同向后剔除法 ii 直到没有变量进 也没有变量出 5 脊岭回归 如前所述 6 PRESS法 定义 这里是除去第i项后由模型对Yi的预测值 找出一个模型 其PSS较小且不含有太多的回归变量 阶段回归 Stagewiseregression 步骤 i 找出最大相关自变量 得到回归模型 ii 以此模型的残差作为应变量 找出下一个最大相关自变量 得到回归模型如果模型显著 则新的模型为 iii 再定义为应变量 重复 ii 直到没有新的变量能进入 注意 最后的模型不等价于最小二乘估计 测度误差
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年西安高新第二中学招聘真题
- 2025-2030消费品零售变革对城市末端物流园区布局的影响分析
- 2025-2030母婴电商用户画像分析及社交裂变与私募股权融资策略评估
- 2025-2030模具制造领域高精度车床选型与维护保养指南报告
- 2025-2030有机农业认证标准演变与高端农产品溢价空间报告
- 新手养狗基础知识培训课件
- 23中考二次函数压轴题解题通法
- 2025品牌推广招聘题库及答案
- 新年教职工会议课件
- 【演练方案】特种设备事故应急预案演练记录-叉车
- 铝屑清扫安全管理制度
- 催收机房设备管理制度
- 药学礼仪知识培训课件
- 四川省事业单位公开招聘工作人员公共科目〈综合知识〉笔试考试大纲笔试历年典型考题及考点剖析附带答案详解
- 《保障中小企业款项支付条例(2025新修订)》知识培训
- 房地产大宗购买合作合同书
- 管道清淤施工方案
- 车衣改色培训
- (高清版)DB37∕T 3535-2019 固定污染源废气监测点位设置技术规范
- DB36-T 954-2024 低产低效林改造技术规程
- 浙教版七年级(上)科学期中试题卷及答案
评论
0/150
提交评论