




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一、普通最小二乘估计带来的问题当自变量间存在多重共线性时,回归系数估计的方差就很大,估计值就很不稳定。此时模型或数据的微小变化有可能造成系数估计的较大变化,对预测值产生较大影响。下面进一步用一个模拟的例子来说明这一点。例1假设已知打,与y的关系服从线性回归模型y=10+2%i+3、2+给定%1,%2的10个值,如下表:序号12345678910X11.11.41.71.71.81.81.92.02.32.4X21.11.51.81.71.91.81.82.12.42.5心0.8-0.50.4-0.50.21.91.90.6-1.5-1.5Yx16.316.819.218.019.520.921
2、.120.920.322.0现在我们假设回归系数与误差项是未知的,用普通最小二乘法求回归系数的估计值得:A=1L292,d=lL307,A=6591而原模型的参数为=10,01=2,优=3看来相差太大。计算X1,X2的样本相关系数得门2=0.986,表明X1与X2之间高度相关。二、岭回归提出的背景岭回归是1970年由Hoerl和Kennard提出的,它是一种有偏估计,是对最小二乘估计的改进。假定自变量数据矩阵田七为nxp的,通常最小二乘回归(ols)寻求那些使得残差平方和最小的系数。,即(名知,,皿)=aig1而1(乂一a-Z44)2(a,.)工岭回归则需要一个惩罚项来约束系数的大小,其惩罚项
3、就是在上面的公式中增加一项入=1月2,即岭回归的系数既要使得残差平方和小,乂不能使得系数太膨胀:(次吗济.)=atgimnf(y为血Y+xf42P2=1J=17=1这等价于在约束条件笏=1月2s下,满足人nP(赤%)=argnmi(y,-a-x”用)262=1J=1设有多重线性回归模型y=加+,参数夕的最小二乘估计为p=(联尸不则叫,-冲2=a2tr(丫父尸Z?(M-同产=2atr(丫给“当自变量出现多重共线性时,普通最小二乘估计明显变坏。当卜4a0时,?就会变得很大,这时,尽管6是2的无偏估计,但6很不稳定,在具体取值上与真值有较大的偏差,甚至会出现与实际意义不符的正负号。设想给加上一个正常
4、数矩阵A/(k0),那么才+4/接近奇异的程度就会变小。先对数据作标准化,标准化后的设计阵仍用X表示。称我岭囹)/制(W侬中的旷俄密岭参数。当&=o时的岭回归估计就是普通的最小二乘估计。因为岭参数A不是唯一确定的,所以我们得到的岭回归估计0(外实际是回归参数夕的一个估计族,取不同的值时6(A)的取值不同。以A为横坐标,/(A)为纵坐标的直角坐标系,可分析夕估计族的稳定性。优点:比最小二乘估计更稳定三、岭迹分析当岭参数k在(0,8)内变化时,儿(k)是k的函数,在平面坐标系上把函数瓦(k)描画出来。画出的曲线称为岭迹。在实际应用中,可以根据岭迹曲线的变化形状来确定适当的k值和进行自变量的选择。在
5、岭回归中,岭迹分析可用来了解各自变量的作用及自变量之间的相互关系。下图所反映的几种有代表性的情况来说明岭迹分析的作用。岭参数的选择(一)方法1.岭迹法岭迹法的直观考虑是,如果最小二乘估计看来有不合理之处,如估计值以及正负号不符合经济意义,则希望能通过采用适当的/(外来加以一定程度的改善,A值得选择就显得尤为重要。选择值得一般原则是:(1)各回归系数的岭估计基本稳定;M(2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理;(3)回归系数没有不合乎经济意义的绝对值:甚(4)残差平方和增大不太多。图2如上图,当4取A。时,各回归系数的估计值基本上都能达到相对稳定。缺点:用岭迹法来确定值
6、缺少严格的令人信服的理论依据,存在一定的主观人为性.优点:恰好发挥定性分析与定量分析有机结合。2.GCV方法由岭回归的系数估计:/(4)=(%+klYXYA则相应的对Y的估计为:V(A)=x(w+A记矩阵(a)=x(YX+kiyX,将岭回归写成y(a)=(A)y的形式,那么由gcv方法的定义,有GCV(k)=(1-rftrMlk)?展开得到:久一2力力(+4yyGCV(k)=p(力|(K+4尸)22=1使得该式得到最小值的K的值即可被认为是最佳岭回归参数。优点:岭回归的最优参数由于依赖于被估计问题的系数,不能作出显示的表达,这造成了参数确定的困难。而广义交叉验证方法作模型评估依靠的主要是已知的
7、数据,而不必对模型的结构和未知参数作过多的假设。(二)岭回归选择变量的原则:a(1)在岭回归中设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。量(2)随着A的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。(3)如果依照上述去掉变量的原则,有若干个回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。五、lasso提出的背景在建模过程中,影响模型中因变量的因素往往有很多种,而在建模之初,在掌握的资料不够全面的情况下,并不知道哪些因素对结果的实际影响大
8、小,建模者往往会从全面考虑各种影响因子的角度出发,全面地搜集可能有用的数据。在这种情况下,如何从许多个因素中选择最适合的,能保留在模型中的解释变量就显得十分重要,自变量太多,可能会削弱估计以及预测的稳定性,相反,自变量太少,那么所拟合的模型与实际情况乂会有太大的偏差。在回归方程中,面对较多备选择变量时,传统的变量选择方法一般都是利用逐步回归,再结合AIC,BIC准则等来选择最优的模型,许多实践也证明以上方法具有一定的实用性,但同时也有一些不足之处。六、lasso的基本原理:Lasso算法是一种带有惩罚因子的线性模型估计方法,该方法的本质是约束各个回归系数的绝对值之和小于某个常数的条件下,最小化
9、回归方程的残差平方和,同时阈值的设定乂可以收缩每个估计的参数值。Lasso方法可以有效地估计回归模型中的各个参数,同时也可以较好地解决变量间的多重共线性问题。Lasso回归在原理上和岭回归的想法有些类似,但惩罚项中不是系数的平方而是其绝对值,即在约束条件为|历|WS下,系数需要满足下面的条件:人nP(次国,/QB)=argmill2(乂-&一,xljPj)2SJ=1J=出于绝对值的特点,lasso回归不像岭回归那样把系数缩小,而是筛选掉一些系数。R软件对于系数的选择有k折交叉验证(kfoldCV)及Cp两种方法。k折交义验证是评价模型的一种常用方法,它把所有的数据观测大致分成k等份(可以随机分
10、),然后轮流以其中的所有可能的kl份为训练集,用来拟合数据,剩下一份为测试集,一共计算k次,得到拟合测试集时的均方误差(或其他指标,如标准化均方误差)那样的k个指标,再做平均。对于每个模型都做一遍,然后选择平均均方误差最小的模型。Mallowsq统计量也是用来评价回归的一个准则。如果从k个自变量中选取p个(kp)参与回归,那么Cp统计量的定义为:Cp=_+2p;SSEp=(K_0)24=1据此,选择J最小的模型。案例分析:某种水泥在凝固时放出的热量Y(卡/克)与水泥中四种化学成分Xi,X2,X3,X4有关,现测得13组数据,如下表所示,希望从中选出主要的变量,建立Y关于它们的线性回归方程。序号
11、XIX2X3X4Y12666078.52129155274.331156820104.34113184787.6515263395.961155922109.2一371176102.78131224472.59254182293.1102147426115.911140233483.8121166912113.3131068812109.4讲稿岭迹图解说(I)在图4.1中,。(0)=。0,且比较大.从古典回归分析的观点看,应籽人,看作是对F仃币:要影响的因素。但。(幻的图形显不出相的不星定,从零开始略增加时,2伏)显苫地下降.而且迅速趋于客,因而失去预报能力。从岭回口的观点看,为对P不起币要:
12、作用,我至可以去掉这个变母。(2)与图(a)相反的梢况如图4.1(b),。=2(0)0但很小。从占曲回以分析看,x对尸的作用不大。但随若左略增加,自伏)骤然变为负侑.从岭M以观点看,工对Y有显著影响(3)如图4.1(c),夕=2(。)0.说明工还比较显著,但当去增加时,迅速卜.防,且稳定为负值,从占典何归分析看,r,是对,行“正”影响的0著因素,而从岭归分析角度G.要被存作是对yTT“负”比响的因素.(4)在图4.1(d)中,6式)和A()都很不稳定,但其和却大体上稳定.这种情况往往发生在白变量即和%的相关性很大的场介,即在力和论之间存在多重共线性的情形。因此,从变量选择的观点石,两占只要保存一个就够了。这种情况可用来解释某些回回系数估计的符心不合理的情形,从灰际观点看,A和外不应有相反符号.岭网归分析的结果时这点提供了一种解杼国.(4)在图4.1(d)中,A(/)和A”)都很不稳定,但其和却大体上稳定.这种情况往往发生在门变显莺和船的相关性很大的场介,即在此和M之间存江多诞共线性的情形.因此,从变量选择的观点看,两者只要保存个就够了.这种情况可用来解释某些回心系数估计的符号不合理的情形,从实际观点看,回和夕?不应有相反符
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中华传统木雕工艺师认证考试模拟题库
- 2025年中国农业科技发展高峰论坛专家讲座要点预测题
- 拉晶清装工安全知识培训课件
- 拉力试验培训课件
- 护士肝病科普知识培训课件
- 抢车安全知识培训内容课件
- 2025年环氧丙烷项目发展计划
- 2025年计算机数字信号处理板卡项目发展计划
- 2024-2025学年湖南省常德市石门县九年级(上)期末数学试卷(含答案)
- 2025年煤制合成氨项目建议书
- 急性混合型胎儿宫内窘迫的护理查房
- 公路养护实操培训
- 5 国行公祭为佑世界和平
- 钻井队安全培训课件
- 腰椎间盘突出症小讲课
- 主管岗位培训计划方案
- 城市轨道交通员工职业素养(高职)全套教学课件
- 食堂员工防鼠知识培训
- 大学美育(第二版) 课件 第四单元:绘画艺术 课件
- 个人防水补漏协议
- 工程伦理 课件全套 李正风 第1-9章 工程与伦理、如何理解伦理- 全球化视野下的工程伦理
评论
0/150
提交评论