(概率论与数理统计专业论文)偏最小二乘回归模型的改进研究.pdf_第1页
(概率论与数理统计专业论文)偏最小二乘回归模型的改进研究.pdf_第2页
(概率论与数理统计专业论文)偏最小二乘回归模型的改进研究.pdf_第3页
(概率论与数理统计专业论文)偏最小二乘回归模型的改进研究.pdf_第4页
(概率论与数理统计专业论文)偏最小二乘回归模型的改进研究.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 偏最小二乘回归( p a r t i a ll e a s ts q u a r e sr e g r e s s i o n ,简记为p l s r ) 是一 种先进的多元统计分析方法,主要用来解决多元回归分析中变量之间存在的多重 相关性问题。由于它集多元线性回归分析,主成份分析和典型相关分析的基本功 能为一体,因此在国外被誉为第二代多元统计分析方法,被广泛应用于工业设计、 计量化学、计量经济学等诸多领域。 偏最小二乘回归分单因变量偏最小二乘回归和多因变量偏最t b - - - 乘回归两 种情况。本文针对单因变量偏最小二乘回归的理论与方法进行了以下的探讨与研 究: 在已有文献的基础上,对偏最d , - 乘回归的基本理论、性质进行了整理、扩 充;对偏最小二乘回归及普通最小二乘回归( o r d i n a r yl e a s ts q u a r e sr e g r e s s i o n 简记为o l s r ) 、主成分回归( p r i n c i p a lc o m p o n e n tr e g r e s s i o n 简记为p c r ) 方法 进行了系统的比较:对偏最小二乘回归理论做了进一步探讨:从理论与实例两方 面分析了哪类数据不适合直接用偏最小二乘回归处理的原因,提出一种改进方 法,并给予实例验证:针对偏最小二乘回归模型中仍包含所有原始自变量的情况, 探讨了筛选偏最d , - 乘回归模型中原始自变量的问题。 本文的特色主要体现在以下三个方面: ( 1 ) 通过实例说明了偏最小二乘回归能够有效地对多变量系统中的信息进 行辨识和筛选,并对偏最小二乘回归及普通最小二乘回归、主成分回归方法从理 论及实际建模两方面做了系统的比较分析; ( 2 ) 对不适合用偏最d , - 乘回归直接处理的数据,提出先尽量剔除其中与响 应变量无关的信息,然后利用剩余信息进行偏最小二乘回归建模,并辅以实例说 明该方法的可行性。 ( 3 ) 本文提出一种基于拟合误差筛选偏最小二乘回归模型中原始自变量的 方法,给出了筛选原理及准则。应用该方法建立预测某地区火灾发生频数的模型, 结果表明,该方法不仅能简化模型、提高模型的预测精度,还能选出对火灾频数 影响较大的因素,具有实用价值。 关键词:多元统计分析;偏最小二乘回归;多重相关性;变量筛选 北京工业大学理学硕士学位论文 a b s t r a c t p a r t i a ll e a s t - s q u a r e sr e g r e s s i o n ( p l s r ) i sa na d v a n c e dm u l t i v a r i a t es t a t i s t i c a l a n a l y s i sm e t h o d ,m a i n l yu s e dt os o l v et h em u l t i p l ec o r r e l a t i o n sb e t w e e nt h em u l t i p l e v a r i a b l e si nm u l t i p l er e g r e s s i o na n a l y s i s p l s ri sk n o w na st h es e c o n dg e n e r a t i o no f m u l t i v a r i a t es t a t i s t i c a la n a l y s i sm e t h o db e c a u s eo fi t sf u n c t i o n si n c l u d i n gm u l t i p l e l i n e a rr e g r e s s i o na n a l y s i s ,p r i n c i p a lc o m p o n e n ta n a l y s i sa n dc a n o n i c a lc o r r e l a t i o n a n a l y s i s ,a r ew i d e l yu s e di ni n d u s t r i a ld e s i g n ,c h e m o m e t r i c s ,m e a s u r e m e n te c o n o m i c s a n do t h e rf i e l d s p l s ri sc l a s s i f i e di n t oas i n g l ed e p e n d e n tv a r i a b l ep l s ra n dm u l t i p l ed e p e n d e n t v a r i a b l e sp l s r b a s e do nt h et h e o r ya n dm e t h o do ft h es i n g l ed e p e n d e n tv a r i a b l e p l s r ,t h ef o l l o w i n gd i s c u s s e sa n ds t u d i e sa r ep r e s e n t e di nt h ep a p e r b a s e do nr e f e r e n c e s ,t h eb a s i ct h e o r i e sa n dp r o p e r t i e sa r ef i r s t l yi n t r o d u c e da n d e x t e n d e d ;p l s ri sc o m p a r e dw i t ho r d i n a r yl e a s ts q u a r e sr e g r e s s i o n ( o l s r ) a n d p r i n c i p l ec o m p o n e n t sr e g r e s s i o n ( p c r ) ;t h et h e o r i e so fp l s r i sf u r t h e re x p l o r e d :i t i sf i r s t l ya n a l y z e df r o mt h e o r i e sa n dp r o o fw h o s ed a t aa r eu n s u i t a b l et ob ed e a l tw i t h u s i n gp l s r ,a n dai m p r o v e dm e t h o di sp r o p o s e d ,v a l i d a t e db yc a s e ;a sp l s rm o d e l s t i l lc o n t a i n sa l lt h eo r i g i n a lv a r i a b l e s ,t h ev a r i a b l e ss e l e c t i o ni sd i s c u s s e d t h ef e a t u r e si nt h ep a p e ra r ea st h ef o l l o w i n gt h r e ea s p e c t s : ( 1 ) i ti ss h o w nb ye x a m p l e st h a tp l s rc a ne f f e c t i v e l yi d e n t i f ya n ds e l e c t i n f o r m a t i o ni nm u l t i - v a r i a b l es y s t e m p l s ri ss y s t e m a t i c a l l yc o m p a r e dw i t ho l s r a n dp c r b yt h e o r ya n dp r o o f ( 2 ) f o rt h eu n s u i t a b l ed a t ad i r e c t l yt od e a lw i t hp l s kt h eu n r e l a t e di n f o r m a t i o n w i t hr e s p o n s ev a r i a b l es h o u l df i r s t l yr e m o v e d t h e np l s ri sm o d e l e du s i n gt h e r e m a i n i n gi n f o r m a t i o n ,s u p p l e m e n t e db ye x a m p l e st oe x p l a i nt h ef e a s i b i l i t yo ft h e m e t h o d ( 3 ) a ni m p r o v e dp l s rm e t h o db a s e do nf i t t i n ge r r o rt os e l e c tp l s ri n d e p e n d e n t v a r i a b l e si sp r o p o s e di nt h ep a p e la n ds e l e c t i o np r i n c i p l ea n dc r i t e r i aa r ea l s og i v e n e s t a b l i s h i n gf o r e c a s tt h en u m b e ro ff i r em o d e lf o rar e g i o nu s i n gt h i sm e t h o d ,t h e r e s u l t ss h o wt h a tt h em e t h o dc a nn o to n l yi m p r o v et h em o d e lp r e d i c t i o na c c u r a c y , b u t a l s oe l e c t e do u tt h eg r e a t e ri m p a c tf a c t o rt of i r ef f e q u e n c y t h er e s u l t ss h o wt h a t i m p r o v e dp l s r m e t h o dn o to n l ys i m p l i f i e sm o d e l ,b u ta l s oi n c r e a s e st h ea c c u r a c yo f p r e d i c t i o n ,w h i c hh a sp r a c t i c a la p p l i c a t i o nv a l u e k e yw o r d s :m u l t i v a r i a t es t a t i s t i ca n a l y s i s ,p a r t i a ll e a s t s q u a r e sr e g r e s s i o n ,m u l t i p l e c o r r e l a t i o n s ,v a r i a b l e ss e l e c t i o n 一i i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:歪巫导师签名: 期: 第l 章绪论 1 1 问题提出 第1 章绪论 回归分析是统计学的重要分支,是一种重要的统计分析方法和技术,其应用 十分广泛。从1 8 0 9 年g a u s s 创立最d - 乘法算起,已有近2 0 0 年历史,内容发 展非常丰富,已成为统计界和应用界日益关注的研究方向。该方法从试验或观察 数据出发,寻找合适的数学模型表达变量之间的相依关系,研究变量间的密切程 度,用于推断及预测。然而,利用最d - - 乘法建立多元线性回归模型时,一般需 假设自变量之间不存在多重相关性。 那么,什么是多重相关性呢? 它是怎样产生的,它的存在对建立模型会带来 怎样的影响呢? 1 1 1 多重相关性 所谓多重相关性( 也称多重共线性) ,是指变量之间存在着线性相关的现象。 如果两个变量之间存在完全的线性关系,则它们的线性相关系数( 简称相关系数) 等于l :若两个变量之间没有线性相关关系,则它们的相关系数为零。这是两种 极端的情形,除这两种情形外,还经常出现变量之间存在着程度不同的相关性现 象:变量的相关系数在0 和l 之间,这时变量之间存在着一定程度的相关。 下面是多重相关性的数学描述。 对一组自变量x 。,x 2 ,x p ,如果存在一组不全为零的常数,毛,如,七p ,使 墨五十乞毛+ + x p = 七o ( 1 1 ) 成立,即至少存在一个k ,使得 - 、1 一z k j x j 2( 1 2 ) 成立,这时称一,而,之间存在着完全的多重相关性;如果( 1 2 ) 近似地成立, 则称_ ,x 2 ,之间存在近似多重相关性。 1 1 2 多重相关性形成的原因 多重共线性形成的原因有两个:一是某些变量的物理含义决定了变量之间的 相关性,这在经济、技术、社会科学或生物科学中十分常见。如:一个地区的国 北京工j ! k 大学理学硕士学位论文 内生产总值往往与其工业总产值、社会商品零售总额之间存在着共同增长的趋 势。在建模过程中,为了完整地描述系统,尽可能地不遗漏一些举足轻重的系统 特征指标,分析人员往往倾向于尽量多地选取特征指标,这样一来,就可能使得 特征指标( 即变量) 之间产生多重相关性。二是由于样本点不够造成的。由于在一 些实验中,受实验条件的限制,常常需要考虑其它因素,如:实验经费、时间等。 使得实验点的个数小于或等于选择变量的个数,这样一来,也会出现变量问的多 重相关性。 1 1 3 多重相关性的危害 当自变量系统中存在严重的多重相关性时,如果仍然采用普通的最小二乘法 进行多元回归建模,则模型的精确性、可靠性等都不能得到保证。 ( 1 ) 在自变量完全相关情形下,回归系数的最4 , - 乘估计将无法确定。其原 因是( j7 j ) 不可逆,因此,用占= ( j7 j ) 一1 j7 j ,无法求得占,自然也就无法得到应 有的回归模型。但是,当自变量完全相关情形下,因变量与自变量的回归模型就 不存在了吗? 显然不是这样。我们以因变量为y ,两个自变量五,屯为例,当 y = x 1 = 邑时,y 与五x 2 的线性函数关系式是客观存在的,应该有 j ,= 2 x t + ( 1 2 ) x 2 ,0 兄l 但是,最小二乘法对此类问题没有能力去解决。 ( 2 ) 如果自变量之间存在着不完全的相关现象,回归系数是可以估计的,但 回归系数的估计方差会随着自变量之间的相关性的增强而迅速扩大。仍以两个自 变量的线性回归为例,不妨设变量都是中心化的。在最4 , - 乘法中,得到的回归 模型为y = 丘x i + 甓屯,矗的方差为 v a r ( b , ) = 二一 2 。l 一2 :) 可见,当,i :趋于1 时,l 一将趋于0 ,v a n ( b , ) 趋于无穷。这必然使得回归系数 的置信区间不断扩大,从而使回归系数的估计精度逐渐降低,回归方程的使用价 值也随之降低。在高度相关情形下,回归系数对自变量的变化变得十分敏感,回 归系数的稳健性将变得很差,这对于所得到的回归方程的可靠性就很难判断了 【l ,2 ,3 , 4 ,5 】 o ( 3 ) 当变量间存在严重的多重相关性时,会给回归系数的检验造成一定的困 难。对于回归系数进行显著性检验的f 统计量【6 】 。= 志u u i:j 第1 章绪论 在高度相关现象存在情形下,由于回归系数的方差不断增大,相应的f 检验值就 会减小,从而造成回归系数的,检验不能通过。在应用过程中,由于自变量之间 的多重相关性,才会造成一些重要的解释变量无法通过显著性检验,如果对结果 不进行深入细致的思考,就把一些重要的解释变量作为无足轻重的因素而舍弃, 从而得到与客观情况相悖的结论。 ( 4 ) 在自变量高度相关的情形下,对于用最小二乘法得到的回归模型,其回 归系数的物理含义的解释将变得十分困难。许多从专业知识上看似乎十分重要的 变量,其回归系数的取值变得微不足道,甚至还会出现回归系数的符号与实际情 况完全相反的现象【7 , 8 , 9 , 1 0 。 ( 5 ) 因为回归模型的建立是基于样本的,多重相关性也是指抽样数据间的多 重相关性。如果把所建立的回归模型用于预测,而多重相关性问题在预测期间仍 然成立,则共线性问题对预测结果并不会产生特别严重的影响。但是,如果样本 数据中存在的多重相关问题在预测期间发生了变化,或者在预测期间相关性问题 消失了,那么,所得到的预测结果就不会准确了。 为消除自变量系统中的多重相关性,常采用主成分回归分析方法,但采用主 成分分析提取的主成分,虽然能较好地概括自变量系统中的信息,但往往带进很 多无用的噪声,从而对因变量缺乏解释能力。近年来发展起来的偏最j 、 - 乘回归 能在自变量之间存在多重相关性的条件下进行建模,更易于辨识系统信息与噪 声,对因变量也有较强的解释能力。 1 2 偏最小二乘回归方法的研究背景及现状概述 偏最小二乘回归思想最早于2 0 世纪6 0 年代末由欧洲经济计量学家提出 t l , 1 2 l ,但起初并没有形成完整、系统的理论与算法:2 0 世纪7 0 年代,由瑞典经 济计量学家h e r m a nw o l d 等人提出了非线性迭代偏最b - 乘回归算法,才比较系 统的解决了偏最小二乘回归的算法问题,但是偏最小二乘回归的统计思想和原理 并没有得到真正的解决,在应用领域也没有取得大的进展,因此当时没有引起统 计学界和应用领域研究人员的足够重视;直至上世纪8 0 年代,计量化学研究者 首先将偏最小二乘回归成功地运用于计量化学,尔后工业设计工作者应用改进方 法,同样获得巨大成功后,才真正引起各界的极大关注【1 3 , 1 4 , 1 5 】。从此,偏最小二 乘回归的统计理论和算法的研究都得到了极大发展,其应用也迅速扩展到其它领 域,如教育评测学等i io 。1 9 9 6 年l o 月,由法国高等商业教育组织机构的组织和 资助,在法国巴黎召开了第一次有关偏最b - - 乘回归方法的理论和应用的国际学 术专题研讨会议。来自世界各地的著名偏最b - - 乘回归专家们介绍了他们各自关 于p l s r 的最新研究进展,以及在计量化学、工业设计、市场分析和金融分析等 北京工业大学理学硕士学位论文 领域的应用。这次会议极大地激起了统计学家及相应地应用领域专家对偏最小二 乘回归的研究热情,促进了偏最小二乘回归理论和算法的进一步深入发展,从而 使该方法无论是在理论研究,还是实际应用方面,正在进入全新的高速发展时期。 此次会议对偏最小二乘回归产生了相当深远的影响,美国密歇根大学( m i c h i g a n u n i v e r s i t y ) 的f o m e n 教授更是把偏最4 , - 乘回归划归为第二代统计分析技术【1 7 1 , 这一赞誉得到越来越多的统计工作者的认同。 现在,p l s r 方法国际研讨会每两年举办一次,2 0 0 5 年9 月在西班牙巴赛罗 纳举办了p l s r 的第五次会议。在国外,有关p l s r 方法的理论、性质、算法及典 型应用等方面的前沿研究成果一般发表在j o u r n a lo fc h e m o m e t r i e s 和 c h e m o m e t r i c sa n dz n t e l l i g e n tl a b o r a t o r ys y s t e m s 等专业期刊上。在国内, 虽然对偏最4 - - 乘的研究没有得到足够的重视,但也有部分研究者对p l s r 方法 进行了较为深入地研究。如王惠文编写了偏最4 , - 乘回归方法及其应用【1 8 j , 偏最4 - 乘回归的线性与非线性方法u 9 】,对p l s r 进行了详细而深入地阐述; 许青松和梁逸剖2 0 】等人提出了广义p l s r 算法,研究了w o n t ec a r l o 交叉验证法 用于p l s r 成分数目的确定;李寿安、张恒喜、郭基联和孟科【2 1 1 给出了一种基于 主元选择的偏最小二乘回归方法,把逐步回归变量选择方法和偏最4 - - 乘回归方 法相结合,有效地处理样本容量小、自变量多、变量间存在严重多重相关性的问 题:崔斌、李慧和吴国富【2 2 提出了可以通过对自变量进行定阶,并寻找对因变量 具有最强解释能力的自变量的滞后期,经过反复研究说明了可以采用时间序列中 的多维自回归模型定阶方法来解决这一问题,并将这两种模型结合使用,提高了 参数估计和预报的精度:吴喜之提出了一种改进的偏最小二乘回归法f 2 3 2 4 ,2 5 1 ,进 一步推动了偏最小二乘回归的理论研究与发展。此外,还有大多数研究者借用一 些现成统计软件如s a s 、s p s s 、r t 2 6 2 7 ,2 8 】等进行了偏最小二乘回归的应用研究 2 9 - 3 0 , 3l ,3 2 1 。 目前关于偏最4 - - 乘回归的研究方面,大致集中在以下几点: ( 1 ) 偏最小二乘回归理论的进一步探讨:由于偏最小二乘回归的算法过程比 较复杂,使得人们缺乏分析该低维子空间含义的技术方法,从而影响到对模型物 理意义的认识。 ( 2 ) 偏最小二乘回归模型中自变量筛选问题:由于偏最小二乘回归方法所选 择的主成分仍包含所有自变量,偏最小二乘回归模型最终表示为初始所有自变量 的回归方程,特别是在自变量个数较多的情况下,得到的模型由于回归系数个数 很多而不够简单。 ( 3 ) 复杂的偏最小二乘回归的线性方法:近年来,些更为复杂的偏最小二 乘回归的线性方法在欧洲取得引人瞩目的进展。其中最为典型有偏最小二乘通径 分析方法和递阶偏晟4 , - 乘回归方法。 一4 一 第1 章绪论 ( 4 ) 偏最小二乘回归的非线性方法:由于自然界和人类社会中的现象往往是 复杂的、非线性的,只有解决好偏最小二乘回归的非线性建模问题,才能拓宽偏 最小二乘回归方法的应用领域。 1 3 论文结构、内容及特点 本文研究了单因变量偏最小二乘回归,做了以下几个方面的工作:对偏最小 二乘回归的基本理论、性质进行了整理、扩充:讨论偏最小二乘回归及普通最小 二乘回归、主成分回归方法的优缺点;对偏最小二乘回归理论做了进一步探讨, 分析哪类数据不适合用偏最d , - 乘回归来直接处理及其原因,提出一种尽量剔除 解释矩阵中与响应变量无关的信息,对剩余信息进行偏最小二乘回归建模的方 法:针对偏最小二乘回归模型中仍包含所有原始自变量的情况,提出一种基于拟 合误差筛选原始自变量的方法,达到简化模型,提高预测精度的目的。 全文由五章组成,具体结构如下: 第一章是绪论部分,介绍变量问多重相关性概念,形成原因及在回归建模与 分析中带来的危害:指出为解决当自变量系统中存在多重相关性时的建模问题, 一些研究学者提出了偏最小二乘回归方法:并在阅读大量文献的基础上,介绍偏 最小二乘回归理论的研究背景及研究现状。 第二章讨论了单因变量偏最小二乘回归的基本思想、原理、算法推导及基本 性质,并对基本性质理论进行扩充,给出证明。 第三章通过实例讨论了偏最小二乘回归能有效地对多变量系统中的信息进 行辨识和筛选,并对偏最t | 、- - 乘回归、普通最小二乘回归及主成分回归方法进行 了系统的比较,在此基础上根据c o r n e l l 在1 9 9 0 年收集的化工方面的数据,进行 了建模比较分析。 第四章对偏最小二乘回归理论做了进一步的探讨,指出了偏最小二乘回归并 非对所有具有多重相关性数据建模均有效。从传统的偏最小二乘回归运算过程 看,偏最 b - 乘回归所提取的成分并不都是理想的,其中,就有一种协方差较大 的成分,由于自变量系统中混入了较多的异常影响使其方差较大,但该成分对响 应变量的解释能力却不强。在这种情况下,偏最小二乘回归所选的成分就会出现 偏差,从而使得到的回归结果不合理。针对这个问题,本文对偏最小二乘回归方 法做了进一步的改善:尽量剔除解释矩阵中的与响应变量无关的信息,对剩余信 息进行偏最小二乘回归建模,就能得到合理的结果。实例验证改善的偏最小二乘 法改进了传统偏最小二乘回归处理这类数据的不足,拓宽了偏最小二乘回归的应 用范围。 第五章指出由于偏最小二乘回归方法所选择的主成分仍包含所有原始自变 北京工业大学理学硕士学位论文 量,偏最小二乘回归模型最终表示为初始所有自变量的回归方程,特别是在自变 量个数较多的情况下,得到的模型由于回归系数个数很多而不够简洁的问题。根 据普通多元线性回归删除自变量的原理,提出一种基于拟合误差筛选原始自变量 的方法,给出筛选原则,并将这种方法应用到预测某地区火灾发生次数的建模中。 结果表明,该方法不仅可以简化模型、提高模型的预测精度,更有实用价值。 本文的特色主要体现在以下三个方面: ( 1 ) 通过实例说明了偏最小二乘回归能够有效地对多变量系统中的信息进 行辨识和筛选,并对偏最小二乘回归及普通最小二乘回归、主成分回归方法从理 论及实际建模两方面做了系统的比较分析; ( 2 ) 对不适合用偏最d , - 乘回归直接处理的数据,提出先尽量剔除其中与响 应变量无关的信息,然后利用剩余信息进行偏最小二乘回归建模,并辅以实例说 明该方法的可行性。 ( 3 ) 本文提出一种基于拟合误差筛选偏最d , - 乘回归模型中原始自变量的 方法,给出了筛选原理及准则。应用该方法建立预测某地区火灾发生频数的模型, 结果表明,该方法不仅能简化模型、提高模型的预测精度,还能选出对火灾频数 影响较大的因素,具有实用价值。 注:正文中所涉及到的向量与矩阵描述如下: 因变量y ,其相应的观测数据阵 】,= m 儿 : y 。 自变量_ ,x 2 ,x p ,其相应的观测数据阵 x = ( 勤) 。p = 记j : 1 工 i 五1五2 而lx 2 2 毛ix n 2 五p 而p : , , p 加加; 跏 一 一 一 l i 屯;,_ 第2 章单因变量偏最小二乘回归 置鼍! ! ! ! 曼鼍曼詈寡皇皇! 鼍詈鼍苎詈鼍, , m im 一一i b 鼍皇鲁 第2 章单因变量偏最j 、- - 乘回归 偏最小二乘回归是一种先进的多元统计分析方法,能够有效地解决变量间的 多重相关性问题。本章讨论单因变量偏最小二乘回归的基本原理、算法推导及基 本性质,并对其性质进行扩充,给出证明。 2 1 基本原理 偏最小二乘回归与普通最小二乘回归的不同主要表现在利用偏最小二乘回 归建模过程中不再直接考虑因变量与自变量集合的回归模型,而是采用了信息综 合与筛选技术,在自变量系统中提取若干对因变量系统具有最佳解释能力的新综 合成分,并利用它们进行回归建模。偏最小二乘回归的基本思想可用图2 1 来解 释: 自变量成分 f l ,r 2 , l r i _plsr o l s r 图2 1p l s r 建模不意图 上图中,普通最小二乘回归直接建立因变量关于自变量的线性回归模型,反 映二者之间的线性关系( 图中虚线箭头所示) ;而偏最小二乘回归则是建立提取的 因变量成分关于提取的自变量成分的线性回归模型,间接反映因变量与自变量之 间的关系( 图中实线箭头所示) 。 偏最小二乘回归的具体做法是首先在x 与】,中分别提取第一对成分f l 和 北京工业大学理学硕士学位论文 “。( f 。是五,0 的线性组合,“。是y 的线性组合) ,在提取第一对成分时, 为回归分析的需要,二者须满足下列两个要求【3 3 】: ( 1 ) t 和u ,的相关程度最大: ( 2 ) ,l 和u 。应尽可能大的携带它们各自数据表中的变异信息。 这两个要求表明:t 。和u 。应尽可能的代表资料矩阵x 和】,同时自变量的成 分f l 对因变量的成分u 具有最强的解释能力。 在第一对成分t 。和u 被提取后,偏最小二乘回归分别实施x 对f 1 的回归和】, 对t 的回归。如果此时回归方程己经达到一定的精度,则算法停止:否则,将利 用x 被t ,解释后的残余信息以及y 被t 解释后的残余信息进行第二对成分的提 取。如此反复,直到能达到一个较满意的精度为止。若最终对x 依次提取了m 个 成分f l ,0 ( 小p ) ,偏最小二乘回归将实施yt t ,乙的回归,然后再表达成 y 关于原始变量五,x 。的回归方程。 2 2 算法推导 为便于推导,首先将数据做标准化处理。记r o = y 幸和岛= ( 岛。岛,) = ( i 工:) 分别为y 和x 经标准化处理后的数据阵,其中 y :生兰盟,# :x , - e ( x i ) ( f :1 ,p ) s ys 第一步首先从毛中抽取一个成分,满足f i = e o w i ,w l 是一个单位向量, 即f l w , l l - - l ;从露中抽取一个成分“。,满足“= f o c 。,怕= l 。由于磊( e r 4 ) 只含有一个因变量,所以q 是一个常数,由ic z l l = 1 ,c i = l ,则有“= 。 一方面,要求f 。和“。能分别很好地代表矗和磊中的数据变异信息,根据主 成分分析原理,应该有 v a r ( t i ) jm a x ,v a r ( u i ) - - m a x ( 2 1 ) 另一方面,由于回归建模的需要,又要求t 。和之间具有最大的解释能力, 由典型相关分析的思路,f 1 和u 。的相关度应达到最大值,即 r ( t l ,u 1 ) _ m a x ( 2 2 ) 综合式( 2 1 ) 与( 2 2 ) ,可以要求,l 和u ,的协方差达到最大,即 c o v ( t l ,“1 ) = ,( f l ,“i ) 4 v a r ( t , ) v a r ( u 1 ) 专m a x ( 2 3 ) 而协方差c o v ( t 。, 。) 可由向量f j 和的内积计算,故( 2 3 ) 式可化为数学上的条件 一8 一 第2 章单因变量偏最小二乘同归 。毗t 三 茹i - 吖霹磊专m 觚 c 2 4 , 【 s j 订 2 = 。 三= 订霹磊一a ( w i 1 ) ( 2 5 ) 要:哥磊一2 2 m :o ( 2 6 ) 盖= ( 订w l _ 1 ) = 0 ( 2 7 ) 。2 2 = 试战f o 0 = 2 2 = w 菇露 ( 2 8 ) 由于目= 矿= 霹e o w , ,所以有 咒t l o e o t 矗= 口2 ( 2 9 ) 0 2 = 悟郇 霹e 露磊w l = 口2w l ( 2 1 0 ) 由式( 2 1 0 ) 可知m 是矩阵霹届硭岛的最大特征值对应的单位特征向量。且 m 2 軎诉尚 杯阱爵嘲 w - = 南陛- r ( x t , y 力) 亿 历k y ) 1 心1 1 f i = 啪2 愿p r 2x 扣q ) q 1 2 可以看出:在f l 中,关于,的线性组合系数是 :! 兰:塑 ( _ ,y ) 它的解释是十分显然的:若x ,与y 的相关度越强,在f 。成分中e o ,( 即彳) 的线性 然后,分别实施e o 和磊对f i 的回归方程,假定回归模型为 j 。e 。o ,= :。t 。1 。p i x ? p + 。e 。p l( 2 1 3 ) i 凡= ,i ,l + ,t l 月x 1 x li 1 x i 式中巨和曩是残差阵,p i 和吒是回归系数,即 胪静一静 第二步用残差阵巨和五分别代替毛和重复上述步骤,求第二对成分心 和乞。则w 2 也是矩阵e l f , f , r 巨的最大特征值对应的单位特征向量,且 = 爵南陇习 注由于巨和石不再是单位向量矩阵,所以互= ( 玎一1 ) c d ,( 磁,巧) 。 然后,分别实施e l 和五对f 2 的回归方程,有 je 2 ;+ e : 式中仍,屹是回归系数 舻爵一爵见2 膏2 讦 第三步依此类推,如此计算下去,直到自变量的残差空间为零或达到某 个精度为止。如果共提取了 ,t s ,这b 个成分,则有 磊= f l p i + f2 z + 露+ 乓 ( 2 1 4 ) e = f i + ,2 吃+ f 口+ 乃 ( 2 1 5 ) 一l o 第2 章单因变奄偏最4 , - - - 乘回归 量皇! 鼍鼍! 詈鼍暑! 詈曼! ! 皇! 苎皇苎鼍鼍! i 一一i 一暑i 曼鼍皇! 詈鼍曼! 皇寰鼍皇詈曼曼曼皇皇! 皇鲁曼詈毫皇詈皇 2 3 基本性质及其扩充 在本节里,首先引述了单因变量偏最小二乘回归的基本性质,它们的证明详 见文献 1 3 、i t 8 与 3 4 3 ,然后扩充了偏最小二乘回归的部分性质,并给予证明。 2 3 1 基本性质 性质1 成分f l ,之间是相互直交的,即 t | = 0 。v h l 性质2 权重向量m ,之间是相互直交的,即 以m = 0 ,v h , 性质3 i 一, p h 是毛一在t h 上的回归系数向量,则有 群= 艘: 性质4 t h 与同阶及后续残差矩阵蜀( , ) 中的所有列向量是直交的,即 巧局= 0 ,h 性质5 任意自变量空间的权重向量与其同阶及后续的自变量空间的残 差空间e 的行向量直交,即 局= 0 ,h 2 3 2 性质扩充 扩充性质l 如果自变量空间毛的秩为么,则 e q = t l p + t2 匠+ t t 一 证明由偏最4 , - - 乘回归的算法知,当不能提取新的成分变量时,也就意味 着自变量残差空间必须为0 ,故 瓦= ll p + t2 呔+ t 8 矗 现证明b = a 。 运用反证法,假设b a 时,任意选取一含么个成分的向量组作为一个自变 量空间z o 的向量基,如,l ,t2 ,则自变量空间e o 可以表示为 岛= f l 彳+ f2 乞t + z : 其中,z l ,z2 ,乃不全为零向量 因此 北京工业大学理学硕二i 学位论文 0 = 扇一晶= ,1 0 + + f _ + ,m 以l + t b p ;- ( t l 彳+ + t a z r ) = ,l ( p i 一毛) 了+ + f 月( p 一一z 4 ) 7 + f + l p o l + 西 由性质l ,知各向量,l ,之间是相互直交的,必然有 即 p l z i2 2p 4 一乃 局2 五,仍2 乃, 2 p a + i = = p b = 0 p a + l = = p b = 0 由于自变量空间的向量是任选的,故必有b = a ,与假设矛盾; 如果b 彳时,可将成分向量组t 。,t :,t b 扩充为一个解释变量空间毛的向 量基,即 则解释变量空间e o 可表示为 f l ,r 2 ,岛,岛+ l , = f l z i + f 2 2 2 t + z ;+ t b + l z 川t + f z : 其中,z 1z2 ,z b9 + l ,z _ 不为零向量。由于如+ 1 ,t 月是扩充而来的,故必 有+ l ,z a 不为零向量;因此, 即 o = e o 一毛= r l 彳+ + f 口z b t + r 丑+ l + l + t a z 二一( f l 彳+ + t b 露) = r l ( z l - p 1 ) r + + ,曰( 一既) r + ,口+ l z | 日t + l + t a z 二 由于各向量t i ,t2 ,t b ,f 州,t a 之间相互直交,因而,必然为 z l p l = = z 矗一p b = z 口+ l = = z = 0 五2a ,钿2p 且,z b + l1 1 = z 2 0 显然,这与+ 。= = z a = o 不为零向量相矛盾,故必有b = 爿。 综上所述,必然有b = 彳。则 0 = e o - e o= t l 彳+ + - ( t l 彳+ + t a ) = ,l ( z l - p 1 ) r + + ,_ ( z 一一九) r 由于各向量f l ,t 2 ,t a 之间是相互直交,因而,必然有 即 故 证毕。 z l p i = = 乃一p 一= 0 z l2a ,乃。n e o = f l p i + f2 p ;+ 一1 2 一 第2 苹单因变量偏最小二乘蚓归 由扩充性质1 知,如果自变量空间e o 的秩为a ,按照偏最小二乘回归算法 提取的成分的总数一定是彳个,则式( 2 1 4 ) 与( 2 1 5 ) 一定为 岛= f l 彳+ f 2 z + ( 2 1 6 ) f o = f i + ,2 吃+ f 一+ 兀 ( 2 1 7 ) 扩充性质2 若自变量空间毛的秩为彳,则有 ( 1 ) 2 = y 1 l , h l l 2 u p 。1 1 2 ( 2 ) i l 圪0 2 = 芝砰l l f 1 1 2 + 0 瓦0 2 证明首先证明第h 步的残余信息量等于上步的残余信息量减去本步提取的 变异信息量。即 0 毛f 1 2 = 0 毛一0 2 一8 2 0 仇1 1 2 在回归式e 一,= r 。露+ 邑中,分别记砌和是见和毛的第_ 个分量,p h 是 向量。由性质4 知f 与邑中的所有列向量是直交的,有 陬u | 1 2 = 吲1 2 + p 吾l l t h l l 2 则 圭0 邑 川2 = 圭8 1 2 + 圭磊1 2 即 k 。0 2 = l l 邑1 1 2 + l l p 。1 1 2i i t h l l 2 所以 2 = 2 l i p 。1 1 2 + l l 五1 1 2 = 2 l i p 。u 2 + l | ,2 1 1 2 l i p 2 1 1 2 + l l 易1 1 2 = | i af 1 1 2 i i p 。1 1 2 同理。可推得 2 = 创1 1 2 + 0 瓦i f 证毕。 由该性质知,若从晶中依次共提取了m ( m h 时,有 巧巧= ( 吒一 结合性质1 可得= 0 ,证毕。 i = h + l) = 巧瓦一t t e r , i = h + l 扩充性质5 在第任意的h + l 步( h + l a ) ,恒有下式成立 砭f h f :e f 磁f q 瑶e l 证明首先证明矸正巧r 置= 耳r 霹与 由巧= e - t i r i r ,有 矸正正r 局= 口【- t t r 。r e f 1 彳】7 墨 = 墨f 弋e 。一e f f o r l t , r e 、一砭t 文f je 、七e t 文r $ :e l 由性质4 矢f l t t r 互= 0 ,同样地有置r f i = 0 ,所以 武f 、re l = 酸民式e 1 把互作为原始矩阵,则有 霹五巧e = 霹巧鼻r 岛= e ;t r o 一 ,】【磊一f l 7 】r 易 因 丁岛= 0 , = 霹r o 碍岛一霹e f i r e 2 一霹吒r 磊r 岛+ 霹f ,i f 岛 有丘r f l = 0 ,则 酸f 2 e := 礁民瓦e 2 依此类推,可知最e 。r 毛= 霹磊露毛,证毕。 由于偏最小二乘回归计算过程中第h + l ( h + l a ) 步中的+ i 是矩阵 霹e 巧e 的最大特征值对应的单位特征向量,由该性质知,。也是矩阵 瓦碍色的最大特征值对应的单位特征向量。 扩充性质6 优化原则式 的最优解与优化原则式 l c d v 2 ( 五,e o w , ) j m a x 【1 1 w , l l = l f 仍一1 ) 1 ,( f l ,坼) = = = 订爵冗专m a x i s r w m = l l w d l 2 = 1 ( 2 2 0 ) 的最优解相同。 该性质显然成立。 这样在偏最d , - 乘回归迭代算法中的第h + 1 步,相应的优化原则就可写成 ic b ,2 ( e ,毛+ i ) jm a x + 。i = 1 - 1 5 北京工业大学理学硕士学位论文 其最优解+ 。就是矩阵耳e 巧e 的最大特征值对应的单位特征向量,结合扩充 性质5 知,最优解+ 。也是矩阵可f o e 。t 岛的最大特征值对应的单位特征向量。 而对耳矗可毛求特征值和特征向量的算法所对应的优化原则是 m a x :c o y 2 ( f o t h ) 2 附m a x ,c o y 2 ( 瓦,e 十1 ) 即 c o y 2 ( f o ,t h + 1 ) = r 2 ( t h + i f o ) v a r ( t h + 1 ) v a r ( f o ) 一m a x 若峨= l ,上面的优化原则还等价于 c o y 2 ( t o ,t h + 1 ) = r 2 ( “+ i ,f o ) v a r ( t h + 1 ) v a r ( f o ) = r 2 ( “+ i ,f o ) v a r ( t h + 1 ) m a x 则提取的成分+ 。只需考虑l ,( 小f o ) l ( 或i ,( , 小y ) i ) 和4 y a r ( t h + 1 ) 比较大即可。 2 。4 交叉核实法 一般情况下,偏最小二乘回归并不需要选用全部成分f l ,乞,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论