偏最小二乘法(PLS)简介_第1页
偏最小二乘法(PLS)简介_第2页
免费预览已结束,剩余3页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 / 5偏最小二乘法 (PLS) 简介偏最小二乘法( PLS )简介偏最小二乘法( PLS )简介简介偏最小二乘法是一种新型的多元统计数据分析方法,它于1983 年由伍德(S.Wold)和阿巴诺(C.Albano) 等人首次提出。近几十年来,它在理论、方法和应用方面都得到了迅速的发展。偏最小二乘法长期以来, 模型式的方法和认识性的方法之间的界限分得十分清楚。 而偏最小二乘法则把它 们有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归 )、数据结构简化(主成分分析 )以及两组变量之间的相关性分析 (典型相关分析 )。这是多元统计数据分析中的一个飞跃。偏最小二乘法在统计应用中的重

2、要性体现在以下几个方面:偏最小二乘法是一种多因变量对多自变量的回归建模方法。 偏最小二乘法可以较好的解决许 多以往用普通多元回归无法解决的问题。偏最小二乘法之所以被称为第二代回归方法, 还由于它可以实现多种数据分析方法的综合应 用。主成分回归的主要目的是要提取隐藏在矩阵 X 中的相关信息,然后用于预测变量Y 的值。这种做法可以保证让我们只使用那些独立变量, 噪音将被消除, 从而达到改善预测模型质量 的目的。但是, 主成分回归仍然有一定的缺陷,当一些有用变量的相关性很小时,我们在选取主成分时就很容易把它们漏掉, 使得最终的预测模型可靠性下降, 如果我们对每一个成分进行挑选,那样又太困难了。偏最小

3、二乘回归可以解决这个问题。它采用对变量 X 和 Y 都进行分解的方法,从变量 X 和 Y 中同时提取成分 (通常称为因子 ),再将因子按照它们之间的相关性从大到小排列。现在, 我们要建立一个模型,我们只要决定选择几个因子参与建模就可以了基本概念偏最小二乘回归是对多元线性回归模型的一种扩展, 在其最简单的形式中, 只用一个线性模型来描述独立变量 Y 与预测变量组 X 之间的关系 :偏最小二乘法 (PLS) 简介2 / 5Y = b0 + b1X1 + b2X2 + . + bpXp在方程中,b0 是截距,bi 的值是数据点 1 到 p 的回归系数。例如, 我们可以认为人的体重是他的身高、 性别的

4、函数, 并且从各自的样本点中估计出回归 系数, 之后, 我们从测得的身高及性别中可以预测出某人的大致体重。对许多的数据分析方法来说,最大的问题莫过于准确的描述观测数据并且对新的观测数据作出合理的预测。多元线性回归模型为了处理更复杂的数据分析问题,扩展了一些其他算法,象判别式分析,主成分回归,相关性分析等等, 都是以多元线性回归模型为基础的多元统计方法。 这些多元 统计方法有两点重要特点,即对数据的约束性:变量 X 和变量 Y 的因子都必须分别从 XX 和 YY 矩阵中提取, 这些因子就无法同时表示变量 X 和 Y 的相关性。预测方程的数量永远不能多于变量 Y 跟变量 X 的数量。偏最小二乘回归

5、从多元线性回归扩展而来时却不需要这些对数据的约束。在偏最小二乘回归中,预测方程将由从矩阵 YXXY 中提取出来的因子来描述;为了更具有代表性,提取出来 的预测方程的数量可能大于变量 X 与 Y 的最大数。简而言之, 偏最小二乘回归可能是所有多元校正方法里对变量约束最少的方法,这种灵活性让它适用于传统的多元校正方法所不适用的许多场合,例如一些观测数据少于预测变量数 时。并且, 偏最小二乘回归可以作为一种探索性的分析工具, 在使用传统的线性回归模型之 前,先对所需的合适的变量数进行预测并去除噪音干扰。因此,偏最小二乘回归被广泛用于许多领域来进行建模,象化学,经济学,医药,心理学和 制药科学等等,

6、尤其是它可以根据需要而任意设置变量这个优点更加突出。 在化学计量学上, 偏最小二乘回归已作为一种标准的多元建模工具。计算过程基本模型偏最小二乘法 (PLS) 简介3 / 5作为一个多元线性回归方法, 偏最小二乘回归的主要目的是要建立一个线性模型: Y=XB+E , 其中 Y是具有 m 个变量、 n 个样本点的响应矩阵, X 是具有 p 个变量、 n 个样本点的预测矩 阵,B 是回归系数矩阵,E 为噪音校正模型,与 Y 具有相同的维数。在通常情况下,变量 X 和 Y 被标准化后再用于计算,即减去它们的平均值并除以标准偏差。偏最小二乘回归和主成分回归一样, 都采用得分因子作为原始预测变量线性组合的

7、依据, 所 以用于建立预测模型的得分因子之间必须线性无关。例如:假如我们现在有一组响应变量Y(矩阵形式)和大量的预测变量 X(矩阵形式),其中有些变量严重线性相关, 我们使用提取因子的方法从这组数据中提取因子,用于计算得分因子矩阵: T=XW ,最后再求出合适的权重 矩阵 W,并建立线性回归模型:Y=TQ+E,其中 Q 是矩阵 T 的回归系数矩阵,E 为误差矩阵。一旦 Q 计算出来后,前面的方程就等价于Y=XB+E,其中 B=WQ,它可直接作为预测回归模型。偏最小二乘回归与主成分回归的不同之处在于得分因子的提取方法不同,简而言之, 主成分回归产生的权重矩阵 W 反映的是预测变量 X 之间的协方

8、差,偏最小二乘回归产生的权重矩 阵 W 反映的是预测变量 X 与响应变量 Y 之间的协方差。在建模当中,偏最小二乘回归产生了pxc 的权重矩阵 W,矩阵 W 的列向量用于计算变量 X的列向量的 nxc 的得分矩阵 T。不断的计算这些权重使得响应与其相应的得分因子之间的协 方差达到最大。普通最小二乘回归在计算Y 在 T 上的回归时产生矩阵 Q,即矩阵 Y 的载荷因子(或称权重),用于建立回归方程:Y=TQ+E。一旦计算出 Q,我们就可以得出方程:Y=XB+E ,其中 B=WQ ,最终的预测模型也就建立起来了。非线性迭代偏最小二乘法用于计算偏最小二乘回归的一种标准算法是非线性迭代偏最小二乘法(NI

9、PALS) ,在这种算法中有许多变量, 有些被规范化了, 有些却没有。 下面提到的算法被认为是非线性迭代偏最小二乘法中最有效的一种。对 h=1.c,且 A0=XY , M0=XX, CO=I,变量 c 已知。计算 qh, AhAh 的主特征向量。wh=GhAhqh, wh=wh/|wh| ,并将 wh 作为 W 的列向量。偏最小二乘法 (PLS) 简介ph=Mhwh, ch=whMhwh, ph=ph/ch ,并将 ph 作为 P 的列向量。4 / 5qh=Ahwh/ch ,并将 qh 作为 Q 的列向量。Ah+1=Ah - chphqh , Bh+1=Mh - chphphCh+1=Ch -

10、 whph得分因子矩阵 T 可以计算出来: T=XW ,偏最小二乘回归系数 B 也可由公式 B=WQ 计算出。SIMPLS 算法还有一种对偏最小二乘回归组分的估计方法,被称为 SIMPLS 算法。对 h=1.c ,且 A0=XY , M0=XX, C0=I ,变量 c 已知。计算 qh, AhAh 的主特征向量。wh=Ahqh, ch=whMhwh, wh=wh/sqrt(ch) ,并将 wh 作为 W 的列向量。ph=Mhwh ,并将 ph 作为 P 的列向量。qh=Ahwh ,并将 qh 作为 Q 的列向量。vh=Chph , vh=vh/|vh|Ch+1=Ch - vhvh ,Mh+1=

11、Mh - phphAh+1=ChAh与 NIPALS 相同, SIMPLS 的 T 由公式 T=XW 计算出, B 由公式 B=WQ 计算。相关文献许禄,化学计量学方法 ,科学出版社,北京, 1995。偏最小二乘法 (PLS) 简介5 / 5王惠文,偏最小二乘回归方法及应用 ,国防科技出版社,北京, 1996。Chin, W. W., and Newsted, P. R. (1999). Structural Equation Modeling analysis with SmallSamples Using Partial Least Squares. In Rick Hoyle (Ed.)

12、, Statistical Strategies for Small SampleResearch, Sage Publications.Chin, W. W. (1998). The partial least squares approach for structural equation modelling. InGeorge A. Marcoulides (Ed.), Modern Methods for Business Research, Lawrence ErlbaumAssociates.Barclay, D., C. Higgins and R. Thompson (1995

13、). The Partial Least Squares (PLS) Approach toCausal Modeling: Personal Computer Adoption and Use as an Illustration. Technology Studies,volume 2, issue 2, 285-309.Chin, W. W. (1995). Partial Least Squares Is To LISREL As Principal Components Analysis Is ToCommon Factor Analysis. Technology Studies. volume 2, issue 2, 315-319.Falk,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论