模式识别第三章.doc_第1页
模式识别第三章.doc_第2页
模式识别第三章.doc_第3页
模式识别第三章.doc_第4页
模式识别第三章.doc_第5页
免费预览已结束,剩余31页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3 回归的线性模型至此,本书都聚焦在无监督学习,包括的议题有密度估计和数据聚类。我们现在转向监督学习,并从回归开始。回归的目的是:对给定的输入变量的D维向量x值,预测一个或更多连续目标变量t值。我们在第一章考虑多项式曲线拟合时,已经遇到过一个回归问题的例子。多项式是线性回归模型的一大类函数中一个具体的例子,它也有含可调参数的线性函数的性质,并将组成本章的焦点。最简单的线性回归模型也是输入变量的线性函数。但是,通过取输入变量的一组给定的非线性函数的线性组合,我们可以获得更有用的函数类,称为基函数。这样的模型是参数的线性函数,它们有简单的解析性,并且关于输入变量仍是非线性的。给定一个训练数据集合,它有N个观察值,其中n=1,N,以及对应的目标值,目的是给定一个新的预测的值。最简单方法是直接构造一个适当的函数,对一个新输入,它的值组成对应的的预测值。更一般地,从概率角度考虑,我们想建立一个预测分布,因为它表示了对的每一个值,值的不确定性。由这个条件分布,我们可以为任意的新值预测,这相当于最小化一个适当选择的损失函数的期望。如在第1.5.5所讨论的,通常选择损失函数的平方作为实值变量的损失函数,因为它的最优解由的条件期望给出。对模式识别来说,虽然线性模型作为实用的技术有显著的限制,特别是涉及到高维输入空间的问题,但是它们具有好的解析性质,并且是以后章节要讨论的更复杂模型的基础。3.1 线性基函数模型最简单的线性回归模型是输入变量的线性组合: (3.1)其中,这就是通常简称的线性回归。此模型的关键特征是:它是参数的一个线性函数。但同时它也是输入变量的一个线性函数,这对模型产生了很大的限制。因此,通过考虑输入变量的给定的非线性函数的线性组合,我们来扩展此类模型,形式为: (3.2)其中被称为基函数。标注下标的最大值为M-1,则此模型中总的参数数目是M。参数容许数据中的任何固定偏差,它常被称作偏差参数。为方便起见,我们常定义一个附加的哑“基函数”,则 (3.3)其中,。在模式识别的许多实际应用中,我们对原始数据变量进行一些给定的预处理或者特征提取,如果原始变量包含向量,那么特征可由基函数的形式来表征。通过使用非线性基函数,我们使函数成为输入向量的一个非线性函数。而形式为(3.2)的函数仍然称为线性模型,因为此函数在中是线性的。正是参数中的线性性质使得此类模型的分析大为简化,但它也导致了一些限制,这些将在3.6节讨论。第一章中讨论到的多项式回归的例子是一个特殊的例子,它只有单一输入变量,并且基函数取为的幂,即。多项式基函数的一个限制是它是输入变量的全局函数,因此输入空间一个区域的变化会影响到整个区域。将输入空间分解为多个区域可解决这个问题,并且在每个区域都对应一个不同的多项式,这就引出了样条函数(Hastie等,2001)。基函数有许多其它可能的选择,如 (3.4)其中控制输入空间中基函数的位置,参数s控制它们的空间比例。这些通常被称为“Gaussian”基函数,值得注意的是,它们不需要有概率上的意义,且在特定条件下,归一化系数也不那么重要,因为这些基函数将会乘上自适应参数。另一种可能的选择是形式为 (3.5)的S型基函数,其中是定义为 (3.6)的逻辑斯蒂S型函数。同样地,我们可以使用“双曲正切”函数,因为由可得到逻辑斯蒂S型函数,因此逻辑斯蒂S型函数的一般线性组合,相当于是双曲正切函数的一般线性组合。图3.1绘制出了不同的基函数选择。 图3.1 基函数的实例,左图是多项式函数,中图是形如式(3.4)的Gaussian函数,右图是形如式(3.5)的S型函数另一种可能的基函数是傅里叶基,它使得正弦函数得到扩充。每个基函数代表一个特殊频率并且有无限的空间范围。相比之下,限定在输入空间的有限区域内的基函数,必然包含一个不同空间频率的频谱。在信号处理的一些应用中,我们感兴趣的是基函数在空间和频率上都是局部的,这就产生一类称作小波的函数。它们也被定义为相互正交的,以简化它们的应用。当输入值在规则格子中时,小波是极其有用的,例如一个时间序列的连续时间点,或者一幅图像的像素。有关小波的经典理论包含在Ogden(1997)、Mallat(1999)和Vidakovic(1999)等人的著作中。然而,本章中的大多数讨论,是独立于基函数的特殊选择的,因此我们的大部分讨论将不会指定基函数的特殊形式,除非涉及到数值说明。事实上,我们的许多讨论,同样适用于基函数的向量取为最简洁的等式的情况。而且,为了保持记法简洁,我们将注意力集中在单目标变量上。然而,在3.1.5节,我们必须做暂时的变化来处理多目标变量。3.1.1 最大似然与最小二乘在第一章,我们通过最小化一个误差函数平方和,来对数据集做了多项式函数拟合,我们也证实了,这个误差函数关于假设的Gaussian噪声模型下的最大似然解是可调的。重新回到这个讨论,更细致地考虑最小二乘法,以及它与最大似然的关系。如前,假定目标变量由一个带有Gaussian噪声的确定函数给出,则 (3.7)其中是一个中值为0、精度为(方差倒数)的Gaussian随机变量。此时,可记 (3.8) 回忆一下,如果假定一个损失函数的平方,则对一个新x值的最佳预测,将由目标变量的条件均值给出。在形如(3.8)的Gaussian条件分布的情形下,条件均值将简化为 (3.9) 注意,假设的Gaussian噪声意味着,给定了的的条件分布的是单峰的,这在一些应用中可能是不合适的。有一种对混合条件Gaussian分布的扩展,将允许多峰条件分布,这在14.5.1中会讨论到。现在考虑输入为,对应的目标值为的数据集。我们把目标变量组成一个列向量,标记为,这种记法是将它与标记为的简单多元目标观测值区别开来。假定这些数据点是独立地取自分布(3.8),我们得到如下的似然函数表达式: (3.10)它是可调参数和的一个函数,在(3.3)已经使用过的。注意,在诸如回归(和分类)的监督学习问题中,我们的目的不是对输入变量的分布进行建模。因此,将会出现在条件变量数据集中,并且从此开始我们将显式的从诸如的式中移除,目的是保持记法整齐。对似然函数取对数,并对单变量Gaussian分布使用(1.46)的标准形式,得 (3.11)其中,误差函数平方和定义为 (3.12)对已给定的似然函数,可使用最大似然函数来确定和。首先考虑w的最大似然,正如在1.2.5中已观察到的,在条件Gaussian噪声分布下对一个线性模型的似然函数最大化,等价于最小化一个由给出的误差函数平方和。似然函数的对数(3.11)的梯度取如下形式: (3.13)令这个梯度为0,得 (3.14)对w求解得到 (3.15)这就是最小二乘的标准方程式。这里是一个矩阵,称作设计矩阵,它的元素组成为,故 (3.16)量 (3.17)是矩阵的Moore-Penrose 伪逆(Rao 和Mitra,1971;Golub 和Van Loan,1996)。它被视作非方阵的矩阵逆的概念推广。事实上,如果是方阵并且可逆,由性质可得。此时,我们可以对偏差参数的作用做进一步探索。如果我们使偏差参数显式表达,则误差函数(3.12)就变成 (3.18)对求导并令之等于0,解之得 (3.19)此处我们已定义 , (3.20)偏差补偿了目标均值(在训练集上)与基函数均值权重和之间的差距。我们也可最大化关于噪声精度参数的对数似然函数(3.11),给出 (3.21)我们可看到噪声精度的倒数是由回归函数附近的目标值的剩余方差给出的。3.1.2 最小二乘的几何现在,考虑最小二乘解的几何解释是很有益的。为此,我们考虑一个N维空间,它的坐标由给出,因此是此空间的一个向量。由N个数据点计算出的每一个基函数,也能描述成此空间中的一个向量,记为,如图3.2所示。注意,对应的第j列,而对应的第n行。如果基函数的数目M小于数据点的数目N,那么M个向量将张成M维空间的一个线性子空间S。定义一个N维向量,它的第n个元素为,。因为是向量的一个任意线性组合,所以它能位于M维子空间的任何位置。误差(3.12)的平方和就等于(相差一个因子1/2)与的欧几里得距离的平方。因此的最小二乘解相当于在子空间S中且与最近的的选择。直观地,从图3.2我们可见到这个解相当于在子空间S上的正交投影。事实上确是如此,因为考虑到的解由给出,使得这很容易作出验证,并且利用正交投影的形式使得这一点更加确定。图3.2 在坐标值为的N维空间中,最小二乘解的几何解释。最小二乘回归方程是通过数据向量在基函数张成的子空间上的正交投影得到的,其中,每个基函数可看作长为N、元素为的向量。 实践中,当是近似奇异时,求标准方程的一个直接解会有数值困难。特别地,当两个或者更多的基向量是共线的,或者近似共线时,参数值的结果将会有非常大的量级。这样的近似退化在处理数据集时会很常见。这种结果的数值困难可用SVD(Press等,1992;Bishop和Nabney,2008)分解来处理。注意,即使退化存在时,正则项的增加也是为了确保矩阵是非奇异的。3.1.3 序贯学习批量技术,例如最大似然解(3.15),一次处理整个训练集,这对一个大数据集来说是高计算代价的。如我们在第一章所讨论的,如果数据集合是充分大的,也许值得使用序贯算法,也称在线算法,其中数据点每次仅考虑一个,并且模型参数在每次这样出现后进行更新。序贯学习也适用于数据观测值以连续流的形式出现的实时应用,以及必须在所有数据点可见之前作出预测的情况。我们可以通过应用随机梯度下降法来获得一个序贯学习算法,它也被称为序贯梯度下降。如果误差函数包含数据点的和,在模式n引入后,随机梯度下降法通过 (3.22)来更新参数向量w的值,其中表示迭代数,是一个学习比率参数。我们将简单地讨论一下值的选择。值初始化为某个起始向量。对于误差函数平方和(3.12)的情形,给出了 (3.23)其中。这就是我们所知的最小均方算法或算法。值的选择要保证算法收敛(Bishop和Nabney,2008)。3.1.4正则化的最小二乘在1.1节,我们引入了为误差函数增加一个正则项来控制过匹配的思想,所以总的误差函数可由形式 (3.24)来最小化,其中是正则系数,它控制数据独立误差和正则项的相对重要性。最简单的正则项形式由权重向量元素的平方和 (3.25)来给出。如果我们也考虑由 (3.26)给出的误差函数平方和,则总的误差函数变为 (3.27)在机器学习领域,这种正则项的特定选择称作权重衰减,因为在序贯学习算法中,除非有数据支撑,否则它将使权重值衰减到0。统计学中,它提供了一个参数收缩法的例子,因为它将参数值收缩到0。它的优点是误差函数仍为的二次函数,因此它的精确最小值将在一个闭区域求得。特别地,令(3.27)对的梯度为0,如前解得,得到 (3.28)这代表了最小二乘解(3.15)的一个简单扩展。一个更一般的正则项也被经常使用,它的正则误差取为 (3.29)q=2时对应于平方正则项(3.27)。图3.3表示出不同q值下的正则函数图像。图3.3 参数取不同值时(3.29)式中正则项的轮廓q=1的情形在统计学中称为lasso(Tibshirani,1996)。它有如下性质:如果是充分大,一些系数将趋向于0,这将导出一个稀疏模型,与其对应的基函数将不起作用。鉴于此,我们首先注意到对适当的参数值,最小化(3.29)等价于最小化非正则误差平方和(3.12),满足约束 (3.30)这两种方法可由拉格朗日乘子法关联。从图3.4可看出稀疏度的起源,图中显示出误差函数的最小值,满足约束(3.30)。随着的增加,将有更多的参数值趋向于0。图3.4 沿着限定区域(3.30)的非正则误差函数(蓝色)的轮廓图,左边是二次正则q=2,右边是lasso正则q=1,其中参数向量w的最优解记为。Lasso在给出了一个稀疏解 正则项可使复杂模型在有限大小的数据集中训练后,没有剧烈过匹配,其本质是限制有效的模型复杂度。然而,确定最佳模型复杂度的问题,将从寻找适当数量的基函数,转为确定一个合适的正则系数。这样我们就将转向本章后面的模型复杂度问题。本章的余下部分,我们将关注二次正则项(3.27)式,因为它既有实际重要性又有分析易处理性。3.1.5 多输出目前,我们已考虑过单目标变量的情况。在一些应用领域,可能我们希望预测个目标变量,并由目标向量共同表示。这可通过对的每个元素引入一个不同的基函数集来解决,也就引出了多维、独立回归问题。而另一更令人感兴趣也更普遍的的方法是,使用相同的基函数集去构建目标向量的所有元素的模型,可得 (3.31)其中是一个K维列向量,W是一个的参数矩阵,是一个元素为的M维列向量,如前。假定我们把目标向量的条件分布当作一个形式为 (3.32)各向同性Gaussian分布。如果有观测值集合,我们可把它们组合成一个的矩阵T,它的第n行由组成。类似地,也可把输入向量组成一个矩阵X。似然函数取对数得 (3.33)如前,我们可最大化这个关于W的函数,得 (3.34)如果对每个目标变量,我们最大化它的结果,则有 (3.35) 其中,是一个元素为的N维列向量,。因此,回归问题的解将在不同目标变量间解耦,并且我们仅需计算一个伪逆矩阵,它将适用于所有的向量。对有任意协方差矩阵的一般Gaussian噪声分布进行扩展是直观的,这又将导致解耦到一个独立回归问题。这个结果是自然的,因为参数W仅定义了Gaussian噪声分布的均值,并且从2.3.4可知,多变量Gaussian分布均值的最大似然解与上面的协方差是独立的。现在开始,为简单起见,我们将考虑单目标变量。3.2 偏差方差分解至此,我们在对回归线性模型的讨论中,都假定基函数的形式和数目是给定的。正如我们在第一章所看到的,如果复杂模型用有限大小的数据集来训练的话,使用最大似然或等价的最小二乘就可能导致严重的过匹配。但是,为了避免过匹配而限制基函数的数目会产生副效应,因为它限制了模型在数据中获取感兴趣且重要的趋势的灵活性。虽然引入正则项能控制多参数模型的过匹配,但这会产生如何为正则系数确定合适值的问题。关于权重向量和正则系数的正则误差函数,求它的最小解显然不是正确的方法,因为这会导致的非正则解。如我们在前面章节所看到的,过匹配现象确实是最大似然的一个不幸的性质,但当我们在Bayesian框架中边缘化上述参数时,过匹配不会出现。本章中,我们将从Bayesian视角更深层次地考虑模型复杂度。但在做此之前,从频率角度考虑模型复杂度问题是很有必要的,这被称为偏差-方差权衡。尽管我们将在线性基函数模型下使用简单实例介绍这个概念,但这个讨论有更一般的适用性。 在1.5.5节讨论回归问题的决策理论时,我们考虑不同的损失函数,一旦给定条件分布,它们中的每一个都会得出一个相应的最优预测。更一般的选择是损失函数平方法,因为它的最优预测是由条件期望给出的,记条件期望为 (3.36)此时,有必要对决策理论中出现的损失函数的平方,与模型参数的最大似然估计中出现的误差函数平方和进行区分。我们有可能采用比最小二乘更复杂的理论,如正则化或完全Bayesian法,来确定条件分布,它们全部能与损失函数平方法一同来达到预测的目的。在1.5.5节中,我们已看到期望的损失函数平方可写成如下形式: (3.37)它的第二项与相互独立,是由数据的固有噪声引起的,代表期望损失可达到的最小值。第一项依赖于我们对函数的选择,并且我们将求出使这一项最小的的一个解,因为它非负,所以我们希望最小值能使这一项为0。如果我们有无穷多的数据(和无限的计算资源),理论上我们可以找到有着期望的精确度的回归函数,并且它能够表征的最优选择。然而,在实际中,我们只有N个数据点组成的数据集合D,N为有限数,因此我们不能够精确地了解回归函数。 如果我们使用由参数向量控制的参数函数来对建模,从Bayesian视角考虑,我们模型中的不确定度是通过上的后验分布来表达的。而频率处理包含着基于数据集合D的一个的点估计,并且它通过下面的实验思路来试图代替对此估计的不确定性解释。假设我们有一个大数目的数据集合,每一个集合的大小都为N,且每一个都独立取自分布。对任意给定的数据集D,运行我们的学习算法,得到一个预测函数。取自总体的不同数据集将会有不同的函数,因此会有不同的损失函数平方值。一个特定学习算法的性能,将通过数据集总体的均值来评估。 考虑(3.37)式中第一项被积函数,它对应一个特定的形式为 (3.38)的数据集合D。因为这个量依赖于特定的数据集D,我们取它在数据集总体上的均值。如果我们在大括号中加上和减去量,展开得 (3.39)现在我们取这个表达式对D的期望,注意最后一项将会消失,给定 (3.40)可以看到与回归函数差的平方的期望能表示为两项之和。第一项称作偏差平方,它表示所有数据集上的平均预测与希望得到的回归函数之间的偏离程度。第二项称作方差,它对单个数据集的解在它们均值附近变化的程度进行衡量,因此它也衡量了函数对特定数据集合选择的敏感程度。在我们考虑一个简单实例时,将给出直观的知识来支持这些定义。 目前为止,我们已经讨论过单输入变量的情况。如果我们把这些扩展回代入式(3.37),可得到损失函数期望的如下分解: (3.41)其中 (3.42) (3.43) (3.44)并且偏差和误差项都已成为积分量。 我们的目的是最小化损失期望,它已被分解为一个偏差(平方)、一个误差项,与一个噪声常量之和。正如我们了解到的,偏差与方差间的权衡会导致:有着低偏差和高方差的很灵活的模型,有着高偏差和低方差的相对严格的模型。有最优预测能力的模型是使偏差与方差间有最好平衡的模型,这从第一章的正弦曲线数据集中已得到阐明。这里生成100个数据集合,每一个集合都包含有N=25个从正弦曲线独立得到的数据点。此数据集合标记为,其中,且对每一个数据集合,用24个由最小化正则误差函数(3.27)得到的Gaussian基函数来拟合一个模型,得到一个预测函数,如图3.5所示。最上面一行对应正则系数的一个较大值,它给出较小的方差(因为左边图形中的红色曲线看起来相似),但有较大的偏差(因为右边图形中的两条曲线差别很大)。相反,最下面一行,因为其较小,所以有较大的方差(由左边图形中红色曲线变化较大可看出),较小的偏差(由平均模型与原始正弦函数间的较好拟合可看出)。注意,对有M=25个数据点的复杂模型,它的解的均值是对回归函数的一个很好的拟合,这就隐含着取均值是一个有益的步骤。事实上,多维解的加权平均处在Bayesian方法的核心位置,尽管取均值与参数的后验分布有关,而与多维数据集无关。 图3.5 偏差和方差对模型复杂度的依赖图示,模型复杂度由正则系数控制,用第一章中的正弦函数数据集。有个数据集,每一个有个数据点,并且模型中有24个Gaussian基函数,因此总的参数数目是,包括偏差参数。左边一列显示了对不同的值,用模型拟合数据集的结果(为清晰起见,仅显示了100个中的20个拟合)。右边一列显示了沿着生成数据集的正弦函数的对应的100个拟合(红色)的均值。 我们也可对此例的偏差方差权衡进行数值上的检验。平均预测值的估算是由 (3.45)得来,偏差平方积分与方差积分由 (3.46) (3.47)给出,其中分布对的积分接近于取自此分布的数据点的有限和。这些量与它们的和一起,在图3.6中以函数绘出。我们得到,很小的值允许模型在每一个独立数据集上对噪声变得非常调谐,且能导致大的方差。相反,一个大的值将使权重参数变为0,导致大的偏差。图3.6偏差平方和方差的图示,以及它们的和,对应结果在图3.5中已给出。图中也显示了大小为1000的测试数据点集的平均测试集误差。的最小值在处取得,它靠近给出测试数据最小误差的值。 尽管偏差-方差分解可能从频率角度对模型复杂度提供有益的深入理解,但它对实际值有限制,因为偏差-方差分解是基于数据集全体的均值的,而实际中,我们仅有单一观测数据集。如果我们有大量给定大小的独立训练集,我们将更倾向于将它们组合成单个的大训练集,当然,这对给定的模型复杂度来说,将减少它过匹配的程度。给定这些限制,在下一节我们将转向线性基函数模型的Bayesian处理,这不仅对过匹配有更深入的理解,而且为处理模型复杂度问题提供实际技术。 3.3 Bayesian线性回归在我们为设置线性回归模型的参数而对最大似然估计进行讨论时,注意到有效模型的复杂度是由基函数的个数决定的,它需要由数据集的大小来控制。尽管基函数数目和形式的选择在确定模型整个表现中仍是重要的,但增加一个正则项到似然函数对数中,意味着有效模型复杂度能由正则系数值来确定。 这就存在对特定问题决定其适当模型复杂度的问题,它不能由最大似然函数来简单决定,因为这经常会导致极端复杂的模型和过匹配问题。在1.3节中,我们讨论过独立数据可用来决定模型复杂度,但同时它也带来高昂的计算代价和有效数据的浪费。因此,我们转向用Bayesian方法处理线性回归,它将避免最大似然的过匹配问题,且它也将导出仅使用训练数据来确定模型复杂度的自动方法。同样地,为简单化,我们将关注单目标变量的情况。对多目标变量的推广是直观的,并遵循3.1.5节中的讨论。3.3.1 参数分布通过在模型参数上引入先验概率分布,来开始我们用Bayesian方法处理线性回归的讨论。我们暂时把噪声精度参数设为一个已知常数。首先注意到:定义在(3.10)的似然函数是的二次函数的指数函数。因此,对应的共轭先验由下面的一个Gaussian分布形式给出 (3.48)(它的期望是,方差是。)下面我们计算后验分布,它与似然函数和先验的积成比例。由于选择了一个共轭Gaussian先验分布,后验也是Gaussian的。我们可采用通常的指数函数中的配方法来计算此分布,然后用标准Gaussian分布的结果来求归一化系数。但是,我们已经(2.116)中完成了必要的工作,使我们可直接得后验分布的形式: (3.49)其中 (3.50) (3.51)注意:由于后验分布是Gaussian的,它的模型必须和它的意义相符合。因此最大后验权向量由给出。如果我们考虑时的一个无限大先验,这意味着后验分布将归纳为由(3.15)式给出的最大似然函数值。同样的,若 ,后验分布又变为先验。而且,如果数据点顺序到来,在任何阶段的后验分布充当了随后到来的数据的前验分布,因此新的后验分布由(3.49)式再次给出。 在本章的余下部分,我们将考虑Gaussian先验的一个具体形式,以便简化处理。具体说,我们考虑由单个精确参数控制的均值为0的各向同性Gaussian,使得 (3.52) 并且在上对应的后验分布由(3.49)式给出并且 (3.53) (3.54)后验分布的对数由对数似然与对数先验相加得到,是的函数,取形式 (3.55) 因此,最大化关于的后验分布,等价于最小化带有二次正则项的误差函数平方和,当时对应(3.27)式。我们可以在一个线性基函数模型中说明Bayesian学习,和一个后验分布的序贯更新一样,用一个简单的、涉及直线匹配的简单例子来说明。考虑有单输入变量、单目标变量的线性模型。由于它有两个自适应的的参数,我们可以在参数空间中直接画出先验和后验分布。我们用,首先从均匀分布中取值,代入参数值为和的函数中,然后计算的值,最后加入标准偏差为0.2的Gaussian噪声,获得目标值。我们的目的是从这些数据中恢复和的值,以及研究对数据集大小的依赖性。这里假设噪声方差是已知的,因此我们设参数精度的真值为。类似的,我们固定参数。我们将简短地讨论从训练数据中确定和的方法。图3.7表示出了数据集大小增加时的Bayesian学习结果,同时它也说明了Bayesian学习的序贯性,即当一个新的数据值到来时后验分布变成了先验。值得花时间去详细地研究这个图像,因为它详细地阐述了Bayesian理论的一些重要细节。该图的第一行对应着得到任意数据点之前的情况,并显示了空间的先验分布图像,和值取自先验的函数的六个实例。在第二行中,我们看到取一个数据点后的情况,数据点的位置在右边一列用蓝色圆圈表示,左边列是的函数的数据点的似然函数的图像。注意到,似然函数提出了一种软约束:直线必须通过与数据点靠近的区域,靠近程度由噪声精度决定。为了方便比较,参数值和所产生的数据集合在图3.7左边一列用白色十字标记。把最上面一行的先验与似然函数相乘,再归一化,我们将得到第二行中间所绘制的后验分布。由此后验分布绘制样本点得到的回归函数样本如右边图所示。注意,这些样本直线都经过与数据点接近的区域。这幅图的第三行显示了观测第二个数据点的效果,同样由最右边一列蓝色圆圈表示,只与第二个数据点相对应的似然函数在左边图中显示。我们把此似然函数与第二行的后验分布相乘,可以获得如第三行中间所绘制的后验分布。注意,这与结合了原始先验和两数据点的似然函数得到的后验分布完全一样。这个后验分布受两数据点影响,由于这两数据点可以充分地定义一条直线,这已经给出了相对紧凑的后验分布。由取自此后验分布的样本点得到的函数如第三列中红线所示,我们可以看到,这些函数值经过与两数据点都接近的区域。第四行显示了观测总的20个数据点的效果。左边的图显示了第20个数据点单独的似然函数,中间图显示了20个数据观察点所综合出的后验分布结果。注意,此后验比第三行的更尖锐。在无限个数据点的情况下,后验分布将变成一个脉冲函数,它的中点在参数真值处,由白色十字显示。图3.7 一个形式为的简单线性模型的Bayesian序贯学习。此图的细节讨论在文章中给出。也可考虑其它形式的参数先验。例如,我们可以推广Gaussian先验给出 (3.56)其中对应于Gaussian分布,且仅在此情况下,先验与似然函数(3.10)共轭。找到此后验分布在上的最大值等价于找到正则误差函数(3.29)的最小值。此情形下的Gaussian先验,后验分布的众数等于中值,尽管在时不再是这样。3.3.2 预测分布 在实际中,我们通常不关注值本身,而是对的一个新值做关于的预测。此要求我们计算预测分布,定义为: (3.57) 其中是训练集的目标值向量,我们省略了右边的条件状态输入向量来简化符号。目标变量的条件分布由(3.8)式给出,后验权分布由(3.49)式给出。我们注意到(3.57)涉及到两个Gaussian分布的卷积,由2.3.3节的结果(2.115),预测分布可用下列形式表示 (3.58)其中,预测分布的方差由以下形式给出 (3.59)(3.59)式第一项描述了数据中的噪声,而第二项反映了与参数的不确定联系。由于噪声处理和的分布是独立Gaussian分布,它们的方差是附加的。注意到,随着观测数据的增加,后验分布变得狭窄。 结果由给出(Qazaz等,1997)。当时,(3.59)式第二项趋向于零,由参数控制的附加噪声得出的预测分布的方差将单独增加。 图3.8 一个包含9个形式为(3.4)式的Gaussian基函数模型的预测分布(3.58),它利用了1.1节的综合正弦函数数据集。细节讨论见文章。作为Bayesian线性回归模型预测分布的说明,让我们回顾1.1节中合成的正弦曲线数据集。在图3.8中,我们用一个Gaussian基函数的线性组合的模型,来拟合不同大小的数据集,然后我们看一下相应的后验分布。这里绿色曲线对应于生成数据点的函数(带有附加的Gaussian噪声),大小为,的数据集在四幅图中用蓝色圆圈表示。对每一幅图来说,红色曲线代表了相应的Gaussian预测分布均值,红色阴影区域在均值每一侧张成一个标准偏差。注意,预测不确定性依赖于,且在数据点的邻域中是最小的。同时,也注意到不确定的程度随着观察点的增多而减小。图3.8只显示了逐点预测方差是的一个函数。为进一步理解不同值下预测值间的协方差,我们可从的后验分布来抽样,然后画出相应的函数,如图3.9所示。如果我们使用如Gaussian函数这样的局部基函数,则在偏离基函数中心的区域中,预测方差(3.59)中第二个式子将会趋向于零,只剩下噪声起作用。当推断由基函数组成的区域外部时,此模型对预测来说将非常确定,这通常不希望看到。这个问题通过对回归采用一个非传统的Bayesian方法Gaussian过程来避免。注意到,如果和都看作是未知的,我们可以引入2.3.6节中讨论过的共轭先验分布,它将由Gaussian-gamma分布给出。这种情况下,预测分布是一个学生分布(t分布)。图3.9 用取自对应于图3.8图形的上的后验分布样本来绘制函数3.3.3 等价核 线性基函数模型的后验均值解(3.53)式有个令人感兴趣的说明,即它将为核方法打好基础,包括Gaussian过程。如果我们把(3.5.3)式代入(3.3)式,我们将看到预测均值的可写为如下形式: (3.60)其中,由(3.51)式确定。从而,在x上一点的预测分布均值由训练集目标变量的线性组合给出,所以我们可以写出 (3.61)其中,函数 (3.62)称为平滑矩阵或者等价核。像这种通过取训练集目标值的线性组合来作出预测的回归函数,称为线性平滑。注意,等价核取决于数据集的输入值,因为它们出现在的定义中。Gaussian基函数情况下的等价核在图3.10中进行解释,核函数作为在三个不同值下的的函数在图中标绘出。我们看到它们落在的附近区域内,由给出的点处的先验分布均值,是通过目标值的加权组合得到,其中靠近的数据点有着比远离的数据点更高的权重。直观上看来,我们给局部证据施以比远处证据更高的权重是合理的。注意,这种局部性不仅适用于局部的Gaussian基函数,而且适用于非局部的多项式和S形基函数,如图3.11所示。图3.10 图3.1中Gaussian基函数的等价核,显示了对的图形,以及通过对应于3个不同值矩阵的3个分割。使用的数据集生成的核包含200个等分在区间(-1,1)上的相等区间的值。图3.11 当时的函数等价核的例子,对应(左图)着多项式基函数以及(右图)图3.1中的S型基函数。注意,这些是的局部函数,尽管对应基函数是非局部的 通过考虑和间的协方差,我们可以更深入地理解等价核的作用。和间的方差由 (3.63)给出,这里我们利用了(3.49)式和(3.62)式。从等价核的形式,我们看到邻近点的预测均值是高度相关的,而相距较远的各对点的相关性较小。 图3.8展现的受(3.59)式控制的先验分布,使我们在预测中形象化逐点不确定性。但是,根据的后验分布的抽样,以及图(3.9)中相应模型函数的图示,我们看到值之间的后验分布的联合不确定性,其中,值在两个(或更多)的值上分别取得,联合不确定性也由等价核控制。 由一个核函数来表示线性回归公式,隐含着一个回归的可选方法,这正是下面所要讲的。我们没有引入一组能隐性确定一个等价核的基函数,相反,我们可以直接定义一个局部核,并且在给定一组观测训练集的条件下,利用这个局部核对新的输入向量作出预测。这就引出了回归(和分类)的一个实践范围,称为Gaussian过程,我们将在6.4节详细地讨论它。 我们已经知道,等价核定义权重,依据权重将训练集目标值结合起来,以便对新的值进行预测,而且这些权重累加之和为1,也就是对所有的值 (3.64)注意,此累加和等价于将预测均值看作一组对于所有n,的目标数据,那么这个直观上令人满意的结果就可以轻易地得到简略证明。倘若基函数是线性无关的,那么数据点将比基函数多,而且其中一个基函数是常数(对应于偏差参数)。于是,我们可以精确地拟合训练数据,因此预测均值将是简单的,由此我们得到(3.64)。注意,核函数可负可正,所以即使它满足累加的限制,相应的预测也不一定是训练集目标变量的凸组合。最后,我们注意到等价核满足一个一般核函数也具有的重要性质,即它可以表示为一个非线性函数向量的内积形式,所以 (3.63)其中。3.4 Bayesian模型比较 在第一章中,我们强调了过拟合问题,以及交叉验证技术的使用,并将后者作为设置正则化参数值或在可选模式间进行选择的技术。在这里,我们从Bayesian观点考虑了模型选择的问题。在本节中,我们的讨论将是非常一般的,然后在3.5节我们将理解,如何将这些思想应用到线性回归中正则化参数的确定。正如我们将会看到的,用边缘化(求和或积分)模型参数来代替对值进行点估计的作法,可以避免最大似然的过拟合。模型可以在训练数据上直接进行比较,而不需要一个验证集合。这使所有可用的数据都能用于训练,并避免了每个交叉验证模型的重复训练。它还允许多个复杂参数同时被确定为培训过程的一部分。例如,在第七章我们将介绍相关向量机,这是一个Bayesian模型,它对于每一个训练数据点都有一个复杂参数。从Bayesian角度考虑模型的简单比较,涉及到用概率表示模型选择中的不确定性,以及对概率的累加和乘积法则的一贯应用。假设我们希望比较有L个模型的集合,其中。这里,一个模型指的是观测数据D的概率分布。在多项式曲线拟合问题中,分布是定义在目标值的集合上的,其中假设输入值X的集合为已知的。其他类型的模型定义一个X与的联合分布。我们假设数据产生于这些模型中的一个,但我们不确定哪一个。我们的不确定性通过一个先验概率分布来表示。给定一个训练集D,然后,我们希望计算后验分布 (3.66) 先验允许我们偏向不同的模型。我们简单地假设所有模型均有相等的先验概率。模型证据是我们感兴趣的一项,它表示对不同模型数据的偏向,不久我们将详细地研究这一项。模型证据,有时也称为边缘似然,因为它可以看作一个模型空间上的似然函数,其中的参数已被边缘化。两个模型的模型证据比例称为一个Bayes因子(Kass and Raftery,1995)。一旦我们知道了模型上的后验分布,根据累加与乘积法则,预测分布由下式得出 (3.67)这是一个混合分布的例子,其中总体预测分布是通过对单个模型的预测分布求平均得到,由这些模型的后验概率控制权重。例如,如果我们有两个很可能具有相同后验的模型,一个预测了附近的较窄分布,而另一个预测了附近的较窄分布,总体的预测分布将是一个峰值在t=a和t=b的双峰分布,而不是一个单一峰值在的模型。 一个求模型均值的简单逼近是使用最有可能的模型单独进行预测,这就是所谓的模型选择。 对于由一组参数控制的模型,根据概率的累加与乘积法则,模型证据由下式得出 (3.68)从抽样的角度来看,边际似然可以被看作是一个模型产生数据集合D的概率,这个模型的参数是从先验中随机抽取的。值得注意的是,在估计参数的后验分布时,证据恰恰是Bayes原理中分母的标准项,因为 (3.69) 我们可以通过对参数积分作一个简单的近似,来获得对模型证据的深入理解。首先考虑模型只有一个参数的情况,参数的后验分布与成比例,在这里我们忽略了对模型的依赖以保持记法整洁。如果我们假设后验分布在最可能的值附近急剧达到峰值,最可能值的宽度为,那么我们可以用被积函数在其最大值点的值与峰的宽度乘积来近似求积分。如果我们进一步假设先验是扁平的,其宽度为,那么,我们得到 (3.70)取对数得到 (3.71)这种近似如图3.12。第一项表示对最可能参数值给出的数据的拟合,对一个扁平的先验来讲,它相当于对数似然。第二项根据模型的复杂度惩罚模型。由于wposteriorwprior这一项是负的,所以它随着比例/的减小而增大数量级。因此,如果参数对后验分布中的数据微调,那么惩罚项是很大的。图3.12 如果我们假设参数上的后验分布在它的众数附近是尖峰的,那么得到模型证据的一个粗略逼近。对于一个有M个参数的模型,我们可以对每个参数轮流作出类似的逼近。假定所有参数都有相同的比例wposterior/wprior,我们得到 (3.72)因此,在这个非常简单的逼近中,复杂度惩罚的大小随模型中自适应参数的数目M线性增加。在我们增加模型的复杂度时,第一项通常会增大,因为更加复杂的模型能够更好地拟合数据,同时第二项将减小,因为其对M有依赖性。最优化模型的复杂度由最大证据决定,并且将由两个竞争项间的权衡给出。随后我们将基于后验分布的Gaussian逼近推出这种逼近的更精确的方法。图3.13 不同复杂度的三个模型的数据集分布的原理图,其中是最简单的,是最复杂的。注意,分布是归一化的。此例中,对特殊的观测数据集,有中间复杂度的模型有最大的证据。 通过思考图3.13,我们能更深入的理解Bayesian模型比较,并且了解边际

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论