论文翻译机器学习中的高斯过程应用_第1页
论文翻译机器学习中的高斯过程应用_第2页
论文翻译机器学习中的高斯过程应用_第3页
论文翻译机器学习中的高斯过程应用_第4页
论文翻译机器学习中的高斯过程应用_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、外 文 译 文机器学习中的高斯过程应用摘 要我们给了一个对高斯过程回归模型的基本介绍。我们研究的重点在于理解随机过程的含义和如何用他去定义一个分布函数。我们提出了一个简单的方程,它可以结合训练数据并且测试了它如何去应用边缘概率密度来学习超参数。我们解释了高斯过程的实际应用优势并且得出结论,高斯过程是适合当前时代趋势的。回归(对于连续输出)和分类(对于离散输出)形式的机器学习是一个对于学习统计学和机器学习非常重要的组成部分,无论是对于大量数据的分析,或是对于一个更加复杂问题中的子目标的解决。传统参数模型(参数模型,我们这里是指模型在训练过程中从训练数据“吸收”信息传递给参数;训练结束后,数据库可

2、以被丢弃。)已经被用作完成这些目标。这些可能在容易理解方面有优势,但是应用于复杂数据分析时,简单的参数模型就显得力不从心了,而且比它们更复杂的类似的方法(比如前向网络)可能在实践中比较难以实现。内核机器的出现,比如支持向量机和高斯过程使对复杂模型进行实际分析有了可能性。在这篇短文中,我们提出了一个使用高斯过程用于贝叶斯回归方程的建模的基本方法。我们主要关注如何理解随机过程和如何将他在机器学习中应用。第二,我们将讨论关于超参数在协方差函数中的作用的切实问题,边缘概率密度和奥卡姆剃刀原则的问题。要查看更多关于高斯过程的介绍,请看参考文献1,2。第一章 高斯过程在这部分我们定义了高斯过程,并且展示它

3、们是如何非常自然的被应用于定义分布函数。接下来的部分,我们继续展示这个分布函数是如何通过训练数据更新的。定义 1:高斯过程是一个随机变量的集合,其中任何有限的数字都有共同的高斯分布。一个高斯过程可以被它的均值函数m(x)和协方差函数k(x,x)完全的定义。分别将均值函数和协方差函数表示成向量和矩阵,这是一个对高斯分布的自然推广。高斯分布用向量表示,而高斯过程用函数表示。如此有:意思是:“f是由均值函数m和协方差函数k定义的高斯分布函数。”虽然从分布到过程的概括比较直截了当,我们会略详细地解释一下细节,因为它可能对一些读者来说没那么熟悉。高斯向量中的单个随机变量可以被他们的位置向量索引到。高斯过

4、程中,有一个参数x(随机函数f(x)中的)起到了索引集的角色:每一个输入x都有一个相联系的随机变量f(x),这是(随机)函数f在x处的取值。为了识记方便,我们用自然数来列举x的值,并且用这些来索引他们在随机过程中的位置-不要让你自己被这个迷惑:随机过程的索引用xi表示,我们选择用i来表示索引。虽然与无限维对象工作可能在起初看起来很笨拙,但是经过大量计算证明,这只需要与有限维对象工作就可以完成。实际上,找到用相关分布函数减少随机过程运算量的答案,这才是高斯过程可行性的关键。让我们看一个例子,考虑如下方程给出的高斯过程:为了更加直观地理解这个随机过程,我们可以用函数f画出采样图。为了只与有限数据进

5、行处理,我们只要求在不同有限数字n代表的位置的f的取值。我们如何产生这样的采样呢?给出不同x的取值,我们可以用定义了一个标准高斯分布的方程计算出均值向量和协方差矩阵:我们用m和k代表高斯过程的参数,用和代表分布函数的参数,来清楚地区分它们。我们现在可以通过这个分布函数创造出一组随机向量。这个向量会作为坐标的函数,由x的值得到相应的f(x)的值。图1这是由一个确定的高斯随机过程方程随机3次画出的3个函数的函数图像。图中的点是由方程算出的,另外两条曲线(有些不准确)是连接采样点画出的。函数值体现了一个平滑的基础函数;这实际上是高斯随机过程与平方指数的协方差函数的性质的体现。阴影灰色部分代表了95%

6、的置信区间。我们现在就可以画出f的函数值与x的关系图,如图1。我们实际上如何完成这件事?下面的几句Matlab(Matlab是The MathWork Inc的商标)代码可以用来画出上图。xs = (-5:0.2:5); ns = size(xs,1); keps = 1e-9;m = inline(0.25*x.2);K = inline(exp(-0.5*(repmat(p,size(q)-repmat(q,size(p).2);fs = m(xs) + chol(K(xs,xs)+keps*eye(ns)*randn(ns,1);plot(xs,fs,.)上面的例子里,m和k是均值和协方

7、差;chol是一个实现计算矩阵的Cholesky分解(我们还为了数值稳定添加了多重协方差矩阵(限制特征值的数值不为0);有兴趣的话可以查看Eq.(8)附近的解释)的函数。这个例子说明了我们如何从过程转变成分布,同时说明了高斯过程定义了一个分布函数。到此,我们只考虑了随机函数-在下一部分,我们会看到一个非常简单的应用高斯随机过程建模的方法来进行数据推测训练的例子。第二章 后验高斯过程在前一个部分,我们看到了如何应用高斯过程来定义概率分布函数。这个高斯过程将被优先用于贝叶斯推理,这不依赖于训练数据,而是依靠一些函数的内容;举例来说,图1里的函数是平滑的,并且接近于二次方程函数。本部分的目标是找到一

8、个简单的规则来更新之前的训练数据。下一部分的目标是试图根据之前(根据定义,先验概率对于数据是独立的,在这里我们用一个有自由参数的多层先验概率,并且用它来推测参数。)得到的数据找到一些性质。计算后验概率的主要目的是它们可以用来预测看不到的实验因素。用f表示已知训练数据的函数值, 用f*表示一系列对应输入X*的函数值。再一次,我们写出了我们有兴趣的所有参数的联合分布:其中,我们已经介绍过的标识:=m(xi),i=1,2,n是已知训练数据的均值,类似地*是训练后的均值;是训练数据的协方差,*是训练前数据与训练后数据的协方差,*是训练后数据的协方差。到此,由我们知道的训练数据f的值我们可以的出我们感兴

9、趣的f*在f条件下的条件概率(决定高斯联合分布的公式是:)这是一个对于特定实验情况的后验概率分布。很容易验证(根据检验),对应的后验概率过程是:其中(X,x)是每个训练数据和x之前的协方差向量。这些是高斯过程预测的核心方程。我们来测试一下这些方程的后验均值和协方差。注意到后验方差kD(x,x)等于先验方差k(x,x)减去一个依赖于训练数据输入的确定的部分;因此只要数据给了我们额外的信息,后验方差就永远小于先验方差。我们需要解决最后一件事情:训练输出数据中的噪声。对于许多回归的应用的来说,在观察中存在噪声是非常正常的事情(然而,可能非常有趣的是高斯过程模型也在无噪声的情况下运行-这和大多数参数化

10、方法相反,因此它们通常无法正确地对数据建模。)。最常规的措施是在输出处加上独立同分布的高斯噪声。在高斯过程模型中,这样的噪声是应该被考虑在内的;这样做的效果就是每个f(x)都有一个额外的与他自己的协方差(只要噪声被假设是独立的),这个值等于噪声方差:其中当且仅当i=I时ii=1,这是一个克罗内克函数。注意到,克罗内克函数的指数在确定的情况下,i,而不是输入xi;你可能有几例相同的输入,但是这些情况下的噪声都被认为是独立的。因此,一个有噪声的随机过程的协方差函数是信号协方差和噪声协方差的总和。现在,我们把后验协方差函数插入到Matlab软件范例的第69页去根据后验过程画一个样本,便得到了图2。在

11、这一部分,我们展示了如何简单地应用均值和协方差函数来根据训练数据由先验概率更新到后验概率。然而,我们遗留下了几个还没有被回答的问题:我们在最初如何写出均值和协方差函数?我们如何估计噪声等级?这就是下一部分的内容了。图2由已知的20个训练数据根据后验概率函数画出的随机的3个函数图像,高斯过程由Eq(3)和噪声等级为n=0.7两个条件确定。阴影部分是95%的置信区间。对比图1,我们观察到不确定性有了明显下降,已经接近预测的情况。第三章 训练一个高斯过程在之前的部分我们看到了如何根据训练数据来更新先验高斯过程分布。如果我们手上有足够的关于数据的初始信息,我们就可以自信的指定先验均值和协方差函数,这是

12、非常有用的。但是,得到如此细致的初始信息的可行性在机器学习应用方面并不是一个典型的情况。为了使高斯过程技术在实践中更有应用价值,我们必须根据数据选择对应的不同的均值函数和协方差函数。这个过程就被称为训练(训练高斯过程模型涉及到模型的选择,也涉及到在不同的均值函数和协方差函数的函数形式之间离散选择来适应这些函数的超参数;为了简便起见,我们在这里只考虑后者-直截了当的来说,在这种情况下边缘概率密度是可以被比较的)高斯过程模型。根据通常比较模糊的先验信息,我们使用了一个分层次的先验概率,其中均值函数和协方差函数都被参数化为超参数。举例来说,我们可以用Eq.(2)做一个总结:其中我们认为超参数=a,b

13、,c,y,n,l。这种特定的分级目的是这让我们可以用一种简单的方法确定了模糊的先验信息。举例来说,我们在开始的时候说了我们相信这个函数很接近一个二阶多项式的样子,但是我们没有确定地说明什么是多项式,也没有说明“接近”到了什么程度。事实上,多项式和数据之间的区别是一个平滑的函数加上独立的高斯噪声,但是我们又一次不需要确定特征长度l的等级或是两个参数的值。我们想要根据数据对所有超参数进行推测。为了完成这项工作,我们计算了超参数给定的数据的可能性。幸运的是,这不是很难,只要假设数据的分布符合高斯分布:我们将调用这个数量级的对数边缘概率密度。我们用“边缘”这个词来强调我们正在和一个没有参数的模型进行工

14、作。例子1展示了高斯过程的权重空间,相当于方程(10)。使用权重边缘化。我们现在可以通过求边缘概率分布的偏导数来很简单地找到超参数的值。其中m和k分别用来表示均值函数和协方差函数的超参数。方程(11)很方便地和一个共轭梯度等数值优化程序联系起来找到一个适合的(说明,对于大多数不是很微小的高斯过程,优化超参数这个工作不是一个很困难的问题,所以通常预测应采取防止局部最小值的措施)超参数值的设定。图3-1这是由最大边缘似然函数得到的均值和95%后验置信区间的图,方程(10),是由方程(9)的高斯过程确认的,数据和图2的相同。超参数的值是a=0.3,b=0.03,c=-0.7,y=1.1,n=0.25

15、。这个例子说明没有超参数优化方法,同样可以实现得相当好(图2),但是当然,它没有这种方法在典型应用中更有保障性。由于实际上高斯过程是一个无参数模型,它的边缘概率密度看起来与人们经验中的有参数的模型多少有一些区别。事先说明的是,事实上模型确实对训练数据非常适合:简单地使噪声等级n2为0,然后模型就创造了一个与训练数据点十分吻合的均值预测函数。但是,这不是一个优化边缘似然函数的典型表现。实际上,Eq.(10)中的对数边缘似然函数包括三个条件:第一个条件,是一个复杂的不利条件,它估量了模型的复杂度,使模型处于不利的情况。第二个条件是一个负二项式,它负责了对测量数据的拟合(这是一个仅有的依靠训练输出值

16、y的条件)。第三个条件是对数标准化,独立于数据,不是很受人关注。图3-1体现了被最大边缘似然函数训练的预测模型。注意到高斯过程中的惩罚和数据之间的权衡是自动的。没有加权参数需要设置一些外部的方法,如交叉验证。这是具有重要意义的特征,因为它简化了训练。图3-2说明了如何进行自动权衡。在这一部分我们看到了,通过对先验概率的多层次分级,我们找到了一种可以学习出先验知识的非常方便的方法,以及通过对边缘概率函数的优化来学习了超参数的值。这可以被一些基于梯度的优化所使用。而且,我们也看到了边缘概率密度是如何采用奥卡姆剃刀的;这个性质有重要的实践意义,因为它使训练过程大幅碱化。图3-2图3-2奥卡姆剃刀是自

17、动的。x轴表现的是抽象的所有可能的数据(在一个特定的大小上)。y轴是数据给与模型的可能性。这里同时显示了3个不同的模型。一个更加复杂的模型比一个简单的模型可以说明更多数据集,但是由于概率必须统一整合,这表示更加复杂的模型会被自动惩罚更多。第四章 总结和对未来的展望我们已经看到的高斯过程是如何方便地确定复杂的非线性回归方程的。我们只是顺便提到了一种类型的协方差函数,但事实上任何正定函数(协方差函数必须是正定的,来保证作为结果的协方差矩阵也是正定的。)都可以作为协方差函数。许多这样的函数是已知的,了解有特定协方差函数的高斯过程画出的函数的性质是一个正在研究的重要目标。如果了解了这些函数的性质,它就

18、可以选择协方差函数来反映之前的信息,或者作为替代,它可以体现被最大边缘概率密度选择的协方差函数,以此来对数据有更丰富的认识。在这个短暂的学习过程中,我们只是处理了最简单的带有高斯噪声的回归模型。在无高斯分布(比如需要分类的)的时候,训练就变得很复杂。我们可以采用逼近的办法,比如拉普拉斯逼近方法,或者采用把无高斯的模型看成最接近的高斯模型或者采样方面的技术。另外一个问题是计算量复杂度的限制。在这里解释一个简单的实现技术,需要协方差矩阵的逆,需要O(n2)的记忆复杂度和O(n3)的计算复杂度。这对于在台式电脑上的由n到几千的数据集是可行的。虽然对于这种相对小的数据集有很多有趣的机器学习的问题,很多现在正在进行的研究都在发展对于更大数据集的逼近方法。许多这些方法依赖于稀疏近似。致 谢德国研究理事会(DFG)通过授予的RA 1030/1。参考文献1 Williams, C.K.I.: Prediction with Gaussian processes: From linear regression to linear prediction and beyond. In Jordan, M.I., ed.: Learning in Gr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论