课件l3高级梯度计算及应用part1rbm_第1页
课件l3高级梯度计算及应用part1rbm_第2页
课件l3高级梯度计算及应用part1rbm_第3页
课件l3高级梯度计算及应用part1rbm_第4页
课件l3高级梯度计算及应用part1rbm_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高级梯度计算及应用优化算法优化点的必要条件:在最优点处梯度为0.函数局部性质的利用:一阶近似:最陡梯度下降二阶近似:牛顿法回到一阶近似:SGD–高级梯度计算技术自然梯度蒙特卡洛梯度估计强化梯度学习不可微:L1-norm,Nuclear-Norm自然梯度(natural

gradient)Latent

factor

model:发现观测数据背后的隐因子(原因)Z.q(z|x):根据输入的观测x,猜测原因zp(x|z):

根据原因来解释x。设真实的估计为:This

is

difficult!So,用一个可计算的简单分布来近似:,

how

to

measure

the

quality?近似质量度量方式:优化问题:梯度下降:

使得:by本质上是在参数空间中进行“small

”移动,but

how

to

define

“small”?任务:隐变量推断,每个 对应一个完整的分布,在标准梯度下降中概率空间中大量有用的结构信息。被当作欧氏空间,从而损失了虽然在欧氏空间中参数距离很小,但实际参数对应的数学对象差别很大!(两个几乎不重叠的高斯分布!)欧氏空间中的参数距离没有反映真实对象距离!参数距离一样,but

分布差异不同!两个分布的“真实”统计距离:weighted

average

log

difference问题:如何设计一个参数空间中的距离度量模型,使得根据这个度量得到的参数距离,类似于其对应的分布距离?e.g.,

d(u0,u1|theta)

=1

~ KL(q||p)

=1Idea:选择黎曼manifold为参数空间:刻画参数的内在流形局部结构!Let =

av,

v是某个方向,Key

problem:外围参数欧式空间在统计黎曼流形上的诱导度量。具体如何定义?:如何理解这个目标函数?如何优化?Fisher

信息矩阵似然函数q是关于参数lamuda的函数,Fisher

:在参数空间某处的log似然的二阶导数直觉含义:表示参数空间某处的“曲率”,可以看作数据对参数值提供的平均信息量,曲率越peak,越容易猜到该处的参数值,包含的信息量就越大。Fisher

Information

Matrix,定义为:Natural

Gradient

Descent由KL距离的定义,将其视为模型参数的函数(而非关于分布的泛函),进行二阶展开,其Hessian为:得到,结论:概率密度函数族是参数空间同胚的黎曼流形。Fisher信息矩阵可以看做是统计流形上的黎曼度量,这一度量是外围参数欧式空间在流形上的诱导度量。Natural

Gradient

Descent因此,故在统计流形中,选Fisher来定义局部内积,并将前页的标准梯度替换为so,自然梯度下降可视为一种是牛顿参数估计方法,但其Hessian在概率函数空间估计-Fisher。优化算法优化点的必要条件:在最优点处梯度为0.函数局部性质的利用:一阶近似:最陡梯度下降二阶近似:牛顿法回到一阶近似:SGD高级梯度计算技术自然梯度蒙特卡洛梯度估计强化梯度学习不可微:L1-norm,Nuclear-Norm蒙特卡洛梯度估计NIPS’14Motivation:

Deep

Generative

ModelGenerativeModellingWhy

GenerativeModels?学习高维空间中的复杂分布:解释复杂数据

unsupervised

learning:“learning

what

normally

happens”Supervised

learning:“learning

what

that

means”凡是具有复杂输出的任务,均可视为“生成”:例如图像、视频、文本序列等。强化学习(试错学习):模拟执行某种policy的结果半监督学习:e.g.,预测的输出是否normal?Conditional

Generative

ModelSemi-supervised

Learning通过model输出sequence的density,半监督问题可以转化为一个density

matching

问题。SingleImageSuperResolutionHow

to

do

this?主流方法:最大似然法Latentfactors

/

HiddenVariablesP(X):

了解事物、现象的正常状态是什么样子。But

usually

too

complex!事物的“本质”是什么?是那些隐藏在真实数据背后的“hidden

concept”、“causality”、“naturalvariations”、“real

factors”Canbe

regarded

as

yet

another

(abstract)

representation

for

X:这种抽象表示:更鲁棒、更有判别力、更简洁、更支持知识迁移和组合方案1:直接model观测变量之间复杂的high-order依赖关系,方案2:分解复杂关系成多个简单依赖关系:每个latent

facor负责提供一个观察事物的“视角”,或解释事物的某一个自然的variation(子单峰分布);最后再汇集这些元素,使得P(X)是一个由更简单的P(X|H)混合而成的分布。e.g.,

Gaussian

Mixture

Model,

aspect

model\latent

topic

model.Whatisan

intuitiveexplanation

ofaBoltzmann

machine?Latentfactors

/

HiddenVariablesHidden

variables/nodes:是latent

factors的实现机制在网络中引入隐变量节点,可以增强模型的expressive

power和flexibility,即fit复杂数据的能力,但同时增加inference的难度。Inference:“从观测节点推断隐节点的值”Generative:“从隐节点推测/重构输入节点的值”(”dreaming”)RepresentationLearning学习latent

factors的过程称为representation

learning学习共同特征空间,以支持多任务学习或迁移学习e.g.,如何让计算机听懂不同人说的同一句话?Keyideas

forrepresentationlearningEnd

to

end

learning概率模型Energy

model结构模型:层次化。Reasoning and

End

to

End

LearningReasoning:

“algebraically

manipulating

previouslyacquired

knowledge

in

order

to

answer

a

new

question.”Reasoning不等于logicinference:后者是reasoning的途径或工具。快速的reasoning不一定要进行逻辑推理。Previously

acquired

knowledge:附属任务得到Composition

rule:组合对象不是前提或结论,而是trainable

module。Possible?Yes,

internal

representationasreasoning

abstract.

E.g.,

迁移人脸识别。端到端学习:本质是组合多种学习模块完成特定任务,因而是一种自动

reasoning。1)每个component都trainable。2)用一个global

loss

function

指导所有components,为完成一个共同目标而协调训练。依靠中间表示,组合多个功能模块,形成复杂系统,协同完成新任务。Lecun

1998.Memory

mechanismTrainable

modules

in

visiontransform

vectors

in

representation

space

to

account

foraffine

transformations

of

the

initial

image.transform

the

representation

vectors

to

account

forchanges

in

the

position

of

the

viewerconvert

image

representations

into

sentencerepresentations

and

conversely.输入图像=》转化为中间表示=》转化为文本=》重构图像Trainable

Module:nonlinear

parametrizationnonconvex

optimization

procedures,

e.g.,gradient

back-propagationandstochastic

gradient

descent.机器学习不再是“学习”,而主要是“架构设计”Is

it

possible

to

build

a

super-brain?Possibly

notBut

algebraically

enrich

the

set

of

manipulations

applicable

totrainingsystems,

and

build

reasoning

capabilities

from

theground

up.概率模型及其参数化方法概率论本身提供丰富的代数结构,可以用于“操作”已有知识。如何参数化?Pearl:联合分布分解成条件独立元素(MRF,BN)概率图模型Deep

learning

v.s.

概率图模型DL:

not

intend

for

the

latent

variables

to

take

on

anyspecific

semantics

ahead

of

time–数据决定一切:Not

need

to

be

experts,but

model

lessinterpretableDL:a

large

number

of

latent

variablesDenselyInteraction

arrangedin

layers

vs.单独设计每条连接Gibbssampling

/

variational

inference

vs.

exact

inference/LoopBelief

PropagationLarge

number

for

coding

vs.

for

modeling

hidden

concepts尽量提高复杂度,近似即满意vs.

精确计算RBM–

Pathto

understand基本概念:RBM,architecture,energy

function如何进行inference?P(H|X),

P(X|H)如何计算这个模型下,证据X的边际分布:P(X)根据P(X)得到似然函数,如何优化/学习该模型?当学习完成后,可以用这个模型来做什么?Restricted

Boltmann

Machine(RBM)Toy

ofUndirected

Graphic

ModelMarkov

Random

Field3.Nonlinear

Latent

Factor

ModelAll

these

are

Probabilistic

Graph

Model:

A

tool

toModel

complex

dataDo

Inference

/

generationUse

it

toillustrate:How

to

construct

such

modelsHow

to

train

themHow

to

use

them网络结构问题:当网络结构固定时,如何评估visible

layer与hidden

layer节点的特定configuration的compatibility?能量函数:输入一个configuration,输出一个正实数,低表示它是稳定的。注:energy

function

、partition

function

都是统计物理中的叫法(PGM的主要起源)在ML中,可直接理解为:just

like

a

loss

function

for

a

configuration,the

lower

the

better.EnergyfunctionWhy?RBM从ML角度:是一种无监督学习方法,why?;从概率图模型角度,是一种无向图模型(MRF),无向概率图模型:并不直接定义概率,而是先定义局部能量的兼容性,然后规整化为概率。Energy–based

model,positive

always,

more

convenient:rather

than

learning

from

the

potential

functions

of

cliques!RBM–

Pathto

understand基本概念:RBM,architecture,energy

function如何进行inference?P(H|X),

P(X|H)如何计算这个模型下,证据X的边际分布:P(X)根据P(X)得到似然函数,如何优化/学习该模型?当学习完成后,可以用这个模型来做什么?UnderstandingInferenceForward

pass:

P(H|X)

:

Given

these

pixels,

should

my

weights

send

astronger

signal

to

which

code?Backward

pass:

P(X|H):

Given

a

code,

which

distribution

of

pixels

should

Iexpect?

(what

the

RBM’s

activations

“think”

the

original

data

looks

like)Joint

probability

P(X):

What’s

the

dependence

structure

among

my

pixels?Margin

out

hiddenfactors

toknowJoint:

P(H|X)

andP(X|H)

simultaneously:

expressed

as

sharedweightsbetween

the

twolayers.Inference

(node-wise

form)2

32Inference(vector-form)Encoder:

given

the

input,

my

weight

should

send

astronger

signal

to

which

code?Decoder:

given

the

code,

which

distribution

of

pixelsshould

I

expect?

(what

did

the

RBM

remember?)问题:RBM的encoder、decoder

的参数各是什么?RBM–

Pathto

understand基本概念:RBM,architecture,energy

function如何进行inference?P(H|X),

P(X|H)如何计算这个模型下,证据X的边际分布:P(X)根据P(X)得到似然函数,如何优化/学习该模型?当学习完成后,可以用这个模型来做什么?Close

connection

to

ReLU.直觉含义:RBM

“记住”的样本x,是那些与h的filter匹配良好的样本。换言之,每个latent

variable

记住了

输入样本在某个方面的一种全局特征,例如某种属性,表达为对应的权重向量。Can

we

remember

more

prototypes?

How?(memory

network,

neural

turing

machine,

2015)Simply

add

extra

memory,

and

read/write

ops.RBM–

Pathto

understand基本概念:RBM,architecture,energy

function如何进行inference?P(H|X),

P(X|H)如何计算这个模型下,证据X的边际分布:P(X)根据P(X)得到似然函数,如何优化/学习该模型?当学习完成后,可以用这个模型来做什么?Training目标函数:最大似然,或最小化平均负log似然(NLL)Traininggenerate

h

from

x,

such

that1)

match

thejoint

distribution

P(x,h)

well2)

keep

diverse

aspossible

as

it

can

(maximum

entropy)Handling

Partition

function网络训练:=》Monte

Carlo

ApproximationGibbs

Sampling

is

efficient

for

RBM:TrainingTraining目标函数:最大似然,或最小化平均负log似然(NLL)梯度推导不妨设h,

x

分别为l,d

维向量,W

为l

x

d

矩阵,则导数也应为l

x

d

矩阵!What

this

mean?

直觉含义是什么?梯度推导理解Recall

that

学习任务是,为每个隐节点学习一个filter,使之能够capture数据中的最主要的那些Pattern,e.g.,字符中的某些笔画等。So,每个隐节点的filter修正方向,应当能够增强相应节点的模式与所见样本之间的匹配度。注意,W的每一行代表相应隐节点的“filter”梯度推导梯度推导Gibbs

Sampling在当前模型W处,用训练样本初始化MCMC,用Gibbs采样得到“伪样本”动机:传统的MCMC

mixing过程极为漫长!梯度下降学习Rethinking

thelearning

procedure采样能获得什么样的信息?这些信息怎样帮助模型改进其encoder、decoder、or

both?RBM中,Encoder:p(h|x),decoder:p(x|h)都由Energy

函数决定能量函数由参数W决定,因此更好的参数能改进encoder和decoder.采样(negative

phrase)帮助网络了解:什么不应该学。梯度下降帮助模型把mode放到真实数据的地方,使其更sharp!CD-K

算法for

RBM

LearningApproximation:

Not

a

truly

MCMC!Approximation:

Not

a

truly

expectation!RBM

对Autoencoder

的启发Simple

Gradient

Descent

to

learnDenoising

Autoencoder虽然加入噪声,但重构的是原始版本!网络应当完成“去噪”功能重构噪声样本,“拉回”:加噪:重构噪声样本与真实样本之差,可理解为近似逼近模型似然梯度:d

logP(x)/

dx注意不是关于参数W的梯度!Insight:

negative

phrase

of

RBM

is

to

generate

near

noise

sample

of

true

sample,这是一种“比对学习”(告诉模型什么不该学、以帮助学该学的),so

why

not

do

it

directly!DAE:用Non-sampling的方式直接加入噪声(contrastive

samples),使得样本稍微偏离manifold,而目标函数要求其“coming

back”,从而能够更好的学习。DAE的概率理解:与Score

matching方法的联系Score

matching

[Hyvärinen

(2005)]:是一种类似最大似然的参数学习方法,但是巧妙去掉了partition

function:1.

估计对数似然关于数据(而非参数)的梯度:可看做当前模型的对数似然的scoreRecall

关于参数的梯度叫fisher

score

:d

log

p(x)/d

w–越好的模型,score越小。而

d

log

p(x)/

d

x

-

越靠近数据manifold本身,score

越小。为什么要关于x计算梯度?因为Partition

函数与x无关,所以这个score也无关。2.

因此,参数估计的原则就是:学习模型参数W,使得其对数似然关于data的score,与真实模型的score尽量一致!DAE高斯噪声:这样,DAE训练的目标函数可看做score

matching,目标是估计观测数据的真实密度分布。用DAE模型p(x)的score来match

数据分布q(x)思路转换:这是一个高斯RBM!!Vs

传统建模方法:

把x本身当做带噪数据。因此可以用等式右边之差来估计这个模型的score。而DAE网络的似然score显然可估计为:此向量域可视为一个scoring函数,why?如果模型训练得好的话,它应该沿此向量域事先规定的轨迹移动!每条轨迹都可看做一条

MarkovChain,最终走向定点(概率最大点)。类似RBM的Gibbs

sampling。What

this

MC

does?一个MC最重要的是转移概率P(X’|X)DAE通过加噪、学习、重构的流程,本质上就是学习这个转移过程:X1-》X2Walking

on

the

manifold

by

jumping

out

of

it.Why

working

on

this

conditional

p

instead

of

joint

p?估计P(x)最大的困难在于many-modes,这个导致MCMC效率低下(hard

to

transfer!);so直接学习MC转移概率,则much

easier!Why?Just

local

move,甚至可以用单峰分布建模.只要转移概率足够准确的话,那么最后得到的X的分布就接近真实分布P(X)!所以DAE可以看作一种非参数密度估计方法(直接生成样本而不是采样):Tricks:如何分解复杂分布P(X)引入latent

factors,e.g,RBM将输入随机维度之间复杂的依赖关系=》隐节点与样本之间的关系;每个隐节点capture一个aspect,margin

out得到所有

variations学习MC的转移分布:局部转移更简单!DAE:X-corrupt-encode-decode-x’–迭代refinement,

RNN-like,eg.PixelRNNSummarizetheKeypoints

of

RBMIt’s

a

undirected

graphic

model

defined

with

energy-based

modelTraining

such

model

amounts

to

decreasingenergyneartheobserved

training

datapoints

andincreasing

it

everywhereelseAfter

trainingOutlier

detection

=

is

the

data

normal?

=

P(x)Generating

abstract

representation

=

P(H|X)Dreaming

=

visualizing

what

the

network

thought=P(X|H)RBM–

Pathto

understand基本概念:RBM,architecture,energy

function如何进行inference?P(H|X),

P(X|H)如何计算这个模型下,证据X的边际分布:P(X)根据P(X)得到似然函数,如何优化/学习该模型?当学习完成后,可以用这个模型来做什么?GeneratingDigit

fromHidden

Codes每列代表一次Gibbs采样,不同的采样导致不同的样本,但同一词采样结果相关性很大,why?MCMC!这些重构结果:站在RBM的角度,真实数据应该像什么样子?“dreaming”结果很sharp,表明模型的p(h)

能够较好学到which

features

should

appear

together

when

sampling.模型学习到的特征见右;由于P(h|x)

隐节点彼此独立,因此特征表现欠佳。如何避免RBM采样结果趋同的问题?在manifold上进行线性运算,然后visualize结果。Experience

Replay:人类从来不是翻出以前的exact

经历还获取经验,而是通过approximatereconstruction来进行回忆。This

is

very

similar

to

sample

generation

in

RBM.参考文献••••1.

Bengio,

Y.,

Louradour,

J.,

Collobert,R.,

&

Weston,

J.

(2009).

Curriculum

learning.

ICML2.

/optimizing-gradient-descent/index.html#fn:163.Adding

Gradient

Noise

Improves

Learning

forVery

Deep

Networks

/abs/1511.068074.

Controlling

ExplorationImprovesTraining

For

Deep

Neural

Networks

/abs/1605.095935.

https:///Why-are-optimization-techniques-like-natural-gradient-and-second-order-methods-L-BFGS-for-eg-not-much-used-in-deep-learning6.

Revisiting

Natural

Gradientfor

Deep

Networks

/abs/1301.35847.

https:///In-machine-learning-can-we-use-another-neural-network-to-learn-how-to-train-a-given-neural-network8.

Deep

Q-Networks

for

Accelerating

the

Training

of

Deep

Neural

Networks

/abs/1606.014679.

https:///What-is-Least-Angle-Regression-and-when-should-it-be-used10.http:///questions/701062/derivative-of-nuclear-norm11.

A

Singular

Value

Thresholding

Algorithm

for

MatrixCompletion

/pdf/0810.3286.pdf12.

/question/47716840

矩阵补全算法13.

.hk/%7Eyz014/projects/matrix_completion/manu_mtxcomp.pdf

矩阵补全14.

introduction

to

conjugate

gradient

descent

without

pain

https:///~quake-papers/painless-conjugate-gradient.pdf15.

Fast

Exact

Multiplication

by

the

Hessian:

www.bcl.hamilton.ie/~barak/papers/nc-h

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论