




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
高级梯度计算及应用优化算法优化点的必要条件:在最优点处梯度为0.函数局部性质的利用:一阶近似:最陡梯度下降二阶近似:牛顿法回到一阶近似:SGD–高级梯度计算技术自然梯度蒙特卡洛梯度估计强化梯度学习不可微:L1-norm,Nuclear-Norm自然梯度(natural
gradient)Latent
factor
model:发现观测数据背后的隐因子(原因)Z.q(z|x):根据输入的观测x,猜测原因zp(x|z):
根据原因来解释x。设真实的估计为:This
is
difficult!So,用一个可计算的简单分布来近似:,
how
to
measure
the
quality?近似质量度量方式:优化问题:梯度下降:
使得:by本质上是在参数空间中进行“small
”移动,but
how
to
define
“small”?任务:隐变量推断,每个 对应一个完整的分布,在标准梯度下降中概率空间中大量有用的结构信息。被当作欧氏空间,从而损失了虽然在欧氏空间中参数距离很小,但实际参数对应的数学对象差别很大!(两个几乎不重叠的高斯分布!)欧氏空间中的参数距离没有反映真实对象距离!参数距离一样,but
分布差异不同!两个分布的“真实”统计距离:weighted
average
log
difference问题:如何设计一个参数空间中的距离度量模型,使得根据这个度量得到的参数距离,类似于其对应的分布距离?e.g.,
d(u0,u1|theta)
=1
~ KL(q||p)
=1Idea:选择黎曼manifold为参数空间:刻画参数的内在流形局部结构!Let =
av,
v是某个方向,Key
problem:外围参数欧式空间在统计黎曼流形上的诱导度量。具体如何定义?:如何理解这个目标函数?如何优化?Fisher
信息矩阵似然函数q是关于参数lamuda的函数,Fisher
:在参数空间某处的log似然的二阶导数直觉含义:表示参数空间某处的“曲率”,可以看作数据对参数值提供的平均信息量,曲率越peak,越容易猜到该处的参数值,包含的信息量就越大。Fisher
Information
Matrix,定义为:Natural
Gradient
Descent由KL距离的定义,将其视为模型参数的函数(而非关于分布的泛函),进行二阶展开,其Hessian为:得到,结论:概率密度函数族是参数空间同胚的黎曼流形。Fisher信息矩阵可以看做是统计流形上的黎曼度量,这一度量是外围参数欧式空间在流形上的诱导度量。Natural
Gradient
Descent因此,故在统计流形中,选Fisher来定义局部内积,并将前页的标准梯度替换为so,自然梯度下降可视为一种是牛顿参数估计方法,但其Hessian在概率函数空间估计-Fisher。优化算法优化点的必要条件:在最优点处梯度为0.函数局部性质的利用:一阶近似:最陡梯度下降二阶近似:牛顿法回到一阶近似:SGD高级梯度计算技术自然梯度蒙特卡洛梯度估计强化梯度学习不可微:L1-norm,Nuclear-Norm蒙特卡洛梯度估计NIPS’14Motivation:
Deep
Generative
ModelGenerativeModellingWhy
GenerativeModels?学习高维空间中的复杂分布:解释复杂数据
unsupervised
learning:“learning
what
normally
happens”Supervised
learning:“learning
what
that
means”凡是具有复杂输出的任务,均可视为“生成”:例如图像、视频、文本序列等。强化学习(试错学习):模拟执行某种policy的结果半监督学习:e.g.,预测的输出是否normal?Conditional
Generative
ModelSemi-supervised
Learning通过model输出sequence的density,半监督问题可以转化为一个density
matching
问题。SingleImageSuperResolutionHow
to
do
this?主流方法:最大似然法Latentfactors
/
HiddenVariablesP(X):
了解事物、现象的正常状态是什么样子。But
usually
too
complex!事物的“本质”是什么?是那些隐藏在真实数据背后的“hidden
concept”、“causality”、“naturalvariations”、“real
factors”Canbe
regarded
as
yet
another
(abstract)
representation
for
X:这种抽象表示:更鲁棒、更有判别力、更简洁、更支持知识迁移和组合方案1:直接model观测变量之间复杂的high-order依赖关系,方案2:分解复杂关系成多个简单依赖关系:每个latent
facor负责提供一个观察事物的“视角”,或解释事物的某一个自然的variation(子单峰分布);最后再汇集这些元素,使得P(X)是一个由更简单的P(X|H)混合而成的分布。e.g.,
Gaussian
Mixture
Model,
aspect
model\latent
topic
model.Whatisan
intuitiveexplanation
ofaBoltzmann
machine?Latentfactors
/
HiddenVariablesHidden
variables/nodes:是latent
factors的实现机制在网络中引入隐变量节点,可以增强模型的expressive
power和flexibility,即fit复杂数据的能力,但同时增加inference的难度。Inference:“从观测节点推断隐节点的值”Generative:“从隐节点推测/重构输入节点的值”(”dreaming”)RepresentationLearning学习latent
factors的过程称为representation
learning学习共同特征空间,以支持多任务学习或迁移学习e.g.,如何让计算机听懂不同人说的同一句话?Keyideas
forrepresentationlearningEnd
to
end
learning概率模型Energy
model结构模型:层次化。Reasoning and
End
to
End
LearningReasoning:
“algebraically
manipulating
previouslyacquired
knowledge
in
order
to
answer
a
new
question.”Reasoning不等于logicinference:后者是reasoning的途径或工具。快速的reasoning不一定要进行逻辑推理。Previously
acquired
knowledge:附属任务得到Composition
rule:组合对象不是前提或结论,而是trainable
module。Possible?Yes,
internal
representationasreasoning
abstract.
E.g.,
迁移人脸识别。端到端学习:本质是组合多种学习模块完成特定任务,因而是一种自动
reasoning。1)每个component都trainable。2)用一个global
loss
function
指导所有components,为完成一个共同目标而协调训练。依靠中间表示,组合多个功能模块,形成复杂系统,协同完成新任务。Lecun
1998.Memory
mechanismTrainable
modules
in
visiontransform
vectors
in
representation
space
to
account
foraffine
transformations
of
the
initial
image.transform
the
representation
vectors
to
account
forchanges
in
the
position
of
the
viewerconvert
image
representations
into
sentencerepresentations
and
conversely.输入图像=》转化为中间表示=》转化为文本=》重构图像Trainable
Module:nonlinear
parametrizationnonconvex
optimization
procedures,
e.g.,gradient
back-propagationandstochastic
gradient
descent.机器学习不再是“学习”,而主要是“架构设计”Is
it
possible
to
build
a
super-brain?Possibly
notBut
algebraically
enrich
the
set
of
manipulations
applicable
totrainingsystems,
and
build
reasoning
capabilities
from
theground
up.概率模型及其参数化方法概率论本身提供丰富的代数结构,可以用于“操作”已有知识。如何参数化?Pearl:联合分布分解成条件独立元素(MRF,BN)概率图模型Deep
learning
v.s.
概率图模型DL:
not
intend
for
the
latent
variables
to
take
on
anyspecific
semantics
ahead
of
time–数据决定一切:Not
need
to
be
experts,but
model
lessinterpretableDL:a
large
number
of
latent
variablesDenselyInteraction
arrangedin
layers
vs.单独设计每条连接Gibbssampling
/
variational
inference
vs.
exact
inference/LoopBelief
PropagationLarge
number
for
coding
vs.
for
modeling
hidden
concepts尽量提高复杂度,近似即满意vs.
精确计算RBM–
Pathto
understand基本概念:RBM,architecture,energy
function如何进行inference?P(H|X),
P(X|H)如何计算这个模型下,证据X的边际分布:P(X)根据P(X)得到似然函数,如何优化/学习该模型?当学习完成后,可以用这个模型来做什么?Restricted
Boltmann
Machine(RBM)Toy
ofUndirected
Graphic
ModelMarkov
Random
Field3.Nonlinear
Latent
Factor
ModelAll
these
are
Probabilistic
Graph
Model:
A
tool
toModel
complex
dataDo
Inference
/
generationUse
it
toillustrate:How
to
construct
such
modelsHow
to
train
themHow
to
use
them网络结构问题:当网络结构固定时,如何评估visible
layer与hidden
layer节点的特定configuration的compatibility?能量函数:输入一个configuration,输出一个正实数,低表示它是稳定的。注:energy
function
、partition
function
都是统计物理中的叫法(PGM的主要起源)在ML中,可直接理解为:just
like
a
loss
function
for
a
configuration,the
lower
the
better.EnergyfunctionWhy?RBM从ML角度:是一种无监督学习方法,why?;从概率图模型角度,是一种无向图模型(MRF),无向概率图模型:并不直接定义概率,而是先定义局部能量的兼容性,然后规整化为概率。Energy–based
model,positive
always,
more
convenient:rather
than
learning
from
the
potential
functions
of
cliques!RBM–
Pathto
understand基本概念:RBM,architecture,energy
function如何进行inference?P(H|X),
P(X|H)如何计算这个模型下,证据X的边际分布:P(X)根据P(X)得到似然函数,如何优化/学习该模型?当学习完成后,可以用这个模型来做什么?UnderstandingInferenceForward
pass:
P(H|X)
:
Given
these
pixels,
should
my
weights
send
astronger
signal
to
which
code?Backward
pass:
P(X|H):
Given
a
code,
which
distribution
of
pixels
should
Iexpect?
(what
the
RBM’s
activations
“think”
the
original
data
looks
like)Joint
probability
P(X):
What’s
the
dependence
structure
among
my
pixels?Margin
out
hiddenfactors
toknowJoint:
P(H|X)
andP(X|H)
simultaneously:
expressed
as
sharedweightsbetween
the
twolayers.Inference
(node-wise
form)2
32Inference(vector-form)Encoder:
given
the
input,
my
weight
should
send
astronger
signal
to
which
code?Decoder:
given
the
code,
which
distribution
of
pixelsshould
I
expect?
(what
did
the
RBM
remember?)问题:RBM的encoder、decoder
的参数各是什么?RBM–
Pathto
understand基本概念:RBM,architecture,energy
function如何进行inference?P(H|X),
P(X|H)如何计算这个模型下,证据X的边际分布:P(X)根据P(X)得到似然函数,如何优化/学习该模型?当学习完成后,可以用这个模型来做什么?Close
connection
to
ReLU.直觉含义:RBM
“记住”的样本x,是那些与h的filter匹配良好的样本。换言之,每个latent
variable
记住了
输入样本在某个方面的一种全局特征,例如某种属性,表达为对应的权重向量。Can
we
remember
more
prototypes?
How?(memory
network,
neural
turing
machine,
2015)Simply
add
extra
memory,
and
read/write
ops.RBM–
Pathto
understand基本概念:RBM,architecture,energy
function如何进行inference?P(H|X),
P(X|H)如何计算这个模型下,证据X的边际分布:P(X)根据P(X)得到似然函数,如何优化/学习该模型?当学习完成后,可以用这个模型来做什么?Training目标函数:最大似然,或最小化平均负log似然(NLL)Traininggenerate
h
from
x,
such
that1)
match
thejoint
distribution
P(x,h)
well2)
keep
diverse
aspossible
as
it
can
(maximum
entropy)Handling
Partition
function网络训练:=》Monte
Carlo
ApproximationGibbs
Sampling
is
efficient
for
RBM:TrainingTraining目标函数:最大似然,或最小化平均负log似然(NLL)梯度推导不妨设h,
x
分别为l,d
维向量,W
为l
x
d
矩阵,则导数也应为l
x
d
矩阵!What
this
mean?
直觉含义是什么?梯度推导理解Recall
that
学习任务是,为每个隐节点学习一个filter,使之能够capture数据中的最主要的那些Pattern,e.g.,字符中的某些笔画等。So,每个隐节点的filter修正方向,应当能够增强相应节点的模式与所见样本之间的匹配度。注意,W的每一行代表相应隐节点的“filter”梯度推导梯度推导Gibbs
Sampling在当前模型W处,用训练样本初始化MCMC,用Gibbs采样得到“伪样本”动机:传统的MCMC
mixing过程极为漫长!梯度下降学习Rethinking
thelearning
procedure采样能获得什么样的信息?这些信息怎样帮助模型改进其encoder、decoder、or
both?RBM中,Encoder:p(h|x),decoder:p(x|h)都由Energy
函数决定能量函数由参数W决定,因此更好的参数能改进encoder和decoder.采样(negative
phrase)帮助网络了解:什么不应该学。梯度下降帮助模型把mode放到真实数据的地方,使其更sharp!CD-K
算法for
RBM
LearningApproximation:
Not
a
truly
MCMC!Approximation:
Not
a
truly
expectation!RBM
对Autoencoder
的启发Simple
Gradient
Descent
to
learnDenoising
Autoencoder虽然加入噪声,但重构的是原始版本!网络应当完成“去噪”功能重构噪声样本,“拉回”:加噪:重构噪声样本与真实样本之差,可理解为近似逼近模型似然梯度:d
logP(x)/
dx注意不是关于参数W的梯度!Insight:
negative
phrase
of
RBM
is
to
generate
near
noise
sample
of
true
sample,这是一种“比对学习”(告诉模型什么不该学、以帮助学该学的),so
why
not
do
it
directly!DAE:用Non-sampling的方式直接加入噪声(contrastive
samples),使得样本稍微偏离manifold,而目标函数要求其“coming
back”,从而能够更好的学习。DAE的概率理解:与Score
matching方法的联系Score
matching
[Hyvärinen
(2005)]:是一种类似最大似然的参数学习方法,但是巧妙去掉了partition
function:1.
估计对数似然关于数据(而非参数)的梯度:可看做当前模型的对数似然的scoreRecall
关于参数的梯度叫fisher
score
:d
log
p(x)/d
w–越好的模型,score越小。而
d
log
p(x)/
d
x
-
越靠近数据manifold本身,score
越小。为什么要关于x计算梯度?因为Partition
函数与x无关,所以这个score也无关。2.
因此,参数估计的原则就是:学习模型参数W,使得其对数似然关于data的score,与真实模型的score尽量一致!DAE高斯噪声:这样,DAE训练的目标函数可看做score
matching,目标是估计观测数据的真实密度分布。用DAE模型p(x)的score来match
数据分布q(x)思路转换:这是一个高斯RBM!!Vs
传统建模方法:
把x本身当做带噪数据。因此可以用等式右边之差来估计这个模型的score。而DAE网络的似然score显然可估计为:此向量域可视为一个scoring函数,why?如果模型训练得好的话,它应该沿此向量域事先规定的轨迹移动!每条轨迹都可看做一条
MarkovChain,最终走向定点(概率最大点)。类似RBM的Gibbs
sampling。What
this
MC
does?一个MC最重要的是转移概率P(X’|X)DAE通过加噪、学习、重构的流程,本质上就是学习这个转移过程:X1-》X2Walking
on
the
manifold
by
jumping
out
of
it.Why
working
on
this
conditional
p
instead
of
joint
p?估计P(x)最大的困难在于many-modes,这个导致MCMC效率低下(hard
to
transfer!);so直接学习MC转移概率,则much
easier!Why?Just
local
move,甚至可以用单峰分布建模.只要转移概率足够准确的话,那么最后得到的X的分布就接近真实分布P(X)!所以DAE可以看作一种非参数密度估计方法(直接生成样本而不是采样):Tricks:如何分解复杂分布P(X)引入latent
factors,e.g,RBM将输入随机维度之间复杂的依赖关系=》隐节点与样本之间的关系;每个隐节点capture一个aspect,margin
out得到所有
variations学习MC的转移分布:局部转移更简单!DAE:X-corrupt-encode-decode-x’–迭代refinement,
RNN-like,eg.PixelRNNSummarizetheKeypoints
of
RBMIt’s
a
undirected
graphic
model
–
defined
with
energy-based
modelTraining
such
model
amounts
to
decreasingenergyneartheobserved
training
datapoints
andincreasing
it
everywhereelseAfter
trainingOutlier
detection
=
is
the
data
normal?
=
P(x)Generating
abstract
representation
=
P(H|X)Dreaming
=
visualizing
what
the
network
thought=P(X|H)RBM–
Pathto
understand基本概念:RBM,architecture,energy
function如何进行inference?P(H|X),
P(X|H)如何计算这个模型下,证据X的边际分布:P(X)根据P(X)得到似然函数,如何优化/学习该模型?当学习完成后,可以用这个模型来做什么?GeneratingDigit
fromHidden
Codes每列代表一次Gibbs采样,不同的采样导致不同的样本,但同一词采样结果相关性很大,why?MCMC!这些重构结果:站在RBM的角度,真实数据应该像什么样子?“dreaming”结果很sharp,表明模型的p(h)
能够较好学到which
features
should
appear
together
when
sampling.模型学习到的特征见右;由于P(h|x)
隐节点彼此独立,因此特征表现欠佳。如何避免RBM采样结果趋同的问题?在manifold上进行线性运算,然后visualize结果。Experience
Replay:人类从来不是翻出以前的exact
经历还获取经验,而是通过approximatereconstruction来进行回忆。This
is
very
similar
to
sample
generation
in
RBM.参考文献••••1.
Bengio,
Y.,
Louradour,
J.,
Collobert,R.,
&
Weston,
J.
(2009).
Curriculum
learning.
ICML2.
/optimizing-gradient-descent/index.html#fn:163.Adding
Gradient
Noise
Improves
Learning
forVery
Deep
Networks
/abs/1511.068074.
Controlling
ExplorationImprovesTraining
For
Deep
Neural
Networks
/abs/1605.095935.
https:///Why-are-optimization-techniques-like-natural-gradient-and-second-order-methods-L-BFGS-for-eg-not-much-used-in-deep-learning6.
Revisiting
Natural
Gradientfor
Deep
Networks
/abs/1301.35847.
https:///In-machine-learning-can-we-use-another-neural-network-to-learn-how-to-train-a-given-neural-network8.
Deep
Q-Networks
for
Accelerating
the
Training
of
Deep
Neural
Networks
/abs/1606.014679.
https:///What-is-Least-Angle-Regression-and-when-should-it-be-used10.http:///questions/701062/derivative-of-nuclear-norm11.
A
Singular
Value
Thresholding
Algorithm
for
MatrixCompletion
/pdf/0810.3286.pdf12.
/question/47716840
矩阵补全算法13.
.hk/%7Eyz014/projects/matrix_completion/manu_mtxcomp.pdf
矩阵补全14.
introduction
to
conjugate
gradient
descent
without
pain
https:///~quake-papers/painless-conjugate-gradient.pdf15.
Fast
Exact
Multiplication
by
the
Hessian:
www.bcl.hamilton.ie/~barak/papers/nc-h
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《西方现代艺术流派赏析:美术课程教案》
- 柔性纤维材料失稳变形机理分析与研究
- 2025年春季幼儿园健康教育推广计划
- 施工企业装配式建筑技术采纳意愿影响因素及组态路径研究
- 教育行业内的师徒互助计划
- 2025年小学图书室评估与反馈计划
- 《自然选择理论的核心观点:高中生物教学教案》
- 电力工程工期确保方案
- 小学传染病防治工作领导小组及职责
- 童话世界,人间天堂550字15篇
- 南京理工大学泰州科技学院《DSP原理及应用》2022-2023学年第一学期期末试卷
- 《SQL优化策略》课件
- 剪映专业版教学课件
- 智能咖啡机行业营销策略方案
- 航空与航天学习通超星期末考试答案章节答案2024年
- 工行个人房屋贷款协议模板
- 担任学生干部证明
- 《国家电网有限公司电力建设安全工作规程第4部分:分布式光伏》知识培训
- 2024年《13464电脑动画》自考复习题库(含答案)
- 【核心素养目标】9.3 一元一次不等式组 教案七年级数学下册(人教版)
- 保证断绝关系的保证书
评论
0/150
提交评论