




已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、BFGS算法 算法思想如下: Step1 取初始点,初始正定矩阵,允许误差,令; Step2 计算; Step3 计算,使得; Step4 令; Step5 如果,则取为近似最优解;否则转下一步; Step6 计算, 令,转Step2.优点:1、不用直接计算Hessian矩阵;2、通过迭代的方式用一个近似矩阵代替Hessian矩阵的逆矩阵。缺点:1、矩阵存储量为,因此维度很大时内存不可接受;2、矩阵非稀疏会导致训练速度慢。二、L-BFGS算法 针对BFGS的缺点,主要在于如何合理的估计出一个Hessian矩阵的逆矩阵,L-BFGS的基本思想是只保存最近的m次迭代信息,从而大大降低数据存储空间。对照BFGS,我重新整理一下用到的公式:于是估计的Hessian矩阵逆矩阵如下:把带入上式,得:假设当前迭代为k,只保存最近的m次迭代信息,(即:从k-mk-1),依次带入,得到:公式1:算法第二步表明了上面推导的最终目的:找到第k次迭代的可行方向,满足:为了求可行方向p,有下面的: two-loop recursion算法该算法的正确性推导:1、令:,递归带入q:相应的:2、令:于是:这个two-loop recursion算法的结果和公式1*初始梯度的形式完全一样,这么做的好处是:1、只需要存储、(i=1m);2、计算可行方向的时间复杂度从O(n*n)降低到了O(n*m),当m远小于n时为线性复杂度。总结L-BFGS算法的步骤如下: Step1: 选初始点,允许误差,存储最近迭代次数m(一般取6); Step2:; Step3: 如果则返回最优解,否则转Step4; Step4: 计算本次迭代的可行方向:; Step5: 计算步长,对下面式子进行一维搜索:; Step6: 更新权重x:; Step7: if k m 只保留最近m次的向量对,需要删除(); Step8: 计算并保存:; Step9: 用two-loop recursion算法求得:; k=k+1,转Step3。需要注意的地方,每次迭代都需要一个,实践当中被证明比较有效的取法为:三、OWL-QN算法1、问题描述对于类似于Logistic Regression这样的Log-Linear模型,一般可以归结为最小化下面这个问题:其中,第一项为loss function,用来衡量当训练出现偏差时的损失,可以是任意可微凸函数(如果是非凸函数该算法只保证找到局部最优解),后者为regularization term,用来对模型空间进行限制,从而得到一个更“简单”的模型。 根据对模型参数所服从的概率分布的假设的不同,regularization term一般有:L2-norm(模型参数服从Gaussian分布);L1-norm(模型参数服从Laplace分布);以及其他分布或组合形式。L2-norm的形式类似于:L1-norm的形式类似于:L1-norm和L2-norm之间的一个最大区别在于前者可以产生稀疏解,这使它同时具有了特征选择的能力,此外,稀疏的特征权重更具有解释意义。对于损失函数的选取就不在赘述,看两幅图:图1 - 红色为Laplace Prior,黑色为Gaussian Prior图2 直观解释稀疏性的产生 对LR模型来说损失函数选取凸函数,那么L2-norm的形式也是的凸函数,根据最优化理论,最优解满足KKT条件,即有:,但是L1-norm的regularization term显然不可微,怎么办呢?2、Orthant-Wise Limited-memory Quasi-Newton OWL-QN主要是针对L1-norm不可微提出的,它是基于这样一个事实:任意给定一个维度象限,L1-norm 都是可微的,因为此时它是一个线性函数:图3 任意给定一个象限后的L1-normOWL-QN中使用了次梯度决定搜索方向,凸函数不一定是光滑而处处可导的,但是它又符合类似梯度下降的性质,在多元函数中把这种梯度叫做次梯度,见维基百科/wiki/Subderivative举个例子:图4 次导数对于定义域中的任何x0,我们总可以作出一条直线,它通过点(x0,f(x0),并且要么接触f的图像,要么在它的下方。这条直线的斜率称为函数的次导数,推广到多元函数就叫做次梯度。次导数及次微分:凸函数f:IR在点x0的次导数,是实数c使得:对于所有I内的x。可以证明,在点x0的次导数的集合是一个非空闭区间a,b,其中a和b是单侧极限它们一定存在,且满足ab。所有次导数的集合a,b称为函数f在x0的次微分。OWL-QN和传统L-BFGS的不同之处在于:1)、利用次梯度的概念推广了梯度 定义了一个符合上述原则的虚梯度,求一维搜索的可行方向时用虚梯度来代替L-BFGS中的梯度:怎么理解这个虚梯度呢?见下图:对于非光滑凸函数,那么有这么几种情况:图5图6图7 otherwise2)、一维搜索要求不跨越象限 要求更新前权重与更新后权重同方向:图8 OWL-QN的一次迭代总结OWL-QN的一次迭代过程:Find vector of steepest descentChoose sectantFind L-BFGS quadratic approximationJump to minimumProject back onto sectantUpdate Hessian approximation using gradient ofloss alone最后OWL-QN算法框架如下: 与L-BFGS相比,第一步用虚梯度代替梯度,第二、三步要求一维搜索不跨象限,也就是迭代前的点与迭代后的点处于同一象限,第四步要求估计Hessian矩阵时依然使用loss function的梯度(因为L1-norm的存在与否不影响Hessian矩阵的估计)。四、参考资料1、Galen Andrew and Jianfeng Gao. 2007. Scalable training of L1-regularized log-linear models. In Proceedings of ICML, pages 3340.2、/machine-learning/sparsity-and-some-basics-of-l1-regularizati
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电诈防骗知识培训总结课件
- 高速服务区安全知识培训课件
- 电脑耗材培训知识总结课件
- rng考试题及答案
- photoshop考试试题及答案
- 浙江省杭州市临平区2024-2025学年四年级上学期期中科学试题(含答案)
- 电石炉专业知识培训课件
- 高级消防知识培训课件更新
- Hexolame-生命科学试剂-MCE
- 2-5-Deoxyfructosazine-13C4-NSC-270912-sup-13-sup-C-sub-4-sub-生命科学试剂-MCE
- 西藏朗县2025年上半年公开招聘村务工作者试题含答案分析
- 科学版(2024)一年级全一册体育与健康全册教案(表格式)
- 2025年高一上学期开学第一课主题班会课件
- 2025 年西安市一年级语文秋季开学摸底考 - 基础卷及答案(人教版)
- 2025年秋新教科版三年级上册科学全册教案教学设计(新教材)
- 二零二五年度汽车销售商与汽车电子设备供应商合作协议范本
- 2025年中小学教师师德师风知识考试试题及答案
- 2025版小学语文新课程标准
- ISO 37001-2025 反贿赂管理体系要求及使用指南(中文版-雷泽佳译-2025)
- 2025年公文写作基础知识竞赛试题库及答案(共120题)
- 采购框架合同协议书范本
评论
0/150
提交评论