ML中的过拟合问题复习过程_第1页
ML中的过拟合问题复习过程_第2页
ML中的过拟合问题复习过程_第3页
ML中的过拟合问题复习过程_第4页
ML中的过拟合问题复习过程_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、ML 中 的 过 拟 合 问 题精品文档防止过拟合:1. 机器学习中防止过拟合的方法?答:早停、数据扩展、正则化( L1、L2 (权值衰减)、 dropout早停:在训练数据不足时,或者过训练时,常常会导致过拟合问题。其直观表达如下图:随着训练的进行,网络在训练数据上的误差越来越小,但是在验证集上的误差 却渐渐增大,因为训练出的网络过拟合了训练集,对训练集已经不工作了。在机器学习中,我们常常将原始数据划分为三部分: 训练、验证和测试 。验证 集其实就是为了防止过拟合的,在训练过程中,我们常常用它来确定一组超参 数(如通过 验证集确定算法停止训练的 epoch大小,根据 验证集确定学习率 等 等

2、)。这些过程并不在测试数据上进行,因为防止模型在测试数据上过拟合, 这样导致后边的测试误差没有参考价值。L2 正则化问题(也称为权值衰减):L2 正则化方法主要在代价函数后边添加一个正则项:收集于网络,如有侵权请联系管理员删除精品文档C0代表原始代价函数,后面的一项就是 L2正则项,是参数 w的 2-范数的平 方,除以训练集样本数 n,然后乘以一个权衡系数 ,1/2 主要是方便于后边的 求导计算。从上式可以看出, L2 正则化项对偏置 b的更新没有影响,但是对 w 有影响从上式可以看出,权值 w 是在减小的,也即是通常所说的权值衰减问题( weight decay)。另外,对于 mini-ba

3、tch 的随机梯度下降方法, w 和 b 的更新公式有所差异:m 表示一个 mini-batch 中的样本数目 Cx 表示第 x 个 batch 的代价函数L2 正则化方法之所以可以防止过拟合,是因为模型的参数越小,复杂度就越小,对数据的拟合也就刚刚好 。L1 正则化:收集于网络,如有侵权请联系管理员删除精品文档在原始的代价函数后边加上一个 L1的正则项,即是 权值 w的绝对值之和 ,乘以 lamda/n求导之后:当 w 为正时, w 减小,为负时,上式中的 sng(w)表示 w 的符号,那么权值 w 的更新公式为:w 增大。这样就使得 w 往 0 方向移动,也就相当于减小了网络的复杂度,防止

4、过拟合Drop-out 方法 :Drop-out 则是通过修改神L1和 L2正则化方法是通过修改代价函数来实现,而经网络本身来实现,它是训练网络时的一种技巧。在深度学习网络训练中,对于神经单元而言, 按照一定的概率将其暂时从网络 中丢弃。对于 SGD方法,由于是随机丢弃,故而每一个 mini-batch 都在训练不 同的网络。每一个网络都可以给出一个分类结果,有的正确,有的错误,随着 训练的进行, 大部分网络可以给出正确的分类结果,但是不会影响到整体的分 类结果。对于大规模神经网络而言,存在两个缺点: 训练费时和容易过拟合每次做完 Drop-out,相当于从原始网络中找到一个更瘦的网络。收集于

5、网络,如有侵权请联系管理员删除精品文档假如在每一次的迭代中,丢弃网络中半数的隐层神经元,得到一个半数网络。那么在若干次的迭代中,得到若干个半数网络,当然每一次的迭代所丢弃的神经元是不一样的。数据扩展:因为训练数据中的带标记数据收集比较困难,我们为了获取更多的训练数据, 可以在原始数据上做改动,从而得到更多数据。如:添加随机噪声平移、旋转、缩放、翻转截取原始图像中的一部分颜色变换样本偏斜问题:样本偏斜也叫做数据集偏斜( unbalanced),它是指参与分类的两个类别之间的 训练样本数目差异较大。如正类有 10,000 个样本,负类有 100个,则会导致样 本偏斜问题。收集于网络,如有侵权请联系

6、管理员删除精品文档类别不平衡是指在分类任务中,不同类别的训练样本数目差别很大的情况。现有的应对样本倾斜问题的方法有三种: 对数目较多的一类采用 欠采样方法 。 即是去除一些多余的样本,使得样本平衡,然后再进行学习;第二类方法即是 对样本数目少的一类采用 过采样的方法 ,即是增加一些样本,然后再进行学 习;第三类方法则是直接基于原始训练集进行学习,但是在用训练好的分类器 上预测时,利用上式做决策,称为 阈值移动 。欠采样 并不是简单的去除样本,可能会导致重要信息丢失,有效的方法为 Easy-Ensemble。主要思想在于利用集成学习机制,将多数样本类划分为多个部 分,供多个学习器使用,这样相当于

7、对每一个学习器都进行了欠采样,对于整 体而言,并不会丢失重要信息。过采样 不能简单的对初始正样本进行重复采样,否则会招致严重的过拟合,过 采样代表性方法为 SMOTE ,即是通过对训练数据里的少量样本进行插值产生 额外的样本。再缩放方法 :对于线性分类问题而言,通常利用预测值 y 与阈值进行比较, y0.5则认为正类,反之为负类, y其实表示的是属于正样本的可能性, t= y/1-y 表示的即是几率。通常认为 t1 为正类,反之为负类。这种判别方法适用于正 样本和负样本数目差不多时。但是当两类差别较大时,通常是通过t 和观测几率进行比较。即是 t= y/1-y m+/m- ,m+和 m-分别表

8、示正负样本数。基于前者 和后者,对预测几率进行调整,得到:收集于网络,如有侵权请联系管理员删除精品文档这就是 类别不平衡的一种基本策略 再缩放或再平衡 。再缩放的思想是建立在训练集是整体样本的无偏采样,但是这个假设并不一定成立,即是未必能够推 断出真实的观测几率。1)实现参数的稀疏有什么好处吗?一个好处是可以简化模型,避免过拟合。 因为一个模型中真正重要的参数可能并不多,如 果考虑所有的参数起作用,那么可以对训练数据可以预测的很好,但是对测试数据就只能 呵呵了。另一个好处是 参数变少 可以使整个模型 获得更好的可解释性 。2)参数值越小代表模型越简单吗?是的。为什么参数越小,说明模型越简单呢,

9、这是因为越复杂的模型,越是会尝试对所有 的样本进行拟合,甚至包括一些异常样本点,这就容易造成 在较小的区间里预测值产生较 大的波动,这种较大的波动也反映了在这个区间里的导数很大,而只有较大的参数值才能 产生较大的导数 。 因此复杂的模型,其参数值会比较大 。L0 正则化表示的是非零元素的数目;( NP- 难题)L1 正则化在实际中往往替代 L0 正则化,来防止过拟合,在江湖中也人称Lasso ;L2 正则化江湖人称 Ridge ,也称“岭回归”。L1 会趋向于产生少量的特征,而其他的特征都是0,而 L2 会选择更多的特征,这些特征都会接近于 0。 Lasso 在特征选择时候非常有用,而 Rid

10、ge 就只是一种规则化而已。在所 有特征中只有少数特征起重要作用的情况下,选择 Lasso 比较合适,因为它能自动选择特 征。而如果所有特征中,大部分特征都能起作用,而且起的作用很平均,那么使用 Ridge 也许更合适。我们大概知道了 L1 可以实现稀疏 ,但我们会想呀,为什么要稀疏?让我们的参数稀疏有什么好处呢?这里扯两点:收集于网络,如有侵权请联系管理员删除精品文档1)特征选择 (Feature Selection) :大家对稀疏规则化趋之若鹜的一个关键原因在于它能实现特征的自动选择。一般来 说, xi的大部分元素(也就是特征)都是和最终的输出yi没有关系或者不提供任何信息的,在最小化目标

11、函数的时候考虑xi 这些额外的特征,虽然可以获得更小的训练误差,但在预测新的样本时,这些没用的信息反而会被考虑,从而干扰了对正确yi 的预测。稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命,它会学习地去掉这些没有信息的 特征,也就是把这些特征对应的权重置为 0 。2)可解释性 (Interpretability) :另一个青睐于稀疏的理由是,模型更容易解释。例如患某种病的概率是y,然后我们收集到的数据 x 是 1000 维的,也就是我们需要寻找这 1000 种因素到底是怎么影响患上这 种病的概率的。假设我们这个是个回归模型:y=w 1 *x 1+w 2*x 2 + +w 1000 *x 1000 +b (当然了,为了让 y 限定在 0,1 的范围,一般还得加个 Logistic

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论