




已阅读5页,还剩18页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一种防止过拟合的方法Dropout的介绍,College of Information Engineering,贺 敏,November 12, 2015,Company Logo,Outline,Dropout的背景及产生动机 Dropout模型的描述 Dropout的部分实验结果 进一步了解Dropout 总结,Company Logo,Dropout的背景及产生动机,背景: 深度神经网络具有多层非线性的隐含层,这使得它可以学习输入输出之间复杂的关系,然而在有限的训练数据,这将会产生采样噪音,即使训练数据和实际数据属于相同的分布,但是数据模型在训练集里表现非常满意,但是一旦应用到真实业务实践时,效果大打折扣。这就是过拟合,Company Logo,Dropout的背景及产生动机,如何处理过拟合: early stopping、 数据集扩增(Data augmentation)、 L1 Regularization L2 regularization dropout,Company Logo,Dropout的背景及产生动机,几种方法的区别: L1、L2正则化是通过修改代价函数来实现的 Dropout则是通过修改神经网络本身来实现的 Data augmentation是通过修改数据实现的,Company Logo,Dropout的背景及产生动机,产生动机: 来源于有性繁殖 基因的选择增加了随机性,在进化过程中,基因不能依赖于其他的基因,也就增强了健壮性 同理,随机的删掉隐含层的一些节点后,同样也会增强其他节点提取特征的能力,Company Logo,Dropout的模型描述,Dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作,不工作的那些节点可以暂时认为不是网络结构的一部分,但是它的权重得保留下来(只是暂时不更新而已),因为下次样本输入时它可能又得工作了.,Company Logo,Dropout的模型描述,如图所示,在训练时,节点按照概率P决定是否工作。 在测试时,不使用Dropout,但是要按比例的缩放权重,如上图b所示,这样才能保证预期输出与实际输出一致。,Company Logo,Dropout的模型描述,假设一个神经网络有L个隐含层l1,2.L 标准的前向神经网络是:,其中激活函数,Company Logo,Dropout的模型描述,使用Dropout后:,在测试时的权重进行缩放,Company Logo,Dropout率的选择与训练过程,经过交叉验证,隐含节点dropout率等于0.5的时候效最好,原因是0.5的时候dropout随机生成的网络结构最多。 dropout也可以被用作一种添加噪声的方法,直接对input进行操作。输入层设为更接近1的数。使得输入变化不会太大(0.8),Company Logo,Dropout率的选择与训练过程,对参数w的训练进行球形限制,对dropout的训练非常有用。球形半径c是一个需要调整的参数。可以使用验证集进行参数调优。这就叫 max-norm regularization,可以提高随机梯度下降效果 使用pretraining方法也可以帮助dropout训练参数,在使用dropout时,要将所有参数都乘以1/p。这样可以保证dropout的输出与预训练的输出一致,Company Logo,Dropout的部分实验结论,论文中采用的数据集是: MNIST : 手写体数据 TIMIT : 语音识别的标准语音基因 CIFAR-10 and CIFAR-100 : 自然图像 Street View House Numbers data set (SVHN) : 谷歌街景的房子 ImageNet : 图像数据库 Reuters-RCV1 : 新闻文章的数据库,Company Logo,Dropout的部分实验结论,这里我们只看MNIST,训练集有60000个 测试集为10000个 维度是784(28 *28 grayscale),所有采用Dropout的网络中 隐含层:P=0.5 输入层:P=0.8,Company Logo,Dropout的部分实验结论,论文中给出的结果,Company Logo,Dropout的部分实验结论,没用Dropout时: 测试样本错误率:15.500% 使用Dropout时: 测试样本错误率:13.000% 可以看出使用Dropout后,测试样本的错误率降低了,说明Dropout的泛化能力不错,可以防止过拟合。,训练样本2000个,测试样本1000个 结构是784-100-10,Company Logo,Dropout的部分实验结论,通过调用工具箱中的函数,数据集采用的是手写体数据: 1.训练集2000,测试集1000,使用dropout的错误率是1.07%,而没有使用的是1.26%; 2.训练集10000,测试集1000,使用dropout的错误率是0.095,时间是1.339s,没有使用的错误率是0.101,时间是1.262 3.训练集60000,测试集10000,使用dropout的错误率是0.069,时间是10.03s,没有使用的错误率是0.047,时间是7.77,Company Logo,Dropout的部分实验结论,dropout、max-normalization、large decaying learning rates and high momentum组合起来效果更好。 论文中指出 dropout 与 max-norm regularization 结合可以有更小的泛化误差,Company Logo,进一步了解Dropout,dropout RBM,Company Logo,进一步了解Dropout,Marginalizing Dropout 对于线性回归: 这使得正则常数依赖于P,P减小,正则常数变大 对于Logistic回归: 其dropout相当于加了一个正则化项。,Company Logo,进一步了解Dropout,Bayesian neural network对稀疏数据特别有用,论文中指出,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年炼油工艺中级知识重点与模拟题解析
- 2025年财务管理局招聘面试常见问题及答案
- 2025年船舶轮机员适任考试试卷及解析
- 2025年特岗教师招聘考试初中政治模拟试题及答案详解
- 珠宝精修基础知识培训
- 2024-2025学年度自考之《社区护理》题库附答案(突破训练)
- 基层医疗机构医院感染管理基本要求试题及答案
- 2024年高速公路工作员(基本知识、运营管理、收费管理)等相关理论知识考试题库与答案
- 2025年软件开发工程师面试题详解及答题技巧
- 2025石墩子公务员考试题目及答案
- 2025年内江市总工会公开招聘工会社会工作者(14人)笔试模拟试题及答案解析
- 2025云南辅警笔试题目及答案
- 2025四川内江市总工会招聘工会社会工作者14人笔试备考试题及答案解析
- 2025年三支扶陕西试题及答案
- 2025年行政执法证考试必刷题库与答案
- 基孔肯雅热防控知识考试试题含答案
- 低钾血症护理常规业务学习
- 第三单元名著导读《朝花夕拾-二十四孝图》课件(15张PPT) 部编版语文七年级上册
- 口部运动功能评估分级标准
- 《汉服发展史》PPT课件
- 新编物理基础学王少杰(上、(下册))课后习题答案
评论
0/150
提交评论