版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
AlexNet神经网络那么直接了。大部分现代人在使用罗马数字计算CCX除以VI时,都会将其转化成阿拉伯数字,从而使用位值系统的长除法。对于一个计算任务,我们可以使用渐近运行时间来量化任务表示的合适或不合适。例如:正确插入一个数字到有序表中,如果该数列用链表表示,那么所需时间是O(n);如果该列表用红黑树表示,那么只需要O(logn)的时间。学习特征表示表示学习日常生活中有很多信息处理任务可能非常容易,也可能非常困难,很大程度上取决于信息是如何表示的。例如:对于人而言,可以直接使用长除法计算210除以6。但是如果使用罗马数字表示,这个问题就没有01习的一种形式。网络的最后一层通常是线性分类器,如softmax分类器,网络的其余部分学习出该分类器的表示。原则上,最后一层可以是另一种模型,如最近邻分类器
(Salakhutdinovand
Hinton,2007a)。倒数第二层的特征应该根据最后一层的类型学习不同的性质。监督学习训练模型,一般会使得模型的各个隐藏层(特别是接近输出层的隐藏层)的表示能够更容易地完成训练任务。例如,输入特征线性不可分的类别可能在最后一个隐藏层变成线性可分离的。表示学习在机器学习中,到底是什么因素决定了一种表示比另一种表示更好呢?选择什么表示通常取决于后续的学习任务。我们可以将监督学习训练的前馈网络视为表示学一般而言,一个好的表示可以使后续的学习任务更容易。学习特征表示01学习特征表示表示学习深度学习最重要的作用:表示学习Feature
Engineering(特征工程):通过原始数据,生成新的数据的过程传统做法输入图片Representation深度学习
输入图片Learning(表示学习):通过原始数据转换为能够被机器所学习的一种方法人工设计特征学习特征学习分类学习分类End-to-end
Learning(端到端学习)01学习特征表示学习特征表示虽然于1994年,由LeCun提出LeNet5深层网络,可以在早期的小数据集上取得好的成绩,但是在更大的真实数据集上的表现并不尽人意,其性能甚至不如支持向量机。一方面,因为深层神经网络计算复杂。虽然20世纪90年代也有过⼀些针对神经网络的加速硬件,但并没有像之后GPU那样大量普及。因此,训练⼀个多通道、多层和有大量参数的卷积神经网络在当年很难完成。另⼀方面,当年研究者还没有大量深入研究参数初始化和非凸优化算法等诸多问题,导致复杂的神经网络的训练通常较困难。所以,虽然深层神经网络可以直接基于原始图像进行分类。这种称为端到端(end-to-end)的方法节省了很多中间步骤。但由于其性能的限制,导致在很长时间里分类任务更流行的方案
是,人工设计特征提取方法,然后通过机器学习特征进行分类,主要流程是:
获取图像数据集;
使用已有的特征提取函数生成图像的特征;
使用机器学习模型对图像的特征分类。01学习特征表示学习特征表示既然特征如此重要,它该如何表示呢?
在相当长的时间里,特征都是基于各式各样手工设计的函数从数据中提取的。不少研究者通过提出新的特征提取函数不断改进图像分类结果。关于图像特征的各种提取方法可以参阅2020年出版的《图像局部特征检测及描述》。在已知分类对象特征的情况下,直接通过图像特征分类可以减少学习模型的复杂度,降低对训练样本数量和质量的要求。
许多分类任务,很难确定其分类的依据,不明确其特征是什么。在这种情况下,深度学习的独特作用就显示出来了。
在图像分类中,在深层神经网络的第—级表示在特定的位置和角度是否出现边缘;第二级的表示这些边缘的组合模式,如纹理;第三级是更为高级的抽象模式。这样逐级表示下去,最终,模型能够较容易根据最后—级的表示完成分类任务。01例如,不少研究论文基于加州大学欧文分校(UCI)提供的若干个公开数据集,其中许多数据集只有几百几千张图像。这⼀状况在2010年前后兴起的大数据浪潮中得到改善。特别是,2009年诞生的ImageNet数据
集包含了1,000大类物体,每类有多达数千张不同的图像。这⼀规模是当时其他公开数据集无法与之相提并论的。ImageNet数据集同时推动计算机视觉和机器学习研究进入新的阶段,使此前的传统方法不再有优势。学习特征表示学习特征表示深度学习发展的基础条件:条件一:数据深度学习模型需要大量的有标签数据才能表现得比经典方法更好。限于早期计算机有限的存储和90年代有限的研究预算,大部分研究只基于小的公开数据集。01学习特征表示学习特征表示条件二:硬件深度学习对计算资源要求很高。早期的硬件计算能力有限,这使训练较复杂的神经网络变得很困难。然而,通用GPU的到来改变了这⼀格局。很久以来,GPU都是为图像处理和计算机游戏设计的,尤其是针对大吞吐量的矩阵和向量乘法从而服务于基本的图形变换。值得庆幸的是,这其中的数学表达与深度网络中的卷积层的表达类似。通用GPU这个概念在2001年开始兴起,涌现出诸如OpenCL和CUDA之类的编程框架。这使得GPU也在2010年前后开始被机器学习社区使用。01AlexNet
网络AlexNet出现背景
2012年,AlexNet横空出世。这个模型的名字来源于提出者Alex
Krizhevsky。AlexNet使用了8层卷积神经网络,并以很大的优势赢得了ImageNet2012图像识别挑战赛。它首次证明了学习到的特征可以超越手工设计的特征。
AlexNet与LeNet的设计理念非常相似,但也有显著的区别。第⼀,与相对较小的LeNet相比,AlexNet包含8层变换,其中有5层卷积和2层全连接隐藏层,以及1个全连接输出层。论
文
中
使
用
两个GPU并行
训练。02AlexNet
网络AlexNet网络结构
第1层:卷积层1输入为224×224×3(或227×227×3)的图像,第一层卷积为11×11×96,即尺寸为11×11,有96个卷积核(论文中的两个GPU分别有48个卷积核),步长为4,卷积层后跟ReLU,因此输出的尺寸
为224/4=56,去掉边缘为55,因此其输出的每个feature
map为55×55×96。最大池化层,核大小为3×3,步长为2,因此feature
map的大小
为:27×27×96。
第2层:卷积层2输入为上一层卷积的feature
map,即大小为27×27×96,卷积核大小为5×5×256,步长为1,尺寸不会改变,同样紧跟ReLU和LRN层。最大池化大小为3×3,步长为2,因此feature
map为:13×13×256。02AlexNet
网络AlexNet网络结构
第3层:卷积层3,输入的尺寸大小为13×13×256,卷积核大小为3×3×384,步长为1,加上ReLU,没有LRN和Pool,输出为13×13×384;
第4层:卷积4,输入为上一层的输出,卷积核大小为为3×3×384,步长同样为1,加上ReLU,和第三层一样,没有LRN和Pool,输出为13×13×384;
第5层:卷积5,输入为第四层的输出,卷积核大小为3×3×256,padding=1,得到的结果为13×13×256。然后直接进行3×3的最大池化操作,
步长设置为2,因此featuremap:6×6×256。02AlexNet
网络AlexNet网络结构
第6,7,8层是全连接层,FC:4096+ReLUFC:4096+ReLUFC:1000,最后一层为softmax为1000类的概
率值。前面介绍过,ImageNet这个比赛的分类个数为1000。全连接层中使用了RELU和Dropout。02AlexNet
网络AlexNet网络新技术点AlexNet中包含了几个比较新的技术点,也首次在CNN中成功应用了ReLU、Dropout和LRN等。同时AlexNet也使用了GPU进行运算加速。AlexNet将LeNet的思想发扬光大,把CNN的基本原理应用到了很深很宽的网络中。AlexNet主要使用到的新技术点有以下几点:AlexNet
网
络新技术Dropout避
免过拟合重叠池化丰富特征ReLU激活函数
避免梯度弥散数据增强LRN增加范
化能力CUDA加速训练02AlexNet
网络AlexNet网络新技术点
成功使用ReLU作为CNN的激活函数,并验证其效果在较深的网络超过了Sigmoid,成功解决了Sigmoid在网络较深时的梯度弥散问题。虽然ReLU激活函数在很久之前就被提出了,但是直到AlexNet的出现才将其发扬光大。
训练时使用Dropout随机忽略一部分神经元,以避免模型过拟合。Dropout虽有单独的论文论述,但是AlexNet将其实用化,通过实践证实了它的效果。在AlexNet中主要是最后几个全连接层使用了Dropout。
在CNN中使用重叠的最大池化。此前CNN中普遍使用平均池化,AlexNet全部使用最大池化,避免平均池化的模糊化效果。并且AlexNet中提出让步长比池化核的尺寸小,这样池化层的输出之间会有重叠和覆盖,提升了特征的丰富性。02AlexNet
网络AlexNet网络新技术点
提出了LRN
(
Local
Response
Normalization,局部响应正则化)层,对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的泛化能力。
使用CUDA加速深度卷积网络的训练,利用GPU强大的并行计算能力,处理神经网络训练时大量的矩阵运算。AlexNet使用了两块GTX580GPU进行训练,单个GTX580只有3GB显存,这限制了可训练的网络的最大规模。因此作者将AlexNet分布在两个GPU上,在每个GPU的显存中储存一半的神经元的参数。因为GPU之间通信方便,可以互相访问显存,而不需要通过主机内存,所以同时使用多块GPU也是非常高效的。同时,AlexNet的设计让GPU之间的通信只在网络的某些层进行,控制了通信的性能损耗。02AlexNet
网络AlexNet网络新技术点
数据增强,随机地从256*256的原始图像中截取224*224大小的区域(以及水平翻转的镜像),相当于增加了2*(256-224)^2=2048倍的数据量。如果没有数据增强,仅靠原始的数据量,参数众多的CNN会陷入过拟合中,使用了数据增强后可以大大减轻过拟合,提升泛化能力。进行预测时,则是取图片的四个角加中间共5个位置,并进行左右翻转,一共获得10张图片,对他们进行预测并对10次结果求均值。同时,AlexNet论文中提到了会对图像的RGB数据进行PCA处理,并对主成分做一个标准差为0.1的高斯扰动,增加一些噪声,这个Trick可以让错误率再下降1%。02(Lateralinhibition)”,讲的是活跃的神经元对它周边神经元的影响。能够比较有效地防止神经网络的过拟合。相对于一般如线性模型使用正则的方法来防止模型过拟合,而在神经网络中Dropout通过修改神经网络本身结构来实现。对于某一层神经元,通过定义的概率来随机删除一些神经元,同时保持输入层与输出层神经元的个数不变,然后按照神经网络的学习方法进行参数更新,下一次迭代中,重新随机删除一些神经元,直至训练结束。基于ReLU的深度卷积网络比基于tanh和sigmoid的网络训练快数倍。ReL
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 住院医师规范化培训《眼科》模考试题含参考答案
- 家长:儿童冬季衣物搭配与保养指南
- 客厅装修拆除与重新设计的艺术
- 城市阳台农业与大棚种植的融合
- 互联网 农业的商业模式创新研究
- 旅游行业市场现状及发展策略研究
- 现代科技在水利工程安全保障中的重要性
- 旅游行业导游岗位面试常见问题参考
- 通信网络桥架系统设计与实施
- 现代企业管理模式创新与人才培养策略
- 雨课堂学堂在线学堂云《机器学习数学基础(国防科技)》单元测试考核答案
- 2025-2026学年苏科版(新教材)小学信息科技四年级下册教学计划及进度表
- 2026年广东省深圳市高三一模英语试题(含答案)
- 第10课 古代的村落、集镇和城市(教学设计)-2025-2026学年统编版高二历史选择性必修2 经济与社会生活
- 2025年吉安职业技术学院单招综合素质考试试题及答案解析
- 2025年安徽财贸职业学院单招职业适应性测试试题及答案解析
- 2026年南京城市职业学院单招综合素质考试题库含答案解析
- 2025年安徽财贸职业学院单招职业技能考试试题及答案解析
- 2026年江西应用技术职业学院高职单招职业适应性测试模拟试题及答案详细解析
- 2025广西南宁市从“五方面人员”中选拔乡镇领导班子成员111人备考题库附答案
- 尺规绘图工具及仪器使用方法机械制图
评论
0/150
提交评论