基于深度学习的视觉特征在图像检索中的应用-1

上传人：伐*** IP属地：宁夏上传时间：2020-07-09 格式：DOC 页数：12 大小：766.50KB 积分：12 举报 版权申诉

已阅读5页，还剩7页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、武汉大学2017年大学生创新创业训练项目申报书填表时间： 2016年 10 月 9 日项目名称基于深度学习的无人机感兴趣图像目标检索系统项目创新特色概述无人机目标图像检索系统使用深度学习的方式，对无人机获得的图像中的诸如中特定目标进行检索，从而找出图像中的目标物体，方便人们对目标物体进行搜索，具有较高的应用价值。本项目将以人为例，使系统能够根据用户需求输出带有特定人物的图像。项目所属一级学科工学申请经费1000元起止时间2016年9月至2017年9月申请人或申请团队信息姓名学号院（系）、专业联系电话e-mail李涛2014301110079电子信息学院159274748731603522

2、850夏文轩2014301200268电子信息学孙翀2014301200222电子信息学刘宇森2015302580254国际软件学院15801186727695386228李昂2015301500121计算机学院15927005612451141583注：项目负责学生的信息填写在本栏目的第一行，成员共计不超过5人。导师信息姓名院（系）职称联系电话e-mail杨文电子信息学院教一、

3、申请理由1.小组成员简介：1）李涛电子信息学院2014级电子信息科学类专业，已完成部分相关课程学习，爱好编程，大学期间已经学过c，c+等编程语言，有一定的动手实践能力。2014学年获武汉大学暑期实践团体二等奖和“芙蓉学子”称号。大二期间组建idobe工作室，进行大学生创业创新实践训练，并在武汉大学大学生创业实践活动中心注册申请到办公室。有一定的自主创新意识，具有较强的团队协作能力，对无人机图像处理项目有浓厚兴趣。2) 夏文轩电子信息学院2014级电子信息科学类专业，专业课成绩良好，有较为扎实的专业基础，被选入电子信息学院卓工班，在大一学年度获得丙等奖学金。在图像处理，数字信号等方面有着浓厚的兴

4、趣，学习并掌握了c, c+, java, verilog等程序语言。喜爱科学研究，并通过大二上学期模拟电路课程项目设计初步积累科研经验。对待学习，社团，科研态度认真，希望通过此次机会提升自己的实践能力和专业素养，增强自己的责任心。3)孙翀电子信息学2014级电波与天线传播专业，学习成绩优良，专业知识扎实，熟练掌握c,c+，在大一学年获得丙等奖学金。勤于思考，乐于钻研，富有探索精神并有较强的动手能力。视野开阔，具有良好的创新意识。既能独立思考又擅长与团队协作，希望能在项目中贡献力量，提升自己并将所得知识转化为实际成果。4)刘宇森国际软件学院2015级软件工程专业，基础知识扎实，学习成绩良好，乐于

5、学习，勤于钻研，学习刻苦认真。基本掌握c+编程能力，但还需多加练习。在创新的道路上，有属于自己的风格，不拘泥于已存在的，而是求索未知的一切。希望在项目完成的过程中，能贡献出自己的微薄力量，并逐渐完善自己，走向通往更高的道路。5)李昂计算机学院2015级弘毅班，学习成绩优良，理论知识掌握扎实，熟练掌握c。勤于思考，钻研与人工智能有关的问题，专业与人工智能有密切关系，希望通过做深度学习相关的科研项目提高自己的团队合作能力与专业知识。2.指导老师简介杨文，1976年生，现为武汉大学电子信息学院教授，博士生导师。ieee信号处理学会，地球科学与遥感学会会员。2004年博士毕业于武汉大学电子信息学院通信

6、与信息系统专业，2008年至2009年法国应用数学与计算机科学实验室（laboratoire jean kuntzmann，cnrs-inria/ljk），任访问学者/博士后，研究遥感图像语义标注。近年来主持和作为核心研究人员参与了十余项国家级科研项目的研究，包括国家自然科学基金项目、863计划课题、973计划课题等。基于上诉研究，在ieee tip、ieee tgrs、ieee jstaes、ieee grsl等权威期刊和国际会议上发表论文70余篇。登记软件著作权4项，获批国家发明专利3项，2012年获湖北省科学技术奖自然科学三等奖。在2012年ieee grss（地球物理与遥感协会）dft

7、c（数据融合技术委员会）数据融合竞赛中获得第5名。教学方面近年来4次获得湖北省优秀学生论文指导老师奖。目前的研究方向为图像处理与计算机视觉，机器学习及其在遥感信息处理中的应用。杨老师在学生中以博学多闻，助人为乐被学生们喜爱，对学生请教的问题，杨老师总是给予及时详细的解答。在本项目研究中，杨老师也给予大力支持与指导，杨老师团队的其他老师和研究生也对本项目遇到的问题给予支持和帮助。二、立项背景1、研究现状视觉是人类获取客观世界中大量信息的主要手段，图像是视觉信息的表现形式之一，而随着互联网产业和数字化技术的飞速发展，图像检索已经慢慢成为人们日常生活、工作、学习不可或缺的一部分，人们单一的静态的文

8、本发展为多元的，具有多种功能的图片、语音及视频上来，同时，图像也提供了连接人和服务的平台模式，为整个数字化生活的发展起到了巨大的推动作用。在这个基础上，高效、便捷、准确的目标检索的迅速发展则解放了大量的管理者热人力，同时满足了各种用户的各种需求。从20世纪70年代起，对图像检索的研究就已经开始，最初的主要研究方向是基于文本的图像检索技术（text-based image retrieval,tbir）。该过程需要人为对多媒体信息进行理解，并利用文本描述的方式对图像进行文字标注，然后通过文本信息的检索技术来实现对图像信息的检索。这种文本信息的检索技术的最大优点是如果图像信息描述的完整适当，会产

9、生较好的检索结果。然而，基于文本的图像检索必然存在一定的局限性。首先，由于如今图像的数量呈几何数的海量增长，要对每一张图片都进行人工的详细标注是不可能完成的任务，其次，由于人们对图像内容的理解和表达存在很强的主观性和个体差异性，使得图像的标注内容在一定程度上会对检索结果产生影响。基于此，研究者们开始进行基于图像的图像检索技术的研究。基于内容的图像检索技术（content-based image retrival,cbir）是利用图像本身的视觉信息来实现检索的。其主要思路则是用户提供检索的图像样例，通过系统对图像样例自动分析，然后从图像库中选取相似的图像回馈给用户。其系统架构大致为，系统通过对图

10、像的图像提取视觉特征，完成图像库到特征库的映射，并建立图像与所对应特征之间的索引关系。用户向系统提交查询图像，系统则对查询图像提取特征，然后与特征库所有的特征做相似性匹配，并返回对应的相似图像给用户。2、研究趋势在以图像检索为最终目标上，机器学习领域的“深度学习”则作为非常重要的突破技术，在图像分类和识别上起到重要作用。传统的机器学习方法通常使用“浅”结构，相比之下，深度学习模仿人脑组织，构建了一个很深的架构，信息在这个深层架构里进行多层次的传递和转换。深度学习通过探索深层架构对数据自动进行多个级别的抽象功能，是系统去学习一个复杂的过程或函数，将原始输入数据也映射为输出数据。现在在机器学习领域

11、，已经取得一定的研究成果，如使用多任务dnn模型来血虚高层图像表示方法、使用dae模型对图像二进制进行编码等。但是，基于深度学习的图像检索技术还有大量的研究工作有待进行。3、研究意义随着无人机研究的兴起，无人机在人们的经济日常生活应用中的功能不断被挖掘和开发，无人机应用的普及，可以大大的节省人力资源，提高工作效率和保证某些特定工作的安全，我们正是了解到无人机在环境检测，对车辆检测，对于人体目标确定等方面的优势，所以决定将基于深度学习的图像检索技术搭载到无人机的平台上面，实现基于深度学习的无人机感兴趣目标检索的系统应用。4、参考文献1 ji wan, dayong wang, steven c.

12、h. hoi, pengcheng wu, jianke zhu, yongdong zhang, jintao li, deep learning for content-based image retrieval: a comprehensive study acm international conference on multimedia, 2014:157-1662 a. w. m. smeulders, m. worring, s. santini, a. gupta, and r. jain. content-based image retrieval at the end of

13、 the early years. ieee trans. pattern anal. mach. intell. 22(12):13491380, 2000.3 郑启财基于深度学习的图像检索技术研究福建师范大学硕士学位论文，20154 xin-yu ou , he-fei ling , ling-yu yan, convolutional neural codes for image retrieval, signal & information processing association summit & conference 20145 r xia，y pan，h lai，c li

14、u，s yan, supervised hashing for image retrieval via image representation learning, aaai, 2014. 2, 6, 7, 86 a krizhevsky，ge hinton, using very deep autoencoders for content-based image retrieval, european symposium on esann, 20117 于淼, 朱琼, 王国宇. 基于特征点匹配和哈希法的图像检索方法j. 网络新媒体技术, 2006, 27(04):397-400.8 王涛,

15、胡事民, 孙家广. 基于颜色-空间特征的图像检索j. 软件学报, 2002, 13(10):2031-2036.9 李向阳, 庄越挺, 潘云鹤. 基于内容的图像检索技术与系统j. 计算机研究与发展, 2001, 38(03):344-354.三、项目方案1.综述：本项目的目标是构建一个基于深度学习的无人机图像检索系统，给定一个特定的目标的照片和一个可能含有该目标的图像库，通过深度学习的方法，检测出图像库中是否具有该目标以及该目标存在于图像库中的哪些照片上。具体实现将以通过无人机采集到的图像中的人为例，验证我们的检索思路及算法，然后会尝试对算法进行优化，并可能将检索的目标类型扩充至其它物体（比如

16、汽车，建筑等）上。常规的基于内容的图像目标检索方法是通过无人机等设备获得我们想要检索的人或物的照片（以下称为“目标图像”）以及可能拥有该人物或事物的一组其它照片（以下称为“参考图像库”），然后提取参考图像库中每一张图片的特征并存入特征库中，建立图像与对应特征的索引：做检索时，先提取目标图像的特征，然后与特征库中的特征做相似性匹配，将特征按相似性从高到低排序；最后从图像库索引中找出对应的图片给用户。在这个过程中，最重要的步骤是特征提取和特征匹配过程。对于本项目，我们使用基于深度学习的图像目标检索算法。当深度学习算法应用于实例搜索任务时，主要就是从特征入手，提取更加具有判别性的特征。我们首先进行基

17、于深度卷积神经网络的图像检索。首先要获取图像，建立参考图像库和目标图像库；其次要对两边的图像分别进行预处理，使之精度在像素级上达到进行后续处理的标准；然后需要建立深度学习的训练模型，这一步是整个项目过程的重点。我们本次使用的方法是基于卷积神经网络的图像检索法，用于基于内容的检索上。我们需要建立一个神经网络模型，使用另一个图像库对模型进行训练，之后再将目标图像和参考图像库用训练好的模型进行匹配与识别，最终在参考图像库里找出可能含有目标图像中的人物的图像。2.具体流程本项目的基本流程如下：下面分分步介绍各个步骤的具体内容。（1）获取图像，建立图像库与图像预处理首先用无人机拍摄得到目标图像和参考图像

18、库。由于参考图像是一个搜索范围，所以会有很多张甚至成百上千张，所以建立一个图像库来存储参考图像。图像预处理首先是进行图像增强和图像去噪，消除拍摄过程中产生的干扰。此外，由于不同的目标具有不同的特点，姿态，形状，尺寸等差异很大，即使是同为人物，仍有高矮，胖瘦，和不同姿势之分，或者存在其他的不同之处。因此需要采用采用一定的语义对齐方式使模型对这些变化鲁棒。常见的方式主要有商品检测框对齐，旋转对齐，局部关键点对齐等。经过预处理，图像的品质明显增强，同时对外界条件的变化产生了一定的鲁棒性，为下一步的处理奠定了基础，如图1所示图1（2）构建基于卷积神经网络的深度学习模型目前进行图像识别，图像检索中的一个

19、关键的挑战是著名的“语义鸿沟”，是机器捕获的低级别的图像像素和人类感知的高层次的语义之间差别。深度学习作为一个可能的方向，是弥补图像检索中的语义鸿沟的希望。其主要任务是仿照人类的大脑中的神经系统构建一个是深度学习的网络模型，是整个项目的最重要的一步。深度学习即深度神经网络学习，属于机器学习的一种（见图2），与浅度学习相对。其本质思想是堆叠多个神经元层，包含输入层，隐藏层和输出层，其中隐藏层数量较多（较少的话就被称作浅度学习），每个层都提取一定的特征和信息，上一层的输出作为下一层的输入，依次向前传输。它能够学习复杂函数，表示高阶抽象概念，解决目标识别，语言理解和语音感知等人工智能的相关任务。在图

20、像检索中，深度学习主要是从原始图像自动学习到图像的低层次特征并进行抽象与组合，最终获得高级特征。利用所得特征，我们可进一步对目标图像做识别等相关操作。具体做法是在深度神经网络之后连接一个分类器将获得的神经网络的输出激活值作为分类器的输入，由分类器进行数据分类（分类器也要经过一个训练过程）。在图像检索中，先对图像库的图像进行分类，检索时，通过获取图像的类别，然后再到图像库中提取相应类别的图像。深度神经网络学习主要有以下几种常用网络：人工神经网络，自编码神经网络，以及卷积神经学习网络（见图3）。本项目使用的深度学习网络模型是基于卷积神经网络的模型，它主要分为两部分：1）卷积层和最大池层，2）完全连

21、接层和输出层。第一层为输入层，采用均值为中心原rgb像素强度值。输入图像由原来的256*256的图像生成的平移和水平反射所提取随机的224*224个补丁和原图像叠加而成。在输入层有五个卷积层。第一和第二卷积层在响应归一化层和最大池层之后，而第三、第四、和第五的卷积层连接到一个没有任何干预的地方。卷积层之后还有两个全连接层，称为“fc1”和“fc2”。最后的输出层在“fc2”层。在构建卷积神经网络模型的时候，我们要首先建立一个海量的图像库。在图像库里面有各种各样的图片，我们需要利用图像库里的图像对网络模型进行训练，收集大量的深度学习数据。具体的训练方法是：1）首先逐层构建单层神经元，这样每次都是

22、训练一个单层网络。2）当所有层训练完后，hinton使用wake-sleep算法进行调优。这样一方面解决了同时训练所有层造成的时间复杂度太高的问题，另一方面避免了每次训练一层造成的偏差传递问题。将除最顶层的其它层间的权重变为双向的，这样向上的权重用于“认知”，向下的权重用于“生成”。其中认知是指通过外界的特征和向上的权重（认知权重）产生每一层的抽象表示，并且使用梯度下降修改层间的下行权重（生成权重）；而生成是指通过顶层表示（认知过程中学得的概念）和向下权重，生成底层的状态，同时修改层间向上的权重。具体在训练时，首先在图像库中提取大量的图像块，其次构建一个包含输入层，隐藏层和输出层的神经网络。然

23、后从网络中得到特征卷积核。再后将卷积核和样本图像做卷积运算，得到卷积特征图，最后通过降采样运算，即对特征图中邻域求和，并加上一个偏置项，得到降采样特征图。图2图3（3）特征提取与比对在这一步中，我们需要利用训练好的模型到一个新的领域中。具体来说就是将含有目标人物图像和参考图像库中的图像都利用神经网络模型进行特征提取和比对，然后得出可能含有目标人物的图像。我们直接应用特征表示一个受过训练的神经网络模型并把最后三个全连接层的激活（fc1、fc2，和fc3）作为检索任务的特征表示。为了获得特征表示，我们直接输入新的数据集的图像到预先训练的美国有线电视新闻网模型的输入层，然后从最后的三层的获得激活值。

24、由于我们只需要计算一次矩阵乘法的基础上的前馈网络，整个方案将是非常有效的。为了减少参数，我们常用的方法之一便是局部感知。一般认为人对外界的认知是从局部到全局的，而图像的空间联系也是局部的像素联系较为紧密，而距离较远的像素相关性则较弱。因而，每个神经元其实没有必要对全局图像进行感知，只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息。另一种方式则是权值共享。权值共享就是制定一个掩膜（大小3*3，4*4），然后将掩膜放在图像上一一做卷积然后沿着图像一点一点移动。掩膜上是每一个点的权值。卷积神经网络中，每一层都可能包含着多个二维特征图，每一个特征图都由多个神经元组成，卷积层的神

25、经元在与上一层的感受野相连时，提取了该局部的特征，包括边缘特征，方向特征等，同时该局部特征与其他特征的关系也随之确定下来。只有当上一层的特定位置上的数据符合特定的结构时，这一层中检测该种特征的滤波器才能得到激活，并把激活信息记录在相应位置上。在同一个卷积层中，不同的特征图代表它提取了不同的特征。图4降采样层s则是通过对卷积特征图做局部平均计算来进行特征的二次提取，这个过程既能降低特征维数，又可使得网络在识别时对发生平移、旋转的输入样本有较强的鲁棒性。卷积特征图和降采样特征图如图4所示。至此，输入图像数据通过不同层次的卷积和降采样操作，提取了不同阶层的特征。最后的特征匹配环节，我们采用无加权的欧

26、式距离作为相似性度量标准，完成两幅图像的相似度的计算。（4）目标检索完成相似度计算后，我们要将带有目标人物或者车辆的图片输入到系统中（在参考图像库已经建成的前提下），然后等待可能含有目标人物或者车辆的图片从系统中输出。为了评价系统质量的优劣，我们有以下的指标：查准率和查全率。查准率就是指系统输出的含有目标人物或车辆的图像数目占系统输出的图像总数的比重，而查全率就是指系统输出的含有目标人物或车辆的图像数目占系统含有目标人物或车辆的图像数目的比重。当查准率和查全率都较高的时候，我们认为该系统的性能较好。（5）模型的改进与优化如需改进系统，还有两种主要方式：采用相似性度量法或者通过重复训练法。采用相

27、似性度量法可以更好地获得新的任务中的训练数据，从而提取图像中的特征；而重复训练法会充分利用不同检索任务中的数据来初始化卷积网络模型中的参数。第一种方式是使用分类标签进行重复训练，而另一种则是收集边带信息进行训练。3.重点难点（1）光照，视角，距离等方面的变化对于同一个人，如果我们采取不同的视角，那么图片中会有不同的形状，而距离不同时，图像中会有不同的大小；光照强度不同时，亮度也会有所不同。此外，同一个人有可能会处于不同的环境中，穿不同的衣服，做着不同的动作，导致“所见非所得”这些因素给项目的实施带来了比较多的问题。减小乃至消除外界因素的影响，成为提高系统性能的一大关键因素。（2）局部最优问题深度学习算法的目标函数，几乎全都是非凸的。而目前寻找最优解的方法，都是基于梯度下降的。稍微有点背景知识的人都知道，梯度下降方法是解决不了非凸问题的。有时候寻找到的并不是最值点而只是一个极值点。因此，如果找到最优解，将是深度学习领域，非常值得研究的课题。（3）计算复杂。计算复杂体现在两个方面，一是训练过程，二是检测过程。而这两个过程的计算复杂，根本原因都是庞大的参数规模造成的。如果能够找到一个好的方法，能够有效的降低计算复杂度，将是很有意义的。（4

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于深度学习的视觉特征在图像检索中的应用-1

文档简介

温馨提示

最新文档

评论

基于深度学习的视觉特征在图像检索中的应用-1

文档简介

温馨提示

最新文档

评论

相关文档