开题报告基于深度神经网络的图片检索系统设计与实现.docx_第1页
开题报告基于深度神经网络的图片检索系统设计与实现.docx_第2页
开题报告基于深度神经网络的图片检索系统设计与实现.docx_第3页
开题报告基于深度神经网络的图片检索系统设计与实现.docx_第4页
开题报告基于深度神经网络的图片检索系统设计与实现.docx_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学硕士研究生学位论文开题报告学 号: 2013140364姓 名: 学 院: 计算机学院专业(领域): 计算机技术研究方向: 人工智能与智能信息处理导师姓名: 王小捷攻 读 学 位: 工程硕士2014年12月12日北京邮电大学硕士研究生学位论文开题报告论文题目基于深度神经网络的图片检索系统设计与实现选题来源非立项论文类型应用研究开题日期2014-12-01开题地点新科研楼809 一、立题依据(包括研究目的、意义、国内外研究现状和发展趋势,需结合科学研究发展趋势来论述科学意义;或结合国民经济和社会发展中迫切需要解决的关键科技问题来论述其应用前景。附主要参考文献目录)(不少于800字)1、研究背景及意义近些年来,随着移动互联网飞速发展,人们的交互方式也发生了巨大的变化,从传统的“手敲眼看”,发展到现在的“说、拍”,越来越便利,互联网上的图片信息、声音信息等多媒体信息出现爆炸式增长,从海量的多媒体信息中快速提取有价值的知识具有广阔的潜在价值和应用前景。从发展过程来看,图片检索有两大类,一类是基于关键字或描述来搜索图片,可以看作“文找图”,这种方式需要人工标注大量的数据,工作量太大,数据难收集,此外图片本身表达的信息量远远大于文字,“一图胜千言”,表达信息丰富,不同的人对图片的描述不尽相同,具有主观性和不准确性等弊端,因此基于文本的检索越来越不能满足人们的需求。另一种方式是20世纪90年代兴起的,基于内容的图片检索(content-based image retrieval , CBIR),也就是常说的“图找图”方式,更满足当今移动互联网的发展趋势。基于内容的图片检索并不依赖关键字,系统输入为图片,这种方式符合人类最自然的查找方式。实际上,视觉总是侧重于两个焦点,背景和目标主体,而一些次要信息就被忽略了,然而目标主体的出现往往伴随光照、尺度、旋转等变化,所以查找时候需要提取各种特征,而不是直接的图片像素查找,需要基于图片抽象属性(场景语义、行为语义和情感语义)等更深层次的特征进行检索,这些问题已经成为当前研究热点。2、国内外研究现状CBIR系统对互联网公司来说,具有重大的战略意义,是移动互联网新入口,实际上各大公司很早就开始布局,并且已经有很多优秀的系统在国内外得到应用,如谷歌的Google Goggles、Tinyeye、百度识图等。CBIR系统有两大关键部分特征提取和索引建立,分别影响着检索系统的准确度和时间效率,需综合考虑。当前主要研究方法有Bag of Visual Words(BOV)模型和 Hash模型两种。BOV应用很广,各种各样的改进版本层出不穷。Hash模型近些年来也获得了极大发展,主要有Location Sensitive Hash (LSH)、Spectical Hash、神经网络Hash三类。Bag of Visual Words(BOV)模型,它首先对海量图片提取特征描述符,然后通过K-means方法选出基描述符,做成词典,再对每个图片用KNN方法转换成描述符文档,最后利用文本检索积累下来的技术进行搜索,这种方法成熟有效,并且出现各种改进方法,例如嵌入hamming码减少经验误差,增进单个描述符的表现能力。Hash模型因为时空复杂度低,已经发展成为新的热点,它主要有三种方法Location Sensitive Hash (LSH)、Spectical Hash、神经网络Hash,LSH采取的策略是人工设定一些LSH函数组,人工定义hash,优点是简单有效,缺点是鲁棒性差,尽管如此对它的改进和研究是所有三种方法中最多的。Spectical Hash是比较新颖的算法,它对整个过程进行建模,对整个Hash进行建模,给出了问题的形式化定义,并通过解积分方程的方式得到解析解 ,可是仍具有鲁棒性不佳的缺点。神经网络Hash是通过神经网络hash,是通过深度神经网络自学习的方式提取图片的深层语义特征,在学习中将特征 转换成二值化Hash码的方式,这种方式人工参与度少,自学习效果好,并且鲁棒性好,具有很大的潜力和优势。现在深度神经网络已经得到了极大发展,是当前最火的研究热点之一,已经发展出多种类型:深度循环神经网络、卷积神经网络、Deep Autoencode网络等等,并且已经取得极大成就,成果已经拓展到图片任务的各个角落,对图片分类、标注、分割等任务的发展都起到了跨越式的促进作用,究其原因在于它能使用很少的参数很好拟合函数分布,不仅能用于提取图片深层特征,还能提取图片的深层语义表示等等,并具有非常强的可操作性。图片检索的两大核心问题是特征提取、索引建立,深度神经网络非常适合完成这两类任务。二、研究内容和目标(说明课题的具体研究内容,研究目标和效果,以及拟解决的关键科学问题。此部分为重点阐述内容)(不少于2500字)(1)设计并实现一个完整的基于深度神经网络的图片检索系统一个完整的图片检索系统包括图片爬取、存储、建立索引、检索系统等几部分组成,其中最为关键的是索引和检索两部分,并且需要同时设计。一个好的检索系统既需要保证检索的质量,又需要在时间上可用,这对索引算法提出了很高的要求。现在来说基于BOV的方法为主流,但是基于Hash体系的算法拥有线性响应速度,也得到了极大发展。本课题需要对Hash体系方法进行研究,搭建符合要求的图片检索系统。Hash索引设计上,本文拟采用的基于深度神经网络的算法。现在深度神经网络多用于提取图片的深层语义特征即图片的深层语义表示,例如将网络的输出转化为01二进制码串,这实际上是Hash函数的一种形式。深度神经网络的Hash方法除了具有Hash体系固有响应速度线性的响应速度外,还具有鲁棒性强的特点,不会像其他Hash方法仅能用于高度相似图片检索,非常适合图片检索任务。本课题的最终目标是实现一个完整的图片检索网站,这是一个跨领域的任务,除了对Hash索引的设计任务,还需要实现整个系统,能够为用户提供友好的检索服务,既需要保证检索的质量,又需要在时间上可用。可以说,它包括两大方面的任务。一方面,需要设计出符合要求且拓展性强的框架,这需要调研优秀的网络框架才能实现,尤其是调研分布式及存储相关技术,来构建整个检索系统。另一方面,最大的挑战在于将神经网络代码与网络检索服务在工程上结合,以完成基于深度神经网络的图片检索系统,然而现有研究中很少将其用于图片检索任务,但由于主流神经网络工具未实现相关代码,需要修改相关代码以完成本任务,现有主流工具为Caffe,因为Caffe工具有很好的运行速度和拓展性,所以本课题拟对Caffe框架进行学习和修改,来完成检索任务。(2)研究相关算法,深入理解检索任务在基于内容的图像检索系统中,需要在图像集中查找与某个给定图像“相似”的图像,这样的查找过程叫“相似性检索”。通常,是从图像中提取“特征”,然后在图像的“特征”上定义相似性。大多数情况下,特征用多维空间的点(或矢量)来描述,空间的维数可能低至几维,也可能大至数千维。空间中特征矢量之间的接近程度反映了对象内容的相似程度,因此基于内容的检索就简化为空间中点的快速搜索问题。在Hash体系中,它要做的任务就是找到一种Hash方程,完成高维特征到低维度Hash的映射,并且原特征空间中接近的点,在Hash后目的空间中仍然接近,整个Hash体系都延续这种思想发展而来。Hash模型近些年来获得很大发展,主要有Location Sensitive Hash (LSH)、Spectical Hash、神经网络Hash三类这,其中LSH、Spectical Hash两种方案可以说均是Hash体系最具代表性的方方案,在进行深度神经网络计算Hash方法前,需对这两种方法进行实现,有助于对索引建立问题的理解,并为深度神经网络解决方案提供对比拓展思路。LSH的研究是最多的,改进也最多,但是仍然很难突破其极限,模型本身限制很多,对尺度、旋转、视角变化的敏感,仅能用于高度相似搜索,很多应用中,将其与用于提升BOV方案效果,但已经成了一种辅助手段。Spectical Hash近期来仅有一篇论文提到,是比较新颖的算法,它另辟蹊径地对hash过程进行建模,对一个好的Hash方程进行符号化表示,如Hash码中命中1和0的概率率50%、码长度要尽量短、原空间相似的点在目的空间仍然相似等等,得到约束解方程,求解过程中,需对数据分布进行估计,才能接触积分方程,得到最优映射方程,即为最终Hash函数组。本方法的难点在于对于数据分布的估计以及对积分约束方程的求解,不过可以用均匀分布或者正太分布估计样本,大大简化了求解难度。(3)对深度神经网络计算Hash的方法实现并进行优化传统的Hash方法由于鲁邦性不强,得到的Hash向量对尺度、旋转、视角变化的敏感,一般仅用于高度相似图片的检索系统,在一般相似图片检索任务上,表现差,需要更高层次Hash方法,包括深层特征提取和低维二值码表示两方面。深度神经网络能使用很少的参数很好拟合函数分布,在提取图片深层特征语义和数据维度降低上均有很好的表现,这些分别对应图片检索的两大核心问题:特征提取、索引建立。本课题将对深度神经网络进行研究,主要研究检索系统相关的图片语义特征以及特征降维任务,以期能完成鲁棒性更强的图片检索系统。在将深度神经网络应用在检索任务过程中,需要解决三方面的问题:网络选取、算法实现、参数调优。首先网络选取问题,如今,深度神经网络已经出现各种各样的类型,深度循环神经网络、卷积神经网络、Deep Autoencode网络等等,每一种网络能拟合的复杂的函数也不相同,适合完成的任务也有很大差别,这样一来,需要选取适合的网络分别完成图片语义深层特征提取以及特征降维任务,这需要在对这些算法深入研究的前提下,将各种网络进行组合搭配使用。其次,再好的算法也需要工程实现,需要相关工具,Caffe为当前最流行的工具,本课题需要对其修改才能完成检索任务,尤其是Hash过程需要将数据二值化,在Caffe工具中是不具有本功能的,需要自行修改代码以支持该结构。最后,虽然网络大体结构确定了,但是在实际使用上,仍具有很大的自由度,可调参数非常多,这些都极大影响着最终的效果,需要根据图片数据集自身特点,选取并优化各种参数、网络结构,以提高图片检索性能。(3) 综合利用有标、无标数据提升检索效果互联网上能够爬取到的图片大多是无标注图片,即没有文字标注的信息,仅能用于无监督训练,而可用于有监督训练的有标数据为很少,并且人工标注数据成本大,一般任务很难承受其成本。在使用效果上,有标数据可以用来有监督训练,质量很高,而无标数据仅能用于无监督训练,质量不高。这两方面的原因使得综合利用有标图片和无标图片来提高图片检索系统效果变成一件非常有意义的事情。本文拟对综合利用有标图片和无标图片来提高图片检索系统效果的模型、方案进行研究,以期获得很好的检索效果。深度神经网络本身即可以完成有监督任务也可以完成无监督任务,本需要对各种网络进行研究和对比,就现在调研结果来看,利用有监督数据,提取出图片的深层语义特征,然后利用无监督网络进行降维,计算出Hash值,建立索引,两层串联。这种方案与传统的半监督算法不同,他不是针对单一任务的有无监督,而是对整个任务进行切分,选择适合的方案,分别用于图片特征提取和索引建立。最终本课题需要对“综合利用有标、无标数据对系统检索检索效果提升的影响”进行评估,选取出最佳方案实现检索系统。三、研究方案设计及可行性分析(包括:研究方法,技术路线,理论分析、计算、实验方法和步骤及其可行性等)(不少于800字)本课题是基于深度神经网络的图片检索系统设计与实现,因此对于图片检索系统的研究主要采用理论研究、实验与工程实现相结合的方式。理论研究和实验两边同时递进,希望通过理论的研究辅助实验的分析,同时以实验中的结果、现象分析来纠正提高理论分析的一些错误,得到好的图片检索效果,但主要以实验方法为主。实验结果直接用来指导工程实现,利用已经实验结果中的方法完成检索系统的工程实践。本研究将从基于Hash体系的图片检索系统任务定义入手,加深理解,并调研图片检索系统研究的概况。对Hash体系各种处理方法加以对比,选出更适合图片检索任务的方法,并加以改进。本研究的主要研究方法和技术路线有:1)对图片各种类别进行分析,并对短码的形式与意义进行分析。2)对目前存在的各种图片检索系统进行调研,尤其各种Hash类的图片检索系统进行调研,对深度神经网络方法提供对比数据。3)现实中,无标数据多但是质量不高,有监督数据是有限且昂贵的但是质量好,综合利用有标图片和无标图片来提高图片检索系统检索效果具有重要意义。4)根据实验过程得到的算法,实现一个完整的图片检索系统,基本能够保证检索的质量,又能在时间上可用。首先在没有影响的情况下,将爬取到的图片数据使用CNN网络抽取出图片特征,然后使用不同的Hash方法进行实验,尤其是基于深度神经网络的方法,最后通过对比改进,得到最优的结构和参数,并由此搭建图片检索系统。完整的实验的过程为:1)特征提取。利用有标数据,选取相关网络,得到提取任务相关高维特征的神经网络。使用该网络可以对大量无标图片进行特征抽取,得到大量高维特征数据。2)训练Deep Autoencode Hash。利用得到大量高维特征数据,训练中间层为ThresholdLayer(输出二值化)的Deep Autoencode神经网络,使中间层为特征的深层短码表示。学习到的网络即为Hash算法。3)实现对比Hash方法。主要实现Location Sensitive Hash (LSH)、Spectical Hash。4)结果抽取。A.利用1)中学习网络将测试图片集抽取出高维特征。B.分别利用2)3)中Hash方法,将高位特征转换Hash短码。C.将图片集中类标和Hash形成二元组。不同的Hash算法可以得到不同的结果集。5)效果评价。对4)中提取到结果集分别计算Map值,三种方法进行对比分析,得到结论并改进。四、本研究课题可能的创新之处(不少于500字)目前,国内图片检索体统多为基于文本的图片检索系统,而基于内容的图片检索系统研究较少,尤其基于Hash体系的方法的研究仍不是很成熟,存在很多问题。传统的Hash方法由于鲁邦性不强,得到的Hash向量对尺度、旋转、视角变化的敏感,一般仅用于高度相似图片的检索系统,如果应用于一般相似图片检索问题,需要更高层次Hash方法。并且在国内,还没有发现有使用深度神经网络进行图片检索Hash索引构建过程的研究,经过调研发现深度神经网络能提取图片深层语义特征Hash表示,非常适合该检索任务,本课题将对深度神经网络进行研究,主要研究检索系统相关的图片语义特征以及特征降低维度任务的解决方法,以期能完成鲁棒性更强的图片检索系统。近些年,深度神经网络发展迅速,已经出现各种各样的类型,深度循环神经网络、卷积神经网络、Deep Autoencode网络等等,本课题需研究已有深度神经网络研究研究方式,根据每种类型的特性选取适合的结构。实际上,网络结构确定之后,仍具有很大的自由度,可调参数非常多,这些都影响着最终的效果,需要大量实验,来选取并优化各种参数、网络结构,以达到最好的图片检索效果。互联网上能够爬取到的图片大多是无标注图片,仅能用于无监督训练。而可用于有监督训练的有标数据为很少,但质量非常好,这使得综合利用有标图片和无标图片来提高图片检索系统检索效果变成一件非常有意义的事情,既有有监督效果好的优势,又能利用大量无标数据。本课题尝试综合使用无标图片、有标图片完成图片检索系统,选取相关神经网络,提高检索性能。五、研究基础与工作条件(1.与本项目相关的研究工作积累基础 2.包括已具备的实验条件,尚缺少的实验条件和拟解决途径)(不少于500字)研究工作积累基础:国内对于基于内容的图片检索系统的研究已经形成体系,基于Hash的系统,已经有了一些经典的算法LSH,优秀的数据集,在这些研究的基础上,任务清晰明确,有较好的基础。近年来,国内外对于深度的研究进行的如火如荼,越来越多的人投入到这一领域,研究成果层出不穷,提供了许多高质量的论文和实验源代码以及介绍教程,本人也在这方面进行了大量的阅读实践。同时本实验室近年来也在深度神经网络方面不断跟进,在师兄师姐的研究基础上,目前已经形成了较为完备的研究实验体系。工程上,各种先进网络架构不断出现,拓展性、容错性不断增强,各种开源企业级产品均可开源使用,替代方案非常多,尤其是分布式框架Thrift以及NoSql数据库的出现,极大增加网络架构的易用性、可操作性、可易复现性,另外,本人已经对很多框架和产品进行了初步研究,为基于内容的图片检索系统的实现进行了充分调研。已具备的实验条件:本科题是一个工程性非常强的课题,需要大量的编程来实现相关系统,幸运的是已经存在很多开源产品,对这一任务提供架构支持,深度神经网络方面,已经有了Caffe工具可以用来对网络进行训练。数据上本实验室已经有了一定的数据积累可以用来检索系统研究。在网络训练上,亦有师兄师姐的研究可以借鉴。在检索系统的实现上,亦找到了一些可靠的解决方案,可以用来实现该系统。尚缺少的实验条件和拟解决途径:对于本课题的研

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论