【PASCALVOC数据集上的多标签图像识别算法改进12000字论文】

上传人：1*** IP属地：河北上传时间：2026-04-03 格式：DOCX 页数：29 大小：328.32KB 积分：7.19 举报 版权申诉

已阅读5页，还剩24页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

PASCALVOC数据集上的多标签图像识别算法改进医学影像分析等诸多领域。研究基于图卷积的多标签图像识别能够促进图像分类技术的发方法的优劣。本文在MSCOCO2014以及PASCALVOC2007数据集上开展各项算法实验。实关键词：图卷积神经网络；多标签图像识别；标签依赖性 21.1课题研究背景及意义 21.2国内外研究现状 41.3课题研究内容 5 62多标签图像识别相关研究工作 62.1传统识别方法 62.2图卷积网络简介 72.3本章小结 83融合区域语义关联的多标签图像识别方法 8 93.2图像特征学习 93.3相关系数矩阵 3.5本章小结 4实验过程及结果分析 4.1实验数据集介绍 4.2评价指标 1绪论图像分类是一项传统的研究课题，通过计算机将大量的图片进行分类和识识别任务的目标和检测数量不同，分类任务可以分成单标签图像识别和多标签图像识别。而单标签图像识别是图像分类的传统课题，已有多年的研究，从这些方法中看出技术已经趋于成熟，并在识别展。单标签图像识别是指为每张图片分配一个正确及合适的类别标签。在此基础上，因为物体所含类别的数量不同，又可以细分成两多类别分类。例如下图1,下图明显含有飞机，则可以将标签记为飞机。通过但现实生活中一幅图片中往往包含多个类别的物体，别相比于单标签图像识别是一个更为普遍和实际的问题，它不仅能分辨图片中是否同时包含我们所要检测的内容，也打破多标签图像识别是在单标签图像识别基础上的推广，其要求是为图像分配多个正确及合适的标签来充分表达图像中蕴含的一些视觉信息。这在某种意义上表明了由于其丰富及强大的表示能力，其在图像检索、人脸识别、场景识别等计算机视觉领域具有更加重要的地位和更加广泛的应用(孙雨菲，郑彦霖，2022)。这在某种程度上映射了多标签图像识别的主要任务是通过对图像中所包含多个目标分配正确及合适的类别标签来对图像进行分类。从整体上讲，图像多标签分类涉及到图像上的多个标签，在此类情况下因此有必要更好地理解图像信息与图像中目标对象的类别标签，这就表示着海量图像的分类概率很有多标签图像识别的任务相比于单标签图像识别更加重要，原因在于我们生活中遇到的且需要进行分类的大多数图像都包含许多不同类型的对象，单一的标签无法完整的表达出一篇图像中所包含的语义信息，在这样的环境中它们需要由多个不同的数据标签信息构成(杨昊羽，许心怡，2020);另一方面，在多标签图像数据集里面，每个对象之间也存在着一定程度相互关联与相互影响的内在关系，多标签数据带来了分类精度提升的巨大阻碍{21。本项目专注于跨越传统学科界限的合作，引入了多样化的理论体系和技术工具，旨在拓宽研究视野并加深理解。借助于跨学科的研究模式，不仅可以更细致地探讨研究主体的多重Single-labelclassification维度，还有机会发现以往未曾注意的现象和规律。研究还特别重视理论与实践的相互作用，试图通过实践来检验理论价值。为了确保研究结果的准确性和权威性，本文综合运用了量化调查和定性访谈等方法进行数据分析，为政策设计及实施提供了坚实的理论依据。例如下图2,单标签图像识别往往只能识别其中包含的单个标签，只能识别图像中是否包含该标签。而多标签图像识别往往能识别出不同目标并分配正确及合适的标签(高时飞，何丽娜，2023)。图2:单标签图像识别对比多标签图像识别在本文的研究语境里这种情况被赋予了重要意义多标签图像识别目前主要存在以下问题：一是图像中需要识别的目标可能被遮挡导致识别不全或者背景过于复杂导致识别效果较差，另外还有目标可能过小导致现有技术无法识别等问题。二是由于多标签图像识别中一幅图像往往具有多个标签，导致要分类的可能性随类别呈指数性增长，这在一定程度上映射输出空间随着标签数指数性增长等问题(宋嘉俊，陈晓玲，2021)。为了提升研究结果的可环节采取了一系列严谨的措施来应对潜在偏差。研究设计上，本文建立了一套详尽的研究方案，确保问题设定的准确性和假设的科学依据。数据获取阶段，本文采用了多元化的数据来源策略，确保信息的完整性和互证性，同时采用标准化程序减少人为错误。数据分析时，本文综合使用了定量分析和定性分析方法，全面审视数据，并利用现代统计工具进行计算，减少技术误差。另外，本文还做了敏感性测试，以确认研究结果在不同条件下的稳健性。目前多标签图像识别的解决方案与单标签的同类解决方案相比，分类性能明显不足。在多标签域中，通常不事先知道新示例所属的类数。从这些态度可以明白它受到原始数据集中先前观察到的可能类别的数量限制，虽然缺少此信息可能不会在类别少的域中构成主要问题，但是在较大的域中，缺少此信息会使分类变得非常复杂(许志时，吴雪萍，2021)³。而且在语义空间中绝大部分的标签往往是相互关联，这在某种程度上标志在实际的多标签分类场景里面，假如能够挖掘出标签彼此之间的相关性关系，则能够促进分类的过程，这将大大提高分类的效率，尤其在某些极端的场景下，这无疑地传达出例如面对指数级别的候选标签情形下，训练数据集里面的某一样本的标签信息与其他样本的标签信息之间的潜在关联，会在很大程度上左右着多标签分类的预测成绩(张奇博、1.2国内外研究现状目前在图像分类上，从这些方法中看出基于机器学习的算法主要有两个方向：一是问题迁移，该方向的主要解决思路是将复杂的多标签图像识别转化为单一的单标签图像识别，如训练多个分类器、将标签转化为向量等；这在某种程度上体现了二是根据多标签图像识别的特点，提出新的算法和模型，包括ML-KNN、羽翔，2020)vian等5首先使用大规模单标签数据集ImageNet⁶预训练网络模型，在训练完成后将该网络模型的参数迁移到多标签网络模型中，然后使用网络模型输出的图像特征标签训练每个标签的支持向量机分类器，该解决方法在识别效果上有一定的提升，但结果是不够精确(成泽凡，付玉倩，张启航，2022)。Wei等[7提出了另一种解决方法，即HCP网络模型。这部分内容的创新核心在于视角的转变，具体体现在对研究主题的全新洞察。过去的研究侧重于主题的基本属性和广泛联系，而本文则致力于揭示那些不为人知的细节及其潜在的关系网。在研究例如，“飞机”和“天空”、“机场”和“飞机”会经常出现在同一幅图像中。特征并分配正确及合适的标签，并利用循环神经网络[10对标签依赖性进行了建础上设计了空间定位层，利用该空间定位层提取图像局部区域特征之后使用重要意义最后整合所有局部区域的标签，在此基础上得到一幅图像的预测标签升，但是，RNN网络模型有个缺点，即在训练时普遍存在收敛速度较慢，使得发平台和编程软件及Pytorch深度学习框架，自主开发设计实现基于图卷积的多标签图像识别。整体思路为首先通过卷积神经网络进行图像特征的提取，从这些态度可以明白再通过设计的图卷积网络将词嵌入向量映射到一组互相依赖的分类器上，最后通过将分类器直接应用于提取出的图像特征得到分类结果。1.4本文章节安排第一章为绪论，主要介绍多标签图像识别的研究背景和研究意义，阐述国内外的多标签图像识别算法研究现状并讨论其优劣，这在某种程度上标志最后阐述本文研究共工作。第二章为相关工作，讨论几种传统的多标签图像识别算法，并介绍本文算法使用的图卷积神经网络。第三章为多标签图像识别算法，介绍本文采用的多标签图像识别算法框架，并详细阐述了算法步骤。第四章为对各实验结果进行分析与评价，这无疑地传达出并分析算法的优点第五章为总结，对本文中的主要内容包括模型算法、实验结果等进行最后总2多标签图像识别相关研究工作2.1传统识别方法传统的多标签图像识别方法中，由于输出空间呈指数性增长，导致训练过程较慢。例如为表明单个标签是否被包含，输出空间就有2,即包含或不包含。而20个标签输出空间就有2^20。所以我们为提升模型性能，从这些方法中看出加快训练过程，就需要研究标签之间的关联性(曹羽和，张媛媛，2019)。通过标签之间的关联性，多标签图像识别方法可以被大致归纳为三种类型，具体类型分为一阶策略，这在某种程度上体现了二阶策略和高阶策略。一阶策略：即不考虑标签之间的关联性，只考虑单个标签是否存在(邓泽天，曹若萱，2019)。一个典型方法就是把复杂多标签图像识别的问题分解成多个单一的单标签图像识别问题。这种类型的多标签图像识别算法因为只单独检测每个标签，这在某种意义上表明了实现起来简单且所用资源较少，但该类模型的泛化能力不足，对训练集效果可能不错，但对于测试集效果较差，原因在于这类算法因为没有去研究待训练图像样本里面的标签之间的关联性。这种策略的代表性方法首要步骤是在理论层面确认了研究假定的合理性及其逻辑连贯性。通过详尽地整理并分析相关文献资料，文章证明了研究架构的科学价值与实用性。接下来，文下无论是训练过程还是测试过程都展现出了较为优秀的性能(吴晓雪，成荣赋予了重要意义这种策略的基本原则是假设所有标签之间都存在着一定的关联2.2图卷积网络简介图2:图卷积神经网络模型从这些态度可以明白标准卷积方法是在一张图像局部欧氏结构之上进行操作的，而GCN的目标是学习一个图G的函数f(.)。该函数输入为特征描述H¹∈nxdH¹+1=f(H¹,A)3融合区域语义关联的多标签图像识别方法fcnnDhC图3:模型总体框架GCN原本是被设计来进行半监督分类，每个GCN节点的输出结果是其预由于多标签图像识别任务需要相关系数矩阵来进行节点1)输入图片，通过卷积神经网络提取输入图片的特征映射，然后应用全局2)将所有标签由词嵌入向量表示，使用这些标签建立有向图，并训练本文3)将分类器直接应用于学习到的图像特征得到预测分数。传统图像特征提取基本使用的是方向梯度直方图(HOG)、局部二值模式(LBP)和高斯函数差分(DOG)等手动设计的特征。这些手动设计的特征都有其各自的优缺点，例如LBP算法，其优点是所占空间少且效率高，缺点是在图片有噪声和其他影响因素的情况下，在此类情况下特征提取率会降低，并且由于其只考虑图片中心与邻域的像素特征，可能会导致部分特征信息不能被有效提取(叶泽欣，蒋泽淇，2022)。而目前卷积神经网络发展的如火如荼，已成为深度学习卷积神经网络通过卷积层和池化层提取图像特征，经过反向传播最终确定卷积核参数，得到最终的特征。卷积层中，在这样的环境中卷积核在图像上不断滑动运算。同时，在内积结果上取每一局部块的最大值就是最大池化层的操作。本文在实验中使用ResNet101作为实验基础模型，输入大小为448*448的图像，输出大小为2048*14*14的特征映射，然后应用全局最大池化获取图像层面的特征x:其中，θcnn表示网络参数，D为纬度2048。即通过卷积网络，本文将图像的3.3相关系数矩阵在GCN当中，为使节点之间能够进行信息更新和传递，往往需要构建节点间的相关系数矩阵。大部分情况下，在本文的研究语境里这种情况被赋予了重要意义相关系数矩阵都是预先定义好的，在本文中，将以数据驱动的方式构建一个相关系数矩阵，这在一定程度上映射相关性可以通过挖掘标签在数据集中的共现模式而来定义。通过该相关系数矩阵来明确地建模分类器学习的标签依赖关系如下图所示，从这些态度可以明白两个标签之间的相关性可能相对不同，当Lairport出现时，Lplane出现的概率为0.9,即P(LairportlLplane)=0.9;当Lplane出现构建相关系数矩阵，首先需要统计训练集中标签对的出现次数，得到矩阵M∈Mi/N;(5)图4:标签依赖性合先前学者的工作基础上提升了研究的深刻度。通过式来进行噪声的过滤。这在某种意义上表明了当大于阈值t的时候，我们就将该点值置为1,反之为0。具体公式如下，其中A是二值相关系数矩阵(徐晓倩，林在本文的研究语境里这种情况被赋予了重要意义主要思路为通过GCN从标签关联性中学习并输出目标分类器W={wi}{=1。因为输入到分类器的词嵌入向量在所有类之间共享，同样模拟了标签相关性。本文使用两层GCN,第一层的输入是词嵌入向量Z∈R,输出节点特征H',并将其作为输入H+1输入到第二层GCN,这在一定程度上映射然后输出分类器W∈E。最后通过将所学到的即将最后一层输出分类器W∈R直接与图像特征x进行点乘得到预测分进行图像特征提取，然后阐述了GCN的节点更新方法及训练方法，详细说明了基于此，本文将在此模型上进行多标签图像识别的相关实验(郭羽翔，杨雨4实验过程及结果分析标和实验细节。然后，本文在MSCOCO2014和PASC4.1实验数据集介绍怡，2021)。MSCOCO2014:MSCOCO2014数据集是一个国际权威数据集，从这些方法中看出由微软公司开发维护。MSCOCO数据集2014版本包含有样本总数82783张，其中训练集包含40504张图片，测试集包含40775张图片(邵嘉润，陈婉程度上体现了其主要用于目标分割、图像识别等任务。特点是每张图多目标。PASCALVOC2007:PASCALV包含样本总数9963张，这在某种意义上表明了其中训练集包含5011张图片，测试集包含4962张图片。所有图片被分为20个类，大部分类是生活中常见的目标数据集在图片数量上超过PASCALVOC2007十倍，在每张图片所拥有的平均标4.2评价指标F1(CF1),theaverageoverallprecision(OP),r另一种就是把负类预测为正类(FP),它表示的是预测为正的样本中有多少是真正见的F值计算方法如下：如果置信值大于0.5,在本文的研究语境里这种情况被赋予了重要意义标签被预是为了解决精确率，召回率和F值的局限性的。计算公式如下：其中p为精确率，R为召回率。一个模型的mAP值大，则效果更好。4.3实现细节在图像表示学习分支中，本文采用斜率为负0.2的LeakyReLU¹6作为非线性文采用ResNet-101作为特征提取骨干。在训练过程中，对输入图像进行随机裁剪并调整大小为448×448,随机水平翻转来增强数据。在GCN分类器学习分支中，本文中的GCN由两个GCN层组成，输出维度分别为1024维和2048维，从这些态度可以明白选择输入的词嵌入向量是在实验中，统一设置初始学习率1r为0.01,总训练轮数epochs设置为100,每经过40轮次学习率1r衰减10倍(许博羽，陈梦瑶，2022)。本文基于PyTorch实现了网络，开发语言为Python。对比实验，本文选取了以下传统算法进行了比较：Resnet-101算法，CNN-根据上述实验结果分析，可以看出，在传统的多标签图像识别算法中，Resnet101算法效果要更好，原因应该是Resnet101够深，能学习到更多的特征。而本文算法在图像提取分支是基于Resnet101的，这在某种程度上标志自然效果要优于CNN-RNN,同时本文在图像分类上采用了基于GCN训练出的分类器，对图像的标签之间的关系进行了建模(陆志光，赵婉清，2023),自然效果要优于Resnet101。与其他方法相比，本文提出的基于GCN的方案的方法在几乎所有指标下都表现得更好，这表明本文提出的GCN方案的有效性。这无疑地传达出但是本文提出方法召回率却并不是很高，经过综合分析可能是图像提取的特征选取的不恰当，导致某些图像被分类为其他标签，导致召回率较低。4.5PASCALVOC2007数

人人文库> 全部分类> 教育资料 > 中学教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【PASCALVOC数据集上的多标签图像识别算法改进12000字论文】

文档简介

温馨提示

最新文档

评论

【PASCALVOC数据集上的多标签图像识别算法改进12000字论文】

文档简介

温馨提示

最新文档

评论

相关文档