版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章绪论1.1研究背景与意义水果作为人类膳食结构中不可或缺的部分,富含维生素、矿物质、膳食纤维及多种生物活性物质,对维持人体健康至关重要。中国作为全球最大的水果生产与消费国,水果产业在国民经济和农业发展中占据着举足轻重的地位。据国家统计局数据REF_Ref2118\r\h[1],2023年我国水果总产量达32744.28万吨(同比增长4.63%),人均占有量232.28公斤,产业规模稳居农业种植业第三位。其中苹果作为核心品类REF_Ref2624\r\h[2],以20.7%的占比位居产量第二大水果,其品质管控在保障农产品价值链方面是较为重要的。在消费端,随着经济发展和人民生活水平的提高,消费者对水果的需求呈现出量质齐升的态势。2020年全国居民人均干鲜瓜果类消费量为56.3千克REF_Ref2947\r\h[3],较2015年增长26.5%。2023年我国水果零售市场规模为1.22万亿元,并预计2026年这一规模有望增长至1.8万亿元。消费升级趋势明显,消费者不仅关注水果的数量,更对其新鲜度、口感、营养价值和安全性提出更高要求。与此同时,进口水果市场规模迅速扩张REF_Ref2830\r\h[4],从2016年的68.3亿美元激增至2023年的183.5亿美元,年均复合增长率超过15%。车厘子、榴莲等高价值品类进口额占比超过60%,反映出国内市场对高品质、特色化水果的旺盛需求。然而进口水果的激增,也凸显国内水果产业在优质果品供给方面的结构性矛盾。尽管总产量巨大,但标准化程度低、品牌化建设滞后、采后处理技术落后等问题导致优质果供给不足,高端市场竞争力有待提升,水果贸易逆差持续扩大。当前我国水果商品化处理存在显著短板REF_Ref3186\r\h[5],水果的有效利用率不高,损失数量大,低端水果受人工成本上升、关税限制等影响,商品竞争力有所下降,我国水果供给端仍存在标准化、机械化偏低的现况。传统人工分级依赖操作者目测判断,不同工人因熟练度等个体差异对水果品质在细节标准上有区别。且仅采用人工分级的果园分拣强度大,工作效率受限于人体机能,熟练工人日均处理量仅1.2-1.8吨,长时间持续工作后误判率上升;人工劳动成本上升也是影响水果竞争力的一大因素,2022年,我国苹果生产平均成本为2580.13元/亩,比2021年上升14.9%;人工成本平均为3344.04元/亩,比2021年上升40.9%;机械分级设备通过称重、筛孔等物理手段实现初步分选,其优势在于处理速度可达8-10吨/小时,但检测维度单一,仅能获取重量、直径等基础参数,对表皮瑕疵、色泽均匀度等关键指标的识别率不足;机械接触易对果皮果肉造成二次损伤,影响水果品质价值。在这样的背景下,利用现代信息技术,特别是计算机视觉和传感技术,发展快速、准确、无损、自动化的水果新鲜度评估方法,对于减少采后损耗、提升水果品质、优化供应链管理、增强产业竞争力是具有重要现实意义和应用价值的。计算机视觉技术通过分析水果图像的颜色、纹理、形状、缺陷等信息,结合深度学习等人工智能算法,能够实现对水果外观品质的客观、精细化评估。而电子鼻等气味传感技术则能捕捉水果在成熟和腐败过程中释放的挥发性有机化合物(VOCs),从“嗅觉”维度提供内部生理状态变化的信息,有望检测到早期、内部的品质变化。利用视觉和嗅觉多模态信息进行分级,有望克服单一模态信息的局限性,实现更全面、更可靠的水果新鲜度评估。1.2研究现状1.2.1基于深度学习视觉评估的研究现状近年来,深度学习在图像识别、目标检测、语义分割等计算机视觉任务中取得突破性进展,其强大的特征提取和模式识别能力使其被广泛应用于水果新鲜度的视觉评估中。研究人员利用卷积神经网络(CNN)、视觉Transformer(ViT)等模型,通过分析水果图像的颜色、纹理、光泽、形状以及表面缺陷等视觉特征,来判断其新鲜程度、成熟度或是否存在病害损伤。随着深度学习模型的不断发展,为追求更高的评估精度,研究者们倾向于构建更深、更宽的网络结构,例如ResNet、SwinTransformer等。这些大型模型虽然在各项基准测试中表现出色,但也带来巨大的计算成本(FLOPs)、参数量(Params)。它们受性能制约难以直接部署在资源受限的移动设备、嵌入式系统、物联网(IoT)设备上,限制水果新鲜度评估技术在实际生产、消费场景中的便捷应用。因此研究轻量化神经网络模型,在保持较高评估性能时,显著降低模型复杂度和资源消耗,成为该领域的重要研究方向。研究者们从多个角度探索模型的轻量化:设计高效的卷积模块与网络架构MobileNet系列是轻量化模型的代表。MobileNetV1提出深度可分离卷积(DepthwiseSeparableConvolution),有效降低计算量。MobileNetV2引入倒置残差块(InvertedResidualBlock,IRB)和线性瓶颈(LinearBottleneck),成为后续许多轻量化模型的基础。2024年5月发表的最新版本MobileNetV4REF_Ref16552\r\h[6]进一步提出通用倒置瓶颈(UniversalInvertedBottleneck,UIB),该结构融合IRB、ConvNeXtREF_Ref16679\r\h[7]、FFN等多种模块的优势,通过神经架构搜索(NAS)技术,在多种移动硬件平台上实现帕累托最优的性能。此外,FasterNet关注到高FLOPS(每秒浮点运算次数)的重要性,指出单纯降低FLOPs不一定能带来同等程度的延迟缩减,提出部分卷积(PartialConvolution,PConvREF_Ref16738\r\h[8]),通过减少冗余计算和内存访问来替代内存访问频繁的深度卷积(DWConv),实现更高的实际运行速度。EMO则从统一视角审视IRB和Transformer中的有效组件,提出倒置残差移动块(iRMB),构建仅包含iRMBREF_Ref17055\r\h[9]的高效模型。优化特定计算操作符除骨干网络结构外,模型中的特定操作符也对效率有显著影响。例如,在需要恢复特征图分辨率的密集预测任务(如水果表面缺陷分割)中,上采样操作必不可少。传统的双线性插值(BilinearInterpolation)虽然简单,但效果有限。动态上采样器如CARAFE、FADE和SAPA虽能提升性能,但引入较大的计算开销。DySampleREF_Ref17345\r\h[10]提出一种基于点采样思路的动态上采样器,无需定制CUDA包,参数量和计算量远低于前者,且在多种密集预测任务中表现更优,为轻量级模型提供高效的上采样选择。引入高效的注意力机制Transformer架构及其注意力机制在视觉任务中展现强大的全局建模能力,但自注意力(Self-Attention)的二次方计算复杂度限制其在低资源场景的应用。研究者们探索多种高效的注意力机制。RT-DETRREF_Ref17447\r\h[11]在用于实时目标检测时,设计高效的混合编码器,解耦尺度内交互和跨尺度融合,并提出不确定性最小查询选择机制,保持端到端检测优势(无需NMS后处理),大幅提升DETR类模型的速度。MobileNetV4则引入MobileMQA(Multi-QueryAttention),通过共享键(Key)和值(Value)显著降低注意力机制在移动端的计算和内存开销。UniRepLKNetREF_Ref17505\r\h[12]探索使用大卷积核(LargeKernel)替代自注意力的可能性,认为大卷积核具备“看得宽而不深”的特性,并通过特定的架构设计(如使用SE模块增加深度、使用DilatedReparamBlock等)实现强大的性能,在音频、时序等非视觉领域也展现潜力,其增强的形状偏置(ShapeBias)能力有助于捕捉水果的形态变化。利用神经架构搜索(NAS)和模型压缩技术硬件感知的神经架构搜索(Hardware-awareNAS)技术能够自动搜索在特定硬件平台上精度和延迟达到最优平衡的网络结构。MobileNetV3和MobileNetV4的设计均受益于NAS技术。此外,知识蒸馏(KnowledgeDistillation)、模型剪枝(Pruning)、量化(Quantization)等模型压缩技术也是提升模型部署效率的常用手段。MobileNetV4就利用新的蒸馏技术进一步提升模型精度。综上,基于深度学习的视觉评估技术在水果新鲜度领域的研究,正朝着更高效、更精准、更适应实际部署需求的方向发展。通过设计新颖的轻量化网络结构、优化关键计算单元、引入高效注意力机制以及利用自动化搜索和压缩技术,研究者们正不断推动算法性能与效率的边界,为实现水果新鲜度的实时、便捷、低成本评估提供更多可能。1.2.2基于电子鼻气味评估的研究现状水果在成熟、后熟及腐败过程中会释放特定的挥发性有机化合物(VOCs),其种类和浓度与新鲜度密切相关。电子鼻系统REF_Ref18812\r\h[13]通过模拟生物嗅觉机制,利用一组非特异性气体传感器阵列对复杂气味进行整体模式识别。传感器阵列对样品挥发物产生响应,形成“气味指纹”。通过模式识别算法(如PCA,LDA,SVM,ANN)分析这些指纹,可以区分不同新鲜度等级的水果。电子鼻技术的优势在于能够检测到早期、内部的腐败,实现无损检测。常见的传感器类型包括金属氧化物半导体(MOS)、导电聚合物、石英晶体微天平(QCM)等。近年来,基于低成本MOS传感器(如MQ系列)和微控制器REF_Ref18913\r\h[14](如Arduino)的简易电子鼻系统在水果新鲜度检测中也得到探索。单一传感技术往往有其局限性。例如,视觉方法难以检测内部缺陷,电子鼻对环境温湿度敏感且易受干扰。因此,融合多种传感信息REF_Ref19001\r\h\#"[0"[15,REF_Ref19011\r\h\#"0]"16](如视觉+光谱、视觉+电子鼻、光谱+电子鼻等)成为提高评估准确性和鲁棒性的重要趋势。通过特征层融合(将不同模态提取的特征拼接或加权)或决策层融合(综合不同模态的分类结果),可以利用不同信息的互补性,获得比单一模态更好的评估效果。水果新鲜度评估技术正朝着无损、快速、准确、智能化的方向发展。基于深度学习的计算机视觉方法在外观评估方面展现出强大能力,而电子鼻技术在探测内部和早期变化方面具有潜力。多模态融合是未来的重要发展方向。1.3研究内容与章节安排1.3.1主要研究内容本研究旨在开发一种基于多模态感知(图像与气味)的水果新鲜度评估系统,重点关注利用深度学习进行图像分析和低成本传感器进行气味检测,并探索模型的轻量化设计。主要研究内容包括:水果新鲜度多模态数据集构建收集并整合Kaggle、Roboflow等网站的公开水果(以苹果为例)图像数据,涵盖新鲜、微干、腐烂等不同阶段。进行数据清洗、标注(目标检测框+新鲜度类别)。基于YOLO系列的水果新鲜度图像评估模型研究对比分析YOLOv8与YOLOv11在自建水果新鲜度数据集上的基准性能。基于性能较优的YOLO模型进行轻量化改进研究(由于YOLOv11在自建数据集上的表现更好,本研究选择YOLOv11进行改进)。重点引入StarNet中的StarBlock结构优化主干网络,探究其在提升特征表达能力和效率方面的作用。研究检测头的轻量化与优化,包括使用GroupNormalization替代BatchNormalization,采用共享卷积和Scale层特征缩放等技术压缩参数量和计算量。通过消融实验,系统评估各项改进(StarNet主干、GroupNorm、共享卷积、特征缩放)对模型性能(精度mAP)和效率(参数量Params,计算量GFLOPs,推理速度FPS)的影响。将最终优化后的模型与其他算法进行性能对比。基于Arduino与气体传感器的水果气味检测评估研究设计并搭建一个基于ArduinoUnoR3、MQ-3(乙醇)、MQ-135(广谱空气质量)等气体传感器及ADS1115高精度ADC的气味检测硬件系统。编写数据采集程序,在受控环境下采集不同新鲜度等级苹果释放的挥发性气体数据。对采集到的传感器信号进行预处理,提取能够反映气味变化的特征,初步建立气味特征与新鲜度等级之间的关联性,探讨利用气味信息区分新鲜度的可行性,特别是检测早期腐败。系统总结与展望总结本研究在多模态感知、模型轻量化等方面的主要工作和结论,分析存在的局限性,并对未来研究方向进行展望。第2章水果新鲜度评估基础理论本章主要介绍支撑本研究的关键理论与技术基础,包括目标检测模型YOLOv8、YOLOv11的网络结构、用于轻量化改进的StarNet理论、GroupNormalization技术以及气体传感器的工作原理。2.1YOLOv8网络结构概述YOLOv8,作为Ultralytics于2023年推出的目标检测框架,代表YOLO(YouOnlyLookOnce)系列算法的又一次重要迭代,显著提升检测速度、精度以及易用性。YOLO的核心思想在于其“一次看全貌”的机制,通过单次网络前向传播即可同时预测图像中所有目标的边界框和类别,这种设计赋予算法极高的效率以及实时处理潜力,与其他需要多阶段处理的目标检测技术形成鲜明对比。YOLOv8在其广受欢迎的前身YOLOv5的基础上进行多方面革新,其中一项关键性改进是采用无锚点(Anchor-free)检测机制,这一改变有助于简化后处理流程,加速非极大值抑制(NMS)的过程。凭借这些优化,YOLOv8不仅能在图像、视频中快速精准地识别定位物体,还能有效承担图像分类、实例分割等多重任务。从宏观结构上看(见REF_Ref4369\h图2-1),YOLOv8的网络设计可以解构为三个核心组成部分:主干网络(Backbone)、颈部网络(Neck)和头部网络(Head),它们协同工作以完成从特征提取到最终预测的完整流程。主干网络是整个模型的基石,其主要职责是高效地从输入图像中提取丰富的特征信息。YOLOv8的主干网络利用一系列卷积层进行特征图的生成变换,并借鉴现代网络设计的精髓,如残差连接和瓶颈结构(BottleneckBlock),在减少网络参数量的同时保证甚至提升性能。相较于YOLOv5中使用的C3模块,YOLOv8引入经过优化的C2f模块作为其基本的构建单元。C2f模块通过更精巧的结构设计,实现更少的参数量和计算量,同时展现出更强的特征提取效能。主干网络的卷积块(ConvBlock)还添加深度可分离卷积(DepthwiseSeparableConvolution)、膨胀卷积(DilatedConvolution)等一些常见的改进技术,以进一步增强特征提取的能力。颈部网络扮演着连接主干网络与头部网络的桥梁角色,其核心功能在于对来自主干网络不同层级的特征图进行有效的融合与增强,以生成更具鲁棒性和表达力的多尺度特征表示。YOLOv8的颈部网络整合若干关键组件来实现这一目标。它采用SPPF(SpatialPyramidPoolingFast)模块,通过并行应用不同尺度的池化操作并将结果拼接,极大地增强模型对不同尺寸目标的感知能力。借鉴路径聚合网络PAN(PathAggregationNetwork)的思想,颈部网络通过构建自底向上和自顶向下的双向特征传播路径,有效地将深层语义信息与浅层细节信息相结合,从而优化整体的特征层级结构。最终的预测任务由头部网络Head承担。YOLOv8的头部网络通常是解耦的,分别处理检测和分类任务。检测部分(DetectionHead)利用一系列卷积层来解析融合后的特征图,直接预测目标的边界框位置(例如中心点坐标、宽高)以及目标存在的置信度分数。值得注意的是,由于采用Anchor-free机制,头部网络不再依赖预设的锚框,而是直接在特征图的每个位置上进行预测,简化设计,减少相关的超参数。分类部分(ClassificationHead)则负责判断检测到的目标属于哪个类别,常利用全局平均池化(GlobalAveragePooling)等技术来聚合特征信息,并输出对应每个类别的概率分布。YOLOv8的卓越性能还得益于一系列优化技术的引入。其核心的Anchor-free设计简化训练过程,减少对锚框相关超参数的依赖,使模型能更灵活地适应不同形态的目标。YOLOv8采用改进的自适应非极大值抑制(NMS)策略,能够更智能地处理重叠检测框,有效减少误检与漏检,进一步提升检测精度。在训练层面,对自动混合精度(AMP)训练的支持,使模型能够在不牺牲过多精度的情况下,利用低精度计算加速训练过程,显著降低显存消耗。这些结构上、策略上的创新共同构成YOLOv8强大的目标检测能力。2.2YOLOv11网络结构概述YOLOv11作为Ultralytics公司推出的新一代实时目标检测模型,代表YOLO系列在性能前沿上的又一次探索与突破。该模型在YOLOv8基础上,实施显著的架构革新与训练策略优化,进一步融合速度、精度与计算效率。一个突出的成果体现在YOLOv11m版本上,它在COCO数据集上取得更高的平均精度均值(mAP),使用的参数量相较于YOLOv8m减少约22%,实现性能提升、模型轻量化的双重目标。其推理速度较YOLOv10有约2%的提升,增强模型在实时应用场景中的潜力。YOLOv11的整体网络架构遵循经典的三段式设计,如REF_Ref4575\h图2-2的主干网络(Backbone)、颈部网络(Neck)和头部网络(Head)。主干网络(Backbone)是YOLOv11特征提取的核心引擎。为提升从复杂场景的输入图像中捕捉关键模式与细节的能力,YOLOv11对其结构进行精心设计。其中一个关键的改进是引入C3K2模块来处理不同阶段的特征提取任务。C3K2模块可以视为早期版本中跨阶段部分网络(CSP)瓶颈结构的演进,它通过分割特征图,在分支上应用一系列计算成本更低的3x3小卷积核进行处理,之后再进行合并。这种设计相较于YOLOv8中使用的C2f模块,能够在利用更少参数的情况下优化信息流,并有效保留模型捕获基本特征的能力,从而提升特征表示的效率与质量。主干网络中还整合C2PSA模块,该模块结构上类似C2f,但在其内部嵌入两个部分空间注意力(PSA)模块。这些注意力模块作用于特征图的不同分支,然后进行拼接融合。通过引入空间注意力机制,C2PSA模块实现提升模型对图像中感兴趣区域选择性关注能力这一目标,使YOLOv11在精确检测任务上表现更为出色。SPPF模块也被沿用,以增强模型对不同尺度目标的感知能力。颈部网络(Neck)在YOLOv11中继续扮演着承上启下的关键角色,它位于主干网络和头部网络之间。其核心功能是对来自主干网络不同层级的特征图进行有效的融合与增强。通过整合深层语义信息和浅层空间细节,颈部网络旨在生成更具判别力、适应多尺度目标检测的特征表示,为后续的预测任务提供高质量的输入。虽然具体实现细节可能涉及复杂的路径聚合策略(如类PAN结构),但其根本目标是优化特征流,提升整体检测性能。头部网络(Head)作为目标检测模型的最终决策端,负责根据颈部网络输出的增强特征图生成具体的检测结果,包括目标的边界框位置和类别信息。YOLOv11在头部网络的设计上也进行了创新优化。一个显著的变化是在其解耦头(DecoupledHead)的分类或检测分支中引入深度卷积(DepthwiseConvolution,DWConv)。原先的一些标准卷积层被替换为两个DWConv层,构成深度可分离卷积(DepthwiseSeparableConvolution)结构的一部分(通常是DWConv后接一个1x1的点卷积PointwiseConvolution)。深度卷积通过对每个输入通道独立进行空间卷积,极大地减少计算量和参数量,而后续的点卷积则负责通道间的特征融合。这一改变使得YOLOv11的头部网络在保持甚至提升预测能力的同时,变得更加轻量化和高效。除了上述核心组件的革新,YOLOv11的整体设计还体现在对不同模型尺寸(如N,S,M,L,X版本)的网络深度(depth)和宽度(width)缩放参数进行大幅度调整。相较于YOLOv8,这些参数的改变反映出一种新的平衡策略:通过采用更高效的构建模块(如C3K2、DWConv)来减小基础网络结构的复杂度,同时调整缩放系数以补偿可能的能力损失,最终在不同规模的模型上寻求最优的性能与效率平衡点。总而言之,YOLOv11通过一系列精心设计的结构改进与优化,实现在准确性、速度和模型效率上的显著进步。2.3StarNet理论基础StarNet网络结构在CVPR2024的RewritetheStarsREF_Ref17610\r\h[17]被提出,文章重点探讨“星形运算”(StarOperation,即元素级乘法Element-wiseMultiplication)在神经网络设计中的潜力,并提出一个轻量且高效的网络原型StarNet。其核心思想在于揭示星形运算的优势,能够隐式地将输入映射到高维非线性特征空间,类似于机器学习中的核技巧(KernelTrick),从而在紧凑的网络结构下实现强大的表示能力。2.3.1StarOperation(星形运算)在神经网络中,特征融合通常通过加法(Summation)或拼接(Concatenation)完成。然而近期一些工作(如FocalNet,HorNet,VAN等)发现使用元素级乘法(用
*
或
⊙
表示)来融合来自不同分支(或子空间)的特征,可以取得更好的性能和效率。StarNet将这种操作称为“星形运算”。在神经网络的单层中,输入特征
X
经过两个独立的线性变换(例如全连接层FC或卷积层Conv,包含权重
W
和偏置
B)得到两个分支的输出,然后通过星形运算融合,星运算通常表示为公式REF_Ref6959\h2-1: W1⊤X+B1∗W2⊤X+B为简化分析,将权重和偏置项合并为一个实体REF_Ref7302\h2-2,并将输入
X
增广,增加一个常数1维度以包含偏置REF_Ref7328\h2-3,可以将式REF_Ref6959\h2-1简化为式REF_Ref7416\h2-4
: W=WB (2-SEQ2-\*ARABIC2) X=X1 (2-SEQ2-\*ARABIC3) W1⊤X∗W2⊤X (2-StarNet论文通过数学推导证明,这个看似简单的操作具有强大的能力。考虑单输出通道、单元素输入X、输入通道数为d(维度为
d+1,包含增广维度),权重向量为
W1,
W2(维度也为
d+1)。星形运算公式REF_Ref7416\h2-4可以展开为: W1 =i=1d+1W1iXi∗j=1 =i=1d+1j=1d+1W1iW2j =α(1,1)x1x1+⋯+α(4,5)x4公式REF_Ref7576\h2-7的独立项数量大约是
(d+2)(d+1)/2。这个展开式表明,原始
d
维输入空间中的特征
xi
和
xj
的所有二次项(xi*xj)都已被生成,这些二次项构成新的特征空间。将星型运算扩展到多层后,每一层看似在原始
d
维空间进行计算,但其效果等同于在一个维度约为
d2/2
的高维隐式特征空间中进行操作,将特征维度显著放大。这种能力类似机器学习中的多项式核函数
k(x1,x2)=(x1·x2+c)d(PolynomialKernel),它也能将输入映射到包含高次项的高维空间。与传统神经网络通过增加网络宽度(通道数)来提升维度不同,星形运算在不增加显式网络宽度的情况下,隐式地、非线性地对特征维度进行扩展。2.3.2StarNet网络结构基于对星形运算的研究,StarNet设计出4个阶段的层次结构,使用层归一化(Layer
Normalization)替换为批归一化(BatchNormalization),以便深度卷积后进行特征融合。REF_Ref7707\h图2-3为RewriteTheStarREF_Ref17610\r\h[17]中的图片,它详细展示出StarNet主干网络结构与其中基本块StarBlocks的构成:
这种结构通过结合深度卷积的空间建模能力,星形操作的高效非线性特征映射能力,并利用残差连接保证训练的稳定性,形成一个轻量、强大的特征提取单元。将StarBlock作为基础单元堆叠而成的StarNet网络,展现出以下几个显著优势,使其特别适合用于构建高效的神经网络模型:星型运算赋予其更高效的特征表达能力。如2.3.1节所述,星形运算的核心优势在于,其能够将输入特征隐式地映射到一个高维非线性空间,该空间维度远超原始输入维度,类似于核技巧。这使得网络在没有显著增加宽度(通道数)的情况下,就能获得强大的特征表达能力。StarBlock的结构简洁紧凑,设计相对简单直观,易于实现和理解。基于StarBlock构建的StarNet架构也遵循典型的分层结构,没有过多复杂的连接或模块,有利于模型的部署和优化.计算效率高。相比于标准卷积或自注意力机制(尤其在处理长序列时),StarBlock中的主要计算量来自于深度卷积和1x1卷积,这些都是相对计算高效的操作。星形操作本身的计算开销(元素级乘法)非常小。这使得StarNet能够在较低的GFLOPs下达到有竞争力的性能。鉴于这些优势,本研究选择使用StarNet中的StarBlock结构改进YOLOv11的主干网络,期望在水果新鲜度图像评估任务中,实现模型轻量化与高性能的平衡。2.3GroupNormalization组归一化在深度学习模型中,归一化层(NormalizationLayer)扮演着至关重要的角色,它有助于加速模型收敛、提高泛化能力、降低对初始化参数的敏感度。批归一化(BatchNormalization,BN)是最常用的归一化技术之一,但在某些应用场景,如目标检测任务使用小批量(smallbatchsize)训练时,BN存在一些局限性。BatchNormalization通过计算一个mini-batch内样本在每个通道上的均值和方差来进行归一化,性能严重依赖于足够大的batchsize。当设备GPU显存限制,batchsize很小时,计算得到的均值和方差估计不准确且噪声大,会导致模型性能显著下降。组归一化(GroupNormalization,GN)作为一种替代方案,能够有效克服这些局限。2.3.2GroupNormalization原理GroupNormalizationREF_Ref17685\r\h[18]提出了一种不依赖于batchsize的归一化方法。其核心思想是将一个样本的通道(Channels)分成若干个组(Groups),在每个组内部计算均值和方差,并进行归一化。假设输入特征图的维度为(N,C,H,W),其中N是batchsize,C是通道数,H和W是空间高度和宽度。GroupNorm首先将C个通道分成G个组,每个组包含C/G个通道。然后,对于每个样本n和每个组g,GroupNorm计算该组内所有通道在所有空间位置(h,w)上的均值μng和方差σng2。归一化过程如公式REF_Ref7945\h2-8: yncℎw=γg⋅xncℎw−μngσ其中xnchw是输入特征,ŷnchw是归一化后的输出特征。c属于组g。γg和βg是每个组可学习的仿射变换参数(缩放和平移)。ε是一个小的常数以防止除以零。GroupNormalization的计算完全在单个样本内部完成,与batchsizeN无关。2.3.3GroupNormalization在检测头中的应用优势在轻量化目标检测模型的检测头(DetectionHead)中使用GroupNormalization替换BatchNormalization更具优势,GN对小BatchSize具有更好的鲁棒性。由于GN的计算不依赖于batchsize,因此即使在训练目标检测模型时使用较小的batchsize,也能保持稳定和有效的归一化效果,有助于模型收敛和性能提升。在小batchsize场景下,GN通常能带来比BN更好的性能。即使在batchsize较大的情况下,GN的性能也往往与BN相当或略优。检测头通常处理来自Neck的多尺度特征图,这些特征图的通道数可能发生变化。GN可以灵活地应用于不同通道数的层,只需设定合适的组数G(通常G是一个超参数,如32)。在本研究中,我计划在改进的YOLOv11检测头中使用GroupNormalization(具体体现在Detect_LSCD模块中的Conv_GN层),预期能够提高模型在水果新鲜度检测任务中的训练稳定性和最终精度,尤其是在可能受限于GPU显存而采用中等或较小batchsize进行训练的情况下。2.4气体传感器检测原理本研究的另一个模态是利用气体传感器检测水果在不同新鲜度阶段释放的挥发性有机化合物(VolatileOrganicCompounds,VOCs)。MQ系列传感器是金属氧化物半导体(MetalOxideSemiconductor,MOS)类型的气体传感器,其兼顾广谱响应-低成本特点。MQ系列常见的低成本MOS传感器如REF_Ref8125\h表2-1所示。水果在成熟、过熟及发酵腐败过程中会产生乙醇,MQ-3传感器非常适合用于监测与酒精释放相关的新鲜度变化,特别是发酵迹象。水果腐败过程中会产生氨气、硫化氢等具有刺激性气味的气体,同时也会释放其他复杂的VOCs,MQ-135作为一种广谱传感器,能够捕捉到这些由腐败产生的复杂气味混合物的整体变化。我基于以上2点考虑,在第4章气味检测评估选用MQ-3与MQ-135组成气体检测模块。通过将不同特性的传感器组成阵列,可以提高识别的准确性和鲁棒性,区分仅靠单一传感器难以区分的气味模式,本研究的气体检测模块即是基于这种传感器阵列电子鼻(E-nose)的思想构建的。第3章基于YOLO系列的图像评估本章详细阐述利用深度学习目标检测模型对水果图像进行新鲜度评估的研究过程。内容包括水果新鲜度图像数据集的构建与预处理、基于YOLOv11的轻量化模型设计与训练、以及通过一系列对比实验和消融实验对模型性能进行的评估与分析。3.1图像数据集整合及预处理针对水果新鲜度评估任务,我整合在线数据平台上的水果图像,自行数据标注,构建出一个包含多种新鲜度状态的水果图像数据集。3.1.1数据来源与整合本研究的数据集主要整合自Kaggle、Roboflow等在线数据平台公开的水果图像数据集。这些数据集包含多种常见水果(如苹果、香蕉、橙子等)在不同背景、光照条件下的图像。我选择其中苹果的高质量图像数据子集进行整合,初步构建出一个包含9592张原始图像的数据池。3.1.2数据标注与数据集划分我按照YOLO格式对整合的苹果数据进行标注,保存为与对应苹果图像同名的.txt
文件,其中包含类别标签与目标边界框信息。根据研究目标和感官观察,我将苹果新鲜度划分为如REF_Ref8272\h图3-1的三个等级:0(Fresh):新鲜,表皮光滑、色泽鲜亮、无明显损伤或萎蔫。1(MildDry):微干,表皮可能出现轻微皱缩、光泽减退、出现小面积褐变或轻微损伤,但整体形态尚可。2(Rotten):腐烂,出现明显的腐烂斑点、霉变、组织软化、严重失水皱缩等。最终得到有效标注的图像9592张,各类别样本数量分布为Fresh4723个,MildDry
968个,Rotten3901个。将标注好的图像按照8:1:1的比例随机划分为训练集(TrainingSet)、验证集(ValidationSet)和测试集(TestSet)。3.2模型训练与结果分析本节将详细介绍模型训练的实验设置、评价指标,并展示和分析YOLOv8与YOLOv11基准模型对比、YOLOv11轻量化改进、消融实验以及与其他算法对比的实验结果。3.2.1实验环境与评价指标由于我的本地计算机无法满足进行深度学习训练的硬件配置,故进行模型训练时,我使用了恒源云提供的云GPU实例服务。所有实验均在如REF_Ref8334\h表3-1配置的服务器上进行,并按照REF_Ref8353\h表3-2的配置进行训练。评价一个模型优劣的性能指标那确实有很多,为进行模型轻量化改进,我在之后的实验中主要关注的指标如REF_Ref8598\h表3-3所示,聚焦精度P、召回率R、平均精度均值mAP、参数量Params、计算量GFLOPs可以有效体现模型的准确度与复杂度。3.2.2YOLOv8与YOLOv11基准模型对比实验我首先选择YOLO系列中较新的YOLOv8、YOLOv11,对比两个模型在自建水果新鲜度数据集上的性能,表现更好的基准模型将进入后续的轻量化改进。本次模型改进的预期目标是轻量化,提升模型在边缘设备部署的潜力,因此我采用两个模型的小型版本(yolov8n.yaml和yolo11n.yaml)进行比较。两个模型均使用相同的训练参数设置和预训练权重进行训练。如REF_Ref8804\h图3-2训练完成后,在测试集上评估其性能,最终得到如REF_Ref8735\h表3-4的实验结果。我对实验结果进行对比整理,根据YOLO11n98.9%的mAP50比YOLOv8n高0.9%,参数量和计算量还分别只是YOLOv8的81.9%、70.7%,可以认为YOLOv11n在自建数据集上,具有更好的性能表现。基于以上对比实验结果,我在本研究的轻量化改进实验中,选择取YOLO11n作为基准模型。3.3YOLOv11轻量化改进实验我参考starnet的主干网络结构与GroupNorm组归一化对YOLO11n基准模型进行轻量化和性能优化改进,构建网络结构如REF_Ref9042\h图3-3的轻量化算法模型,下称为YOLO11-Lw(Lightweight)。针对YOLOv11的网络结构,我进行如下三部分的改进:将YOLOv11主干网络由Conv和C3k2堆叠构成的Backbone替换为starnet_s050,使用StarNet代替原本特征提取的CSPNet-like结构;Neck部分的C3k2我于其中引入StarNet_Block的元素级乘法.检测头Head部分引入组归一化GroupNorm、共享卷积、scale层特征缩放,以达到减少参数量&计算量的期望。
3.3.1Starnet_s050内部结构Starnet_s050由一个Stem层和四个Stage层组成,Stem首先呐就会对接收的3*640*640原始图像进行步长为2的3*3卷积后接批归一化BatchNorm,将3通道输入变为32并通过ReLU6激活,输出32*320*320的P1特征图。接收Stem层输入的Stage0层同样先对P1特征图进行一个步长为2的3*3卷积接批归一化BN,但通道数由32降维至16,随后进入Block进行深度卷积DWConv、全连接FullConnect、1*1卷积、元素级乘法ElemMultiple、残差连接Restdual等操作,输出16*160*160的P2特征图,Starnet_s050内部的Stem层与Stage层如REF_Ref9245\h图3-4所示。Stage1~3与Stage0层类似,输入输出如下REF_Ref9291\h表3-5所示,最终Stage3输出128*20*20的P5特征图经过scale特征缩放输出到SPPF层。
3.3.2C3k2_Star内部结构Neck部分的特征融合和处理单元C3k2内部的核心处理单元替换为Star_Block,内部结构如REF_Ref9376\h图3-5所示。Star_Block是StarNet的核心思想体现,它先对输入特征图做一个深度可分离卷积DWConv,分别提取空间细节和通道特征,再将特征流拆分为两条并行的处理路径,一条通过1×1卷积实现跨通道线性变换(Linear1)进行通道维度压缩,类似信息筛选器,保留关键特征;另一组权重生成路径使用1×1卷积实现跨通道线性变换(Linear2)产生动态调节系数,两条路径的输出在ReLU6激活后进行元素级乘法ElemMultiple实现特征融合,融合后的特征经过全局线性变换(Linear_g)实现跨通道信息整合,再通过二次深度卷积(DWConv2)强化局部特征关联,最终采用残差连接结构,将原始输入与处理后的特征通过DropPath技术进行概率性融合,防止网络过度依赖特定特征通道,提升模型鲁棒性。
3.3.3Detect_LSCD内部结构Detect_LSCD(LightweightSharedConvolutionalDetectionHead)通过在原Detect检测头中引入共享卷积层,让P3,P4,P5这些不同层级输出的特征图在经过初步处理后,通过一组相同的卷积层进行进一步的特征提取,然后再分别进行回归和分类预测,这样的方法可以更有效地降低模型的参数量&计算量,其内部核心结构如REF_Ref9444\h图3-6所示。输入的P3/P4/P5特征图先通过各自独立的3x3Conv_GN卷积层,先卷积再组归一化,使不同层级的输入特征图统一到相同的通道维度hidc;各层级特征图经过初始卷积统一后进入相同的共享卷积层,ShareConv层其中串联一个3x3Conv_GN卷积层和一个1x1Conv_GN卷积层(1x1卷积可视为跨通道的线性变换,故称为LinearGN层),通过共享这部分卷积计算就无需为P3,P4,P5的头部单独学习多层深度卷积,显著减少参数量&计算量。共享卷积的输出接下来被送入两个独立的1x1卷积层,回归头Linear1采用DistributionFocalLoss进行边界框回归,输出模型预测边界框坐标的概率分布,分类头Linear2输出每个类别的预测概率;Scale层对回归头和分类头的输出应用一个可学习的标量缩放,平衡不同层级回归预测的尺度。最终通过torch.cat将经过尺度调整的回归输出和分类输出在通道维度上拼接起来,每个层级的输出特征图现在包含该层级预测的框的位置分布&类别概率信息。
3.3.4实验结果将经过轻量化改进的YOLO11-Lw在自建数据集上进行训练,得到如REF_Ref9503\h表3-6的实验结果,从实验结果来看改进后的模型在mAP相近的情况下,参数量降为基准模型的67.27%,计算量降为68.25%,推理速度也有一定提升。为评估每一个改进模块,即Starnet结构引入、检测头轻量化对模型轻量化改进的贡献,我进行了消融实验,比较YOLO11-Lw、只引入Starnet、C3k2_Star的YOLO11-Star、只对检测头进行轻量化改进的YOLO11-LSCD在相同训练设置下的性能表现,实验结果如REF_Ref9545\h表3-7,训练过程的曲线对比如REF_Ref9591\h图3-7所示。从消融实验的结果可以看出,三种轻量化改进模型相比YOLO11n均有参数量&计算量的下降,且YOLO11-Star对参数量&计算量的降低效果更为显著,而mAP保持稳定。这一现象可能的因素是,Starnet具备的隐式高维特征映射能力,弥补了模型尺寸缩减带来的影响;YOLO11-LSCD轻量化检测头在降低参数量&计算量的同时对检测精度有一定提升,但配合YOLOv11原生CSPNet-like结构反而降低推理速度,此时替换了Starnet主干网络的YOLO11-Lw虽然mAP略微下降,但推理速度加快,且参数量&计算量在YOLO11-Star基础上进一步降低,两项改进结合起来,显示出良好的协同效应。3.4本章小结本章针对水果新鲜度视觉评估需求,提出一种面向移动端部署的轻量化检测模型构建方案。研究主要从数据构建、模型优化与效果验证三个层面展开:在数据层面,通过整合多源公开数据构建苹果新鲜度分级数据集,采用自主标注流程完成Fresh、MildDry、Rotten三级标签标注,并执行标准化数据预处理;在模型层面,基于基准模型对比实验选择YOLOv11n作为基础框架,继而实施双路径轻量化改造——将原始主干网络替换为StarNet结构(starnet_s050),利用其隐式高维映射特性精简网络参数,同时设计融合组归一化、共享卷积、特征缩放等技术的LSCD检测头,并在Neck层引入StarBlock思想强化特征融合效率。改进实验结果表明,改进后的YOLOv11-Lw模型在自建数据集上取得mAP99%的检测精度,相较于原模型实现参数量压缩32.73%与计算量缩减31.75%,推理速度从0.8ms/张加快为0.7ms/张。消融实验证明了StarNet主干和LSCD检测头各自对模型轻量化和性能提升的积极贡献,且二者结合产生了良好的协同效应。最终我实现并验证了一种基于改进YOLOv11的轻量化水果新鲜度图像评估算法,其高效率-高性能使它具备部署在移动端、嵌入式、物联网设备上的潜力。基于ArduinoUnoR3的气味检测评估水果的新鲜度变化不仅体现在外观上,其内部生理生化过程,成熟和腐败过程中释放的挥发性有机化合物(VOCs),也蕴含着重要的信息。本章将重点研究利用低成本气体传感器和Arduino微控制器,同样以苹果这一水果为例,从“嗅觉”维度对水果新鲜度进行评估。4.1气体检测模块硬件设计我在之前第3章图像评估部分将苹果分为三个新鲜度阶段。每个新鲜度阶段的苹果释放的气味信息存在气体成分变化,为采集这些信息,我设计并搭建出一个基于ArduinoUnoR3的气体检测模块。苹果腐烂初期会释放多种气体,包括乙醇、硫化氢、甲醛和丙酮等具有刺激性气味的等多种特征性VOCs,因此我选择了MQ-3、MQ-135组成传感器阵列。ArduinoUnoR3自带的ADC(Analog-to-DigitalConverter)分辨率为10位(0-1023),对于5V参考电压,其最小电压分辨率约为4.9mV(5V/1024)。虽然在大部分情况足够,但气体传感器信号的变化有时比较微弱,难以检测。针对此问题,我加装了ADS1115模数转换模块,它内置的可编程增益放大器PGA可以放大微弱信号,提高信噪比,分辨率可达0.1875mV,采样率可达860SPS(SamplesPerSecond)。气体检测模块按照如下方式连接:ADS1115的I2C接口(SCL/SDA)连接Arduino的SCL/SDA引脚,ADDR接GND设地址为0x48。MQ-3和MQ-135的模拟输出分别接入ADS1115的A0和A1通道。以上连接方案在实验过程中通过串口输出当前检测的新鲜度。为更直观看出当前状态,更准确判断新鲜度,我接入三引脚按钮模块(S引脚接2号数字引脚),双色LED灯模块(SR接5号数字引脚,SG接6号数字引脚),所有VCC接5V,GND共地。最终硬件结构如REF_Ref14535\h图4-1所示,气体检测系统实例如REF_Ref12128\h图4-2所示。4.2气体数据采集与处理4.2.1Arduino气体检测程序设计我按照如下逻辑编写了烧录进arduino开发板的程序(程序代码见REF_Ref12159\h附录):通电后按下按钮,记录当前MQ-3与MQ-135检测的环境浓度值,之后若检测的数值与记录值的差值超过阈值,则LED灯亮红色,串口每隔0.5秒输出”AppleisRotten!“,如果差值接近阈值,则LED亮绿色闪烁,串口输出”AppleisMildDry.“,若差值不接近阈值则绿灯常亮,串口输出”AppleisFresh.“。这样的检测模式,可以提取水果气味特征的相对响应值,消除环境温湿度、传感器漂移等因素的影响。4.2.2实验设置与数据采集流程我从超市选购一批新鲜苹果,将其放入塑料罐中,每隔4天进行2~3次数据采集。进行实验前,将传感器系统通电预热至少5分钟,让传感器达到稳定的工作温度和基线状态,在室内环境按下按钮,标记当前环境检测值,再将传感器模组伸入塑料罐中检测浓度值,持续采集直到响应值稳定,取出传感器模组,在清洁空气环境下,用小风扇吹洗传感器。REF_Ref16468\h图4-3展示正在数据采集的状态,下方的双色LED灯亮红代表判定苹果已腐败。
4.3实验结果与讨论我采集同一批苹果在不同时期的气味数据,进行预处理和特征提取后,得到新鲜、微干、腐烂水果的初步检测阈值。浓度值变化趋势如REF_Ref16425\h图4-4、REF_Ref16370\h图4-5所示,对于MQ-3传感器,腐烂苹果引发的响应峰值显著高于新鲜和次新鲜苹果,验证了腐烂过程中乙醇释放增加的预期。微干苹果的MQ-3响应略高于新鲜苹果,但差异不如腐烂苹果明显。对于MQ-135传感器,腐烂苹果同样引发了高响应值,说明腐败产生了大量MQ-135敏感的气体。但微干苹果与新鲜苹果的MQ-135响应值差距不大。因此MQ-135与MQ-3组合,可以有效检测已产生腐烂的苹果,避免只用MQ-3检测误判微干苹果为腐烂的情况。实验结果表明,虽然早期腐败的苹果外观变化不明显,但其释放的VOCs已经开始发生变化,能够被气体传感器阵列捕捉到。基于气味的新鲜度评估,在识别水果早期、内部新鲜度变化方面具有较大潜力,可以作为视觉评估的有效补充。结论本研究针对当前水果产业中新鲜度评估存在的效率低、主观性强、检测维度单一以及采后损耗严重等问题,提出了一种基于多模态感知(图像与气味)的水果新鲜度评估算法。结合计算机视觉和气体传感器,实现对水果新鲜度的快速、准确、无损评估,实施图像识别的轻量化改进,以适应边缘设备实际部署需求。研究的主要创新点与工作如下:轻量化改进YOLO11,改进后的YOLO11-Lw在自建数据集上识别准确迅速。在REF_Ref9627\h第3章中,我对比分析YOLOv8n与YOLOv11n在自建数据集上的性能,选择精度更高、参数更少、计算量更低的YOLOv11n作为轻量化改进的基准模型。引入CVPR2024的StarNet理论,使用starnet_s050替换YOLOv11n的主干网络。将StarBlock思想融入Neck部分提升融合效率,形成C3k2_Star模块。在改进检测头Detect_LSCD中集成了GroupNormalization、共享卷积、Scale自适应缩放等优化手段。采取消融实验验证StarNet主干和Detect_LSCD检测头各自的贡献,StarNet主干显著降低模型复杂度,凭借星形运算所具备的隐式高维特征映射能力,有效保持住特征提取性能。Detect_LSCD检测头同样降低了模型的参数量&计算量,有效提升平均精度均值mAP。二者共同作用下的YOLO11-Lw参数量&计算量进一步下降到1.7million&4.7GFLOPs,且推理速度加快到0.7ms/张。使用Arduino开发板,结合MQ气体传感器阵列进行嗅觉评估探索,初步探明气味随新鲜度变化的趋势,验证气味评估的可行性。在REF_Ref14810\r\h第4章中,我搭建基于ArduinoUnoR3、ADS1115和MQ-3、MQ-135传感器的低成本气味检测系统,通过对采集数据的预处理和特征分析,发现不同新鲜度等级的苹果的气味模式。MQ-3反映乙醇浓度随新鲜度的变化,MQ-135对腐烂水果气味响应显著。本研究虽然取得了一定的成果,但也存在一些局限性。如:自建数据集仅包含9592张苹果图像,数据集规模和多样性仍可进一步扩大。气味检测部分受限于传感器性能、实验条件控制,实验结果的稳定性、精确度有待提高,需要更先进的传感器、校准算法、大批量的研究对象、更严格的环境控制。针对水果新鲜度采用视觉、嗅觉两种模态算法进行评估,由于研究对象的图像与气味数据并不对应,无法进行多源信息融合。未来可以从以下几方面进一步开展研究:扩展水果种类和数据集。优化气味传感系统,
采用性能更优、选择性更好的传感器;研究更稳定的信号处理和校准算法;探索温度、湿度对传感器响应的补偿模型。深入研究多模态融合算法,实现图像与气味信息融合模型,利用两种模态的互补优势,进一步提升评估的准确性。
将多模态系统部署到实际嵌入式设备上,评估其在真实场景下的实用性。将离散的新鲜度等级评估,扩展为连续的新鲜度指标预测。
参考文献段雨欣,鲁冰清.推进我国水果贸易高质量发展[J].中国外资,2024,(17):74-77.观研天下.中国水果行业发展现状分析与投资趋势预测报告(2025-2032年)[R/OL].观研报告网,[2025-04-23]./baogao/202502/744220.html#r_data.孙睿,李俊.中国对RCEP其他成员国水果出口增长影响因素分析[J/OL].中国南方果树,1-9[2025-04-23]./kcms/detail/50.1112.s.20241030.0843.002.htm
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年宿迁职业技术学院高职单招职业适应性考试备考题库带答案解析
- 2026年郑州轨道工程职业学院单招职业技能笔试模拟试题带答案解析
- 2026年老年健康管理项目公司成立分析报告
- 2026年上海对外经贸大学高职单招职业适应性考试备考题库带答案解析
- 2026年无锡职业技术学院高职单招职业适应性测试备考题库带答案解析
- 2026年内蒙古丰州职业学院高职单招职业适应性考试备考题库带答案解析
- 2026年苏州工业职业技术学院高职单招职业适应性考试备考试题带答案解析
- 2026年重庆机电职业技术大学单招职业技能考试模拟试题带答案解析
- 2026年吐鲁番职业技术学院高职单招职业适应性测试模拟试题带答案解析
- 2026年雅安职业技术学院单招职业技能笔试参考题库带答案解析
- 2025央国企AI+数智化转型研究报告
- 医疗废物考试试题及答案
- 财务分析的基础与技巧
- 2025年生物化学与分子生物学考试试卷及答案
- 项目并购框架协议书
- 计算流体力学课程大作业-2
- 中建epc人防工程施工方案
- 医院培训课件:《提高术后管道标识完备率》
- 支气管哮喘个案护理
- 企业域名与域名管理制度
- 《论语》导读(复旦版)学习通超星期末考试答案章节答案2024年
评论
0/150
提交评论