CN119206196B 一种单目3d目标检测方法及装置（江西五十铃汽车有限公司）

上传人：1*** IP属地：山西上传时间：2026-04-09 格式：DOCX 页数：24 大小：329.93KB 积分：10.2 举报 版权申诉

CN119206196B 一种单目3d目标检测方法及装置（江西五十铃汽车有限公司）_第2页

CN119206196B 一种单目3d目标检测方法及装置（江西五十铃汽车有限公司）_第3页

CN119206196B 一种单目3d目标检测方法及装置（江西五十铃汽车有限公司）_第4页

CN119206196B 一种单目3d目标检测方法及装置（江西五十铃汽车有限公司）_第5页

已阅读5页，还剩19页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本发明公开了一种单目3D目标检测方法及模态特征融合模块建立Fusion_ControlNet模型架构；将Fusion_ControlNet模型架构作为条件生成的指导模块引入至StableDiffusion模型模型对KITTI数据集进行扩充处理得到KITTI扩2将所述目标检测图像输入至预训练好的目标检测模型当中，以在ControlNet模型架构当中添加多模态特征融合模块建立Fusion_ControlNet模型架将Fusion_ControlNet模型架构作为条件生成的指导模块引入至StableDiffusion模获取KITTI数据集，使用所述数据集扩充模型对KITTI数据集进行扩充处理得到KITTI使用Contextualtransformer模块替换MonoDETR模型架构当中的自注意力机制建立将所述KITTI扩充数据集输入至所述CoT_MonoDETR模型架构当中进行训练得到所述目3.根据权利要求1所述的单目3D目标检测方法，其特征在于，所述将Fusion_ControlNet模型架构作为条件生成的指导模块引入至StableDiffusion模型架构当中得冻结训练好的StableDiffusion模型架构的权重，对所述Fusion_ControlNet模型架用所述数据集扩充模型对KITTI数据集进行扩充处使用所述数据集扩充模型利用KITTI数据集生成KITTI扩散数据像的伪标签得到最终的所述KITTI扩充数;3;检测模块，用于将所述目标检测图像输入至预训练好的目标检测模在ControlNet模型架构当中添加多模态特征融合模块建立Fusion_ControlNet模型架将Fusion_ControlNet模型架构作为条件生成的指导模块引入至StableDiffusion模获取KITTI数据集，使用所述数据集扩充模型对KITTI数据集进行扩充处理得到KITTI使用Contextualtransformer模块替换MonoDETR模型架构当中的自注意力机制建立将所述KITTI扩充数据集输入至所述CoT_MonoDETR模型架构当中进行训练得到所述目4LiDAR然而深度传感器的利用虽然有效，但往往面临成本高昂和提供的数据相对稀疏的[0009]在ControlNet模型架构当中添加多模态特征融合模块建立Fusion_ControlNet模[0010]将Fusion_ControlNet模型架构作为条件生成的指导模块引入至Stable[0011]获取KITTI数据集，使用所述数据集扩充模型对KITTI数据集进行扩充处理得到[0012]使用Contextualtransformer模块替换MonoDETR模型架构当中的自注意力机制[0013]将所述KITTI扩充数据集输入至所述CoT_MonoDETR模型架构当中进行训练得到所征融合编码器，所述多模态特征融合编码器用于将语义图像与深度图像分别输入到两个5作为条件生成的指导模块引入至StableDiffusion模型架构当中得到数据集扩充模型的[0016]冻结训练好的StableDiffusion模型架构的权重，对所述Fusion_ControlNet模集扩充模型对KITTI数据集进行扩充处理得到KITTI扩新图像的伪标签得到最终的所述KITTI扩充机制和前馈神经网络组成，通过多层CoT注意力机制捕捉图像中目标之间的长距离依赖关[0023]在空间上对K*V网格内的所有相邻的键向量进行上下文编码，获得上下文键向量[0024]将上下文键向量表示与查询向量在通道上进行拼接，再通过两个连续的1*1卷[0025]根据注意力矩阵A，通过聚合所有的V来获得加权后查询向量与CoT_Transformer编码器输出的特征进行交叉注意力运算，最终生成3D目标的6[0032]其中，为分类损失，为几何中心点偏移损失，为尺寸损失，为旋[0037]在ControlNet模型架构当中添加多模态特征融合模块建立Fusion_ControlNet模[0038]将Fusion_ControlNet模型架构作为条件生成的指导模块引入至Stable[0039]获取KITTI数据集，使用所述数据集扩充模型对KITTI数据集进行扩充处理得到[0040]使用Contextualtransformer模块替换MonoDETR模型架构当中的自注意力机制[0041]将所述KITTI扩充数据集输入至所述CoT_MonoDETR模型架构当中进行训练得到所[0044]本发明通过采用在ControlNet模型架构当中添加多模态特征融合模块建立7数据进行目标检测模型的具体训练，其中，采用现有的ControlNet模型架构，并在ControlNet模型架构当中添加多模态特征融合模块建立Fusion_ControlNet模型架构，使其能够将语义信息与深度信息进行有效结合，并且利用在StableDiffusion模型中引入Fusion_ControlNet模型架构作为条件生成的指导模块，使得生成的图像在保留真实感的指导模块引入至StableDiffusion模型架构当中得到数据集扩充模型进行训练使其可以[0060]进一步的，采用KITTI数据集作为目标检测模型训练的基础数据集，该数据集有行数据集扩充模型训练时，首先训练StableDiffusion模型架构的自编码器，将输入的图像编码到LatentSpace（潜在空间经过DDIM过程后在将潜在空间的信息解码回图像。训练好自编码器，后导入训练好的自编码器模型的权重文件，采用LatentDiffusionModel（LDM）作为基础，结合UNet架构和多尺度注意力机制，并使用损失函数训练Stable81O-的SGD优化器，动量因子设置为0.9，权重衰减系数设置为0.0001，预热迭代次数为[0061]更进一步的，后训练整合有Fusion_ControlNet模型架构的StableDiffusion模算法对齐输入可记为g=[(s,d1),(s2,d2),…,(sn,dw)]，其中N为场景中目标数量，网络输入即为I=[g]。Fusion_ControlNet模型架构当中的多模态特征融合模块为多模态特9将训练图像分为8350张训练集和2088张架构当中添加多模态特征融合模块建立Fusion_ControlNet模型架构；将Fusion_ControlNet模型架构作为条件生成的指导模块引入至StableDiffusion模型架构当中得机制和前馈神经网络组成，通过多层CoT注意力机制捕捉图像中目标之间的长距离依赖关[0078]在空间上对K*V网格内的所有相邻的键向量进行上下文编码，获得上下文键向量[0079]将上下文键向量表示与查询向量在通道上进行拼接，再通过两个连续的1*1查询向量与CoT_Transformer编码器输出的特征进行交叉注意力运算，最终生成3D目标的[0082]其中，现有的基于Transformer的方法通常仅利用自注意力机制和交叉注意力机周围的上下文信息，限制了模型的表现。针对这一局限，本实施例引入了Contextual[0084]在模型构建阶段，CoT_MonoDETR模型采用预训练的卷积神经网络（CNN）如将上下文键向量表示与查询向量在通道上进行拼接，再通过两个连续的1*1卷积得到注率为，优化器选择SGD，并结合学习率调度器来动态调整学习率，动量因子设置为架构当中添加多模态特征融合模块建立Fusion_ControlNet模型架构；将Fusion_ControlNet模型架构作为条件生成的指导模块引入至StableDiffusion模型架构当中得[0096]在ControlNet模型架构当中添加多模态特征融合模块建立Fusion_ControlNet模[0097]将Fusion_ControlNet模型架构作为条件生成的指导模块引入至Stable[0098]获取KITTI数据集，使用所述数据集扩充模型对KITTI数据集进行扩充处理得到[0099]使用Contextualtransformer模块替换MonoDETR模型架构当中的自注意力机制[0100]将所述KITTI扩充数据集输入至所述CoT_MonoDETR模型架构当中进行训练得到所征融合编码器，所述多模态特征融合编码器用于将语义图像与深度图像分别输入到两个作为条件生成的指导模块引入至StableDiffusion模型架构当中得到数据集扩充模型的[0103]冻结训练好的StableDiffusion模型架构的权重，对所述Fusion_ControlNet模集扩充模型对KITTI数据集进行扩充处理得到KITTI扩新图像的伪标签得到最终的所述KITTI扩充机制和前馈神经网络组成，通过多层CoT注意力机制捕捉图像中目标之间的长距离依赖关[0110]在空间上对K*V网格内的所有相邻的键向量进行上下文编码，获得上下文键向量[0111]将上下文键向量表示与查询向量在通道上进行

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN119206196B 一种单目3d目标检测方法及装置（江西五十铃汽车有限公司）

文档简介

温馨提示

最新文档

评论

CN119206196B 一种单目3d目标检测方法及装置 （江西五十铃汽车有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN119206196B 一种单目3d目标检测方法及装置（江西五十铃汽车有限公司）