CN119359934B 一种基于多模态信息融合的可泛化神经辐射场重建方法（浙大城市学院）

上传人：1*** IP属地：山西上传时间：2026-04-11 格式：DOCX 页数：36 大小：2.44MB 积分：9.6 举报 版权申诉

CN119359934B 一种基于多模态信息融合的可泛化神经辐射场重建方法（浙大城市学院）_第2页

CN119359934B 一种基于多模态信息融合的可泛化神经辐射场重建方法（浙大城市学院）_第3页

CN119359934B 一种基于多模态信息融合的可泛化神经辐射场重建方法（浙大城市学院）_第4页

CN119359934B 一种基于多模态信息融合的可泛化神经辐射场重建方法（浙大城市学院）_第5页

已阅读5页，还剩31页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

NeuralRadianceFieldwithSparseViews.GeneralizableRadianReconstructionfromMulti-ViewStereo.Multi-ViewOptimizedCross-SceneNeu27401-27413.112.一种基于多模态信息融合的可泛化神经辐本发明公开了一种基于多模态信息融合的可泛化神经辐射场重建方法，具体包括以下步非结构化多视图的原始RGB像素体转换为体积密度监督与稀疏的几何监督引导低纹理场景的稠2步骤一、基于非结构化多视图构建光度特征体和几所述光度特征体的构建过程是首先根据非结构化多视图，使用双向融合骨干网络fT提i表示非结构化多视图；i为显式地编码非结构化多视图的空间点光度将光度特征体FiT和几何特征体FΛ通过渐进地互补融合构建多模态神经编码体FL的过使用3D卷积层fVC融合原始RGB像素体FC和光度方差特征体FV，使用3D卷积层fMΛ融合光度峰值特征体FM和几何特征体FΛ,最后在可训练比例系数αMΛ的控FΛ])；3步骤二、将多模态神经编码体和非结构化多视图的原始RGB像素体转换为体积密度和步骤三、在构建的多模态神经编码体的基础上采步骤四、利用光线上下文特征解码体积密度和辐射亮度射亮度渲染生成自由视角RGB_D图像，然后结合光度监督与稀疏的几何监督引导低纹理场2.根据权利要求1所述的基于多模态信息融合的可泛化神经辐射场重建方法，其特征3.根据权利要求1所述的基于多模态信息融合的可泛化神经辐射场重建方法，其特征学习多模态神经编码体FL中编码的三维环境几何与外观信息，神经辐射场fA从多模态神经编码体FL和非结构化多视图的原始RGB像素体FC中通过连续插值转换为相应的体积密度σ和A4.根据权利要求3所述的基于多模态信息融合的可泛化神经辐射场重建方法，其特征然后，基于变换器残差网络fTrans将光线上下文信息中的多模态神经编码体FL和原始5.根据权利要求4所述的基于多模态信息融合的可泛化神经辐射场重建方法，其特征4所述渲染生成自由视角RGB_D图像的过程是通过可微分光线步进算法对已解码的体积i表示第i个采样点到下一点的间距。5[0002]基于多视角视觉信息的场景重建和新视图生成是计算机视觉和图形学中长期存场景几何和外观信息推断上的泛化潜力。这些方法利用了最近在深度多视角立体视觉图的视锥体中的扫掠平面上，在输入参考视图处构建成本体积对场景几何结构进行隐式地仅少量视角可用时，现有可泛化神经辐射场表面重建精度低，尤其针对边界和反光等复杂[0004]本发明的目的在于，提供一种基于多模态信息融合的可泛化神经辐射场重建方[0007]步骤二、将多模态神经编码体和非结构化多视图的原始RGB像素体转换为体积密和辐射亮度渲染生成自由视角RGB_D图像，然后结合光度监督与稀疏的几何监督引导低纹度特征体的构建过程是首先根据非结构化多视图，使用双向融合骨干网络提取图像特6I,表示非结构化多视图。,为第i个辅助视图的相机参数，K、R和为参考视图的相机参；特征体和几何特征体通过渐进地互补融合构建[0024]计算光度峰值特征体PM：[0027]使用3D卷积层融合原始RGB像素体和光度方差特征体，使用3D卷积层融合光度峰值特征体a的控制下生成[0028]r"=f"r";r")；7[0030]Fl=F"C+a"Fh；峰值特征体PM和几何特征体的融合特征体。模态神经编码体Ft和非结构化多视图的原始RGB像素体FC转换为体积密度σ和辐射亮度编码体中编码的三维环境几何与外观信息，神经辐射场从多模态神经编码体和非结构化多视图的原始RGB像素体FC中通过连续插值转换为相应的体积密度和辐射亮态神经编码体Ft依据坐标进行三线性插值。r')表示为：用光线上下文特征解码体积密度和辐射亮度的过程是基于多层感知器、和[0044]F"=f"(F",x)；[0045]o,="(F")；8[0046]r="(F",)；[0047]所述渲染生成自由视角RGB_D图像的过程是通过可微分光线步进算法对已解码的而在有限视角下增强了多模态神经编码体的9度特征体r'，通过渐进地互补融合构建高信息量的多模态神经编码体。所述几何特征体内融合有几何信息，所述光度特征体r'内融合有光度信息和语义先验的语义信息，在构建的多模态神经编码体Ft的基础上采样光线，基于变换器网络对光线上下文特征进至2张辅助图像特征变换到参考视角的视锥体中，融合多视角特征的方差信息与峰值信息结构化多视图I,eRt编码为语义增强的光度特征体：[0076]r'-f"u)；,为第i个辅助视图的相机参数，K、R和为参考视图的相机参；[0086]光度方差特征体本质上是通过多视图的像素匹配来构建的，已隐含[0088]采用如图6所示的流程，渐进地将语义增强的光度特征体与合形成低纹理环境的多模态神经编码体Ft。所使用的3DCNN的结构，即具有下采样卷积度峰值特征体PM用于编码完备的语义信息和光度信息的融合信息:[0092]光度方差特征体pv和光度峰值[0095]r"=f"r";r")；[0097]Fl=F"C+a"Fh；[0099]步骤二：将多模态神经编码体和非结构化多视图的原始RGB像素体转换为体积密[0105]为了增强重建结果中的高频细节，对(x,v)应用了位置编码将其转换为高频的表征。此外，为了给后续的变换器网络提供采样点的相对位置，也对(r',r)应用了位置编始RGB像素体FC可以提供更多高频外观信息。[0107]由于使用的3DCNN具有区域性的大感受野，多模态神经编码体Ft融合过程中导码体中编码的三维环境几何与外观信息，通过连续插值转换为体积密度与视图相关r')表示为：原点0的最远处和最近处的边界分别为d,和d,。[0113]然后基于变换器残差网络将光线上下文中的环境特征体pt和原始RGB像素和辐射亮度渲染生成自由视角RGB_D图像，然后结合光度监督与稀疏的几何监督引导低纹[0117]F"=f"(F",x)；[0118]o,="(F")；[0119]r="(F",)。[0121]神经辐射场采用了基于物理的体素渲染过程，通过可微分光线步进算法渲染[0126]整体网络模型通过端到端的模式进行训练。训练中使用L2损失函数计算RGB损失[0129]场景外观重建实验在DTU和LLFF数据集上进行，深度重建实验在DTU数据集上进设置与文献保持一致。将DTU数据集上的88个场景数据用于训练所提出的可泛化神经辐射失权重和设置为2和1。使用Adam优化器在具备单个NVIDIATitanRTXGPU的服务器以泛化到LLFF环境。IBRNet沿着光线进行特征融合大幅提升了泛化环境的RGB外观重建性能，其特征融合的范围局限于2D图像与3D光线，因此所生成3D空间的感知相似度较低。MVSNeRF在成本代价体上使用3DCNN对全环境特征进行融合，然而缺少区域和目标级别的射场方法仅使用SFM重建的稀疏关键点，仍能利用体素和光线两种层面的几何监督来实现[0153]图9展示了DTU数据集上的RGB外观重建结果示例，并定性地对比了所提出方法和最先进的基线方法MVSNeRF。本发明的方法针对低纹理环境自由视图生成的结果具有强有[0154]图10展示了DTU数据集上的深度重建结果示例，并定

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN119359934B 一种基于多模态信息融合的可泛化神经辐射场重建方法（浙大城市学院）

文档简介

温馨提示

最新文档

评论

CN119359934B 一种基于多模态信息融合的可泛化神经辐射场重建方法 （浙大城市学院）

文档简介

温馨提示

最新文档

评论

相关文档

CN119359934B 一种基于多模态信息融合的可泛化神经辐射场重建方法（浙大城市学院）