CN119398163A 多模态大语言模型构建方法及系统（北京大学）

上传人：1*** IP属地：山西上传时间：2026-04-13 格式：DOCX 页数：27 大小：880.80KB 积分：10.2 举报 版权申诉

已阅读5页，还剩22页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本发明提供一种多模态大语言模型构建方述样本文本数据包括正确描述所述样本图像数据的正样本文本数据和错误描述所述样本图像数据的负样本文本数据；基于对比学习损失函数，根据所述样本图像数据和所述样本文本数样本图像数据对应的样本视觉特征表示与所述样本文本数据对应的样本文本特征表示之间的2获取样本图像数据和所述样本图像数据对应的样本文本数据据包括正确描述所述样本图像数据的正样本文本数据和错误描述所述样本图像数据的负基于对比学习损失函数，根据所述样本图像数据和所述样本所述对比学习损失函数是根据所述样本图像数据对应的样本视觉特征表示与所述样本文本数据对应的样本文本特征表示之间的互信息本文本数据为除所述正样本文本数据以外的描述所述样本图像数据中部分内容的文本数根据所述正样本文本数据进行幻觉性样本文本内容的构建，得到所根据所述正样本文本数据、所述难负样本文本数据和所述其它样述第二语义距离表示所述其它样本文本数据对应的其它样本文本特征表示与所述样本视根据所述样本视觉特征表示与所述其它样本文本特征表示，计算得到跨模态互信息，;第i轮迭代训练中的所述正样本文本特征表示，表示第i轮迭代训练中3基于预设幻觉文本提示信息，根据所述正样本文本数据进行幻觉性样6.根据权利要求1至5任一项所述的多模态大语所述基于对比学习损失函数，根据所述样本图像数据和所述样本文基于所述对比学习损失函数，根据所述预处理后的样本文本数样本数据获取模块，用于获取样本图像数据和所述样本图像数据对应的样本文本数模型训练模块，用于基于对比学习损失函数，根据所述样本图像表示与所述样本文本数据对应的样本文本特征表示之间的互8.一种电子设备，包括存储器、处理器及存储程序被处理器执行时实现如权利要求1至6任一项所述多模态大语行时实现如权利要求1至6任一项所述多模态大语言模4[0001]本发明涉及人工智能技术领域，尤其涉及一种多模态大语言模型构建方法及系本数据包括正确描述所述样本图像数据的正样本文本数据和错误描述所述样本图像数据它样本文本数据为除所述正样本文本数据以外的描述所述样本图像数据中部分内容的文所述正样本文本数据对应的正样本文本特征表示与所述样本视觉特征表示之间的语义距5表示第i轮迭代训练中的所述正样本文本特征表示，表示第i轮迭代训练6特征表示与所述样本文本数据对应的样本文本特征表示之间机程序被处理器执行时实现如上述任一种所述多模态大语言模[0016]本发明提供的多模态大语言模型构建方法及系统，从跨提高多模态大语言模型在面对真实视觉数据时的鲁棒到的跨模态表示分布语义对齐并不理想，这也导致了MLLMs缺乏对视觉信息和文本信息的7述样本文本数据包括正确描述所述样本图像数据的正样本文本数据和错误描述所述样本帮助模型区分正确和错误的描述。与所述样本文本数据对应的样本文本特征表示之间的互信息8模态大语言模型在面对真实视觉数据时的鲁它样本文本数据为除所述正样本文本数据以外的描述所述样本图像数据中部分内容的文9所述正样本文本数据对应的正样本文本特征表示与所述样本视觉特征表示之间的语义距[0042]图2为本发明提供的空间优化前后的特征表示分布变化的示意图，可参考图2所与样本视觉数据之间的跨模态互信息较高（即两者之间的相关性或依赖性较强则该样本文本数据的参与权重会较低。相反，如果某个样本文本数据与样本视觉数据之间的跨模态互信息较低（即两者之间的相关性或依赖性较弱则该样本文本数据的参与权重会较高。;表示第i轮迭代训练中的所述正样本文本特征表示，表示第i轮迭代训练中的所述难表示第三语义距离；表示所述其它样本文本特征表示在本轮迭代训练中图2所示。言模型，例如，LLaVA和MiniGPT_4，并通过POPE（Polling_basedObjectProbing文本大语言模型以及训练数据的影响，对于任意问题都会倾向于回复Yes,因此本实施例为了能够评价不同算法的优劣，在精确率和召回率的基础上提出了F1值的概念，表2不同模型在MMhal_Bench评估基准上[0053]通过与其他最新的视觉_语言模型进行比较，应用了本发明提供的多模态大语言语言模型构建系统与上文描述的多模态大语言模型构建方法明提供了一种多模态大语言模型构建系统，包括样本数据获取模块401和模型训练模块错误描述所述样本图像数据的负样本文本数据；模型训练模块402用于基于对比学习损失根据所述样本图像数据对应的样本视觉特征表示与所述样本文本数据对应的样本文本特模态大语言模型在面对真实视觉数据时的鲁数据包括正确描述所述样本图像数据的正样本文本数据和错误描述所述样本图像数据的所述样本文本数据对应的样本文本特征表示之间的互信息构[0059]此外，上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以指令被计算机执行时，计算机能够执行上述各方法所提供的多模态大语言模型构建方法，文本数据包括正确描述所述样本图像数据的正样本文本数据和错误描述所述样本图像数示与所述样本文本数据对应的样本文本特征表示之间的互信述样本文本数据包括正确描述所述样本图像数据的正样本文本数据和错误描述所述样本特征表示与所述样本文本数据对应的样本文本特征表示之间的互信息以是或

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN119398163A 多模态大语言模型构建方法及系统（北京大学）

文档简介

温馨提示

最新文档

评论

CN119398163A 多模态大语言模型构建方法及系统 （北京大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN119398163A 多模态大语言模型构建方法及系统（北京大学）