CN118823528B 一种基于大模型和注意力机制的多模态数据融合分类方法（江南大学）

上传人：1*** IP属地：山西上传时间：2026-04-08 格式：DOCX 页数：41 大小：1.54MB 积分：10.8 举报 版权申诉

CN118823528B 一种基于大模型和注意力机制的多模态数据融合分类方法（江南大学）_第2页

CN118823528B 一种基于大模型和注意力机制的多模态数据融合分类方法（江南大学）_第3页

CN118823528B 一种基于大模型和注意力机制的多模态数据融合分类方法（江南大学）_第4页

CN118823528B 一种基于大模型和注意力机制的多模态数据融合分类方法（江南大学）_第5页

已阅读5页，还剩36页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

andMulti-attentionFusionNetwork一种基于大模型和注意力机制的多模态数大模型和注意力机制的多模态数据融合分类方入至分类模型中的滑动窗口交叉注意力融合模图像特征向量和文本特征向量输入至分类模型分类结果。本申请直接对不同图像特征进行融2将所述第一图像数据和所述第二图像数据分别输入至视觉特征提取器中进行特征提将所述第一图像特征向量和所述第二图像特征向量输入至训练好的分类模型中的滑将第一图像特征向量和第二图像特征向量分别输入至沿正传播方向依次串联的第一将第一中间图像特征向量的查询向量、第二中间图像特征向量将第二中间图像特征向量的查询向量、第一中间图像特征向量将所述第一目标图像特征向量、所述第二目标图像特征向量和所将所述目标对象的目标特征向量输入至训练好的分类模型中的全连2.根据权利要求1所述的基于大模型和注意力机制的多模态数据融合分类方法，其特3.根据权利要求1所述的基于大模型和注意力机制的多模态数据融合分类方法，其特,,,,4.根据权利要求1所述的基于大模型和注意力机制的多模态数据融合分类方法，其特3,,,,5.根据权利要求1所述的基于大模型和注意力机制的多模态数据融合分类方法，其特将所述第一目标图像特征向量的键向量和所述文本特征向量的查询向量输入至第一对所述第一异构数据融合特征向量进行归一化，并将归一化后征向量和所述第一目标图像特征向量的特征值向量输入至第二矩阵叉乘子模块进行矩阵将所述第二异构数据融合特征向量和所述文本特征向量的查询向量输入至第一残差将所述第二目标图像特征向量的键向量和所述文本特征向量的查询向量输入至第三对所述第三异构数据融合特征向量进行归一化，并将归一化后征向量和所述第二目标图像特征向量的特征值向量输入至第四矩阵叉乘子模块进行矩阵将所述第四异构数据融合特征向量和所述文本特征向量的查询向量输入至第二残差对所述第一目标融合特征向量和所述第二目标融合特征向量进行拼接6.根据权利要求5所述的基于大模型和注意力机制的多模态数据融合分类方法，其特,,4,,,7.根据权利要求1所述的基于大模型和注意力机制的多模态数据融合分类方法，其特所述视觉特征提取器包括沿正传播方向依次串联的补丁嵌入模块、第一EfficBlock模块、第一下采样模块、第二EfficientViTBlock模块、第二下采样模块和第三8.根据权利要求1所述的基于大模型和注意力机制的多模态数据融合分类方法，其特,其中，表示第一图像特征向量，EfficientviT表示视觉特征提取器，Embed表示嵌,,其中，fss表示文本特征向量，pooling表示池化操作，BERT表示文本特征提取器，特征获取模块，用于获取目标对象的第一图像特征向量5将所述第一图像数据和所述第二图像数据分别输入至视觉特征提取器中进行特征提第一特征融合模块，用于将所述第一图像特征向量和所述第第一目标图像特征向量获取子模块，用于将第一中间图像特征中间图像特征向量的键向量和特征值向量同时输入至沿正传播方向依次串联的第二归一第二目标图像特征向量获取子模块，用于将第二中间图像特征中间图像特征向量的键向量和特征值向量同时输入至沿正传播方向依次串联的第二归一第二特征融合模块，用于将所述第一目标图像特征向量分类模块，用于将所述目标对象的目标特征表示输入至训程序，所述计算机程序被处理器执行时实现权利要求1_8任一项所述的基于大模型和注意6合特征再次融合得到目标对象的目标图像特征，并将该目标图像特征与文本特征进行融融合会使得模型过度关注目标对象的图像特征，无法正确平衡文本模态和图像模态的信[0008]将所述第一图像特征向量和所述第二图像特征向量输入至训练好的分类模型中的滑动窗口交叉注意力融合模块，输出第一目标图像特征向量和第二目标图像特征7[0009]将第一图像特征向量和第二图像特征向量分别输入至沿正传播方向依次串联的[0017]f=W，8[0032]将所述第一目标图像特征向量的键向量和所述文本特征向量的查询向量输入至合特征向量和所述第一目标图像特征向量的特征值向量输入至第二矩阵叉乘子模块进行[0034]将所述第二异构数据融合特征向量和所述文本特征向量的查询向量输入至第一[0035]将所述第二目标图像特征向量的键向量和所述文本特征向量的查询向量输入至合特征向量和所述第二目标图像特征向量的特征值向量输入至第四矩阵叉乘子模块进行[0037]将所述第四异构数据融合特征向量和所述文本特征向量的查询向量输入至第二9[0052]将所述第一图像数据和所述第二图像数据分别输入至视觉特征提取器中进行特[0054]其中，所述视觉特征提取器包括沿正传播方向依次串联的补丁嵌入模块、第一块和第三EfficientViTBlock模块，第一EfficientViTBlock模块、第二EfficientViTBlock模块和第三EfficientViTBlock模块均包括沿正传播方向依次串联的第一深度卷积[0064]本发明还提供了一种基于大模型和注意力机制的多模态数据融合分类装置，包[0068]第一目标图像特征向量获取子模块，用于将第一中间图像特征向量的查询向量、第二中间图像特征向量的键向量和特征值向量同时输入至沿正传播方向依次串联的第二[0069]第二目标图像特征向量获取子模块，用于将第二中间图像特征向量的查询向量、第一中间图像特征向量的键向量和特征值向量同时输入至沿正传播方向依次串联的第二[0073]本申请提供的基于大模型和注意力机制的多模态数据融合分类方法利用窗口多[0075]图1为本申请提供的基于大模型和注意力机制的多模态数据融合分类方法流程[0079]图5为本申请提供的基于大模型和注意力机制的多模态数据融合分类方法框架示的(h)为不同方法在VS分类任务中的指标对比结[0081]图7为本申请提供的基于大模型和注意力机制的多模态数据融合分类装置结构示[0086]S20：将第一图像特征向量和第二图像特征向量输入至训练好的分类模型中的滑[0094]本申请提供的基于大模型和注意力机制的多模态数据融合分类方法设计了滑动[0104]具体地，视觉特征提取器包括沿正传播方向依次串联的补丁嵌入模块、第一块和第三EfficientViTBlock模块，第一EfficientViTBlock模块、第二EfficientViTBlock模块和第三EfficientViTBlock模块均包括沿正传播方向依次串联的第一深度卷积后进入EfficientViTBlock，在EfficientBlock中先依次经过DWConv(深度卷积)和FFN令牌的数量减少4倍(分辨率的2倍子采样)，然后将下采样过后的特征再次输入到第二EfficientViTBlock模块中，基于第三EfficientViTBlock模块的输出得到图像特征向的大小为H*W*C的输入特征向量fA和fB，窗口划分机制将其分别划分为不重叠的M*M个局部[0113]f=W，，融合特征向量和第一目标图像特征向量的特征值向量输入至第二矩阵叉乘子模块进行矩融合特征向量和第二目标图像特征向量的特征值向量输入至第四矩阵叉乘子模块进行矩[0143]⃞=con[0148]示例地，如图5所示为本申请实施例提供的基于大模型和注意力机制的多模态数合的滑动窗口交叉注意力融合模块和用于图像文本融合的异构数据交叉注意力融合模块领域进行了实验，实验采用公开的多模态Derm7pt数据集，该数据集包含1011个多模态实多任务数据集，需要同时进行八个标签的分类任务，分别为diagnosis(DIAG)、blue[0154]精确率(Precision)表示在被所有预测为正的样本中实际为正样本的概率，精确[0156]敏感性(Sensitivity)是针对原样本而言的，其含义是在实际为正的样本中被预[0166]除此之外，本申请实施例还选择了目前在Derm7pt数据集上使用的最先进的几种本申请提供的方法在大部分分类任务上的分类效果都达到了最高，其平均准确度也最高，达到了79.14相较现有技术提高了1.54%;74.270.987.179.766.174.260.077.273.768.665.184.382.564.373.457.578.071.768.663.387.983.067.374.461.376.072.769.970.687.184.868.671.665.680.874.975.470.688.183.370.974.763.880.876.077.669.288.581.671.376.164.481.476.378.270.187.884.373.477.061.581.876.879.4974.3486.6783.0370.2976.7166.8582.1177.6077.2177.9789.8784.0576.7178.7367.8580.7679.14类任务中的SEN、SPE、PRE和F1_score指标对比结果示意图，图6中的(b)为Inception_combine、AMFAM、FusionM4Net、TFormer以及本申请提供的方法在DAG分类任务中的SEN、SPE、PRE和F1_score指标对比结果示意图，图6中的(c)为Inception_combine、AMFAM、FusionM4Net、TFormer以及本申请提供的方法在DIAG分类任务中的SEN、SPE、PRE和F1_score指标对比结果示意图，图6中的(d)为Inception_combine、AMFAM、FusionM4Net、的方法在PN分类任务中的SEN、SPE、PRE和F1_score指标对比结果示意图，图6中的(f)为的SEN、SPE、PRE和F1_score指标对比结果示意图，图6中的(g)为Inception_combine、作为SEN和PRE的算术平均值增加了2.3这表明本申请提供的方法具有更好的鲁棒性和仅使用连接并不能提高分类结果的准确性，例如，联合使用临床图像和皮肤镜图像准确率可以达到79.14%;架提供可调用接口，以实现对大规模预训练模型在下游任务微调并部署的快捷调用，[0175]用IntelliJIDEA创建项目的时候，选择SpringInttializr直接胜场SpringBoot框架，首先创建一个类将数据预处理方法和效果最佳模型封装到函数中，然后在就可以通过接口的形式对新的数据集进行微调署在算力不强的设备上也可以享受到大模型带来的显著效果与便利。申请实施例还提供了一种基于大模型和注意力机制的多模态数据融合分类装置，如图7所[0181]第一目标图像特征向量获取子模块，用于将第一中间图像特征向量的查询向量、第二中间图像特征向量的键向量和特征值向量同时输入至沿正传播方向依次串联的第二[0182]第二目标图像特征向量获取子模块，用于将第二中间图像特征向量的查询向量、第一中间图像特征向量的键向量和特征值向量同时输入至沿正传播方向依次串联的第二现在流程图一个流程或多个流程和/或方框图一个方框或多个方框

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN118823528B 一种基于大模型和注意力机制的多模态数据融合分类方法（江南大学）

文档简介

温馨提示

最新文档

评论

CN118823528B 一种基于大模型和注意力机制的多模态数据融合分类方法 （江南大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN118823528B 一种基于大模型和注意力机制的多模态数据融合分类方法（江南大学）