版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
并以其作为指导信息对原本的多媒体特征进行使得多模态模型输出更加符合用户提出的文本2对所述多媒体进行特征处理,得到包括多媒体全局特征和/或视觉细节令牌的所述多对所述文本进行特征处理,得到包括文本全局特征和/或文本细节特征的所述文本特利用基于所述文本全局特征提取到的第一语义信息对所述多媒体特征进行全局增强利用基于所述文本细节特征提取到的第二语义信息对所述多媒体特征进行细节增强对所述文本指导的全局掩码和所述文本指导的细节感知令牌进行基于交叉注意力操作,利用第一潜变量对文本全局特征进行语义所述利用基于所述文本全局特征提取到的第一语义信息对所述多媒体特征进行全局在第一感知层中,基于交叉注意力操作,利用第二潜变量所述利用基于所述文本细节特征提取到的第二语义信息对所述多媒体特征进行细节在第二感知层中,利用文本细节指导令牌对所述多媒体特3将所述文本引导视觉标识和所述分词后文本标识合并后输入到所述构建多模态训练样本;其中,所述多模态训练样本在保持视觉编码器和大语言模型的权重不变的情况下,利用所述将所述文本指导的全局掩码训练结果与所述文本指导的细节感知令牌训练结果融合投影器,用于对所述多媒体特征进行转换处理,得到与大语言全局处理模块,用于利用所述文本特征对所述多媒体特征进行全细节处理模块,用于利用所述文本特征对所述多媒体所述大语言模型,用于将所述文本指导的全局掩码和所述文本指导的特征处理模块,用于对所述多媒体和所述文本进行特征增强处理模块,用于利用所述语义信息对所述多媒体特征进生成模块,用于将所述文本指导视觉标识输入到大语言模型,12.一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执4处理器执行时实现权利要求1至8中任一项5[0010]将所述文本指导视觉标识输入到大语言模型,生成与所述多媒体相关的响应结[0015]将所述文本指导的全局掩码训练结果与所述文本指导的细节感知令牌训练结果67模型输出更加符合用户提出的文本需求的响定顺序出现的多个操作,这些操作可以不按照其在本文中出现的顺序来执行或并行执行。8像)和语言(文本)两种模态信息的人工智具体的大语言模型或具有类似功能的AI系统)进行工作的技术和方法。这里的“文本引导”[0060]104:利用所述语义信息对所述多媒体特征进行增强处理,得到文本指导视觉标9[0061]105:将经过所述文本指导视觉标识修正后得到的目标多媒体特征输入到大语言用于计算与查询向量(即可学习潜变量)之间的相似度,而V权重被用来从Value(同样是文本特征)中聚合信息,生成一个结合了查询特定需求(也就[0066]在经过上述增强处理后得到文本指导视觉标识被输入到多模态模型当中的大语言模型(LargeLanguageModel,LLM)中。这里的文本指导视觉标识是与大语言模型对齐[0067]在本申请的一个或者多个实施例中,所述对所述多媒体和所述文本进行特征处[0070]使用深度学习模型(如BERT,GPT等)进行特征提取的时候,使用深度学习模型如特征,可以使用BERT等模型中的特殊标记(如BERT的[CLS]标记)的输出作为整个文本的全种,比如利用卷积神经网络(CNN)、自编码器(Autoencoder)、深度玻尔兹曼机(Deep[0075]在CNN的较深层,通常会使用全局平均池化(GlobalAv并作为Transformer编码器的输入。编码器通过自注意力机制(Self_Attention[0079]在本申请的一个或者多个实施例中,如图2为本申请实施例提出的一种增强处理[0080]201:利用基于所述文本全局特征提取到的第一语义信息对所述多媒体特征进行[0081]202:利用基于所述文本细节特征提取到的第二语义信息对所述多媒体特征进行[0083]这里所说的第一语义信息是文本全局掩码,第二语义信息是文本细节指导令细节增强处理,就需要对文本指导的全局掩码和文本指导的细节感知令牌进行拼接处理,[0084]下面将通过具体实施例对全局增强处理过程、细节增强[0087]如步骤201所述利用基于所述文本全局特征提取到的第一语义信息对所述多媒体[0088]在本申请方案中,提出一种文本引导视觉特征优化掩码模块(Text_GuidedFeatureOptimizationMask,TG_FOM),TG_FOM模块使用可学习的潜变量来解析文本中的[0092]可学习的潜变量的初始化对于模型的训练效果和收敛速度具有重要影响。在TG_[0097]将文本全局掩码通过零初始化的线性层(作为缓冲层)与原始视觉编码器输出的[0098]经过TG_FOM模块处理后的多媒体特征被输出到后续的网络层中进行进一步的处[0102]如步骤202所述利用基于所述文本细节特征提取到的第二语义信息对所述多媒体[0103]在本申请方案中,还提出一种文本引导细节感知器模块(Text_GuidedDetail[0104]交叉注意力机制是Transformer模型中的一种重要组件,特别适用于处理多模态(Key)和值(Value)。这种设置使得模型能够根据文本查询去检索和聚合图像中相关的信[0110]TG_DP模块初始化了一组可学习的潜变量(也就是第二潜变量),其数量根据任务[0111]在一可选方案中,利用文本细节指导令牌对所述多媒体多媒体特征转换成与大语言模型(LLM)预训练的语言嵌入令牌相兼容的形式,以便能够将得这些块的视觉特征后,添加位置嵌入和一个可学习的多层感知机(MLP)层以恢复在分割[0122]304:将所述文本指导的全局掩码训练结果与所述文本指导的细节感知令牌训练确保视觉和文本嵌入在共同空间中具有相似[0131]全局处理模块44,用于利用所述文本特征对所述多媒体[0132]细节处理模块45,用于利用所述文本特征对所述多媒体记器和文本嵌入模块顺序地将文本数据转换为标记ID及其对应的嵌入式分词后文本标识[0138]如图5为本申请实施例提供的全局处理模块的处理流程示意图。图5展示了FOM模块的具体框架。首先初始化一组与视觉细节令牌数量相同的可学习的潜变量嵌入Lm(也就节指导令牌与第二潜变量Lh相连接。第二层负责在细粒度文本指导下生成细节感知令解析出的文本指令特征作为查询(Query)进行第二次交互。第二层的输出是压缩后的多媒体令牌由于多媒体令牌的特征空间与原始视觉语言模型(VLM)的视觉特征有显著同设置和众多多模态任务进行广泛实验,表明所提出的TG_LLaVA不仅能带来显著的好处,请方案作为智能客服可以对用户提供的图像信息案作为智能秘书可以依据指令对文件截图执行总结计算[0165]对所述文本进行特征处理,得到包括文本全局特征和/或文本细节特征的所述文[0167]利用基于所述文本细节特征提取到的第二语义信息对所述多媒体特征进行细节[0170]所述利用基于所述文本全局特征提取到的第一语义信息对所述多媒体特征进行[0173]所述利用基于所述文本细节特征提取到的第二语义信息对所述多媒体特征进行[0191]将所述文本指导视觉标识输入到大语言模型,生成与所述多媒体相关的响应结[0193]对所述文本进行特征处理,得到包括文本全局特征和/或文本细节特征的所述文[0194]处理器902用于利用基于所述文本全局特征提取到的第一语义信息对所述多媒体[0195]利用基于所述文本细节特征提取到的第二语义信息对所述多媒体特征进行细节[0197]处理器902用于基于交叉注意力操作,利用第一潜变量对文本全局特征进行语义[0198]所述利用基于所述文本全局特征提取到的第一语义信息对所述多媒体特征进行[0201]所述利用基于所述文本细节特征提取到的第二语义信息对所述多媒体特征进行[0203]处理器902用于对所述多媒体特征进行转换处理,得到与大语言模型对齐的多媒[0210]将所述文本指导的全局掩码训练结果与所述文本指导的细节感知令牌训练结果[0211]上述存储器601可被配置为存储其它各种数据以支持在电子设备上的操作。这些该计算机程序/指令被处理器执行时实现图2以及文本指导的细节感知令牌输入大语言模型后,得到准确的与多媒体相关的响应结果。以是或者也可以不是物理上分开的,作为单元
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 麻纺厂生产安全细则
- 2026年海南大学实验电桥测试题及答案
- 2021青岛港湾综评内部模拟题 附教研组审定标准答案
- 2020年国企风控岗笔试试题及答案
- 2026年兵团网格员招聘考试满分刷题题库及官方参考答案
- 2026年数学因数与倍数测试题及答案
- 2020年贸促会校招面试专属题库及应届生适配高分答案
- 2026游乐场游乐设施日常巡检考核题及答案
- 2022幼儿园后厨面试3天突击题库 附全题型标准答案
- 2026文旅局编外文员面试应急应变类考题题库及标准答题答案
- (正式版)JBT 5300-2024 工业用阀门材料 选用指南
- 完整版电力安装工程施工组织设计方案
- 海南大学硕士研究生入学考试复试政治审查表
- 数据中心搬迁规划方案
- 2-半乳甘露聚糖产品介绍北京瓜尔润
- 2023年北京市东城区高考英语一模试题及答案解析
- 吴冬冬:长方体和正方体的认识PPT
- 佛山体育馆选手课件ppt 新疆兵团杨迪-倍的认识4:3
- 房屋租赁缴费明细表Excel模板
- GB/T 2677.8-1994造纸原料酸不溶木素含量的测定
- GB/T 20703-2006船舶电气装置取暖和烹调电器
评论
0/150
提交评论