CN119441513A 一种视觉语言大模型混合量化方法、装置和电子设备（中国科学院自动化研究所）

上传人：1*** IP属地：山西上传时间：2026-04-21 格式：DOCX 页数：38 大小：961.50KB 积分：9.6 举报 版权申诉

CN119441513A 一种视觉语言大模型混合量化方法、装置和电子设备（中国科学院自动化研究所）_第2页

CN119441513A 一种视觉语言大模型混合量化方法、装置和电子设备（中国科学院自动化研究所）_第3页

CN119441513A 一种视觉语言大模型混合量化方法、装置和电子设备（中国科学院自动化研究所）_第4页

CN119441513A 一种视觉语言大模型混合量化方法、装置和电子设备（中国科学院自动化研究所）_第5页

已阅读5页，还剩33页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

号院先定义的混合精度量化的搜索空间中选择量化后图像编码器和文本编码器的输出计算第一量并从搜索空间中选择量化方案对视觉语言大模用基于策略梯度的强化学习算法来优化生成量2将图像编码器校准集输入预先建立的图像编码器和文本编码器，将多模态校准集输入预先建立的视觉语言大模型，并从预先定义的将各量化方案及对应的第一量化误差或第二量化误差存入到从图像编码器校准集中随机选择一个批次的数据，输入图像编码从预先定义的混合精度量化的搜索空间中选择一个量化方案将选定的图像文本对输入量化后的图像编码器和原始的文本编根据所述第一语义相似度矩阵和第二语义相似度矩阵计算第一从多模态校准集中随机选择一个批次的数据，使用图像编码器对从预先定义的混合精度量化的搜索空间中选择一个量化方案对视觉语言大模型进行混合精度量化，将图像编码器处理后的图像编码以及文本输入量化后的视觉语言大模型，基于预先定义的状态空间、动作空间和奖励函数，使用强化学3将所述图像编码器量化误差和所述视觉语言大模型量化误差输入奖励函数得到当前根据值网络输出的每个时间步的时序差分误差计算优势函根据当前量化方案与旧量化方案的比率和所述优重复上述对量化方案进行搜索、更新值网络参数、计在所述哈希表中搜索所述当前量化方案，判断所述哈希表中是在所述哈希表中存在所述当前量化方案的情况下，获取所述在所述哈希表中不存在所述当前量化方案的情况下，以预设的概数据集构建模块，用于构建量化标准数据集，所述量化标准数第一计算模块，用于将图像编码器校准集输入预先建立的图像编码器和文本编码器，并从预先定义的混合精度量化的搜索空间中选择量化方案对图像编码器进行训练后量化，码器和视觉语言大模型中的不同模块选择不第二计算模块，用于将多模态校准集输入预先建立的视觉存储模块，用于将各量化方案及对应的第一量化误差或第二量化误差存入到哈希表策略优化模块，用于结合所述哈希表，使用基于策略梯度的强化8.一种电子设备，包括存储器、处理器及存储4程序被处理器执行时实现如权利要求1至6任一项所述视觉语言大模行时实现如权利要求1至6任一项所述视觉语言大模型混5将各量化方案及对应的第一量化误差或第二量化误差存入到结合所述哈希表，使用基于策略梯度的强化学习算法来优化生成量化方案的策6从图像编码器校准集中随机选择一个批次的数据，输入图像编码器和文本编码根据所述第一语义相似度矩阵和第二语义相似度矩阵计算第一从预先定义的混合精度量化的搜索空间中选择一个量化方案对视觉语言大模型将所述图像编码器量化误差和所述视觉语言大模型量化误差输入奖励函数得到根据值网络输出的每个时间步的时序差分误差计算优势函根据当前量化方案与旧量化方案的比率和所述优势函数的估计值，计算优化目7编码器和视觉语言大模型中的不同模块选择据量化前后所述视觉语言大模型的输出计算序，该计算机程序被处理器执行时实现如上述第一方面所述视觉语言大模型混合量化方被处理器执行时实现如上述第一方面所述视觉语言大模型8[0025]在视觉语言大模型的应用中，混合精度量化方法能够有效地提升模型的计算效9[0033]混合精度量化方法的效果在很大程度上依赖于量化校准[0036]在构建量化校准数据集后，接着需要定义一个适当的混[0038]在定义好搜索空间后，需要通过统计量化误差来评估不[0041]步骤S104、将各量化方案及对应的第一量化误差或第二量化误差存入到哈希表[0042]由于视觉语言大模型的量化误差由图像编码器的量化方案和视觉语言大模型的训练后量化，基于量化前后所述图像编码器和所述文本编码器的输出计算第一量化误差，IIIIr表示范数。[0056]本发明通过计算量化前后的语义相似度变化，可以评估量化对编码器性能的影[0057]可选地，上述步骤S103所述的将多模态校准集输入预先并从预先定义的混合精度量化的搜索空间中选择量化方案对视觉语言大模型进行混合精[0059]S1032、从预先定义的混合精度量化的搜索空间中选择一个量化方案对视觉语言。差可以通过比较两个输出之间的差异来衡量，本发明通过计算Y1和YZ之间的余弦距离得性能的同时实现高效的模型压缩。量化后的模型具有更低的计算复杂度和更高的推理速别为和FZ的权重。通过归一化和加权的方式将图像编码器量化误差和视觉语言大模型量化误差两者统一在相同的尺度上，并且可以通过调整w1和wz来控制不同量化误差对化方案而值网络则用于评估当前状态或动作状态对的价值。以策略优化（Proximal[0076]S1052、将所述图像编码器量化误差和所述视觉语言大模型量化误差输入奖励函差分目标viarger(s)的计算公式为：[0084]当前量化方案与旧量化方案的比率用于衡量量化方案的结合当前量化方案与旧量化方案的比率和优势函数的估计值来基于上述优化目标i(0)函统一到相同的尺度上。这种设计使得算法在搜索过程中能够同时考虑多种量化误差的影[0094]S1052在所述哈希表中存在所述当前量化方案的情况下，获取所述当前量化方案[0095]如果哈希表中存在当前量化方案，这意味着之前已经计算过这个方案的量化误概率计算当前量化方案p和哈希表中已有量化方案p;的编辑距离dr，取编辑距离dr最小这个方案的量化误差作为当前方案的量化误差的自注意力模块中的V矩阵和自注意力图共享相同的量化位宽，对于感知机模块中的每个线V矩阵和自注意力图也共享相同的量化位宽。这种共享量化位宽的策略有助于减少量化参言大模型混合量化装置与上文描述的视觉语言大模第一计算模块202，用于将图像编码器校准集输入预先建立的图像编码器和文本先定义的混合精度量化的搜索空间中选择量化方案对视觉语言大模型进行混合精度量化，根据量化前后所述视觉语言大模型的输出计算第二存储模块204，用于将各量化方案及对应的第一量化误差或第二量化误差存入到[0105]图4示例了一种电子设备的实体结构示意图，该电子设备可以包括：处理器[0106]此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以以是或者也

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN119441513A 一种视觉语言大模型混合量化方法、装置和电子设备（中国科学院自动化研究所）

文档简介

温馨提示

最新文档

评论

CN119441513A 一种视觉语言大模型混合量化方法、装置和电子设备 （中国科学院自动化研究所）

文档简介

温馨提示

最新文档

评论

相关文档

CN119441513A 一种视觉语言大模型混合量化方法、装置和电子设备（中国科学院自动化研究所）