CN118779442B 用于辅助视力障碍用户的社交平台图像理解方法及系统 (浙江大学)_第1页
CN118779442B 用于辅助视力障碍用户的社交平台图像理解方法及系统 (浙江大学)_第2页
CN118779442B 用于辅助视力障碍用户的社交平台图像理解方法及系统 (浙江大学)_第3页
CN118779442B 用于辅助视力障碍用户的社交平台图像理解方法及系统 (浙江大学)_第4页
CN118779442B 用于辅助视力障碍用户的社交平台图像理解方法及系统 (浙江大学)_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

US2017330336A1,2017.11.16用于辅助视力障碍用户的社交平台图像理本发明公开了一种用于辅助视力障碍用户台待阅读信息的截屏以及用户的语音文本输入明提供的方法能帮助视力障碍的用户快速理且2获取社交平台的截屏图像以构建数据集,所述数据集包括截屏图所述图像探索模块,基于所选取的目标图像元素和对应的详细描述,所述图像探索模块通过图像分割模型生成截屏图像中各图像元素的嵌所述显著特征采用自注意力机制对输入的目标图像元素和详细描述进行特征提取以所述推荐信息通过计算增强图像特征与增强文本特征所述交互问答模块,用于获取输入的语音文本,并根据图文信息将社交平台待阅读信息的截屏以及用户的语音文本输入至多模态大2.根据权利要求1所述的用于辅助视力障碍用户的社交平台图像理解方法,其特征在3.根据权利要求1所述的用于辅助视力障碍用户的社交平台图像理解方法,其特征在4.根据权利要求3所述的用于辅助视力障碍用户的社交平台图像理解方法,其特征在5.根据权利要求1所述的用于辅助视力障碍用户的社交平台图像理解方法,其特征在34于难以获取到图片中丰富的信息而常被排除[0004]专利文献CN116030264A公开了一种用于辅助视觉障碍者[0007]本发明的目的在于提供一种用于辅助视力障碍用户的社交平台图像理解方法及5[0014]利用数据集对交互网络进行训练,以获得用于辅助理解图像信息的多模态大模6碍用户获取全面且具有特定风格偏好的信息,从而进一步提升视力障碍用户的社交参与[0033]图1为本实施例提供的用于辅助视力障碍用户的社交平台图像理解方法的流程示[0040]如图1所示,为本实例提供的一种用于辅助视力障碍用户的社交平台图像理解方7[0047]利用数据集对交互网络进行训练,以获得用于辅助理解图像信息的多模态大模[0050]如图2所示为本实施例提供的多模态大模型的工作流程图,其中用户在浏览社交供的模型能够准确地确定帖子的情感类型并[0053]本实施例提供的模型能够通过考虑上下文和用户偏好的图像描述功能获取这些[0054]如果当用户获取完图像的描述之后,有对特定的图像元素进行进一步探索的需8制LLaVA的temperature来实现不同的输出风格,越高的temperature意味着生成内容更具重要性优先级依次通过触摸探索对象,帮助他们快速掌握图像的关键信息并形成全面理图像特征的相关性,使用文本特征作为Key和Value,图像特征作为Query进行跨注意力计9过MAE预训练的VisionTransformer(ViT)生成图像的嵌入表示。pro

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论