AIGC时代的多模态知识工程思考与展望_第1页
AIGC时代的多模态知识工程思考与展望_第2页
AIGC时代的多模态知识工程思考与展望_第3页
AIGC时代的多模态知识工程思考与展望_第4页
AIGC时代的多模态知识工程思考与展望_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

AIGC分享人:李直旭(研究员、博导)计算机科学技术学院2023.03.18算机科学技术学院研究员、博士生导师识工场实验室执行副主任、数据工程与多模态智能研究组负责人实验室办公室主任•澳大利亚昆士兰大学计算机科学博士•中国人民大学信息学院计算机学士&硕士•前苏州大学计算机学院教授、博导•前科大讯飞苏州研究院副院长(兼)图谱、知识工程与认知智能、自然语言处理等利20余项级纵向科研项目累计近十项、科大讯飞等人工智能企业保持长期合作01AIGC时代:未来已来KG AIGC时代:未来已来ChatGPT的爆红出圈宣告了生成式人工智能(AIGC)时代的到来随着算法的不断迭代,生成式人工智能技术(AIGC)不断发展。AIGC (一个很有意思的画,来自互联网)展脉络文图生成AIGC–逼真、高清;风格、意境文图生成AIGC–精致、可控视频生成AIGC–自然流畅、栩栩如生迪熊木船多模态AIGC大模型驱动的具身智能PaLME传感相结合,建立语言和感知的链ü在机器人操作规划、视觉问答和字幕生成等任务中进行了端到端的训练ü主要架构思想:将连续的、可感知的观察数据注入预先训练的语言模型的嵌入空间中,以使其能够理解这些连续数据。这是通过将连续观测数据编码为与语言嵌入空间中的语言标记具有相同维度的向量序列来实现的。这种连续信息以类似于语言标记的方式注入语言模型中。IstheAIGAMEOVER?•唯一导致AI进步的是更多的数据、更有效的计算。•AI领域更难的挑战已经解决了。「游戏结束了!」•目前,大多数领域,大模型已经(暂时)战胜了精心设计的知识工程。•然而:IstheAIgameREALLYover?AIGC的阿克琉斯之踵逻辑推理不靠谱:不论是数学逻辑还是专业逻辑Q:3个人3天用3桶水,9个人9天用几桶水?A逻辑推理不靠谱:不论是数学逻辑还是专业逻辑Q:3个人3天用3桶水,9个人9天用几桶水?A:根据题目可知,3个人在三天内用了3桶水,可以推算出每天每人用水量为:3桶/3人/3天=1桶/人/天因此,在9个人使用9天内需要的总用水量为:1桶/人/天×9人×9天=81桶所以,9个人在九天内需要用81桶的水。 (正确答案应该是:27桶水)无法真正为领域类问题提供专业、靠谱的答案Q:华为手机没电了,请问能否使用苹果手机的充电器A:可以的,苹果手机和华为手机使用的充电器接口都是标准的USB接口,因此苹果手机的充电器也可以用来给华为手机充电。不过,请注意使用符合标准的充电器。强强语言,弱知识:“一本正经地胡说八道”Q:红楼梦中贾宝玉为什么要葬花?A:据小说描写,贾宝玉葬花的原因是因为他感到世间美好事物的短暂和凋零…Q:鲁迅和周树人是同一个人吗?A:不是同一个人,鲁迅和周树人是两个不同的人。鲁迅…而周树人(1895年1月25日-1968年11月6日)也是中国著名的现代作家和翻译家,代表作品有《春蚕》、《子夜》等。实实时信息自更新慢,新旧知识难以区分Q:现任韩国总统是谁?A:现任韩国总统是文在寅。Q:gpt4是什么时候发布的?A:抱歉,目前还没有关于GPT-4的官方发布计划和消息。能力尚不完善文到图生成:来自StableDiffusiontataphotographofaronaut航员的照片Input:Acouchontheleftofachair.沙发问题泄露问题方位理解混乱问题AIGC跨模态生成虽然视觉效果惊艳,但往往存在较大的信息不对称性视觉问答VQA:来自BLIP2Isthisillegalorlegal?“在车上看手机是否合法”进行推理。谷歌的谷歌的PaLM-E虽然依赖于如此大规模的参数初步实现了对机器人的操控,但其千亿规模参数,DEMO展示却:、千倍、甚至万倍?本质、前提与不足剖析用语言解释视觉:将语言中蕴含的符号知识体系和逻辑推理能力延伸至对视觉内容的理解;。1)海量高质量图文配对数据;2)文字富含事实知识和常识;组合泛化问题属性泄露问题方位理解混乱语义理解错误事实知识不足逻辑推理欠缺常识储备不足低成本全面准确地掌握人类的知识、常识与逻辑推理能力。 多模态认知智能cognition抽取多模态图谱常识图谱跨模态推理 (符号/隐性)跨模态归纳与演绎跨模态概念想象Inference语言模型Understanding大规模知识网络架cognition抽取多模态图谱常识图谱跨模态推理 (符号/隐性)跨模态归纳与演绎跨模态概念想象Inference语言模型Understanding大规模知识网络生成推荐问答搜索MetaMeta-领生成群智萃取 (符号主义)海量预训练数据现路径 (符号主义)海量预训练数据 (连接主义、经验主义)••端到端、干预少•“数”尽其用•符号表达、可见可控概率关联、简单鲁棒易推理、可控、可干预、可解释••符号表达、可见可控概率关联、简单鲁棒精选数据+专家知识数据转换成符号知识的过程往往伴随着巨大的信息损失,隐性知识、难以表达的知识是损失信息中的主体往往难以学习从因到果、数据转换成符号知识的过程往往伴随着巨大的信息损失,隐性知识、难以表达的知识是损失信息中的主体概括到具体、从现象到本质、从具体到一般等逻辑关系多模态知识图谱(MMKG):当前多模态知识工程的主要形式•在传统知识图谱的基础上,增加多种模态数据以丰富符号知识的表达•多模态数据包括但不限于:图像、视频、语音、代码《葡萄牙人》多模态知识图谱(MMKG):两种主流形式多多模态知识图谱的两种常见形式:•多模态数据仅作为文字符号实体的关联属性存在•多模态数据也可作为图谱中的实体存在,可与现有实体发生广泛关联AIGC多模态大模型VS.大规模多模态知识图谱••关联推理强:可以学习掌握大量跨模态知识模式,适配新的领域和任务靠程度低:所生成内容可靠性堪忧,存在误差累推理能力,更无因果推理能力不确定的领域难以进行有效的知识建模和推理工成本高:其构建需要依赖于人工或半自动的方或场景进行修改和调整•专业可信高:其结构和关系清晰,易于理解和解释,可为人类决策提供参考,通常为某个具体应用场景而构建,可提供更精准和针对性的知识支持•可解释性强:以结构化形式表示知识,知识的可访问性、可重用性和可解释性好,对人类友好和更新,可以不断完善和改进 AIGCforMMKGPrompt态大模型中富含的知识。语言模型作为知识库•从语言大模型中探测语言知识•从语言大模型中探测关系知识视觉语言模型作为常识库•从多模态大模型中探测跨模态对齐知识•从多模态大模型中探测视觉常识知识无无论是文本知识还是多(跨)模态知识的获取,都可依靠大模型的辅助,大幅提升知文本中抽取三元组知识多模态:利用多模态AIGC大模型的跨模态生成和理解能力,从给定图文对中抽取多模态知识IGCSchemaheme息源新闻… 息源新闻… 实检测AIGCGChatGPT的知识问答评测结果:AIGC助力MM-KGQA与K-VQA: GforAIGCMMKG参与AIGC的生成能力评估。展望MMKG引导AIGC展望约束生成方案:馏指导以解决各种自然语言约束1.对于图像生成,通过将文本链接到多模态知识图谱的具体实体,提供实体图像信息,帮助正确生成实体对应图像;2.对于文本生成,通过链接到多模态知识图谱的具体实体,提供实体关系属性和实体的文本。MMKG帮助AIGC进行知识编辑知识编辑2.选择每组中信息量大的需要编辑(新增/遗忘)的知识MMKG辅助AIGC的领域(任务)适配问题是应用落地的关键 AIGC+MMKG走向通用人工智能需要AIGC与MMKG携手从视觉感知和语言认知到从视觉感知和语言认知到多模态认知;从连接主义和符号主义到神经符号主义。语言认知多模感知AIGC+MMKG方式1:知识注入增强的预训练大模型过程,学习场景语义的联合表示,显著增强AIGC+MMKG方式2:知识检索增强的多模态生成多图片和检索的全图对齐多图片和检索的全图对齐AIGC+MMKG方式2:知识检索增强的多模态生成使得生成图片和给定物体/风格接近使得生成图片和给定物体接近AIGC+MMKG方式3:因果知识增强的多模态生成识图谱图谱识图谱AIGC+MMKG识图谱图谱识图谱Microsoft365Copilot–知识库与大模型良好协作的产品生产力大提升。挖掘挖掘据和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论