2024AIGC技术发展演进_第1页
2024AIGC技术发展演进_第2页
2024AIGC技术发展演进_第3页
2024AIGC技术发展演进_第4页
2024AIGC技术发展演进_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

AIGC技术发展与演进2024.01为什么是OpenAI率先突破2017年6月,谷歌大脑团队发表论文《Attentionisallyouneed》,首次提出了基于2017年6月,谷歌大脑团队发表论文《Attentionisallyouneed》,首次提出了基于自注意力机制的Transformer模型,并首次将其用于自然语言处理。WHY——OpenAI&ChatGPT年10月,提出3亿参数的

前瞻性AI视野 多样应用探索 2019年10月,提出110亿参数的新预训练模型-T52021年1月,推出1.6万亿参数的2021年5月,发布1370亿参数的LaMDA

人性化AI愿景 正确合作对象 ……

强大技术实力 长期研究投入 2018年6月,推出1.17亿参数的GPT-1模型2019年2月,推出15亿参数的GPT-22020年5月,发布了1750亿参数的GPT-32022年3月,InstructGPT发布,回答更加真实2022年11月,ChatGPT发布,并率先破圈

坚定的科技信仰:坚持不断改进GPT开放的合作伙伴:与微软达成合作较少的商业顾虑:声誉成本、利益冲突ChatGPT创新:持续迭代迈向AGI已实现的创新自然语言处理(NLP)的进步ChatGPT在理解和生成自然语言方面表现出色,展示了先进的自然语言理解和生成能力。上下文感知对话管理能够在一定程度上理解和记忆对话历史,实现

尚未实现的创新高级情感智能面仍有局限。深层次常识推理上下文顺畅的交流。

在复杂的常识推理和深入逻辑分析方面的表现仍有提升空间。跨领域知识应用集成了广泛的领域知识,可以在多种主题上进行交流和生成信息。用户意图识别与适应性回应具备识别用户意图并据此调整回答的能力,能够根据不同的查询提供相应的信息和服务。多模态交互能力集成并理解多种类型的数据(如文本、图像、声音)进行综合交互。

无偏见输出由于训练数据的限制,模型输出可能受到数据、技术等偏见的影响。由于人类的偏见,故AI其实也无法实现完全的无偏见长期记忆和持续学习长期记忆和对过去交互的连续学习能力是目前AI领域的挑战之一。(2024年2月GPT4.0已大幅度增强)GPT4:GPT4:一骑绝尘 进化迅速ChatGPT4.0相较于其他AI工具有若干显著的改进和创新点,使其成为一个更加强大、灵活和用户友好的工具,达到目前其余AI工具难以企及的效果。ChatGPT4.0相较于其他AI工具有若干显著的改进和创新点,使其成为一个更加强大、灵活和用户友好的工具,达到目前其余AI工具难以企及的效果。基本理解全部的问题含义回答问题的增量创新和组合创新能力多模态能力

上下文的逻辑关联能力AI幻觉&AI想象扩展了异感世界的构建能力学科能力的全维、全知、全量OpenAIOpenAI宫斗:利益冲击 观念博弈OpenOpenAI联合创始人、前CEO山姆·奥特曼(SamAltman)OpenAI联合创始人、前总裁格雷格·布罗克曼(GregBrockman)OpenAI联合创始人、首席科学家伊尔亚·苏茨克维(IlyaSutskever)OpenAI首席技术官米拉·穆拉蒂(MiraMurati)微软公司首席执行官萨提亚·纳德拉(SatyaNadella)OpenAI临时首席执行官埃米特·谢尔(EmmettShear)OpenAI的“宫斗”最终以奥特曼的回归落幕,纵观全局既是权利之争也是观念博弈。11月16日:苏茨克维通知奥特曼开会。OpenAI的“宫斗”最终以奥特曼的回归落幕,纵观全局既是权利之争也是观念博弈。月17日:奥特曼、布罗克曼和OpenAI员相继离职。月18会初步同意。11月19日:奥特曼等加入微软,近750名OpenAI员工威胁集体辞职,要求奥特曼回归。月20日:奥特曼、布罗克曼与OpenAI判,微软对奥特曼的回归持开放态度。11月21日:奥特曼与临时首席执行官进行谈判,公司希望在感恩节前解决领导层问题。内部冲突细节曝光。结局:奥特曼达成原则上协议,将重返OpenAI担任CEO,并组建新的董事会。

观念博弈“加速派”和“末日论派”在人类与AI的关系上的分歧。“加速派”:希望通过最高效、最具影响力的技术进步与突破来加速社会、经济或技术系统的变革过程,并把风险视为变革的催化剂。“加速派”:希望通过最高效、最具影响力的技术进步与突破来加速社会、经济或技术系统的变革过程,并把风险视为变革的催化剂。“末日论派”:更加审慎,认为一旦风险不可控,人工智能带来的巨大影响将毁灭人类社会。事件核心人物20242024焦点:改善体验 多模突破五大技术难题:高性能推理硬件成本、AI幻觉率、图像多语种文字生成、生成内容一致性、文本生成视频五大技术难题:高性能推理硬件成本、AI幻觉率、图像多语种文字生成、生成内容一致性、文本生成视频高性能推理硬件成本 AI幻觉率 复杂模型的推理过程需要高性能计算资源,涉及昂贵的硬件和高能耗,限制了AI系统与用户的的快速交互。提高模型的准确性和可靠性,减少幻觉现象是拓展其应用的基础,对于提供质量更高、更可信赖的生成内容至关重要。复杂模型的推理过程需要高性能计算资源,涉及昂贵的硬件和高能耗,限制了AI系统与用户的的快速交互。提高模型的准确性和可靠性,减少幻觉现象是拓展其应用的基础,对于提供质量更高、更可信赖的生成内容至关重要。图像多语种文字生成 生成内容一致性 目前仍难以实现在图像生成中准确绘制除英文以外的其他语言(如中文),文生图技术中的文本处理技术有待优化。保持生成内容的整体风格、语境、样式等特征的一致性(如连环画的角色稳定),仍是AIGC领域的重要挑战。目前仍难以实现在图像生成中准确绘制除英文以外的其他语言(如中文),文生图技术中的文本处理技术有待优化。保持生成内容的整体风格、语境、样式等特征的一致性(如连环画的角色稳定),仍是AIGC领域的重要挑战。文本生成视频 文生视频技术对场景、动作和情感等的深度理解和创造发展迅速,但仍难以生成完备(如任意时长)且可控(如任意动作)的视频,无法满足用户需求。文生视频技术对场景、动作和情感等的深度理解和创造发展迅速,但仍难以生成完备(如任意时长)且可控(如任意动作)的视频,无法满足用户需求。自注意自注意力:动态聚焦 平衡权重用户我昨天晚上去了一个音乐会,主要是为了看我欢的乐队,但是开场乐队也非常棒。对话AI曲给你留下了深刻印象?对话用户激动人心。不过,我也很惊讶于开场乐队的表现。AI队,你最喜欢他们的哪个部分?绘画用户描述:“我想要一个穿着红色连衣裙的女人站在一个红色连衣裙的女人、蓝色的湖、雪山背景。绘画

。 AI价,机器人随后询问了更多关于开场乐队的信息。AI价,机器人随后询问了更多关于开场乐队的信息。个“注意力权重”。的细节和重要性。世界模型:另一可世界模型:另一可能 规划推理“世界模型”指的是一个能够模拟和理解其周围环境的计算模型,试图通过感知输入(如视觉图像、声音等)来构建对环境的内部表示,并在此基础上做出“世界模型”指的是一个能够模拟和理解其周围环境的计算模型,试图通过感知输入(如视觉图像、声音等)来构建对环境的内部表示,并在此基础上做出决策或预测。自回归模型没有规划、推理的能力,单纯根据概率生成自回归的大语言模型从本质上根本解决不了幻觉、错误的问题。世界模型才是正确答案。

世界模型可能带来?提升自主学习能力:手工标注数据,而是通过观察世界如何运作来自主学习,这会极大地提高机器学习系统的效率和适应性。【学习方法】:自监督学习,通过创建外部世界的内部模型来学习【模型目标】:实现更高级的图像分析和理解,理解外部世界的内部模型【核心技术】:【学习方法】:自监督学习,通过创建外部世界的内部模型来学习【模型目标】:实现更高级的图像分析和理解,理解外部世界的内部模型【核心技术】:图像联合嵌入非生成式预测架构,学习表示的层次结构【应用领域】:图像分析和理解类任务JointEmbeddingPredictiveArchitecture(JEPA)提升决策和预测能力:动态和不确定的环境中更好地预测未来的事件和结果,对于自动驾驶车辆的路径规划、金融市场分析等领域有重要意义。单模多模:快速进单模多模:快速进步 模拟世界属性单模态多模态理论问题未来研究数据丰富性单一信息源多信息源高效地从单一信息源提取特征发现并利用跨模态间的隐含关系鲁棒性可以通过其他模态补偿某个模态的不足提高单一模态的抗干扰能力确保多模态数据的一致性和完整性决策准确性决策基于单一信息源可能受限综合各种信息决策更为准确优化单模态的决策策略权衡并结合不同模态的决策处理复杂性处理流程相对简单需要处理和融合各种模态的数据复杂性增加优化单一模态的处理流程有效融合和处理多模态数据信息冗余无法从其他模态中获取冗余信息可能从不同模态中获取重复冗余的信息消除单一信息源中的冗余识别和处理跨模态的信息冗余上下文理解上下文理解可能受限于单一信息源能够结合多种信息更好地理解上下文提高单一模态的上下文理解能力结合多模态信息进行深度上下文理解特征维度特征维度相对较低由于融合了多种信息源特征维度可能会更高从有限的特征中获取最多的信息管理和选择跨模态的高维特征可解释性由于只有一个信息源可能更易于解释多种信息源的融合可能会降低模型的可解释性增强单一模态的模型解释能力提高多模态模型的可解释性和透明度数据同步不需要考虑不同模态之间的同步问题需要确保不同模态的数据是同步的优化单一模态的数据处理速度确保不同模态数据的实时同步和对齐计算资源计算资源需求相对较低需要更多的计算资源处理和融合多种模态数据提高单模态的计算效率优化多模态的计算资源分配和管理多模融合:多模融合:高维互联信息贯通多模态融合多模态融合是指将来自多个不同类型(例如文本、图像、声音等)的数据合并,利用跨模态技术产生一个综合的数据表示或输出,代表一种全新、流畅和高效的人类交互体验,其核心挑战是如何有效地融合这些模式以提供连贯和有意义的输出。在实际应用中,AI可以根据用户的需求,实现各个模态数据间的相互转换,例如:文本生成图像文本生成视频图像生成视频图像理解视频理解在实际应用中,AI可以根据用户的需求,实现各个模态数据间的相互转换,例如:文本生成图像文本生成视频图像生成视频图像理解视频理解 夏日的海滩日落图 海底世界 静态转为动态 地标识别 说 多模关键:意图感多模关键:意图感知 自我演化关键技术难点自适应模态选择与优化:关键技术难点自适应模态选择与优化:在多模态系统中,不同模态(如图像、文本、声音等)的重要性可能因应用场景而异。自适应模态选择与优化,关注如何动态地评估和选择最有用的模态,以提高系统的整体性能。环境动态性:环境和任务需求经常变化,高维度和复杂性:模态选择必须在多个维度(如准确性、计算成本、响应时间等)进行优化,这增加了问题的复杂性。实时多模态处理与决策:强调如何在实时或近实时环境中处理和分析多模态数据,并据此做出决策。实时性与准确性的权衡:进行复杂的多模态数据分析是一个挑战。和决策。人机交互的多模态适应:在人机交互(HCI)环境中,多模态大模型需要能够根据用户的行为和反馈进行自适应调整。这可能包括动态地改变输入/输出模态、调整交互界面等。用户多样性:由于用户的需求和习惯都是独特的,实现个性化的多模态适应性是一个复杂的问题。实时反馈:获取并处理用户实时反馈以进行适应性调整也是一个技术挑战。可能的突破方向意图感知的模态选择:搭载“意图解析引擎”,能从多模态数据中抽取和理解用户或系统深层次的意图,并据此进行选择。时间-空间-模态联合优化:开发全新的“多维度优化框架”,能够在多个维度上动态调整和优化资源,如减少时间延迟,选择最优数据来源地和最有用模态维度。自我演化的交互模式:引入一种全新的“演化算法”,能够模拟人类学习和适应的过程,使HCI系统在识别用户行为模式的同时,还能发现隐藏的需求或习惯,并根据这些信息进行自我演化。多模数据:关系对多模数据:关系对齐 数据映射多模态数据的多模态数据的应用痛点涉及到数据对齐、融合、检索和生成、时序处理以及多模态交互等方面。解决这些难点将有助于推动多模态技术的进一步发展,并实现更多实际应用的落地。不同模态间数据的对齐和融合需解决数据在时间、空间和语义上的对应关系,以及权重分配和互补性问题,以进行有效表示。不同模态间数据的对齐和融合需解决数据在时间、空间和语义上的对应关系,以及权重分配和互补性问题,以进行有效表示。多模态数据的安全性与隐私保护多模态数据通常包含大量的敏感信息,如个人身份、地理位置等。多模态数据的时序处理难以捕捉不同模态数据之间的时序依赖性和动态变化。“多模态安全网格”:多模态数据的安全性与隐私保护多模态数据通常包含大量的敏感信息,如个人身份、地理位置等。多模态数据的时序处理难以捕捉不同模态数据之间的时序依赖性和动态变化。多模态数据的可视化和解释性多模态数据通常是高维度和复杂结构的,其可视化和解释性需要大量的计算资源。“动态多模态数据映射”:利用VR、AR以及动态系统等技术,将数据可视化由静态的展示过程调整为动态的映射过程,实现系统能够根据用户的交互和反馈,实时地调整数多模态数据的可视化和解释性多模态数据通常是高维度和复杂结构的,其可视化和解释性需要大量的计算资源。模态进化:具身智能实体连接模态进化:具身智能实体连接文本大模型 文本大模型图像大模型图像大模型音频大模型视频大模型动态环境适应音频大模型视频大模型动态环境适应时间维度的社会行为空间视频和空间计算大模型空间感知与交互空间视频和空间计算大模型空间感知与交互空间社会学和群体行为具身智能大模型多模态感知与反应社会行为、文化参与和伦理影响多模多模AIGC:异构数据协同推理多模态多模态:即多种异构模态数据协同推理。对话式聊天机器人:ChatGPT、Bard、Newbing、文心一言、智谱、讯飞星火文生视频:Stableanimation、Gen系列、Pika、Animatediff、runway

文生图:文本图像文本图像视频音频图像理解:GPT-4V、Gemini语音生成与交互:StableAudio、ChatGPT文生图:对话交文生图:对话交互 补充提示提示词补充规律:提示词补充规律:精确与具体:尽可能准确地解释用户的提示语补充和解释:若提示语不够具体或含糊会自行补充细节风格和类型:根据指定的艺术风格或类型绘图准则和限制:避免生成侵权或不恰当内容创意和想象:尽力展现用户超现实的想象多样性和包容性:避免人物图像出现偏见和刻板印象视觉创作与语言智能的无缝对接ChatGPT的接入让Prompt设计变得更加简单智能。请为下面一句诗配一张图:“落霞与孤鹜齐飞,秋水共长天一色”视觉创作与语言智能的无缝对接ChatGPT的接入让Prompt设计变得更加简单智能。文生图:逼真渲文生图:逼真渲染 异感生成趋势二:异感世界AI绘画正在引领一场视觉表现的革命,在用户的指引下延伸至抽象和想象的领域,创造出前所未有的异感世界。在细节再现与艺术表达之间寻求平衡的同时,为人类带来全新的感官体验、情感共鸣和思想启发,为未来的视觉艺术带来无限可能。趋势二:异感世界AI绘画正在引领一场视觉表现的革命,在用户的指引下延伸至抽象和想象的领域,创造出前所未有的异感世界。在细节再现与艺术表达之间寻求平衡的同时,为人类带来全新的感官体验、情感共鸣和思想启发,为未来的视觉艺术带来无限可能。趋势一:生成无限逼近真实的图像,并可以优化效果。旨在生成更高质量的人物 旨在生成更高质量的人物文生图:细节放文生图:细节放大 功能扩增左:Midjourney左:MidjourneyV6 右:MidjourneyV5.2三维模型视频生成摄影素材前所未有的真实感:图像具有高度真实感,接近真实。高分辨率:提供最高2048x2048像素的图像分辨。先进的自然语言处理像生成效率。迭代实验和创造性限制:鼓励用户微调提示,结合输出和手工编辑。新的放大选项的纹理效果。改进的文本和手部生成和手部。AIAI绘画:无限想象 创新超越想象具化:生成在现实生活中并不存在的外星生物图像无限创意的设计:服装、建筑、交通工具等的设计方案想象具化:生成在现实生活中并不存在的外星生物图像无限创意的设计:服装、建筑、交通工具等的设计方案风格迁移与融合:以文艺复兴时期的绘画风格进行渲染 风格迁移与融合:以文艺复兴时期的绘画风格进行渲染历史和未来的可视化:古代城市、未来太空站的场景AI绘画具备前所未有的独特性,其创造力和个性化将为人类带来更多样化的创作体验和艺术作品AI绘画具备前所未有的独特性,其创造力和个性化将为人类带来更多样化的创作体验和艺术作品所想所绘:名人书所想所绘:名人书房 时代印记绘画变种:狮形各绘画变种:狮形各异 演化之美 图像重绘:镜像世图像重绘:镜像世界 画布映射原始图片 原始图片AI重新绘图AI重绘的特点艺术风格(如色彩运用、构图等)高度相似场景构建(如自然景观、抽象概念等)保持完整AI重新绘图AI重绘的特点艺术风格(如色彩运用、构图等)高度相似场景构建(如自然景观、抽象概念等)保持完整主题诠释(如内容、叙事等)力求一致细节(如质感、光影效果、布局等)仍有显著差异模型生成逻辑:图像生成模型通常旨在创造新颖的图像,而非复制现有图像,更适合于创造性的图像生成图像理解局限:生成的提示词难以充分且准确描述图像的所有元素和细节,尤其是复杂图像重绘差异内在原因AIAI绘画产品:各有千秋 拟真拟幻DALL·E3MidjourneyAdobeFirefly理解与文本交互在理解文本提示方面比前一版本有显著提升,能更好地与文本协作9没有明确说明其在文本理解方面的性能,但从不同的图像生成任务中可以看出,它能够理解复杂的提示8没有明确的文本理解比较,但在某些场景下表现出较好的理解能力7图像质量和真实感有时图像质量可能显得更为"卡通化"或过度渲染,如在生成疲惫学生肖像时,眼袋过于明显,缺乏真实感7擅长超现实和抽象图像,对细节的处理较为出色,但在某些情况下可能显得较为"柔和"或类似绘画风格9在多个场景中展现出较高的真实感和效果,如在生成人像和室内设计图像时,照明和阴影处理得较好9图像生成特点在超现实和抽象概念的图像生成上表现出创意,如在生成牛仔布制作的房子中,展现了独特叙述能力8在超现实艺术方面表现出了较好的理解和创意,能够很好地结合现实世界图像和奇幻概念8在生成超现实图像时,输出倾向于借鉴儿童书的风格,但在某些情况下可能缺乏所需的创意或超现实感7使用和学习曲线学习曲线相对平缓,适合广泛的用户快速上手并探索多样的视觉创作。9学习曲线较陡峭,主要是在Discord上使用,可能会对某些用户造成限制7对于熟悉Adobe生态系统的用户,学习曲线较为平缓。但其他用户可能需要一些时间来熟8AIAI绘画原则:基础框架 创新偏离保护个人隐私和形象权不违反法律和道德准则避免误导和假信息保护个人隐私和形象权不违反法律和道德准则避免误导和假信息AI绘画原则尊重版权和知识产权 避免敏感和不适当内容 促进多元化和包容性AI绘画原则尊重版权和知识产权避免敏感和不适当内容促进多元化和包容性创新性偏离:创建图像描述时,为了展示技术的多样性和包容性,ChatGPT在描述中加入了不同种族和文化的元素。此举旨在展示技术的创新性,但没有完全遵循历史事创新性偏离:创建图像描述时,为了展示技术的多样性和包容性,ChatGPT在描述中加入了不同种族和文化的元素。此举旨在展示技术的创新性,但没有完全遵循历史事实,可能会导致历史不准确。该现象可称为“创新性偏离”,描述了在追求技术或艺术创新时,有时可能会偏离事实或现实的情况。所以AI绘图在某些特别的领域(如教育和学术)找到创新和真实之间的平衡点。创新性偏离如逻辑错误情感不协调GPT-4V:GPT-4V: 信息提取 内容转换多元场景图像描述功能:对各种领域的图像进行描述,无论是自然风景、都市景观还是特定的行业领域,模型都可以为之生成相关的描述。示例模型可以描述出“这是一个湖边的景色,远处有群山,湖水平静如镜。”信息提取与结构化输出功能:定位图像中的特定物体,进行计数和为每个物体生成详细的描述。示例:用户提供一张公园照片,模型可能回答“照片中有一些鸭子在湖中多模态知识与常识解读功能:具有跨多种信息类型知识,能应用常识推理。示例:用户提供一个人在烹饪的照片,模型可能会指出“这个人在切洋葱,洋葱可能会使人流泪。”

多模态内容转换与推理 功能:从各种来源提取和分析信息,例如从照片中的文字、表格、图表或文档。示例:用户提供一个图表,模型可以解释“这个图表显示了过去五年的销售额增长。”跨语言多模态理解 功能:不仅能处理多种类型的信息,还支持多种语言的处理。示例:用户提供一个法文的图像描视觉信息编码能力功能:根据图像内容生成代码或其他形式的输出。示例:用户提供一个网页设计的截图,模型可以为其生成HTML和CSS代码。文生视频:多模态应用的下一站文生视频:多模态应用的下一站基于GAN和VAE基于GAN和VAE例如:Text2Filter当下流行平台:Runway···基于Transformer模型例如:VideoGPT当下流行平台:Runway···基于Transformer模型例如:VideoGPT基于扩散模型例如:Make-A-Video技术 基于扩散模型例如:Make-A-Video多模态理解与融合动态视觉合成时间序列编排音频匹配与生成需要“语义融合引擎”,以理解文本的深层含义并将其与视觉和听觉元素相关联。利用“视觉生成算法”根据文本内容创造连贯的视觉画面。采用“叙事逻辑映射器”安排和同步视频中的事件以匹配文本叙事。需要“音频同步技术”来生成或选择配合视频情景的音轨。情感连贯性保证用户交互式定制内容适应性和可扩展性生成效率与优化需要“情感连贯算法”确保视频表达与文本情感相符合。实施“交互式视频编辑器”允许用户对生成的视频进行个性化调整。通过“自适应内容框架”来保证视频内容在不同平台和设备上的适配性。需要“生成优化器”以提高视频生成的速度和减少所需的计算资源。视频“GPT时刻”:视听演绎多模创构视频“GPT时刻”:视听演绎多模创构高标准数据获取需要高分辨率、良好审美和艺术构图的视频数据,同时强调动作的意义和内容的多样性。高标准数据获取需要高分辨率、良好审美和艺术构图的视频数据,同时强调动作的意义和内容的多样性。技术架构的优化解决视频模型性能和算法问题,可能需要重构模型架构,要求大量的计算资源和技术投入。视频生成的“GPT时刻”未来一年内可能实现视频生成的“GPT时刻”未来一年内可能实现——PikaLabs创始人之一,DemiGuo视频时长:模型可以借助延展功能,将视频时长延长。但这种延长需要关注动作的意义和复杂性。如延长20秒的走路视频,模型并不能实现包含翻滚、奔跑在内的系列动作,仅能够单纯通过无意义动作增加视频时长。关键突破点 未来方向视频时长:模型可以借助延展功能,将视频时长延长。但这种延长需要关注动作的意义和复杂性。如延长20秒的走路视频,模型并不能实现包含翻滚、奔跑在内的系列动作,仅能够单纯通过无意义动作增加视频时长。关键突破点模型和工程创新在视频生成模型的开发、工程实践、数据加速的技术演进视频生成模型和技术正加速更新,内容控制和创新自由度不断提高。模型和工程创新在视频生成模型的开发、工程实践、数据加速的技术演进视频生成模型和技术正加速更新,内容控制和创新自由度不断提高。物体动态化:对于图片或视频中的任意对象的任意动态化,这一点非常重要,一旦实现将能够真正生成任意内容的视频高算力需求与资源动员视频模型的训练和优化需要显著更高的计算资源,超越目前开源社区的能力范围。知识产权的合规处理在法律严格的地区,特别是处理版权问题,需要与法律专家紧密合作。语音交互:人机对话多态演进语音交互:人机对话多态演进信息输入差异:语调信息可以提供额外上下文;信息处理差异:间对齐的转录文本,响应速度较慢;信息输入差异:语调信息可以提供额外上下文;信息处理差异:间对齐的转录文本,响应速度较慢;技术挑战差异:说话速度和噪音等问题。ChatGPT:实时、顺畅自然的语音对话 语音输入 信息处理 语音输出 问答、角色扮演、多语言对练 AI孙燕姿爆火 Input‘ILoveyou’speechmodelInput‘ILoveyou’speechmodelOutput语言转译:Speechmatics

语言大模型对人格化的影响 语感共鸣:模仿人类语音特征,实现自然人机对话;情感共振:与用户建立情感共振,提供共情回应;、语音克隆:Resemble.ai

全域交互拓展:提供人格化交互。语音语音版GPT-4:智慧如炬 声情并茂语音版语音版GPT-4不仅仅是一个响应机器,而是一个能够进行高度复杂、适应性强、情感丰富和社交敏感的对话的高级AI代表。高级理解力逼真的交互情感同步化高级理解力逼真的交互情感同步化策略性沟通

在谈论敏感话题时显示出高度的同理心和情商,与人类在情感上相互理解和响应。通过生动的话语表述和自然的语言停顿,GPT-4展示了它能够模拟人类交流的高级特征。

在对话中巧妙地维护其角色设定的真实性,展示了能够在复杂社交场景中进行策略性沟通的能力。AIGC+AIGC+搜索引擎:互融互通 实时动态可获取现实世界的实时信息降低幻觉和回答错误率支持更多依赖外部信息的任务使知识图谱更加开放和动态可获取现实世界的实时信息降低幻觉和回答错误率支持更多依赖外部信息的任务使知识图谱更加开放和动态影响需要稳定的网络连接 需要稳定的网络连接 外部信息可能带来噪音误导信息安全和隐私保护难控制 计算和存储成本增加问题信息检索和知识探索的过程。促进知识发现和创新。全面知识融合:既能深入理解问题,又能提供广泛和最新的信息资源。大模型如何替代传统搜索引擎——关键性能:准确理解复杂查询意图并生成丰富、准确、可信、实时的答案根据用户的历史交互和偏好提供个性化大模型如何替代传统搜索引擎——关键性能:准确理解复杂查询意图并生成丰富、准确、可信、实时的答案根据用户的历史交互和偏好提供个性化搜索结果和建议保持或提高搜索效率的同时提供增值服务用户体验易用、界面设计简洁,使用户能够轻松获取和理解信息理解整合不同模态的数据,提供全面多模态搜索和深入的搜索结果确保用户数据的安全和隐私是替代传统搜索引擎的关键 NewBing内置GPT-4 式 Bing:借助GPT-4提升用户搜索和交互体验,是搜索引擎向AI技术的延伸,强化了搜索引擎的智能化。

GPT-4:集成互联网数据,是AI模型向搜索服务的拓展,丰富了大模型的应用场景和数据获取能力。ALLALL TOOLS:能力规整 综合理解图片识别能力从“单一对话单一模式”,到“根据需要自动调用不同模式的功能”,丰富了ChatGPT用场景,整体响应速度也有所提升。四大功能图片识别能力从“单一对话单一模式”,到“根据需要自动调用不同模式的功能”,丰富了ChatGPT用场景,整体响应速度也有所提升。四大功能Bing联网能力02Bing联网能力高级数据分析(原代码解释器)能力03高级数据分析(原代码解释器)能力用户:北京今天的天气如何请将其绘制成可视化图片Dalle3的绘画能力ChatGPT:今天(11月15日)北京的天气预报显示,白天天空云量将逐渐增多,傍晚前后会有零星小雨,西部和北部地区可能出现雨夹雪或小雪。北京今天没有暖阳,气温有所下降,预计最高气温在9℃左右,体感较阴冷。后半夜,北风伴阵风可能达到六七级。请根据提供的图像进行重绘(以图生图)实际运用04用户:北京今天的天气如何请将其绘制成可视化图片Dalle3的绘画能力ChatGPT:今天(11月15日)北京的天气预报显示,白天天空云量将逐渐增多,傍晚前后会有零星小雨,西部和北部地区可能出现雨夹雪或小雪。北京今天没有暖阳,气温有所下降,预计最高气温在9℃左右,体感较阴冷。后半夜,北风伴阵风可能达到六七级。请根据提供的图像进行重绘(以图生图)实际运用长时上下文理解:减少交长时上下文理解:减少交互 增强智商上下文编码器在理解局部上下文的基础上,引入用户历史数据进行全局上下文建模。记忆模块上下文编码器在理解局部上下文的基础上,引入用户历史数据进行全局上下文建模。记忆模块在模型中加入能够用户的关键信息和偏好长期的记忆模块,以便在未来对话中使用。时间感知通过时间标签和事件依赖关系,增加对于时间序列信息的敏感性。AI缺乏长期记忆和全局理解能力,会限制其在复杂任务和长篇对话中的表现,导致:非必要交互次数的增加;整体对话过程中的逻辑性不足。相关信息的位置和提供的上下文的长度可以极大的影响大模型的性能这一现象的出现与训练数据本身的偏差有关,即人类的大量语料一般都将重要信息放置于开头或结尾,间接导致了大模型无法很好地关注处于文档中间的内容。除了模型内部的问题以外,超长上下文背后可能的大规模数据传输、API调用、网络协议等等“基础设施”都有可能成为新的问题。GPT-4-Turbo上下文长度从32k拓展到128k,但仍无法避免“LostintheMiddle”关键技术APPAPP已衰:GPTs已来 智能定制数学类新闻类设计类社交类学术类代码类数学类新闻类设计类社交类学术类代码类写作类健康类推出了定制GPT,允许用户根据个人需求和偏好制作推出了定制GPT,允许用户根据个人需求和偏好制作以执行特定功能,标志着AI定制化应用的新时代。用户可以在没有编码知识的情况下创建适用于教学、游戏或创意设计等多样化任务的GPT模型。其本质逻辑是把AI的大脑与人类的智慧相结合,让它做某一类事情的时候变得更聪明。截止到12截止到12月13日的GPTS总数:53283个GPTsGPTs发展:高速快增 探索前行随机抓取2000个随机抓取2000个GPTs进行分析类别关键词文件处理‘docs','documentation','manual','guide'网页流量'browse','web','internet','pdf','data'教育'math','teach','learn','education','study','mentor','help'艺术‘paint','draw','create','art','design','visionary'生产力‘summary','organize','manage','productivity','efficient'娱乐‘game','play','fun','entertain','movie','music'交流'chat','talk','communicate','message','discussion'技术‘api','code','program','develop','software'商业'finance','economy','trade','invest','market','sales',健康'health','wellness','fitness','medicine','mental' 结论 数量最多的前五种类别:艺术、文件处

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论