赛迪顾问AI洞察第1期：Sora 掀起AI产业颠覆性创新的“麦旋风”

上传人：策*** IP属地：山西上传时间：2024-03-26 格式：DOCX 页数：12 大小：1.78MB 积分：19.9 举报 版权申诉

已阅读5页，还剩7页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

Sora掀起AI产业颠覆性创新的“麦旋风”◆视频生成质量：迈向里程碑式飞跃“世界模拟器”:打开模拟物理世界新路径CCID赛迪顾问思维创造世界CCID赛迪顾问思维创造世界以大模型为代表的人工智能技术作为驱动新一轮科技革命和产业变革的核心力量，是推动形成新质生产力的新引擎。2024年2月，OpenAI发布视频生成大模型Sora,引发全球市场广泛关注。Sora凭借其在视频时长、画面流畅度和内容逻辑性上的震撼表现，突破了已有视频生成模型的效果，开辟了视频生成领域新篇章。视频生成领域的技术突破，将加速推动多模态大模型的创新发展，为通用人工智能时代的到来奠定坚实基础。一、Sora开辟视频生成领域的新篇章技术路线突破创新：从ChatGPT到Sora在OpenAI发布Sora之前，视频生成大模型的技术路线主要包括生成对抗网络(GenerativeAdversarialNetwork)、自回归Transformer、扩散模型(DiffusionModels)等。Sora基本沿用了ChatGPT生成文本的思路框架，将Transformer和Diffusion创新性地结合，提出基于Transformer架构的Diffusion模型。Sora进行视频生成的过程大致可以包括视频编码、加噪降噪、视频解码三个步骤，类似于GPT中的tokens,Sora将视觉数据统一转化为patches,降低视觉数据维度，在压缩的低维空间进行训练，并使用解码器将低维空间映射回像素空间，从而生成视频。图1:视频生成大模型主要技术路线视频生成质量：迈向里程碑式飞跃OpenAI的Sora在视频生成领域实现了质的飞跃，尤其在视频时长、功能扩展和内容真实性等方面。与先前最多生成10秒的视频生成模型相比，Sora能生成长达60秒的视频，极大拓宽了内容创作的边界。Sora不仅支持视频向前向后扩展、视频拼接、视频编辑等高级功能，还能通过多镜头生成更复杂的视频内容，提高了模型的灵活性和创造力。此外，Sora不仅可以根据文本提示生成视频，而且具备根据文本生成图片、根据图片生成视频等能力。“世界模拟器”:打开模拟物理世界新路径OpenAI首次提出“世界模拟器(WorldSimulators)”概念，Sora能够细腻模拟三维空间动态，具备一定的长时间对象连贯性、模拟真实世界交互等特性。Sora生成的视频能够在相当长的时空范围内，基本不违反物理世界的常见规律。如果模型规模进一步提升，它有可能模拟生成物理世界的一切视频。与虚幻引擎(UnrealEngine,UE)这类基于数学建模和渲染模拟物理世界的路线不同，基于数据驱动的Sora开辟了模拟物理世界的全新路径。搭建应用生态：打造视频生成大模型产品化工具在视频生成大模型技术的演进中，构建一个健全的应用生态至关重要，有助于推动该技术产品化并加速其市场化进程。为此，开发覆盖视频生成全流程的产品化工具，搭建丰富的应用生态是视频生成大模型进一步发展的有效路径。视频修改和元素替换等AI工具产品将成为短期内视频生成领域开辟市场需求的重要方向之一，这类产品工具能够帮助用户将品牌形象、文字和图像等元素植入视频中，从而制作出既符合品牌定位又具有高度个性化的营销素材。此外，这类工具的开发和普及对于降低视频制作的门槛和成本具有重要意义。通过智能化的视频编辑和定制化的内容生成，用户能够以更低的成本产出高质量视频内容，有利于提高相关产品营销的效率技术突破：聚焦视频生成准确性和一致性的技术创新视频生成的准确性和一致性是视频生成领域一直以来面临的两个关键难题。一方面，当前的视频生成模型虽然能在短视频中保持较高的真实感，但在长视频生成时往往难以保持物体持久性和场景连贯性，物体可能不合逻辑地消失或出现，场景转换可能缺乏逻辑性。另一方面，生成视频要符合物理世界的规律，如重力和光线变化，以增强真实感和可信度，现有模型往往难以精确模拟，导致细节上的偏差。解决这些问题需技术创新突破，通过模型架构和训练方法迭代、引入物理知识和规则或结合物理引擎、多模态数据融合等有效路径，进一步提升模型的准确性和一致性。视频生视频生成大模型多场景赋能：视频生成大模型或将在影视、游戏、教育和营销等领域率先应用随着视频生成技术的发展，影视、游戏、教育和营销等领域有望迎来创新高潮。在影视和游戏领域，视频创作、游戏人物与场景设计的效率或将大幅度提升，制作成本和门槛有望大幅降低，从而推动内容创作向更高效、多样化方向发展。在教育领域，视频生成大模型的模拟交互功能有望实现迅速生成个性化、互动性强的教学视频，通过生动的模拟达到丰富学习体验和增强学习效果的功能。在营销领域，受益于高效的视频生成能力，用户有望实现快速响应定制化需求，提高营销吸引力和客户转化率。图2:视频生成大模型应用场景影视影视◆特效制作复杂场景渲染游戏游戏◆游戏原型验证用户定制化体验教育教育◆生成互动性强的教学视频◆定制化广告投放动态生成营销内容资料来源：赛迪顾问，2024.03三、未来展望视频生成大模型带来持续高算力需求在视频生成领域，模型需要处理的不仅仅是静态图像，而是包含丰富时空信息的动态视频序列。这使得模型必须具备处理和理解复杂场景、物体运动以及时间演变等的tokens差别在于图片与文字，时空数据相较于语言文字呈现的数据维度有着几何维度的差异。因此，相比于文本生成模型，视频生成模型的参数规模和计算复杂度更这意味着对高性能计算集群、高效存储以及并行计算能力模型快速迭代的背景下，大规模、多样化、标注精准的快推动模型训练效果优化、打造“数据飞轮”,夯实人工智能发展的基础底座。另一方面，覆盖数据采集、存储、标注、分析等全流程的数据处理技术正快速发展，包括一系列持续迭代和应用拓展。多模态大模型迈入新阶段多模态大模型的发展迈入全新阶段，视频生成大模型赛迪顾问股份有限公司赛迪顾问股份有限公司(简称“赛迪顾问”)隶属于工业和信息化部中国电子信息产业发展研究院(CCID),是中国首家上市咨询企业(股票代码：HK02176)。赛迪顾问秉承“思维创造世界”理念，践行“诚信担当唯实创先”核心价值观，为政府、园区和企业提供“研究+咨询+实施”创新综合服务及数字化赋能服务。依托深厚的产业资源和方法论，赛迪顾问构建了研究、咨询、实施以及数字化四大服务体系：一线调研、年报、洞见、评论、深度研究、产业指数、百强榜等研究产品体系；区域战略、园区咨询、产业规划、行研可研、企业战略、投融资、数字转型等咨询服务体系；赛迪科创中心、赛迪产业基金、赛迪产业大会等实施服务体系；以及赛迪满天星、赛迪产业大脑、赛迪专精特新大数据平台、赛迪招商通等数字化赋能体系。赛迪顾问聚力新技术、新工业、新经济以及城市经济、县域经济、园区经济，致力于成为城市经济第一智库、企业战略第一顾问、资本运作第一专家。赛迪顾问人工智能与大数据研究中心人工智能与大数据研究中心是赛迪顾问专业从事人工智能、大数据和云计算行业研究的部门。该中心长期对人工智能、大数据和云计算行业发展现状、技术热点和发展趋势进行研究

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

赛迪顾问AI洞察第1期：Sora 掀起AI产业颠覆性创新的“麦旋风”

文档简介

温馨提示

最新文档

评论

相关文档