版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
成为视频生成模型的标志性突破,随后各家以DiT纷发布。从当前AIGC视频产品效果来看,C端应用的呈现效果相对不高,普遍存■DiT架构具有较好的扩展性和构图品质,成为当Sora发布之前,主要依赖生成对抗网络架构(GAN)和扩散模型(Diffusion),但前者在视频等长序列生成上表现不佳,后者通过逐步添加和去除噪声来快速生(DiffusionModel)与Transfor保持了扩散模型的长处,更是具有了长视频的生成能力,因此成为了后续几乎所在影视领域,AI已渗透剧本生成、分镜设计(Midjourney秒级生成)、虚拟拍摄、特效后置等全流程,使《潜入梦海》等作品以万元级成本实现传统百万元拍摄效果。产业格局上,AI应用成为新入口。字节跳动等巨头通过“云基础设施+传媒的变革,产生剧烈的马太效应,AIGC视频极大的降低了内容生产成本,传媒环节的“IP创意运营”和“AI视频模型能力”。垂直应用技术成熟度及商业模式进展等方面给予关注和跟进。风险方面,需关注模型技术的迭代,如DiT架构优化、物理模拟突破等进展;关注可能遭受冲击与敬请参阅尾页之免责声明目录 1 1 2 6 82.3各家产品性能:AIGC视频的感官质量不 9 113.1对标互联网技术对传媒的变革:需求驱动,线上流量爆 12 12 143.2AIGC技术对传媒的变革:供给驱动, 163.2.1推论1:内容生产重塑,从“人力密集”到“AI辅助\主导” 16 17 18 19敬请参阅尾页之免责声明 1 3图3:新华社《AIGCMV:美债炸弹滴答响》2024 4 4 5 7 11 13图9:移动互联网时代巨头的时长及占比(2014-2023字节VS. 15 16 18 8 9 102024年Sora的发布成为视频生成领域的标志性突破,推动传媒内容生产进入全新时代。本报告系统梳理了AIGC视频的技术演进路径、产业变革影响及商业化发展方向。通过对国内外主流AIGC视频应用的全面盘点与性能评估,深入解析DiT架构的技术突破与现存挑战,并借鉴互联网技术对传媒产业的改可以预见,随着AIGC视频大模型的持续进化,终将彻底改变传统影视工业的“人力密集型”生产模式。当内容生产边际成本无限趋近于零时,传媒产业价值链也将迎来重构,竞争核心将从中游环节的“制作能力”和下游环节的“渠道能力”转向上游环节的“IP创意运营”和“AI视频模型能力”。目前,全球主要的AIGC视频生成应用多由国内外头部大厂或AI初创型公司发布,国外以OpenAISora、RunwayGen-3、Meta,国内以快手的可灵AI、敬请参阅尾页之免责声明对物理世界的模拟能力和动态一致性也明显提升。Sora采用扩散模型(DiffusionModel)与Transformer结合的DiT架构。在此架构下视频生成模型展现出良好的扩展性——随着训练算力的增加,生成视频质量显著提升,真正具备长叙事能力。此后,基于DiT架构的视频生成应用迎来爆发式增长,构。目前各应用的生成效果还处于开发初期、不断优化的阶段,还需要综合考1.2产品与商业化:C端应用的呈现效果相对不高,B端AIGC内容品质较高但需“人机共创”当前视频生成时长多处于60s以内,但在DiT架构下视频生成模型的性是相对可预期的。从目前免费AIGC视频应用生成效果来看,仅达到C端试用水平;但从各大厂发布的宣传物料显示已能达到影视短剧级的内容效果,两者差异可能来自其背后算力资源、影视素材训练库、专业定制化调用工具等匹目前C端使用的AIGC视频工具还处于生成效果提升的初期阶段,特别是在精准理解和模拟物理世界是核心难题。现有应用生成的视频在大幅运动、物理复杂场景表现较差,容易生成肢体扭曲、违背物理定律的视频。以某AIGC视频应用的生成效果为例:该应用自带文本扩写功能,输入“宋代摇滚风格音乐短片”后选择自动扩写。如果要相对把控生成视频的风格利用文生图生成目标风格的图片,再以此为基础生成视频。可看出生成视频在敬请参阅尾页之免责声明B端新闻视频内容已有较多应用,“人机共创”是目前相对主流的模式。新华社在2023年成立AIGC视频生产实验专班,辟AIGC虚拟生成类特色栏目《AIGC古诗今画》等,实现每周生产AIGC(含弹滴答响》,全流程运用人工智能技术实现作词、谱曲、文生图、图生视小时内海媒浏览量达174万,被多国媒体人和专影视视频内容领域,短剧内容已经有完全依靠AIGC生成的剧集,精品影视剧的生产中目前AIGC可以起到运镜分镜、特效渲染等辅助作用。在今年6月的第二十七届上海国际电影节,《潜入梦海》2是“AIGC单元”最佳创意奖作品。该AI短片时长仅8分钟、团队仅4人,不依赖传统影视制作的摄像机与片场,而是掌握20余种AI工具,调动关等方式,将想象具象成镜头,呈现出大巴车爆炸、异国场景等高预算大片级视觉效果。如果用传统实拍方式,成本至少百万元以上,但AI方式可控制在万敬请参阅尾页之免责声明在专业剧集生产工具上,一些AIGC视听制作平台(如炫佳科技的Kino-AIGC视听制作平台)通过“智能帧流技术”自动调节画面精度,既能快速生成低分辨率草稿,又能无缝升级至4K超清;语音生成能力上,可实现中、英、从目前主流应用情况来看,AIGC参与短剧制作主要用于中期的创作阶段,起到替换实际片场拍摄的作用,而前期的剧本策划和后期的剪辑处理,仍是需中的AIGC生成,AIGC视频生成的商业化路径持续且清晰,从C端社交体验的秒级视频、到B端新闻广告的分钟级视频,以及未来扩展到小时级的精品影视视频,对应至AIGC技术产品发展的不同难度,均有可供变现的场景和方式。我国市场规模约300-400亿美元。这是AIGC视频技术完全成熟后的一大确定性应用市场,对当前AIGC视频技术的迭代发展起到稳定的牵引作用。因此我们认为,AIGC视频这种更加稳定、可预测的模式,将使其成为AIGC最快商业敬请参阅尾页之免责声明敬请参阅尾页之免责声明2.1模型架构:DiT为主流架构,运动模块、视频预训练、影DiffsuionTransformer(DiT)架构是当前AIGC视频模型的主流选择。Transformer是基于注意力机制的新型神经网络架构,于2017年被提出,该架构的并行化处理使其能够充分利用图形处理单元(graphicsprocessing使得整个架构具备更好的扩展性。Transformer架构的提出原本是为了解决自然语言处理中的长文本记忆缺陷,但其并行计算的模式,在图像生成领域也有在Transformer架构之前,自然语言处理和图像生成领域之间,没有太多的交叉重叠。自然语言处理领域,主要依赖循环神经网络(RNN)架构,通过串行计算模式使其具备文本短期记忆,后续又通过长短期记忆网络(long-shorttermmemory,LSTM)用于长文本的生成任算模式对长文本的处理仍旧局限,实践中往往经过就开始偏离主题。为了解决这一问题,Transformer架构被提出,其并行计算模式对生成式模型的发展产生巨大促进。2018年后,一系列标志性的大语言在图片\视频生成领域,早期主要依赖生成对抗网络架构(GAN,2014年被提出但其在视频等长序列生成上表现不佳。2021年,OpenAI发表像生成质量上超越GAN;2022年谷歌的《VideoDiffusionModels》使得扩散模型进入视频生成领域。Diffusion扩散模型的核心思想是通过逐步添加和去除噪声,实现从随机噪声到高质量数据的生成过程,其在图像、视频生成之类2024年2月OpenAI发布Sora,采用扩散模型(DiffusionModel)与Transformer结合的DiT架构,使其不仅在生成质量上保持了扩敬请参阅尾页之免责声明更是具有了长视频的生成能力,其可生成长达60秒视频,远超此前主流模型Runway、Pika等仅支持4秒视频。至此,DiT架构成为了AIGC视频模型的主AIGC视频模型的本质是建模视频的时空连续性。基于上述DiT架构的AIGC视频模型在生成视频时长、高质量画质方面实现了突破,但在精准理解和模拟物理世界仍是核心难题。视频生成模型后续将继续在空间分层、运动模空间分层:为了更精确高效的“模拟真实世界”,需要对视频生成的空间要素进行分层,区分视频画面的动态、静态、背景,动态中又可进一步区分多条动线,分类给予视频生成。这可以更高效的解决人物运动模块:现有应用生成的视频在大幅运动、物理复杂场景表现较差,容易生成肢体扭曲、违背物理定律的视频。通过引入专门设计的运动模块,专门敬请参阅尾页之免责声明处理视频中的时间维度信息(即帧与帧之间的运动变化),确保生成视频在时间上是连贯、自然的。运动模块在Transfor让模型能同时分析空间(单帧画面)和时间(多帧运动)信息。这有助于针对性解决传统AI视频生成的变形扭曲问题。甚至可以通过不断学习和训练,解决生成视频违背物理规律的难题。如,体操、杂技运动,一直被誉为AIGC视视频预训练:通过视频数据拆分过滤,例如去除字幕等特定文本信息、确保展示出运动感、去除可能缺乏主题焦点的低质量,最终保留长度在3-10秒之间的单一主题片段用于模型训练。对运动学习,使用低质量的视频数据集,这些视频虽然质量不高,但能够提供足够的运动信息,确保生成的视频在运动上是连贯的。对外观学习,使用高质量的图像数据集,这些图像具有高分辨率影视化工具:视频内容具有专有叙事技巧,如运镜、笔刷走位、分镜辅助2.2文生\图生效果:文生视频创意度图片信息作为编码输入内容。从生成效果上,图生视频相对而言,对生成视频比较大,纯文字生成往往内容容易有较多遗漏,更适合创意类如广告、艺术类敬请参阅尾页之免责声明在本文1.2节我们选取了某C端视频生成应用,生成一段“宋代摇滚风格音乐短片”。以现有相关AIGC应用的生成水平来看,在实际精准物象、但又优秀。另外,还可使用一些精细控制方式,例如在文本扩写阶段,可多次尝试扩写,生成详细分镜描述;在文生视频阶段,可以对关键帧控制,每3秒设置一个图生视频锚点、设置首尾帧;还可使用运动笔刷等功能对运动轨迹进行控2.3各家产品性能:AIGC视频的感官质量不断突破,但精准理往往需要多个应用结合起来使用。这是由于各个应用目前展现的长处不同,有的具有扩写分镜功能,有的具有运动笔刷功能;有的在二次元风格上见长,有的在国风主题中表现较好。而在单个应用的使用时,往往也需要多次生成,类似“抽卡”模式。普通用户需反复生成并筛选可用片段,个位数的生成次数能达到预期效果的话,就已经是比较优异的。而专业用户,如影视团队则可通下表是综合梳理了B站及知乎平台等AI博主整理的各类免费AIGC视频应用工具评测。各家产品应用的性能也在不断迭代中,对一些控制性功能如运动在用户的使用限制和价格上,也在不断放开和降费。例如,OpenAI的视频生成工具Sora,其在2024.2月发布时,但并未开放公测,户付费使用;2024.12月其正式对多个国家用户开放,用户可在OpenAI官网上体验Sora。同时,Sora被包含在ChatGPTPlus和ChatGPTPro的会员订阅方案中,用户无需额外付费。订阅Plus方案的用户可使用Sora生成最多50个分辨率达720p、时长为5式主强s)而是进一步推演在生产技术变革之下,未来传媒产业格局如何演变。AIGC作为划时代技术,其对各行各业变革的终局形态很难想象,因此推演其未来演变时,无可避免要拿它与本世纪以来的互联网技术作比较。而传媒产业恰恰是在互联网技术驱动下,变革颠覆最大的产业(没),互联网技术发展对传媒内容产品升级、分发渠道的供需两端均产生颠覆影响,本质是信息传输能力与通讯设备的升级带来内容产品的迭代,而基于内容产品从图文逐渐向视频形态升级,带动了分发渠道的多样化和网技术对影视内容的生产影响,仅仅是体现在效率优化和数字技术上,并没有具了ToC商业化应用变现快速与ToB专业化生产亟待变革两方面有利条件,或将推动AIGC在内容创作领域更为快速迭代。从前文1.2节所述的B端“人机共创”的AIGC视频案例来看,其可极大缩减人工的成本和创作时间,大大简化传统生产模式(如根据剧本自动生成分镜、后期制作时特效和背景AI生成),3.1对标互联网技术对传媒的变革:需求驱动,线上流量爆发3.1.1当前格局:以短视频为代表的PUGC内容占据主导,长视频回顾互联网技术对传媒行业的推动和变革,总体上是信息传输基础设施的升级带动需求端的内容渠道和产品的多元化,资讯、社交获取的便捷度大大增加,同时内容形式也逐渐从图文向视频升级,且内容数量大大提升。传媒特别是互联网传媒正在持续扩大对用户注意力的吸引,然而这种吸引之下,是大众对内容品质越来越多的诟病。也就是说,过去二十年来互联网和移动互联网的快速发展,切实创造了更多传媒需求,推动内容形态和数量升级,但内容品质的升级相对滞后,反而由于需求爆发式增长导致供给以量内容形态:互联网3G/4G/5G技术的迭代升级,带来流量接入的迅速增长,互联网媒体内容也从文字、图片到视频进行着升级。随着用户使用流量的单位成本降低,媒体内容越来越丰富。视频等流媒体内容已成为移动互联网时代的分发渠道:与内容数量增长互为驱动,媒体渠道也在不断裂变和增长,线上渠道特别是流媒体已成为主流。结构上,线上媒体在2010年之前处于辅助地位,但随着移动互联网的兴起和深化,在微博\微信等移动社交媒体以及爱优腾等长视频平台出现后,到2015年线上媒体基本可以与线下媒体分庭抗礼。随着以字节系的短视频平台爆发式增长,其内容属性兼具了娱乐、社交、资讯用户群体:随着产品和渠道数量的不断增长,用户群体呈现出更加细分的趋势。垂类社群和长尾需求逐渐得到满足,用户可以根据自身兴趣和需求,找到更为精准的内容和服务。这种细分化不仅提升了用户的体验,也为平台提供内容生产:在电视台、门户网站和在线视频阶段,PGC(Professional了大量用户的注意力。然而,随着短视频的兴起,内容生产的门槛大大降低,其高用户参与度和多样化的内容形式,为平台注入了新的活力。2019年后,短视频逐渐进入成熟期,内容创作进一步迭代至PUGC(ProfessionalUserGeneratedContent,专业用户生成内容)模式。PUGC兼具PGC的专业性和UGC的广泛参与性,凭借专业内容与热点营销,对长视频等传统PGC专业内容资料来源:招商银行研究院;注:年份是按照传媒应用商业化兴起设定,并非运营商开始商业化的时间。运营商牌照发放时间分别为:2G(1995)\3G(2009)、4G3.1.2驱动特征:互联网技术颠覆渠道格局,PGC及PUGC内容生互联网技术对传媒行业的变革,本质上源于信息传输能力和通讯设施的升级,不仅催生了多元化的内容产品形态,更重塑了整个行业的传播逻辑。从文字、图片到短视频、直播,内容形式的演进始终与技术进步同步,而分发渠道也从传统的广电网络、纸质媒体转向了算法驱动的社交媒体和视频平台。这一变革的终局,是行业权力结构的根本性转移——传播中心从线下广电渠道让位于线上视频平台,内容生产的话语权从专业机构主导的PGC模转向由用户和创作者共同参与的PUGC模式(流量为王)。这种转变不仅重构更不能忽视的是,互联网技术的普及在推动行业变革的同时,也带来了前所未有的马太效应,这种现象的强度远超传统媒体时代。其根源在于互联网技术极大强化了人与人、人与物之间的连接效率,根据梅特卡夫定律,网络价值与用户数量的平方成正比。这种超线性增长特性使得头部平台能够迅速积累用户规模,形成近乎垄断的市场地位。在传媒领域,这种效应表现为流量和用户注意力的高度集中——少数几个超级平台(字节、腾讯等)掌控了绝大部分的内容分发渠道和用户时长,而传统媒体则逐渐边缘化。这种集中度不仅改变了腾讯系依靠微信+QQ持续在3G\4G时代占据绝对优势,而字节系则凭借抖音头条等头部产品,以4G移动互联网下沉为契机实现快速追赶,两大巨头位时长占比达33.6%,字节系时长占比达24.5%,快手系(10.2%)、百度系):互联网时代的媒体分发渠道集中度之所以远高于传统媒体时代,关键在于技术特性带来的规模效应和网络效应双重叠加。一方面,数字内容的边际成本趋近于零,使得头部平台能够以极低成本服务海量用户;另一方面,用户聚集产生的数据资产又进一步强化了平台的算法优势,形成难以打破的正向循环。这种“赢家通吃”的格局导致新兴媒体难以突围,即便市场尚能维持相对分散的竞争格局;而在互联网时代,技术特性天然倾向于集面对互联网技术带来的马太效应,传媒行业正在经历深刻的调整与重构。一方面,头部平台凭借流量优势和数据积累,不断向产业链上游延伸,通过投资、并购等方式巩固其市场地位;另一方面,专业内容机构不得不调整策略,或选择与平台深度绑定,或转向垂直细分领域寻求差异化生存空间。进而导致内容价值的评判标准发生根本性变化——从专业导向转向流量导向,从质量优值得注意的是,随着监管的介入和新技术(如AI)的发展,过度集中的市场格局可能出现新的变数。与此同时,当前传媒行业面临的内容同质化、质量参差不齐等发展瓶颈,恰恰为AIGC(人工智能生成内容)技术提供了施展空间,或可通过重构内容创作的价值链条和生产方式,实现内容创作生产力的变3.2AIGC技术对传媒的变革:供给驱动,内容创作迎来“破AIGC对传媒行业的变革,本质是内容供给端的技术革命。与互联网技术驱动的需求端(包括渠道和产品类型)变革不同,其核心在于内容供给的生产力跃迁。如果说互联网技术通过降低信息传输成本、拓宽分发渠道,让内容消费需求爆发式增长,那么AIGC则通过重构内容生产逻辑,让创作效率和产业格局发生根本性变化。其影响将不仅仅是改变内容生产模式,同样还会重塑传3.2.1推论1:内容生产重塑,从“人力密集”到“AI辅助\主导”传统影视制作中,从创意到成片需要经历剧本创作、分镜设计、实拍拍摄、后期制作等复杂环节,耗时长且成本高昂,影视内容生长周期的“重工业”模式。传统影视制作高度依赖人力亦是需要编剧、监制、后期、特效等专业人才,AIGC重塑影视制作各个环节,大幅减少人力投入和制作时间。同时也将同步重构影视产业的价值链:当内容剧本开发阶段:AI剧本生成器可基于关键词自动生成故事框架,将创意孵化周期从数月压缩至数天。还可实时检测情节漏洞,替代传统人工剧本评估环节。《谜题大师》是Netflix的一次实验性的动画短片,其利用AI技术生成400+剧情分支方案。AI在学习了40万小时的恐怖电影素材后自动生成剧本,并融合了大量无厘头的喜剧元素,全程均由AI生成剧本,整个故事进展的推动方式极其荒诞,反而产生出超乎寻常的无厘头喜剧效果。国内头部影视公司华策影视持续探索影视AI应用,其自研大模型“有风”已在内部电视剧、电影、短剧等团队使用,可将一部120万字的小说评估报告生成时长从5至7视觉分镜预生产:传统手绘分镜需数小时至数天,而AI可实现10秒内生Midjourney与StableDiffusion被公认为两大龙头)支持文字快速生成摄影级拍摄制作阶段:虚拟制片系统实现实时背景替换,还可用群演系统(基于尽管当前AIGC完全替代传媒产业的人工投入还不现实,但是已经可以在一些低端需求如背景搭建、群演上降低了对人员的依赖,同时还可大大降低内容创作的入门门槛。如文生图(如MidJourney)、文生视频(如Sora)、AI音乐生成(如Suno)等垂直工具,已经成为用户创作的新入口,挑战传统内另一方面,头部互联网平台正在加速入局AIGC模型及应用,并且更加注重云基础设施+大模型+数据飞轮+C端\B端应用的全AI生态布局。短期AI模例如,字节跳动正以豆包大模型为核心,构建覆盖AI基础设施、多模力、智能终端、行业应用的全栈AI生态,形成从底层算力到上层应用的完整闭环。算法环节上,以豆包大模型为核心,涵盖图像、视频、音频和开发等多个领域,并且可为开发者提供成熟完整的工具链。应用环节上,字节在AI应用的战略较为清晰,一是对标优质竞品推出C端应用产品,覆盖聊天助手、情感陪伴、教育等全领域
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数字化浪潮下高速公路票据系统的深度设计与实践实现
- 数字化浪潮下奥德曼葡萄酒公司营销策略创新与转型研究
- 数字化浪潮下仓库管理系统的创新设计与高效实现路径探究
- 数字化浪潮下ZT集团业务市场战略转型路径与实践研究
- 数字化浪潮下H集团发展战略的深度剖析与创新路径
- 2025 高中阅读理解之托物寓意课件
- 2025年前台问询礼仪模拟试卷
- 真核微生物霉菌
- 消防设施绿色环保设计与实施方案
- 酒店建设项目投标书
- 两单两卡安全培训
- 2023年陕西省西安新城区校园招聘高层次及特殊紧缺人才(15人)笔试历年难、易点深度预测(共500题含答案解析)模拟试卷
- ATLAS空压机常见故障分析和处置
- 220kV变电站220kV母差B套保护装置换型工程四措一案
- 2023届二轮复习 第四单元 第9课 走向整体的世界 学案
- 2023版思想道德与法治专题1担当复兴大任 成就时代新人PPT
- 现代设计理论与方法(上)
- 人教版八年级下册生物全册教案完整版教学设计含教学反思
- 宠物店如何给宠物做SPA
- 鲧禹治水课件
- 国别与地区经济(第二版)全套课件
评论
0/150
提交评论