互联网-传媒行业深度研究报告：多模态AI的五重奏国产大模型的探索序章

上传人：策*** IP属地：山西上传时间：2024-04-08 格式：DOCX 页数：42 大小：1.24MB 积分：19.9 举报 版权申诉

已阅读5页，还剩37页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

证券研究报告证券研究报告证监会审核华创证券投资咨询业务资格批文号：证监许可（2009）1210号多模态AI的五重奏，国产大模型的探索序章为什么要探讨多模态？从大模型赋能企业发展的三种模式出发。我们认为大模型的多模态迭代将直接影响下列三种模式的应用水平——1）大模型+原有业务：常见于科技大厂，利用大模型提升传统业务的智能化程度，同时用传统业务的庞大数据资源反哺大模型迭代。2）开源大模型+AI产品：大量中小开发者申请部署开源大模型去开发各自的AI产品，降低研发成本。3）垂类模型+行业数据：适合拥有海量高质垂类数据的中大型企业，需要基于一个通用大模型作为底座。这三种模式包罗各行各业的大中小企业、没有优劣之分，会随着多模态AI的迭代不断碰撞出新的火花。多模态方面，建议关注预计确定性较强的【文本】、后续期待值高的【视频】、短期爆发力强的【音频】三大方向。1）文本：面对海外大模型的一超多强，国产大模型在追赶中已探索出差异化优势。Kimi(月之暗面)和冒泡鸭/MoE(阶跃星辰)在中文语义、长文本方面表现亮眼。预计下一阶段的文本差异化竞争可能是用户的定制化竞争——基于在手用户的特征搜集，形成更深卷。爱诗科技在发展早期就探索当前大火的DiT架构，其产品PixVerse在测评表现中不输Runway、Pika等头部厂商。AI生成视频已经可以希冀商业化用途，进而衍生出对视频语料库和IP、版权的强烈需求，拥有高质量视频语料库的公司将具有竞争优势。3）音频：在TTS、语音设计、SVC三种产品类型里，我们认为前两者的市场潜力更大，TTS发展更成熟，特别是科技大厂未来可能会与传统业务结合释放巨大潜力。语音设计技术难度更高，看好Suno的研发投入空间和后续迭代，长期有望改写音乐创作市场格局。SVC更工具化，OpenAI发布的产品猜想会是一个中间形态，远期价值在于与AI视频、或其他模态的结合。【图片】发展趋于成熟，【3D】则处于萌芽期，两者都有望反哺AI视频。虽然图片和视频都对素材训练要求极高，但是AI图片的产品/社区成熟度显著高于视频，头部AI图片产品的用户访问量更趋稳定（榜单变化小）。目前风格和角色一致性都有不错的进展，后续关注场景一致性若得以解决，或意味着AI生图正式进入规模化商业进程，连带AI视频的一致性也可能受益并得以突破。AI生成3D模型目前仍处早期，精度不足限制商业化，长期看有望助力AI视频和游戏、电影行业的发展。投资建议：基于全球AI产业发展阶段判断，我们认为中国厂商进入快速追赶期，可重点关注文本、视频、音频三大方向，并基于此关注AI产业链投资机AI+文本语料：中文在线、南方传媒、掌阅科技、荣信文化、山东出版、中原传媒、中国科传、新华文轩；AI+视频数据：相较于文本语料，视频语料更具稀缺性，商业化逻辑顺畅。建议关注华数传媒、华策影视、中广天择、电广传媒、捷成股份。2）下游：B端/C端应用场景AI+游戏/社交：恺英网络、神州泰岳、巨人网络、昆仑万维、盛天网络；AI+影视/IP：全年维度看好，电影大盘高景气度，叠加AI+视频或为今年较高确定性进展方向。建议关注：光线传媒、万达电影、上海电影、博纳影业、中国电影等。风险提示：AI技术发展水平不及预期，国内厂商竞争格局恶化，法律监管趋严风险，地缘政治导致的供应链风险，应用端消费需求不及预期等。证券分析师：刘欣联系人：郭子萱行业基本数据相对指数表现相对表现-0.7%-0.9%2023-04-03~2024-04-0216%-1%-18%23/0423/06-35%传媒沪深300相关研究报告《传媒行业周观察（2024325-20240329给予《传媒行业周观察（2024318-20240322阶跃星辰大模型发布，国产AI文本领域进入爆发《传媒行业周观察（20240311-20240315GDC23/0823/1124/0124/04传媒行业深度研究报告投资主题报告亮点本报告系统复盘了AI五大模态（文本、图片、视频、音频、3D）的当前进展，并梳理海内外发展趋势，判断中国厂商进入快速追赶期，可重点关注文本、视频、音频三大方向，并基于此重视AI产业链投资机会。文本方面，我们花了较大篇幅去解释国产厂商在长文本的差异化优势，以及长文本的竞争壁垒，我们认为随着大厂下场深入大模型的长文本领域，国产大模型在中文语义方向的优势将会持续放大（相较于海外大模型）。视频和音频方面，我们对比海内外产品并对该模态的未来商业化/竞争格局做了一些猜想。投资逻通过梳理五大模态，我们建议关注预计确定性较强的【文本】、后续期待AI+文本语料：中文在线、南方传媒、掌阅科技、荣信文化、山东出版、中原传媒、中国科传、新华文轩；AI+视频数据：相较于文本语料，视频语料更具稀缺性，商业化逻辑顺畅。建议关注华数传媒、华策影视、中广天择、电广传媒、捷成股份。2）下游：B端/C端应用场景AI+音乐社交/游戏：盛天网络、巨人网络、恺英网络、神州泰岳；AI+广告/电商：值得买、易点天下、因赛集团等；AI+影视/IP：全年维度看好，电影大盘高景气度，叠加AI+视频或为今年较高确定性进展方向。建议关注：光线传媒、万达电影、上海电影、博纳影业、中国电影等。 5 6 6 8 10 10 13 13 13 15 17 17 18 19 19 19 20 22 5 6 7 7 8 8 9 10 11 11 11 11 12 12 13 14 15 15 15 15 16 17 17 18 19 20 20 20 21看，技术层面的突破离不开强大的算力基础设施+海量高质数据的支持和训练+在据中国电信研究院分析，国外行业大模型发展模式主要有三种，一是“龙头大模型+原业大模型”。结合中国电信研究院的观点，我们认为海内外的大模型赋能企业发展主要有三种模式：各自原有的强势业务线，做产业升级。比如微软用GPT-4赋能Azure云服务、Office365、搜索业务等；谷歌和Meta利用大模型生成创意广告文案/图片赋能广告主，抑或是在广告业务的多个环节提升精准度和效率。该模式常见于大厂，+原有业务即利用大模型的语言能力提升传统业务的智能化水平，同时利用传统业高性能开源大模型的出现削弱了国产大模型的竞争力；但另一方面，大量中小开发者和企业申请部署开源大模型去开发各自的AI产品，大大降低了开发成本。但是Llama的开源也存在弊端，例如仅适用于英文环境，而百川智能的开源模型则弥补3）垂类模型+行业数据：虽然通用大模型适用景需求（营销/金融/电商/新闻/教育等训练数据更聚焦，输出结果更符合用户偏好。此类模型需要选择一个通用大模型作为底座，并用垂类行业大模型BlueAI、易点天下的KreadoAI、因赛集团的InsightGPT等。大模型基座的重要特征是拥有多模态能力，后文我们也将从文本、图像、音频、视频、（一）文本1、多模态&逻辑推理：海外大模型一超多强从海外主流大模型看其迭代路径，基本可以归纳达能力越强，也能够捕捉更复杂的数据模式，当然也意味着更多的训练数据和算力。多则能增加模型的可处理信息量，使得模型在长内容方面突破。根据谷歌官方披露，模型名称训练参数模态上下文窗口（tokens）是否开源所属公司否否-否AnthropicLLaMA2-70BNLP（文本）是NLP（文本）是大模型评测中很重要的一个步骤是衡量模型的性能，通过常识、逻辑、数学、代码能力按能力由弱到强排列，分别是Haiku、Sonnet和Opus，其中Opus的各项资料来源：Claude转引自36氪《OpenAI劲敌出手！Cl2、长文本：国内大模型“卷”出差异化优势参数规模和算力支持要求更高，芯片供给侧的紧缺也一定程度上成为各平台算力扩张的模型名称模态否-是是-否-是算力的差距或是国内大模型掣肘的一个重要因素。英伟达的GPU被认为是科技行业资料来源：OmediaResearch转引自财联社《今年英伟达H100GPU都流向了哪？微软和Meta是最大为什么“长文本”能力让用户觉得大模型很“聪明”？根据月之暗面相关负责人访的解释，虽然过往的大模型产品也支持百万、千万字的文档输入，但通常采用的是RAG（检索增强生成）方案，而不是“无损上下文窗口”方案。前者通过检索文档中的关键信息给到大模型推理，实际阅读量仍然是3万字左右，好比读了几个“摘抄片段”就对内容进行讨论。但是kimi采用的无损上下文的窗口的模型是逐字读完全文，对文档有更深入和全面的解释。证券图表8长文本的“不可能三角”我们认为随着大厂下场深入大模型的长文本能力，国产大模型在中文长文本方向的差异化优势将会持续放大（相较于海外大模型）。对于大模型企业而言，手里最重要的牌还是用户，下一阶段的文本差异化竞争很可能是关于用户的定制化竞争——基于庞大在手用户数据的特征搜集，形成更深的产品护城河。为互联网数字经济催生出以视觉中国、Shut6%6%6%6%6%6%81%StableDiffusion开源社区生态MidjourneyAdobeFireflyDALL-E2资料来源：Everypixel转引自中国AIGC产业联盟&无界AI《2023数据截至2023年8月，下同16000单位：亿14000120001000080006000400020000资料来源：Everypixel转引自中国AIGC产业联盟&无界AI《2023AI应用日新月异，AI+图片类产品的访问量表现好+掉队率最低。海外风投机构a16z分类中占比最高的。AI图片类产品掉出新榜单的数量也是所有分类中最少的，掉出率部AI图片产品的用户访问量更趋稳定（榜单变化小意味着商业化进程或更快；而AI视频类的访问量波动较大，或也意味着产品竞争更激烈、更易跑出超预期的黑马新8%8%12%32%22%26%AI生图/修图AI聊天/搜索其他工具类AI视频生成AI音频数据截至2023年1月，下同50单位：个86%71%67%单位：个86%71%67%8%8%掉出最新Top50的产品数（左轴）入围2023上半年Top50的产品数（左轴）掉出率（右轴）100%50%0%测算的成像效果已经十分成熟，但也需要建立在给出明晰提示词的基础上。通过多维度公众号“数字生命卡兹克”的作者为四大平台进行打分：1）在细节质量方面，3；3）风格多样化方面，Dalle-3>Adobe=Midjourney>Meta；4）语义理解方面，Dalle-3>Adobe>Meta>Midjourney。基本领先；Midjourney也较为均衡，但在审美上有明显优势；Meta表现中规中矩；Dalle-3偏科严重，语义理解出色，但细节质华创证券整理注：图片生成时间为2023年12月华创证券Midjourney是AI生图应用中最早上线的产品之一，需要集成在discord平台使用，但用现主体的“一致性”概念贯穿始终，而这也是AI生图最重要的部分——图像的连贯性风格/角色/场景一致性的难度逐渐递增，目前场景一致性还未解决。根据下表可以看出入风格一致性（--sref）与角色一致性（--cref）功能，意味着这两项指标已经可以程序化应用于作品，并且在非真人领域（游戏、动漫、绘本等）的角色一致性精度优于真人领域。场景一致性目前暂未看到明显突破，这也是AI生图最具挑战的部分之一。场景包含大量的细节、元素以及角色之间的逻辑关系，大模型把握的不仅是视觉层面的一致图正式进入规模化的商业进程。相应的，AI视频的场景一致性或也可能受益并得以突觉风格的“风格调整器”数的全范围响应更快；角色一致性提升增强了风格一致性、角色一致性，应用于非真人领域（游戏、动漫、绘本等）的角色一致性精度优于真人领大模型在视频领域主要有三个发展方向，其中视频生成挑战最大：1）视频生成，又包含文生视频、图片/视频生视频、编辑视频元素等多种形式，海外以Sora、Runway、视频生成模型的早期尝试：1）基于预设规则组合素材，应用于天气预报等程序化场景；2）基于GAN的文本生成视频模型，但控制难度大、时序建模较弱；3）基于自回归种方式训练稳定性好，长视频建模、时序建模能力强，缺点是计算量大。频生成模型。三维空间的连贯性、持久性，包括数字世界的模拟方面都有更好的表现。但由于视频增出挑战。Background,Technology,Limitations,a2、国内视频模型的探索与追赶的模型中，字节跳动的MagicVideo-V2在人工投票中优于StableVideoDiffusion模型公司/团队视频视频视觉质量语义运动质量✓✓Pika✓✓Hotshot-XL✓8VideoCrafter1腾讯✓✓8✓8✓8✓8ZeroScope✓8资料来源：YaofangLiu,XiaodongCun,XueboLiuetal.《EvalCrafter:BenchmarkingandEvaluatingLargeVideoGenerationModels》，华创证券注：论文数据截至2023年10月口形、局部修改、控制镜头运动、控制物体运动等功能，产品形态一直保持快速迭代。国内公司爱诗科技与MorphAI是较早入局的，其中爱诗科技是少数在公司发布时间测Pika频；支持通过笔刷控制特定物体运动；支持改变视频风格与控制镜头运动放公测布网页端，网页端将视频生成、剪辑、后期集于一体；可以控制镜头运动；在模型和生态方面与Stability达成券整理在一份来自“归藏的AI工具箱”的自媒体评测中，PixVerse总分甚至超过Pika和产品中最平衡的，在较强的运动幅度中依然可以维持较好的一致性。成像质量主题一致性运动Runway运动程度平滑度PixVerse Pika我们认为能引发市场轰动的AI模型/应用往往有更清晰、更远大的商业化预期。特别是上线，降本逻辑不仅没被证伪，甚至Sora的产品质量已经可以希冀于商业化用途，进难度更大，高质量的视频语料库相对稀缺，因此使得拥有高质量视频语料库的公司具有AI音频产品可归为三类：TTS（TexttoSpeech语音合成）、SVC（Speech-to-Speech熟度更高，海外已落地的产品代表为ElevenLabs，支持29种语言的语音合成；国内代1）TTS是一种文生声音的技术，核心在于模拟人声发音过程。使用场景包括智能助出现了更多控制语音风格的技术，如Styler（改变输出风格）、DiffTTS（声音自然2）SVC是一种复制原声并模拟的声音克隆技术。通过对声音的采集、分析、建模后合于配音、社交等场景。乐本身门槛较高，因为声音是连续的波型信号，无法像文字一样轻易拆解再拼接。乐小白也可以创建从歌词到人声和配器的所有内容，且曲风多变、声音质量清晰稳2、商业化及竞争格局猜想目前AI音频产品的主要参与者有三类：科技巨头、开源项目和创业公司，竞争自身云平台深度集成，未来或将赋能传统业务（分项目也已开源代码和模型。科技大厂可能短期内不会直接将AI音频3）创业公司的竞争赛道更广，也有OpenAI的身影。TTS赛道的硅谷明星项目包括（应用场景广泛、技术迭代快、竞争者多虽然国内产品仍处初期，但存在极大空间迎头追赶。其中TTS发展更成熟，特别是科技大厂未来可能会与传研发投入空间和后续迭代，长期有望改写音乐创作市场格局。SVC相对更工具化， OpenAI发布的产品猜想会是一个中间形态，远期价值在于与AI视频、或其他模态的结某些方法可以直接存储模型的空间结构，而一些隐式方法采用集合或函数的形式表现模型公司模型架构NeRFXiaoshuiHuangetal.《AComprehensiveSurveyon3DContentGeneration》，HeewooJun,AlexNicholetal.《Shap-E:GeneratingConditional3DImplicitFunctions》，Chen-HsuanLin,JunGaoetal.《Magic3D:High-ResolutionText-to-3DContentCreation》，ZhengyiWang,ChengLuetal.《ProlificDreamer:High-FidelityandDiverseText-to-3DGenerationwithVariationalScoreDistilla3D应用前景广阔，但目前的生成效果精度欠佳。3D生成模型可持材料属性。证监会审核华创证券投资咨询业务资格批文号：证监许可（2009）1210公司发布时间画否VoxCraft找映射，但实质上国内大模型本身能力与海外存在不小差距，且并未真正意义上实现用点爆发于【国内大模型的实质进展和出圈】。从Kimi、阶跃星辰等创业公司，到此基于全球AI产业发展阶段判断，我们认为中国厂商进入快速追赶期，部分领域体现较强竞争力。可重点关注文本（预计确定性较强）、视频（预计后续期待值最高）、音频 AI+文本语料：中文在线、南方传媒、掌阅科技、荣信文化、山东出版、中原传媒、证监会审核华创证券投资咨询业务资格批文号：证监许可（2009）1210AI+视频数据：相较于文本语料，视频语料更具稀缺性，商业化逻辑顺畅。建议关AI+影视/IP：全年维度看好，电影大盘高景气度，叠加AI+视频或为今年较高确定公司大语言模型“天工2.0”+新版“天工AI智能助手”APP+“天工SkyMusic”针对媒体行业的传播大模型“传播大脑”研发AIGC一键成片系统“ChatPV”与小冰公司达成战略合作协议，共同推进“IP+AI”购物

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

互联网-传媒行业深度研究报告：多模态AI的五重奏国产大模型的探索序章

文档简介

温馨提示

最新文档

评论

互联网-传媒行业深度研究报告：多模态AI的五重奏国产大模型的探索序章

文档简介

温馨提示

最新文档

评论

相关文档