美图公司AI应用淘金系列一:穿越周期的国产影像工具软件巨头_第1页
美图公司AI应用淘金系列一:穿越周期的国产影像工具软件巨头_第2页
美图公司AI应用淘金系列一:穿越周期的国产影像工具软件巨头_第3页
美图公司AI应用淘金系列一:穿越周期的国产影像工具软件巨头_第4页
美图公司AI应用淘金系列一:穿越周期的国产影像工具软件巨头_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

内容目录一、为什么我们认为美图不会被吞噬?—从市场对美图的4个误区讲起 5对“AI吞噬软件”追问之后:AI与应用间边界愈发清,关注C端软件错杀品种 5容错率误区:涉及人脸编辑、人物一致性生成的场景是存在标答的不容错场景 6审美活动需要提效误区:一个容易被忽视的用户洞察是p图本身是一件愉悦的事情 7自然语言交互误区:从命令行到功能按钮本身即为Knowhow 9点状功能误区:美图系产品实际上是封装了成熟工作流的影像类工具箱 9二、如何看待美图的成长空?—订阅收入的极限或在100-225亿元 12商业模式:阅尽千帆归来仍是工具软件 12出海生产力工具”贡献未来增量,背靠阿里Gen技术处于全球前列 16视频>图像,海外>国内增值功能有望增厚ARPU 19付费率:“功能厚度社交属性”可将工具类付费率上限推升至10+% 23三、盈利预测与投资建议 24盈利预测 24投资建议及估值 26四、风险提示 26五、附录:多模态模型发展脉络及技术演变 27多模态模型:从跨模态协同迈向原生融合,技术架构持续突破 27多模态生成技术路线:跨越图像、音频与视频的融合创造 30多模态理解技术路线:突破感知认知临界基座模型步入成熟期 34图表目录图表1:“AI吞噬软件”对应用板块产生叙事压制 5图表2:对“AI吞噬软件”追问之后,众多C端软件仍具备较高护城河 6图表3:容错率误区:涉及人脸及人物一致性的场景实质是有标答不容错的 7图表4:摄像头功能在国际知名消费电子测评网站上位居智能手机测评维度第一名 7图表5:自拍功能在国际知名消费电子测评网站上位居智能手机测评维度第二名 7图表6:国际知名消费电子测评网站对于摄像头功能的测评维度更注重照片及视频的光学还原度 8图表7:国际知名消费电子测评网站对于自拍功能的测评维度更注重照片及视频的光学还原度 8图表8:第三方影像编辑工具能够提“多样的美”,修图或为审美活动 8图表9:自然语言交互误区:在需要精细调整的场景,功能按钮界面自由度更高 9图表10:美图系产品实际上是封装了成熟工作流的影像类工具箱 9图表自动消除功能比较 10图表12:闪光灯功能比较 10图表13:一键美颜功能比较 图表14:表情重塑功能比较 图表15:扩图功能比较 12图表16:阅尽千帆归来仍是工具软件 13图表17:以流量为中心(关注用户访问时间)以产品为中心(关注用户体验) 14图表18:公司影像与设计产品收入占比迅速提升 14图表19:年影像与设计产品收入CAGR=85.3% 14图表20:20-24年三因子模型主要依靠付费率贡献增长 15图表21:公司产品矩阵三层架构清晰,发展侧重向生产力工具转15图表22:公司应用产品矩阵涵盖生活场景应用与生产力工具两部16图表23:公司国内生活场景应用的成长上限或为2.3亿持有智能手的15-49岁女性用户 16图表24:MAU主要增量看出海+生产力工具 17图表25:美图秀秀凭借合照功能荣获欧洲个国家总榜第一 17图表26:25年2月美颜相机凭借AI换装功能带动海外MAU快速提升 17图表27:美图影像研究院聚焦人体技术、图像处理、视频编辑等核心技术处理的论文发表情18图表28:视频生成权威评测最新榜单中公司自研奇想智能大模型夺冠 18图表29:图像编辑与文生视频榜单上阿里旗下模型位居全球19图表30:ArtificialAnalysis图像编辑榜单上阿里旗下模型位居全球第七 19图表31:ArtificialAnalysis文生视频榜单上阿里旗下模型位居全球第五 19图表32:国内主流图片编辑类工具会员价格及权益内容 20图表33:国内主流图片编辑类工具年费约在100-300元 20图表34:国外主流图片编辑类工具会员价格及权益内容 21图表35:国外主流图片编辑类工具年费约在美元(折约300-1000元) 21图表36:国内主流图片编辑类工具的功能普遍采取按使用量计费模式 21图表37:国内主流视频编辑类工具会员价格及权益内容 22图表38:国内主流视频编辑类工具年费约在100-300元 22图表39:国内主流视频编辑类工具的功能普遍采取按使用量计费模式 234020+%......................................................................................................................................................................24图表41:公司订阅收入的极限或在100-225亿元之间 24图表42:25/26年有望实约40/50亿元营收,同比长20%/25% 25图表43:利润预测:2026年有望维持综合毛率74%,经调整归母净利润亿元 26图表44:可比公司26年中位数接近接近1.4X 26图表45:一类典型的多模态模型结构包括编码器、连接器与大语言模型(LLM) 27图表46:多模态模型关键技术演进历程(2019-2025年) 28图表47:联合训练图像编码器和文本编码器来预测一批(图像,文本)训练示例的正确配对 28图表48:通过将图像分割成网格并独立编码,将扩展到更高分辨率 29图表49:3能够零样本解决大量以输入图像和文本提示指定的视觉任务 29图表50:通过拼接或更通用的交叉注意力机制对潜在扩散模型进行条件约束 30图表51:视觉自回归模型通用框架及核心组件 30图表52:TTS的核心流程包含文本分析、声学模型和声码器三个关键环31图表53:扩张因果卷积层堆叠的可视化 31图表54:2系统架构框图 32图表55:训练流程与推理流程架构框图 32图表56:语音合成技术的演进经历了从分阶段模型到端到端系统的转33图表57:各类图像和视频转换为visualpatchs的潜在表示 33图表58:Gemini模型支持将文本、图像、音频和视频的交错序列作为输34图表59:主要多模态融合策略的基本流程 34图表60:输入图像提取特征→带注意力的RNN(LSTM)→逐词生成描述 35图表61:长短期循环卷积网络模型针对动作识别、图像描述和视频描述任务的特定实例35图表62:整体的视觉问答框架 36图表63:视觉常识推理构建概述 36图表64:跨模态检索一般框架 37图表65:包含卷积神经网络和加权卷积神经网络(WCNNs)的双向提取结构 37一、为什么我们认为美图不会被AI吞噬?—从市场对美图的4个误区讲起对AI吞噬软件追问之后:AI与应用间边界愈发清晰,关注C端软件错杀品种8月以来的AI吞噬软件对AI应用板块产生叙事压制。从2025年8月11日MeliusResearch下调Adobe评级开始,过去几个月以来,AIiseatingsoftware这一叙事始终压制着广义AI应用板块的股价表现,市场担心AI基模的能力会逐渐外溢到应用层,从而直接颠覆原本身处其位的软件厂商的产业卡位与商业模式。对于BSaaSAI在侵蚀客户的软件预算,在宏观经济相对难言强劲的环境下对客户的AISaaSbyaccountpaybyusageSaaS浪潮。CChatBot在一些点状功能上可以相对较好地满足消费者的需求(AIGC等);AI有可CC基模的衍生应用直接吞噬。图表1:AI吞噬软件对AI应用板块产生叙事压制阿里矢量图库近期发生的一系列边际变化让AI与应用之间的边界愈发清晰。2025年10月6日,OpenAI2025DevDay发布AppsInsideChatGPT,抢占入口野心昭然若揭,我们认为其对于帮助市场理解泛C应用与AI基模之间的关系也具有深刻意义。LLM-as-OS,ChatGPT内置应用之后,用户可以在对话中被智能推荐到合适的应用,也可以直接通过自然语言在界面里唤起某款应用,上述自然语言+应用接口的模式,意味着ChatGPT本身成为了操作系统。入口正在发生迁移,第一/二/三代入口门户网站/搜索引擎/超级APP依靠内容聚合/信息检索/信息分发&承载应用成为入口,9月底ChatGPTPulse版本的上线已展现出OAI希望推动ChatBot由被动接收Prompt给出结果的形式转为主动结合Context提供个性化信息推送;本次ChatGPT引入各类APP(B、Canva、Coursera、Figma、Expedia、Spotify及Zillow)之后,其一在技术层面有望成为操作系统的中间服务层,其二在商业层面也有望成为AI时代的应用商店,其背后的核心也许是依靠智能带来的内容生成+应用分发的能力,抢占AI时代的原生入口。关注有分发价值的应用,我们认为,本次ChatGPT内置应用这一动作恰恰表达出尊重应用的态度,或者换言之——要关注有分发价值的应用:其一我们认为是已对垂类工作流进行成熟封装的工具类软件(无论2C2B,再强大的智能也无需在缺乏knowhow的背景下重复造轮子),其二是具有较强版权壁垒的内容消费类软件(无版权保护的内容极有可能由基模本身生成直接交付给用户),其三是已经聚合了较多供给侧服务资源的平台型应用(客户渠道资产较难短期重建)。202510Salesforce、Anthropic、GoogleGemini达成或深化合作,合作形式几乎均以Agentforce集成外部基模能力为主,Salesforce仍保留了面向企业级客户的服务入口。与Openaesforce将把OpenAIgentforce30ChatGPT、CodexSalesforceSlack;Salesforce的应用程序也可通过ChatGPTCRM数据和ChatGPT对话中。与Anthropic:引入Claude作为SalesforceAgentforce360平台的基础模型;Salesforce和Anthropic正在深度集成Claude和Slack。GeminiGeminiSalesforceAtlas推理引擎提供支GeminiSalesforce代理。上述变化发生后,我们认为:1)入口的定位愈发明确。B端仍以SaaS或软件厂商掌握入口及数据,AI基模作为被集成的一方提供智能;C端或渐渐被AI基模厂商(大厂AI)掌握入口主导权,C端软件存在被吞噬与被调用/分发两种结果。2)B端作为生产力工具的TAM更高。短期IT预算问题或对业绩存在扰动,但我们长期仍看好企业服务Agent化后的价值分成逻辑要强于按席位收费的SaaS逻辑。3)C端应结合具体需求与场景分情况讨论,我们认为①距离AI基模能力越远、②越看重过程体验而非简单的结果、③越难以单纯依靠自然语言交互达成结果的场景,C端软件被吞噬的风险越低,换言之,也越具备被AI基模旗下入口级应用调用与分发的价值。图表2:对AI吞噬软件追问之后,众多C端软件仍具备较高护城河Salesforce官网,阿里矢量图库容错率误区:涉及人脸编辑、人物一致性生成的场景是存在标答的不容错场景从AI落地的难易程度看,曾有声音误将美图系产品归类为AIGC类需求,也即无标准答案、容忍幻觉的场景,但实际上,美颜类APP所涉及的人脸编辑、人物一致性生成等场景,对结果的准确性与一致性要求极高——人脸的五官比例、动态表情、身份特征需严格契合用户审美预期,人物在生成或编辑过程中若出现五官扭曲、身份混淆等幻觉,将直接导致功能失效。这类场景并非天马行空的创意需求,而是存在隐性标答的精准化场景,AI基模在当前技术阶段难以完全规避幻觉风险,因此美颜APP在人脸与人物一致性场景的专业能力,构成了对AI基模吞噬的有效壁垒。图表3:容错率误区:涉及人脸及人物一致性的场景实质是有标答不容错的RoboNeo,Gemini

审美活动需要提效误区:一个容易被忽视的用户洞察是p图本身是一件愉悦的事情吞噬论诞生之前,另一个美图系产品常被市场担忧的外界竞争是来自手p图的过程本质是一种自我愉悦的审美活动,而非生产力效率场景。是否会被上游手机厂商入侵的担忧具有现实依据:手机APP的生存空间形成潜在挤压,这一问题也成为美颜类应用赛道发展需重点探讨的方向。图表4:摄像头功能在国际知名消费电子测评网站DxOMark上位居智能手机测评维度第一名

图表5:自拍功能在国际知名消费电子测评网站DxOMark上位居智能手机测评维度第二名 DxOMar DxOMar指标,重点考察拍摄功能对画面光学属性的还原能力,并未涉及美颜类功能的测评维度。这表明手机厂商在摄像头和自拍功能上的竞争重心在于光学层面的画质还原,与美图美颜APP提供的人像美化、风格化处理等功能存在明显差异,从而在一定程度上缓解了美图美颜APP被上游手机厂商功能入侵的担忧。图表6:国际知名消费电子测评网站DxOMark对于摄像头功能的测评维度更注重照片及视频的光学还原度

图表7:国际知名消费电子测评网站DxOMark对于自拍功能的测评维度更注重照片及视频的光学还原度DxOMar DxOMar美颜类APP在功能多样性与用户审美体验上形成对手机厂商功能入侵的有效壁垒。手机厂商内置的系统美颜属于单向度的预制化算法,适配性受限于光线环境、风格偏好、人种差异等,难以满足用户多样化美化需求,而美图美颜类APP提供多向度的美颜配方与滤镜插件,构建大而全的美化百宝箱,能充分适配不同场景下的个性化审美诉求;2025年,清华大学心理学系学者Hung,K.等发表论文《数字自拍编辑揭示性别差异:处理偏见与生活满意度之间的关联》,实证研究发现,用户修图行为本质上是自我愉悦的审美活动。参与者对自身照片的满意度在经过编辑后得到显著提升,修图能够通过数字化塑造理想化自我形象,既满足了用户的个性化审美需求,又能带来切实的心理愉悦感。因此我们认为,用户修图行为本质上是自我愉悦的审美活动,而非单纯追求效率的生产力行为,修图过程中用户对审美创作的自主参与感具有不可替代性,手机厂商的自动化美颜功能难以替代第三方美颜APP所承载的审美创作价值。图表8:第三方影像编辑工具能够提供多样的美,修图或为审美活动国产手机厂商官网,阿里矢量图库自然语言交互误区:从命令行到GUI,功能按钮本身即为Knowhow在人脸精细调整等需要精准控制的场景中,自然语言交互的自由度未必高于传统功能按钮界面。美颜类APP涉及人脸五官、轮廓、肤质等精细调整需求,对调整部位和调整程度的精准性要求极高。自然语言交互在描述这类精细需求时,可能会由于语义模糊而导致理解偏差;美颜类APP的功能按钮界面通过拖拉拽式的模块化设计,可对人脸各部位实现精准识别与分层调整,具备更高的操作自由度与精度。当用户能够用语言准确描述每一个精细需求点时,借助美颜APP的功能按钮界面往往能更快速、高效且准确地完成调整任务。因此,在需要精细调整的场景中,传统功能按钮界面的精准性与高效性构成了对AI基模自然语言交互模式的壁垒,美颜类APP的工具属性优势难以被替代。图表9:自然语言交互误区:在需要精细调整的场景,功能按钮界面自由度更高RoboNeo,美图秀秀

点状功能误区:美图系产品实际上是封装了成熟工作流的影像类工具箱AI时代功能厚度+国民认知足够深的工具软件仍具备难以颠覆的价值。诚然,在我们的AI产品体验中,某些点状的生图、修图功能在豆包、ChatGPT、Gemini的ChatBot中都已初步成熟,可以在连续抽卡之后满足部分用户点状的一次性浅需求(我们已在下文中列示了5类典型的美图系付费AI功能与国内外代表性AIChatBot生成的结果对比),但以美图秀秀为代表的美图系产品实际上是封装了成熟工作流的影像类工具箱,裁切→调整透视→滤镜→人像美容→贴纸→社交分享等功能场景环环相扣,能够对用户的深浅需求均做到100%的满足,且十数年来已经在全球范围内树立了极强的用户心智。图表10:美图系产品实际上是封装了成熟工作流的影像类工具箱美图秀秀图表自动消除功能比较美图秀秀,豆包,GoogleGemini2.5Pro图表12:AI闪光灯功能比较美图秀秀,豆包,GoogleGemini2.5Pro美图秀秀,豆包,GoogleGemini2.5Pro图表表情重塑功能比较美图秀秀,豆包,GoogleGemini2.5Pro美图秀秀,豆包,GoogleGemini2.5Pro二、如何看待美图的成长空间?—订阅收入的极限或在100-225亿元商业模式:阅尽千帆归来仍是工具软件2013BeautyPlus,20152019年,公2020驱动影响工具软件产品迭代。平台转型流量变现:2014年,公司推出兼具工具属性的短视频社区应用美拍,开启2016年,美拍推出直播功能和付费虚拟礼2017年,公2018年,公司中止电商TryTry运营,同时推动美图秀秀社交平台转型,以提升广告收入。后续公司逐步退出平台转型相关业务,不再发展社交、电商类平台业务。20142015-2017VM系列及T201924年以来战略逐步收缩。公司官网,公司招股书,公司财报公司商业模式逐步从以流量为中心转向以产品为中心,聚焦软件产品本身的价值挖掘与订阅制变现。以产品为中心:探索与碰壁之后,公司商业模式逐步从流量中心化转向产品中心化,核心逻辑由用户时长竞争转变为产品价值付费,聚焦软件产品本身的价值挖掘与订阅制变现。在产品聚焦方面,公司专注于美图秀秀、美颜相机等生活场景类软件及相关生产力工具类应用,强化核心产品的功能体验与用户价值。在变现模式上,公司以订阅制为核心商业模型,其收入主要由月活跃用户数(MAU)、付费率及每付费用户平均收入(ARPU)三因子决定,即通过扩大用户基本盘、提升用户付费转化效率与单用户付费贡献,实现收入增长。商业模式的转变,不仅聚焦核心产品能力建设,也重塑了公司发展导向,从广撒网式流量变现转向精细化产品价值运营。公司招股书,公司财报

公司影像与设计产品收入占比迅速提升,18-245.4%74.2%,180.52420.913.545.2%。其中,22/23/24年影0.6pp/1.0pp/1.0pp年影像与85.3图表公司影像与设计产品收入占比迅速提升 图表19:18-24年影像与设计产品收入CAGR=85.3%10090%80%70%60%50%40%30%

65.5%

76.9%57.0%

46.0%

30.2%

28.1%

25.5%62.4%

23.8%74.2%

180%155.1%123.7%100.8%57.1%155.1%123.7%100.8%57.1%39.5%47.0%52.8%45.2%22.1%25.2%29.3%23.9%12.3%3.2%2019 2020 2021 2022 2023 20241H2025140%120%100%

5.4%

22.1%13.5%

35.5%

41.7%49.2%

-20%-40%

影像与设计产品收入增速 广告收入增速2018 2019 2020 2021 2022 2023 20241H2025影像与设计产品 广告 美业解决方案 其他公司财报 (注:2022-1H2025为公司财报实际披露结果年影像与设计产品收入为订阅+互联网增值服年像与设计产品收入为订阅及影像SaaS+互联网增值服务年美业解方案收入为SaaS及相关业务;2018-2021年的广告收入为在线广告)

总收入增速公司财报 (注:2022-1H2025为公司财报实际披露果,2021年影像与设计产品收入为VIP订+互联网增值服务,2018-2020影像与设计产品收入为VP订阅及影像SaS+互联网增值服务201年美业决方案收入为SaaS及相关业务;2018-2021年的广告收入为在线广告)ARPUARPU先降后升。20-242%,整体规模波动20-24519图表20:20-24年三因子模型主要依靠付费率贡献增长公司财报

公司三层业务架构清晰:MiracleVision,并广泛应用于旗下影像与设计B端用开放Web、Mobile、定制解决方案等多种灵活服务形式。美图创意平台则助力创意资源整合,为KOL快速发布潮流创意内容,在支持素材的制作发布的基础上,助力应用层产品的创意内容供给。Wink图表21:公司产品矩阵三层架构清晰,发展侧重向生产力工具转移公司微信公众平台

公司构建了涵盖生活场景应用与生产力工具的产品矩阵。生活场景应用方面,美图秀秀/Airbrush2011/2015年推出,作为旗舰影像编辑应用,集成人像美容、视/BeautyPlus2013年推出,主打实时美颜自拍与滤镜直出;Wink2022视频编辑工具,单次付费为主。生产力工具20212022设计服务;开拍于2023IE2023年推出,视觉创作平台;RoboNeo2025年推出,通过自然语言交互完成商业级修图表22:公司应用产品矩阵涵盖生活场景应用与生产力工具两部分产品名称推出时间功能定位付费方式生活场景应用美图秀秀/海外版Airbrush2011年/2015年美图秀秀:旗舰影像编辑应用,含人像美容、视频美容、美图配方、AI修图、美图设计室等功能。Airbrush订阅+单次付费美颜相机/海外版BeautyPlus2013年/2013年实时美颜自拍工具,主打滤镜直出与AI换装。订阅+单次付费Wink2022年AI视频编辑工具,其雏形来自美图秀秀视频美容模块,支持视频画质修复、视频人像美容等功能。订阅+单次付费生产力工具美图云修2021年专业级批量修图SaaS,服务摄影工作室。按张收费,每张0.21-0.33元美图设计室/海外版X-Design2022年面向电商场景的AI设计工具,其雏形来自美图秀秀设计室模块,支持商品图、模特图生成、海报设计、修图改图。订阅开拍2023年口播视频制作工具,提供AI脚本生成、提词器、画质增强。订阅+美豆充值WHEE2023年多模态AI视觉创作平台,支持文生图、图生图、图生视频、文生视频等功能。订阅+美豆充值RoboNeo2025年AIAgent,通过自然语言交互完成商业级修图、品牌标识设计、室内设计图、营销视频、网页设计等。目前免费公司招股书,公司财报,公司官网,公司微信公众平台MAU:出海+生产力工具贡献未来增量,背靠阿里GenAI技术处于全球前列公司国内MAU成长上限可从目标用户规模维度分析。国家统计局数据显示,国内15-49岁女性群体规模约3.2亿人,其中拥有智能手机的15-49岁女性数量约2.3亿人。公司国18-24215-49岁女性MAU增长空间相对有限。图表23:公司国内生活场景应用MAU的成长上限或为2.3亿持有智能手机的15-49岁女性用户国家统计局,公司财报,公司IRPPT公司MAU增量主要来源于出海业务拓展与生产力工具场景渗透两大方向。25年上半年,公司生产力工具MAU为0.2亿人,对标海外设计工具巨头Canva,其24年全球MAU已达2.2亿且增长势头未减,公司在生产力工具领域存在广阔的市场空间,可通过持续迭Airbrush出海增长的全新空间。图表24:MAU主要增量看出海+生产力工具国家统计局,公司财报,公司IRPPT公司以AI技术为核心驱动全球化布局,构建起覆盖多场景的产品矩阵并持续引爆全球市场。AIAgent产品RoboNeo凭借自然语言与视觉指令跨模态解析能力,实现图像精修-海报生成-视频特效全流程自动化,上线后迅速登顶中国、西班牙AppStore分类榜第一及越南GooglePlay分类榜第一,更跻身日本、韩国、英国等多国应用市场前列,累计斩获百万级月活用户;美图秀秀的AI合照功能支持用户上传照片后,通过自然语言指令生成虚拟合影并灵活调整风格,满足多元场景需求,2025年10月一举拿下欧洲14国AppStore总榜第一、28国分类榜第一,此前更在俄罗斯、意大利、沙特阿拉伯等12国的AppStore与GooglePlay摄影类榜单登顶,斩获柬埔寨及文莱AppStore总榜第一。2025年2月,美颜相机凭借创新AI换装功能席卷东南亚,带动海外日活用户创历史230012AppStore总榜第一;20256月,Wink5App总榜第一,成BC图表25:美图秀秀凭借AI合照功能荣获欧洲14个国家APPStore总榜第一图表26:25年2月美颜相机凭借AI换装功能带动海外MAU快速提升公司官网 SensorTower (:数据及信息涵盖年1-11月)公司在多模态领域的布局以技术根基为核心,形成了研究院引领、重学术站位的体系。公司影像研究院(MTLab)作为核心中枢,深耕计算机视觉、生成式AI等关键领域,不仅构建了覆盖人脸技术、图像生成等方向的多维度技术矩阵,还重点覆盖了交互式分割、3D重建等多模态核心方向;在学术前沿站位上,美图影像研究院聚焦人体技术、图像处理、视频编辑等核心技术处理发表多篇学术成果,截至2025年11月已在人工智能领域顶级会议与顶级期刊上累计发表学术论文58篇。2025年,美图影像研究院联合清华大学等高校完成的5篇多模态相关论文成功入选CVPR2025,斩获3项CVPR2024国际人工智能顶会大奖,另有2项学术成果入选AAAI2025,进一步凸显了其技术研究的前沿性与含金量。图表27:美图影像研究院聚焦人体技术、图像处理、视频编辑等核心技术处理的论文发表情况时间论文接收单位具体技术成果CVPR2025生成式AIMTADiffusionCVPR2025交互式分割NTClickCVPR20253D重建EVPGS2025CVPR2025生成式AIGlyphMasteroCVPR2025交互式分割SAM-REFAAAI2025生成式AIStyOAAAI2025超高分辨率抠图方法MEMatteElectronics2024高清图像驱动视频编辑LIVE2024TPAMI2024视频多人姿态估计DASECCV2024视频修复BlazeBVDCVPR20243D场景编辑CustomNeRFNeurIPS2023基于文生图模型的视频编辑EIACMMM2023人脸修复DiffBFR2023TCSVT2023跨域少样本分类DSDCVPR2023视觉Transformer自注意层改进DropKeyTMM2023视频多人姿态估计SPLACMMM2022视频序列中的人类行为与关系MTVG/MDVC/HC-STVGECCV2022多层感知器类骨干网络MorphMLP2022CVPR2022多人3D人体姿态估计DASAAAI2022参考视频目标分割YOFOBIBM2022图像自适应分割WDA-NetTMM2022人体姿态估计的向心偏移预测GroupingbyCenter美图影像研究院官网

MiracleVision(奇想智能)兼具显著技术与生态优势。该模型自236WinkWHEE、AIVBench85.31%总分及86.69%视频生成质量分双获榜首,Luma旗下的视频大模型。能能力,搭建起三层人工智能产品生态,还融入美学认知赋能五大行业并推动中国传统文化数字化,技术、生态与美学价值兼具。图表28:视频生成权威评测VBench最新榜单中公司自研奇想智能大模型夺冠公司微信公众平台20255月,公司与阿里2.59系列前沿AI模型为公司旗下产品赋能,为全球用户提供全新智能影像体验。根据LMArena图像编辑与文生视频榜单,阿里旗下的qwen-image-edit模型在图像编辑领域跻身全球前列,通义万相相关模型也位列文生视频领域全球Top10。图表29:LMArena图像编辑与文生视频榜单上阿里旗下模型位居全球Top10公司微信公众平台,LMArena (注:数据及信息截止至2025年月)在人工智能模型的图像编辑与文生视频领域,阿里巴巴旗下模型展现出全球领先的技术实力。从ArtificialAnalysis的榜单可见,阿里旗下的qwen-image-edit模型/通义万相系列模型在图像编辑/文生视频赛道均位列全球Top10。这为公司在AI图像编辑、视频生成等前沿领域的产品创新与技术突破提供了强大支撑,助力其在生产力工具与智能创作赛道持续强化竞争力图表30:ArtificialAnalysis图像编辑榜单上阿里旗下模型位居全球第七

图表31:ArtificialAnalysis文生视频榜单上阿里旗下模型位居全球第五Artificial(注:数据及信息截止至2025年10 Artificial(注:数据及信息截止至2025年10月) 月):视频>图像,海外>国内,增值功能有望增厚APP呈现差异化布局策略。美图秀秀SVIP月度会员/38/108VIP连续包月/月度会员价格为15/22月度会员/季度会25/60等权益。图表32:国内主流图片编辑类工具APP会员价格及权益内容套餐美图秀秀SVIP美图秀秀VIP美颜相机VIP醒图VIP轻颜相机Faceu激萌B612咔叽VIP所属大厂美图公司字节跳动亿睿科信息技术有限公司会员价格--权益内容享美图秀秀VIP美化素材;视频高清人像;更多创意玩法等海量素材;一件美化;面部重塑;面部丰盈;提拉去皱;画面调节;免广告;专属客服等真等视频拍摄等发型;AI美图秀秀APP,美颜相机APP,醒图APP,轻颜相机APP,Faceu激萌APP,B612咔叽APPAPP100-300ARPU160-170元。公司旗下美图秀秀SVIP连续包年/年度会员价格为218/288208/238元。国内竞品方面,字节跳动旗下醒图VIP198B612198VIP定VIP与竞品在百元级年费区间形成直接竞争,而高因定价较高,付费率表现相对有限。图表33:国内主流图片编辑类工具APP年费约在100-300元3602883602882382081801801981981441440美图秀秀美图秀秀美颜相机醒图咔叽连续包月折合年费(元) 年度会员年费(元)美图秀秀APP,美颜相机APP,醒图APP,轻颜相机APP,Faceu激萌APP,B612咔叽APPAirbrush的会员价格分为多个梯6.99/7.99/10.9928.99/54.99美元,连续包35.00/43.99/eautypus449/799/8.99.99/9.99美元,聚焦照片艺术风格转换、滤镜及视频增强等特色权益。图表34:国外主流图片编辑类工具APP会员价格及权益内容套餐airbrushbeautyplusYouCamPerfectZCamera-PhotoEditor所属大厂美图公司完美公司FunnytechCorporation趣科技公司会员价格(美元)权益内容图像/物体//滤镜/贴纸等最新贴纸和/AirbrushApp,BeautyplusApp,YouCamPerfectApp,ZCamera-PhotoEditorApp,Adapty300-1000元。从定价维度看,公司旗下海外图片编辑工具Airbrush/BeautyPlus年度会员为55/50美元;国际竞品Perfect/ZCamera-PhotoEditor43/84会员年费经汇率折算后显著高于国内水平。图表40-140(300-1000元1321201321201081088455504380400Airbrush YouCamZ月度会员折合年费(美) 年度会员年费(美元)AirbrushApp,BeautyplusApp,YouCamPerfectApp,ZCamera-PhotoEditorApp,AdaptyB612权益内的功能使用限制等模式实现商业化。按使用量计费功能的付费潜力,丰富收入结构,增长开辟新路径。产品分类图片美化/处理形象照制作AI美图秀秀美颜相机具体功能滤镜/贴纸美颜/美妆拼图产品分类图片美化/处理形象照制作AI美图秀秀美颜相机具体功能滤镜/贴纸美颜/美妆拼图人像美容智能抠图画质修复标记去印记写真AI绘画AI设计AI捏捏特效、AI消除其他收费模式VIP美妆特效单次付费:写真/证件照:8.8元/12.8元/次//3/10单次付费:百变AI头像,1张50美豆(1元为7美豆)SVIP权益:AI设计功能,部分功能限时免费VIP权益:AI扩图(每日免费3次)、轻颜具体功能滤镜/贴纸、风格拍摄-AI生图AI写真收费模式-单次付费:9.9元/10次B612咔叽具体功能滤镜/贴纸、风格拍摄-AI设计AI漫画脸生成收费模式--妙鸭相机具体功能高清画质、发型设计、面部修复、精修写真写真证件照艺术照AI消除、AI修脸、色彩测试收费模式单次付费单次付费:9.9元/张专家模式:9.9元/次醒图具体功能美颜/写真AI写真、AI消除、AI替换、AI商品图收费模式VIP美妆特效,超清画质单次付费:11.8元/张VIP权益:AI写真免费生成美图秀秀APP,美颜相机APP,醒图APP,轻颜相机APP,B612咔叽APPWink连续包月/连续包年/18/168/218/图表37:国内主流视频编辑类工具APP会员价格及权益内容套餐WinkVIP剪映VIP万兴喵影VIP快影VIP所属大厂美图公司字节跳动万兴科技快手科技会员价格权益内容全能修复;画质修复;AI身材美型等形;轻量AI创作装扮;5GWinkAPP,剪映APP,万兴喵影APP,快影APP200-300Wink/字节跳动剪映/万兴科技万兴喵影/VIP218/218/268/158元。国内主流视频编辑通过多元会员套餐,满足用户付费需求,形成了差异化的定价策略以适配不同用户的消费能力与使用需求。图表38:国内主流视频编辑类工具APP年费约在100-300元300312300312268216 218216158500剪映万兴喵影快影连续包月折合年费(元) 年度会员年费(元)WinkAPP,剪映APP,万兴喵影APP,快影APPAPPAIARPU的提升WinkAI功能在视频生成/编辑、()功能的单点付的提升。产品分类视频生成/编辑图片制作AIWink具体功能视频美容、视频剪辑、画质修复产品分类视频生成/编辑图片制作AIWink具体功能视频美容、视频剪辑、画质修复跳转至美图秀秀AI视频动图、收费模式VIP权益:部分滤镜贴纸视频特效,人像增强VIP单次付费:AI动漫30秒/12元,60秒/20元剪映具体功能美颜美体、视频美化、提词拍摄、超清视频、视频变速视频转拼图、超清图片、智能抠图图片编辑AI视频字人、AI剪口播收费模式VIP权益:部分滤镜贴纸视频特效,美颜美体功能VIP权益:部分智能抠图效果,AI换背景、画质提升功能1200积分/月)万兴喵影具体功能-AI剪辑高光卡点机位剪辑、屏幕录制、无损剪切收费模式VIP权益:部分滤镜贴纸视频特效,水印编辑功能年)快影具体功能图文编辑AI视频数字人口播、AI文案成片一键出片、混剪视频、音乐MV、游戏大片收费模式VIP权益:部分滤镜贴纸视频特效编辑功能VIP美颜美体功能VIP权益:AI数字人、小说转漫画功能畅享、、、美图秀秀APP,美颜相机APP,醒图APP,轻颜相机APP,B612咔叽APP2.4付费率:功能厚度+社交属性可将工具类APP付费率上限推升至10+%付费率普遍低于内容消费类20+%,腾讯视频/爱奇艺/TV付费率分别为31.1%/28.5%/26.5%APP10+%,功能越丰富、具备社交属性的产品付费率越高,Keep/Canva/10.6%/10.2%/8.8%,公司付费率4.7%。基于此,公司生活场景应用与生产力工具的付费率存在较大提升空间,未来付费率上限靠拢。图表40:具备社交属性的生活场景应用与生产力工具付费率可达10+%,内容消费类APP付费率可达20+%各APP界面,各APP背后上市公司财报,界面新闻微信公众平台,上海证券报,Demandsage官网100-2252.8亿人,1762亿国内生活场景应用、21MAUARPUARPU/海外生活场景应用/150/300/250230元;付费率维度,假设国内生活场景应用/海外生活场景应用/生产力工具付费率分别为10%/15%/13%,按权重加权得付费率预测值为13%150100-225亿元之间。图表41:公司订阅收入的极限或在100-225亿元之间付费率1501601701801902002102202302402502602702802903008.0%606468727680848892961001041081121161208.5%6468727781858994981021061111151191231289.0%687277818690959910410811311712212613113510.0%758085909510010511011512012513013514014515010.5%7984899510010511011612112613113714214715215811.0%8388949910511011612112713213814314915416016511.5%86929810410911512112713213814415015516116717312.0%909610210811412012613213814415015616216817418012.5%9410010611311912513113814415015616316917518118813.0%9810411111712413013714315015616316917618218919513.5%10110811512212813514214915516216917618218919620314.5%10911612313113814515216016717418118919620321021815.0%113120128135143150158165173180188195203210218225三、盈利预测与投资建议盈利预测订阅收入:公司订阅收入=MAU付费渗透率ARPU,我们预计25/26/27年公司订阅收入分别为30.3/39.8/51.7亿元,同比增速为45.3%/31.5%/29.9%。其中:1H252.825/26/27年公司MAU3.0/3.3/3.5亿人。25/26/27年公司付费率仍将维持提升趋势,分6.0%/7.0%/8.0%。1H25176元/25/26/27年公司ARPU值有望持续提升,分别为170/175/185元。325/26/270.8/0.7/0.7亿元,同比增速为-80.0%/-10.0%/-5.0%。视产品订阅化收入转向,预计广告收入未来3年保持持续小幅增长态势。我们预计25/26/279.0/9.4/9.95.0%/5.0%/5.0%。其他收入:其他业务主要为与生产力和全球化战略无关的传统业务,预计未来3年保持稳定态势。我们预计25/26/27年公司其他收入分别为0.2/0.2/0.2亿元,同比增速为0%/0%/0%。图表42:25/26年有望实现约40/50亿元营收,同比增长20%/25%2021A2022A2023A1H20242024A1H20252025E2026E2027E营业总收入(亿元)16.720.927.016.233.462.5YOY39.5%25.2%29.3%28.6%23.9%12.3%20.4%24.6%24.6%影像与设计产品收入(亿元)5.98.713.39.320.913.530.339.851.7YOY123.7%47.0%52.8%/57.1%45.2%45.3%31.5%29.9%MAU(万人)23,06424,28824,91625,77326,58328,00029,71332,52534,963MAU_YOY-11.6%5.3%2.6%/6.7%8.6%11.8%9.5%7.5%其中:国内15,38816,31217,14717,30017,13218,20018,84520,35321,574其中:海外7,6767,9767,7688,4739,4519,80010,86812,17213,389ARPU(元/人)148155146172165176170175185ARPU_YOY11.9%5.0%-6.1%/13.5%1.9%2.8%2.9%5.7%付费用户渗透率1.7%2.3%3.7%4.2%4.7%5.5%6.0%7.0%8.0%付费用户渗透率_YOY1.0pct0.6pct1.4pct/1.1pct1.3pct1.3pct1.0pct1.0pct美业解决方案(亿元)YOY1036.7%29.1%/-32.4%-88.9%-80.0%-10.0%-5.0%广告(亿元)9.09.49.9YOY12.5%-17.8%20.5%/12.5%5.0%5.0%5.0%5.0%其他(亿元)YOY8.5%-46.1%29.3%/-57.7%-12.4%0.0%0.0%0.0%公司财报 (注:表格中标黄部分为预测值。)25/26/2774.0%/74.0%/74.0%。费用率方面,我们认为:25/26/2725.0%/23.0%/22.0%。销售及营销费用率:公司国外市场推广主要用于生活场景应用,而中国内地市场推广25/26/2716.0%/16.0%/16.0%。25/26/27年公司管理费率分别为11.0%/10.0%/9.3%。亿元,经调整归母净利润9.6/12.2/16.1亿元。图表43:利润预测:2026年有望维持综合毛利率74%,经调整归母净利润12.2亿元2021A2022A2023A1H20242024A1H20252025E2026E2027E综合毛利率67.5%56.9%61.4%64.9%68.7%73.6%74.0%74.0%74.0%销售及营销费用率19.3%19.3%15.9%12.6%14.5%16.1%16.0%16.0%16.0%行政费用率15.9%13.0%11.2%12.0%12.0%12.0%11.0%10.0%9.3%研发费用率28.1%23.6%26.2%27.3%27.3%24.8%25.0%23.0%22.0%归母净利润(亿元)-3.08.14.08.611.215.1归母净利率-2.7%4.5%14.0%18.7%24.1%21.8%21.5%22.4%24.2%经调整归母净利润(亿元)0.9-12.216.1YoY39.7%80.4%59.2%71.3%64.3%26.7%31.8%经调整归母净利率5.1%-1.4%13.7%16.8%17.5%25.7%24.0%24.4%25.8%公司财报 (注:①表格中标黄部分为预测值;②经调整部分主要系加密资产处置损益与以股权支付的费用。)投资建议及估值26年业绩为锚,行402倍。综合考虑上述五家公司的估值水平,若参考行业可比公司40XPE,公司对应估值490亿元人民币,目标价11.73港元,给予买入评级。图表44:可比公司26年PE中位数接近40X,PEG接近1.4X证券代码证券简称市值(亿元)净利润(亿元)PEPEG2023A2024A2025E2026E2027E2023A2024A2025E2026E2027E2025E2026E2027EADBE.O奥多比9,268386.0399.6510.4572.7660.033.132.00.651.330.92300624.SZ1490.9-1.60.01.41.6151.1-451.2151.693.6-(0.05)4.55688615.SH2733.24.0/50.545.637.532.02.712.041.37688111.SH1,41613.216.518.521.525.0110.880.576.766.063.433650.HKKEEP1911.1-1.56.0(5.3)167.628.012.9(1.64)0.060.11中位数71.950.561.137.532.02.712.041.371357.HK321.133.726.620.20.520.990.63公司财报 (:①截至2025年月日收盘;②万兴科、合合信息、金山办公盈利预测来自国金计算机团,奥多比、盈利预测来自 年可比公司PE中位数已除的负值年中位数已剔除万兴科的451X,2025、年中位数已剔除兴科技、KEEP的负值。)四、风险提示基模吞噬的风险。全球多模态基模能力日趋成熟,伴随NanoBanana、Sora等爆款基模即应用出圈,或存在多模态AI基模吞噬应用的风险;对此我们认为市场存在容错率误区与自然语言交互误区,封装成熟工作流的工具软件仍具有其价值。大厂入局导致竞争加剧的风险。进展迅速,或增强大厂竞品的竞争优势;对此我们认为公司核心优势在开发适配其硬件的影像设计类工具,或对美图系产品的市场份额产生扰动。五、附录:多模态模型发展脉络及技术演变多模态模型:从跨模态协同迈向原生融合,技术架构持续突破模型,其核心架构包含编码器、连接器与大语言模型(LLM),还可选择性附加生LLM的语义理解逻辑;LLM则承担信息整合、推理及文本生成的核心任务,附加的生成器可进一步拓展其输出范围,实现图像、音频等非文本模态内容的生成。图表45:一类典型的多模态模型结构包括编码器、连接器与大语言模型(LLM)LiangZ等《Asurveyofmultimodellargelanguagemodels》(2024)多模态模型的发展脉络包含奠基探索、架构创新与技术分化、统一融合与模态泛化三个阶段。2019-2022年,以ViLBERT、LXMERT等跨模态预训练模型为开端,CLIP实现图像与文本在统一语义空间的映射,由StableDiffusion和Midjourney引爆图文生成应用的爆发式增长。2023年,随着技术能力的成熟,模型架构迎来创新与路线分化。GPT-4V探索了端到端的统一Transformer架构,LLaVA则采用模块化拼接策略,形成两条并行的技术探索路径。2024年至今,技术路线开始重新走向融合,Sora通过将Transformer与扩散模型深度结合,将生成能力从静态图像泛化至复杂的动态视频。GoogleVeo3和GPT-4o等模型聚焦于音画同步和高精度生成,标志着多模态技术正迈向更为全面、深入的应用落地新纪元。图表46:多模态模型关键技术演进历程(2019-2025年)Hao等《:LearningCross-ModalityEncoderRepresentationsfromTransformers》(2019),JiasenLu等《VisualInstructionTuning》(2019),Alec等《LearningTransferableVisualModelsFromNaturalLanguageSupervisionGPT-4VInstructionTuning(2023),SoraGPT-4o系统卡,ThaddäusWiedemerVideomodelsarezero-shotlearnersandreasoners》(2025,百度百科多模态模型的崛起,依托于神经网络架构的底层突破,更源于跨模态信息协同的技术创新。在多模态大模型的起源探索阶段,佐治亚理工学院、俄勒冈州立大学与Facebook联合推出的ViLBERT和北卡罗来纳大学教堂山分校推出的LXMERT是多模态预训练的先驱模型,上述模型开创性地采用Transformer架构实现视觉与语言的联合预训练,首次从技术层面验证了跨模态信息深度交互的可行性;2021年OpenAI推出的CLIP不再满足于简单的特征拼接,通过40亿规模文本-图像的对比预训练,实现了图像与文本在统一语义空间的映射,突破性达成零样本图像分类能力,彻底打开了多模态大模型以自然语言理解图像、以图像反哺语言语义的双向交互大门,成为多模态领域具有里程碑意义的标志性研究。在CLIP构建的强大图文理解能力之上,生成模型迎来了大爆发。2022年8月CompVis正式发布StableDiffusion,通过开源极大降低了高质量文生图(AIGC)的门槛,引发全球性创作热潮;而2022年11月Midjourney发布的MidjourneyV4模型,则凭借其对复杂、艺术性提示语的深刻理解和卓越的图像生成质量,创造富有想象力和风格化的艺术作品。图表47:CLIP联合训练图像编码器和文本编码器来预测一批(图像,文本)训练示例的正确配对YanxuMao等《FromLLMstoMLLMstoAgents:ASurveyofEmergingParadigmsinJailbreakAttacksandDefenseswithinLLMEcosystem》(2015),国金证券研究所

2023年是架构创新与路线分化的关键节点,随着基础能力的成熟,业界开始探索通往更强大多模态智能的不同路径,形成了两条主流技术路线。OpenAI推出的GPT-4V凭借统一Transformer架构,摒弃传统视觉编码器+语言解码器的拼接模式,将视觉与语言Token在同一注意力矩阵中交互,旨在构建一个原生多模态的大脑,从而实现从像素级细节到高级语义概念的全面理解。LLaVA则采用模块化拼接策略,以CLIP-VT作为视觉编码器、Vicuna-LLM作为语言解码器,通过投影层对齐预训练+指令微调的两阶段训练策略,将图像分割成网格并独立编码以提高分辨率,仅新增不到5%的参数量就实现了完整的视觉对话能力,为多模态大模型的低成本研发与开源生态建设提供了典型范式。在架构探索的同时,GoogleGemini将重点放在了模态的广度上,支持文本、图像、音频、视频、代码等多种模态的输入和处理,Gemini不再局限于图文,而是尝试理解视频中的物理规律,或结合音频与文本生成内容,将多模态交互推向了更复杂的现实场景。图表48:通过将图像分割成网格并独立编码,将LLaVA-1.5扩展到更高分辨率HaotianLiu等《ImprovedBaselineswithVisualInstructionTuning》(2024)2024年至今,分化的技术路线开始重新交汇,业界的目标愈发明确:打造能够端到端处视频生成与物理世界模拟:20242月,OpenAISoraTransformer1080P多模态原生交互:2024年5月,OpenAI推出的GPT-4o重点解决了GPT-4V在效率、精度与多模态兼容性上的痛点,真正实现了文本、音频、图像、视频的多模态原生处理,通过单一神经网络端到端支持多模态任意组合的输入输出,标志着多模态从单模态交互向全场景智能交互的跨越。多模态技术的深化落地:2025年1月,阿里通义千问发布的Qwen2.5-VL模型,作为多模态大模型高清细节理解的代表,其专注于攻克高清图像的细节理解难题,能够无损解析4K医疗影像、卫星图等专业图像。2025年5月,Google发布Veo3模型则在强大的视频生成能力之上,原生集成了音频生成,实现了高达99.8%的音画同步精度,并具备了媲美专业工具的视觉推理能力。在解决通用交互能力后,多模态模型向专业化、高精度、高保真方向演进,旨在解决现实世界中更具挑战性的问题。图表49:Veo3能够零样本解决大量以输入图像和文本提示指定的视觉任务ThaddäusWiedemer等《Videomodelsarezero-shotlearnersandreasoners》(2025)多模态生成技术路线:跨越图像、音频与视频的融合创造在图像生成技术领域,扩散模型通过正向扩散加反向去噪的机制实现图像生成:先对初始图像逐步添加随机噪声使其演变为纯粹随机噪声,模型则学习反向去噪以从随机噪声重构清晰图像。其生成流程为,利用文本编码模型将输入文本转化为嵌入向量,以此作为条件输入送入U-Net去噪网络,经U-Net逐步去噪最终生成清晰图像。OpenAI于2021年1月推出的DALLE以CLIP模型对齐文本与图像空间,在训练阶段将文本特征向量转化为图像特征向量,decoder融合U-Net与Transformer实现加噪-去噪的图像还原,奠定了多模态文生图的技术基础。LatentDiffusionModels(LDM)在潜在空间执行扩散,通过拼接或更通用的交叉注意力机制对潜在扩散模型进行条件约束,大幅降低计算成本;DiffusionTransformers(DiT)以Transformer替代U-Net,提升生成质量;多条件控制方式如CLIP引导、分类器无关引导,增强了生成可控性。扩散模型优势在于生成图像质量高、细节丰富且条件控制灵活,但生成速度慢,需较多采样步骤,计算成本较高。图表50:通过拼接或更通用的交叉注意力机制对潜在扩散模型(LDMs)进行条件约束RobinRombach等《High-ResolutionImageSynthesiswithLatentDiffusionModels》(2022)在图像生成领域,自回归模型以基于已有内容逐步预测后续内容为核心思想,将图像生成转化为序列预测问题,主要分为像素级预测(如2016年PixelRNN模型支持逐像素生成但计算成本高)、分词级预测(如2017年VQ-VAE模型先将图像压缩为离散token再用Transformer建模)、多token预测(如2024年视觉自回归模型VAR模型通过分层预测多个token提升效率)三类;尽管当前扩散模型在图像质量上更具优势,但自回归模型因与大语言模型(LLM)结构一致,在多模态统一框架构建中更受青睐,为图像与文本的联合建模提供了天然的架构兼容性。图表51:视觉自回归模型通用框架及核心组件JingXiong等《AutoregressiveModelsinVision:ASurvey》(2025)在音频生成技术领域,三段级联语音技术(ASR+LLM+TTS)是重要的技术路径,其中TTS(文本转语音TTS模型GPT-4o端到端的关键在于简化语音特征表示,提升生成效率与拟真度,未来还需解决与大语言模型(LLM)ASR端到端CTC时序对齐机制,通过注意力机制使解码器在生成文本时自适应关注输入语音的不同部分,隐式解决序列对齐问题,即便存在冗余也不影响效果。图表52:TTS的核心流程包含文本分析、声学模型和声码器三个关键环节XuTan等《ASurveyonNeuralSpeechSynthesis》(2021)2016年eepndaveet开创了生成式模型的先河,16256个离散值,大幅提升音频生成质量并降低计算需图表53:扩张因果卷积层堆叠的可视化AVanDenOord等《WAVENET:AGenerativeModelForRawAudio》(2016)2017Google2TTS系模型,Griffin-Lim算法相比,16位音频样本的混合逻辑分布来减少相位估计误差,从而生成更为精细、逼真的语音。不再需要依赖手工标注的语言学特征(如音高、时长等图表54:Tacotron2系统架构框图JonathanShen等《NaturalTTSSynthesisByConditioningWavenetOnMelSpectrogramPredictions》(2018),2021和对抗训练相VITS的核心优势在于能够同时生成高质量音频,图表55:VITS训练流程与推理流程架构框图JaehyeonKim等《ConditionalVariationalAutoencoderwithAdversarialLearningforEnd-to-EndText-to-Speech》(2021)语音合成技术的演进经历了从分阶段模型到端到端系统的转变:依赖自回归逐点生成,虽然能够实现极高的保真度,但其生则引入了变分推断与对抗学习,实现了单阶段端到端并行生成,不仅提升了速度,也减少了计算复杂度,成为当前速度最快的技术。受限于固定条件输入,因此其生成的语音多样性较低。Tacotron2则通过随机时长预测和隐变量建模,使得语音的节奏和风格可以实现灵活的调控,大大提升了多样性与自然度的表现。Tacotron2TTS则在实时交互和个性化语音生成中展现了巨大的潜力,尤其是在需要快速响应和个性化定制的场景中具有广泛的应用前景。图表56:语音合成技术的演进经历了从分阶段模型到端到端系统的转变华南理工大学智能算法研究中心在视频生成技术领域,现有研究主要采用循环神经网络(受长度限制)、生成对抗网络(多样性不足且生成视频短)、自回归Transformer(生成速度慢且累计误差大)及扩散模型等方法,且多局限于特定视觉数据、较短时长或固定尺寸视频。而Sora作为通用视觉模型,突破了这些限制,可生成不同时长、宽高比和分辨率的视频及图像,其技术核心在于:一方面采用视频压缩神经网络将原始视频转换为时间和空间压缩的潜在向量表示,在该空间中完成训练与生成,再通过解码器(如AVE)映射回像素空间;另一方面借鉴大语言模型的token化思路,实现文本token与视频patch的模态对齐,直接理解文本指令生成对应内容。同时,ViViT模型提出的4种时空patch信息聚合策略(时间-空间联合注意力、双编码器架构、分解自注意力、级联注意力)为其时空建模提供了技术参考。当前,该领域聚焦于稳定性、可控性、叙事性三大核心要素,需突破长时视频逻辑一致性、细粒度生成可控性及多模态交互与世界模型融合等难点。图表57:各类图像和视频转换为visualpatchs的潜在表示OpenAI官网

在视频生成领域,自回归技术基于时序依赖性建模视频生成,通过将视频按时间维度离散化为帧或帧级子块,构建有序视觉时序序列,再通过因果注意力掩码等机制施加严格因果约束,最终模型依托对海量真实视频时序规律(如动作演化、光影变迁)的学习,从初始时序单元开始逐一生成后续单元,逐步构建完整视频序列,以此保障生成内容的时序连贯性与逻辑一致性。Google分别于2023年12月推出Gemini系列、2025年5月推出Veo3模型,Gemini打破传统多模态模型编码器拼接局限,将视频帧、文本、音频统一编码为Token序列输入纯Transformer解码器,通过时空Transformer(ST-Transformer)优化计算复杂度,在保证4K画质的同时支持数分钟长视频生成,还能结合历史帧与文本指令动态调整内容、维持场景一致性;Veo3则采用自回归动力学模型+扩散模型混合架构,自回归模块生成符合物理规律的动态序列,扩散模块优化细节,依托帧链(CoF)推理实现零样本泛化,且支持首尾帧控制等功能,适配影视特效、科学模拟等场景需求。图表58:Gemini模型支持将文本、图像、音频和视频的交错序列作为输入GeminiTeam等《Gemini:AFamilyofHighlyCapableMultimodalModels》(2025)基座模型步入成熟期(来提升模型对图表59:主要多模态融合策略的基本流程XiaofengHan等《MultimodalFusionandVision-LanguageModels:ASurveyforRobotVision》(2025),国金证券研究所传统方法下,多模态理解主要应用于图像描述、视频描述及视觉问答,多模态推理主要应用于视觉常识推理、跨模态检索任务。其中,图像描述旨在让计算机根据给定图像自动生成描述性文字。受机器翻译领域中编码器-解码器(Encoder-Decoder)模型的启发,图像描述可以通过端到端的学习方法直接实现图像和描述句子之间的映射,将图像描述过程转化成为图像到描述的翻译过程。这一过程通常使用卷积神经网络(CNN)来提取图像中的视觉特征,如颜色、纹理、形状等;然后利用循环神经网络或其变体或Transformer架构来捕捉这些特征之间的时序依赖关系,并生成对应的自然语言描述。在生成描述的过程中,还可能采用注意力机制来增强模型对图像关键区域的关注度,从而提高描述的准确性和相关性。注意力机制并非简单地将输入图像编码成一个固定的特征向量,而是通过引入上下文向量,对每个时间步的解码过程进行动态调整,以此增强图像区域与生成单词之间的相关性,从而捕捉并表达更多的图像语义细节。KelvinXu等《Show,AttendandTell:NeuralImageCaptionGenerationwithVisualAttention》(2015),国金证券研究所视频描述指通过机器自动生成视频内容的描述语句的技术,旨在将视频中的视觉和听觉信息转化为易于理解的自然语言文本,从而帮助用户快速了解视频内容。通过卷积神经网络(CNN)提取视频帧中的关键视觉特征,结合循环神经网络(RNN)及其变体捕捉时序模型和注意力机制将这些特征转化为自然、准确的语言描述。可以应用视频定位(VideoLocalization)技术来精准标记视频关键元素或事件的位置及时间点。借助目标检测与跟图表61:长短期循环卷积网络模型针对动作识别、图像描述和视频描述任务的特定实例化JeffDonahue等《Long-termRecurrentConvolutionalNetworksforVisualRecognitionandDescription》(2015)图表62:整体的视觉问答框架StanislawAntol等《VQA:VisualQuestionAnswering》(2015)视觉常识推理指需要在理解文本的基础上结合图片信息,基于常识进行推理。给定一张图片、图中一系列有标签的boundingbox,VCR实际上包含两个子任务:根据问题选择答案;根据问题和答案进行推理,解释为什么选择该答案。VCR数据集由大量的图片-问答对组成,主要考察模型对跨模态的语义理解和常识推理能力。知识图谱的基本组成单位是实体-关系-实体三元组,以及实体及其相关属性一值对,实体间通过关系相互联结,构成网状的知识结构。基于知识图谱的推理通常依赖于神经网络模型来捕捉图谱中的结构信息,这些模型通过前向传播过程进行推理预测。例如,采用基于图神经网络(GNN)的推理方法,特别是基于注意力机制的图卷积神经网络,该方法通过计算实体之间的相似度并为它们分配相应的权重,从而推断出实体之间的关系。图表63:视觉常识推理VCR构建概述RowanZellers等《FromRecognitiontoCognition:VisualCommonsenseRea

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论