计算机行业GenAI系列(二十三)：火山多模态和千问高德硬核能力成生态格局新基石

上传人：b*** IP属地：广西上传时间：2026-03-05 格式：DOCX 页数：19 大小：2.51MB 积分：15 举报 版权申诉

计算机行业GenAI系列(二十三)：火山多模态和千问高德硬核能力成生态格局新基石_第2页

计算机行业GenAI系列(二十三)：火山多模态和千问高德硬核能力成生态格局新基石_第3页

计算机行业GenAI系列(二十三)：火山多模态和千问高德硬核能力成生态格局新基石_第4页

计算机行业GenAI系列(二十三)：火山多模态和千问高德硬核能力成生态格局新基石_第5页

已阅读5页，还剩14页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

目录索引一、包大型TOKENS持续长推和用动算增长 5二、包模性提较大产功多度强 8（一豆大型1.8（DOUBAO-SEED-1.8） 8（二视生模型SEEDANCE1.5PRO 9（三图创型SEEDREAM4.5和音别型2.0 （四总结 12三、问APP接高超级AGENT意理向现世服执跨越 14四、险示 21图表索引图1：2024年5月-2025年12月包模型日使量 5图2：包模采计算-信粒重的MoE的练构 6图3：Seedance的Draft样片能 10图4：包Seedance1.5pro的练构 10图5：SeedVideoBench-1.5视频多度比达图图6：SeedVideoBench-1.5音频多度比达图图7：包模家景图图8：2024年5月-2025年10月包模日均tokens用量 13图9：问APP放事功能 14图10：问APP结德实路规路线 14图问APP合德扫榜荐厅 14图12：行玩划场景——问APP 15图13：行玩划场景——包APP 16图14：行玩划场景——DeepSeekAPP 17图15：行线长测试景 18图16：边厅荐场景 19图17：里态 20表1：包模型1.6、1.8收标（位元/万tokens） 6Tokens豆包大模型Tokens持续增长，日均Tokens使用量已突破50万亿。根据火山引擎官方微信公众号，截至今年12月18日，豆包大模型日均Tokens使用量已突破50万亿，25年930tokens9-12Tokens5-9月21%图1：2024年5月-2025年12月豆包大模型Tokens日均使用量5030503016.412.70.120.21.345040单：位 30：Tokens万亿Tokens2010024年5月24年7月24年9月24年12月25年4月25年5月25年9月25年12月火山引擎官方微信公众号算力成本下降的趋势下，豆包大模型商业化路径逐渐清晰。价格方面，字节在2025年12月发布的豆包1.8版本的Tokens调用价格与25年6月发布的豆包1.6的价格一样。1.8TokenEfficiency优化，降低了算力开销。此外，豆包1.8针对多模态Agent场景定向优化，减少多轮重试与无效推理，降低冗余算力消耗。在单位推理成本降低的趋势下，应用端算力成本消Tokens表1：豆包大模型1.6、1.8收费标准（单位：元/百万tokens）模型上下文长度输入价格输出价格Doubao-Seed-1.8输入≤32K；输出≤2000.82输入≤32K；输出＞2000.8832K＜输入≤128K1.216输入＞128K2.424Doubao-Seed-1.6输入≤32K；输出≤2000.82输入≤32K；输出＞2000.8832K＜输入≤128K1.216输入＞128K2.424火山引擎官方微信公众号根据字节Seed官网，豆包大模型采用MoE稀疏架构+多模态融合+工程化的方式提升训练效率，降低训练阶段算力成本，具体方法包括：MoE1.961.71效降低MoE分布式训练的跨设备通信开销。6401280TokenToken分阶段预训练+定向微调：预训练阶段夯实多模态基础能力，微调阶段针对Agent场景强化工具调用、复杂指令遵循能力，搭配LoRA精调降低适配成本。Tokens算力图2：豆包大模型采用的计算-通信细粒度重叠的MoE的训练架构字节跳动官网国产算力产品和基础软件产品有望受益于推理侧算力占比的提升。AIAIAIAI）总体来说，受益于推理侧算力占比提升的包括AI芯片和服务器领域的寒武纪、浪潮信息、紫光股份等；以及基础软件工具领域的第四范式、星环科技等。二、豆包大模型性能提升较大，产品功能多维度增强随着模型能力和商业模式的持续迭代，豆包大模型家族在多模态理解与生成能力、Agent能力等关键方向上持续提升。2025年12月初，火山引擎分别发布了图像创作Sedrem42002年1月8日，在FORCE原动力大会上，火山引擎正式发布豆包大模型1.8、豆包视频生成模型Seedance1.5pro。（一）豆包大模型1.8（Doubao-Seed-1.8）火山引擎最新发布的豆包大模型1.8（Doubao-Seed-1.8），反映了其在多模态智能体方向上实现了系统化能力的提升。该模型在工具调用、复杂指令遵循及OS智能体1.894.3对87.283.8对79.8令遵循维度略低于Qwen3，但整体来看，豆包大模型1.8表2：DoubaoSeed-1.8与Qwen3的Agent能力对比能力维度测评集DoubaoSeed-1.8Qwen3-235B-a22b-thinking数学AIME-2594.387.2推理GPQA-Diamond83.879.8复杂指令遵循MultiChallenge66.772.3通用智能体BrowseComp-enHLE(text-only)67.640.9/19.2智能体编程TerminalBench2.045.6(v1)20.3火山引擎官方微信公众号豆包大模型1.8持单次1280行。在多模态评估中，豆包1.8表现全面超越Qwen3：MMMU-Pro基准获73.2分，且在通用视觉问答、文档图表理解及动作感知等任务中保持领先。纵观各项核心指标，豆包大模型1.8在多模态综合实战能力上已显著优于Qwen3。表3：DoubaoSeed-1.8与Qwen3-VL的多模态理解能力对比能力维度测评集DoubaoSeed-1.8Qwen3-VL235B-A22B多模态推理MMMU-Pro73.269.3通用视觉问答VLMsAreBiased62.025.0指向和计数FSC-147↓(值越低越好)13.626.55空间理解MMSIBench(circular)25.818.8CharXiv(RQ)71.466.1文档与图表理解OmniDocBench1.5↓0.10613.04(值越低越好)动作与感知MotionBench70.661.7长视频理解VideoMME87.879火山引擎官方微信公众号总结来看，豆包大模型1.8（Doubao-Seed-1.8）在多模态理解与智能体执行力上与Qwen3相比Qwen31.81280中表现出卓越的稳定性与感知能力。尽管在复杂指令遵循这个特定维度上稍逊于1.8在（二）视频生成模型Seedance1.5pro火山引擎发布的Seedance1.5Pro展示了其在音视频联合生成方向上对高质量内容创作的持续加码。山引擎官方微信公众号，Draft样片功能可生成低分辨率预览视频，关键要素与成片高度一致，有望提升创作效率65%，减少约60%无效成本。图3：Seedance的Draft样片功能火山引擎官方微信公众号Seedance1.5proSFT及定制化RLHF高保真度。推理时，优化后的提示词经文本编码器驱动MMDiT架构生成内容，再由Refiner精修输出。此外，通过多阶段蒸馏与量化并行技术，模型在保持性能的同时实现了超10倍的端到端推理加速。图4：豆包Seedance1.5pro的训练架构字节跳动官网根据官方评测平台SeedVideoBench1.5pro个关键维度上均展现出显著优势。Seedance1.5Pro视频生成模型相比前代在T2VI2V越Veo3.1。尤为关键的是其原声音频生成能力，在音频质量、同步性及表现力等全维度评估中，Seedance1.5Pro凭借声画一体的原生架构优于Kling2.6与Veo3.1，展现出在专业音视频创作领域的突出技术优势。图5：SeedVideoBench-1.5视频多维度对比雷图图6：SeedVideoBench-1.5音频多维度对比雷图字节跳动Seed官方网址字节跳动Seed官方网址（三）图像创作模型Seedream4.5和语音识别模型2.0Seedream4.5和语音识别模型Seedream4.5主体一致性、指令遵循精准度、空间逻辑理解及美学表现力而豆包语音识别模型2.0推理通过深度理解上下文完成精准识别，上下文整体关键词召回率提升20%，并且支持多模态视觉识别，不仅听懂字还能看懂图，通过单图和多图等视觉信息输入让文字识别更精准。图7：豆包大模型家族全景图火山引擎官方微信公众号（四）总结字节豆包大模型日均Tokens调用量已突破50年12月，豆包大模型日均tokens使用量为4万亿。截至2025年12月18日，豆包大模型日均tokens使用量已突破50万亿。目前，已有超过100家企业在火山引擎上累计Tokens使用量超过一万亿，涵盖智能终端、汽车、金融与消费等众多领域。豆包大模型TokensToB与ToCAPITokens图8：2024年5月-2025年10月豆包大模型日均tokens使用量5030503016.412.70.120.21.3440单位：万Tokens亿 20Tokens024年5月24年7月24年9月24年12月25年4月25年5月25年9月25年12月火山引擎官方微信公众号从模型迭代节奏来看，豆包大模型整体上呈现快速且稳定推进的态势，以数月级版1.5/1.62025月和2025年并且围绕Agent部能力上，还通过与字节内部业务深度结合的方式放大了应用实践的反馈循环，形成了较强的迭代动力。整体节奏相比行业大多数国产大模型处于较活跃水平。豆包大模型不仅存在于单一聊天产品，而是嵌入字节内部抖音、飞书等业务场景，因此模型需要不断适配不同任务与体验，从而形成更频繁的迭代需求。从模型的日均Tokens增长等指标来看，商业化调用量大幅提升也为快速迭代积累了数据基础。三、千问APP接入高德，超级Agent从意图理解向现实世界服务执行跨越2025年11月17日，阿里的千问APP开启公测并免费开放。千问APP基于通义大模型2.5Qwen3AIPPTAIAPP公1000233000图9：千问APP开放的办事功能阿里巴巴官网微信公众号2025年12月18日，阿里宣布千问APP正式接入高德地图。此次融合使得千问AI助手获得了对物理世界的理解与行动能力，不再局限于信息问答，而是基于精准、实时的现实世界数据，实现从理解用户意图到执行具体服务的跨越。基于高德的扫街榜、实时路况等能力，千问APP可为用户智能推荐餐厅、规划最优出行路线，并支持多需求的协同处理，全面提升出行与生活规划体验。图10：千问结合高德实时路况规划路线图11：千问结合高德扫街榜推荐餐厅阿里巴巴微信公众号阿里巴巴微信公众号APPAPPDeepSeek测试一：出行游玩路线规划测试场景在出行游玩规划测试场景实测中，千问不只是给行程建议，而是把问题拆成怎么到、到达之后怎么走、每种交通的适用场景与费用区间等决策步骤进行深度思考，以清晰的结构呈现答案，并用表格对比各种出行方式，最后附上了多个链接，提供给用户实际性、落地性强的建议。此外，语言具备亲和力与感染力，排版较佳，亦提升了用户体验。图12：出行游玩规划测试场景——千问APP千问APP豆包则在时间轴叙事和预算汇总更为突出，行程节奏清楚，并提供了交通方式、门票信息、预约事项等具体要素，且最后会引导用户进行下一步操作。但未提供表格对比、链接卡片等便于用户执行和决策的信息，整体来看回答更倾向于文本方案的输出。图13：出行游玩规划测试场景——豆包APP豆包APP相比前两者，DeepSeek则更像通用大模型的路线建议，覆盖面较广但颗粒度较粗，提供的信息更为泛化，缺少可直接执行的路线与对照信息。图14：出行游玩规划测试场景——DeepSeekAPPDeepSeekAPP测试二：出行路线时长估计测试场景从实际测试效果来看，千问的回答不再局限于文字层面的建议，而是能够直接调用高德地图，生成包含关键决策信息的路线卡片，并以清晰、可执行的形式呈现给用户。同时，系统还可进一步引导用户进入地图应用，完成导航等后续操作。DeepSeek综合来看，千问通过对高德地图等外部服务的调用，在出行场景中展现出了更强的可执行性，其能力已由提供建议进一步扩展至完成事务，体现出更成熟的办事能力。图15：出行路线时长估计测试场景千问APP、豆包APP、DeepSeek测试三：周边餐厅推荐测试场景图16：周边餐厅推荐测试场景千问APP、豆包APP、DeepSeek千问接入高德地图迈出了通过授权构建超级Agent的第一步。相比系统级APP又避免了复杂的底层改造，能力可控。本次高德地图的能力快速上线（月Agent继高德之后，伴随千问APP的持续迭代，我们可以期待淘宝、飞猪等阿里系核心应用融入这一体系，从而形成有众多应用权限的超级APP。从生态结构看，阿里旗下具备高度协同基础的应用还包括淘宝、天猫、闲鱼、菜鸟、饿了么、大麦、盒马、夸克、阿里健康等，覆盖消费、电商、物流、本地生活与娱乐等关键场景。高德的接入更像是超级Agent空间与行动能力的第一块拼图，随着千问APP进化为统一的智能入口，用户不再以单一APP为中心，而是以意图为中心调用服务，这可能对现有APP的流量与角色分工带来结构性变化，即由原本的需求产生→打开APP→在APP内完成操作转变为需求产生→与超级Agent对话→超级Agent自动调用最合适的服务。若超级APP能顺利推广，或将带来较大的流量，相关生态体系

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

计算机行业GenAI系列(二十三)：火山多模态和千问高德硬核能力成生态格局新基石

文档简介

温馨提示

最新文档

评论

计算机行业GenAI系列(二十三)：火山多模态和千问高德硬核能力成生态格局新基石

文档简介

温馨提示

最新文档

评论

相关文档