国产 GPU 技术选型与金融场景实践分享

上传人：加*** IP属地：北京上传时间：2026-06-05 格式：DOCX 页数：32 大小：15.11MB 积分：12 举报 版权申诉

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

华为昇腾昇腾系列(Ascend)DSA架构，国产AI训练芯片，生摩尔线程MTT系列全功能GPU，兼顾图形渲染与计算。沐曦科技曦云系列GPGPU架构，国产供应链。DCU系列FP64领先，GPGPU架构，在科学计算燧原科技云燧系列DSA架构，专注云端算力，高能效比AI芯片架构路线针对深度学习张量计算优化的专用架构，牺牲通用性换取极致AI性能。针对深度学习张量计算优化的专用架构，牺牲通用性换取极致AI性能。沿用图形渲染架构进行通用计算扩展，指令集兼容性好，适合混合负载。注意：需适配特定软件栈，开发门槛较高优势：代码迁移成本较低，生态兼容好HBM高带宽HBM高带宽推理推理精度类型和算力训练数据中心级保障集群规模支持平均故障间隔集群规模支持平均故障间隔海光华为海光华为软件运行生态操作系统高通用性支持主流操作系统和K8S，以及针对操作系统和K8S支持的功能特性。训推组件高时效性支持主流训推组件，以及跟随主流训推组件迭代的周期和效率。海光DCU软件开发生态低迁移成本低迁移成本通过兼容层或指令集转译，直接支持CUDA生态代码，旨在实现低成本迁移主要玩家：海光(HIP) 强自主可控构建全栈自主软件体系，不依赖CUDA，从底层算子库到上层框架完全自研。核心代表：Security华为CANN国产合规性较强沐曦强自主可控构建全栈自主软件体系，不依赖CUDA，从底层算子库到上层框架完全自研。核心代表：Security华为CANN国产合规性较强图形渲染GraphicRendering架构代表产品架构性能对标：RTX4060级别API支持：DirectX12,Vulkan,OpenGL,Op应用场景：云桌面、数字孪生、3D建模、游戏娱乐科学计算ScientificComputingFP64双精度领先DCUZ100DCUZ100生态代表产品生态算力优势：FP64双精度浮点性能国产领先生态兼容：类CUDA生态，代码迁移成本较低应用场景：HPC、气象预测、物理仿真、生信分析全流程闭环计算训练过程包含前向传播、反向传播和参数更新三个完整阶段。不仅需要计算输出，还需计算梯度并更新权重。计算量级(FLOPs)前向前向~2N反向~4N反向传播计算量约为前向的2倍，总计算量巨大，是推理阶段的数倍。计算密集型(Compute-Bound)高度依赖大规模矩阵乘法运算，对GPU的TFLOPS（每秒浮点运算次数）指标要求极高，算力通常是主要瓶颈。图⽰：LLM训练过程中的数据流与计算逻辑Prefill阶段(预填充)任务描述任务描述处理输入Prompt，进行并行计算，一次性生成所有输入Token的KVCache。计算密集型(Compute-Bound)矩阵乘法运算量大，充分利用GPU算力，算力利用率高。High算术强度HighDecode阶段(解码)任务描述任务描述逐个生成Token(自回归)，每步都需要加载全部KVCache进行访存密集型(Memory-Bound)计算量小但数据搬运量大，受限于显存带宽，算力利用率低。Low算术强度Low关键性能瓶颈在实际应用中，Decode阶段占据了大部分时间。因此，推理性能的瓶颈主要在于(FLOPS)。显存带宽(MemoryBandwidth)而非纯算力OptimizationFocus维度模型训练(Training)模型推理(Inference)延迟优先最小化用戶等待时间，提升交互体验延迟优先最小化用戶等待时间，提升交互体验核心关注点最大化单位时间处理的数据量Tokens/sec/GPU(吞吐量)TTFT(首Token时间)关键指标(KPI)总训练时长(Days/Weeks)TPOT(每Token生成时间)模型收敛度(Loss)端到端延迟(Latency)ComputeBound算力限制：ComputeBound算力限制：TFLOPS是关键硬件瓶颈显存带宽限制：GB/s是关键推理瓶颈训练瓶颈推理瓶颈TTFTTPOTRequestEnd1stTokenTTFTTPOTRequestEndTFLOPSTFLOPSMemoryGB/sGPGPU2026年Q12026年Q12026年Q22026年Q12026年Q3实例名称26年Q126年Q126年Q126年Q226年Q3昆仑芯P800*8紫霄v3*64FP32/TF32FP16/BF1685*TFlops不支持不支持不支持260*flopsGPU显存卡间互联448GB/s400GB/s448GB/s448GB/s800GB/sAMDGenoa*2AMDGenoa*2海光四号*2AMDGenoa*2384vCPU384vCPU384vCPU384vCPU2304GiB2304GiB2304GiB•传统模型：参数量级普遍＜7B，发展相对成熟，主要关注计算性价比。原方案N49D，新方案推荐N59D/N59Dv2，紫霄v2；•搜广推：自研模型为主，除关注GPU外，同时关注CPU核心数、内存容量等。原方案L20，新方案推荐BW151/天垓150；•中小模型推理：关注显存容量/算力等。原方案N49D7BL20（7B~70B新方案N59Dv27BN88a/紫霄V2及BW151/天垓150（7B~70B）。•大模型推理：原方案H20，新方案BW1000B/紫霄V370B）。•生图/视频：关注算力/显存带宽。原方案N49D，新方案N59Dv2。POC时间批量时间大模型大模型推理&云渲染&编解码HYHYCONBW1101144GB紫霄v3中等模型搜广推中等模型搜广推编解码HYGON紫霄v2BW151天垓15048GB48GB小模型＜7B小模型＜7B生图/视频CV/NLP云渲染紫霄v248GBDeepSeek-R1-0528466243380DeepSeek-V3.2-Exp44250测评条件：各卡型均选取性能调优最佳的参数配置方案做性能对比；测评结果：海光BW1000_H的平均性能是H20的83.5%昆仑芯P800在PD分离场景表现好一些场景：TTFT控制在3S内的最大吞吐比值国产GPU性能评测，覆盖主流的模型和业务场基础测试基础测试DeepSeek推理DeepSeek推理GEMM算力、显存带宽、集合通信带宽混元DiT推理混元DiT推理传统推理测试场景除了来自云业务场景，也涵盖自研业务相关需求：开源DiT推理开源DiT推理CUDAAPI兼容性码需要简单修改虚拟化支持不支持软件模式分时复用不支持软件模式分时复用不支持软件模式分时复用••TCE智算解决方案与公有云同源同构，不仅包含GPU异构计算、高性能网络、高性能存储以及云原生编排调度和训推加速套件，同时也支持集成TI训推ADP智能体平台等面向传统AI和大模型的AI平台能力和MaaS服务等。服务业务，拥抱AI利用完整的软硬件智算生态，可快速建立企业的AI解决方案数据接入模型服务训练工坊数据接入模型服务开放兼容，满足监管AI平台一云多芯，适配兼容多种GPU异构芯片训练加速TACO训练加速TACOTrain推理加速TACOInfer提供训练、推理等场景的多元算力，并支持GPU切分调度完整软件服务，覆盖智算全周期GPU异构计算高性能网络高性能存储HCCTKEqGPUIHNTurboFSTKEqGPUIHNTurboFS一云多芯，满足监管要求自研高性能网络超

人人文库> 全部分类> 办公材料 > 办公文档

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

国产 GPU 技术选型与金融场景实践分享

文档简介

温馨提示

最新文档

评论

国产 GPU 技术选型与金融场景实践分享

文档简介

温馨提示

最新文档

评论

相关文档