人工智能行业市场前景及投资研究报告:英伟达2024 GTC大会要点新质生产力OpenAIkimieVTOL_第1页
人工智能行业市场前景及投资研究报告:英伟达2024 GTC大会要点新质生产力OpenAIkimieVTOL_第2页
人工智能行业市场前景及投资研究报告:英伟达2024 GTC大会要点新质生产力OpenAIkimieVTOL_第3页
人工智能行业市场前景及投资研究报告:英伟达2024 GTC大会要点新质生产力OpenAIkimieVTOL_第4页
人工智能行业市场前景及投资研究报告:英伟达2024 GTC大会要点新质生产力OpenAIkimieVTOL_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

证券研究报告

行业动态研究英伟达2024

GTC大会要点梳理发布日期:2024年3月28日摘要

核心观点:英伟达2024

GTC大会展望了人工智能带来的新式产业革命,同时推出了Blackwell计算架构、GR00T项目等多项重磅更新。英伟达正式推出B200和GB200等系列芯片,互联能力大幅提升,多款不同层级的AI服务器也同时亮相。英伟达开启GR00T项目,发布人形机器人的通用基础模型,利用NVIDIA

AI、Omniverse、ISAAC三大平台加速人型机器人产业。在自动驾驶领域,发布搭载BlackwellGPU的新一代集中式车载计算平台Thor。英伟达人工智能技术赋能医药、生物、气象等多行业发展,扩大AI技术的应用范围。

英伟达推出新一代计算平台Blackwell,AI计算能力全面升级。英伟达创始人兼首席执行官黄仁勋在会上正式发布全新GPU平台架构Blackwell,推出基于Blackwell的B200和GB200超级芯片,AI计算能力大幅提升。第五代NVLink和NVLink

Switch

7.2T正式更新,极大提高GPU系统的可扩展性。英伟达推出GB200

NVL72服务器,提供了36个CPU和72个Blackwell构架GPU,并完善提供一体水冷散热方案,内部使用高速铜缆进行GPU互连。硬件层面,英伟达的GPU芯片、NVLink互联和服务器实现全面提升,在软件层面,英伟达升级了Transformer

engine技术,推出RAS引擎建立智能可靠技术,实现了AI计算能力的大幅提升。

英伟达开启GR00T项目,发布人形机器人的通用基础模型。英伟达发布人形机器人基础大模型GR00T,将推进机器人在具身智能方面的突破进展。英伟达目前正在构建包括NVIDIA

AI、Omniverse、ISAAC三大平台,三大平台均与机器人产业高度关联。其中NVIDIA

AI用于模拟物理世界;Omnivese搭载RTX和OVX系列产品,用于驱动数字孪生的计算系统;ISAAC搭载AGX系列,用于驱动人工智能机器人。

英伟达发布新一代集中式车载计算平台Thor,搭载Blackwell

GPU。DRIVE

Thor是专为生成式AI打造的车载计算平台,加载NVIDIABlackwell

GPU,将自动驾驶、自动泊车、智能座舱等功能集成到单一的中央计算平台中,实现车内计算单元的大一统。大会上,英伟达宣布扩大与比亚迪、小鹏和广汽埃安等多家中国车企的合作。

英伟达人工智能技术赋能多行业发展,扩大AI技术应用范围。在生物医药领域,英伟达通过

Clara

Discovery

BioNemo加速药物研发和生物研究;在气象领域,NVIDIA

Earth-2平台优化气候模拟,实现天气可视化。英伟达在多行业实现AI应用的百花齐放。

风险提示:大模型技术发展不及预期、互联网厂商资本开支不及预期、参与厂商众多导致竞争格局恶化、自动驾驶进展不及预期、政策监管力度不及预期。第一章第二章第三章第四章第五章英伟达推出新一代计算平台Blackwell人形机器人基础大模型GR00T自动驾驶Thor平台搭载全新Blackwell

GPU英伟达AI应用百花齐放417252838风险提示第一章英伟达推出新一代计算平台Blackwell4英伟达GTC大会概述

英伟达2024

GTC大会于2024年3月18日举行,英伟达CEO黄仁勋发表主题演讲,发布加速计算、生成式AI以及机器人领域的突破性成果,同时英伟达的高级研发、管理人员以及其他AI领域的专家共同出席讨论人工智能在生物医疗、机器人、游戏等领域的研发成果和应用前景,重点聚焦在生成式AI、AI生物医疗和机器人,展示最新成果,展望技术趋势。

英伟达CEO黄仁勋在GTC大会展望了新式产业革命:一是新工业革命,生成式人工智能将完成现代化;二是此次革命的Blackwell计算机,具有强大的计算能力;三是Nims,允许随身携带的新类型软件;四是Nemo

and

Nvidia

AI

Foundary,帮助创建新型应用程序和聊天机器人并完成集成;五是Omniverse

and

ISAAC机器人,搭建数字孪生平台全宇宙。图:英伟达2024GTC大会特色主题.图:英伟达2024GTC大会展望新式产业革命资料:英伟达官网,中信建投2024

GTC正式推出Blackwell计算架构

英伟达从2006年进军AI计算之后,其计算架构基本保持两年一代的迭代速度。2024春季GTC上,英伟达CEO黄仁勋正式推出了Blackwell计算架构,Blackwell产品使用两块4nm光刻极限尺寸的裸片,通过10

TB/s的片间互联技术连接成一块统一的

GPU,以出众的性能、效率和规模揭开了生成式AI领域的新篇章。

Blackwell产品同时取得多项技术突破,其采用第五代Tensor

Core技术,支持FP4/FP6的数据格式,其互联技术整体升级,NVLink技术和NVSwitch芯片技术均得到提升,引入可靠性、可用性和可服务性引擎(RAS)。图:英伟达GPU微架构演进历程TeslaKeplerPascalTuring

配备专用的RT

Core

深度学习超采样

(DLSS)

GDDR6显存Hopper

第四代

TensorCore

FP8浮点格式

Transformer

引擎

四代NVLink互连技术

4nm

第一个统一着色器微架构

支持PCIe3.0

动态并行计算

28

nm

HBM2的CoWoS技术

GPU动态超频3.0

引入CUDA

90/65/55

nm

16

nm

12

nm2010201420172020202420062016201820222012FermiMaxwellVoltaAmpere

二代RT

Core

PCIe4.0Blackwell

支持ECC

SMM流处理器

引入Tensor

Core

改进MPS

第五代

TensorCore

FP4浮点格式

流式多处理器

支持GDDR5显存

40/28

nm

动态高分辨率技术

28

nm

12

nm

8/7

nm

第二代Transformer

引擎

五代NVLink互连技术

4nm资料:CSDN,中信建投Blackwell系列平台及相关产品

按照英伟达技术路线图,Blackwell系列应于2024-2025年中间发布,春季GTC大会上英伟达正式发布B系列平台及相关产品。

HGX

B100:HGX

B100由一个x86

CPU和八个B100

GPU组成,与现有的HGX

H100基础设施兼容。

NVLink

Switch:NVLink

Switch芯片具有四条1.8TB/s的全对全双向带宽,支持576

GPU

NVLink域。

GB200

Superchip:GB200通过900GB/s带宽的NVLink将两个B200连接到一个Grace

CPU。

Quantum

X800

Switch:适用于InfiniBand的X800服务器,用于最高性能的AI专用基础设施。

Spectrum

X800

Switch:结合Spectrum

SN5600

800GB/s与NVIDIA

BlueField-3

SuperNIC的X800服务器。图:英伟达技术路线图图:Blackwell系列产品平台资料:英伟达官网,中信建投英伟达推出新一代计算平台Blackwell和B200芯片

英伟达推出全新GPU平台Blackwell,配备B200芯片。Blackwell架构GPU具有2080亿个晶体管,采用专门定制的台积电4NP工艺制造。Blackwell产品均采用两块光刻极限尺寸的裸片,通过10TB/s的片间互联技术连接成统一的GPU。Blackwell构架B200

GPU的AI运算性能是前一代Hopper构架H100的2.3倍,功耗显著优化,配备192GBHBM3E内存。图:Blackwell技术优势图:Blackwell平台性能比对B200B1002024H1002022A1002020Blackwell技术创新发布时间制程2024TSMC

4NPTSMC

4NPTSMC

4NTSMC

7N2080亿个晶体管,双倍光刻极限尺寸4NP

TSMC工艺,10TB/s的片间互联全球最强大的芯片架构BlackwellBlackwellHopperAmpere显存类型显存带宽8Gbps

HBM3E8Gbps

HBM3E5.23Gbps

HBM33.35TB/s80GB3.2Gbps

HBM2e1.99

TB/s80

GB第二代transformer引擎将在新型4位浮点AI推理能力下实现算力和模型大小翻倍8TB/s8TB/sec显存容量192GB(2x96GB)192GB(2x96GB)FP32

VectorFP64

VectorFP4

Tensor----67

TFLOPS34

TFLOPS-19.5

TFLOPS9.7

TFLOPS-为每块GPU提供突破性的1.8TB/s双向吞吐量,确保多达576块GPU之间的无缝高速通信第五代NVLinkRAS引擎9PFLOPS7PFLOPSINT8/FP8Tensor4500

T(FL)OPS3500

T(FL)OPS1980

T(FL)OPS624

TOPS包含一个用于保障可靠性、可用性和可维护性的专用引擎,提高大规模AI部署的弹性,同时降低运营成本FP16

TensorTF32

TensorFP64

Tensor2250

TFLOPS1120

TFLOPS40

TFLOPS1800

TFLOPS900

TFLOPS30

TFLOPS990

TFLOPS495

TFLOPS312

TFLOPS156

TFLOPS先进的机密计算功能可以在不影响性能的情况下保护AI模型和客户数据,并且支持全新本地接口加密协议安全AI67

TFLOPSNVLink

419.5

TFLOPSNVLink

3NVLink

518Links

(1800GB/s)NVLink

5NVLinkTDP专用的解压缩引擎支持最新格式,通过加速数据库查询提供极其强大的数据分析和数据科学性能18

Links(1800GB/s)

18

Links(900GB/s)

12

Links(600GB/s)解压缩引擎1000W700W700W400W资料:英伟达官网,中信建投B200由两颗紧密耦合的GPU组成

B200并不是传统意义上的单一GPU,B200由两个全掩模尺寸的GPU芯片紧密耦合形成,两个芯片通过10

TB/s的NV-HBI(高带宽接口)连接,以确保它们能够作为一个完全一致的芯片正常工作,单芯片面积理论上的最大值为858

mm2。每个管芯周围有八个HBM3e堆栈,每个堆栈为24GB,每个堆栈在1024

bit接口上具有1TB/s的带宽。

Blackwell支持第二代Transformer

engine,支持FP4精度与FP6精度。Transformer

engine在计算工作负载时,会不断跟踪整个神经网络中每个层、每个张量的精度动态范围,它将帮助用户自动将模型转换为适当的精度格式,以达到最大性能。图:B200芯片图:新思科技的HBI设计资料:英伟达官网,新思科技,中信建投GB200超级芯片=两个B200

GPU+一个Grace

CPU

英伟达推出GB200超级芯片,它基于两个B200

GPU,外加一个Grace

CPU,使用

NVIDIA

NVLink-C2C连接B200

GPU和GraceCPU,整个超级芯片的TDP功耗高达2700W。

训练一个1.8万亿个参数的模型以前需要8000个Hopper

GPU和15兆瓦的电力。现在2000个Blackwell

GPU就能完成这项工作,耗电量仅为

4

兆瓦。在参数为1750亿的GPT-3

LLM基准测试中,Nvidia称GB200的推理性能是H100的7倍,而训练速度是

H100的4倍。图:GB200芯片图:GB200性能提升图:B系列芯片性能列表GB200B200B1002x

B200GPU,GPUBlackwell

GPUBlackwell

GPU1x

GraceCPU20

petaflops10

petaflops10

petaopsFP4

TensorFP6/FP8

TensorINT8

TensorFP16/BF16

TensorTF32

TensorFP64

Tensor容量9petaflops4.5

petaflops4.5

petaops2.25

petaflops1.12

petaflops40

teraflops192GB(8x24GB)8TB/s7petaflops3.5

petaflops3.5

petaops1.8

petaflops0.9

petaflops30

teraflops192GB(8x24GB)8TB/S5petaflops2.5

petaflops90

teraflops384GB(2x8x24GB)16TB/s带宽NVLink

带宽功率2x1.8

TB/s1.8

TB/s1.8

TB/sUp

to

2700W1000W700W资料:英伟达官网,中信建投英伟达Blackwell采用第二代transformer

engine和RAS引擎

第二代transformer引擎助力Blackwell实现性能和效率翻倍。第二代Transformer引擎将定制的Blackwell

Tensor

Core技术与NVIDIATensorRT-LLM和NeMo框架创新相结合,加速大语言模型和专家混合模型(MoE)的推理和训练。BlackwellTransformer引擎利用微张量缩放的细粒度缩放技术,优化性能和准确性,支持4位浮点(FP4)AI。可以支持的新一代模型的性能和大小翻倍,同时保持高精度,未来在移动设备和边缘计算场景有大规模使用的潜力。

Blackwell通过专用的RAS(可靠性、可用性、可维护性)引擎建立智能可靠技术。RAS引擎增加了智能恢复能力,可以识别早期可能发生的潜在故障,从而更大限度地减少停机时间。NVIDIA

AI驱动的预测管理功能持续监控硬件和软件中数千个数据点的整体运行状况,以预测和拦截停机时间和低效的,从而节省时间、能源和计算成本。图:第二代transformer引擎资料:英伟达官网,中信建投英伟达发布第五代NVLink和NVLinkSwitch7.2T

人工智能领域算力需求不断增长,对于能够在GPU之间实现无缝高速通信的多节点、多GPU系统的需求与日俱增。此前英伟达已经陆续发展出四代NVLink、三代NVLink

Switch,构建出强大的端到端人工智能和高性能计算平台,推动人工智能加速。

第五代NVLink极大地提高了大型GPU系统的可扩展性。单个NVIDIA

Blackwell

Tensor

Core

GPU支持多达18个NVLink

100GB/s连接,总带宽为1.8TB/s,比上一代Hopper带宽增加2倍,是PCIe

Gen5带宽的14倍以上。

英伟达发布NVLink

Switch

7.2T。新的NVLink芯片具有1.8TB/s的全对全双向带宽,支持576

GPU

NVLink域,适用于万亿级参数和混合专家AI模型;基于台积电N4P节点制造,拥有500亿个晶体管。第四代NVSwitch可在含有72个GPU的NVLink域中实现130TB/s的GPU带宽,通过NVIDIA

SHARP技术对FP8的支持提供4倍于原来的带宽效率。采用NVLink的多服务器集群可以在计算量增加的情况下同步扩展GPU通信,因此NVL72可支持的GPU吞吐量为单个8-GPU系统的9倍。图表:NVLink技术跃迁路径图表:NVLink互联图表:NVSwitch互联NVLink

第二代第三代

第四代第五代NVSwitch第一代第二代第三代第四代直连或节点中最多8个最多8个最多8个最多8个总带宽

300GB/s

600GB/s

900GB/s

1800GB/s单GPU最GPU数量NVSwitch

GPU300GB/s600GB/s900GB/s1800GB/s之间带宽6121818大链路数聚合总带宽

2.4TB/s架构支持

Volta4.8TB/sAmpere7.2TB/sHopper1PB/s架构支持

Volta

Ampere

Hopper

BlackwellBlackwell资料:英伟达官网,中信建投英伟达推出第四代NVLinkSwitch芯片

NVLink

Switch芯片性能显著提升,通信能力迭代升级。NVIDIA

NVSwitch基于NVLink的高级通信能力构建,可为计算密集型工作负载提供更高带宽和更低延迟。为了支持高速集合运算,第四代NVSwitch

Tray包含144个NVLink端口,并配有NVIDIA

SHARP引擎,可用于网络内归约和组播加速。NVIDIA

NVSwitch芯片在一个72-GPU的NVLink

domain(NVL72)中实现130TB/s的GPU带宽,并提供4倍的带宽效率。第四代NVSwitch

System可以支持多达576个GPU,总的带宽上限可达1PB/s。

NVLink

Switch与NVLink协同,提升GPU工作效率。借助NVSwitch,NVLink连接可在节点间扩展,以创建无缝、高带宽的多节点GPU集群,从而有效地形成数据中心大小的GPU。图:新一代NVLinkSwitch性能指标图:NVLinkSwitch集成

GPU图示资料:英伟达官网,中信建投多种形式的服务器类型

HGX

B200:英伟达发布了面向服务器的解决方案HGX

B200,它基于在单个服务器节点中使用八个B200

GPU和x86

CPU。TDP配置为每个B200

GPU

1000W,GPU可提供高达18

petaflops的FP4吞吐量。

HGXB100:它与HGX

B200的基本架构相同,有一个x86

CPU和八个B100

GPU,HGXB100与现有的HGX

H100基础设施兼容,允许最快速地部署Blackwell

GPU。

GB200

NVL72服务器:提供了36个CPU和72个Blackwell构架GPU,并完善提供一体水冷散热方案,可实现总计720petaflops的AI训练性能或1440petaflops的推理性能。它内部使用电缆长度累计接近2英里,共有5000条独立电缆。图:HGXB200服务器图:GB200服务器图:GB200NVL72服务器资料:英伟达官网,中信建投GB200

NVL72服务器

GB200NVL72在一个机架中配置了72个GPU,或者在两个机架中配置了72个GPU,包含18个单个GB200计算节点。

GB200NVL72使用高速铜缆进行GPU互连,无源DAC仅使用铜线,没有电子器件,功耗为零,延迟和插入损耗最低,是高速、低延迟链路的成本最低的方式。

GB200

NVL72使用液体冷却系统设计,GB200

NVL72由18个Tray组成,每个Tray均包含2块GraceCPU及4

块Blackwell

GPU并配置液体冷却,能耗降低25倍。图:GB200实现更快的推理速度图:GB200

NVL72广泛使用高速铜缆图:InfiniBandDAC铜缆资料:英伟达官网,中信建投Omniverse解密下一代数据中心的数字蓝图

GTC大会上,英伟达使用Omniverse模拟了AI时代“下一代”数据中心的数字蓝图。打造数据中心过程极其复杂,涉及到性能、能效和可拓展性等多重因素,需要精通各领域工程师的协作。工程师可利用由Omniverse

API提供支持的数字孪生平台,以逼真的方式组合和可视化多个CAD数据集,规划GPU集群部署。

Omniverse

Cloud

API

还促进了与其他工具的互操作性,可实现设计集群和网络基础设施的物理布局、优化布线长度和路由配置以及气流和液体冷却系统性能仿真等任务。图:下一代数据中心数字蓝图图:利用数字孪生技术规划GPU集群部署资料:英伟达,中信建投第二章人形机器人基础大模型GR00T17GR00T项目:用于人形机器人的通用基础模型

GR00T项目:英伟达发布人形机器人基础大模型GR00T,将推进机器人在具身智能方面的突破进展。该模型采用语言、视频、人类示教等多模态指令作为输入,直接生成机器人需要执行的下一个动作,搭载全新计算平台Jetson

Thor,在模拟环境的对GR00T进行训练。大模型通过学习人类视频,学习人类动作,提升动作流畅性与拟人性,真正实现人机交互,提升其智能性。基于GR00T人型机器人基础模型,可以实现通过语言、视频和人类演示,来理解自然语言,模仿人类动作,进而快速学习协调性、灵活性以及其他的技能,进而能够融入现实世界并与人类进行互动。图:GR00T驱动的机器人图:GR00T模型训练工作流程资料:英伟达,中信建投GR00T项目:兼具底层硬件与软件的强力支持

GR00T的硬件支持:人形机器人作为一个结构复杂的系统,具有在高频低级控制、任务规划、传感器融合与感知以及人机交互方面等的多样化需求,必须采用异构计算。英伟达已经对外公布,针对机器人的边缘计算将依托Jetson

Thor平台,并配备一系列预先训练好的机器人模型、库以及参考硬件。Jetson

Thor内置高性能的Blackwell

GPU,带宽高达100GB/s,具备每秒800万亿次8位浮点运算的AI处理能力,不仅能流畅运行诸如GR00T等多模态模型,而且能显著简化设计与集成的工作流程。

软件支持:为了提升GR00T大模型在端到端网络应用中的开发和训练效率,NVIDIA全面升级了Isaac

Lab机器人平台,并提供了预训练的机器人模型、参考硬件和库,使开发者能更便捷地开展工作。

GR00T开展实践合作:GTC大会展示了九个由GR00T驱动的人形机器人,分别来自Figure

AI、Agility

Robotics、Apptronik、傅利叶智能、宇树科技、1x、Sanctuary

AI、波士顿动力、小鹏鹏行。迪士尼基于Jetson“复活了”瓦力机器人,引发全场轰动。图:基于jetson

thor的机器人模型图图:GTC大会人形机器人资料:36Kr,英伟达,中信建投GR00T项目:英伟达搭建“三大平台”助力人工智能机器人发展

英伟达目前正在构建NVIDIA

AI、Omniverse、ISAAC三大平台,三大平台均与机器人产业高度关联。

NVIDIA

AI搭载DGX系列产品,用于模拟物理世界

Omnivese搭载RTX和OVX系列产品,用于驱动数字孪生的计算系统

ISAAC搭载AGX系列,用于驱动人工智能机器人

三大平台助力机器人自适应:传统机器人需要对任务进行预先规划,未来只需要对路径点提出要求,机器人路线可以实现自适应,机器人操作及编程更加简单。图:为开发者搭建的Robotics

Platform图:应用omniverse于自动驾驶资料:

NVIDIA,中信建投机器人学习和扩展开发:NVIDIAIsaaclab

和NVIDIAOSMO

机器人学习和扩展开发的利器:GR00T

使用的Isaac工具可以为任何环境中的机器人创建新的基础模型。这些工具包括用于强化学习的

Isaac

Lab和用于计算编排服务的

OSMO。

NVIDIA

Isaac

lab:高级运动技能的机器人,如行走和抓取,均需在模拟环境中运用深度强化学习,并在虚拟世界反复训练以掌握技能。作为Isaac

Gym的升级版,Isaac

lab为开发者提供了一个强大的端到端平台,助力开发、模拟及部署人工智能机器人。在GTC2024主题演讲中,黄仁勋宣布了对Isaac

lab机器人平台的升级,包括新增的机器人预训练模型、库及参考硬件集合,旨在加速学习进程并提升效率。更新内容支持探索新的机器人模型,包括FANUC和Techman,以及支持Orbbec、Sensing、Zvision、Ouster和Real-Sense的传感器生态系统;获取对自定义ROS消息的支持,允许独立脚本手动控制模拟步骤;探索为机械臂和移动基座用例添加的模拟中的随机化。图:Isaac

lab在机器人模拟人类行为的示范(中间步骤)资料:NVIDIA,中信建投机器人学习和扩展开发:NVIDIAIsaaclab

和NVIDIAOSMO

NVIDIA

OSMO:OSMO是一个云原生工作流程编排平台,可以轻松跨分布式环境(从本地到私有云和公共云资源集群)扩展工作负载。它提供单一管理平台来调度复杂的多阶段和多容器异构计算工作流程。

工作负载包括以下内容:综合数据生成

(SDG);DNN

训练和验证;强化学习;SIL或

HIL

中的机器人(重新)仿真;SIM或真实数据的感知评估。得益于以上英伟达强大的人工智能生态构建,osmo的调度作用能够被最大化发挥。

NVDIVIA赋能机器人模型训练:得益于NVIDIA

Isaac

lab和NVIDIA

OSMO的不断发展更新,英伟达通过在计算机芯片,大模型和云端智能训练等诸多领域的协同发力,加速了人形机器人发展的历史进程。图:NVIDIA

OSMO工作负载内容和技术支持图:OSMO编排平台方便开发者共享工作流的加速计算集群资料:

NVIDIA,中信建投机械臂和感知器的大升级:IsaacManipulato和IsaacPercepto

Isaac

Manipulato:NVIDIA

Isaac

Manipulator

为机械臂提供了一系列最先进的运动生成和模块化AI功能,以及一系列强大的基础模型和GPU加速库。它在路径规划方面提供高达80倍的加速;零样本感知提高了效率和吞吐量,使开发人员能够自动执行更多新的机器人任务。目前,领先的机器人公司Yaskawa、Solomon、PickNik

Robotics、READY

Robotics、FrankaRobotics和

Teradyne旗下的

UniversalRobots正在与

NVIDIA合作,为客户带来

Isaac

Manipulator的应用设备。

Isaac

Percepto:该感知器提供多摄像头、3D环绕视觉功能,这些功能越来越多地用于制造和履行操作中采用的自主移动机器人,以提高效率和工人安全,并降低错误率和成本。

早期采用者包括ArcBest、比亚迪和凯傲集团,他们的目标是在物料搬运操作等方面实现新的自主水平。黄仁勋认为,所有移动的东西都将是机器人。部分考虑到技术的落地是逐层递进的,工厂内的搬运操作相对比较常规可控会被优先应用,而未来将近的更大的市场可能就是自动驾驶和家用人形机器人等路径规划能力和视觉系统要求高的行业。图:IsaacManipulator内部原理图图:IsaacPercepto

更强的几何识别能力资料:

NVIDIA,中信建投GR00T项目加速人型机器人产业化落地

从供给端看,具备更加强大的技术支持:人形机器人大规模应用的一大难题是它们还不够“聪明”,常常只能执行预先设定的任务,人机交互能力欠佳。最新的人形机器人通用基础模型和高性能GPU,为人形机器人变得更聪明提供了强大的软硬件支持,有望让人形机器人更好地理解并执行复杂任务,从而推动其大规模应用。这意味着人形机器人将有可能实现自主式模仿学习,只需要较少的数据输入(如观察人叠衣服的动作)便能实现模仿,而不需要预先的任务设定。

从应用端看,将加速人形机器人产业化进程:GR00T大模型完善了人形机器人的产业生态,从模型训练到模型应用场景都给予了强有力的支撑,降低了应用开发的进入壁垒,在上游对口模型开发训练和下游机器人商品制造环节都将可能涌现更多的新兴科技企业,有望促进人形机器人产业化加速落地。图:人形机器人在Isaac

lab中模拟训练资料:

NVIDIA,中信建投第三章自动驾驶Thor平台搭载全新Blackwell

GPU25英伟达发布新一代集中式车载计算平台Thor

DRIVEThor是专为生成式AI打造的车载计算平台。2023年9月,英伟达Thor芯片首次发布,该芯片可提供高达2000TFLOP高性能算力,将自动驾驶、自动泊车、智能座舱等功能集成到一个单一的中央计算平台中,实现车内计算单元的大一统。同时,Thor兼容Linux、Android和QNX三种系统,有效解决车机系统碎片化问题。Thor车载计算平台分为两个版本,分别是单片1000TOPS算力版本和双片2000TOPS算力版本。Thor预计最早明年开始量产,同年上车。

DRIVEThor具有超级计算架构,技术优势显著。DRIVE

Thor支持多域计算、自动驾驶隔离功能和IVI,可以帮助制造商有效地将许多功能整合到单个片上系统(SoC)上。DRIVE

Thor是第一个集成推理转换器引擎的AV平台,可以将Transformer

深度神经网络的推理性能提高多达9倍。新的超级芯片还采用了最新的NVLink-C2C芯片互连技术,它能够以最小的开销跨链路共享、调度和分配工作。图:NVIDIA车载计算路线图图:主流智驾芯片性能对比AI算力(TOPS@int8)CPU算力(KDMIPS)厂家型号存储带宽(GB/s)制造工艺(纳米)英伟达特斯拉蔚来Thor20004755二代FSD480600750256448-900276300615220天玑NX9031CV3-AD685昆仑芯2安霸224百度512英伟达Orin27517616020513768220110220857Mobileye

EyeQUltraMDC610资料:英伟达官网,中信建投英伟达全新车载计算平台THOR合作需求旺盛

多家头部电动汽车制造商在GTC上宣布其搭载DRIVE

Thor的下一代AI车型

比亚迪、昊铂、小鹏、Plus、Nuro、Waabi和文远知行纷纷采用DRIVE

Thor。比亚迪正在将与NVIDIA的长期协作从车端延伸到云端,除了在DRIVE

Thor上构建下一代电动车型外,比亚迪还计划将NVIDIA的AI基础设施用于云端AI开发和训练技术,并使用NVIDIA

Isaac与NVIDIA

Omniverse平台来开发用于虚拟工厂规划和零售配置器的工具与应用。新能源汽车品牌广汽埃安宣布旗下高端豪华品牌昊铂下一代电动汽车将采用DRIVE

Thor平台,新车型将于2025年开始量产,可实现L4级自动驾驶,于2025年量产。小鹏也将Thor平台作为“智能大脑”,助力自研XNGP智能辅助驾驶系统的开发。理想汽车和吉利旗下的极氪汽车均宣布将采用英伟达的DriveThor技术。

Thor赋能长途卡车、配送车和自动驾驶出租车

除乘用车外,DRIVE

Thor还能够满足卡车、自动驾驶出租车、配送车等其他细分领域的不同需求。在这些领域中,高性能计算和AI对于确保安全、可靠的驾驶操作至关重要。图:DRIVE

Thor在单个SoC上整合智能汽车所有功能图:THOR官宣与比亚迪合作资料:英伟达官网,中信建投第四章英伟达AI应用百花齐放28NVIDIA

GPU

加速计算药物研发和应用

NVIDIA

Clara

Discovery集GPU加速及优化的框架、工具、应用和预训练模型于一体,可为医学影像、医疗器械、基因组学、药物研发等医疗健康和生命科学领域的AI解决方案提供强劲助力。GPU助力的深度学习算法和Transformer模型将加速药物研发的每个阶段,从训练能够理解化学空间的大型语言模型

(LLM),到分子动力学模拟、蛋白质结构预测以及生成药物设计,新型深度学习技术正在改变科学家探索不断扩展的化学领域的方式。

Clara

Discovery经过优化,可基于

NVIDIA

DGX

A100(提供

5

petaFLOPS的性能)运行。DGX

A100专为各种大规模加速计算工作负载而打造,可帮助研究人员更快地解决问题,并为IT提供统一的、易于部署的基础设施,以支持新一代药物研发。图:GPU与CPU在生物医药各领域的性能对比图:Clara

生态系统资料:英伟达,中信建投英伟达宣布推出BioNemo,部署生物大模型

在GTC大会上,英伟达宣布推出BioNemo,这是一款基于NVIDIA

NeMo

Megatron构建的应用框架和云服务,用于在超级计算规模下训练和部署大型生物分子Transformer

AI模型。BioNeMo随附预训练的大型语言模型,专为蛋白质、DNA和简化分子线性输入规范(SMILES)的语言而设计。BioNeMo可以用于在超级计算规模下训练和部署基于NeMo

Megatron的生物分子LLM,该框架包含Transformer模型MegaMolBART、ESM-1b和ProtT5,基于Transformer的大型语言模型正在为实时探索化学领域创造新的可能。

BioNeMo已在制药公司、科技生物公司和软件公司得到广泛采用。它提供了一种全新的计算方法,使科学家能够在低代码、用户友好的环境进行生成式AI研究,从而减少甚至在某些情况下完全取代实验。除了通过BioNeMo开发、优化和托管AI模型之外NVIDIA还通过对创新型科技生物公司的投资来推动计算机辅助药物发现生态系统的发展。图表:BioNemo应用框架图表:使用

BioNeMo

框架的不同

GPU的

ESM2训练时间示例资料:英伟达,中信建投NVIDIA

Earth-2平台优化气候模拟,实现天气可视化

NVIDIA

DGX

Cloud上的全新

Earth-2

API

能够支持所有用户创建基于

AI

的仿真,从而加快实现交互式、高分辨率模拟的速度,模拟范围从全球大气和局部云层到台风和湍流。当前气候技术行业的规模已达200亿美元,Earth-2应用编程接口通过结合该行业的公司所拥有的专有数据,可帮助用户在数秒内发布预警和最新预报。

Earth-2

API提供各种AI模型,并且新添加一种名为

CorrDiff

的全新

NVIDIA

生成式

AI

模型。该模型基于领先的扩散模型技术,能将当前数值模拟的分辨率提升

12.5

倍,相比传统方法,速度和能效分别提升了

1000

倍和

3000

倍。它不仅可以纠正粗分辨率预报中的错误,还能够生成对决策至关重要的指标。Earth-2云API的另一个关键组成部

NVIDIAOmniverse,该计算平台可帮助个人和团队开发基于通用场景描述

(OpenUSD)的

3D工作流与应用。图表:EARTH-2气候数字孪生平台图表:Earth-2交互式可视化界面展示资料:英伟达,中信建投TSMC和Synopsys将NVIDIA计算光刻平台投入生产

NVIDIA于GTC大会宣布,TSMC和Synopsys将在生产中使用NVIDIA计算光刻平台,可以加快下一代半导体芯片的制造速度。TSMC

与Synopsys

已将

NVIDIA

cuLitho

集成到其软件、制造工艺和系统中,在加速芯片制造速度的同时,也加快了对未来最新一代

NVIDIA

Blackwell

架构

GPU

的支持。

NVIDIA还推出了能够增强GPU加速计算光刻软件库

cuLitho的全新生成式AI算法。与当前基于

CPU

的方法相比,新方法大幅改进了半导体制造工艺。与目前基于

CPU

的方法相比,在

NVIDIA

cuLitho

软件库上运行的

SynopsysProteus

光学邻近效应校正软件显著加快了计算工作负载。NVIDIA

开发的生成式

AI

应用算法进一步提高了

cuLitho

平台的价值,在

cuLitho

加快流程速度的基础上,这一全新生成式

AI

工作流将速度又提升了

2

倍。图:cuLITHO构成元素图:GPU升级促使OPC加速资料:英伟达,中信建投6G研究云平台推出,以AI推动无线通信的发展

NVIDIA于GTC大会上宣布推出一个6G研究平台,该平台为研究人员提供了一种开发下一阶段无线技术的新方法。NVIDIA6G研究云平台具有开放、灵活和互联的特征,它为研究人员提供了一整套全面的工具,以推进AI应用在无线接入网络(RAN)

技术。该平台使企业能够加快开发

6G

技术,从而将数万亿台设备与云基础设施连接起来,为建立一个以自动驾驶汽车、智能空间以及各种扩展现实和沉浸式教育体验与协作机器人为依托的超级智能世界奠定基础。

该平台由三部分构成:适用于

6G

NVIDIA

Aerial

Omniverse

数字孪生、NVIDIA

Aerial

CUDA

加速的无线接入网络和NVIDIA

Sionna神经无线电框架。平台首批采用者和生态系统合作伙伴包括Ansys、Arm、苏黎世联邦理工学院、富士通、是德科技、诺基亚、美国东北大学、罗德与施瓦茨公司、三星、软银公司和Viavi等。图:英伟达

6G研究云平台图:主要

6G

用例及其要求用例子类别数据速率延迟变量覆盖范围从

Wide到沉浸式

XR

AR、VR、MR、全息通信

中到非常高

(10sGbps)Local远程传输、远程教育、触觉互联网低到中

(约

1Gbps)低宽电子健康Real-TimeDigitalTwins,实时数字孪生,In-Robost子网,SmartFactory,智能工厂,SmartCity,智慧城市大规模智能物联网从低到非常高

(10s从

Wide到轻松至超低从低到超低Gbps)Local高保真移动通

沉浸式协作、社交网络元宇宙高

(1Gbps以上)本地信资料:英伟达,中信建投NVIDIA

推出云量子计算机模拟微服务

NVIDIA

量子云基于

NVIDIA

开源

CUDA-Q

量子计算平台,部署量子处理器(QPU)的公司有四分之三都在使用该平台。量子云作为一项微服务,首次支持用户在云端构建并测试新的量子算法和应用,包括支持量子-经典混合算法编程的功能强大的模拟器和工具等,旨在帮助研究人员和开发人员在化学、生物学、材料科学等关键科学领域的量子计算研究中取得突破。

相较于其他量子框架,NVIDIA

量子云可显著加速量子算法。量子电路模拟在多个

H100

GPU

上可实现加速高达多线程

CPU的

60倍。模拟还可以使用在多个

GPU上运行的

NVIDIA量子云扩大量子位的数量,同时保持几乎恒定的运行时。

NVIDIA量子计算生态系统目前有160多家合作伙伴,

括Google

Cloud、Microsoft

Azure、Oracle

Cloud

Infrastructure等领先云服务提供商,以及IQMQuantumComputers、OQC、ORCAComputing、qBraid和Quantinuum等量子领域领先企业。图表:NVIDIAQuantumCloud

显着加快量子算法速度图表:NVIDIA量子云工作流程资料:英伟达,中信建投NVIDIA

NIMs微服务优化

AI推理

在软件服务方面,英伟达发布了NIM,一款针对AI推理系统的新软件。传统企业开发者可通过调动一系列NIMs,简单训练和部署完全利用自己数据的专属行业模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论