AI的iPhone时刻云端算力奔腾终端泛音频AIoT扩张_第1页
AI的iPhone时刻云端算力奔腾终端泛音频AIoT扩张_第2页
AI的iPhone时刻云端算力奔腾终端泛音频AIoT扩张_第3页
AI的iPhone时刻云端算力奔腾终端泛音频AIoT扩张_第4页
AI的iPhone时刻云端算力奔腾终端泛音频AIoT扩张_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

CONTENTS目录2ChatGPT走向多模态:催生应用场景快速落地,带来真正的需求驱动云端:算力需求显著提升,外部限制下AI算力需要国产替代终端:应用场景打开,驱动智能音箱2.0升级,或成新需求带动点3ChatGPT(Chat

Generative

Pre-trained

Transformer,聊天生成式预训练器)是OpenAI开发的聊天机器人,于2022年11月推出。它建立在OpenAI开发的GPT-3大型语言模型之上,并使用监督学习和强化学习(人类监督)技术进行微调。虽然聊天机器人的核心功能是模仿人类谈话者,但ChatGPT是多功能的。例如,它可以编写和调试计算机程序,创作音乐、电视剧、童话故事和学生论文;回答测试问题(有时根据测试的不同,答题水平要高于平均水平);写诗和歌词;模拟Linux系统;模拟整个聊天室等。ChatGPT背后的公司为OpenAI,成立于2015年,由特斯拉CEO埃隆·马斯克、PayPal联合创始人彼得·蒂尔、Linkedin创始人里德·霍夫曼、创业孵化器YCombinator总裁阿尔特曼(Sam

Altman)等人出资10亿美元创立。OpenAI的诞生旨在开发通用人工智能(AGI)并造福人类。ChatGPT中的GPT(Generative

Pre-trained

Transformer),是OpenAI推出的深度学习模型。ChatGPT就是基于GPT-3.5版本的聊天机器人。截至2022年12月4日,OpenAI估计ChatGPT用户已经超过100万;2023年1月,ChatGPT用户超过1亿,成为迄今增长最快的消费应用程序。2023年2月,OpenAI开始接受美国客户注册一项名为ChatGPT

Plus的高级服务,每月收费20美元;此外,OpenAI正计划推出一个每月42美元的ChatGPT专业计划,当需求较低时可以免费使用。2023年3月14日,OpenAI宣布正式推出

GPT-4。GPT-4

支持图像+文本输入,文本形式输出,相比前两代GPT-3和GPT3.5分别用于创造Dall-E

和ChatGPT,GPT-4提升了强大的识图能力;文字输入限制提升至

2.5

万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。《The

GPT-3

language

model,revolutionor

evolution?》(Benoît

Favre,Géraldine

Damnati,Frédéric

Herledan等),中信证券研究部《6个问题,用专业视角带你全方位了解ChatGPT》——甲子光年微信公众号GPT系列模型的数据集训练规模ChatGPT与GPT

1-3的技术对比1.1ChatGPT:基于OpenAI推出的深度学习模型GPT打造,成为迄今增长最快的消费应用程序4进入2023年,众多科技巨头相继推出多模态模型,目前主要以视觉语言多模态模型为主。2月27日微软推出的KOSMOS-1模型,能同时理解文字与图像内容,未来将会整合更多的输入模式,如音频、视频;3月6日谷歌推出的palm-E为目前最大规模的视觉语言多模态模型(Visual

language

model,VLM),其输入包括视觉、连续状态估计和文本,并可执行包括机器人操作、视觉问题解答在内的具体问题,此外还具备泛化能力,可以在未训练的情况下推演执行各种任务,比如可以操控机器人将“绿色物块”推到未曾学习过的“乌龟”旁边;3月14日OpenAI推出多模态的GPT-4版本,可以输入图像和文本然后输出文本,微软稍后即宣布其Microsoft

365将集成采用了GPT-4的生成式AI助手Copilot用于辅助办公,Google则紧跟宣布其Workspace中的Gmail和Docs也将集成AI助手;百度于3月16日正式发布的文心一言亦已经从单一的自然语言理解延伸到多模态,包括视觉、文档、文图、语音等多模态多功能,并可进行多模态生成。《Language

Is

Not

All

You

Need:

Aligning

Perception

with

Language

Models》(ShaohanHuang,

Li

Dong,

Wenhui

Wang等)/10.48550/arXiv.2302.14045《PaLM-E:An

Embodied

Multimodal

Language

Model》——DannyDriess,

Fei

Xia,MehdiS.

M.

Sajjadi等微软KOSMOS-1多模输入展示谷歌palm-E多模输入展示1.2

多模态:从单一文字到“视觉+文图+语音”,模型应用外延进一步拓宽5OpenAI发布GPT-3.5-turbo,接入成本降低90%。3月2日,OpenAI正式推出GPT-3.5-turbo,并开放API接口,第三方开发人员可以通过其API(应用程序编程接口)将ChatGPT直接集成到其应用程序和服务中,极大简化了开发流程,此外ChatGPT

API价格为0.002美元/k

tokens(约2.7美元/百万单词),仅为GPT-3.5模型价格的十分之一。主要原因是以ChatGPT为代表的的AI模型单位算力成本不断下降。ChatGPT延伸应用场景广阔,

API开放需求旺盛。除网页版ChatGPT的火爆外,下游应用场景对API开放的需求比较旺盛,诸多下游公司已将ChatGPT应用至不同场景。例如Snapchat、单词背诵应用Quizlet、生鲜电商平台Instacart、跨境电商平台Shopify,此外DallE也采用了ChatGPT支持,Stable

Diffussion也使用了类似的支持技术。单位算力成本降低趋势明确,AI产业逐步转向需求驱动阶段,推动AI芯片快速放量。AI相关基础理论成形相对较早,但受技术、算力限制而发展缓慢,2016年以来AI产业逐步加速,主要由硬件基础和训练模型升级迭代推动,我们认为ChatGPT此次降价将推动整体市场接入AI计算更加平民化和普适化,以搜索引擎Y为例,2022年底,其使用AI提供搜索服务的成本比传统互联网搜索高出50%,但在GPT

3.5

turbo发布前,这一差距已降至5%,

随着此次ChatGPT

API服务的大幅降价,使用AI提供搜索服务将具有可观的经济效益。单位算力成本降低已为明确趋势,尽管对应单位芯片需求降低,但随着接入门槛降低、终端应用的快速落地和商业效益的逐步显现,AI产业擦站将逐步转向需求快速驱动阶段,AI应用将成为

AI

芯片需求放量的关键,交互、搜索、服务、医药、金融、无人驾驶等领域应用的快速扩张,将带来长期更稳定的AI芯片增量需求。ResearchGateSnapchat,Shopify蒸馏学习网络示意图Snapchat

My

AI

for

Snapchat、Shopify对话购物功能示意图1.3

算力平民化和普适化,催生应用场景快速落地,带来真正的需求驱动6ChatGPT类应用或进一步提速全球算力规模增长,华为GIV预计至2030年突破56ZFlops,CAGR~65%,其中智能算力占比将超过90%。2021年全球算力规模已达615

Eflops,其中智能算力占比38%。在以万物感知、万物互联、万物智能为特征的数字经济时代背景下,根据中国信息通信研究院数据,2021年全球算力规模已达615

Eflops,同比+44%。构成上看,基础算力/智能算力/超算算力占比分别为60%/38%/2%。(智能算力:由基于GPU、通用AI芯片、FPGA、ASIC等加速计算平台提供的算力,主要用于人工智能的训练和推理计算,比如语音、图像和视频的处理)ChatGPT类应用的广泛铺开或进一步提速全球算力规模,华为GIV预计至2030年突破56ZFlops,届时智能算力占比将超过90%。参考华为GIV预测,至2030年全球算力规模将保持CAGR~65%的高速增长态势扩大至56

ZFlops(即56000

EFlops

),且智能算力将成为主要增长点,至2030年规模为52.5

Zflops,对应2021~2030年CAGR为80%。中国市场算力需求亦将快速增长,IDC预测2022~2026年CAGR~48%。根据IDC数据及其预测,2022年中国智能算力规模为268

EFlops

,至2026年有望扩张至1271

EFlops

。资料来源:中国信息通信研究院,IDC,Gartner,TOP500,华为

GIV(含预测)IDC(含预测),中信证券研究部全球算力规模及发展预测(单位:EFlops)中国智能算力需求规模及预测(单位:

EFlops

)1.4

算力发展:全球算力增加或提速,华为预计至2030年算力规模或扩大至56ZFlops,对应CAGR~65%61556000050010001500200025002016

2017

2018

2019

2020

20212030ECAGR~65%3275155268427641923127112001000800600400200014002019

2020

2021

2022

2023E2024E2025E2026ECAGR~48%7以音箱产品为例,从传统音箱到智能音箱,智能化升级趋缓,市场需求疲弱ChatGPT技术可驱动智能音箱2.0升级,或成新需求带动点建议关注前端成本占比高、具备技术壁垒的主控芯片及周边芯片,后端关注有望与ChatGPT或其他大模型合作的品牌厂商及其ODMChatGPT类应用铺开将驱动全球算力规模快速提升,并拉动AI芯片需求同频增长当前AI芯片市场由海外龙头如英伟达主导,国内玩家快速追赶美政府严格限制对华销售高端芯片,中长期AI芯片国产替代是必经之路完善服务器核心生态的发展需求之下,国产CPU、配套元器件等也将迎来宝贵发展机遇1.5

AI产业新趋势下,关注云端和终端投资机遇ChatGPT应用火热云端:算力规模快速增长终端:驱动智能化升级提速1、AI芯片:华为昇腾、寒武纪等国内先行者2、CPU主核:龙芯中科、海光信息等3、服务器制造端:通富微电、长电科技等4、服务器配套元器件:PCB:沪电股份存储、内存接口芯片:江波龙、澜起科技模拟芯片:裕太微、杰华特、纳芯微等建议关注1、主芯片及周边芯片:晶晨股份、恒玄科技、瑞芯微、全志科技、北京君正、乐鑫科技等2、后端环节:漫步者、国光电器、歌尔股份、百度、阿里、小米等资料来源:中信证券研究部CONTENTS目录8ChatGPT走向多模态:催生应用场景快速落地,带来真正的需求驱动云端:算力需求显著提升,外部限制下AI算力需要国产替代终端:应用场景打开,驱动智能音箱2.0升级,或成新需求带动点训练需要密集的计算得到模型,没有训练,就不可能会有推理。训练是指通过大数据训练出一个复杂的神经网络模型,通过大量标记过的数据来训练相应的系统得到模型,使其能够适应特定的功能。训练需要较高的计算性能、能够处理海量的数据、具有一定的通用性,以便完成各种各样的学习任务。推理是指利用训练好的模型,使用新数据推理出各种结论。借助神经网络模型进行运算,利用输入的新数据来一次性获得正确结论的过程。根据承担任务的不同,AI芯片可以分为:用于构建神经网络模型的训练芯片,利用神经网络模型进行推理预测的推理芯片。训练,是指通过大数据训练出一个复杂的神经网络模型,即用大量标记过的数据来“训练”相应的系统,使之可以适应特定的功能。训练需要极高的计算性能,需要较高的精度,训练芯片受算力约束,一般只在云端部署。推理,是指利用训练好的模型,使用新数据推理出各种结论。即借助现有神经网络模型进行运算,利用新的输入数据来一次性获得正确结论的过程,在云端和终端均有部署。《NVIDIA

DEEP

LEARNING

INSTITUTE

》——英伟达AI

Conference《Lower

Numerical

Precision

DeepLearning

Inference

andTraining》——Intel

注:FP32和9BF16提供了相同的动态范围,FP32由于更大的尾数提供了更高的精度。推理是将深度学习训练成果投入使用的过程常见的32/16/8位数字格式对比2.1

人工智能的实现包括两个环节:训练(Training)和推理(Inference)训练推理10AI芯片定义:从广义上讲,能运行AI算法的芯片都叫AI芯片,目前通用的CPU、GPU、FPGA、MLU、TPU等都能执行AI算法,只是执行效率差异较大;狭义上一般将AI芯片定义为“专门针对AI算法做了特殊加速设计的芯片”,例如谷歌TPU、寒武纪MLU等。在人工智能立夏将至的大趋势下,芯片市场蛋糕越做越大,足以让拥有不同功能和定位的芯片和平共存,百花齐放。后摩尔定律时代,我们强调AI芯片市场不是零和博弈。我们认为从深度学习到ChatGPT对AI芯片的需求是当仁不让的市场主流,行业由上至下传导形成明显的价值扩张。在AI计算训练端(主要用在云计算数据中心里),以英伟达为代表的GPU是目前的第一选择,但以谷歌TPU、寒武纪MLU为代表的通用AI芯片,也如雨后春笋,逐渐替代GPU的应用场景。AI计算推理端,以谷歌TPU、寒武纪370为代表的通用AI芯片,针对特定算法深度优化和加速,将在确定性执行模型(deterministic

executionmodel)的应用需求中发挥作用;次优的GPU产品也可以应用于推理端;FPGA依靠电路级别的通用性,加上可编程性,适用于开发周期较短的IoT产品、传感器数据预处理工作以及小型开发试错升级迭代阶段等。资料来源:英伟达、谷歌官网等,中信证券研究部2.2

AI芯片:后摩尔定律时代,AI

芯片市场百花齐放,各有所长几种AI芯片的特点梳理11深度学习(Deep

Learning):通过模仿人脑的机制来解释数据,即通过组合低层特征形成更加抽象的高层特征(或属性类别)。例如,在计算机视觉领域,深度学习算法从原始图像去学习得到一个低层次表达,例如边缘检测器、小波滤波器等,然后在这些低层次表达的基础上,通过线性或者非线性组合,来获得一个高层次的表达。深度学习的本质是高阶张量,以矩阵运算为基础。2016年3月,中科院计算所发布了全球首个能够深度学习的神经网络处理器芯片,名为“寒武纪”。2021年寒武纪发布了第四代智能处理器架构

MLUarch03,多算子硬件融合技术在软件融合的基础上大幅减少算子执行时间。英伟达最初的GPGPU产品更多应用Cuda

core(全能型的浮点运算单元),在2017开始在GPU中加入了一块专用的AI芯片叫Tensor

core(张量计算核心),TensorCore是专为执行张量或矩阵运算而设计的专用执行单元,Tensor

Core可实现混合精度计算,并能根据精度的降低动态调整算力,在保持准确性的同时提高吞吐量。

AI

训练:当今的

AI

模型面临着对话式

AI

等更高层次的挑战,这促使其复杂度呈爆炸式增长。在

FP32

精度下训练这些大型模型可能需要数周甚至数月时间。Tensor

Core

能够通过降低精度(如

Transformer

引擎中的

8

位浮点

(FP8)、Tensor

Float

32

(TF32)

FP16),在性能方面实现数量级的提高。从而在保持准确性的同时,大幅缩短从训练到收敛的时间。AI

推理:优秀的

AI

推理加速器不仅要提供出色的性能,还要具备能够加速不同神经网络的通用性,以及能够使开发者构建新神经网络的可编程性。要可靠地部署推理,关键的性能要求是在低延迟下实现高吞吐量,同时更大限度地提高利用率。Tensor

Core

提供了一整套精度(TF32、Bfloat16

浮点运算性能(BF16)、FP16、FP8

INT8),确保实现出色的通用性和性能。资料来源:英伟达技术论坛Tensor

Core输入矩阵的精度为半精度,乘积可以达到完全精度2.3

深度学习:以矩阵运算为基础,根据精度的需求动态调整算力资料来源:寒武纪官网寒武纪多种计算精度支持美政府针对高端GPU芯片的对华销售实施限制,并严格设定界限阻碍先进计算芯片售往中国。2022年8月31日,美国政府要求英伟达的A100、H100系列和AMD的MI

250系列及未来的高端GPU产品,是否可以售卖给中国客户,需要获得美国政府的许可。这几款芯片均为用于通用计算的高端GPGPU,通常应用在人工智能计算的云端训练和推理场景和超级计算机中,在中国的客户多为云计算厂商及高校和科研院所。2022年10月7日,美国商务部工业与安全局(BIS)公布了对于中国出口管制新规声明,进一步加强了对中国出口相关产品的管制措施,声明中包括更全面的与先进计算和半导体制造相关的限制措施,涉及高算力芯片、先进逻辑芯片和高端存储芯片制造,其中具体的限制门槛包括:先进计算芯片:3A090规定GPU/ASIC/CPU/FPGA等各类芯片,满足输入输出双向传输速度高于600GB/s,同时每次操作的比特长度乘以TOPS计算出的处理性能合计为4800或更多算力的产品(注释:英伟达A100的INT8算力是624TOPS@INT8,624*8=4992>4800,单精度(32位)浮点算力156TFLOPS,156*32=4992>4800,同时带宽是600GB/s,触碰到了红线;此外,英伟达H100的INT8算力是2000TOPS,单精度浮点算力500TFLOPS,带宽是900GB/s,更超越了红线)。计算机部分:4A090包括计算机及计算机的相关的设备、组件以及附件,其中芯片也要按照3A090规定管理;对于超级计算机,在41,600立方英尺或者更小的体积内,FP64(双精度)理论计算能力是在100

petaFLOPS(每秒千万亿次浮点运算)或者以上,FP32(单精度)在200

petaFLOPS或者以上浮点算力的超级计算机,被定义为对中国管控的相关计算机。我们认为在需要大量算力的AI的训练端和推理端中,短期可以采用海外厂商的次优产品进行算力提升,中长期仍需国内AI芯片满足算力需求。短期来看,国内可以选择英伟达和AMD的还尚未被禁售的次优GPU芯片。对于云端计算,算力既可以通过产品升级得以提升,也可以通过增加计算卡的数量进行提升,因此短期内可以通过使用多个CPU、GPU和通用AI芯片来实现高端AI芯片的处理能力,基本可以满足云端训练和高性能计算的要求。中长期来看,AI芯片国产替代是必经之路。短期内可能会因为无法兼容在人工智能领域广泛使用的CUDA架构而遭遇替换困难,但是中长期来看,我们预计随着国内云厂商、芯片厂商、软件开发者的密切配合,国产生态的实力会得到快速提升。因此,国产CPU、GPU、通用AI芯片将获得前所未有的发展机会,通过软硬件技术提升,逐步实现高端AI芯片的国产化替代,其中在软硬件及自主生态布局较为领先的AI芯片企业预计将核心受益。122.4

AI芯片:美政府严格限制对华销售高端芯片,国产替代是必经之路132.5

AI芯片:国内厂商在AI芯片领域的产品布局国内GPGPU、AI加速芯片产品梳理及与国外GPGPU产品对比产品型号产品类型 推出时间制造工艺封装工艺FP64浮点算力(TFlops)FP32FP16/BF16INT8定点算力(TOPS)生态互联带宽显存(GB)接口功耗华为昇腾910AI芯片20187nm320640MindSpore32PCIe

4.0310W寒武纪思元290AI芯片(训练)20217nm2.5D

CoWoS支持支持512CambriconNeuware600GB/s32PCIe

4.0250W寒武纪思元370AI芯片(推训一体)20217nmChiplet2496256CambriconNeuware614.4

GB/s48PCIe

4.0250W海光深算一号DCU20217nm5.4支持支持支持兼容

ROCm32PCIe

4.0350W天数智芯天垓100GPU20217nm2.5D

CoWoS37147295SIMT64

GB/s32PCIe

4.0250W壁仞BR100-OAMGPU20227nm2.5D

CoWoS25610242048BIRENSUPA512GB/s64PCle

5.0550W壁仞BR104-300W

PCleGPU20227nm2.5D

CoWoS1285121024BIRENSUPA192GB/s32PCle

5.0300W英伟达A100

PCleGPU20207nm9.719.5312624CUDA600GB/s80PCle

4.0400W英伟达H100

PCleGPU20224nm2.5D

CoWoS24488001600CUDA900GB/s80PCle

5.0350WAMD

InstinctMI100GPU20207nm11.523.192.3184.6AMD

ROCm276GB/s32PCle

4.0300WAMD

InstinctMI250XGPU20216nm2.5D

EFB47.947.9383362AMD

ROCm128PCle

4.0560W数据来源:各公司官网,中信证券研究部

注:未填写的数字不代表不支持,而是未找到公开数据目前国内厂商在计算性能和软件生态上虽然和国际厂商还有一定的差距,但是差距已经在逐渐缩短。此外,随着国内政策扶持及国内厂商奋起直追,未来有望逐步实现AI芯片和AI算力国产化。目前国内AI芯片主要厂商包括华为、寒武纪、海光、遂原、壁仞、天数智芯等,此外龙芯中科也在布局。华为昇腾及寒武纪均自主研发通用AI芯片,昇腾910、寒武纪思元290与英伟达A100均采用7nm先进制程工艺,在性能功耗比上较为接近,均面向AI训练、推理任务。在峰值计算能力上,英伟达A100为624TOPS@INT8(非稀疏模式);昇腾910和思元290为512TOPS@INT8。CONTENTS目录14ChatGPT走向多模态:催生应用场景快速落地,带来真正的需求驱动云端:算力需求显著提升,外部限制下AI算力需要国产替代终端:应用场景打开,驱动智能音箱2.0升级,或成新需求带动点15回顾过去,从传统音箱到智能音箱,智能化升级趋缓,市场需求疲弱。从传统音箱到HomePod、Echo、天猫精灵等智能音箱,是家居中智能语音的首个突破口,主要系音箱类产品具有传统音频播放功能的同时,具备较强的语音特性;产品功能相对集中、摆放灵活、成本可控、生产门槛不苛刻,新兴厂商切入更加容易。从功能上看,智能音箱新增语音交互、联网、家居控制、内容服务等,核心技术门槛在于云端算力支持的语音交互能力,而这也是亚马逊、谷歌、苹果等科技巨头的差异化优势。但近年来,智能音箱经常出现听不懂话、反应慢的状况,或者对于相对复杂问题直接无法回答,只剩下听音乐、定闹钟、问天气等较为有限的互动,产品表现并不“智能”。Cary

Audio官网,百度官网,小米官网,中信证券研究部中信证券研究部绘制从传统音箱到智能音箱功能的改变典型智能音箱语音交互流程图3.1

智能终端:以智能音箱为例,“不够智能”仍是当前产品的局限16ChatGPT通过大模型实现语义的深度理解,有望提升智能音箱等终端智能度,进而改善使用体验。ChatGPT的核心是一个通过AI技术驱动的自然语言处理工具,重心在内容,即大幅优化用户获取内容的流程,提升所获内容的精准度,从而改善语音助手的使用体验。而对于未来的智能终端而言,我们预计约80%为语音输入,20%为视频输入,未来语音/文本仍将是主流的交互方式,用户语音→智能音箱等终端界面输入→ChatGPT语义处理→智能音箱等终端输出或是智能音箱新的业务形态。例如Bilibili用户GPTHunt、Github用户xiaogpt都已将ChatGPT接入音箱产品,实现更智能、更连续的交互。需要注意的是,智能音箱除了交互,另一个重要功能是控制,而使用ChatGPT功能时,目前只能实现多模态输出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论