




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国人工智能产业发展联盟AI芯片技术选型目录(2020年)CONTENTS目录中产品顺序不分先后一、引言 1二、云端/数据中心 5云端训练 6北京百度网讯科技有限公司-百度昆仑1芯片 6上海燧原科技有限公司-邃思通用人工智能训练芯片 7NVIDIA-NVIDIAA100/V100/T4TensorCoreGPUs 8云端推断 10赛灵思-Alveo 10中科寒武纪科技股份有限公司-寒武纪思元100 14中科寒武纪科技股份有限公司-寒武纪思元270 15北京比特大陆科技有限公司-比特大陆算丰TPU芯片BM1684 16深圳鲲云信息科技有限公司-星空x3加速卡 18华为技术有限公司-昇腾310AI处理器 202.3小结 22三、边缘计算 24上海天数智芯半导体有限公司-天数智芯IluvatarCoreXI芯片 25NVIDIA-NVIDIAJetson,NVIDIAT4TensorCoreGPUs 27紫光展锐-虎贲T710 29中科寒武纪科技股份有限公司-寒武纪思元220M.2 30华为技术有限公司-昇腾310AI处理器 31深圳鲲云信息科技有限公司-星空x3加速卡 333.7小结 36四、终端 38通用端侧产品 39NVIDIA-NVIDIAJetson 39华为技术有限公司-昇腾310AI处理器 41瑞芯微电子股份有限公司-RK1808AIoT芯片方案 43瑞芯微电子股份有限公司-RK3399Pro人工智能端侧芯片方案 45上海天数智芯半导体有限公司-天数智芯IluvatarCoreXI芯片 47智能驾驶 49思-NVIDIA-A 安防、机器人、车载 54司-锐-贲司-司-司-司-司-司-司-司-4.4手机 68司-司-龙4.5语音 72司-片司-司-4.6小结 78五、IP技术 80安谋科技(中国)有限公司-周易AIPU 81司-列5.3小结 86附录 88说明说明图1产品验证测试logoI12AIIADNNbenchmarklogoI2\h(/benchmark)。CHAPTERCHAPTER1引言AI芯片技术选型目录背景与意义背景与意义当前随着人工智能理论和技术的日益成熟,应用范围不断扩大,目前已广泛应用于计算机科学、金融贸易、医药、诊断、重工业、运输、远程通讯、在线和电话服务、法律、科学发现、玩具和游戏、音乐等诸多方面。算力作为承载人工智能应用的平台和基础,其发展推动了整个人工智能系统的进步和快速演进,是人工智能最核心的要素之一。以人工智能应用为主要任务的,面向智能计算的处理器的相关设计方法与技术已成为国内外工业界和学术界共同角逐的热点,国内外企业纷纷布局AI芯片。AI产品日趋丰富。除了追求性能提升外,AIAI(下简称“AIIA”或联盟)计算架构与芯片推进组启动“AI(AI内容与目的内容与目的选型目录在1年前开始面向全球企业征集,内容包含AI芯片产品的:AIAIAI/AI专利状态:作为选填项,披露产品专利状态AI学习计算能力及工艺等。AIIAtestedbyAIA”loo1AI图1产品验证测试logo22引言引言为了帮助企业、系统集成厂商、开发者等准确评价芯片的技术水平和在国际上行业内的地位,AIA2017AIANNbenhmrkIAIAIIADNNbenchmarkAI“AIIADNNbenchmark”logo体现在产品介绍页,如图2所示,代表该芯片可从AIIADNNbenchmark官网\h查到测试数据(/benchmark)。2AIIADNNbenchmarklogo经过近半年的筹备工作,推进组完成材料汇总,测试验证并组织行业内专家对目录内容进行专家评审工作。AIA2020AI2249AI1946AI人工智能芯片按照目前的应用场景来看,主要分为训练和推断两类场景,按部署位置又可分为云端、边缘和终端。AIAAI边缘和终端推断的四大产品形态。又依据行业应用,AI3给出。图3AI芯片根据行业应用分类图AIIA“AIAIAIADNNbenchmarkAIAI同时推动符合用户需求的测试评估,以促进产业健康发展,同时助力人工智能生态建设。33 AI芯片技术选型目录 44CHAPTERCHAPTER2//数据中心/数据中心 PAGE11PAGE11AIAIPAGE10PAGE10云端训练1【技术概述】1I架构,既可以用于训练,也可以用于推理,能全面支持语音,图像,自然语言处理等应用。【技术指标】1XPU14nm,HBM2PCIE4.0可编程等优势。【产品信息】
【应用案例】ERIE场景。百度网盘里的图像模型;百度云主机;百度云的工业质检客户。【产品特征/技术特点】256Tops;512GB/s;高度可编程性,能提供CC++用户可以自由开发自己的算子。【专利状态】(未提供)芯片名称功耗内存带宽上市时间深度学习计算能力工艺INT8FP16FP32百度昆仑1150W16GB512GB/s201911256Tops64Tops16Tops14nm邃思通用人工智能训练芯片【技术概述】/向量运算核心,支持各类数据精度的主流深度学习训练负载。【技术指标】邃思芯片采用工艺封装,总计亿个晶体管。其宣称单芯片提供及的算力,最大功耗190W。邃思芯片主要技术特点包括:自主指令集的神经元处理器,可编程的通用张量//向量/神经元处理集群8自主研发系统稳定性控制,支持服务器级别,yd支持等网
支持数据类型【应用案例】(未提供)【产品特征/技术特点】T10是基于邃思芯片打造的人工智能训练加速卡,20TFLOPS@FP32,最大功耗225W,支持FP32/FP16/BF16/INT8/INT16/INT32PCIe4.064GB200GB/s驭算计算和编程平台主要包含分布式调度、软件开发包(SDK)和设备驱动层,用户可以将已有训练系统,无缝迁移至邃思平台上运行,无需二次开发或者模型转换工作。T10疗、工业及政务等人工智能训练场景。【专利状态】燧原科技及其子公司目前已获得24项授权专1920正在申请进程中。【产品信息】芯片名称功耗内存带宽上市时间深度学习计算能力工艺INT8FP16FP32邃思190W(最大功耗)16GBHBM512GB/s2020年6月80TOPS80TFLOPS20TFLOPSGF12nmFinFETNVIDIA-NVIDIAA100/V100/T4TensorCoreGPUs【技术概述】为数据中心GPU,可加快AI、高性能计算(HPC)和图形技术的发展。【技术指标】NVIDIAAmpereGPU5407GPU、TF32、结构化稀疏等特性。NVIDIAVoltaGPU640个Tensor内核,可提供每秒超过100万亿次(TFLOPSNVIDIAPascal5NVIDIATuringGPU架构支持实时光线追踪、AI、模拟和光栅化技术。【应用案例】NVIDIAA100/V100/T4GPU可以更快速地处理要求最严格的高性能计算(PC)
大规模数据中心工作负载。现在,数据科学家和研究人员可以在能源勘探和深度学习等应用场合中解PBCPU量级。NVIDIAA100/V100/T4加速器可以超快速NVIDIAGPU还能为虚拟桌面、应用程序和工作站提供超高性能和用户密度。【产品特征/技术特点】NVIDIAA100采用了NVIDIAAmpere架构的突破性设计,集AI训练和推理于一身,宣称其性能相比于前代产品提升了20倍。作为一款通用型工作负载加速器,A100还被设计用于数据分析、科学计算和云图形。NVIDIAV100运用NVIDIAVolta架构,拥有640个Tensor内核,是世界上第一个突破100万亿次(TFLOPS)深度学习性能障碍的GPU。NVIDIAT4GPUNVIDIATuringTensorCore,提供多精度推理性能,以加速人工智能的各种应用。【专利状态】(未提供)【产品信息】芯片名称功耗显存带宽上市时间深度学习计算能力工艺INT8FP32FP64TF32FP64TensorCoreNVIDIAA100400w40GBHBM21555GB/s2020年5月624TOPS|1248TOPS*(*疏技术)19.5TFLOPS9.7TFLOPS312TFLOPS(*采用稀疏技术)19.5TFLOPS7nmNVIDIAV100(NVLink)300w32/16HBM2900GB/s2017年5月15.7TFLOPS7.8TFLOPS12nmNVIDIAV100(PCIe)250w32/16HBM2900GB/s2017年5月14TFLOPS7TFLOPS12nmNVIDIAV100S250w32GBHBM21134GB/s2019年11月16.4TFLOPS8.2TFLOPS12nmNVIDIAT470w16GBGDDR6320+GB/s2018年3月130TOPS8.1TFLOPS12nm云端推断云端推断Alveo【技术概述】AlveoTM数据中心加速器卡专为现代数据中心多样的应用需求而设计。Aveo在降低总成本的同时,灵活支持各类工作负载。赛灵思推出的its统一软件平台为各类I推理应用开发提供统一编程模型,帮助用户加速实现从C/C++、Python、Caffe、Tensorflow【技术指标】赛灵思数据中心加速器卡基于片互联)技术来实现A容、带宽和功耗域o加速卡旨在加速服务器或工作站中的机器学
AlveoU50XCU50FPGA2SLR,PCIeGen48GHBM2,每秒100G75金融计算、机器学习、计算存储以及数据搜索与分析工作负载提供优化加速。AlveoU200XCU200FPGA3SLRAlveoU250XCU250FPGA包4SLR。二者均可连接到PCIExpress168GT/s(Gen3),也可以4DDR416GB2400MT/s64(ECCDIMM,64GBDDR4。ALveoU280XCU280包括三个SLR(SLR0HBM控制器,8GBHBM2SLRPCIExpress16个通道,这些通16GT/s(Gen4的速度运行。SLR0SLR1DDR416GB2400MT/s64位含纠错码(ECCDIMM32GB的DDR4。【应用案例】Aveo加速卡已经开发和认证的关键应用A/ML、视频转码、数据分析、金融风险建模、安全和基因组学等。Algo-LogicSystemsInc、Bigstream、BlackLynxInc.、CTAccel、FalconComputing、MaxelerTechnologies、Mipsology、NGCodec、Skreens、SumUpAnalytics、TitanIC、VitesseData、VYUsyncXeleraTechnologies等合作伙伴开发完成的应用已经投入部署。此外,DellEMC、FujitsuLimitedIBMOEM厂商也在同赛灵思合作,认证采用Aleo加速器卡的多个服务器SKU。一,Alveo-Mipsology,Zebra搭载AlveoU50数据中心加速卡用于神经网络推理,板卡功耗75W,关键功能:(CNN——Zebra支持所有神经网络——Zebra可加速任何CNN的所有层级;易于使用——Zebra是“即插即用”的解决方案,无需对神经网络进行修改或再训练;不改变软件环境——无新语言、框架或工具。Zebra在TensorFlow、PyTorch、ONNX、Caffe和MXNet模型内运行;可扩展性、灵活性和适应性——Zebra可替GPUCPU。二,Aveo-SK电讯基于人工智能的实时物AlveoU250加速器卡,可提供充足的吞吐量与精准度。
【产品特征/技术特点】AlveoU50数据中心加速器卡采用赛灵思UltraScale+ 架构,使用半高半长的外形尺寸和低于75瓦的低包络功耗。该卡支持第四代PCIe及高带宽存储器每秒100G网络连接面向各种类型的服务器部署。AlveoU50加速器卡产品详细介绍:规格U50产品SKUA-U50-P00G-PQ-G卡总耗电量175W散热解决方案被动重量300g–325g外形尺寸半高半长网络接口1xQSFP28PCIe接口2,3Gen3x16,Gen4x8,CCIXHBM2总容量8GBHBM2带宽201GB/s4查找表(LUTs)872K寄存器1,743KDSPslices5,952最高分布.RAM24.6Mb36KbRAM1344(47.3Mb)288KbUltraRAM640(180.0Mb)GTY收发器20符合部署条件有注释:AlveoU50卡为FPGA结构与HBM存储器分别搭配了单独的电源供电线。开发者必须确保他们的设计不会从每条供电线汲取过多电源。如需了解更多信息,请参阅《AlveoU50卡安装指南》(UG1370)。PCIe接口可以配置为支持各种链接宽度和速度。最高为Gen3(8Gt/s)x16、Gen4(16Gt/s)x8或以16GT/sx8运行的CCIX。PCIe接口还可以配置为双x8PCIe此块在兼容模式下以16.0Gt/s(Gen4)的速度运行。请参阅《UltraScale+DevicesIntegratedBlockforPCIExpressLogiCOREIP产品指南》(PG213)通过PCIe3.3V电源供电线提供的HBM2功耗仅限为10W。使用HBM2可实现的性能受限于此功耗限制,并且因设计而异。HBM2的额定带宽为201GB/s。在不兼容PCIe的规格中,针对A-U50DD-P00G-ES3-G和A-U50-P00G-PQ-GHBM2316GB/s。AlveoU200U250数据中心加速器卡采
用PCIeGen3x16,设计用于加速高计算强度应用,如机器学习、数据分析和视频处理。注释:电源获取连接器电源获取另外AlveoU200/U250加速器卡产品详细介绍规格U200U250U200U250动散热版被动散热版主动散热版被动散热版产品SKUA-U200-A64G-PQ-GA-U200-P64G-PQ-GA-U250-A64G-PQ-GA-U250-P64G-PQ-G散热解决方案主动被动主动被动1122g1066g1122g1066g外形尺寸全高、全长、双宽度全高、长、双宽度全高、全长、双宽度全高、长、双宽度卡总耗电量1225W225W网络接口2xQSFP282xQSFP28PCIe接口Gen3x16Gen3x16查找表(LUT)1,182K1,728K寄存器2,364K3,456KDSPslice6,84012,288UltraRAM9601,280DDR总容量64GB64GBDDRDDR最大数据率2400MT/s2400MT/sDDR总带宽77GB/s77GB/sAlveoU2808GBHBM232GBDDR41.1MLUT8.5kDSP100GPCIeCCIX互联标准。AlveoU280加速器卡产品详细介绍:规格1主动散热版被动散热版产品SKUA-U280-A32G-DEV-G3A-U280-P32G-PQ-G3卡总耗电量2225W225W散热解决方案主动被动重量1187g1130g外形尺寸全高、全长、双宽度全高、长、双宽度网络接口2xQSFP28PCIe接口4,5Gen3x16,Gen4x8,CCIXHBM2总容量8GBHBM2带宽460GB/s查找表(LUTs)1,079K寄存器2,607KDSPslices9,024UltraRAMs960DDR总容量32GBDDR最大数据率2400MT/sDDR总带宽38GB/s注释:规格适用于量产U280卡。U280ES1卡规格和功能的任何差异都记录在U280ES1已知问题71975卡通过标准连接器电源获取,通过连接器主动器件编号包含一条
信息,请联系您当地的赛灵思销售代表。(8))x8或以16x8x8+IP)了【专利状态】(未提供)【产品信息】芯片名称功耗内存带宽上市时间深度学习计算能力工艺INT8FP16FP32AlveoU50(VU35P)50W8GB316GB/s2019年8月16.2//16nmUltraScaleAlveoU200(VU9P)100W64GB77GB/s2018年10月18.6//AlveoU250(VU13P)110W64GB77GB/s2018年10月33.3//AlveoU280(VU37P)100W//2018年11月24.5//100【技术概述】为云端推理提供运算能力支撑。【技术指标】INT832TOPS,【应用案例】计算机视觉、语音识别、自然语言处理。
【产品特征/技术特点】1.通用智能,支持计算机视觉、语音识别、自然语言处理等多模态智能处理;具有更优的能效比;完善软件开发环境NeuWare,包括应用开发、功能调试、性能调优等。【专利状态】(未提供)【产品信息】芯片名称功耗内存带宽上市时间深度学习计算能力工艺INT8FP16FP32思元10075w8GB/16GB102GB/s2018年05月32TOPS16TFLOPS/16nm270【技术概述】为高能效比AI推理设计的数据中心级PCIe智能加速卡。【技术指标】支持多种精度,比上一代加速芯片计算能力提高4倍,INT8算力128TOPS。【应用案例】AI推理平台实现高能效比。
【产品特征/技术特点】INT16、INT8、INT4、FP32、FP16多种精度;2.CPU前处理负载和PCIe带宽占用;3.计算弹性,支持多类神经网络,寒武纪Neuware软件栈部署推理环境;4.Bang算资源定制,满足多样化需求。【专利状态】(未提供)【产品信息】芯片名称功耗内存带宽上市时间深度学习计算能力工艺INT8FP16FP3227070w16GB102GB/s201906128TOPS//16nm.4TPUBM1684【技术概述】BM1684是比特大陆面向深度学习领域自主研发的第三代张量处理器(TPU),像分析的云端及边缘的人工智能推理芯片。【技术指标】芯片:BM1684端及边缘的人工智能推理芯片;AI算力卷5AITPU架构;典型功耗:16W;H264/H2658192x8192,4K/8K。H2643230FPS@1080P,可处理数十路视频智能分析全流程;JPEG480/@1080P;
CPU:A53,2.3GHz;内存:LPDDR4X,68.3GB/s;【应用案例】AIPaddleTPU计算集群,处理千路级别的高清视频结构化。AITPU计算集群,处理上千路的高清视频结构化、人脸识别等。AITPU计算集群,处理千路级别的高清视频结构化。TPU超分辨率等。某新零售客户新零售货柜的边缘计算盒子,可进行商品自动识别。【产品特征/技术特点】BM1684芯片技术特点是:1)TPU2702)16W35.2T(Winograd);3)32H264H26530FPS@1080P硬解码;/人脸分析路数;5)AI,Caffe,Tensorflow,PyTorch,MXNet,PaddlePaddle都支持;7)使用灵活,可工作于PCIESOC主设备模式;板卡产品特色:1)75WPCIE2)宣称其性能赶上并部分超越英伟达推
GPUT4;3)视频解码路数多,9630FPS模组产品特色:AI边缘计算模组,17.6T/35.2T;2)32H264H26530FPS@1080P硬解码;3)16~32/人脸分析;盒子产品特色:AI边缘计算盒子,17.6T/35.2T;2)16~32/人脸分析;3)可室外部署,无风扇散热,-20℃至+60℃宽温;4)接口支持USB/HDMI/RS-485/RS-232【专利状态】TPU270项以上;【产品信息】芯片名称功耗内存带宽上市时间深度学习计算能力工艺INT8FP16FP3212nmBM168416W12GBLPDDR4X68.3GB/s2019年9月17.6T(普通模式);35.2T(Winograd加速模式)2.2T深圳鲲云信息科技有限公司-星空x3加速卡【技术概述】X3加速卡为鲲云推出的面向边缘端和数据中心进行深度学习推断的IAIA集的架构方式,为支持深度学习的边缘和数据中心服务器提供计算加速方案。【技术指标】支等多个主流RainBuilder编译工具链,支持端到端算法开发和部署TensorFlow、CaffePyTorchONX(Xet)模型
95.4%【应用案例】工业领域:鲲云与合作方针对某电容上激光刻蚀字符推出基于深度学习的OCR案,识别算法采用了深度学习方法,可识别字母、数字以及数十种特殊字符,字符识别精度可达到9.99%。采用搭载鲲云CASA芯片的星空加速卡,识别延迟可以降低到50ms,识别速度可达到20pcs/s。电力领域:鲲云与合作方通过研究适用于电力无人机巡检的目标检测深度学习算法,实现基于人工智能技术的电力无人机智能巡检、数据采集,并在服务器端进行高质量的图片数据分析,提高巡检效率,降低巡检工作量。/技术特点】其宣称芯片利用率可达95.4%;时延:3ms
习算法;Batchsize5温度范围:-20℃~70℃6实测Benchmark:算法网络ResNet-50ResNet-152YOLOv3SSD-ResNet50U-NetIndustrial延时3.05ms8.68ms31.06ms20.8ms74.07ms吞吐率1306.93FPS460.27FPS125.75FPS182.16FPS54.01FPS芯片利用率92.32%95.43%82.37%77.06%64.97%注:Batch=4,INT8【专利状态】已申请专利110件,包括109件发明专利、1件外观设计专利;【产品信息】芯片名称功耗内存带宽上市时间深度学习计算能力工艺INT8FP16FP32星空加速x3峰值56WDDR4SDRAM,8GB32Gbps2020610.9TOPSN/AN/A28nm-昇腾310AI处理器【技术概述】昇腾AI处理器的主要架构组成:CPU(ControlCPU)AI(AICoreAICPU)区(Buffer)数字视觉预处理模块(DigitalVisionPre-Processing,DVPP)等【技术指标】规格描述架构达芬奇性能Upto8T@FP16Upto16T@INT8媒体16ChannelDecoder–H.264/2651080P301ChannelEncoder内存LPDDR4X2*64bit@3733MT/S接口PCIe3.0/USB3.0/GE封装15mm*15mm功耗8TOPS@4W,16TOPS@8W工艺12nmFFC【应用案例】华为针对其昇腾AI芯片的计算架构专门构建了完整的软件栈,兼容各个深度学习框架并能够高效运行在昇腾AI芯片上,让开发者能够快速开发推理应用,为开发者提供便利的解决方案。当前主流的深度学习应用,包括图像分类、人脸识别、目
标检测、光学字符识别、视频处理和自然语言处理领域的各个模型,均可以在昇腾310处理器上得到很好的技术支持。【产品特征/技术特点】达芬奇架构主要由计算单元、存储系统和控制单元三部分构成。其中计算单元又分为:矩阵计算单元、向量计算单元、标量计算单元,分别对应矩阵、向量和标量三种常见的计算模式。矩阵计算单元(CubeUnit):矩阵计算单元和累加器主要完成矩阵相关运算。一拍完成一个FP1616x1616x16阵乘(4096);INT832*16(8192);向量计算单元(VectorUnit):实现向量和标量,或双向量之间的计算,功能覆盖各种基本的计算类型和许多定制的计算类型,主要包括FP16/FP32/INT32/INT8等数据类型的计算;标量计算单元(ScalarUnit):CPUAICre为Cube/Vector
以及基本的算术运算。【专利状态】(未提供)【产品信息】芯片名称功耗内存带宽上市时间深度学习计算能力工艺INT8FP16FP32昇腾310AI处理器8TOPS@4W16TOPS@8WLPDDR4X2*64bit@3733MT/S2019年16T8T12nmFFC2.3小结云端/中心公司名称芯片名称功耗内存带宽云端训练北京百度网讯科技有限公司百度昆仑1150W16GB512GB/s上海燧原科技有限公司邃思190W(最大功耗)16GBHBM512GB/sNVIDIANVIDIAA100400W40GBHBM21555GB/sNVIDIAV100(NVLink)300W32/16GBHBM2900GB/sNVIDIAV100(PCIe)25032/16GBHBM2900GB/sNVIDIAV100S250W32GBHBM21134GB/s云端推断NVIDIANVIDIAT470W16GBGDDR6320+GB/s赛灵思AlveoU50(VU35P)50W8GB316GB/sAlveoU200(VU9P)100W64GB77GB/sAlveoU250(VU13P)110W64GB77GB/sAlveoU280(VU37P)100W//中科寒武纪科技股份有限公司思元10075W8GB/16GB102GB/s思元27070W16GB102GB/s北京比特大陆科技有限公司BM168416W12GBLPDDR4X68.3GB/s深圳鲲云信息科技有限公司星空加速卡X3峰值56WDDR4SDRAM,8GB/DDR32GB/s华为技术有限公司昇腾310AI处理器8TOPS@4W16TOPS@8WLPDDR4X2*64bit@3733MT/S上市时间深度学习计算能力工艺INT8FP16FP32FP64TF32FP64TensorCore201911256TOPS64TOPS16TOPS14nm2020680TOPS80TFLOPS20TFLOPSGF12nmFinFET20205"624TOPS|1248TOPS*(*采用稀疏技术)"312TF|624TF*(*采用稀疏技术)19.5TFOPS9.7TFOPS"312(*19.5TFOPS7nm20175125TFLOPS15.7TFLOPS7.8TFLOPS12nm20175112TFLOPS14TFLOPS7TFLOPS12nm201911130TFLOPS16.4TFLOPS8.2TFLOPS12nm20183130TOPS65TFLOPS8.1TFLOPS12nm2019816.2TOPS//16nmUltraScale™20181018.6TOPS//16nmUltraScale™20181033.3TOPS//16nmUltraScale™20181124.5TOPS//16nmUltraScale™2018532TOPS16TFLOPS/16nm20196128TOPS//16nm20199"17.6TOPS35.2TOPS2.2T12nm2020610.9TOPSN/AN/A28nm2019年16T8T12nmFFCCHAPTERCHAPTER3边缘计算边缘计算边缘计算 IluvatarCoreXI 【技术概述】IluvatarCoreXI芯片是聚焦于边缘应用的高精度深度学习推理人工智能芯片,针对市CNN网络模型算法进行了优化,可以减少存储单元延迟,增加运算并行度,最终提高边缘端人工智能应用的实际性能。【技术指标】CNN5W4.8TFLOPS的半精度浮点AI(FP16),16GB/s的双向IO8GBARM、X86CPU。
【应用案例】智慧新零售、基于人脸识别的智慧园区、智能垃圾分类、智慧医疗等基于视频与图像识别的应用场景。【产品特征/技术特点】IluvatarCoreXI芯片是基于数据流的深度神CNN网络模型的边缘侧人工智能推理。可用于智能制造、智慧新零售、智慧医疗、智慧园区、智能垃圾分类等多个行业及领域的应用,助力产业智能化升级。该芯片具有以下主要特征:1.支持基于深度学习算法的视频图像类推理应用;2525边缘计算 边缘计算 PAGE27PAGE27AIAIPAGE26PAGE26主流深度神经网络架构支持,如YoloV2,4.8TFLOPSFP16,32路并行计算应对数据处理;;5W统;【产品信息】
PCIe4.0可支持芯片间及卡间互联扩展;Tensorflow原生框架扩展,支持客户开发环境无痛迁移。【专利状态】17芯片名称功耗内存带宽上市时间深度学习计算能力工艺INT8FP16FP32IluvatarCoreXI峰值5W8GB273Gb/s2019年10月NA4.8TNAT16NVIDIA-NVIDIAJetson,NVIDIAT4TensorCoreGPUs【技术概述】NVIDIAJetson:NVIDIAJetson系统所提供的性能和能效可提高自主机器软件的运行速度,而且功耗更低。每个系统都是一个完备的模块化系统(SOM),具备CPU、GPU、PMIC、DRAM和闪存。NVIDIAJetson具备可扩展性。选择适合应用场合的SOM,构建自定义系统,满足特定的应用需求。NVIDIAT4TensorCoreGPUs:数据中心和图形技术的发展。【技术指标】NVIDIAJetson:JetsonNanoNVIDIAMaxwell128NVIDIACUDA核心。JetsonTX2NVIDIAPascal
256NVIDIACUDA核心。JetsonXavierNXNVIDIAVolta架384NVIDIACUDA核心和48JetsonAGXXavierNVIDIAVolta512NVIDIACUDA核心和64NVIDIAT4GPU:NVIDIATuringGPU架构成功将实时光线追踪、AI、模拟和光栅化技术集成于一身。【应用案例】NVIDIAJetson:NVIDIAJetson平台是NVIDIAAI边缘平台,可以覆盖不同领域、不同行业。目前比较集中应用于两个领域:自主机器和高清传感器及视频分析。其中包括小型商用机器人、无人机、智能高分辨率传感器(用于工厂物流和生产线)、光学检测、网络录像机,便携式医疗设备以及其他工业物联网(IoT)系统。NVIDIAT4GPU:T4PB快几A4【产品特征/技术特点】NVIDIAJetson:I
JetsonTX2AINX是一种外形小巧的模块,AIJetsonAGXXavierNVIDIAT4GPU:NVIDIAT4GPUNVIDIATuringTensorCore加速现代人工智能的各种应用。【专利状态】(未提供)【产品信息】芯片名称功耗内存带宽深度学习计算能力工艺INT8FP16FP32JetsonNano5W|10W4GB64-bitLPDDR425.6GB/s2019年3月0.5TFLOPSJetsonTX27.5W|15W8GB128-bitLPDDR458.4GB/s2017年3月1.3TFLOPSJetsonXavier10W|15W8GB128-bitLPDDR451.2GB/s2019年11月14|21TOPSJetsonAGX10W|15W|30W16GB256-bitLPDDR4137GB/s2018年12月32TOPS16TFLOPSJetsonAGX10W|20W8GB256-bitLPDDR485GB/s2019年19.3TOPS9.6TFLOPSNVIDIAT470w16GBGDDR6320+GB/s2018年3月130TOPS65TFLOPS8.1TFLOPS12nmT710【技术概述】T710采用8CPU构,由4ArmCortex-A7541.8GHzArmCortex-A559446图形处理器。虎贲T710包含了CPU、GPU、NPU、IP、DPAI提供了高效能、低功耗的技术基础。【技术指标】CPU:\h4xA75@2.0GHz\h4xA55@1.8GHzGPU:PowerVRGM9446@800MHzLCDQHD+(3200x1440)Camera:24M+8M/16M+16MNPU3.2TOPS@INT8800MHz网络制式:GSM/WCDMA/TDSCDMA/TDD-LTE/FDD-LTE/Wi-Fi:802.11a,b,g,n,11acBluetooth:5.0【应用案例】虎贲T710已经在智能医疗,智能零售和智能
安防多个领域内得到应用。【产品特征/技术特点】采用异构双核架构,虎贲T710的计算能效比超过2.5TOPS/W,INT4INT8,IT6,F16支持4K@30帧视频编解码,WiFi11AC和BT5.0等多种无线连接技术。【专利状态】(未提供)【产品信息】芯片名称功耗内存带宽上市时间深度学习计算能力工艺INT8FP16FP32虎贲T710<2.3WLPDDR4X186615Gbps2019年8月3.2TOPS0.5TOPS12nm220M.2【技术概述】基于寒武纪最新一代MLUv02架构,实现终端设备和边缘端设备的AI赋能。【技术指标】专门用于深度学习的SOCI/O【应用案例】可应用于智能制造、无人零售、智能交通、【产品信息】
无人机等边缘计算场景,支持视觉、语音、自然语言处理以及传统机器学习等多样化的人工智能应用,实现各种业务的边缘端智能化解决方案。【产品特征/技术特点】1.MLUv02架构,提升缓存有效容量和带宽;2.U盘大小尺寸可提供8路高清视频分析;3.计算可编程,满足多样化AI定制要求。【专利状态】(未提供)芯片名称功耗内存带宽上市时间深度学习计算能力工艺INT8FP16FP32思元220M.28.25W4GB29GB/s2019118TOPS//16nmPAGE31PAGE31PAGE32PAGE32 -昇腾310AI处理器【技术概述】昇腾AI处理器的主要架构组成:CPU(ControlCPU)AI(AICoreAICPU)区(Buffer)规格描述架构规格描述架构达芬奇性能Upto8T@FP16Upto16T@INT8媒体16ChannelDecoder–H.264/2651080P301ChannelEncoder内存LPDDR4X2*64bit@3733MT/S接口PCIe3.0/USB3.0/GE封装15mm*15mm功耗8TOPS@4W,16TOPS@8W工艺12nmFFC【应用案例】华为针对其昇腾AI芯片的计算架构专门构建了完整的软件栈,兼容各个深度学习框架并能够高效运行在昇腾AI芯片上,让开发者能够快速开发推理应用,为开发者提供便利的解决方案。当前主
流的深度学习应用,包括图像分类、人脸识别、目标检测、光学字符识别、视频处理和自然语言处理领域的各个模型,均可以在昇腾310处理器上得到很好的技术支持。【产品特征/技术特点】达芬奇架构主要由计算单元、存储系统和控制单元三部分构成。其中计算单元又分为:矩阵计算单元、向量计算单元、标量计算单元,分别对应矩阵、向量和标量三种常见的计算模式。矩阵计算单元(CubeUnit):矩阵计算单元和累加器主要完成矩阵相关运算。一拍完成一个FP1616x1616x16阵乘(4096);INT832*16(8192);向量计算单元(VectorUnit):实现向量和标量,或双向量之间的计算,功能覆盖各种基本的计算类型和许多定制的计算类型,主要包括FP16/FP32/INT32/INT8等数据类型的计算;标量计算单元(ScalarUnit):CPUAICre为Cube/Vector以及基本的算术运算。边缘计算边缘计算 AIAI【专利状态】(未提供)【产品信息】芯片名称功耗内存带宽上市时间深度学习计算能力工艺INT8FP16FP32腾310AI处理器8TOPS@4W16TOPS@8WLPDDR4X2*64bit@3733MT/S2019年16T8T12nmFFCPAGE33PAGE33PAGE34PAGE34深圳鲲云信息科技有限公司-星空x3加速卡【技术概述】X3加速卡为鲲云推出的面向边缘端和数据中心进行深度学习推断的IAIA集的架构方式,为支持深度学习的边缘和数据中心服务器提供计算加速方案。【技术指标】ResNet、VGG、YOLOCNN网络RainBuilder编译工具链,支持端到端算法开发和部署TensorFlow、Caffe、PyTorchONX(XNet)等主流深度学习框架开发的算法模型95.4%
【应用案例】工业领域:鲲云与合作方针对某电容上激光刻蚀字符推出基于深度学习的OCR案,识别算法采用了深度学习方法,可识别字母、数字以及数十种特殊字符,字符识别精度可达到9.99%。采用搭载鲲云CASA芯片的星空加速卡,识别延迟可以降低到50ms,识别速度可达到20pcs/s。电力领域:鲲云与合作方通过研究适用于电力无人机巡检的目标检测深度学习算法,实现基于人工智能技术的电力无人机智能巡检、数据采集,并在服务器端进行高质量的图片数据分析,提高巡检效率,降低巡检工作量。【产品特征/技术特点】1其宣称芯片利用率可达95.4%;时延:3ms支持分类、目标检测以及语义分割类深度学习算法;Batchsize5温度范围:-20℃~70℃6实测Benchmark:算法网络ResNet-50ResNet-152YOLOv3SSD-ResNet50U-NetIndustrial延时3.05ms8.68ms31.06ms20.8ms74.07ms吞吐率1306.93FPS460.27FPS125.75FPS182.16FPS54.01FPS芯片利用率92.32%95.43%82.37%77.06%64.97%注:Batch=4,INT8【专利状态】已申请专利110件,包括109件发明专利、1件外观设计专利;【产品信息】芯片名称功耗内存带宽上市时间深度学习计算能力工艺INT8FP16FP32星空加速卡X3峰值56WDDR4SDRAM,8GB32Gbps2020年6月10.9TOPSN/AN/A28nm小结边缘计算公司名称芯片名称功耗内存带宽上海天数智芯科技有限公司IluvatarCoreXI峰值5W8GB273Gb/sNVIDIAJetsonNano5W|10W4GB64-bitLPDDR425.6GB/sJetsonTX27.5W|15W8GB128-bitLPDDR458.4GB/sJetsonXavierNX10W|15W8GB128-bitLPDDR451.2GB/sJetsonAGXXavier10W|15W|30W16GB256-bitLPDDR4137GB/sJetsonAGXXavier10W|20W8GB256-bitLPDDR485GB/sNVIDIAT470W16GBGDDR6320+GB/s紫光展锐虎贲T710<2.3WLPDDR4X186615Gbps中科寒武纪科技股份有限公司220M.28.25W4GB29GB/s华为技术有限公司310AI器"8Tops@4W16Tops@8W"LPDDR4X2*64bit@3733MT/S深圳鲲云信息科技有限公司星空加速卡X3峰值56W两组DDR4SDRAM,8GB/DDR32GB/s上市时间深度学习计算能力工艺INT8FP16FP32FP64TF32FP64TensorCore2019年10月NA4.8TFLOPSNAT162019年3月0.5TFLOPS2017年3月1.3TFLOPS2019年11月14|21TOPS2018年12月32TOPS16TFLOPS2019年19.3TOPS9.6TFLOPS2018年3月130TOPS65TFLOPS8.1TFLOPS12nm2019年8月3.2TOPS0.5TOPS12nm2019年11月8TOPS//16nm2019年16TOPS8TFLOPS12nmFFC2020年6月10.9TOPSN/AN/A28nmCHAPTERCHAPTER4终端终端终端通用端侧产品NVIDIA-NVIDIAJetson【技术概述】NVIDIAJetson系统所提供的性能和能效可提高自主机器软件的运行速度,而且功耗更低。每个系统都是一个完备的模块化系统(SOM),具备CPU、GPU、PMIC、DRAM和闪存。NVIDIAJetson具备可扩展性。通过选择适合应用场合的SOM,即能够以此为基础构建自定义系统,满足特定的应用需求。
【技术指标】JetsonNanoNVIDIAMaxwell128NVIDIACUDA核心。JetsonTX2NVIDIAPascal256NVIDIACUDA核心。JetsonXavierNXNVIDIAVolta架384NVIDIACUDA核心和48 3939终端 终端 PAGE41PAGE41AIAIPAGE40PAGE40JetsonAGXXavierNVIDIAVolta512NVIDIACUDA核心和64【应用案例】NVIDIAJetson平台是NVIDIAAI络录像机,便携式医疗设备以及其他工业物联网(IoT)系统。【产品特征/技术特点】JetsonNano助力开发数百万个新的小型、
AI及具备全面分析功能的智能网关等场景得以应用。JetsonTX2AI供相应的速度和能效。提供丰富的标准硬件接口,AIJetsonXavierNX外形小巧,它能并行运行多个现代神经网络,处理来自多个高分辨率传感器AIJetsonAGXXavier【专利状态】(未提供)【产品信息】芯片名称功耗内存带宽上市时间深度学习计算能力工艺INT8FP16FP32JetsonNano5W|10W4GBLPDDR4LPDDR425.6GB/s2019年3月0.5TFLOPSJetsonTX27.5W|15W8GB128-bitLPDDR458.4GB/s2017年3月1.3TFLOPSJetsonXavierNX10W8GB128-bit51.2GB/s2019年14|21|15WLPDDR411月TOPSJetsonAGX10W|15W|30W16GB256-bitLPDDR4137GB/s2018年12月32TOPS16TFLOPSJetsonAGXXavier10W|20W8GB256-bitLPDDR485GB/s2019年19.3TOPS9.6TFLOPS310AI【技术概述】昇腾AI处理器的主要架构组成:CPU(ControlCPU)AI(AICoreAICPU)区(Buffer)数字视觉预处理模块(DigitalVisionPre-Processing,DVPP)等【技术指标】规格描述架构达芬奇性能Upto8T@FP16Upto16T@INT8媒体16ChannelDecoder–H.264/2651080P301ChannelEncoder内存LPDDR4X2*64bit@3733MT/S接口PCIe3.0/USB3.0/GE封装15mm*15mm功耗8TOPS@4W,16TOPS@8W工艺12nmFFC【应用案例】华为昇腾AI芯片的计算架构具有完整的软件栈,其宣称兼容各个深度学习框架并能够高效运行
AI用,为开发者提供便利的解决方案。当前主流的深光学字符识别、视频处理和自然语言处理领域的各个模型,均可以在昇腾310处理器上得到很好的技术支持。达芬奇架构主要由计算单元、存储系统和控制单元三部分构成。其中计算单元又分为:矩阵计算单元、向量计算单元、标量计算单元,分别对应矩阵、向量和标量三种常见的计算模式。矩阵计算单元(CubeUnit):矩阵计算单元和累加器主要完成矩阵相关运算。一拍完成一个FP1616x1616x16阵乘(4096);INT832x16(8192);向量计算单元(VectorUnit):实现向量和标量,或双向量之间的计算,功能覆盖各种基本的计算类型和许多定制的计算类型,主要包括FP16/FP32/INT32/INT8等数据类型的计算;标量计算单元(ScalarUnit):CPUAICre【产品信息】
为Cube/Vector提供数据地址和相关参数的计算,以及基本的算术运算。【专利状态】(未提供)芯片名称功耗内存带宽上市时间深度学习计算能力工艺INT8FP16FP32310AI处理器8TOPS@4W16TOPS@8WLPDDR4X2*64bit@3733MT/S2019年16T8T12nmFFC终端 4.1.3终端 4.1.3PAGE43PAGE43AIAIPAGE44PAGE44RK1808AIoT芯片方案【技术概述】RK1808芯片采用22FDX工艺,内嵌64Cortex-A35CPU和在人工智能应用场景下深度学习大量使用的神经网络运算加速引擎(NPU),实现运算力的同时满足端侧产品的功耗需求,达到功耗、成本、性能的有效平衡。其宣称具有高性能的神经网络运算单元的SoC架构设计;多形态灵活可扩展等特性。【技术指标】Cortex-A35,1.6GHzNPUINT8/INT16/FP16NPU算力:3TOPSforINT8/300GOPSforINT16/100GFLOPSforFP16;支持RKNN/OpenCL/OpenVX编程接口;支持TensorFlow、Caffe、ONNX、Darknet内存支持800MHz32-bitLPDDR2/LPDDR3/DDR3/DDR3L/DDR4;
支持SerialSPINOR/NANDFlash,EMMC;7.视频支持1080p@60FPSH.264解码,1080p@30FPSH.264ISP2MPixelAE/AWB/AF;视频输入4-lane,MIPI-CSI/MIPI-DSI,支持VirtualChannel,支持BT.601/BT.656/BT.1120;4-lane,MIPI-DSI,1920*1080;8-bitParallelRGBpanel,1280*720;USB3.0/PCIe2.1&8-chI2S&8-chPDM,VAD8xUART/3xSPI/6xI2C/11xPWM/4xSARADC等丰富低速外设接口;【应用案例】ToybrickM1808AIADAS/DSM设备;动作识别智能摄像头;【产品特征/技术特点】RK1808芯片支持目标图像识别、视觉处理、语音识别、语义分析等人工智能应用,设计乘加运算(MAC)架构及高效的调度单元,能满足目前大部分算法和应用对较高神经网络推理算力和效率的【产品信息】
需求,可以发挥硬件运算单元的能力,在单位时钟周期内尽可能让更多的运算单元处于工作状态,同时兼容考虑各种不同算法或模型的情况。该项目设计的人工智能硬件加速引擎,可以达到理论上单芯片3.0TOPS的运算能力。【专利状态】(未提供)芯片名称功耗内存带宽上市时间深度学习计算能力工艺INT8INT16FP16RK18083WLPDDR2/LPDDR3DDR3/DDR3L/DDR46.4GBytes/s2019年6月3TOPS300GOPS100GFLOPS22nm终端 终端 PAGE45PAGE45AIAIPAGE46PAGE46瑞芯微电子股份有限公司-RK3399Pro【技术概述】RK3399ProCPUbig.LITTLECortex-A72+Cortex-A53,在GPUARM新一代高端图像处理器Mali-T860,集成更多带宽压缩技术,整体性能优异,适合于电子白板、电子书包,人脸识别设备、无人机、机器人、游戏终端、游戏外设类、手游挂机服务器、家/POS瘦客户机(云端服务)、VOPOK/监控/警务、工控类、IoT物联网领域、VR录像、VR等近百行业应用产品。【技术指标】Cortex-A72+Cortex-A53大小CPU1.8GHz;GPU为四核Mali-T860,支持OpenGLES1.1/2.0/3.0/3.1OpenVG1.1,OpenCL,DX11;AFBC(帧缓冲压缩);NPUINT8/INT16/FP16NPU算力:3TOPSforINT8/300GOPSforINT16/100GFLOPSforFP16;内存支持双通道DDR3-1866/DDR3L-1866/LPDDR3-1866/LPDDR4;支持eMMC5.1,SDIO3.0;支持4KVP9and4K10bitsH265/H264,60fps;P,1/2/4VP8);8P8视频后期处理器:反交错、去噪、边缘/色彩优化;VOP显示:分辨率分别支持4096x21602560x1600;MIPI-DSI(4);显示支持:eDP1.3(4线,10.8Gbps);HDMI2.04K60HzHDCP1.4/2.2DisplayPort1.244K60HzRec.2020Rec.709色域转换;接口支持双ISP像素处理能力13MPix/s,支持双路摄像头数据同时输入;支持SB.0Type-CPCIe2.14full-duplexlanesMCU;8路数字麦克风阵列输入;【应用案例】RK3399Pro平台联合黑芝麻提供ADAS/DSM3399ProAI6AIADASDSM【产品特征/技术特点】R399ro应用特性,技术特点体现在多显示接口、GPU音视频解码、人工智能以及与用于多终端互联、人机交互上。【专利状态】(未提供)【产品信息】芯片名称功耗内存带宽上市时间深度学习计算能力工艺INT8INT16FP16双通道DDR3-1866/RK3399Pro10WDDR3L-1866/14.9GBytes/s201813T0.3T0.1T28nmLPDDR3-1866/LPDDR4上海天数智芯半导体有限公司IluvatarCoreXI【技术概述】IluvatarCoreXI芯片是聚焦于边缘应用的高精度深度学习推理人工智能芯片,针对市CNN网络模型算法进行了优化,可以有效减少存储单元延迟,增加运算并行度,最终大幅提高边缘端人工智能应用的实际性能。【技术指标】CNN等卷积类矩阵运算,可应用于图像识别与部分语音识别人工智能应用场景。在W48TFOSAIIO8GB的本地存储容量,并已适配包括ARM、X86CPU。【应用案例】智慧新零售、基于人脸识别的智慧园区、智能
垃圾分类、智慧医疗等基于视频与图像识别的应用场景。【产品特征/技术特点】IluvatarCoreXI芯片是基于数据流的深度神CNN网络模型的边缘侧人工智能推理,具有高精度、高性能垃圾分类等多个行业及领域的应用,助力产业智能化升级。该芯片具有以下主要特征:1.支持基于深度学习算法的视频图像类推理应用;主流深度神经网络架构支持,如YoloV2,4.8TFLOPSFP16运算能力,32路并行计算应对海量数据处理;5W统;PCIe4.0
Tensorflow原生框架扩展,支持客户开发环境无痛迁移。【专利状态】17可支持芯片间及卡间互联扩展;【产品信息】芯片名称功耗内存带宽上市时间深度学习计算能力工艺INT8FP16FP32IluvatarCoreXI峰值5W8GB273Gb/s201910月NA4.8TNAT16智能驾驶赛灵思-ZU7EV(ZynqUltraScale+MPSoC)基于这两款芯片,赛灵思现可提供:从支持边缘传感器的小型器件到用于集中式域控制器的新型高性能器件,通过全方位的产品线,满足汽车对安全、质量和可靠性的各种要求。【技术指标】制造工艺,在单个器件中高度集成卡 )视、波形与数据包处系列更可以广泛用于各种端侧应,包括【技术概述】赛灵思推出的两款车规级芯片(X)ynqUltraScale+ MPSoC7EV和11EG,可提供优异的可编程能力、性能和I/O功能,面向L2+到L4的高级驾驶员辅助系统(ADAS)应用和自动驾驶(AD)应用提供高速数据汇总、预处理和分配(DAPD)功能以及计算加速功能。
/在S+前视摄像头前视摄像头GEN3:Zynq®UltraScale+™MPSoC4M像素保护范围更大:例如对行人和骑车人的保护汽车便捷性控制:例如塞车小帮手Xilinx价值:异构处理器紧密耦合的应用软件及自定义硬件加速器FuSa3D
GEN3Zynq®UltraScale+™障碍物探测显示:全高清及以上摄像头:4ch+2MPixel特性:3D周围环境视图(飞速摄像头)高分辨率图形动画高级拖车挂接装置传感器融合机器视觉目标检测,可为低速行驶实现车辆控制和自动紧急(AEB)FuSa标准结合VITISAD/ADAS场景下各类神经网络模型加速。Zynq®UltraScale+TMMPSoCDPU性能DevicePeakTOPSTypicalPower(Watt)XA(functionalsafetyqualified)HardenedvideocodecZU20.55YZU30.96YZU41.27YYZU51.47.5YYZU62.710ZU72.710YYZU94.112ZU114.316YZU155.4/【应用案例】ACU自主泊车专用车载计算平台ZynqUltraScale+MPSoC正在为百度量产型自主泊车(AutomatedValetACU-Advanced(ApolloComputingUnit提供强大动力。ACU-AdvancedAVPACU-AdvancedZynqUltraScale+EV平台强AI(proof-of-concepts,POC)GPU。而且,该平台与百度深度学习平台框架百度飞浆(aiuadleadle)512个超声波雷达,支持零下40度至零上85度的工作温度范围,可以完全满足严苛的车规量产要求。1Zynq®UltraScale+MPSoC的百度量产型自主泊车专用ACU-Advanced2Zynq®UltraScale+MPSoCACU-Advanced也是业界首款基于赛灵思ZynqUltraScaleMPSoC5EV器件而量产的AVP专用车载计算平台。MBUX车载系统MBUX车载系统(interiorassistant)手势以及车内偏好等,让车辆可以预测驾驶员和乘功能,用户晚上想看车内情况,MBUXInteriorassistnt手臂就可自动打开或者关闭灯光来响应。MBUX
车载系统还包含一个带触摸屏操作、增强现实技术导航显示、智能语音控制等功能的高分辨率宽屏驾驶舱。车内驾驶员及乘客监控系统在依靠AI推断的同时受功耗限制,需要节能解决方案,特别是在受到不良热环境限制时。同时,系统还需要低时延来提供对使用者手势的快速响应。赛灵思车规级Zynq®UltraScale+MPSoC是人工智能加速的理想平台,可提供更高的灵活性,满足定制车内体验的需求。MBUX车内助手功能:基于人工智能的手势输入系统,由ZynqUltraScale+MPSoC提供支持AI来减少时延识别乘客的自然动作,以便汽车预测司机和乘客的请求区分司机和乘客的手势对肢体语言做出反应,使舒适功能自动化/技术特点】XAZynq®UltraScaleMPSoC提供了高度IO聚合、预处理和分发(DAPD)L2L4应用的计算加速。XAZynq®UltraScaleMPSoC产品列表:可编辑逻辑(PL)ZU5EVZU7EVZU11EG系统逻辑单元256504653内存(Mb)23.138.043.6DSPSlice1,2481,7282,928视频代码单元(VCU)11最大I/O引脚252204464处理系统(PS)特性所有器件应用处理单元CoreSightARMCortex-A53MPCore;NEON/32KB/32KBL1Cache1MBL2Cache实时处理单元CoreSightARMCortex-R5/双高精度浮点;32KB/32KBL1CacheTCM嵌入式和外部256KB片上内存w/ECC;外部DDR4;DDR3;DDR3L;LPDDR4;LPDDR3;外部Quad-SPI;NAND;eMMC通用连接214PSI/O;UART;CANUSB2.0I2C;SPI;32bGPIO;WatchDog计时器;三态计时器高速连接功能4PS-GTR;PCIeGen1/2;SerialATA3.1;DisplayPort1.2a;USB3.0;SGMII图像处理单元ARMMali -400MP2;64KBL2Cache应用处理单元CoreSightARMCortex-A53MPCore;NEON/32KB/32KBL1Cache1MBL2Cache【专利状态】(未提供)【产品信息】芯片名称功耗内存带宽上市时间深度学习计算能力工艺INT8FP16FP3216nmUltraScaleZU7EV10//2019.11///ZU11EG16//2019.11///.2NVIDIA-NVIDIADRIVE【技术概述】DRIVEAGXPegasusDRIVEAGXXavierNVIDIADRIVE自动驾驶运算硬件平台,由自动驾驶处理芯片XavierXavier拥有超过90亿个晶体管,可以处理海量数据。XavierSOCAI【技术指标】XvirPVA(可编程视觉加速器)、DLA(深度学习加速器)、CUDAGPUCPU,4030DIVEX210应用于先进的生产车型中。【应用案例】Xvier【产品信息】
的应用程序,NVIDIA也一直致力于实现安全的自动驾驶。【产品特征/技术特点】DRIVEAGXPegasusXavierTensorCoreGPU(320TOPS)AIDRIVEAGXXavier30TOPS的性能,30XavierSoC【专利状态】(未提供)运算平台名称功耗内存带宽上市时间深度学习计算能力工艺INT8FP16FP32DRIVEAGXPegasus300WLPDDR4+GDDR61TB/s2018年11月320TOPS12nmDRIVEAGXXavier30W16GB256-bitLPDDR4137GB/s2018年11月30TOPS12nm安防、机器人、车载-面向计算机视觉的深度学习神经网络处理器【技术概述】(以下简称DeepEye1000)是一款面向视觉的,自主可编程,用于深度学习神经网络推理加速的,高性能异构SoC处理器芯片。【技术指标】云天励飞自主产权神经网络处理器(NNP)ASIP深度定制指令集,支持灵活可编通过计算存储深度融合,配合智能算子引擎、动态任务调度、高效存储调度,可以大幅减少外部存储访问带宽,可以高效执行各种深度算法的推理计算,实现高性能、低功耗的CNN网络模型
推理计算加速;采用阿里平头哥玄铁处理器(CPU)负责整个SoC系统的任务调度和分配;视觉数字信号处理器(DSP)OpenCVH.265/H.264/MJPEG等多种格式的视频及图片解码功能;DeepEye1000支持丰富的外设接口,包括USB3.0/USB2.0、SDIO、UART、I2C等;为了方便DeepEye1000DeepEye1000TVM打造的芯片工具链和软件开发包(SDK)Caffe,MxNET,TensorFlow,ONNX支持一键部署;【应用案例】1.DeepEye1000智能视觉后置协处理解决方案图1DeepEye1000智能视觉协处理解决方案说明:DeepEye1000AIMIPI,BT1120,USB3.0AIUSBSPI4K@30fpsYUV、RGBRAW2.DeepEye1000AI图2DeepEye1000智能视觉前置AI相机解决方案说明:DeepEye1000通过MIPICSI或BT1120成像视频流进行视觉AIAIUSB、UARTDeepEye1000通过MIPICSI3DRGB3D3DDAIUSB、UARTSPIDeepEye1000感器端完成实时的视觉IP几乎没有要求,可以搭载到任意主控AP,极大的丰富了方案的灵活度;芯片集成基于2D/D生物识别算法,能被广泛用于人脸支付、商业零售、人脸门禁、智慧医疗、商业零售、AI芯片开发的工具链支持其他计算机视觉CNN智慧物流等领域。3.人脸识别模组方案图3人脸识别模组方案
说明:(1)支持200万像素、1920×1080视频分辨率单场景可支持40+人脸抓拍、20脸的本地特征提取和识别5大于99%(5)支持远程人脸库管理功能4.PCI-E4PCI-E说明:内置“云天初芯”芯片,支持16DeepEye1000SDK,适用于智能工业检测,边缘计算视频结构化加速等场景。5.边缘计算协处理方案度学习框架;Invasivenon-InvasiveDebug支持处理器级联扩展、支持协处理器扩图5边缘计算协处理方案说明:支持多人像的动态抓拍、VP数统计、支持人脸、年龄、性别、人眼关注度等属SDK,易于集成开发。客流分析等。【产品特征/技术特点】1.处理器内核32位超高性能嵌入式C810CPU玄铁处理器;16/32RISCL1I/D32KByte,L2128KByte,主频1.2GHz;2.5DMIPS/MHz;(5)支持大端和小端模式;(6)内部硬件调试模块支持片上硬件调试;(7)支持多电压、多时钟管理的低功耗技术;2.神经网络处理器(1)内含自研四核NNP神经网络处理器,主频最高800Mhz;(2)自定义神经网络处理器指令集和架构;INT16/INT12/INT8CNN算法所需的指令集;weightfeaturemap压缩;支持caffe/tensorflow/mxnet
展;时钟门控、电源门控、多电压、MVT等典型低功耗技术;3.DSP处理器(1)VisionProcessorDSP,主频最600Mhz;(2)32KBI-Cache/64KBITCM/256KBDTCM;(3)支持OpenCV、OpenVX;4.视频编解码H.264、H.265JTAGx16K分辨率8Kx8K5.视频输入接口支持I2X4e4KP30;BT1120视频输入接口,性能为1080P60;SDIO3.0USBWIFI支持USB转EMAC6.存储单元DDR4/DDR3/DDR3L/LPDDR32677Mbps;支持SPI_NOR/SPI_NAND/EMMC/SD7.外设接口USB3.0/2.0Host/Device支持UART/GPIO/SPI/I2C等通用的低速接口;8.其它说明Temp_sensor,支持功耗动态管理;SPI_NorFlash/SPI_NandFlashSD/EMMC/USB/Boot(3)支持版本在线升级。【专利状态】公司芯片专项发明专利近200件,并获得2019年度深圳市专利奖。【产品信息】芯片名称功耗内存带宽上市时间深度学习计算能力工艺INT8FP16FP32DeepEye1000云天初芯典型功耗2W支持最大4GB8GBps2019年9月支持支持不支持22nmT710【技术概述】T710采用8CPU构,由4ArmCortex-A7541.8GHzArmCortex-A559446图形处理器。虎贲T710包含了CPU、GPU、NPU、IP、DPAI提供了高效能、低功耗的技术基础。【技术指标】CPU:\h4xA75@2.0GHz\h4xA55@1.8GHzGPU:PowerVRGM944
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 店铺人气管理方案
- 避雷系统设计与施工一体化合同
- 汽车服务考试题及答案
- 公司定制酒店装修方案
- 运输客服考试题及答案
- 别墅大梁装修处理方案
- 蔬菜培训考试题及答案
- 车辆租赁违约赔偿诉讼证据与鉴定合同
- 中班健康我长大了
- 庭院老井改造方案
- 高中数学集合练习题160题-包含所有题型-附答案
- 《骆驼祥子》名著阅读课件
- 能源行业能源管理体系建设方案
- 《学科教学与德育及心理健康教育有机融合的研究》课题结题报告
- 中考英语高频词汇大纲表(人教版)
- SMP-04-013-00 药品受托企业审计评估管理规程
- 基本流行病统计分析方法及统计分析软件的应用(与“检验”有关的文档共102张)
- 道路顶管穿越施工方案
- HYT 057-2011 海洋管理机关档案业务规范(正式版)
- DB-T 29-315-2024 天津市城市轨道交通工程施工质量验收资料管理规程-第七册
- (消毒供应中心)提高外来器械返洗率PDCA
评论
0/150
提交评论