超越超级计算机解析NVIDIATegraX1_第1页
超越超级计算机解析NVIDIATegraX1_第2页
超越超级计算机解析NVIDIATegraX1_第3页
超越超级计算机解析NVIDIATegraX1_第4页
超越超级计算机解析NVIDIATegraX1_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、超越超级计算机解析nvidia tegra xi去年那则nvidia要退出手机市场的消息广泛 传播,让大家觉得nvidia可能真的要放弃移动芯片市 场了,而之后nvidia ceo黄仁勋在接受采访时又表示, nvidia并不是要完全退出移动设备市场,而是希望在 平板、车载电脑、游戏机顶盒市场上有所作为,这也 为后面埋下了伏笔。nvidia已经连续几年在每年开头的ces上发布新 一代的tegra移动处理器了,所以今年黄仁勋再次亲 自登台发布tegra xi,大家并不觉得意外。虽然前两 代作品并不算特别成功,但是作为一款宣称性能达到 tfiops级别,媲美15年前超级电脑的移动处理器, tegra

2、 xi还是成功的吸引了大家地关注。全新旗舰级移动处理器tegra xi配备了八核64位 cpu以及256核maxwell gpu, cpu设计部分和高通 骁龙810以及三星exynos7系列相似,256核gpu光 看数量就已经堪比入门级桌面独显了,而跑分自然也 碾压了上代产品k1和苹果a8x。那么tegra xi究竟为 何如此强悍,又是否真的具备其所说的那样达到超级 计算机的技能能力呢?下面我们来一一解析。cpu:放弃自主构架用公版tegra xi采用了 arm的标准cortex架构,而没有 采用大家想象中的tegra k1的denver架构增强版。无 独有偶,竞争对手高通这次也放弃了之前为之

3、骄傲的 krait架构,同样也选用了 arm的标准cortex架构。作为基于arm标准cortex深度定制的版本,英伟达 和高通为denver和krait架构付出了相当多心血,在 这个时候放弃自主架构,很容易让人想到是为了降低 研发周期尽早上市。而且tegra xi和骁龙810在处理 器核心上的选择也惊人的相似,均搭载了四颗 cortex-a57性能核心和四颗cortex-a53低功耗核心。具体来看,丁683%1众57核心采用了21/18共享二 级缓存,每个核心还有48kb 一级指令缓存和32kb 级数据缓存,a53核心共享512kb二级缓存,同时每 个核心有32kb 一级指令缓存和32kb

4、一级数据缓存。nvidia吸取了之前在tegra3上就开始应用的4-plus-1 设计经验,tegra xi能够实现比其他同样采用a57/a53 cpu的soc方案具有更高的能耗比,同时该系统采用 缓存一致性解决方案,不会像类似方案那样损失功耗 和性能。虽然从处理核心的角度来看,tegra xi和骁龙810 的差距不大,不过其实两者还是有很多区别的,各种 优化方案和电源管理的加入,使得两者最终的表现可 能会大相径庭。另外,tegra xi和骑龙810也都使用了 20nm工艺 制程,核心面积得以缩小并且功耗得到了更好的控制。 nvidia目前尚未公布tegra xi的主频,从曝光的跑分 测试来看

5、,其主频可能为1.9ghz-2.0ghz,而高通骁龙 810的最高主频可以达到2.7ghz。nvidia宣称,tegra xi在同等的cpu性能下和同级别soc相比能够提供几 乎2倍能耗比,在同等能耗比下则能提供后者1.4倍 的cpu性能。如果这真能实现,还是非常恐怖的。gpu: maxwell架构加持ltfiops fp16浮点性能除了处理器内核中看不到的区别之外,nvidia tegra xi和高通骁龙810最大的区别就在于两者搭载 的gpu 了。作为一家从gpu起家的公司,nvidia无 论在桌面还是移动市场都对gpu有着非常高的重视程 度。nvidia花了两年的时间将kepler微架构

6、应用在了 移动处理器k1上,而如今maxwell微架构从推出到登 陆移动处理器上只花了一年的时间,另外,tegra xi 采用的是第二代maxwell架构,它在桌面上推出到xi 推出也才经过了一个季度而已,进步速度可以说相当 明显。相比于配备192个渲染核心的tegra kl,tegra xi的gpu配备了多达256个maxwell架构渲染核心。256 个cuda核心在maxwell架构中正好是2组smm单元, 而tegra k1所用的192个cuda核心在kepler架构中 是1组smx单元,所以虽然cuda核心数提升并不多, 但2组smm单元对1组smx单元,纹理单元、rop 单元也都大大

7、增强了,均有16个,尤其后者翻了两番, 性能依旧得到了大幅提升。新架构的许多新图形特性包括更高效的cuda核 心、更优秀的smm阵列、第三代delta色彩压缩、保 守光栅化算法、体积区块资源(dx11.2)、多帧抗锯齿 (mfaa)等也被带到了 tegra xi上。值得一提的是,和开普勒一样,麦克斯韦架构也 只有专门的单精度fp32、双精度fp64cuda核心,并 没有给fp16分配独立资源。在半精度fp16的支持上, nvidia 称之为“双倍速 fp16” (double speed fp16)。 tegra k1 fp16操作会被给予和fp32相同的待遇,每一 个都交给fp32 cuda

8、核心处理。tegra xi上如果条件 允许,则会将两个fp16合并成一个vec2,交给单独 一个fp32 cuda核心去处理,同时要保证这两个fp16 操作属于同一类型,比如都是加法或者乘法。所以说, nvidia宣称的原生支持fp16并不完全准确,相对竞 争对手来说还是会差一些。arm mali、imaginationpowervr都有独立的fp16单元,amd gcn 1.2版也会 引入。fp16在android显示合成里使用非常频繁,游 戏里也大量使用,同时它还能参与图形计算,如图像 识别,在nvidia drive px车载平台里就需要用到它。回过头来看竞争对手的骁龙810,其则配备了

9、 288 个渲染核心的adreno 430 gpu。虽然数量比tegra xi 还要多,但是主频只有600mhz。tegra xi的gpu主 频虽未公布,但是按照nvidia宣称的ltflops fp16浮 点性能,那么应该是1ghz以上(1ghzx2fp16x2fma x256=ltflops),这样的话tegra xi的gpu性能超过 骑龙810应该是没有什么悬念。从现有曝光的测试来看,basemarkx测试中,tegra xi的成绩为56.9fps, 苹果 a8x 为 40.2fps,而 tegra k1 则是 36.3fpso3dmark 1.2版unlimited模式中,tegra

10、xi的成绩为58448,苹 果 a8x 为 31781,而 tegra k1 则是 36688ogfxbench 3.0 manhattan 1080p (offscreen)测试中,tegra xi 的成 绩为 63.6fps,苹果 a8x 为 32.6fps,而 tegra k1 则是 31.7fps。tegra xi成功地碾压了苹果a8x和前作k1, 另外在功耗上的表现依旧非常优秀,tegra xi的gpu 部分功耗大约只有1.51w的样子,而苹果a8x的gpu 部分功耗则达到了 2.67w。不过值得我们注意的是,从现在nvidia的意思来看,tegra xi主要的应用领域是在车载电脑领

11、域,凭 借强大的cpu和gpu性能,tegra xi不仅能够在汽车 行驶过程中计算距离,而且还能同时处理来自多达六 个摄像头的视频信号。但是如此强大的性能,进入平 板市场应该也是迟早的事情,但是在这些领域,tegra xi可能不得不为了节省电量和出于散热考虑而降低 频率,另外还需要考虑到gpu对游戏数据包的兼容性 问题,因此实际的体验或许并不会和测试一样比目前 市面上的高端处理器优秀太多。其他性能同样优秀除了强大的处理器性能之外,作为一颗移动处理 器,多媒体性能、通信功能和其他功能也是非常重要的。nvidia tegra xi 支持 60fps 4k 视频通过 hdmi 2.0 接口输出,同时

12、还支持h.265/h.264编解码,peg图片的压缩和解压缩速度也得到了大幅提高。此外, tegra xi 还支持 emmc 5.1、蓝牙、wi-fi、nfc、gps 以及搭配2g/3g/4g通信基带。相对来说,骁龙810 在这方面的表现稍差,只支持emmc 5.0,只能通过 hdmi 1.4输出或编辑4k/30fps的视频,但是骁龙810 整合了支持lte cat. 9网络的基带,最高数据下载速度 可达450mbps,让其在手机领域能有更加出色的表现。 内存带宽作为限制移动soc性能的瓶颈一直是各大芯片厂商需要想办法解决的部分。传统的解决方案 是增加位宽,但这个解决方案会大大提高复杂度和实

13、现成本。tegraxl已经使用64-bit位宽,但是在内存 压缩上大做文章,采用了第三代delta色彩压缩和新 的端到端压缩技术,再辅以频率可达1600mhz的 lpddr4内存,峰值带宽可达25.6gb/s,内存带宽问题 得到了很好的解决。超过超级计算机,还只是期望nvidia宣称tegra xi的性能超过了 15年前最快 的超级计算机asci red,那么这是真的吗?较真是一 件很有趣的事,下面我们一起来看看。asci red在美国能源部桑迪亚国家实验室服役了 十年之久,是全球第一台每秒能够达到万亿次浮点运 算的超级计算机系统,asci red的占地面积超过了 150?0,功率高达500k

14、w,且为其所占空间散热还需 再消耗500kw的电能,而tegra xi只有拇指指甲大小, 功耗不到15w。如此大的差异在让人感叹科技进步的 同时,不得不问,这是真的吗?这其实只是ceo老黄的一个文字游戏而已,通过 tegra xi的16位浮点性能和asci red的64位浮点性 能进行比较而得出的,也就是说xi的fp16性能接近 了 asci red的fp64性能。目前16位浮点运算虽然能够满足某些图像应用程序的需要,但是对于高性能计 算应用却还差得很远,所以fp16对比fp64并没有太 大的可比性,由于maxwell架构并不是为超级计算机 设计,而64位浮点计算速率只相当于32位浮点计算 速

15、率的1/32左右,因此tegra xi中的256个渲染核心 在32位浮点下能够实现512gfiops浮点运算能力的话, 那么在64位浮点计算下其速度仅为16gflops浮点运 算能力而已,距离asci red的tflops级别还太远太远。 但在16位浮点计算下能够达到ltfiops的计算速度还 是足以证明了 tegra xi拥有强大的性能,只是取代超 级计算机还只是一个遥远的期望而已。进军智能汽车市场借助强大的性能,nvidia在ces2015上推出了两 套基于tegra xi的车载平台:“drive cx”和“drive px”。 drive cx是一套全数字化的汽车计算套装,硬件上依 &#

16、171; tegra xi,软件则是“drive studio”,可以实现车载 娱乐、导航等全套功能,整个驾驶界面也是硬件渲染 3d的,一个完整的解决方案。drive px则是一个自动驾驶开发平台,使用了两 颗tegra xi,支持最多12路摄像头输入,浮点性能2.3 万亿次。nvidia宣称该系统会调动cpu、gpu、vpe、 isp等几乎所有处理模块,并使用了 gpu运行的神经网络技术,可实时处理路况信息,包括其他车辆、信 号灯、路标、道路标志、监控摄像头等等,甚至部分 行人。另外还拥有基于“surround vision” (环绕立体 视觉)的自动泊车,会根据摄像头数据,生成停车场 环境模拟,寻找停车路径,自动放好。好技术不愁没人赏识,奥迪已经表示将引入 “drive cx”和“drive px”以帮助自己实现驾驶室数 字化和自动驾驶。而基于该系统的renovo co

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论