处理器有多少个内核更好_第1页
处理器有多少个内核更好_第2页
处理器有多少个内核更好_第3页
处理器有多少个内核更好_第4页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

处理器有多少个内核更好?在一般人的眼中,多核性能肯定比单核强,处理器核心越多越好,但果真如此吗?许多人认为CPU内核越多越好。然而,情况并非总是如此。这就是为什么更多内核并非在所有情况下都是好的选择,这不仅仅是因为在芯片上放置更多内核的问题,还因为性能原因。处理器有多少个内核更好?许多人的想法是,内核越多越好。然而,它并不总是那样。例如,有些软件并不足以利用所有内核,因此考虑更多内核是荒谬的,而且在许多视频游戏中都会出现这种情况,其中单核性能优于多核。像这样的情况还有很多。至于HPC领域,Top500数据似乎证明了更多CPU核心更好的错误想法。但是如果你和这个领域,比如联想HPC部门的、欧洲Atos的、HPE的,或者IBM的专家交谈你就会发现,情况并不总是这样。事实上,如果您询问他们,他们会告诉您,他们的许多客户都在寻求更高的带宽、更快的I/O和更高的时钟速率。那么为什么像AMD、Intel、Ampere、Annapurna、IBM、Fujitsu等公司不断制造具有越来越多CPU内核的单元?这些提供商在寻找HPC客户之前,需要考虑到计算能力,这越来越需要高性能的GPGPU,而且他们还考虑到云提供商的业务,它们是超大规模企业,需要寻找更多核心。这些云业务寻求更多的核心,因为这意味着每个节点有更多的客户端。在VPS(虚拟专用服务器)服务器的情况下可以很好地看到这一点,其中那些物理内核变成vCPU以交付给平台客户端。这就是核心数量不断增加的原因。但是,这并不是说在HPC中内核不重要,它们很重要。核心数越多,超级计算机支持的工作量就越大。此外,机器将具有更高的处理或计算能力(FLOPS),这意味着更高的性能。然而,对于HPC,带宽也很重要。带宽的重要性许多HPC客户更关心内存带宽而不是CPU核心数量,但这并不意味着他们忽略了其他问题。但是,对于使用这些机器的任务或应用程序,最好具有良好的带宽和更高的I/O敏捷性。事实上,EPYC和Xeon等也经过优化以提供此功能。例如,我们一直在说DDR4和DDR5之间的差异对用户来说并不重要,没有那么多的性能提升,而且DDR5更贵。然而,对于HPC,DDR5提供了一个很好的机会,与DDR4相比,带宽增加了大约50%。一方面,在为某些软件或操作系统许可证付费时,更多的内核可能是一个劣势,因为它们是根据内核或插槽的数量收费的。当我们谈论像SUSELinux或RedHat这样的操作系统时,也会发生类似的情况,因为如果您需要技术服务,您还必须根据机器的内核付费。换句话说,更多的核心也将意味着更多的软件方面的支出。对于HPC处理器,许多人选择使用高带宽或HBM内存,以及CPU内核来提高带宽。比如IntelXeonMax“SapphireRapids”就是这样,它在CPU周围有HBM2E内存芯片,可以实现64GB/s的内存带宽。当然,必须考虑到数据在这个HBM和伴随它的DDR之间的移动,扩展HBM的容量限制,将在很大程度上取决于芯片的固件和ISV(Independent软件供应商)。另一方面,虽然AMD也一直在寻求HBM,但他们选择在他们的EPYC(霄龙)中添加更多的内存通道以获得带宽,尽管这有一些缺点,例如需要占用主板空间和稍高的延迟。此外,使用像Genoa这样的12通道在带宽方面不会接近XeonMax,但这是另一种有趣的方法。正是这让他们可以使用普通的DDR5,而不依赖于ISV,这可能是一个主要障碍。例如,对于研究天气、空气动力学、流体等的流体动力学或CFD等工作负载来说,这是必不可少的,因为它们是带宽敏感的应用程序,在处理过程中必须使用内存中的大量数据。因此,在这些情况下增加带宽会带来显著的改进。此外,由于CPU-RAM带宽问题,许多客户选择使用GPGPU而不是CPU来处理某些工作负载,但这可能会随着HBM集成到CPU中而改变。平衡您肯定听说过很多有关服务器和HPC方面的负载平衡的信息。这意味着以平衡和高效的方式在不同处理器之间分配必须处理的任务的方式。为此,在平衡处理核心方面,拥有更多带宽具有优势。因此,我们在行业中看到更多的HBM,尤其是在AI工作负载方面,也就不足为奇了。此外,Ampere、FujitsuA64FX等一些CPU也选择了HBM。此外,AMD在其X系列EPYC中也做了一些有趣的事情。虽然它没有在单独的芯片上使用HBM,但它在其处理芯片之上使用了高速、高带宽的SRAM内存芯片来支持L3缓存,也就是3DV-Cache。这些3D封装显示出巨大的优势,因为这种存储器的延迟低于RAM,并且直接通过TSV链接。因此,它不会像其他情况那样依赖于主RAM内存的延迟和带宽。事实上,AMD在其Milan-X中证明,由于其卓越的L3,它可以增加工作负载,从而提高需要高带宽的密集型工作负载的性能。例如,使用SynopsysVCS进行的测试显示出66.4%的改进。然而,这些类型的封装具有较高的性价比,因此并非都是优势。因此,HBM似乎有望在工作负载(例如CFD等)方面提供更大的灵活性和收益。这意味着也许将来我们会看到更多带有HBM的单元。尽管我们将看看最终是否可以将这两种技术混合起来作为解决方案,即使用3D封装将HBM堆叠在计算单元上。更高的频率与更多的CPU内核正如可以验证的那样,CPU基本时钟频率在过去十年中一直停滞不前。目前,我们的CPU在大多数情况下的时钟频率在2到3Ghz之间,但有一些例外情况可能会超过这些数字,而且我们不是在谈论Turbo模式。但这不仅与制造技术有关,还与CPU核心数量的扩展有关。您在单个硅芯片上封装的内核越多,您可以使用的功率就越少,因此需要管理时钟速度。如果找不到解决方案,3D封装甚至可能会恶化这种情况,因为我们已经看到,3D封装也需要通过将芯片堆叠在一起来降低功耗。APU领域GPU也已成为提高性能的关键部分,因为这些单元可以比CPU更快、更高效地处理某些工作负载,因为它们的内核数量更多。这就是为什么它们近年来被用作某些工作负载的加速器。在服务器和HPC领域,GPU已经扮演了非常重要的角色,因此,只需看看几年前的Top500榜单和现在的榜单。因此,AMD想在其Fusion中看到未来,将CPU和GPU结合起来也就不足为奇了。然而,这些APU已经出现在低功耗台式机或笔记本电脑中,但并未在其他领域占据主导地位,例如HPC。但这种情况也在改变。就是这样,最近AMD展示了其新产品InstinctMI300。它不是传统的图形卡,不像我们过去看到的用于加速HPC和AI的其他Instincts。在这种情况下,它是一个APU(加速处理单元)。这个单元结合了Zen4内核和GPU内核。InstinctMI300是用于数据中心的CPU+GPU混合体。它采用1460亿个晶体管,采用小芯片设计和3D封装。它使用两种制造工艺,一些是6nm芯片,另一些是5nm,都是使用台积电的工艺。里面有:24个Zen4CPU核心(它不会取代CPU,事实上,它将与AMDEPYC4thGenGenoa一起出现在主板上)。具有CDNA3架构的GPU。HBM3芯片,内存为128GB,总线宽度为8192位。与InstinctMI250相比,这可以将AI工作负载加速8倍,并提供高达5倍的每瓦特TFLOPS性能。就其本身而言,英特尔已经对其名为FalconShores的CPU-GPU架构做了类似的事情。这将具有Xe图形,这是PonteVecchioGPU和即将推出的RialtoBridge的核心。此外,它还将包括CPU内核和HBM3内存池。而不是像AMD那样的APU,Intel一直想称它为XPU。与此同时,英伟达也做了类似的事情,尽管它看起来更像AMDInstinctMI300而不是英特尔的FalconShores。这是Grace-Hopper,它包括一个带有512GBLPDDR5X内存的GraceCPU裸片(基于ARM),以及一个带有80GBHBM并通过NVLink互连的HopperGPU裸片。然而,这些新型混合动力驱动器也对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论