AI规模化落地 英特尔至强的七重助力_第1页
AI规模化落地 英特尔至强的七重助力_第2页
AI规模化落地 英特尔至强的七重助力_第3页
AI规模化落地 英特尔至强的七重助力_第4页
AI规模化落地 英特尔至强的七重助力_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

AI规模化落地英特尔至强的七重助力

当今时代,各行各业与人工智能(AI)加速融合,通过智能化创新来

寻求业务转型升级。与为数不多的顶级AI研发公司相比,大多数传

统行业或企业有着更丰富的

AI

应用场景,推动着规模化的AI应用落地,其AI应用更具有实践意义。

然而,在智能化技术架构和平台选择上,它们又往往面临着“拿着钉

子到处找锤子”的尴尬局面。

尽管有人津津乐道于承载AI

应用的一些专用架构平台,但实际情况是,仅采用专用加速芯片或优

化单一框架,已经无法满足运行不同工作负载和适应不同应用场景所

需。这是因为,AI的应用需求是多种多样的,不同的应用也决定了

从数据中心到边缘再到设备所需的硬件能力都会有所差别。而且,解

决企业

AI规模化落地,需要充分利用以数据为中心的基础架构,考虑芯片

处理器、核心算法和软件工具等平台解决方案的选择。

无论是算法工程师、AI

开发者还是数据科学家,他们在选择AI技术架构和平台时会有多方

面的考量。一个共识是,基于既有的IT基础设施,统一大数据和人

工智能平台,可以更加高效释放数据价值,实现AI业务目标。大家

越来越发现,通用的英特尔架构有一个非常重要的先发优势,就是使

用者众、部署广泛。来自英特尔架构和至强平台的助力,可以帮助企

业从既有的平台起步,推动AI的发展,加速“破局”AI产业实践。

下面我们从7个方面,展开阐述英特尔如何从性能、数据预处理、

可扩展性、内存、模型部署、大数据分析、跨平台部署应用等多方面

实现优化和升级,全面支持企业AI的规模化应用落地。

第一重助力:性能

CPU性能优化有数量级提升,VNNI和框架优化等大幅提升了

CPU架构运行深度学习推理的速度。

很多人可能都认为AI这种新出现的技术,或者说应用负载,也应

该用新的架构来支撑,其实不然。实际上随着CPU

性能的数量级提升,以及在软硬件层面针对AI应用的不断优化,CPU

平台也能很好地承载AI应用。现在CPU能兼容几乎所有的AI

主流技术,深度学习的应用任务,特别是唯理,完全可以用

CPU来搞定。而且CPU还有一个特定的优势,就是当用户混合使用

机器学习和深度学习方法时,CPU更适合承载这样的任务。

不断更新换代的英特尔CPU平台,己经在AI应用特别是推理上

提供了强大的算力。以第二代英特尔®:至强®可扩展处理器为

例,它集成了加速人工智能深度学习推理的英特尔®深度学习加

速(英特尔®DLBoost)技术,将人工智能性能提升到一个全新

的水平,可加速数据中心、企业和智能边缘计算环境中的人工智能推

理工作负载。以常见的CaffeResnet_5()模型为例来看性能变化,第二

代英特尔®至强®伯金8280处理器借助英特尔DLBoost技术,

图像识别的速度可比上一代英特尔至强可扩展处理器提升14倍。

另外,英特尔CPU平台还与各类主流深度学习框架(包括

TensorFlowsPyTorchcaffe、MXNet、PaddlePaddle、BigDL等)

合作,针对CPU的AI训练和AI推理功能进行全面优化,Xeon处理

器训练性能因此得到不断提升,客户也可以选择使用适合自身需求的

深度学习框架做模型训练,而无需购买或者设置不同的硬件基础设

施。

随着软件工具的不断更新及面向主流框架的深度优化,CPU平台

不论是支持基于单一AI技术的应用,还是在运行融合了多种A1技

术的应用时,其性能表现都更为突出。对于全新硬件架构的每一个数

量级的性能提升潜力,软件能带来超过两个数量级的性能提升。以第

二代英特尔至强可扩展处理器上的VNNI深度学习加速指令为例,过

去卷积神经需要三条指令,而现在的话一条指令就可以了,通过在底

层的软硬件协同优化,可根据不同深度学习框架将推理性能加速2-3

倍甚至更多。

第二重助力:数据预处理

数据的处理分析和之后的AI应用如果在一个平台上,可以给用户

带来更大的便利性,也能节省成本和降低风险。

尽管当前市场对于AI技术抱有很大兴趣,但实施水平仍然相当低

下。我们需要根据应用需求构建起完整的数据分析/AI流水线,从高

质量数据源整理、数据预处理与清洗、适当特征数据的选择与构建等

前期工作开始,这就要求数据工程师、算法工程师等协同工作。

算法工程师往往要花很多时间,来处理用于深度学习模型训练和

测试的庞大数据、数据预处理会涉及很多很零碎的事情,比如校对数

据的标注是否符合某种逻辑。在进行数据预处理时,所写的代码不一

定是执行起来效率最高的,因为有可能这些零碎的校验数据功能只用

一次,而不是反复使用。在这种情况下,可以使用方便快速实现功能

Python语言调用CPU来实现,而且基于CPU

有很多现成的包和工具,具有更快数据预处理的优势。CPU还可以

通过使用更多内存、减少I/O操作来提升AI运行效率。

如今的深度学习和AI领域,优秀的算法和框架数不胜数,但英特

尔开源的BigDL和采用了这一技术的AnalyticsZoo平台选择了一个

颇具独特性的切入点,那就是专为已有大数据集群的场景设计。目前,

来自零售业、金融服务行业、医疗保健业、制造业及电信业等领域的

企业客户都已经开始在英特尔至强服务器上利用AnalyticsZoo,或基

于BigDL构建更为平滑无缝的数据分析・AI应用流水线。

第三重助力:可扩展性

CPU平台现有基础设施就是为可扩展性而搭建,不仅易于在更多

节点上进行扩展,还能按核实现弹性扩展和调配。可伸可缩方为真英

雄!

在深度学习和机器学习领域,不管是模型训练还是推理,为了分

配和部署计算能力,常常需要基于现有的

IT

基础设施或者云平台进行硬件扩展。目前一些专有的AI架构平台只

能以卡或芯片为单位来管理和扩展,而英特尔至强平台不仅更容易在

更多节点上扩展,还能按核实现弹性的扩展和调配,能真正做到精细

化的资源管理和调配。这使得AI平台可以尽可能通过云化来提高灵

活性,提升自动化管理水平,并充分利用到每个计算核心的价值等。

换句话说,现在的基础设施就是为可扩展性而搭建。

比如有开发者指出,在新一代Skylake-SP微构架芯片设计上,英

特尔首次开始采用了全新网格互连构架(MeshInterconnect

Architecture)设计方式,从传统的利用环形连接,到了新设计则全面

改采用网格互连的方式,来进行资料存取与控制指令的传送。因为最

小单位可以是以每行、每列来连接,所以每颗Skylake-SP核心、缓

存、内存控制器及I/O控制器之间的路径选择变得更多元,还可以

跨不同的节点互连,以寻找最短的数据传递捷径,即使是加大核心数

量,也能够维持很快存取数据,并支持更高内存频宽,以及更高速的

I/O传输。

第四重助力:内存

CPU易扩展缓存,而英特尔®傲腾⑶DC持久内存ApachePass

更是集大容量、经济性和持久性于一身,性能接近DRAM。

不论是AI训练还是推理,靠近计算单元的内存或者说较高速的数

据缓存都非常重要。在AI

分析中,它们对训练中的神经网络构建,并通过该网络进行推理比较

都有着重要的影响。因此我们希望在靠近计算单元的地方尽可能缓存

更多数据。其容量的增加,会很大程度上泥高

AI的整体性能、准确性、响应速度。

训练深度学习模型时,占用CPU内存比较大,一般来说单价刀

片可以轻松做到256GB

以上的内存,做分布式训练时还可以把数据分配到不同机器上进行计

算,而且可以尽量把数据预存到CPUo止匕外,CPU

大内存的优势不仅体现在训练上,更主要的是推理,比如对尺寸很大

的医疗影像模型进行推理处理。

即使没有英特尔®傲腾TM数据中心级持久内存的出现,英特尔

至强处理器平台也很容易扩展内存的容量。但有了这种全新类型的产

品后,内存的存储密度/价格比可能会更理想,其性能也接近DRAM,

让更大量的数据可以更接近CPU进行移动和处理,极大地降低从系

统存储获取数据的延迟。相比之下,专有架构平台要扩展缓存,还是

很不方便的。

第五重助力:模型部署

英特尔技术产品从端到端是有统一的应用兼容性的,这样可以保

证我们在后端训练迭代算法,前端部署推理。

在深度学习实践中,是否应该去搭建一套新的专用平台?持否定

意见的开发者认为,目前主要用于AI

模型推理的平台都是基于CPU

架构的,应该利用现有的数据中心基础设施,利用现有的、熟悉的处

理器平台,以最低的成本部署人工智能,这相比另起炉灶、寻找其他

计算平台的方法,用时更短

、风险更低、性价比更高。

有开发者据此总结了三条理由:首先,现如今标准CPU平台完

全能够胜任AI

所有应用;其次,现在AI属于“试错阶段“,同时技术也在快速演

变和迭代,利用现有的CPU

平台,可以最小成本做最大的事,无需大量额外投资,但如果另起炉

灶可能得不偿失;最后,用多年熟悉且信任的CPU平台,构建“激

进”的AI

项目,本身就是一个绝好的平衡,让技术风险变得可控。

在现有英特尔架构支持的数据应用基砧上构建AI应用,生产环

境非常成熟,易于部署,运维人员学习难度低。英特尔从云到端都有

硬件平台就绪,不论是通用计算还是专用芯片(如Movidius),而且

还有相关的软件支持,如众多优化库、框架和工具。另外,英特尔为

AI应用的开发者们提供了OpenVINO等工具包,可以方便实现模型

部署,优势显著。

第六重助力:大数据分析

英特尔至强处理器和BigDL软硬搭配,在Hadoop和Spark等

主流大数据框架上,可以简化训练(数据获取+处理)过程。

Hadoop和Spark是目前非常流行的大数据管理和处理框架,想利

用它们承载的数据进行深度学习训练,通常需要把这些数据导出,然

后进行处理,这个过程不仅耗时而且投资较大,所以在这些大数据平

台上进行深度学习训练显得尤为重要。

有开发者认为,可以针对各种不同来源的数据,首先根据目标算

法需要的数据格式,进行数据整合。得到目标数据之后,再根据业务

需要,按照对应的比例,将最原始的数据分成训练数据和测试数据,

通过算法对数据不断进行训练,后期进行相应的测试。

其实更好的方式是打通数据流水线。英特尔的AnalyticsZoo(内

含BigDL)打通端到端数据流水线,在Hadoop和Spark等主流的

大数据框架上,把数据的收集、存储、传输、预处理、后期处理等环

节,与AI的训练和预测等部分有机结合起来,就可以让企业的数据

分析流水线变得高效而统一。例如,英特尔协助美的公司基于

AnalyticsZoo构建了一套端到端的产品缺陷检测方案,准确率优于人

工检查方法,并避免了检查工作给生产线带来侵入性影响。Analytics

Zoo将SparksTensorFlow以及BigDL程序整合至同一流水线当中,

整个流水线能够在Spark集群之上以透明方式实现扩展,从而进行分

布式训练与推理。最终使美的的图像预处理时长由200毫秒降低至

50毫秒,并将延迟影响由2,000毫秒缩短至124毫秒。

第七重助力:跨平台部署应用

英特尔至强处理器、AnalyticsZoo以及OpenVINO工具包,能够

简化深度学习流水线,实现一站式端到端的AI应用部署。

深度学习应用的开发周期很长,而且往往会涉及多个工具和平台,

如何将新技术、新创新应用到非常大规模、大数据的生产系统中,目

前在软硬件架构上有非常大的断层。这提升了技术开发门槛,开发者

十分期待从云端到终端能跨平台部署深度学习应用。

2018年,英特尔开源了AnalyticsZoo,构建了端到端的大数据分

析+AI平台,无论是用TensorFlow还是Keras,都能将这些不同模块

的程序无缝运行在端到端流水线上,大大提升了开发效率O

并且,AnalyticsZoo也兼容OpenVINOTM在AI应用上的加速特性。

基于英特尔硬件平台、专注于加速深度学习的OpenVINCP工具套件,

是一个快速开发高性能计算机视觉和深度学习视觉应用的工具包。

英特尔®OpenVINO工具套件不仅适用于开发可模拟人类视觉

的应用和解决方案,它还可以通过英特尔®FPGA深度学习加速套

件支持FPGA,旨在通过优化广泛使用的Caffe和TensorFlow框架来

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论