ECS技术实战指南 -阿里云弹性计算技术公开课演讲合辑_第1页
ECS技术实战指南 -阿里云弹性计算技术公开课演讲合辑_第2页
ECS技术实战指南 -阿里云弹性计算技术公开课演讲合辑_第3页
ECS技术实战指南 -阿里云弹性计算技术公开课演讲合辑_第4页
ECS技术实战指南 -阿里云弹性计算技术公开课演讲合辑_第5页
已阅读5页,还剩286页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ALIBABACLOUDDEVELOPERCOMMUECS技术实战指南-阿里云弹性计算出品-一、全面解析|大模型时代如何利用弹性计算服务应对大算力挑战………4二、技术分享|如何基于阿里云AIACC加速Stable-DiffusionAl绘画20 四、万字干货分享|阿里云CIPU技术解析 89六、技术分享|软件跨架构迁移(X86->ARM)的原理及实践 七、技术分享|云原生算力时代-倚天实例技术架构与最佳实践解析.1294简介:2023年6月20日,阿里云弹性计算团队与智东西公开课联合出品的系列课程大模型时代如何应对大算力挑战5>5>大语言模型火爆全球,开启生成式Al新时代2023年3月2023年3月2019年3月0penAlOpenAlAPI;2015年12日2018-2020年2017年,生成式预2022年11月30日·敢于质疑法解展就是各种Al音箱,虽然机器可以通过语音识别听懂每一句话,但却不能给出聪明的回其次,Al的应用方式有了巨大变化。Al技术的使用者再也不用从头训练一个模6>6>背后的驱动力:参数量大了,智慧就涌现了目前看来,通常模型规模突破1000亿参数后,涌现出来的智能就非常强了。这里我们记住一个模式,预训练模型+微调,这种方式可以大大7一、全面解析丨大模型时代如何利用弹性计算服务应对大算力挑战>7多模态、海量数据、超大模型成为趋势LameLanguageMostelsANenMoore'sLaw?)—Juien这个挑战来自哪里呢?主要来自模型参数规模的快速增长,以至于在工程上极难处理,从上面两张图可以看到,2018年开始,无论是大语言模型还是预训练模型,他们的参数规模都在快速增长,斜率很大,甚至到了2020年开始出现超过1000亿参数的模型,在这个新发现之后,大家从图上可以看到,从2021年开始,大模型爆发式增长,而且>88多模态/大模型算力的需求惊人多模态/大模型算力的需求惊人<<LanguageModesareFew-ShawL单次GPT-3XL计算显为275Plops天单次GPT-3(1758)计算量3640PFlop:"天PalM模型(5400亿)29600Pflops*天35000块A100/1天或1024块A100跑1个月13000块A100/1天或433块A100跑1个月标注周个预训练阶段GPT-3的总算力需要3640PFlops*天,换个算法就是需要1024片A100(GPU)连续跑1个月。少算力呢?类比GPT-3这种规模的模型,如果要做微调,就需要超过1000PFlops*天最后,Finetune完成的模型上线运营需要多少算力呢?我们还以ChatGPT举例,仅使一、全面解析|大模型时代如何利用弹性计算服务应对大算力挑战99提升内容生产效率降低内容生产成本捕捉激发创作灵感图像、视频、文本跨模态生成策略生成GameAl数字人生成中高质量的故据预训练:海量无标注数据开放数据集(百T大规模,多模态弹法模型音频生成视频生成文本生成大模型也带来了应用场景的蓬勃发展。不仅可以生成文本,还可以生成音频、图像、视频以及3D空间,甚至可以综合音视频和3D生成Al游戏剧情和人物,还可以生成数字结合前面讲到的Al应用技术门槛的降低,Al不仅可以便利的服务于更多行业,还会产生更多新的应用场景。智能算力是提升大模型实现的基础和一、全面解析丨大模型时代如何利用弹性计算服务应对大算力挑战>10对计算能力的需求。这个表现最为直接,尤其是训练场景,模型对计算需求实际上计算基础设施进入智能化时代应用(信息获取)(信息感知/交互)广吉雅存:书厘切频Al智能时代端手机/loT设备边缘计算边缘计算100G网络>>如上图所示,我们来一起回顾一下过去20年计算的变化。终端需求牵引导致数据中心计算产生巨大变化,从单服务器、单核CPU,到分布式、因此,如果我们在业界工作时间稍长,其实就有强烈体会,20年前如日中天的公司是做系统软件和CPU芯片的,而当下如日中天的公司是做大模型和Al芯片的。这里发生大模型具有数据量大、数据带宽要求高、算力要求高的计算特点,且算法相对单一。要提高计算效率和性价比,就应该像高性能计算那样选择更高计算密度的算力芯片。implicitymanaged☑☑Emixed·并行架构SIMT低成本(能耗低)·逻辑判断,任务调度与控制·应用软件+推理/预测·大模型训练·芯片研发阶段·Al推理服务·特定场景架构·成熟量产模型接下来我们一起看一下,产业是如何选择Al芯片的,以及阿里云是如何使用这些芯片首先和大家分享一下面对Al大模型这种需求,我们是算,因此通常使用浮点数,比如:32位的单精度或者16位的半精度。而计算的数据结构通常是张量,张量可以使用CPU来计算,也可以通过GPU或者TPUPU则有了百倍提升。当然,从V100(GPU)开始,GP量计算核心)这种DSA单元,每个操作也是两个以上的矩阵在计算。因此后续GPU就片上,通过事先软件定义好的硬件计算单元使FPGA芯片可以运行Al算法,处理视频后来,在算法和算子逐步稳定后,我们就将FPGA的实现硬化成ASIC芯片来实个好处是效率更高,功耗更低了。当然,车载自动驾驶芯片是所以我们选用什么样的芯片来做Al大模型呢?相比而言GPU芯片面对Al业务挑战应GPU芯片架构与工艺快速跃迁,带来性能急速提升显存带宽250GB/sHBM732GB/NVLink3.0600GNVLinkHBM显存TensorCore3.0Tensor算力(FP32)理像处理性能快速提升8年317倍场最驱动数字表示与复杂指令互联能力提升-单卡性能到GPU集群2020年收购MellanoxD出下面我们来看下主流GPU芯片做了哪些架构和工艺上的跃迁来带性能的急速增长,这们国内有很多友商也是从这一代芯片开始把他们引入到自己的公共云上来,为AlPascal架构,从这代GPU开始,英伟达开始针对深度学习的计算负载做了专门的 Hoper架构,从这代GPU开始,英伟达开始面对大模型做了很多优化,比如优化实际上每一代GPU架构的进化,都融入了更多性能提升的创新,这里不再赘述。了解软硬一体的阿里云智能计算基础设施软硬一体的阿里云智能计算基础设施软硬一体服务体系生物识别,自动驾驶,语音识别,直然语言处理CTR预估……首个异构实例7代训练集群视觉计算神龙A加速工具AIACC上图主要显示的是当前最新一代产品,也就是基于A100(GPU)的训练实例和基于A1一、全面解析|大模型时代如何利用弹性计算服务应对大算力挑战>15 我们正在将EAIS做成超级弹性的计算基础设施,来解决巨大算力需求与业务成本我们针对AIGC和大语言模型的客户提供了有针对性的解决方案。前面介技术应用模式与以往的Al有很大区别,我们只需要使用开源或者商业化的预训练模型加上少量个性化数据,就可以微调训练出具备垂直领域知识和AIGC/LLM场景下的算力产品选型语言类大模型 ,情绪分析推理-选型推荐训练-选型推荐训练-选型推荐非语言模型需要考虑大规模部署的性价比,目前我们在市场上见到最多的模型是130亿到2000亿参数的模型,但是更多集中在130亿到650亿,因此我们在这里可选的GPU这里我们的可选型也会非常多。后面我们具体看看我们选型的GPU实例以及相配套的SCC(SuperComputerCluster)高性能弹性计算集群非阻塞RDMA网络cGPU1.0单主机虚拟化贸cGPU2.0跨主机资源泄基于ACK和云原生Al套件搭建一个Al工程化平台·成本节省达到50%以上·业务交付周期缩短30%我们还可以提供更小的GPU计算粒度,通过池化的方式来提神龙Al加速套件(AIACC)神龙Al训 可观的性能优化,而通过这套加速软件,我们也帮助用户的业务在不同业务负载上提升40%到80%的性能。换句话说,可以帮助用户节省这么多的TCO支出或者时间支出。最后和大家分享一下阿里云的全栈Al技术体系。我们从AllaaS层到模型层面,给用户提升全栈的Al技术和产品能力,帮助不同用户建设更加贴合业务实际的Al业务。以上就是我本次的分享。想要了解更多精彩直播/观看课程回放的同学,可以扫描下方海报中的二维码/点击观看,均可观看完整课程回放。大模型时代如何应对大算力挑战阿里云弹性计算产品专家阿里云弹性计算产品专家二、技术分享|如何基于阿里云AlACC加速Stable-DiffusionAl绘画低至0.88秒,吞吐提速至原来的2.2倍。直播时间:2023年6月28日14:00二、技术分享|如何基于阿里云AlACC加速Stable-DiffusionAl绘画>21 ·页面操作说明1.基于计算巢搭建Stable-Diffusion开发环境sionModel(扩散模型),其在保证高分辨率创作图的同时,极大地降低了资源消耗量。> 神龙Al加速套件AlACC介绍推理延迟对比图神龙Al加速套件AlACC是基于阿里云laaS资源推出的Al加速套件,用于优化基于Al主流计算框架搭建的模型,能显著提升训练和推理性能。当前AlACC推理引擎包含AlACC-Torch(Pytorch推理加速引擎RT(AIACC算子深度加速引擎)几个组件。AIACC-Torch(Pytorch推理加速引擎)主要用于业界主流的PyTorch模型的推理AIACC-HRT(AIACC算子深度加速引擎)是阿里云底层高性能的限制加速库。包括图融合等,然后就可以得到一个更干净、更高效的一个图片。之后通过PyTorch件进行了优化加速支持。在512×512的分辨率下,我们将单图推理延迟从1.88s降低至0.78s,吞吐提速至原有的2.4倍,相较xformers也可降低44%的延迟。orch可吞吐提升至原有的2.37倍,单张图片推理时间低至1.28s。档:/document>计算巢介绍计算巢是一个面向ISV、SI和MSP(统称为服务商)的云集成PaaS平台,方便服务商更好地将产品、服务和阿里云集成,借助云原生的能力提升软件服务在交付、部署及后续管理等环节的效率和用户体验。最终用户可以通过计算巢管理其在阿里云上订阅的各类软件服务。计算巢为服务商和最终用户提供了一个云原生的服务交付平台和连接器,提供更高效、便捷、安全的软件服务和使用体验。《StablediffusionAlACC加速社区版》现已作为推荐服务,上线计算巢。为了方便客户使用,推荐使用计算巢进行服务搭建。云平台阿里云计算巢是一个面向ISV、SI和MSP(统称为服务商)的云集成PStable-Diffusion服务实例创建实战Stable-Diffusion服务实例创建实战https///userfc64d22F4MeDH&Serviceldttps:///user/cn-hangzhou/servicela器"a二、技术分享|如何基于阿里云AlACC可预选实例均为单卡A10实例,规格为ecs.gn7i-c16g1.4xlarge、ecs.gn7i-c32g1.8搭建Stable-Diffusion服务实例并访问实例以避免网页被不明用户登录。此密码用于访问stable-diffusion网页客户端。·进入控制界面,查看服务部署状态,等待部署完成。点击访问此公网地址,可以打开登录界面。·输入软件登录名及软件登录密码,点击登录。mR成,用时大概消耗3-5分钟。以打开登录界面。输入软件登录名及软件登录密码(也就是步骤三中软件的登录名&密码),点击登录,即可打开WebUl界面。搭建Stable-Diffusion服务实例并访问实例步骤5登录实例所在ecs:当我们需要检查stable-diffsion运行看stable-diffsion运行日志时,我们需要登录ec看。进入“服务实例详情”的资源选项卡,点击远程连接,点步骤6查看日志并重启服务:·实例中的stable-diffusion位于/root/stable-difsdwebui命令停止服务,而后使用sudosystemctlstartsdwebui命令启动服务。日志文件会被写入/var/log/sdwebui.loi资H是rtcp实例中的Stable-diffusion位于/root/stable-diffusion-webui/。 bui.log,大家也可任意查看。webui页面操作说明S回 SD模型选择:当有下载新的模型或者需要切换模型的时候,下拉此选项卡进行选择。指明场景、事物、事件、风格等。这是文生图中最重要的可成图片的质量效果和生成图片的场景和物体。提示词由多个部采样器和迭代步数:采样器用于控制Unet输出结果使用方式。迭代步数越高,最使用文生图生成图片图片,分辨率为512x512,用时为0.78s。使用文生图生成图片∴三∴后进行相同图片生成的时间则增加至1.88S。因此可见,AIACC能缩短58%的推理时间,或增加图片生成的吞吐量至原有的2.41倍。使用文生图生成图片>首先,输入提示词。提示词:1个女孩,绿眼,棒球帽,金色头发,闭嘴,帽子,看向可见通过AIACC加速生成一张动漫风格的图片,分辨率为512x512,用时为0.77s。点使用图生图生成图片园园P母 则需要1.59s,降低了56%的延迟。片的细节,如何使用ControlNet来控制图片的形状;同时也会介绍如何通过API调用Lora权重使用Lora(Low-RankA本应用于大语言模型(LARGE,LLM),但由于其训练成本低,stable-diffsuion模型中也有较·点击右侧的附加网络按钮,打开附加网络选项,点击下方的Lora权重,选择一个自动填入上方的提示词中。重名:权重比例大小>,Lora权重可以同时选中多个进行Lora权重,全称是Low-RankAdaptation Lora权重使用和右图,使用相同的AGirl,bestquality,ultra-tail,highres,8kwallpaper提示词,seed=10,8秒的单张图片生成时间。而与之相对应的使用torch进行推理时,需要2.06秒,且推>测。ControlNet组件实际上是为我们提供了一种精确控制Stable-diffus>wallpaper,模型为controlv11p_sd15_c加速时,则需要3.04s,降低了57%州H可见生成的图片与输入的参考图的整体布局十分相似,使用ControlNet这种方式,我由图可见,当使用AIACC加速时,单张图片耗时仅1.28s,而不做任何加速时,则需要使用API调用方式执行文生图和图生图对于有远程使用或是命令行调用的场景而言,stable-diffusion的webui还可使用API的方式进行调用。点击webui链接,即可跳转到api说明文档。的主界面最下角的“API“CAPI说明文档使用API调用方式执行文生图和图生图importbase64}=session.post(urlLtxt2img,json=simple_txt2img).=session.post(urlLtxt2img,json=simple_txt2img).文生图代码示例session.auth'=(usera+图生图代码示例 OST请求url加上/sdapi/vi/txt2img这样一个API。在使用计算巢首先创建一个session,然后去配置用户名和密码。这是因为在计算巢的实例中的提示词,即AGirl,然后设置seed的数等于1,然后去POST之后,会返回一个re是在这样一个数据当中,然后用base64编码过的。所以我还需要用base64去解码这openCV去读取这个图片,然后用base64去编码图片。之后就跟文生图类似,去请求/sdapi/vi/txt2img这样的APl。然后将这个读取的图片放入到这个images这样一阿里云AIGC实践大量有会来袭,最长100小时1折起,详情点击/daily-act/ecs/markets/aliy>阿里云弹性计算技术公开课2023年6月28日14:00三、技术分享|如何利用GPU云服务器加速2023年7月5日,阿里云弹性计算团队与智东西公开课联合出品的系列课程【阿里云>U1.LLM模型的实现原理以及典型模型T、智能对话机器人等等,这些是能够产生实际落地价值的,更贴进大众的生活,所以是从大规模数据集上进行自监督训练,参数量级在10亿、百亿甚至更多。这种语言模这个在目前这种大语言模型场景下对训练要求也很高,1.LLM模型的实现原理以及典型模型AIGC(AlGeneratedContent)=>LLM性价比:10B-100B左边子图是encoderonly的结构,比如传统的bert模型;中间子图的是encoder-d 力,比如具体在10B-100B提升最明显。到此为止,我们总结为,大模型参数在10B+1.LLM模型的实现原理以及典型模型架构Transformer-baseHdecoder-架构·训练效率:参数量、计算效率DeepSpeed-zero,FSDP,Megatron-Im,ColossalAlNxreduce-scatterreduce-scatterreduce-scatterLLaMA-13B+DeepSpeed-zero3=>大通信压力,占比30%+Transformer-base模型训练;在任务效果表现上zero-shot的自监督训练(即无任何tuning数据)decoDDP、DeepSpeed-zero123,张量并行TP通信方式,比如DDP主要是allreduce;主流框架包括DS、FSDP/megatron、coloslama-13B+zero3的训练方式,多个GPU之间不在是传统的单个allreduce集于一个allreduce算子,因为zero3的并行切分,拆解为2个通信算子之后,中间冗余大的通信压力,通信占比在2机场景下达到30%以上,对于传统的TCP/IP的网络来说这就是大语言模型其中一个痛点,那么如何降低这种通信瓶颈呢?下面将介绍阿里云e2.基于阿里云eRDMA的GPU云服务器eRDMA也就是elastic(弹性)RDMANetworkNetworkNetwork>>ServerNode1ServerNode1NetworkNetwork如左侧图所示,传统TCP/IP涉及到多层数据包的解析,需要走CPU进行数据搬移,这个会带来较大延迟,降低带宽表现。传统TCP/IP网络较慢,可能影响不大,但现在网络提速之后,CPU的overhead就不可忽略了。中间的图是RDMA的实现方式,应用层可以通过网卡直接完成数据搬移,bypass了用户态和内核态的切换以及CPU搬移,只需要CPU发起数据通信的请求,由RDMA的e只是被告知完成,从而大幅提高通信性能。只*1:最低8us,具体视实际网络连接波动RDMA的生态兼容,无需修改任何代码,二进制兼容,通过标准的verbsAPl即可超大规模组网能力,支持10万级别VM组网以及跨AZ组网;从硬件角度的一些指标来看,带宽200Gbps、时延最低8μs、吞吐30Mmessage/s。2.基于阿里云eRDMA的GPU实例2NVSwitch能够提供最大2x100G带宽,并且实现跨socket均衡,即单机内部每4张GPU卡共用100G带宽;当然200G是EBS/VPC/ERDMA融合后共享带宽,所以实际分到的数据流>三、技术分享|如何利用GPU云服务器加速AIGC训练>2.基于阿里云eRDMA的GPU实例Al训练场景架构下图是eRDMA实例相比传统64GVPC机型的性能提升,可以看到性能提升是比较明显的。整体带宽提升了一倍,延迟降低了80%。2.基于阿里云eRDMA的GPU实例右边的数据图是ebmgn7ex相比ebmgn7e4机训练性能提升比例,提升比例也很明3.FastGPU一键部署LLaMA流程以及finetune原理解析自动创建laaS资源和挂载存储即刻构建自动启动(分布式)训练/推理自动释放laaS资源开发主W用户完成用户起始省时省钱易用具体的细节就是从用户使用角度,通过FastGPU管理集群,或是>>3.FastGPU一键部署LLaMA流程以及finetune原理解析1fastgpucreate--nameaiacc_solution-iecs.gn7iAIACCAIACC训练性能提升效果提升40%+访问推理服务上图为一键部署的流程。通过FastGPU一行命令,完成集群的创建、环境部署、LLaMA模型训练以及推理服务构建的流程,这里是演示作用,因为A100资源较为紧缺,所以使用的是V100实例。两张图分别是baseline性能以及使用了AlACC之后的性能,从吞吐量来看AIACC性能提升40%,具体AIACC是什么我们后面再展开。访问推理服务,只需要打开浏览器输入本地的某个端口服务即可,因为FastGPU已经内部实现了IP白名单+端口转发到本地的功能,通过快速试用方式来大幅降低大模型的使用门槛。s三、技术分享|如何利用GPU云服务器加速AIGC训练3.FastGPU一键部署LLaMA流程以及finetune原理解析LLaMA羊驼模型1.训练质量:最佳数据集+模型大小的scaling2.推理效率:训练时间更长的小模型,最终推理成本i图是实验验证扩展性的特点。汇总下来LLAMA提出的化点,比如RMS预先归一化(即在norm的输入层进行归一化而非输出层)、swiglu所以LLaMA模型核心部分可能是通过完备的扩展性去实现模型效果的提升,最终LLaMA的效果上是比较惊人的,相比GPT3的175效果,而参数量只有不到十分之一,即便是7B也不会比GPT3差太多。三、技术分享|如何利用GPU云服务器加速AIGC训练>finetune有多种类别,比如prompt-tuning为每个任务拼接emb层来训练emb;pr一些期望输出的模版,然后这些作为种子集合输入到达芬奇03版本模型,生成更多的成最终的Alpaca模型。三、技术分享|如何利用GPU云服务器加速AIGC训练>3.FastGPU一键部署LLaMA流程以及finetune原理解析BelowisaninstructionthatdesappropriatelycompletesthereIfyouareateacher,teachmehow回cuu*arfwowucnertuatucuonappropriatelycampletesthereexperiencewithstudyingAlandgivesomethisield.Firstolallbecausewehavebeenabletobuproblemswherecomputerscannotsolvethemcan.Forexample,ifyouaskSiriarGoogleAssistanttofindyourwayfhometowork,theywillsystemsdontknowanythisomethingmorecomplicatedsuchas"howlheretothere",theywon'tans接下来我们看finetune之后的结果,相同的问题,回复内容的确是像老师的具体的AIGC一键部署可以参考阿里云AIGC试用的文档,里面介绍了基于阿里云GPU三、技术分享|如何利用GPU3.FastGPU一键部署LLaMA流程以及finetune原理解析/daily-act/ecs/markets/aliy我们团队之前在AIACC1.5的版本拿过Dawn三、技术分享|如何利用GPU云服务器加速AIGC训练4.基于AlACC的性能优化及效果展示由目前更新为2.0版本,下图是AIACC-Training2.0的架构,主要包括ACSpeed通信4.基于AIACC的性能优化及效果展示AIACC-Training2.0ACSpeed模块化的解耦优化设计,实现分布式训练在兼容性,适用性和性能优化的全面升级网络层Tensor-levelcompileroptimizationAlACC-Training2.0AGSpeed针对PyTorch动态图特性,实现在计算图编译器上性能优化和性能优化方面全面升级,从Al框架到ncclruntime以及协议栈侧均实现为plugin或者backend的方式,从而实现无感laaS+的中间件支持。下面是AGSpeed计算优化,主要针对pytorch动态图特效,实现计算图编译优化,这里也分为compiler的前后端,前端实现动态到静态图的转换,后端实现pass/tensor等编译优化,从而加速训练的计算过程。4.基于AlACC的性能优化及效果展示ACSpeed-分布式训练加速架构通信优化的背景是,分布式训练在多机场景下的通信带宽成为训练瓶颈。因此ACSpeed实现c10d-plugin、nccl-runtime的方式进行无感优化分布式训练,针对阿里云VPC网络基础设施在分布式场景下进行深度优化,并且针对CIPU提供网络层增强,即前面提到的eRDMA实例,传统使用IB网络的方式较为繁琐,包括GID、HCA等设置,通过nccl-plugin极大增强了易用性,目前已经集成到eRDMA大包驱动内部,用户可以完全无感使用eRDMA的网络能力。上图框架图上画的有Pytorch和TensorFlow不同路径,主要是因为使用Pytorch客户较多,所以针对Pytorch做了定制的优化,可以一行代码修改快速优化DDP以及FSDP等不同的训练方式,对模型侧无感,即便不是Pytorch,底层都是基于NCCL做通信4.基于AIACC的性能优化及效果展示业务背景AGSpeed计算图编译优化,主要背景也是Torch的火热程度,所以我们针对Pytorch进行计算图的定制优化,增强前后端覆盖度,保证训练e2e功能和性能。三、技术分享|如何利用GPU云服务器加速AIGC训练>4.基于AlACC的性能优化及效果展示DDP提升5%~150%分布式训练性能对比PyTorch5-150%;右边是单独开启AGSpeed的性能,相比Pytorch提升5-50%。4.基于AIACC的性能优化及效果展示out-of-placetimolgbhntwrongtimeslgbbushutwreng(us)(GB/s)(CB/s)iwZWPni两机eRDMA机型下的性能提升,在30-100%,在端到端场景下会根据不同通信占比进比如在某实际客户的某A100机型的2机场景下,Llama13B+zero3的模型实现,集rtaiacc后即可使能AlACC4.基于AIACC的性能优化及效果展示AlACC-Training2.0神龙Al加速套件https:///documentdetail/4622.html?spm=a2c4g.462058f6/documentdetail/460.html?spm=a2c4g.4624c2618>阿里云弹性计算技术公开课2023年7月5日14:00四、万字干货分享|阿里云CIPU技术解析>61简介:2022年6月,阿里云发布了云基础设施处理器CIPU(CloudInfrastructureProcessingUnit),将其定义为取代传统CPU的新一代云计算体系架构的核心。在这阿里云CIPU技术解析2023年7月26日,阿里云弹性计算团队与智东西公开课联合出品的系列课程【阿里云云CIPU技术解析》的课程分享,本期课程在阿里云官阿里云微信视频号、阿里云开发者微信视频号、阿里云创新中心直播平台&视频号等多>3.什么是CIPU,以及CIPU解決什么问题?4.Economiesofscalethatsigni5.Simplifyingoperationandincrea6.Higherhardwareutilizationby什么是云计算?2009年美国的伯克利大学对云计算做了精确的定义:四、万字干货分享|阿里云CIPU技术解析>63根据实际需要支付短期使用计算资源的费用。即用户不需要承者函数,计时单位可以精确到毫秒级,哪怕使用几十此使用即可;当一个计算资源必须让用户使明它不是云计算,而是IDC(服务器托管),或者说是一个私有云。在此引用王坚院士的比较极致的说法:严格意义上来说,私有放大供应链效益,摊薄研发成本。规模经济很重要,例如芯片么呢?把客户使用的资源虚拟化,把计算、存储、网络抽象后,达到简化操作,提升资源利用率的效果。在此不展开具体细节,大家可以自行搜索相关信息。比如通过多路复用的方式运行来自不同组织的负载,提高硬件资源复用。因为公有云的池子,比如淘宝在双11使用公有云的计算资源池;而到了春 节,大家使用12306抢火车票的时候,12306也使用同样的公有云计算资源池。这样就可以削峰填谷,通过多租户使用同一套的计算资源池,这是我的看法。当然我想讲的主旨是什么呢?今天我们可能被很多的短期行为,有很多要在开篇的时候重新recap伯克利在2009年提出的云计算的定义。云计算和计算是正交关系,非替代关系云计算和计算是正交关系,非替代关系“云计算”相信大家比较关心云计算与计算的关系---它们是正交关系,不是替代关系。比如,目前Al分布式系统中,我们希望Al分布式系统横向scale微软开源了deepspeed,它做的是计算维度的事情;比如我们构建Hadoop和Spar多租就是整个资源池,可以给淘宝用,也可以给12306用,这个才是我们真正想要的阿里云怎么看云计算?¥如果只有稳定安全的1,是没有竞争力的;如果没有后面的0,前面的1也没有价值,其实更严格来看云计算的目标还需要加两点:弹性和可持续。可持续指什么?我们的环六个目标呢,我们就会分laaS、PaaS、SaaS。公有云laaS有哪些业务痛点?·KVM时代,~10%(计算资源+内存资源)+NIC做OHypervisor,成本需要进一步优化四、万字干货分享|阿里云CIPU技术解析>67 做过几年云计算后,会发现安全是我们如何做业务决策的规则。这个规则是什么呢?核心是因为什么呢?公有云这个大的计算资源池,计算、存储、网络都是多租户使用的。仅仅仿真virtio,它还仿真了很多很多设备,其代码量是很大的。当代码量大的时候,是c代码缓冲器溢出等问题,是很难根本性解决更通用的原则是什么呢?我们希望看到计算网络存储芯片的实现细节,可以拿到更多的在内核做,网络虚拟化时延做到了150微秒,时延抖动是很大;在KVM时代基于DPDK,网络时延做到50微秒。在线业务对时延抖动是相当敏感的。Xen架构网络转发ppO和网络带宽的全程零拷贝需求强烈。为什么要零拷贝呢?因为当带宽达到50G全双工,100G全双工,甚至400G全双工的时候。当有数据拷贝,至强或者GPU系统的缓存子VM时代,我们耗掉了10%的计算资源和内存资源,还要加网卡来做IO的虚拟化。这稳定性如何进一步提升?性能如何做到极致的高,成本如何做到极致的低。CIPU从何而来?1)CIPU从何而来?四、万字干货分享|阿里云CIPU技术解析>70 2012年,最先是AWS在Xen这套系统在处理IO遇到了性能瓶颈,AWS便开始引入比如Cavium的LiquidlO,还有82599不止AWS,Broadcom、Cavium、Freescale、ezchip、inteliXP等也在开始在2012年左右关注这个市场。如果站在博通、思科或者华为做通信的视角,它是一个智能在2012年通信市场,最火的技术之一是SDN和NFV。那时希望把网络设备、网元通当年SDN和NFV流行的时候,通信行业已经在设想通过NFV,通过云化的设施承载无所以在2012年时,云上的IT和通信形成了合流。最终通信领域的网络处理器,或者称从2015年起,阿里云和上文提到的供应商,比如博通、英特尔都有不少的接触。在那2014-2015年,阿里云在预研,到了2016年开始真正的大规模投入,2017年神龙发布,此时AWS也发布了同样产品。当然,我们也不必为此震惊,因为只要有足够大的发布发布CIPU新一代云计算架构费何2017年飞天单集群5K自研飞天操作系统把计算变成公共服务2009年,阿里云开始做云;2013年做飞天单集群5K;2017年,发布神龙架构;202神龙架构(CIPU雏形)发展历程:规模化下垂直技术整合的产物第三代神龙第三代神龙虚拟机的体验物理机的性能规模化部署弹性裸金属诞生融合虚拟化的践行者存储网络快路径芯片加速技术融合资源并池性能极致安全增强规模化部署规模化部署阿里云内部做了三代神龙。第一代神龙发布于2017年10月,这一代只想做一件事情,到450万PPS,存储可以做到20万IOPS,接口做到20GbE。第二代神龙发布于2018年9月,在网络、存储、接口性能大幅提升,到2018年底2019年初,我集团的全部业务从ECS切换到神龙架构,比如淘宝、天猫、菜鸟、高德和第三代神龙发布于2019年9月26日,这一代我们做了一些存储网络快速路径的芯片其实,当PPS超过1000万的时候,再提高PPS意义并不大,所以我们就会看到AWSNitroV5做到20Mpps就够了。再提高PPS也只是在做内卷,网络上真正重要的是解通用弹性计管集群虚风计算资溶池A弹性计需集群大的螺弹性计管集群算构弹性计情患群藏应风网络资通地息血学出证物理资源+CIPU=飞天纳管的云化计算资源池 CIPUCIPU:更强能力,更高性能只照网络10-5000万PPS存健的长尾时延降低50%8微秒弹性RDMA网卡子系统X-Dragon:PursuerofSupreme云原生棵金属系统我们可以把云原生简单理解成一个容器,用户可以生产安全容器的沙箱,它可以50毫四、万字干货分享|阿里云CIPU技术解析> 秒快速启动,一台机器可以生成2000个这样的容器。同时IO速度是极致的,比如5050GbpsIO带宽,八个盘就400Gbps。我们希望这400Gbps都能分给安全容器和虚拟机使用,我们希望能达到八个盘800万IOPS。CIPU系统根本性解决laaS业务痛点VPCoverla支撑今天第四代神龙做到50Mpps,就是5000万pps,已经远远超过需求,但是你要把它4)本地存储虚拟化硬件数据加速。9长尾时延。四、万字干货分享|阿里云CIPU技术解析>765)弹性RDMA。大带宽双向200Gbps,也就是400G的满线速要处理,以及延迟是能够做到多少。对于6)安全硬件数据加速。7)云可运维能力支撑。8)弹性裸金属支持。比如安全容器、Al分布式训练需要极致性能。单是计算和内存虚拟化就有3~5个点的我们希望更充分的使用CIPU的资源,这本身就包含池化逻辑。比如200Gbps带宽通10)计算虚拟化支撑。>CIPU:基础性能100%提升,实现弹性RDMA加速能力3000万ECS八代每台机器有双向200Gbps能力,EBS云盘IOPS可达300万IOPS,30微秒。VPC,5000万PPS,时延16微秒,包括999、9999的抖动,丢包等在ECS八代都有刚才我讲的都是性能层面Micro-Benchmark,但是大家一定把真实应用E2E的运行起同时Redis,我们可以看到在eRDMA上有130%的性能提升,它就是应用E2E。阿里云CIPU:全方位计算安全环境开创者运行时可信虚拟化EnclaveSGX2.0(裸金属/VM)SEV启动链可信可信启动数据硬件加密存储网络BIOSBMCNICFPGA无无无无无无无无无无无无无无无无无阿里云CIPU是为laaS的全方位计算安全做支撑的。比如底层硬件,现在使用TPM2.0等,全部由可信硬件构成。信任根确保在第一行代码运行就是可信的,并且这个信任根一直能传递到OS,传递到VM,确保每一行代码都是可信的。这个极度重要,这个是CIPU提供的。当然在固件安全这一层包括BIOS、BMC、网卡、FPGA、GPU等等,确保所有固件都可信。再到存储网络全链路一定是加密的。也就是说laaS尽最大可能降低安全隐患。我们讲了启动的信任链是完全可传递的,传递到虚拟化的可信任根。到虚拟化这一层会有机密计算,包括虚拟化Enclave。上图右边列表与友商的对比的六个维度:虚拟化Enclave、SGX(裸金属/VM)、SEV、可信启动、整个系统的可信方案、虚拟可信。这里表明阿里云对安全是认真的。因为安全发生故障的代价没有人能承受。四、万字干货分享|阿里云CIPU技术解析>CIPU:金融实时交易级普惠计算性能稳定性计算抖动亿分之一高吞吐多租户下P999时延领先高吞吐多租户下P999时延领先QOS就是有资源争抢。比如带宽只有1Gbps,但是需求是2Gbps,那么就需要分高低弹性RDMA:ECS四、万字干货分享|阿里云CIPU技术解析>80八代实例全量支持(intel、AMD、倚天、异构…)跨AZ组网双向弹性这意味着什么呢?比如客户HPC在线下的业务,直接把镜像和代码拷贝到ECS里面,可以做到二进制兼容一行不改。大家可能认为为什么呢?因为云里面,我们的VPC是同一区域,跨AZ是毫秒级时延。更为极端的使全找自研核心技术四、万字干货分享|阿里云CIPU技术解析>因为VPC才能在三层或者3.5层把网络租户隔离,然后才能保证ECS的弹性。在此再可能产生社会价值,也不可能产生客户价值的。这就是传统的IDC或者是高级版的IT。我们的弹性RDMA性能做到双向200Gbps,8微秒时延,后续有优化版本能做到5微现今的弹性RDMA能交付3000万messagepps,请注意,RDMA的message最小是一字节,最大是2GByte,这个message跟packet不是一一映射关系。比如一个2GByte的message,按1ElasticRDMA:业界首个云上普惠,大规模弹性RDMA加速能力应用生态APAP生态差异化能力差异化能力四、万字干货分享|阿里云CIPU技术解析>82 我们希望焦点在哪里呢?弹性RDMA不仅仅是做HPC应用或者Al应用或者数据库应用。OpenAPl、IntelMPl、libfabric、NCCL、UCX、SMC-R,这些都可以代码零修改的兼利用率会提升70%。也就是说比如800Gbps的系统和一个1.6Tbps的系统,如果通过多路径使得带宽利用率提高70%,这个意味对于现今大带宽Al来说,是核心竞争力。弹性RDMA解决当前云上Al高性能网络的诸多内生难题多轨道多轨道多租户网络流量干扰大象流多打1问题解法四、万字干货分享|阿里云CIPU技术解析>果带32台机器,这32台机器客户申请和释放几次后,这32台机器在同一个ASW会GPU完整的端到端拥塞控制。因此需要把PCle相关的只解决网络。同样我们希望把去多轨道,回到通用网络,构建同pod对等网络来解决四、万字干货分享|阿里云CIPU技术解析>84 CIPU计算机体系结构实质加速数据这些技术的全部实质是:数据是有重力的,搬运和移动数据的成本极大。CIPU数据加速的目的,就是通过CIPU芯片的数据控制分离,减据的offchip等),来提升处理吞吐和降低业务平均时延和长尾时延功耗问题和通信墙问题。所以算力是不需要任何加速的。CIPU是同时完成安全容器和CIPU和DPU/IPU关系网络交换芯片什么,不做什么,这是最重要的。 上图中二维码内容是我在去年6月写了一篇文章叫《七千字详解阿里云的CIPU技术架四、万字干货分享|阿里云CIPU技术解析一]阿甲一2023年7月26日14:00五、揭秘!CIPU最新秘密武器-弹性RDMA的技术解析与实践89五、揭秘!CIPU最新秘密武器-弹性RDMA的技术解析与实践作者:徐成,阿里云资深技术专家简介:弹性RDMA(ElasticRemoteDirectMemoryAccess,简称eRDMA),是阿里云自研的云上弹性RDMA网络,底层链路复用VPC网络,采用全栈自研的拥塞控制CC(CongestionControl)算法,兼具传统RDMA网络高吞吐、低延迟特性,同时支持秒级的大规模RDMA组网。基于弹性RDMA,开发者可以将HPC应用软件部署在云上,获取成本更低、弹性更好的高性能应用集群;也可以将VPC网络替换成弹性RDMA网络,加速应用性能。CIPU最新秘密武器——弹性RDMA的技术解析与实践徐成阿里云资深技术专家直播时间:2023年8月2日14:002023年8月2日,阿里云弹性计算团队与智东西公开课联合出品的系列课程【阿里云弹性计算技术公开课】第五节正式播出,阿里云资深技术专家徐成带来了主题为《CIPU最新秘密武器--弹性RDMA的技术解析与实践》的课程分享,本期课程在阿里云官网、智东西官网、钉钉视频号、阿里云微信视频号、阿里云开发者微信视频号、阿里云创新中心直播平台&视频号等多平台同步播出。基于弹性RDMA,开发者可以将HPC应用软件部署在云上,获取成本更低、弹性更好的高性能应用集群;也可以将VPC网络替换成弹性RDMA网络,加速应用性能。本篇文章根据徐成的课程整理而成,供读者阅览:03eRDMA的应用场景与实践>>1)内核态TCP在数据中心应用中逐渐遇到瓶颈内核态TCP/IP协议栈广泛应用于数据中心的网络中,但随着分布式应用、大数据、Al内核态TCP在数据中心应用中逐渐遇到瓶颈r>内核态TCP/IP协议栈在数据传输过程中会涉及多次数据拷贝。有研究显示在某些场景下,数据拷贝可以占到整体CPU开销的50%以上。为了更高性能,数据拷贝RDMA(RemoteDirectMemoryAcbufter动和TCP/IP相比,RDMA具有如下五、揭秘!CIPU最新秘密武器-弹性RDMA的技术解析与实践>零拷贝(Zero-copy)应用程序可以直接执行数据传输:数据能够被冲区或者能够直接从缓冲区里接收,而不需要像TCP/IP一样,数据会被复制到网内核旁路(Kernelbypass)应用程序可以直接在用户态执行数据传输,不需要在目前传统环境(非云网络环境,我们称为传统,或者线下),高中低以太交换机以太交换机五、揭秘!CIPU最新秘密武器-弹性RDMA的技术解析与实践>93RoCE是将IB协议承载到以太网上,RoCEv1将IB的链路层替换成以太链路层,云计算的普及国E理阿里云的ECS架构图。ECS实例网络通信使用VPC网络,VPC网络共享底层物理网络,但保证了不同用户之间的网络隔离和数据安全。弹性。计算资源可以根据实际的需求,分秒级扩容同VPC内的实例由于隧道号的不同,会处于两个不同的路由平面上,因此不同VPC内>云上环境使用RDMA的挑战VMVM随着上云业务的不断丰富,内核TCP/IP逐渐不能满足云数据中心对网络通信性能的要最直观的云上RDMA部署方式,是针对RDMA网络单独组一张网,从实践来讲,会存络(网卡、交换机),最终会均摊到终端用户的使用成本上。运维复杂。无损网络需要对交换机、网络做相应的配置,此外PFC风暴/PFC死锁>>1)云上RDMA的另一种部署选择(OverlayRDMA)云上RDMA的另一种部署选择(OverlayRDMA)我们的办法前面提到云服务器之间已经有一个VPC虚拟网络互联了,直接利用VPC网络承载RDM五、揭秘!CIPU最新秘密武器-弹性RDMA的技术解析与实践> 性能。基于VPC的RDMA是overlay的,它需要多一层隧道封装处理,因此对于在Al分布式训练的场景下,高吞吐RDMA可以产生这样的流量,进而影响端到端和现有硬件/设施融合。现有的云基础设施中已经包含了为支持热升级和热迁移。它们是在云环境下为用户提供高可用的重要手段。集成了短HypervisorViuo-netm短HypervisorViuo-netm用应用>>R持持规模部署支持安全组高可附rdms设音netdevke照动NIC功RDMA动能阿里云的ECS服务器是通过VirtlO-Net的设备来接入VPC虚拟网络,VirtlO-Net为了不改变用户原本的VPC组网,换句话说就是不增加额外的VPC网络或私网IP,所传统形态的RDMA网卡既包含RDMA功能,也包含以太功能。反映到操作系统内部,我们看到的设备关系就如上图左侧所示,而eRDMA实现的时候采用的上图右侧的实现RDMA操作全集RDMA操作全集绝大多数应用都是基于RC语义,它是类似于TCP,提供了一个可靠且保序的一个点对应用都无需改动,就可以平滑的运行于eRDMA上。变化(延迟、丢包等)。在有损的网络环境中依然拥有优秀的性能表现。内存。CIPU充足的片上资源就可以使得在RDMA资源规模膨胀之后,不会出现网五、揭秘!CIPU最新秘密武器-弹性RDMA的技术解析与实践>。热迁移,物理机宕机不影响用户的实例运行,可以很快迁移到其他可用的物理配置简单、部署灵活。eRDMA不仅复用了VPC网络的基础设施,也复用了VPC的1)应用使用RDMA的典型场景首先回顾一下RDMA的典型应用场景。RDMA作为通信协议,第一个场景是数据点对点传输。由于RDMA的协议特点,使用RDMA进行数据传输时,可以根据数据量大小应用使用RDMA的典型场景·大数据传输:协商+内存分配+单边操作P2P直通数据流数据传铺 2)基于eRDMA的生态应用RDMA可以使用现有的通讯库,比如Jverbs、NCCL、L基于eRDMA的生态应用o用M五、揭秘!CIPU最新秘密武器-弹性RDMA的技术解析与实践>104eRDMA加速应用,构建性能竞争力HPC场景HPC场景在典型的应用场景里,弹性RDMA相对于TCP能取得比较明显的收益,比如:在Al场景里,NCCL可以提升30%左右;在Redis场景里可以提升130%,在Spark大数据场景里可以提升30%;在HPC场景可以提升20%。总的来说,使用RDMA通信可以带来性能提升的业务特征有以下两类:网络敏感型,即静态时延和长尾时延都有较大需求的应用。网络通信的延迟不仅包括端侧的时延,也包括网络传输的时延。使用eRDMA的时候,服务器之间的网络通信经过的交换机越少越好,这样可以有效的降低网络传输的时延。在阿里云里可以结合部署级的策略,使实例之间的物理距离最近。降低网络部分的通信耗时,进而达到性能的最优。网络负载型,即网络在应用中CPU占比的开销比较大。RDMA的协议卸载和零拷贝就五、揭秘!CIPU最新秘密武器-弹性RDMA的技术解析与实践 可以对这类应用有比较明显的性能提升(Al分布式训练),再结合多路径的优化,可以最佳实践:以netacc加速Redis应用(1)接下来,我们介绍如何通过简单的方式,来直接体验eRDMA对应用的加速效果。三购买ECS8代实例.我们需要首先购买ECS服务器。eRDMA首先在ECS的第8代实例上支持,所以实例规格选择8代实例的y系列(倚天可,本次演示选择g8ae机型的4xlarge规格,数量2台。为了更方便地使用eRDMA,我们可以在选择操作系统时,勾选安装=- 我们需要首先购买ECS服务器。eRDMA首先在ECS的第8代实例上支持,所以实例规格选择8代实例的y系列(倚天CPU)、i系列(intelSPRCPU)或者a/ae系列(AMDGenoaCPU)均可,本次演示选择g8ae机型的4xlarge规格,数量2台,主要为了更方便地使用eRDMA,我们可以在选择操作系统时,勾选安装eRDMA驱动。这翻在下一页的网络和安全组配置中,我们翻在下一页的网络和安全组配置中,我们时>最佳实践:以netacc加速Redis应用(2)网smRwe.Rg**ENaIrm.WmsRmssmnttccanBEaaFtaF.TRE*msuFEmaneitmarutie*rateaDseh*#最佳实践:以netacc加速Redis应用(3)_**山-mmr*14.:--hcm-t我们简单测试了100clients,4threads,循环500万次的set操作。第一次操作的是TCP的结果,可以看到最后程序打印的是一个25万左右的rps。 c_run的命令。测试结果是使用NetACC的加速效果,可以看到最后打印的结果是62万。这次测试的结果是eRDMA+NetACC的性能是TCP的2.46倍。场景下使用eRDMA也不会有其他额外的独有配置,以上就是本次课程的全部内容。阿里云弹性计算技术公开课弹性RDMA的技术解析与实践2023年8月2日14:00-扫码预约-六、技术分享|软件跨架构迁移(X86->ARM)的阿里云弹性计算技术公开课2023年8月23日,阿里云弹性计算团队与智东西公开课联合出品的系列课程【阿里云件跨架构迁移(x86->ARM)的原理及实践》的课程分享,本期课程在阿里云官网、智东针对阿里云倚天实例的软件迁移,阿里云为开发者提供了迁移工具EasyYiTian和性能动化扫描可以一键生成分析报告。KeenTune通过Al算法与专家知识库的有效结合,16*通用寄存器16*通用寄存器>六、技术分享|软件跨架构迁移(X86->ARM)的原理及实践>01软件迁移的原理0203典型迁移案例介绍O4阿里云跨架构迁移服务1.软件迁移的原理大家都知道,X86架构在数据中心场景和个人家用的PC场景是十分常见的芯片架构,而ARM架构是在移动互联网兴起之后,才在低功耗设备上逐步占领了市场。同时,ARM芯片就开始在慢慢布局数据中心的业务了,最近几年也呈现了爆发的趋势。软件迁移的原理32*通用寄存器RISC,单指令单cyle那么为什么软件从X86架构迁移到ARM架构需要一定的工作量呢?它背后的原因是,这两个芯片的架构在寄存器和指令集的设计上有根本性的差异,主要体现在两个部分:令集。目前X86上使用AVX512指令集,ARM上使用SVE2指令集。这里几乎所有指1注:CPU的Load/Store指令是用于从内存中加载数据到寿存器或将数据从奇存器存储到内存的指令。 单,即n类的对象,它的局部变量叫x,我们给它赋值为42,在X86上的编译我是通这个汇编指令就是把42这个立即数存入rax指向的内存位置中。这个rax是一个通用内存里写,而从内存里把数据读到计算机上,我们称在ARM平台上,我们会把这段代码翻译成两行汇编指令。首先我们把立即数42移动到软件迁移的实施自上而下制定软件迁移渊略自上而下制定软件迁移渊略根据软件类型制定迁移策略解释器编译器特有指令操作系统特有指令计算芯片加速指令成AR,ko李4根据客户使用的软件类别选定策略:商用软件:直接联系软件供应商,获取支持ARM果构的软件,以及相道配的软件框架/教件座。开源软件:通过开源软件的宜网、主流的镜像源站点或开源社区,秩取支持ARM梁构的软件,软件框架/软件库。白研软件:根据下述的多种因素,制定迁移计划,常见的获取方式包括:/packages/packagesFind;httpsi//rpmfind,net/linux/mmzhtml/search.php7oueryerpm(aaFind;httpsi//rpmfind,net/linux/mmzhtml/search.php7oueryerpm(aahitps://scosy

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论