版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1面向超算互联网的算力调度与资源协同平台与技术深圳清华大学研究院面向超算互联网的算力调度与资源协同平台与技术超算互联网的建设及其技术难题据国际超级计算机大会(ISC)2019年公布的最新数据显示:目前全球速度TOP500超算设备中,中国境内有228台超算上榜,上榜数量第一,美国以117台位列第二。从总算力上看,美国超算占比为37.1%,中国超算占比为32.3%。我国超算中心发展迅速面向超算互联网的算力调度与资源协同平台与技术3超算中心难以运营自循环超算中心接入带宽不足,大计算量任务无法及时上传各超算中心采用异构硬件,用户使用超算门槛较高单纯提供算力的模式面临激烈竞争,机时售价过低超算中心电力、带宽、人员等成本负担较高,难以盈亏平衡超算更新换代迅速、硬件快速折旧,初始投入难以有效回收各超算中心相互独立,单一超算中心组建市场化团队不经济各超算中心有力地支撑了国家科研工作与产业升级、抢占了技术制高点,但也面临着建设投资无法收回、运营入不敷出等难题,各级政府的财政补贴与科研经费支持仍是超算中心的主要收入来源,超算中心难以实现自循环式的可持续发展。面向超算互联网的算力调度与资源协同平台与技术4以超算互联网为支撑构建超算服务生态将各大超算中心接入高速专网,开放统一接口,支持将任务快速可靠的分发到目标集群资源完成计算,屏蔽底层硬件的异构性面向应用领域平台提供服务接口,建立超算软件生态建立统一的市场与运营管理团队,为用户提供一流的服务面向超算互联网的算力调度与资源协同平台与技术面向超算互联网的算力调度与资源协同平台与技术国家超算互联网优势与服务领域6多物理复杂体系科学计算应用平台高性能多尺度生物与材料计算平台面向环境治理与灾害防治的高性能计算平台超算互联网除服务教学科研、工程计算等传统典型超算应用外,将重点开拓AI大数据、互联网/视频等民用超大算力市场,并重点建设“多物理复杂体系科学计算应用平台”等应用软件平台。教学科研AI/大数据工程计算互联网/云计算支持方便的大数据量在线传输与计算支持灵活的任务调度找到适合的超算中心丰富的软件生态方便用户使用多超算中心协同支持更大规模计算面临的技术问题算力调度问题多资源匹配问题,通过调度超算的带宽、CPU/GPU、延迟、软件资源,满足用户对于计算功能、延迟、带宽的需求传输带宽问题目前还处在寄硬盘的状态,即使有网络,带宽因为传输协议的问题,利用率不足40%激励与信任的问题面向超算互联网的算力调度与资源协同平台与技术各个超算属于不同的管理实体,虽然有大量资源可以利用,怎么激励超算加入,建立可信任的机制是大问题算力调度平台面向超算互联网的算力调度与资源协同平台与技术工作基础与运营商、央企集团、地方政数局合作,构建基于边缘计算的算力调度平台,为时延敏感、大带宽等业务提供服务面向超算互联网的算力调度与资源协同平台与技术算力平台架构运营系统边缘云管控力系统(一级)运营系统边缘云管控力系统(省级)运营系统边缘云管控力系统(省级)CDNAPPPaaS能力虚拟计算资源虚拟存储资源虚拟网络资源虚拟加速资源软件资源层虚拟机Hypervisor容器Engine虚拟层边缘云基础设施资源层(ECI)硬件资源层计算资源存储资源
网络资源服务器/存储/网络/加速卡加速资源云平台管理VIMCIMPIMVI-HAEF-VIVI-EICM-VIA省CDNAPPPaaS能力虚拟计算资源虚拟存储资源虚拟网络资源虚拟加速资源软件资源层虚拟机Hypervisor容器Engine虚拟层边缘云基础设施资源层(ECI)硬件资源层计算资源存储资源
网络资源服务器/存储/网络/加速卡加速资源云平台管理VIMCIMPIMVI-HAEF-VIVI-EICM-VIB省面向超算互联网的算力调度与资源协同平台与技术10平台管理架构服务管理层调度分发层算例服务层服务管理平台统一运营支撑系统运营管理子系统OMS(华为)OMS(中兴)OMS(杭研)全局调度控制中心TCS(主)TCS(备)省会
算力节点地市
算力节点区县
算力节点省公司1省公司2省公司31内容中心·········上海节点面向超算互联网的算力调度与资源协同平台与技术11北京节点广州节点成都节点面向超算互联网的算力调度与资源协同平台与技术基于集成接口的资源协同与任务调度资源请求:超算客户向中央管理器提出应用要求资源供应:超算资源所有者提供其资源描述平台提供:任务与资源之间的对接匹配的通知在执行期间透明访问任务的文件机会调度:在有机会时调度资源任务与资源之间的对接通过匹配器匹配资源与任务需要抢占当前资源时的保存检查点作业状态从另一个可用资源中的检查点状态重新启动作业超算中央控制器超级计算集群1超级计算集群2超级计算集群3超级计算集群4超级计算集群5超级计算集群63.任务编排策略2.集群资源信息4.射映指3.任务编排策略2.用户和任务信息5.目标集群的IP地址1.U
RL请求7.计算结果6.原始数据用户代理(任务提交网址)DNS服务令器资源所有者代理(适合该任务所需资源)资源请求匹配通知资源供应匹配通知协议对接集中调度管理系统总体架构面向超算互联网的算力调度与资源协同平台与技术13基于形式化语言的算力与任务的自动匹配面向国家级超算中心计算资源特征,研究资源信息统一描述方法,形成面向超算的标准资源描述规范,研究资源信息分发与聚合方法,提高信息分发与聚合的效率与可靠性,支持用户充分、便捷、有效地使用超算资源面向超算互联网的算力调度与资源协同平台与技术14分层架构从超算1从超算2从超算3从超算N···
···算力池主超算集群1主超算集群2算力匹配层抽象层
API应用层其他数据调度适配层多物理复杂体系多尺度生物与材料环境治理灾害防治…天河神威…面向超算互联网的算力调度与资源协同平台与技术算力资源与任务的自动匹配资源匹配流程超算算力匹配中心资源供给实体资源需求实体匹配通知面向超算互联网的算力调度与资源协同平台与技术公告公告匹配通知资源对接资源描述规范使用属性(如类型,请求等级,服务要求)描述资源请求和资源供给公告协议需求和供给实体定期将资源描述传达给算力匹配中心对接资源基于资源请求者与供给者的资源进行匹配选择与请求者匹配度最高的进行适配优先匹配请求者必要资源,其次匹配请求者非必要资源同时满足系统的策略限制以及负载均衡要求智能传输平台面向超算互联网的算力调度与资源协同平台与技术传统TCP协议无法应对高带宽环境因为TCP
协议慢启动的原因,传统TCP在高带宽环境下表现不如人意,带宽利用率极差。下图展示了在(400Mbps,160ms
RTT)环境下,两组TCP流量传输的情况面向超算互联网的算力调度与资源协同平台与技术18美国科研网络Internet2在1Gbps带宽条件下的测试Internet2
path
between
NICT
in
Japan
and
UIC
in
Chicago1Gbps
and
200ms
RTTOne
ideal
TCP
flow
testing,
followed
by
1
TCP-SACK
flow
testingPa
cke
t
los
sTim
e
(RTT)Cong
e
s
tion
a
voida
ncePa
cke
t
los
sPa
cke
t
los
scw
ndS
low
s
ta
rtPa
cke
t
los
s22,00010Gbps800046
minutes37
minutes 37
minutesTCPbigdecreaseslowincrease面向超算互联网的算力调度与资源协同平台与技术TCP/QUIC均对非拥塞丢包很敏感当前的丢包分类方法有如下不足:①
普适性差(不同网络&
网络动态性)②
阈值调整设置难度大③
不易选取判断标准④
相关性不直观(横&
纵方向)①
RTT>5ms面向超算互联网的算力调度与资源协同平台与技术①
RTT>5s③
ECN?③
RTT?TCP对非拥塞丢包很敏感基于机器学习丢包分类器丢包分类定义:引入机器学习,收集数据,分析属性,提取特征;选择训练方法,训练算法模型;将丢包分类模型运用于拥塞控制算法,实现智能化丢包类型区分。意义:优化与提升网络数据传输性能(吞吐量、页面加载时间等)可选式、自动化传输协议机制(可部署性)检测丢包特征提取传统拥控新型拥控拥塞
非拥塞面向超算互联网的算力调度与资源协同平台与技术丢包分类器设计架构?
?
?
??
?
?
??
?
?
??
?
?
??
?
?
??
?
?
?
??
??
??
??
??
?面向超算互联网的算力调度与资源协同平台与技术?
?面向超算互联网的算力调度与资源协同平台与技术特征选取LostDist=3ConstantLossPktCount=5
LostCount=1LostPacketCount=5LostDist=3ConstantLossPktCount=9
LostCount=2LostPacketCount=4LostDist=100ConstantLossPktCount=2LostCount=1LostPacketCount=2ACK200ACK201…5pkts4pktsACK1ACK2ACK3ACK4ACK5No
loss2pkts拥塞丢包通常会连续丢失多个数据包 丢包距离链路拥塞将引起排队延迟RTT丢包类型∝丢包距离/密度23面向超算互联网的算力调度与资源协同平台与技术实验结果PLT:首次连接vs.后续连接PLT:部署vs.未部署丢包分类器better基于多路径与快速TCP的传输加速器优势:外接设备,动态插拔,灵活可扩展传输效率高,持续稳定有效应对长时间或不规律超大文件面向超算互联网的算力调度与资源协同平台与技术25传输加速器服务模式外接式硬件设备提高网络传输速率
提高网络传输稳定性帮助用户接入教育网和IPv6网络国家超算云专网服务网络+设备租赁产品形态产品功能市场化方式面向超算互联网的算力调度与资源协同平台与技术26基于区块链的可信平台面向超算互联网的算力调度与资源协同平台与技术基于区块链技术的超算云优势:区块链方式存储超算核心数据,安全可靠,且可以非常方便的按照业务需求设置不同访问权限;区块链数据具有不可篡改特征,地方部门无法隐瞒真实数据,完美解决分级管理带来的信息不透明、信息不真实等问题;数据一致化存储与管理,查询和使用效率显著提升,有效提升超算云的监管力。算力使用数据业务核心信息区块(内部)文件系统修改数据机房管理维护数据账户管理数据…
…面向超算互联网的算力调度与资源协同平台与技术28基于区块链技术的超算云文件系统共享,在数据中心顶层看到各个数据中心的共享文件系统,保证文件系统的一致性文件系统上链UserID统一根目录统一
认证权限统一ID系统上链记录用户的操作过程,记录用户使用的算力/
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 道路交通环境保护-知到答案、智慧树答案
- 大学物理C(上)-知到答案、智慧树答案
- 江苏省南京市秦淮区重点中学2024届中考物理最后冲刺卷含解析
- 供应链资源整合技巧
- 供应链协同风险评估
- 江苏省南京市东山外国语校2023-2024学年中考英语模拟试卷含答案
- 江苏省南京联合体【栖霞、江宁、雨花】重点达标名校2024年初中化学毕业考试模拟冲刺卷含解析
- 江苏省昆山市、太仓市2024年中考考前最后一卷数学试卷含解析
- 江苏省金湖县重点名校2024届中考英语全真模拟试卷含答案
- 银行个人求职简历3篇
- 专升本英语基础词汇
- 2023学年完整公开课版除杂
- 2022-2023学年辽宁省大连市七年级(下)期中地理试卷-普通用卷
- 矿山应急救援业务理论知识考试题库-下(判断400题)
- 茶艺知到章节答案智慧树2023年威海职业学院
- 2023江苏盐城市城投集团招聘4人笔试备考题库及答案解析
- 腹腔镜下全子宫切除术护理查房
- 部编版六年级语文下册根据语境写词语(小升初归类练习)
- 清丰2023年事业单位招聘考试真题及答案解析
- 地震演练脚本(疏散+救援)
- 中等职业学校英语课程标准(2020年版)(word精排版)
评论
0/150
提交评论