(计算机系统结构专业论文)面向科学计算的操作系统核心研究.pdf_第1页
(计算机系统结构专业论文)面向科学计算的操作系统核心研究.pdf_第2页
(计算机系统结构专业论文)面向科学计算的操作系统核心研究.pdf_第3页
(计算机系统结构专业论文)面向科学计算的操作系统核心研究.pdf_第4页
(计算机系统结构专业论文)面向科学计算的操作系统核心研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机系统结构专业论文)面向科学计算的操作系统核心研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

面向科学计算的操作系统核心研究:摘要 摘要 超级计算机应用的性能很大程度上受到硬件、系统软件、算法和应用软件的影响, 针对各类具体应用进行合理的系统软件优化与定制可以提高性能。 科学计算是当前超级计算机系统的一个重要应用方向。科学计算类应用的主要特点 是数据量大,计算时间长,系统负荷重。本文针对科学计算应用的特点,讨论了操作系 统对科学计算性能的影响,主要包括内存管理和进程调度策略,以及操作系统可能引入 的噪声。在讨论结果的基础上,本文分析了针对科学计算应用的几种基于操作系统的可 能的优化方法,并在l i n u x 操作系统中进行了尝试。 本文提出并且实现了一种在用户空间为应用程序分配超级页面的方法,作为e i n u x 操作系统中内存管理策略的补充。该策略利用l i n u x 系统支持的内核模块,以重定向系 统调用的方式为应用程序直接分配以超级页面为单位的物理内存。程序员能够自行选择 是否应用超级页面,或同时使用传统页面和超级页面。本文对超级页面内存分配方法进 行了不同角度的性能测试评价,结果表明该方法在并行计算应用中对节点间通信性能和 内存虚实地址转换性能均有提高。 本文对l i n p a c k 测试程序进行了基于m ) ,r i n e t 网络的节点间通信状况统计分析,包 括通信所占用时间和通信数据包在长度上的分布,以及不同的问题规模、数据分块大小 对通信状况的影响,确定了l i n p a c k 测试程序在机群系统上的通信特点。应用上述两项 工作,在曙光4 0 0 0 a 超级计算机上使用超级页面进行了l i n p a c k 性能测试,与使用传统 页面的测试结果对比,在1 0 2 4 个处理器的规模下,运算效率提升了4 。 本文研究结果的主要贡献在于:1 将曙光4 0 0 0 a 在2 0 0 4 年6 月的世界超级计算机 t o p5 0 0 排行榜上的排名提升到了第1 0 名,提高了两个位置;2 使m y r i n e t 网络的通信 带宽在包长8 m b 时产生了1 7 5 的增幅。 关键词:科学计算,操作系统,优化,内存管理,超级页面,噪声 面向科学计算的操作系统核心研究: a b s t r a c t r e s e a r c ho no p e r a t i n gs y s t e mk e r n e lf o rs c i e n t i f i cc a l c u l a t i o nb a s e d a p p l i c a t i o n s c h e n y a o ( c o m p u t e ra r c h i t e c t u r e ) d i r e c t e db yp r o f s u nn i n g - h u i t h ep e r f o r m a n c eo fas u p e r c o m p u t e ri sm a i n l yd e c i d e db yh a r d w a r e ,s y s t e ms o f t w a r e , a l g o r i t h m sa n da p p l i c a t i o ns o f t w a r e a p p r o p r i a t eo p t i m i z a t i o n sa n d c u s t o m i z a t i o n so ns y s t e m s o f t w a r ef o re a c h c a t e g o r y o fa p p l i c a t i o n sc a ni n c r e a s e a p p l i c a t i o np e r f o r m a n c e o n s u p e r c o m p u t e r s s c i e n t i f i cc a l c u l a t i o ni sa ni m p o r t a n tu s a g eo fs u p e r c o m p u t e r s a p p l i c a t i o n sb a s e do n s c i e n t i f i cc a l e u l a t i o nu s u a l l yh a v el m g ew o r k i n gs e t ,h e a v ys y s t e ml o a d ,a n dt h e r e f o r en e e da l o to ft i m et of i n i s h t h ei n f l u e n c e so ft h eo p e r a t i n gs y s t e mo np e r f o r m a n c eo fs c i e n t i f i c c a l c u l a t i o na l ed i s c u s s e di nt h i s d i s s e r t a t i o n ,i n c l u d i n gn o to n l yt h e i n f l u e n c e so fo s m e m o r ym a n a g e m e n ta n dp r o c e s ss c h e d u 【l i n gs t r a t e g i e s , b u t a l s ot h e i m p a c t o fn o i s e s g e n e r a t e di no sk e r n e l a n ds o m e b r i e f a n a l y s i ga n de x p e r i m e n t s a r ec a r r i e do u tu p o naf e w p o s s i b l eo p t i m i z i n gm e t h o d so nt h eo p e r a t i n gs y s t e mf o rs c i e n t i f i cc a l c u l a t i o n ,b a s e do n a b o v ed i s c u s s i o nr e s u l t a s u p e rp a g ea l l o c a t i n gm e c h a n i c s f o ru s e r p r o g r a m s i si m p l e m e n t e di nt h i sd i s s e r t a t i o n , a sas u p p l e m e n t o ft h em e m o r ym a n a g e m e n ts u b s y s t e mi nl i n u xo s i tc r e a t e ss u p e rp a g e f r a m e sw i t h l e g a c y4 k b s i z ep a g ef r a m e s ,a n d d i r e c t l ya s s i g n st h e m t ou s e r p r o g r a m st h r o u g h r e a l l o c a t e ds y s t e mc a l l s ,w h i c ha r ed o n eb yak e r n e lm o d u l es u p p o r t e di nl i n u x t h i s m e c h a n i c si sn o tt r a n s p a r e n tt oa p p l i c a t i o np r o g r a m m e r s ,a st h e yc a nd e c i d eb yt h e m s e l v e s w h e t h e r s u p e rp a g e ss h o u l db eu s e di nt h e i rp r o g r a m s ,o ra d o p tb o t hs u p e rp a g e sa n dl e g a c y o n e ss i m u l t a n e o u s l y t h e nas e r i e so fp e r f o r m a n c ee v a l u a t i o n sa r ep e r f o r m e do nt h i ss u p e r p a g e b a s e dm e m o r y m a n a g e m e n to p t i m i z a t i o n t h er e s u l t ss h o wt h a to u ro p t i m i z a t i o nh a sa p o s i t i v ei m p a c to nt h ep e r f o r m a n c eo fi n t e r - n o d ec o m m u n i c a t i o na n dt h ep e r f o r m a n c eo f a d d r e s st r a n s l a t i o ni nl o c a lv i r t u a lm e m o r y , t h i sd i s s e r t a t i o na n a l y z e st h ei n t e r - n o d ec o m m u n i c a t i o n p a t t e r no fh i g hp e r f o r m a n c e l i n p a c k ( h p l ) b e n c h m a r kp r o g r a m o n m y r i n e ts y s t e m t h et i m ec o n s u m p t i o no f c o m m u n i c a t i o na n dt h ep a c k e t sd i s t r i b u t i o ni nl e n g t ha r eo b s e r v e da n d e x a m i n e d ,a sw e l la s t h ei m p a c to f p r o b l e ms i z en a n dd a t ab l o c ks i z en bo nt h ec o m m u n i c a t i o np a t t e r n ,t h e c h a r a c t e r i s t i c so f h p lb e n c h m a r k p r o g r a m si n t e r - n o d ec o m m u n i c a t i o np a t t e r ni nc l u s t e r sa r e t h e nd e t e r m i n e d w i t ht h eu n d e r s t a n d i n go f i t sc o m m u n i c a t i o np a t t e r na n do u rs u p e rp a g e o p t i m i z a t i o na p p l i e d ,ah p lp e r f o r m a n c eb e n c h m a r ki sp e r f o r m e do nt h ed a w n i n g4 0 0 0 a s u p e r e o m p u t e r a no v e r4p e r c e n tp e a kp e r f o r m a n c ei m p r o v e m e n ti so b s e r v e d c o m p a r i n g t o t h er e s u l to b t a i n e dw i t h o u t s u p e rp a g eo p t i m i z a t i o n ,u n d e rt , 0 2 4c p u s s c a l e , t h em a i nc o n t r i b u t i o no f t h i sd i s s e r t a t i o na r e :( 1 ) d a w n i n g4 0 0 0 a s u p e r c o m p u t e r ,st w o p l a c e si n c r e m e n ti nt h et o p 5 0 0l i s to fj u n e2 0 0 4 ( w i t h1 0 t hp l a c e ) ;( 2 ) a b o u t17 5 p e r c e n t i n c r e m e n to nt h eb a n d w i d t h o f m y r i n e tw h e n u s i n g8 m bp a c k e t s k e y w o r d s :s c i e n t i f i c c a l c u l a t i o n ,o s ,o p t i m i z a t i o n ,m e m o r ym a n a g e m e n t ,s u p e rp a g e ,n o i s e 声明 我声明本论文是我本人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,本论文中不包含 其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做 的任何贡献均已在论文中作了明确的说明并表示了谢意。 作者签名:唱,曜 日期: 沙, 彩 论文版权使用授权书 本人授权中国科学院计算技术研究所可以保留并向国家有关部门或机 构送交本论文的复印件和电子文档,允许本论文被查阅和借阅,可以将本 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编本论文。 ( 保密论文在解密后适用本授权书。) 储鹳。手师签贰飙w 、岳,吖丫 第一章引言 第一章引言 本章主要介绍科学计算应用的特点、操作系统在大规模科学计算环境中所起的作用 及其对性能的影响,并且概述本文的主要工作。 1 1 科学计算的特点 这里的科学计算,指的是在计算机发明后利用计算机进行的科学领域的数值计算。 科学计算问题大体上包括如下三个涵义【1 】: 1 ) 问题本身以及问题的解答都能够使用数学语言予以精确描述; 2 ) 如果要使用通常的数学方法来给出我们所需要的数值答案,会很麻烦或者根本 无法给出; 3 1 问题以一定的科学与技术知识作为背景。 科学计算领域主要包括气象预报、地质勘探、天体研究、基因研究、生命科学等, 如果将工程设计也归类到广义的科学计算中,那么核武器模拟、航空航天设计、汽车设 计、材料设计、药物筛选等都应属于科学计算应用。此类计算的特点在于大数据量的浮 点运算,数值的变化范围广,属于典型的c p u 密集型应用,其中部分同时属于i 0 密 集型。科学计算应用对计算平台的性能要求可以说是业界最高的,高速度、高精度、大 容量存储和高自动化性能缺一不可。由以上特点决定,较大规模的科学计算往往需要在 超级计算机上进行。 目前在曙光4 0 0 0 a 超级计算机上运行的典型科学计算程序有用于气象预报的 m m 5 1 2 1 和用于生物蛋白质计算的m p i b l a s t 3 等。另外,常用来对计算机系统进行科 学计算性能评价的l i n p a c kb e n c h m a r k 4 和n a s p a r a l l e lb e n c h m a r k ( n p b ) 5 等测试程 序也属于此类应用。 1 2 提升科学计算性能的途径 大规模科学计算由于涉及到海量的数据,即便是在高性能的超级计算机上进行,完 成一次完熬计算任务的时间往往也是要以周甚至月做单位。所以提高科学计算的性能一 直是计算机学科的一个主要研究方向。提高科学计算性能可以从硬件和软件两方面实 现。 从硬件角度提升科学计算性能的手段主要有: 1 ) 提高单个处理器性能和内存带宽,降低内存访问延迟: 2 ) 扩展并行规模,即增加处理器的数量和内存的容量; 3 ) 提高并行通信硬件的带宽,缩小通信延迟。 对以c p u 占用为主而几乎不需要各子进程间进行的计算密集型科学计算任务来 罔家智能计算机研究中心为l :海超级计算中心研制的机群体系的超级计算机,本文研究的一l 矗 一l 一 面向科学计算的操作系统核心研究 说,1 ) 和2 1 有良好的效果。而当计算任务的颗粒度较细,各子进程问需要经常性的同 步时,对系统整体性能影响最大的是通信子系统的效能,故3 1 是最为有效的办法。但是 无论如何,硬件更新换代的速度相对人们不断发展的科学计算要求,都是难以满足需要 的,同时高昂的费用也不允许人们频繁的对硬件进行升级。并且,根据a m d a h l 定律, 并行计算的整体效率随着并行节点数的增加而下降。所以,根据所用硬件和具体应用的 特点,有针对性的对计算中使用的系统软件和应用软件进行优化,使硬件能够尽可能充 分的发挥出效能,是至关重要的。 通过软件上的优化以提升计算性能的手段主要有: 1 ) 重新编排应用软件自身,优化资源使用效率,降低串行执行部分在全部代码中 所占的比例; 2 ) 针对操作系统的资源管理算法进行优化,使管理策略更适合应用程序; 3 ) 根据硬件的特点,针对操作系统和底层驱动程序进行优化,使软件能够充分利 用硬件资源,尽量完全发挥出硬件的性能。 4 ) 其中,从操作系统角度进行的优化具有适应面广、针对性强、入手点多和对应 用程序透明等特点,广泛为研究人员所采用。 1 3 操作系统对科学计算性能的影响“” 操作系统在计算机中负责管理硬件资源,并协调着所有其它系统软件和应用软件的 运行,所以计算机的运算性能在很大程度上受到操作系统的影响。对并行计算应用来说, 受节点机操作系统的影响主要有: 1 ) 操作系统的内存管理策略决定了计算进程的内存分配以及访问方式; 2 ) 操作系统的进程调度策略决定了计算进程的运行优先级别、c p u 使用情况; 3 ) 操作系统、驱动程序的节点内和节点间通信策略决定了计算进程间的通信方 式。 4 ) 操作系统自身会占用一定的硬件资源,与计算进程之间存在对硬件资源的竞 争。 为使操作系统能够更好的适应科学计算类应用,世界各地的研究人员不断努力做出 各种尝试。这个领域中的主要研究方向有轻载荷专用操作系统内核研究,以及将通用操 作系统应用在大规模并行计算上的相关研究。 最著名的轻载并行计算专用核心是美国s a n d i a 国家实验室和新墨西哥大学合作开 发的s u n m o s p u m a c o u g a r 。最早立项的s u n m o s 计划于1 9 9 1 年开始进行,其基本 目的是设计一种具有高可移植性同时保持高效率的大规模分布内存式并行机操作系统, 最初的目标是做出一个与n c u b e 2 并行计算机使用的v e r t e x 系统相兼容的操作系统。 但是s u n m o s 系统非常成功,在将硬件资源尽量保留给应用程序这一思想的指导下, 其微核心映像文件大小仅为3 2 k b ,在每个节点上内核占用的物理内存不超过2 5 6 k b 。 而在性能上,应用程序在节点之间消息传递的带宽达到了1 6 0 m b s ,零长度消息的传递 第一章 i 言 延迟仅2 5 m s 。相比之下,同一应用范围的o s f l a i d 操作系统自身消耗的物理内存达到 数m b ,并且消息传递的峰值带宽只有6 5 m b s 。p u m a 系统是s 1t n m o s 的后继版本, 提出的p o r t a l 消息传递机制首先实现了用户空间通信,通信效率远远高出当时的同类系 统,甚至和现在的大多数通用系统相比都毫不逊色。c o u g a r 是p u m a 移植到i n t e l p a r a g o n 并行机系统上的产物,保留了高效率的p o r t a l 通信机制。 目前,超级计算机多采用机群架构,好处是可以采用通用性好、成本相对低廉的商 品化微机部件。如果能沿用商品微机上发展成熟的通用操作系统,对超级计算机的可用 性和可维护性都是有很大意义的。所以,通用操作系统如l i n u x 、u n i x 甚至w i n d o w s 等从性能、稳定性、安全性等诸方面来看是否适合作为机群节点操作系统以运行并行计 算应用,以及它们各自在并行计算方面的优缺点、需要从何方面进行改进,也是一个重 要的研究方向。 以色列希伯来大学的a v ik a v a s 和d r o rgf e i t e l s o n 对l i n u x 、q n x 和w i n d o w sn t 做了一个横向比较,较详细的对比了它们作为机群节点操作系统时多方面的特性和性能 ( 例如t c p i p 通信带宽和进程的创建终止时间,如图1 3 1 和图1 3 2 ) 。结果是发现 了它们之间的若干差异,但是并没有任何一个相对另两者存在很明显的优势。在构建机 群系统方面,它们提供了相似的支持。 搠r i 自嘲| l 脚贮坤;瞎埔哟 。黼秘釉辞嘲l 毋毒陵哦 t 蹦畦孽b 诚棒5 潮帅瞄鞫捌 。“b i 越0 0 3 a , i 蚺崦$ 蜘馥耐 c 睁l x 删t 亭1 髓脚 o 馥鳓 图1 3 1 l i n u x 、q n x 和w i n d o w s n t 之间的t c p i p 流带宽对比 面向科学计算的操作系统核心研究 图13 - 2 l i n u x 、q n x 和w i n d o w s n t 之间的进程创建和终止所用时间对比 美国s a n d i a 国家实验室和新墨西哥大学的r o nb r i g h t w e l l 等( p u m a 的研究人员) 于本世纪初对通用操作系统l i n u x 在大规模并行计算机系统上的适用性做了较具体的 分析研究。他f f 的研究显示,在硬件没有达到性能均衡的机群如s a n d i a 的c p l a n t 系统 上,使用l i n u x 作为操作系统并不会对系统的整体运算性能造成额外的损害;只有当系 统的硬件架构已经显示出良好的均衡性时,系统软件才成为影响系统整体效率的关键因 素。在采用和a s c ir e d 超级计算机的计算节点配置相同的硬件组成的机群系统中, l i n u x 系统在节点间通信效率和可扩展性方面都和专用轻核心操作系统c o u g a r 存在显 著的差距,但当将p o r t a l 通信机制移植到l i n u x 系统后,通信性能有所改善。测试工具 选用了n a sp a r a l l e lb e n c h m a r k ( n p b ) 2 4 和c t h ,m p i 也被直接用来进行通信延迟 测试。图1 3 - 3 1 3 - 6 是部分测试中l i n u x 和c o u g a r 之间的对比。但是,l i n u x 的优点 是系统自身和应用程序都在不断的由全世界众多的程序员共同推动发展,在编译器和运 行库上有c o u g a r 无法比拟的优势,这使得n p b 的c g 项目测试中在计算节点数量较少 时l i n 比x 以微弱的优势反超了c o u g a r 。 尽管和专用的轻载操作系统相比在性能上没有优势,在并行计算领域l i n u x 仍然是 很有发展前景的计算节点操作系统。原因主要有几个: 1 ) l i n u x 自身以及多数应用软件均属于g n u 规定的开放源代码软件,使用费用低 廉,便于维护; 2 ) 对于当前基于机群构架的并行计算机系统来说,采用了大量商用p c 机部件, 而l i n u x 系统对这些硬件设备提供了非常优秀的支持; 3 ) 软件更新速度快,出现缺陷能及时解决,并且自行对软件源代码修改扩充十分 方便: 4 ) 越来越多的商业软件厂商正在进入或者是已经投入l i n u x 阵营。 第一童引言 图i3 - 3m p i 通信延迟对比 n u m b e ro fp m c e s s 0 惜 倒1 3 4n p b2 4 i s 项目成绩对比 5 o芏霜。上 堕塑型堂笪竺竺塑堡墨堕垫:! 竺塑一一 o 芝 童 图i3 - 5 n p b2 4 一c g 项目成绩对比 圈13 - 6c f h 成绩对比( 时问越低成绩越好) 当然,l i n u x 作为一种通用操作系统,侧重的是对各种常用硬件提供良好的支持, 以及让各种类型的应用程序都能正常运行并保持合理的性能。所以,针对科学计算这种 单一的具体应用,l i n u x 提供的性能就不是那样突出了。原因主要在于它的资源管理策 略和算法的复杂,网络通信效率较低,以及自身内核线程的冗余上。如果我们有针对性 的对通用l i n u x 内核进行一定的修改工作,精简内核自身需要占用的多余c p u 和内存 资源,同时优化改进内存和进程的管理策略,l i n u x 系统应该是可以在科学计算领域有 一番作为的。 一sp妄v*窟。e一耋ll口co 第一章引言 1 4 本文工作概述 本文的工作是基于国家“八六三”高技术研究发展计划基金项目2 0 0 2 a a l 0 4 4 1 0 进 行的,围绕曙光4 0 0 0 a 超级计算机开展,主要任务是为曙光4 0 0 0 a 实行l i n u x 操作系 统内核优化,提高科学计算性能。所以,本文的工程性较强,需要配合一定量的调试和 测试工作,并且具有有一定的创造性。本文工作主要有: i ) 对通用的l i m i x2 4 1 9 核心进行代码级调研分析,确定核心线程的工作以及内 存、进程管理策略; 2 ) 对高性能计算机性能测试工具软件l i n p a c k 的节点间通信进行简要测定分析, 确定l i n p a e k 在并行机上运行时的通信状况: 3 1 采取几种不同的可能优化方法分别对l i n u x2 4 1 9 核心以及应用程序进行优化 和性能测试分析,确定优化的可行性: 4 1 提出并且实现了一种基于超级页面的用户程序内存分配方式,作为l i n u x 内核 原有内存管理策略的补充,在一些具体应用中提高了内存访问性能和通信效 率。 全文共分为六章,内容按如下结构组织: 第一章即本章简要介绍了课题的背景和研究意义,以及本文工作的主要任务与全文 结构内容; 第二章对本文工作的硬件平台曙光4 0 0 0 a 超级计算机进行了简要介绍,包括硬件 配置情况和系统软件构架; 第三章重点介绍从操作系统角度提升科学计算性能的几种途径,并结合国外的本方 向研究现状分析讨论它们的可行性和实行效果。 第四章具体介绍了本文提出的用户空间内存超级页面分配策略,该内存分配策略对 科学计算应用性能的意义,以及该策略的实现方法。 第五章是对第四章介绍的超级页面内存管理策略进幸亍的性能评价,比较了在用户程 序中使用超级页面与否的内存访问、通信和整体性能差异,并对测试结果进行简要分析。 第六章是对全文的概括和总结,并提出了操作系统优化方向的未来工作展望。 第二章踞光4 0 0 0 a 超级计算机简介 第二章曙光4 0 0 0 a 超级计算机简介 曙光4 0 0 0 a 是国家智能计算机研究中心( n c i c ) 自主研制的面向网格( g r i d ) 的 超级计算机,基于机群体系结构。本文工作就是围绕该系统开展的,全部编码和测试均 基于曙光4 0 0 0 a 平台的部分或全部节点完成。本章将对曙光4 0 0 0 a 机群系统的硬件和 软件两方面进行简要介绍。 2 1 曙光4 0 0 0 a 的背景及基本性能指标“4 t ”1 随着网格技术的不断发展,面向网格的超级服务器技术研究也开始在世界各地普遍 开展。曙光4 0 0 0 系列超级计算机是国家8 6 3 计划高性能计算机及其核心软件重大专项 支持的研究项目,项目共包括4 0 0 0 l 、4 0 0 0 a 和4 0 0 0 h 三部分,其中4 0 0 0 l 是使用i a 3 2 构架、l i n u x 操作系统的廉价系统,4 0 0 0 a 是以性能为首要目标的大型机群系统,4 0 0 0 h 则代表高密集度的刀片式机群和专门应用。 曙光4 0 0 0 a 高性能计算机系统是中科院计算所国家智能计算机研究开发中心承担 的国家8 6 3 计划“高性能计算机及其核心软件”专项课题,由十五8 6 3 专项基金支持。该 系统于2 0 0 1 年启动预研,2 0 0 2 年l o 月签订8 6 3 合同,2 0 0 3 年完成系统设计,2 0 0 4 年 6 月最终研制成功,2 0 0 4 年6 月2 9 日通过鉴定,并作为国家8 6 3 计划支持的“中国国家 网格”( c n g r i d ) 中的一个主结点于2 0 0 4 年8 月落户上海超级计算中心。在今年6 月2 2 日公布的全球高性能计算机t o p 5 0 0 排行榜中,曙光4 0 0 0 a 以每秒1 1 万亿次的峰值速 度和8 0 6 1 0 亿次l i n p a c k 计算速度位列第十,这是中国超级计算机得到国际同行认可的 最好成绩。曙光4 0 0 0 a 的基本规格如下。 峰值速度:1 1 2 t f l o p s s 机柜数;4 8 节点数;6 4 0 处理器:2 5 6 0 枚a m d o p t e r o n8 5 0 ( 主频2 4 0 g t t z ) 控制台数量:4 总内存容量:5 t b 存储磁盘阵列容量:4 2 5 t b 耗电功率:3 8 0 k w 占地面积:7 5 m 2 2 2 硬件结构 2 2 1 基本体系结构和硬件构成 曙光4 0 0 0 a 是典型的机群( c l u s t e r ) 架构并行计算机系统,由6 4 0 个节点组成,其 面向科学计算的操作系统核心研究 中包括6 2 4 个计算节点和1 6 个服务节点。服务节点和主存储磁盘阵列相连接,并且配 备光盘驱动器和3 5 英寸软盘驱动器,而在c p u 和内存的配置上与计算节点相同,必 要的时候能够直接配合计算节点参与计算。 曙光4 0 0 0 a 系统中共有四套网络用于各节点间的互连,其中主干网提供接入、机 群内部数据传输、文件传输功能;并行计算中计算节点之间通过计算网实现高性能消息 传递,计算网的拓扑结构可实现最大的网络对分带宽;管理网用于机群内部管理和连接 外部网络;监控网用于实现对系统中主要硬件状态的实时监控和操作系统的维护,采集 和传送系统中各种被监控的状态信息。 主干网采用1 0 0 0 m 以太网,节点到交换机采用铜缆接入,而交换机之间用多模光 纤互连。主干网是数据服务的网络,提供i n t e r n e t 数据的宽带接入( 来自前端) 、数据 加载以及文件服务。另外,并行计算的消息传递也可通过主干网进行。 计算网采用m y r i c o m 公司的m y r i n e t2 0 0 0 高速光纤全交换网络,每个节点配备一 块网卡,其单向单通道带宽为2 g b s ,交换机数据交换带宽达5 1 2 g b s 。计算网是支持 并行计算的消息传递网络,提供t c p i p 通信和用户空间p 、礓d m 伸i 通信两种通信方式。 管理网采用1 0 0 m 以太网,它是系统管理的网络。系统管理员通过管理网络进行操 作系统和相关系统软件的配置和管理操作,用户可通过管理网登录到系统中任何一个节 点上执行操作。 、 监控网实际上并不是传统意义上的计算机网络,它包括每个节点内部的k v m :终端 监控卡、k v m 交换机、环境温度和风扇转速传感器等。监控网以串行的方式连接所有 节点,实现运行状态监控,并为所有节点提供远程控制台。 曙光4 0 0 0 a 硬件的主要特点是采用a m d 公司的6 4 位o p t e r o n 处理器和m y n c o m 公司的m y n n e t2 0 0 0 高速节点问通信网络,分别在以下小节中单独介绍。 2 2 2o p t e r o n ”处理器1 曙光4 0 0 0 a 的节点全部采用a m d 公司主打高端企业级服务器市场的o p t e r o n8 5 0 处理器( 以c c n u m a 架构互联) 。o p t e r o n 处理器基于a m dx 8 6 6 4 架构,核心代号 s l e d g e h a m m e r ,它在完全兼容原有3 2 位x 8 6 指令的基础上,提供了6 4 位存储器寻址 能力( 目前的实际逻辑地址支持4 8 位,而物理地址是4 0 位) 以及6 4 位长度的操作数, 是第一款6 4 位的x 8 6 兼容处理器。 除了能够支持6 4 位运算以外,x 8 6 - 6 4 架构的处理器的最大优势是将内存控制器集 成在处理器内部,有效的降低了内存访问延迟。并且,并行工作的o p t e r o n 处理器之间 以h y p e rt r a n s p o r t 通道实现互联,消除了s m p 架构中c p u 之间对前端总线的竞争,整 机的内存带宽随处理器数量增加线性增长。o r i t e r o n 处理器内建一个1 2 8 位d d r s d r a m 控制器,支持两组p c 2 1 0 0 2 7 0 0 e c cd d rs d r a m 内存模组以双通道方式工 核心版本为c o 或以l :的处理器町以支持到p c 3 2 0 0 标准 一】0 第二章曙光4 0 0 0 a 超级计算机简介 作,同时也能支持单条内存模组以6 4 位单通道方式运行,当使用p c 2 7 0 0 规格的内存 模组时在双通道方式下具备5 3 g b s 的理论内存带宽。 o p t e r o n 系列处理器集成三个1 6 位的h y p e r t r a n s p o r t 通道,在不同系列的处理器中, 它们的功能限制也不同。o p t e r o nu p 即1 系列处理器中,这三个通道都可以和i o 设备 相连,但是不能用来与其它处理器互连,故无法支持多处理器并行工作:o p t e r o nd p 即2 系列处理器中,任何一条通道可以用来与另一个o p t e r o nd p 处理器互连,其余两 个通道则连接i o 设备,支持双路处理器并行工作;而在o p t e r o nm p 即8 系列处理器 中,任何一个通道都可以和其它处理器或者是i o 设备相连,能够支持4 8 个处理器 以n u m a 方式并行工作。每个h y p e r t r a n s p o r t 通道默认工作在8 0 0 m h z 时钟频率下, 上下行各1 6 位数据宽度,单向传输带宽为3 2 g b s ,双向达6 4 g b s 。配合a m d8 0 0 0 系列芯片组,为o p t e m n 处理器提供支持的主板的i o 扩展能力包括6 4 位p c i x 总线、 传统3 2 位p c i 总线,符合3 0 标准的a g p 4 x 8 x 接口以及u s b2 0 接口等。 o p t e r o n8 5 0 处理器的主要技术规格是:时钟频率2 4 0 g h z ;一级高速缓存为6 4 k b 指令+ 6 4 k b 数据,2 路组相连;二级高速缓存为1 m b ,十六路组相连。在快表方面, o p t e r o n 的一级指令和数据t l b 均包含8 个2 m b 4 m b 超级页面表项和3 2 个4 k b 传统 页面表项,全相连;二级指令数据t l b 取消了对超级页面的支持,分别拥有5 1 2 条4 路组相连的表项。o p t e m n 处理器的内部结构简图如图2 2 2 - 1 所示。 图2 22 - 1o p t e r o n 处理器的内部结构简图 曙光4 0 0 0 a 的每个节点均配有四路并行的o p t e r o n8 5 0 处理器,每个处理器配备两 组各i g b 容量的p c 2 7 0 0 d i m m 模组,总峰值内存带宽为2 1 3 g b s 。 2 3 操作系统及应用环境 曙光4 0 0 0 a 的节点使用a m dx 8 6 6 4 架构专用版本的t u r b ol i n u x 操作系统( 测试 面向科学计算的操作系统核心研究 阶段使用u n i t e dl i n u x1 0 ,内核版本是2 4 1 9 ) 。采用l i n u x 操作系统的主要原因是: l i n u x 本身和l i n u x 平台下的应用软件多属于开放源代码软件,成本相对低廉,拥有极 好的软件升级能力和可维护性,同时能对硬件提供良好的支持,实现较好的运行稳定性 和效率。 除了节点所运行的l i n u x 操作系统以外,在曙光4 0 0 0 a 中为应用程序提供支持的软 件环境还包括d c o s 机群操作系统、d c f s 机群文件系统及温度、电压等信息的集中式 监控系统等。主要的编译器为g n u 的g c c 9 7 7 ( 对c 语言和f o r t r a n 语言) ,以及p o r t l a n d 公司的p g 系列编译器。并行计算环境为m p i c h1 :2 5 2 版本,底层通信协议为自行开 发的b c l4 半用户级通信协议。 2 。4 通信子系统 目前并行计算性能进一步提高的主要瓶颈在于通信,如何尽可能增大并行计算中节 点间通信的带宽,降低通信延迟,一直是业界努力的方向。曙光4 0 0 0 a 超级计算机采 用m y r i n e t 高速通信网络和自行开发的b c l 4 底层通信软件,为高性能科学计算提供了 良好的通信性能保证。通信子系统的逻辑结构如图2 4 1 所示。 2 4 1m y ri n o t ”高速通信网络 曙光4 0 0 0 a 的节点间通信采用的m y r i n e t 1 7 1 网络是m y r i c o m 公司针对超级计算机, 特别是机群系统开发的高速分组交换式互联网络。它与传统的以太网等网络技术相比, 除了拥有高带宽和低延迟外,尚支持一系列先进的特性。m y r i n e t 区别于传统网络的主 要特征有18 1 : 1 ) 带宽高达2 + 2 g b s 的全双工接口、交换端口和线路; 2 ) 每条线路都具备流控制、错误控制与心跳监测功能; 3 ) 低延迟切入式交换机( 如图2 4 1 1 所示) 和高可用应用程序监测; 4 ) 可以扩展到上万个节点,并且能够在节点之间提供代用通信路径; 5 ) 具有协议卸载功能,可以将原需要主机处理的协议放到网卡上处理,并且支持 无需操作系统干涉的用户级低延迟通信。 第二章曙光4 0 0 0 a 超级计算机简介 图2 41 - 1m y r i n e t 交换机内部结构 m y r i n e t 网络的组件包括单1 2 1 或双1 2 1 的m y r i n e t 网卡,m y r i n e t 交换机,连接用的光 纤或铜线,以及提供支持的软件。m y r i n e t 链路端1 5 和交换机支持任意网络拓扑,由 m y r i n e t 高速网络接口对网络进行映射,可以利用任意可用通道实现主机与主机之间的 通信。与f d d i 和以太网的单一网络拓扑和带宽共享不同,m y r i n e t 高速网络的整体带 宽可随着配置的扩展得到提高。图2 4 1 2 所示是3 2 结点m y f i n e t 网络的连接方式( 19 】。 图2 41 - 23 2 节点m y n n e t 网络的交挟机莲接方式 曙光4 0 0 0 a 节点所采用的m y r i n e t2 0 0 0 网卡结构如图2 4 1 - 3 所示,网卡通过6 4 位6 6 1 0 0 m h zp c i x 总线接口和主机相连。其最关键的技术是网卡上集成有高性能的 r i s c 架构本地处理器( l a n a i9 ) 和本地内存 2 0 1 ,这使得它能够支持在普通网卡上无 法实现的高级功能和特性。网卡的本地存储器用来缓冲在主机和网络之间传送的数据, 并用来存储在本地处理器上运行的控制程序。微处理器、m y r i n e t 网络接1 2 1 和d m a 控 制器都封装在一片定制的超大规模集成电路中。通过操作系统调用完成初始化安装以 后,m y r i n e t 高速网络接口卡上的控制程序可以直接与用户进程进行交互。 面向科学汁算的操作系统核心研究 图2 41 - 3m y r i n e t2 0 0 0 网卡内部结构 按照o s i 七层网络模型,m y - n e t 网络的数据包格式定义在数据链路层,交换机按 照包头信息来操纵数据。在数据链路层之上,包括网络层及更高的层次,m y r i n e t 可以 虚拟地运载任何格式的数据包。事实上,m y r i n e t 高速网络可以同时支持多种数据包协 议。一个m y r i n e t 数据包顺序包含以下数据单元:路由包头( 用于引导数据包通过交换 机) 、类型区( 用于标识数据包即协议类型) 、有效数据区和尾随的c r c ( 循环冗余校 验) 码。类型区可以将有效数据区标识为封装的i p 包、a t m 单元或其它任意协议的数 据包,而有效数据区可以为任意长。因此,m y r i n e t 能够直接支持i p 层以及i p 层以上 的t c p 和u d p 。由于网卡集成本地处理器和存储器,m y r i n e t 网络的接口a p i 可以绕 过操作系统的协议栈,直接与用户程序实现零拷贝通信,获得更高的性能。如g m 2 1 ,2 2 1 和b i p 2 3 等高效率的半用户级 2 4 】、用户级通信协议就是在m y f i n e t 网卡上实现的。 2 4 2b o l 4 底层通信软件。“”1 b c l ( b a s i cc o m m u n i c a t i o nl i b r a r y ) 系列底层通信软件是从曙光2 0 0 0 开始在曙光 系列超级计算机上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论