计算局域性可知的片上多核系统互联拓扑结构--计算机工程

上传人：m*** IP属地：河南上传时间：2020-04-04 格式：DOC 页数：6 大小：959KB 积分：15 举报 版权申诉

免费预览已结束，剩余1页可下载查看

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基金项目基金项目国家教育部博士点基金 20070007070 作者简介作者简介刘彩霞女 1973 博士生主要研究方向计算机体系结构石峰博士生导师教授乔宝军博士讲师 M Haroon 博士宋红博士副教授 E mail lcx 计算局域性可知的基三片上多核互联拓扑计算局域性可知的基三片上多核互联拓扑刘彩霞石峰乔宝军刘彩霞石峰乔宝军 M Haroon 宋红宋红北京理工大学计算机科学技术学院北京 100081 lcx 摘摘要要文中提出一种基于计算局域性原理的互联网络评价标准底层全互联并利用该标准对新型基三多核体系 Triplet Based Architecture TriBA 的直接互联网络 Direct Interconnection Network DIN 在计算速度物理布局以及成本三个方面进行了性能评价结果表明 TriBA 互联体系具有层次性可扩展性和递归性其底层全互联的结构特性确保了高效的通信局域性是一种可以有效开发处理节点间组局域性的计算有效的互联策略所提出的 TriBA 基于 VLSI 实现的布局方案是切实可行的关键词关键词片上多核系统局域性互联网络 VLSI 布局 Computationally Efficient Locality Aware Interconnection Topology for Triplet Based Multi Processor System on Chip MP SoC Liu caixia Shi feng Qiao baojun M Haroon Song hong School of computer science and technology Beijing institute of technology Beijing 100081 lcx Abstract A new criterion in performance evaluation that is based on the concept of locality in an interconnection network the lower layer complete connect is proposed in this article With this criterion evaluations of the Direct Interconnection Network DIN of Triplet Based Architecture TriBA is presented The comparison evaluation is enumerated from three orthogonal view points viz computational speed physical layout and cost Our analysis concludes that TriBA has such characteristics as hierarchy scalability and recursiveness the complete connection characteristics assures its efficient communication locality TriBA is a kind of computationally efficient interconnection strategy that exploits group locality in processing nodes the proposed VLSI layout is flexible Keywords Multiprocessor locality interconnection network VLSI layout 1 1 引言引言片上多核系统 CMP 由于其具有的低设计复杂度高主频和高吞吐率的特性而成为未来处理器体系发展的主流方向 CMP 是将各类同构或异构的 IP Intellectual Property 核通过一定结构的互联网络集成到同一块芯片上的处理器设计技术因而互连网络是构建 CMP 体系的关键因素在过去的三十年中已经提出了很多面向 CMP 的互连结构如 2D Mesh 二叉树以及超立方体等关于这些网络的分析评价可以参见文献任何一种互联网络在投入使用之前都要经过分析评估使用到的最重要也是最经典的定量拓扑原理就是网络的局域性 1 TriBA 体系中的处理节点与其邻近的三个节点在底层采用全互联结构因而 TriBA 拓扑结构优于 2D 拓扑如 mesh 二叉树和超立方体的一点就在于它能够充分而有效的开发复杂科学计算中的局域特性文中我们分析评估了面向CMP的基三 TriBA 互联网络拓扑结构的性能首先我们基于局域性原理提出一种互联网络评价标准底层全互联然后利用该评价标准将TriBA 2 体系与已被广泛接受的2D mesh和二叉树拓扑进行了比较和评价采用的计算模型与 Thompson 3 为VLSI实现而设计的网格模型类似其次我们提出了TriBA VLSI实现的物理布局方案并从面积和功耗角度对该布局方案进行了可行性分析最后我们的评价结果表明 TriBA是一种可行的能够开发处理节点间组局域性的计算有效的互联策略具有层次性对称性可扩展性以及拓扑结构简单节点度数低等特性文章的其它部分组织如下文章的第二部分给出了TriBA体系结构模型并定义了底层全互联评价标准利用该标准进行了TriBA互联体系的性能分析比较文章的第三部分给出了 TriBA体系的VLSI布局布线方案及可行性分析文章的最后总结了我们的研究工作 2 2 TriBATriBA 互联体系结构互联体系结构 k 0 k 1 k 2 k 3 k 层层迭迭代代后后总总节节点点数数 N 3k 图图1 1 基三网络互联体系基三网络互联体系TriBATriBA TriBATriBA是一种新型CMP计算机体系适用于复杂嵌入式应用环境 TriBA中每一个处理核节点都与和它邻近的三个节点底层全互联 2 TriBA网络是一种具有层次性的可扩展互连拓扑结构该结构的第0层是单个节点通过3条通信链路将3个节点彼此互连形成一个三角形从而构成该结构的第1层如图 1层网络是构造TriBA的基本构件利用该基本构件通过迭代函数族 IFS 可以构造出任意层次的 TriBA 假设该结构的迭代函数族为将1层TriBA看作是1次迭代后 321 FFFIFS 的网络N N 1 N N k 表示k次迭代后得到的k层网络则TriBA的构造过程可以表述为 1 3 1 1 l kk NN 其递归构造过程为在基本构件的基础上将每个节点用一个低层网络替代从而得到更高层的一个三角形网络结构重复这一过程我们可以构造出满足应用需求的任意层次的 TriBA 图1给出的是一个经过3次迭代含有 27个节点的三层TriBA 2 12 1 分形递归互联结构分形递归互联结构 TriBA 基三互连是一种自相似嵌套结构也称递归结构节点内和节点间不同层次子网与整个网络结构自相似各层次互连结构完全统一这将为路由软件任务调度等带来方便 TriBA 的递归结构使得它具有很强的可扩展性 5 按照 TriBA 的构造规律可以将节点连接构成规模更大性能更高的 TriBA 其中的节点可以是单个的处理节点也可以是几个节点连接而成的低层网络即超节点其递归扩展方式如图 2 a 这对于现有计算机系统性能升级和大型软件开发尤其是实时系统开发十分重要如软件设计出来后性能不能满足应用需求时则理论上可按上述方式升级系统通过硬件性能的提高弥补软件性能的不足而没有必要购置更高档次机器或重新开发软件 2D Mesh 虽然也可用作处理器内部核间处理器间主板间等不同层次互连但不同层次网络连接在一起一般不会形成更大规模的 2D Mesh 结构图 2 b 给出了 2D Mesh 结构的现有扩展方案如果将 2D Mesh 结构进行递归扩展其扩展方式如图 2 c 所示这样也实现了底层全互连高层次互连随层次增高递减但显然硬件实现代价较高因此 AMD 的 Barcelona 四核内没有采用这种结构无论节点层次如何其出度恒为3 而且带有子网的节点构成的大网络仍然是 TriBA互连结构 9核TriBA处理器 3节点TriBA 处理器主板每个层次子网出口均为2 不同层次网络出口均为3 不同层次网络出口均为3 图图2 a 2 a TriBATriBA体系递归扩展结构体系递归扩展结构 16核2D Mesh 处理器所有内核构成的大网络结构不再是2D Mesh 除除非非每每个个多多核核处处理理器器的的输输出出端端口口数数为为然而当内核数较大时这在技术上存在困难内核数整个网络不再是统一的2D Mesh结构 4节点2D Mesh 处理器主板图图2 b 2DMesh2 b 2DMesh现有扩展结构现有扩展结构图图 2 2 c c 2D2D MeshMesh 递归扩展结构递归扩展结构 2 22 2 低延迟低成本底层全互联结构低延迟低成本底层全互联结构定义 1 如果一个集合或子集合中的每一个节点都通过一条独立的通信路径彼此互相联接则称这个集合或子集中的节点全互联为了恒量一类网络拓扑结构其底层全互联的程度我们定义了层次化网络底层全互联率 CCR这样一个性能指标根据底层全互联的定义则 2 CCR 网网络络系系统统可可用用连连接接数数全全互互联联需需要要的的总总的的链链路路数数表 1 给出了利用表达式 2 计算得到的 TriBA 和其他几类网络拓扑结构的底层全互联率及其底层全互联结构其中实线代表网络拓扑连结中的路径虚线表示为了达到全互联特性而需要添加的路径表表1 1 底层全互联程度及底层全互联结构底层全互联程度及底层全互联结构拓扑结构底层节点数 CCR 底层全互联结构 TriBA3 1 3 3 2D Mesh4 0 667 4 6 二叉树 3 0 667 2 3 超立方体度为 3 3 1 3 3 最底层节点采用全互连结构较高层次网络之间的连接链路相对较少降低了网络复杂度减少网络本身对片上资源的占用在通讯效率和网络复杂度之间进行了较好的平衡此外底层全互联可以降低节点间通信延迟避免资源竞争因为任意两个节点间有独立的联结路径文献研究表明 2D Mesh 的平均信息延迟为 N为节点数以H 树形式 N 连接得二叉树的信息延迟也为超立 N 方体网络拓扑的平均信息延迟时间为那么相同的计算评估方法可以 NN log 得出 TriBA 的平均信息延迟时间为 N 不劣于其它网络拓扑结构图 3 中给出的各个网络的吞吐率可以表明由于底层全互联结构 TriBA 的通信性能要好于 2D Mesh 结构和二叉树结构而且随着网络规模的增加 TriBA 的通信性能增长较快更适合于大规模片上系统图图3 3 网络规模与吞吐率网络规模与吞吐率为了恒量底层全互联成本我们定义全互联代价CCO 3 CCO 全全互互联联通通道道数数底底层层节节点点数数根据定义可知全互联代价CCO表示网络扩展时底层全互联结构的成本需求表示网络中每增加一个节点底层全互连结构对连接通道数的增加需求表 2 给出了根据表达式 3 计算得到的几种网络拓扑结构的底层全互联代价表表2 2 底层全互连代价底层全互连代价拓扑结构 TriBA2DMesh 二叉树立方体线性底层节点数 34232 CCO 通道节点 11 51 510 5 显然 TriBA 互连网络是除 2 节点线形连接结构外全互联代价最低的这在互连的硬件实现时具有十分重要的意义因为通道数与用于实现通道硬件成本间呈指数关系每增加一通道全互连需要增加这个通道与所有其它通道的连接通讯 2 42 4 结构清晰的递归编码方案结构清晰的递归编码方案 TriBA 体系具有明显的层次化递归特性因而其节点编码也具有递归特性包含 3k个节点的k层 TriBA 根据其递归构造过程其节点的编码方案描述如下 k 0 时 TriBA 仅含一个节点节点编码并不重要可任意设定 k 1 时网络N 1 中有 3 个节点每个节点的编码b1b0用二进制形式表示分别为 01 10 和 11 节点集 V1 01 10 11 按照表达式 4 给出的链路连接规则将这 3 个节点的通信端口进行连接构成了 1 层 TriBA 的节点和链路编码如图 4 所示源到目的节点的通信端口号目的节点编码b1b0 源节点编码b1b0 mod 3 对于每个节点编码为0的通信端口 0b1b0作为构造更高层TriBA的连接点 4 假设N k 1 的节点编码和通信端口连接已经完成 N k 1 的节点集记为Vk 1 5 1 3 1 1 k j jk tV 其中 tj为N k 1 中的节点编码标记为 b2k 3b2k 4 b2i 1b2i 2 b1b0 1 i k 1 N k 1 的 3 个外连端口为 O01 01 010 10 O11 11 将 3 个k 1层的 TriBA 网络按照第 1 节介绍的构造方法遵从表达式 6 给出的链路连接规则可以构造出N k 6 1 0101 10 1010 01 1 1111 10 1010 11 1 1111 01 0101 11 1 1 1 k k k k k k 则得到k层 TriBA 的节点集Vk 7 3 1 3 1 1 jm mjk k tsV 其中是N k 中 1 Vsj 1 km Vt mj ts 的节点的编码图 4 给出了按照上述节点编码方案和通信端口连接关系构造的含有 9 节点的 2 层 TriBA 的编码方案 11 0110 011 00 211111 010 110 210 201 001 101 11 0110 011 11 11 211 11111 11 11 0110 01 001 01 11 0110 10 010 10 00 节点编码 11 10 节点编码 10 11 K 1 K 2 图图4 4 TriBATriBA递归结构的节点编码递归结构的节点编码这种编码方案结构清晰编码本身涵盖了网络的层次特性能够大大简化路由过程中的运算此外根据 TriBA 互连的自相似嵌套特点可以简单地对每个 Cell 编码得到其标识 ID 所有 Cell 的 ID 恰好形成了一张分布式存储的路由表这些编码可以十分简单地表示点到点以及分组路由硬件实现十分简单 3 3 TriBATriBA体系体系VLSIVLSI实现的布局方案及可行实现的布局方案及可行性分析性分析片上互联网络的物理性能的评价应该包括两方面芯片面积和功耗因为一个8核片上系统其互联网络的功耗等于一个核的功耗而其面积开销是三个核面积开销的总和连线的几何参数也影响功耗和功率密度 3 13 1 连线模型连线模型在Thompson的VLSI模型中一个网络可以表示成一个图节点对应处理元素 PE 边代表互联结构中的连线这个图被嵌入到一个 2D Mesh网格中我们的模型使用了同样的理论但有以下不同处理单元没有按固定间隔放置在网格中而是布置成一个正三角形如图5 这和2D Mesh占据一样的方形区域不同的是L2 Cache的放置图图5 5 方形几何物理布局方形几何物理布局节点间的连接线可以水平走向或垂直走向或者与网格线成60度角或120度角走向因此在节点布局完善的情况下 TriBA 至少需要三个布局层否则需要四个图图6 6 连接层连接层 0 0 6060或或120120度角度角我们在图7中针对TriBA体系给出了一种全新的节点布局方案最近的研究已经表明对角线连线可以用于VLSI布局 4 5 实验表明与曼哈顿体系相比较而言 Y 体系可以在一个四方形的芯片上得到30 7 的吞吐率提高利用对角线布线法网路长度减少36 同时每个网路路径延迟平均减少14ps 这一技术适用于10层金属布局芯片的几何尺寸不仅和连接模式有关也和VLSI技术有关在很多技术中芯片尺寸是片上连线占用的面积总和连线占用的面积可以利用连线模型评估图图7 a 7 a 2 2层层TriBATriBA正交布局正交布局 b b 角连接角连接 L2 L2L2 图图7 B 7 B 2 2层层TriBATriBA角连接布局角连接布局图7中的连线有两个明显的特性首先所有的连线长度相同因而临近节点的路径延迟相同其次 PEs对称放置因而可以很好的布局在一个方形区域内正交连接布局方案可以在现有布局技术下实现TriBA 而更简洁的角连接布局方案在未来对角线连接技术应用于VLSI布局中时可以成为实现TriBA的更好的选择 3 23 2 布局方案的面积功耗分析布局方案的面积功耗分析对TriBA的布局方案的面积和功耗的确定方法采用类似于文献 6 中提到的对TriBA的面积的估算利用类Power4乱序核作为处理单元 PE 根据文献一个Power4在65nm技术下所占面积为10mm2 总线所占面积由联结的线数决定连接线所占的片上面积和总线宽度线间有效间距以及线长有关其中线间距是一个随布局层不同而变化的因子变化范围在0 2um 1 6um 之间为使我们的分析简单化我们在评估面积时基于以下假设总线宽度为常数 64 线间距是一个恒定的值0 7 对于角连接布局方案其中对角线长是水平或垂直线长的 1 154倍实验核的功耗为10W 包括漏电流表3给出了TriBA布局方案的面积功耗性能以及与2D Mesh的比较表表3 3 面积面积功耗估算功耗估算网络规模 N 链路数PE所占面积 mm2 PE功耗 W 连线功耗 mW 功耗节省比例 Mesh 1 2 NN TriBA 1 0 3 l i i N MeshTriBA 3 3121290901531760 9 9144120810810184317723 85 27 271404109272907290179711593411 33 81 81129609840656106561017868814358520 表3中可以看出 TriBA在VLSI实现时采用上述的布局方案其链路数少于2D Mesh结构因而功耗性能优于2D Mesh结构平均功耗性能加速比为11 其功耗优势在大规模系统中更明显 81 81规模的系统中功耗性能改善20 因而比2D Mesh结构更适合于作为大规模片上系统的互连结构 4 4 总结和未来的工作总结和未来的工作本文给出了基三片上多核系统互联体系及其性能分析比较结果表明 TriBA是一种层次化网络拓扑结构其结构的递归特性使得系统扩展性很强底层全互连结构确保了TriBA 良好的计算性能和系统扩展的低成本适于 VLSI并行处理对角线布线方法的研究推进了 TriBA的VLSI实现的可行性因此 TriBA可以作为未来多核系统的片上网络一种有效的互连结构能满足高效的计算局域性低成本互连以及低功耗片上布局参参考考文文献献 1 Rakesh Kumar Victor Zyuban Dean M Tullsen Interconnections in Multi core Architectures Understanding Mechanisms Overheads and Scaling P Proceedings of the 32nd International Symposium on Computer Architecture ISCA 05 pp 408 419 2005 2 Feng SH

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

计算局域性可知的片上多核系统互联拓扑结构--计算机工程

文档简介

温馨提示

最新文档

评论

计算局域性可知的片上多核系统互联拓扑结构--计算机工程

文档简介

温馨提示

最新文档

评论

相关文档