(计算机系统结构专业论文)高性能存取部件的研究.pdf_第1页
(计算机系统结构专业论文)高性能存取部件的研究.pdf_第2页
(计算机系统结构专业论文)高性能存取部件的研究.pdf_第3页
(计算机系统结构专业论文)高性能存取部件的研究.pdf_第4页
(计算机系统结构专业论文)高性能存取部件的研究.pdf_第5页
已阅读5页,还剩116页未读 继续免费阅读

(计算机系统结构专业论文)高性能存取部件的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西北工业大学硕士学位论文摘要 摘要 作者 基于国 防“ 十五” 预 研课 题( 专题 编号: 4 1 3 0 8 0 1 0 1 0 8 ) 的 研究 工作, 着 重研究了r i s c微处理器系统的存取部件 ( 包括 l o a d - s t o r e 部件和总线接口部 件)的体系结构,同时对国内外先进的存取部件的设计技术加以 研究并运用到 了作者参加的自 主研发的3 2 位r i s c微处理器 “ 龙腾r 2 ”中。 l o a d - s t o r e 部 件 和 总 线 接口 部 件 作为 微 处 理 器中 的 存 取 部 件, 随 着 多 发 射、 指令乱序执行技术在微处理器中的实现、微处理器和外部存储器之间的时钟频 率的差距不断增加, 其执行效率越来越成为了微处理器数据传输的瓶颈。本文 围绕微处理器器中存取部件的性能优化展开了深入的研究。 论文的主要研究成果有: 1 .深入研究了p o w e r p c 7 5 0 的指令系统,并结合“ 龙腾r 2 ”的微体系结 构完成了“ 龙腾r 2 ” 微处理器存取部件中l o a d - s t o r e 部件的设计与实 现。 经仿真分析其执行功能与p o w e r p c 7 5 0 的完全兼容, 同时在0 . 1 8 u m 库中其综合的结果显示, 关键路径对齐部件的延时为 3 . 2 4 n s ,完全满 足了“ 龙腾r 2 ”时钟频率为2 3 3 m h z 的目 标。 2 .在研究p o w e r p c 6 0 x总线接口 时序和总线接口 协议的基础上,设计并 实现了“ 龙腾r 2 微处理器中存取部件的另外一个功能部件一总线接 口 部件。在总线接口 部件中实现了l o a d - s t o r e 缓冲模型,大大提高了 微处理器访问外部存储器的效率。 3 搭建了l o a d - s t o r e 部件和总线接口 部件的软件验证平台,进行了l o a d - s t o r e 部件和总线接口部件的r t l 级仿真, 并完成了p o w e r p c 7 5 0 指 令系统单条指令的逐一测试。 4 .在单片f p g a上设计并实现了“ 龙腾r 2 ”的整体验证系统, 其主要的 功能部件包括 “ 龙腾 r 2 ”微处理器 、 外部总线控制器,s r a m 控制 器、串口控制器、m 2 6 8 1 控制器以及中断控制器. 5 .在 “ 龙腾r 2 f p g a验证系统上通过了 用户提供的 大小监控程序、浮 点测试程序、 特殊指令包以 及v x w o r k s 操作系统 b o o t r o m的测试. 本论文的研究成果对顺利完成“ 十五”国防 预研项目 以 及“ 龙腾r 2 ” 微处 理器的投片成功奠定了基础。 关银词:r i s c 微处理器存取部件l o a d - s t o r e 部件总线接口部件 f g p a 西北工业大学硕士学位论文 ab s t r a c t b a s e d o n t h e r e s e a r c h o f t h e n a t i o n a l d e f e n c e p r e l i m i n a r y r e s e a r c h p r o j e c t s , t h e a u t h o r p r i m a r i l y r e s e a r c h e d t h e a r c h i t e c t u r e o f t h e r i s c m i c r o p r o c e s s o r s l o a d / s t o r e u n i t a n d b u s i n t e r f a c e u n i t , a n d a p p l i e d t h e a d v a n c e d d e s i gn t e c h n i q u e s t o t h e l o n g t e n g 1 1 2 r i s c m i c r o p r o c e s s o r . a s t h e m u l t i - i s s u e a n d o u t - o f - o r d e r t e c h n i q u e s a r e b e i n g e m p l o y e d i n t h e mi c r o p r o c e s s o r s , t h e g a p b e t w e e n t h e s p e e d o f t h e m i c o r p r o c e s s o r a n d t h e m e m o r y f u rt h e r i n c r e a s e s ,t h e r e f o r e t h e o v e r a ll c o m p u t e r s y s t e m p e r f o r m a n c e i n c r e a s i n g l y l i m i t e d b y t h e e x e c u t i n g e f f i c i e n c y o f l o a d / s t o r e u n i t a n d b u s b e c o me s i n t e r f a c e u n i t . t h i s d i s s e rt a t i o n f o c u s e s p e r f o r m a n c e o f l o a d / s t o r e u n i t t h i s d i s s e rt a t i o n a r e g iv e n b e l o w . o n t h e r e s e a r c h o f t e c h n i q u e s t o i m p r o v e t h e a n d b u s i n t e r f a c e un i t . t h e ma i n c o n t r i b u t i o n s i n 1 ) 2 ) 3 ) 4 ) b a s e d o n t h e t h o r o u g h r e s e a r c h o f t h e p o w e r p c 7 5 0 i n s t r u c t i o n s y s t e m a n d m i c r o - a r c h i t e c t u r e o f l o n g t e n g r 2 m ic r o p r o c e s s o r , t h e l o a d / s t o r e u n i t o f l o n g t e n g r 2 m i c ro p r o c e s s o r i s d e s i gne d a n d i m p l e m e n t e d . b y s i m u l a t i o n a n d s y n t h e s i s , t h e e x e c u t i n g f u n c t i o n o f l o a d / s t o r e u n i t i s c o m p a t i b l e t o p o w e r p c 7 5 0 i n s t r u c t i o n s y s t e m , t h e l a t e n c y o f t h e c r i t i c a l p a t h - a l i g n m e n t u n i t i s 3 .2 4 n s , w h i c h w e l l m e e t s t h e d e m a n d r e q u i r e d b y t h e 2 3 3 m h z o f l o n g t e n g r 2 c l o c k fr e q u e n c y . a n o t h e r f u n c t i o n a l u n i t o f t h e l o n g t e n g 1 1 2 m i c r o p r o c e s s o r , t h e b u s i n t e r f a c e u n i t i s d e s i gne d a n d f u r t h e r i m p l e m e n t e d b y r e s e a r c h i n g t h e p o w e r p c 6 0 x b u s p r o t o c o l . t h e l o a d / s t o r e b u f f e r m o d e l , w h i c h l e a d s t o t h e i n c r e a s i n g l y i m p ro v e d e f f i c i e n y o f t h e m i c r o p r o s s o r s a c c e s s t o t h e m e m o r y . t h e a u t h o r d e v e l o p s t h e s i m u l a t i o n e n v i r o n m e n t o f l o a d / s t o r e u n i t a n d b u s i n t e r f a c e u n i t f o r f u l l - i n s t r u c t i o n s i m u l a t i o n o f t h e m i c r o p r o c e s s o r s y s t e m . t h e o v e r a l l v e r i f i c a t o n s y s t e m d e s i gn o f l o n g t e n g r 2 f p g a i m p l e m e n t a t i o n i s c o m p l e t e d i n a s i n g l e f p g a c h i p . t h e b u s c o n t ro l l e r , t h e s r a m c o n t r o l l e r , t h e s e r i a l - p o rt c o n t r o l l e r , t h e i n t e r r u p t c o n t r o l l e r a n d t h e m 2 6 8 1 c o n t r o l l e r a r e a l s o 5 ) i m p l e m e n t e d i n t h e s m a l l/ b i g t h i s f p g a c h i p a t t h e m o n i t o r p r o g r a m , t h e s a me t i me . fl o a t i n g - p o i n t t e s t p ro g r a m , t h e s p e c i a l i n s t r u c t i o n p r o g r a m p a c k a g e s a n d t h e v x w o r k s o p e r a t i n g s y s t e m s b o o t r o m h a v e s u c c e s s f u l l y p a s s e d t h e t e s t i n t h e s y s t e m . t h e d i s s e rt a t i o n h a s c o n t r i b u t e d t o t h e s u c c e s s o f n a t i o n a l d e f e n s e p r e l i m i n a r y r e s e a r c h p r o j e c t s a n d t h e t a p i n g o u t o f l o n g t e n g r 2 m i c r o p r o c e s s o r . 西北工业大学硕士学位论文 k e y wo r d s : r i s c m ic r o p ro c e s s o r l o a d /s to r e u n it b u s in te rf a c e u n it 即 g八 西北工业大学硕士学位论文 第一章 绪论 第一章 绪论 1 . 1课题背景及来源 微处理器是一切信息设备的,j 自 脏” , 而微处理器的体系结构和时钟频率是推 动计算机系统发展的原动力。微处理器结构不变时,其处理性能的提升依靠时 钟频率的不断提高;但设计技术和生产工艺发展接踵而来的结构更新,更是处 理器性能跃升的源头。 精简指令计算机( r i s c ) 是和复杂指令系统计算机( c i s c ) 相对的 概念 h e p a 0 1 。 研究人员测试表明, c i s c机中一些仅占 指令总数 2 0 % 的简 单 指令, 在程序中出 现的 频度高 达8 0 p/ h e p a 0 1 。 而复杂的 指令系 统增加了 处 理器 的复杂性,延长了微处理器的研制时间,提高了处理器的开发成本,同时复杂 指令所需的复杂操作还降低了机器的运算速度。为此, 科学家于2 0世纪7 0 年 代提出了“ 精简指令” 的思想。 2 0 世纪 8 0 年代初,斯坦福大学研制出mi p s机,推动了r i s c机的发展。 有关专家介绍,r i s c微处理器不仅精简了指令系统,还采用超标量和超流水线 结构, 大大增强了并行处理能力。由于r i s c处理器指令简单、 采用硬布线控制 逻辑、处理能力强、速度快,世界上绝大部分 u n i x工作站和服务器厂商均采 用r i s c芯片作c p u 。 如原d e c的a lp h a 2 1 3 6 4 , i b m的p o w e r p c g 5 , h p 的 p a - 8 9 0 0 , s g i 的m i p s r 1 2 0 0 0 a和s u n m i c r o s y s t e m公司的u l t r a s p a r c i i i . 这些r i s c芯片的工作频率一般在4 0 0 mh z 数量级甚至更高。 时钟频率低, 功率 消耗少, 温升也小, 机器不易发生故障和老化,提高了 系统的可靠性。如 s g i 的mi p s r 1 2 0 0 0 a微处理器主要靠改进微处理器的体系结构来提高处理器的总 体性能,使运行应用程序时速度加快。 r i s c微处理器取得成功的原因之一是由于指令集简化后,流水线以 及常用 指令均可用硬件执行;原因之二是采用大量的寄存器,使大部分指令操作都在 寄存器之间进行,提高了处理速度;原因之三是采用缓存一主存一外存三级存 储结 构 s u n d e 0 3 , 使取数与 存数指令 分开执 行, 使处理 器可以 完 成尽 可能多的 工作, 且不因从存储器存取信息而放慢处理速度。 在r i s c微处理器发展过程中。 曾 产生了 超长指令字( v l i w) h e p a 0 1 微处理 器,它使用非常长的指令组合,把许多条指令连在一起,以增加运算速度在 西北工业大学硕士学位论文 第一章 绪论 第一章 绪论 1 . 1课题背景及来源 微处理器是一切信息设备的,j 自 脏” , 而微处理器的体系结构和时钟频率是推 动计算机系统发展的原动力。微处理器结构不变时,其处理性能的提升依靠时 钟频率的不断提高;但设计技术和生产工艺发展接踵而来的结构更新,更是处 理器性能跃升的源头。 精简指令计算机( r i s c ) 是和复杂指令系统计算机( c i s c ) 相对的 概念 h e p a 0 1 。 研究人员测试表明, c i s c机中一些仅占 指令总数 2 0 % 的简 单 指令, 在程序中出 现的 频度高 达8 0 p/ h e p a 0 1 。 而复杂的 指令系 统增加了 处 理器 的复杂性,延长了微处理器的研制时间,提高了处理器的开发成本,同时复杂 指令所需的复杂操作还降低了机器的运算速度。为此, 科学家于2 0世纪7 0 年 代提出了“ 精简指令” 的思想。 2 0 世纪 8 0 年代初,斯坦福大学研制出mi p s机,推动了r i s c机的发展。 有关专家介绍,r i s c微处理器不仅精简了指令系统,还采用超标量和超流水线 结构, 大大增强了并行处理能力。由于r i s c处理器指令简单、 采用硬布线控制 逻辑、处理能力强、速度快,世界上绝大部分 u n i x工作站和服务器厂商均采 用r i s c芯片作c p u 。 如原d e c的a lp h a 2 1 3 6 4 , i b m的p o w e r p c g 5 , h p 的 p a - 8 9 0 0 , s g i 的m i p s r 1 2 0 0 0 a和s u n m i c r o s y s t e m公司的u l t r a s p a r c i i i . 这些r i s c芯片的工作频率一般在4 0 0 mh z 数量级甚至更高。 时钟频率低, 功率 消耗少, 温升也小, 机器不易发生故障和老化,提高了 系统的可靠性。如 s g i 的mi p s r 1 2 0 0 0 a微处理器主要靠改进微处理器的体系结构来提高处理器的总 体性能,使运行应用程序时速度加快。 r i s c微处理器取得成功的原因之一是由于指令集简化后,流水线以 及常用 指令均可用硬件执行;原因之二是采用大量的寄存器,使大部分指令操作都在 寄存器之间进行,提高了处理速度;原因之三是采用缓存一主存一外存三级存 储结 构 s u n d e 0 3 , 使取数与 存数指令 分开执 行, 使处理 器可以 完 成尽 可能多的 工作, 且不因从存储器存取信息而放慢处理速度。 在r i s c微处理器发展过程中。 曾 产生了 超长指令字( v l i w) h e p a 0 1 微处理 器,它使用非常长的指令组合,把许多条指令连在一起,以增加运算速度在 1 g i l s r ) l * g 1a l * ti it a c一 .一一 一一第 一 章绪 论 v l i w 微处理器中多个功能部件由一组寄存器相连,以支持多功能并行执行。 v l i w 处理器的基本模型是标量代码的执行模型,使侮个机器周期内有多个操 作。有些r i s c处理器也采用少数v l i w指令来提高处理速度。 在国防方面,有自己的高性能的 “ 芯”对于国防安全有重大的现实意义。 军用3 2 位嵌入式微处理器的研究与设计是国防“ 十 五” 预研课题军用s o c系 统设计的一部分,从国防 “ 七 五”计划至今,航空机载嵌入式微处理器土要 依赖国外进口,随着国防对军用微处理器需求加大,军用微处理器在进口 和使 用方面,受到种种限制。多种军用航空芯片,因技术限制和停产等原因,不能 引进和充实国防应用。这严重束缚了以微处理器为核心的军用、民用电子控制 系统的发展。因此,自 行研制具有我国自 主版权的微处理器迫在眉睫。实践证 明:研制路线采用开发具有自 主版权的、与国外广泛应用的微处理器指令系统 相兼容的微处理器,是目 前提高国内微处理器设计和开发能力的一种有效途径 s u n 0 2 基于上述背景,西北工业大学航空微电子中心使用指令集和国际主流的体 系结构相兼容, 处理器结构自 主设计, 用t o p - d o w n 的方式完成高性能微处理器 的设计,先后承担了“ 龙腾r 1 , “ 龙腾r 2 , “ 龙腾c l ”和 “ 龙腾s 1 等一系 列处理器的研制工作。 1 . 2国内外研究现状 l o a d - s t o r e 部件一直是微处理器中数据传输的瓶颈, 其存取数据的 速度或效 率一直制约着定点部件和浮点部拌的执行效率f z j 0 9 5 。因此提高微处理器中 l o a d - s t o r e 部件从数据c a c h e 中存取数据的效率对于微处理器整体性能的提高具 有深刻的影响r a n i 0 4 。目 前为了提高l o a d - s t o r e 部件的执行性能,国内 外做了 广 泛的研究,其中所使用的方法可以归纳为如下几个方面:( 1 )采用流水线方式 执行 l o a d - s t o r e 指令2 1t , 这样就避免了 因阻塞式结构造成的长期等待从数据 c a c h e中或外部存储器取数而引起的系统性能损失; ( 2 ) 根据时间局部性和空 间 局部 性原理 h ep a 0 1 采用s t o re - t o - l o a d f o r w o r d in g a n s o 技术 和 l o a d - t o - l o a d f o r w o r d in g m 0 s o 9 9 技 术 , 即 在 执行l o a d 指 令 时 从s t o r e 缓 冲 队 列 或l o a d 缓 冲 队 列中查找与当前l o a d 指令有效地址相匹配的s t o r e 指令的数据或己执行的l o a d 指令的缓冲数据,若地址匹配成功则直接将查找到的数据送往l o a d 指令,这样 就减少了l o a d 指令的延迟时间,从而提高了l o a d - s t o r e 部件执行l o a d / s t o r e 指 1 g i l s r ) l * g 1a l * ti it a c一 .一一 一一第 一 章绪 论 v l i w 微处理器中多个功能部件由一组寄存器相连,以支持多功能并行执行。 v l i w 处理器的基本模型是标量代码的执行模型,使侮个机器周期内有多个操 作。有些r i s c处理器也采用少数v l i w指令来提高处理速度。 在国防方面,有自己的高性能的 “ 芯”对于国防安全有重大的现实意义。 军用3 2 位嵌入式微处理器的研究与设计是国防“ 十 五” 预研课题军用s o c系 统设计的一部分,从国防 “ 七 五”计划至今,航空机载嵌入式微处理器土要 依赖国外进口,随着国防对军用微处理器需求加大,军用微处理器在进口 和使 用方面,受到种种限制。多种军用航空芯片,因技术限制和停产等原因,不能 引进和充实国防应用。这严重束缚了以微处理器为核心的军用、民用电子控制 系统的发展。因此,自 行研制具有我国自 主版权的微处理器迫在眉睫。实践证 明:研制路线采用开发具有自 主版权的、与国外广泛应用的微处理器指令系统 相兼容的微处理器,是目 前提高国内微处理器设计和开发能力的一种有效途径 s u n 0 2 基于上述背景,西北工业大学航空微电子中心使用指令集和国际主流的体 系结构相兼容, 处理器结构自 主设计, 用t o p - d o w n 的方式完成高性能微处理器 的设计,先后承担了“ 龙腾r 1 , “ 龙腾r 2 , “ 龙腾c l ”和 “ 龙腾s 1 等一系 列处理器的研制工作。 1 . 2国内外研究现状 l o a d - s t o r e 部件一直是微处理器中数据传输的瓶颈, 其存取数据的 速度或效 率一直制约着定点部件和浮点部拌的执行效率f z j 0 9 5 。因此提高微处理器中 l o a d - s t o r e 部件从数据c a c h e 中存取数据的效率对于微处理器整体性能的提高具 有深刻的影响r a n i 0 4 。目 前为了提高l o a d - s t o r e 部件的执行性能,国内 外做了 广 泛的研究,其中所使用的方法可以归纳为如下几个方面:( 1 )采用流水线方式 执行 l o a d - s t o r e 指令2 1t , 这样就避免了 因阻塞式结构造成的长期等待从数据 c a c h e中或外部存储器取数而引起的系统性能损失; ( 2 ) 根据时间局部性和空 间 局部 性原理 h ep a 0 1 采用s t o re - t o - l o a d f o r w o r d in g a n s o 技术 和 l o a d - t o - l o a d f o r w o r d in g m 0 s o 9 9 技 术 , 即 在 执行l o a d 指 令 时 从s t o r e 缓 冲 队 列 或l o a d 缓 冲 队 列中查找与当前l o a d 指令有效地址相匹配的s t o r e 指令的数据或己执行的l o a d 指令的缓冲数据,若地址匹配成功则直接将查找到的数据送往l o a d 指令,这样 就减少了l o a d 指令的延迟时间,从而提高了l o a d - s t o r e 部件执行l o a d / s t o r e 指 西北工业大学硕 卜 学位论文 第一帝 绪论 令的吞吐率; ( 3 ) 采用l o a d w a i t b u f f e r ( l o a d等待缓冲) s h j e 9 9 技术,即对于 在数据 c a c h e中缺失的l o a d 指令, 先将其存储在 l o a d wa i t b u f f e r 中, 让后续 的l o a d / s t o r e 指令先行执行, 待数据 c a c h e从外部存储器中取回数据后, 继续 执行,这样就减少了因为 l o a d指令缺失而造成的 l o a d指令的长期等待,从而 提高l o a d - s t o r e 部件的执行效率。 ( 4 ) 优化l s u数据通路 2 6 ,因为大多数微处 理器系统支持地址不对齐、字节反向、高位符号位扩展或添 0以及低位补0的 l o a d / s t o r e 指令,故在执行这些l o a d / s t o r e 指令,额外的多步操作将会对微处理 器系统的性能造成一定的 影响,为此 s u n 0 2 研究设计了 一种扩展的特殊对齐部 件,可以在一个时钟周期内完成上述所有的工作,从而大大地缩短了上述 l o a d / s t o r e 指令的执行时间。 同样输入输出子系统 ( 总线接口部件)始终是高性能计算机系统中的瓶颈 b u g o 9 6 w an g 9 9 。 当 然 随 着i c 制 造 工 艺 和r i s c 技 术 的 发 展, 电 路 速 度 越 来 越 快, 指令执行时间越来越短,虽然连接微处理器 ( mp u)和存储器的 i / o的带宽也 不断增加,但它的速度增长远远赶不上微处理器和存储器本身速度的增 长 m a 9 9 s u n 0 4 。 特 别 是 先 进 的r i s c 技 术, 如 超 流 水 线 、 超 标 量 和v l i w在m p u 设 计中的广泛应用,使得这一矛盾更加突出。为了解决这一问题,常用的方法有: ( i ) 优 化c a c h e 的 设 计, 通 过 采 用多 级c a c h e , 牺 牲c a c h e , 以 及c a c h e 缺失下缺失和缺失下命中技术等,减少了缺失率和缺失代价,从而满足快速指 令的 要求。 ( 2 ) 分支 预 测 技术 b o n 9 4 分 支 预 测 技术的目 标 是 根据某 些条 件 提前 判 断是否需要转移, 若需要, 则将预测的目 标指令和数据预取到c a c h e , 从而避 免转移引起的c a c h e失效, 损失系统性能。 这种技术能够从一定的程度上提高 系统的 性能。 ( 3 ) 存 取式结构和大寄 存器堆 m p u采用存取式结构m a 9 9 , 即 在 m p u内部设置大量的寄存器,为l o a d / s t o r e指令以外的其它非访存指令提 供广阔的运算空间, 这样减少了mp u访存次数, 从某种意义上来说也就提高了 访存效率。( 4 ) l o a d - s t o r e模型 即将内 部访存的 指令请求先存放到总线接口 部件的l o a d - s t o r e 缓冲模型中后,内部mp u可以继续执行后续的指令请求, 待数据从外部存储器中取回后,通知内部m p u取走数据, 这样内部mp u就减 少了等待总线接口部件从外部存储器取数的时间,从而也提高了访存效率。 从国内微处理器发展来看, r i s c微处理器的研究和设计方面发展迅速,已 有多款r i s c微处理器芯片研制成功。 在国内科技力量比较雄厚的地区, 一批i c 设计企业也如雨后春笋般建立,这样开发中国c p u就有了坚实的基础。在前沿 研究方面,以中科院为首,很多重点大学和部属科学院所等单位聚集一大批有 经验、高水平的科研人员己投入中国“ 芯” 的研究之中,以上种种显示, 发展高性 西北 r _ 业大学硕 卜 学位论文 第一章 结论 能微处理器的各种机遇降临中国。 如今, 中科院计算所研制成功基于mi p s 系统 结构的“ 龙芯 i 0 和“ 龙芯 i i ,通用微处理器芯片,可以广泛的应用于商用领域:西 安交大和航天7 7 1 所合作的攻关项目 “ 3 2 位高性能浮点r i s c微处理器” , 该处理 器不仅可以独立运用,而且可以作为知识产权模块芯核嵌入到s o c系统级芯片 中,目 前己经作为核心i p芯核成功嵌入到中国正在研制的超大规模图像处理芯 片中,紧随其后的 “ 方舟” 、“ 汉芯” 、“ 清芯” 等微处理器的研发成功的捷报频频 传来。 西北工业大学航空微电子中心研制成功基于 p o w e r p c体系结构的“ 龙腾 r i r s i c微处理器和基于i n t e l x 8 6 体系结构的“ 龙腾c i ” 微处理器,目 前 “ 龙 腾r 2 微处理器和 “ 龙腾s i ”微处理器也正在研制当中。 1 . 3 论文内容及其意义 p o w e r ( p e r f o r m a n ce o p t im iz e d w i th e n h a n c e d r i s c ) m t p e 9 7 1体 系 结 构 和早 期的r i s c处理器有许多相似之处,例如,采用简单的面向寄存器的指令系统, c p u采用硬连线技术实现, 注重流水线技术的使用等。 但是,与它之前的r i s c 机 器 相比 , 其 指令 系 统是 对r i s c 设 计的 一个 挑战。 p o w e r p c 7 5 0 1 m 微 处 理 器是一个复杂的系统,主要应用于嵌入式领域。作为九十年代中期国外研制并 一直使用至今的高性能3 2 位微处理器, p o w e r p c系列具有独特优点。 本论文从p o w e r p c的指令系统入手并结合 “ 龙腾r 2 微处理器的 微体系结 构, 其 主 要 研 究内 容 是“ 龙 腾lull 微 处 理 器中 存 取 部 件( 包 括l o a d - s t o r e 部 件 和总线接口 部件)的研究,并对 “ 龙腾f u 11 整体验证系统进行了f p g a实现。 作者在硕士期间进行的研究工作归纳如下: i . 深入地研究了微处理器存取部件 ( l s u和总线接口部件)的体系结构,对 国际上先进的存取部件的技术进行了研究总结,并成功应用到“ 龙腾r2 r i s c微处理器中。 2结合p o w e r p c 7 5 0 手册,完成了“ 龙腾r 2 ”微处理器中l o a d - s t o r e 部件的 设计与实现, 为了 和p o w e r p c体系结构完全兼容, 作者采取了b f m( 总线 功能模型) 建模的方法对l o a d - s t o r e 部件进行了详细的仿真验证工作, 目前 l o a d - s t o r e 部件能完全正确地执行 p o w e r p c指令集中的所有 l o a d和 s t o r e 指令, 其代码覆盖率达9 8 .4 % 和功能覆盖率达1 0 0 01 0 0 3 . 完成了“ 龙腾r 2 1s 微处理器总线接口 单元的设计和实现, 其总线接日协 议 采用p o w e r p c体系下的p o w e r p c 6 0 x总线接口协议,经仿真验证其接口信 西北 r _ 业大学硕 卜 学位论文 第一章 结论 能微处理器的各种机遇降临中国。 如今, 中科院计算所研制成功基于mi p s 系统 结构的“ 龙芯 i 0 和“ 龙芯 i i ,通用微处理器芯片,可以广泛的应用于商用领域:西 安交大和航天7 7 1 所合作的攻关项目 “ 3 2 位高性能浮点r i s c微处理器” , 该处理 器不仅可以独立运用,而且可以作为知识产权模块芯核嵌入到s o c系统级芯片 中,目 前己经作为核心i p芯核成功嵌入到中国正在研制的超大规模图像处理芯 片中,紧随其后的 “ 方舟” 、“ 汉芯” 、“ 清芯” 等微处理器的研发成功的捷报频频 传来。 西北工业大学航空微电子中心研制成功基于 p o w e r p c体系结构的“ 龙腾 r i r s i c微处理器和基于i n t e l x 8 6 体系结构的“ 龙腾c i ” 微处理器,目 前 “ 龙 腾r 2 微处理器和 “ 龙腾s i ”微处理器也正在研制当中。 1 . 3 论文内容及其意义 p o w e r ( p e r f o r m a n ce o p t im iz e d w i th e n h a n c e d r i s c ) m t p e 9 7 1体 系 结 构 和早 期的r i s c处理器有许多相似之处,例如,采用简单的面向寄存器的指令系统, c p u采用硬连线技术实现, 注重流水线技术的使用等。 但是,与它之前的r i s c 机 器 相比 , 其 指令 系 统是 对r i s c 设 计的 一个 挑战。 p o w e r p c 7 5 0 1 m 微 处 理 器是一个复杂的系统,主要应用于嵌入式领域。作为九十年代中期国外研制并 一直使用至今的高性能3 2 位微处理器, p o w e r p c系列具有独特优点。 本论文从p o w e r p c的指令系统入手并结合 “ 龙腾r 2 微处理器的 微体系结 构, 其 主 要 研 究内 容 是“ 龙 腾lull 微 处 理 器中 存 取 部 件( 包 括l o a d - s t o r e 部 件 和总线接口 部件)的研究,并对 “ 龙腾f u 11 整体验证系统进行了f p g a实现。 作者在硕士期间进行的研究工作归纳如下: i . 深入地研究了微处理器存取部件 ( l s u和总线接口部件)的体系结构,对 国际上先进的存取部件的技术进行了研究总结,并成功应用到“ 龙腾r2 r i s c微处理器中。 2结合p o w e r p c 7 5 0 手册,完成了“ 龙腾r 2 ”微处理器中l o a d - s t o r e 部件的 设计与实现, 为了 和p o w e r p c体系结构完全兼容, 作者采取了b f m( 总线 功能模型) 建模的方法对l o a d - s t o r e 部件进行了详细的仿真验证工作, 目前 l o a d - s t o r e 部件能完全正确地执行 p o w e r p c指令集中的所有 l o a d和 s t o r e 指令, 其代码覆盖率达9 8 .4 % 和功能覆盖率达1 0 0 01 0 0 3 . 完成了“ 龙腾r 2 1s 微处理器总线接口 单元的设计和实现, 其总线接日协 议 采用p o w e r p c体系下的p o w e r p c 6 0 x总线接口协议,经仿真验证其接口信 西北工业大学硕 士学位论文第章 绪论 号时序和接g协议己完全和p o w e r p c 7 5 0 相兼容。 同时完成了代码覆盖率和 功能覆盖率的测试,其代码覆盖率已 达9 7 .3 %,功能覆盖率达9 5 .3 % . 4 . 设计并实现了 “ 龙腾 r 2 ”的f p g a验证系统,并在此系统上成功通过了 用 户提供的小监控程序、大监控程序、浮点测试程序和特殊指令程序的测试, 中断的处理测试也己完成,目 前在作者所设计的系统中,现已成功完成了 嵌入式操作系统v x wo r k s b o o t r o m的系统测试。 在完成上述工作的同时,作者对微处理器系统的软件仿真程序 ( 包括大小 监控程序、浮点测试程序、特殊指令集程序和 v x wo r k s 操作系统)进行了深入 的研究,为航空微电子中心的下一代 “ 龙腾”系列微处理器的研制和验证提供 了一定的资源。希望本论文的研究工作对后续的微处理器的研究具有其参考价 值。 1 .4论文安排 本论文是按照作者在p o w e r p c组中所承担的工作来安排的。 论文的第一章为绪论,介绍了本课题研究的背景、意义、研究现状、作者 的研究内容以及论文的结构安排。 第二章是对存取部件的研究工作的归纳,重点阐述了国内外为提高存取部 件 ( l o a d - s t o r e 部件和总线接口 部件)的性能而进行的最新研究成果。 第三章详细的讨论了“ 龙腾r 2 ” 中l o a d - s t o r e 部件的体系结构和设计实现, 并对 “ 龙腾r 2 ”的体系结构进行了简要的介绍。 第四章详细地阐述了p o w e r p c 6 0 x总线接口协议以及 “ 龙腾r 2 ” 总线接日 单元的设计实现。 第五章分两部分, 一是 “ 龙腾 r 2 ” 微处理器存取部件的模块级的仿真测试; 二是 “ 龙腾 r 2 f p g a整体验证系统的设计、综合、布线和测试。重点介绍了 为验证总线接口单元而进行的 “ 龙腾r 2 f p g a验证系统设计实现。 西北工业大学硕 士学位论文第章 绪论 号时序和接g协议己完全和p o w e r p c 7 5 0 相兼容。 同时完成了代码覆盖率和 功能覆盖率的测试,其代码覆盖率已 达9 7 .3 %,功能覆盖率达9 5 .3 % . 4 . 设计并实现了 “ 龙腾 r 2 ”的f p g a验证系统,并在此系统上成功通过了 用 户提供的小监控程序、大监控程序、浮点测试程序和特殊指令程序的测试, 中断的处理测试也己完成,目 前在作者所设计的系统中,现已成功完成了 嵌入式操作系统v x wo r k s b o o t r o m的系统测试。 在完成上述工作的同时,作者对微处理器系统的软件仿真程序 ( 包括大小 监控程序、浮点测试程序、特殊指令集程序和 v x wo r k s 操作系统)进行了深入 的研究,为航空微电子中心的下一代 “ 龙腾”系列微处理器的研制和验证提供 了一定的资源。希望本论文的研究工作对后续的微处理器的研究具有其参考价 值。 1 .4论文安排 本论文是按照作者在p o w e r p c组中所承担的工作来安排的。 论文的第一章为绪论,介绍了本课题研究的背景、意义、研究现状、作者 的研究内容以及论文的结构安排。 第二章是对存取部件的研究工作的归纳,重点阐述了国内外为提高存取部 件 ( l o a d - s t o r e 部件和总线接口 部件)的性能而进行的最新研究成果。 第三章详细的讨论了“ 龙腾r 2 ” 中l o a d - s t o r e 部件的体系结构和设计实现, 并对 “ 龙腾r 2 ”的体系结构进行了简要的介绍。 第四章详细地阐述了p o w e r p c 6 0 x总线接口协议以及 “ 龙腾r 2 ” 总线接日 单元的设计实现。 第五章分两部分, 一是 “ 龙腾 r 2 ” 微处理器存取部件的模块级的仿真测试; 二是 “ 龙腾 r 2 f p g a整体验证系统的设计、综合、布线和测试。重点介绍了 为验证总线接口单元而进行的 “ 龙腾r 2 f p g a验证系统设计实现。 西北 业大学硕士学位论文第二章 存取部件的技术研究 第二章存取部件的技术研究 在 r i s c微处理器中,存取部件分为两个部分,一个是访问数据 c a c h e的 l o a d - s t o r e 部件, 另外一个是访问外部存储器的总线接口部件。 它们都是微处理 器中数据传输的瓶颈,也是微处理器设计中值得研究人员深入研究的关键部件, 因此如何提高存取部件的性能,便成了微处理器设计中一个很重要的挑战。 本章将从提高存取部件的执行性能出发,分别来阐述国内外存取部件设计 的研究成果。 其中第一部分详细描述l o a d - s t o r e 部件的研究; 第二部分将详细描 述总线接口部件的研究。 2 . 1 l o a d - s t o r e 部件的研究 l o a d - s t o r e 部件 ( 以下简称 l s u )作为微处理器的内部数据传输通路,它 的主要功能是执行l o a d / s t o r e 指令, 负责处理来自定点部件和浮点部件的访存或 访c a c h e 请求,其简单结构框图如图2 - 1 所示: r e s u l t b u s e ff e c t iv e a d d r e s s e a ca l c r e a d /wr ite l o a d / s t o r e u n i t s to red a ta da t a c a c h e st o r e 图2 一1 l s u的简单结构框图 从图2 - 1 所示,l s u的输入是l o a d / s t o r e 指令的地址,对于s t o r e 指令,还 有需要存储的数据: l s u的输出是 s t o r e 指令的地址和需要存储的数据。从上图 西北 业大学硕士学位论文第二章 存取部件的技术研究 第二章存取部件的技术研究 在 r i s c微处理器中,存取部件分为两个部分,一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论