(电子科学与技术专业论文)流体系结构存储系统的设计实现及性能优化研究.pdf_第1页
(电子科学与技术专业论文)流体系结构存储系统的设计实现及性能优化研究.pdf_第2页
(电子科学与技术专业论文)流体系结构存储系统的设计实现及性能优化研究.pdf_第3页
(电子科学与技术专业论文)流体系结构存储系统的设计实现及性能优化研究.pdf_第4页
(电子科学与技术专业论文)流体系结构存储系统的设计实现及性能优化研究.pdf_第5页
已阅读5页,还剩117页未读 继续免费阅读

(电子科学与技术专业论文)流体系结构存储系统的设计实现及性能优化研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院博十学1 1 :7 = 论文 流水访问,有效提高了实际工作带宽。 5 为了提高主存数据总线的有效周期利用率,提出了一种面向流应用的存储 调度机制。这种机制针对流数据的组织特点,在读写数据通路上分别使用 一个支持流数据存储模式的二维数据缓冲,使部分流数据访存请求可以 进入缓冲并和其后的其他请求进行合并以最大限度地利用主存带宽。 6 在对流应用访存特性进行分析的基础上,提出了一种基于流地址分析的 d r a m 页策略。该策略通过统计等待访存的请求的地址分布情况和分析 流数据访存地址变化的规律,预测每个d r a m 体未来的访问情况,并据 此选择合适的时机对d r a m 体进行p r e c h a r g e 操作来加快访问速度。 实验结果表明,根据本文提出的设计思想和实现方法设计的流存储系统以及 在此基础上提出的优化方法能有效地降低数据访存时间,显著地改善系统性能。 本文的研究成果为进一步提高流体系结构存储系统的性能提供了理论依据和实践 基础。 主题词:流体系结构,流存储系统,多级存储层次,f t 6 4 ,s d r c a c h e ,数 据重用,流寄存器文件,虚拟全频访问,存储调度,页策略 第i i 页 国防科学技术大学研究生院博士学位论文 a b s t r a c t w i t ht h ep o p u l a r i t yo fs t r e a ma p p l i c a t i o na n dt h ed e v e l o p m e n to fv l s it e c h n o l o g y , as e r i e so fc h a l l e n g e sh a v e b e e nc o n f r o n t e di nt h ef i e l do ft r a d i t i o n a lh i g h - p e r f o r m a n c e p r o c e s s o r a r c h i t e c t u r e s t r e a ma r c h i t e c t u r ei sas t r e a m a p p l i c a t i o n o r i e n t e d h i g h p e r f o r m a n c ep r o c e s s o ra r c h i t e c t u r e s t r e a ma r c h i t e c t u r ec a nf u l l ye x p l o i tt h e p a r a l l e l i s ma n dl o c a l i t yi ns t r e a ma p p l i c a t i o n ,w h i c hc a l lr e s u l ti nt h eh i g h - p e r f o r m a n c e s u p p o r tf o rs t r e a ma p p l i c a t i o n s t r e a ma r c h i t e c t u r eg e n e r a l l ya d o p t ss o f t w a r e m a n a g e ds t r e a mm e m o r ys y s t e m w h i c hi ss u p e r i o rt ot r a d i t i o n a lo n ew h e ni ti so r i e n t e dt os t r e a ma p p l i c a t i o n ,b u tt h e f u r t h e rr e s e a r c hc a r lr a r e l yb ef o u n di nt h ef i e l do fs t r e a mm e m o r ys y s t e m o nt h eb a s i s o fc h a r a c t e r i s t i c so fm e m o r ya c c e s si ns t r e a ma p p l i c a t i o na n dt h er e l e v a n tp r e v i o u s r e s e a r c ha c h i e v e m e n t s ,h o wt od e v e i o pm e m o r ya c c e s sm e c h a n i s ms u p p o r t i n gs t r e a m a p p l i c a t i o ne f f i c i e n t l yi s s t i l lc h a l l e n g i n g t b j sd i s s e r t a t i o nf o c u s e so nas e r i e so f r e s e a r c h e so ns t r e a mm e m o r ys y s t e mi ns t r e a ma r c h i t e c t u r e i nt h i sd i s s e r t a t i o n ,t h em a i nr e s e a r c ho b j e c ti ss t r e a mm e m o r ys y s t e mi ns t r e a m a r c h i t e c t u r e w ee x p l o r et h ee x i s t i n gr e s e a r c h e so ns t r e a mm e m o r ys y s t e mt h o r o u g h l y t h e nw ep r o p o s ean e wt h o u g h to fs t r e a mm e m o r ys y s t e m ,a n di m p l e m e n ti ti nf t 6 4 p r o c e s s o r f u r t h e r m o r e ,a c c o r d i n gt ot h ec h a r a c t e r i s t i c so fd a t aa c c e s s i ns t r e a m a p p l i c a t i o n s ,w ep r o p o s es e v e r a lo p t i m i z a t i o nt e c h n i q u e so fs t r e a mm e m o r ys y s t e m b a s e do nf t 6 4s t r e a mp r o c e s s o r 刀招m a i nc o n t r i b u t i o n si nt h i sd i s s e r t a t i o na r ea sf o l l o w s : 1 m e m o r ys y s t e m si nc u r r e n tc o m p u t e ra r c h i t e c t u r e sa r ea n a l y z e da n dr e l a t e d w o r k sa r ed i s c u s s e d f o c u s i n go nt h ea r c h i t e c t u r e sa n da c c e s sc h a r a c t e r i s t i c s o fh a r d w a r e m a n a g e dc a c h em e m o r ys y s t e ma n ds o f t w a r e - m a n a g e ds t r e a m m e m o r ys y s t e m ,w ea n a l y z et h ed i f f e r e n c e sb e t w e e nt h e mi nb a n d w i d t h r e q u i r e m e n t s ,l a t e n c yc o n c e a l i n g ,e n e r g ye m c i e n c ya n ds o f t w a r ec o m p l e x i t y 2 a i m i n ga tt h ea c c e s sc h a r a c t e r i s t i c so fr e p r e s e n t a t i v es t r e a ma p p l i c a t i o n s ,w e p r o p o s ean e wt h o u g h to fs t r e a mm e m o r ys y s t e ma n di m p l e m e n ti t i nt h e d e s i g no ff t 6 4p r o c e s s o r t h em e m o r ys y s t e mo ff t 6 4p r o c e s s o rc a nb e d i v i d e di n t ot h r e el e v e l s ,i ta d o p t sm e m o r yb a n d w i d t hm a t c h i n gd e s i g nt o i m p r o v ec o m p u t i n gp e r f o r m a n c ea n dt or e d u c eb a n d w i d t hd e m a n d i td i r e c t l y s u p p o r t s t h r e ea c c e s sa d d r e s sg e n e r a t i n gm o d e s :c o n s t a n ts t r i d e ,i n d e x e d ( s c a t t e r g a t h e r ) ,a n db i t - r e v e r s e d 3 a i m i n ga td a t ar e u s ei ns t r e a ma p p l i c a t i o n s ,w ep r o p o s eas t r e a md a t ar e u s e o r i e n t e ds d r - c a c h es t r u c t u r e ,a n do p t i m i z ei t sp e r f o r m a n c eb ya d o p t i n gf m b w r i t e d i r e c t l ya n dl i f e t i m es p e c u l a t i o nt e c h n i q u e s s d r - c a c h e c a l lr e a l i z et h e i t ra n di p c lr e u s eo fs t r e a m - l e v e ld a t ab yc a p t u r i n gt h e mw i t ht h eg u i d a n c e 第i i i 页 国防科学技术大学研究生院博十学位论文 o fc o m p i l e r f i l l i n gc a c h ew i t ht h ec a c h e l i n e st h a tw i l lb et u l l ym o d l t m dc a n b ea v o i d e di fw eu s ef m bw r i t e d i r e c t l yt e c h n i q u e l i f e t i m es p e c u l a t i o n e n a b l e st h ec a c h et oi n v a l i d a t et h ed a t at h a tw o n tb eu s e da n y m o r ei n s t e a do f w r i t i n gt h e mb a c ki n t om e m o r y t h e s et e c h n i q u e sr e d u c e a c c e s sd e l a yi n m a n ys t r e a mp r o g r a m se v i d e n t l y 4 i nc u r r e n tc h i pd e s i g n ,s i n c et h eb i gc a p a c i t yo n 。c h i pm e m o r yc a no n l yb e h a l f - f r e q u e n c ya c c e s s e d ,w ep r o p o s eav i r t u a lf u l l f r e q u e n c ya c c e s sa p p r o a c h , w h i c hd i v i d e ss i n g l em e m o r ys t o r a g ei n t om a n yb a n k sc o n t r o l l e db yc l o c k s w i t hd i f f e r e n tp h a s e s l o w - b i ti n t e r l e a v e dd a t aa c c e s sm o d ea l l o w st h es t o r a g e t or e a l i z ef u l l f r e q u e n c yp i p e l i n e da c c e s s t h e nt h e e f f e c t i v eb a n d w i d t hi s i n c r e a s e d 5 t oe n h a n c et h ea v a i l a b l ec y c l eu t i l i z a t i o ne f f i c i e n c yo fm e m o r yd a t ab u s ,w e p r o p o s e as t r e a ma p p l i c a t i o no r i e n t e dm e m o r ys c h e d u l i n gm e c h a n i s m a c c o r d i n gt ot h ec h a r a c t e r i s t i c so fs t r e a md a t ao r g a n i z a t i o n ,t h em e c h a n i s m t a k e sf u l la d v a n t a g eo fm e m o r yb a n d w i d t hb yu s i n gat w o - d i m e n s i o n a ld a t a b u f f e rt oc o m b i n ea c c e s sr e q u e s t s 6 t h r o u g ht h ea n a l y s i so fa c c e s sc h a r a c t e r i s t i c s o fs t r e a ma p p l i c a t i o n s ,w e p r o p o s ead r a mp a g es t r a t e g y b a s e do ns t r e a ma d d r e s sa n a l y s i s b y r e c o r d i n ga n da n a l y z i n g t h ea d d r e s sd i s t r i b u t i o no fw a i t i n gr e q u e s t s ,t h e s t r a t e g yc a np r e d i c tt h ei n c o m i n ga c c e s ss i t u a t i o no fe a c hb a n k , t h e n e n a b l e d r a mb a n kt op r e c h a r g ea p p r o p r i a t e l y r e s u l t so fe x p e r i m e n t ss h o wt h a tt h ep r o p o s e ds t r e a mm e m o r ys y s t e md e s i g na n d r e l a t e do p t i m i z a t i o nm e c h a n i s m sc a nr e d u c ed a t aa c c e s sd e l a ye f f i c i e n t l y ,a n di m p r o v e s y s t e mp e r f o r m a n c ee v i d e n t l y t l i sd i s s e r t a t i o np r o v i d e sb o t ht h e o r e t i c a la n dp r a c t i c a l f o u n d a t i o n sf o rf u r t h e ri m p r o v e m e n to fs t r e a mm e m o r ys y s t e mp e r t b r m a n c e k e yw o r d s :s t r e a ma r c h i t e c t u r e ,s t r e a mm e m o r ys y s t e m ,m u l t i l e v e lm e m o r y h i e r a r c h y ,f t 6 4 ,s d r c a c h e ,d a t ar e u s e ,r e g i s t e rf i l e ,v i r t u a lf u l l - f r e q u e n c y a c c e s s ,m e m o r ys c h e d u l i n g ,p a g es t r a t e g y 一一一_-_- 第i v 页 国防科学技术大学研究生院博士学能论文 表目录 表1 1u c a 的访问延时7 表3 1s r f 设计参数3 0 表3 2d r a m c 设计参数4 0 表3 3f t 6 4 处理器相对i t a n i u m 2 的性能加速比4 5 表4 1主机环境配置4 9 表4 2f t 6 4 软件模拟器参数配置5 0 表6 1单端口s 删引脚信号定义。6 9 表6 2s r a m 的延时参数定义7 0 表6 3 连续访问请求为不同s b 发出时的地址冲突比例7 6 表7 1d d r 2s d r a m 不同猝发长度时的传输模式8 3 第v 页 国防科学技术大学研究生院博十学位论文 图目录 图1 1 共享和私有c a c h e 的结构6 图1 2t 附p s 的存储层次结构8 图1 3 i m a g i n e 处理器的结构9 图1 4c e l l 处理器的结构l o 图1 5v i r a m 的存储层次结构1 1 图1 6s m a r tm e m o r y 处理器的结构1 l 图2 1f t 6 4 体系结构硬件模型1 8 图2 2f t 6 4 体系结构的两级编译过程2 2 图3 1f t 6 4 处理器的存储层次结构一2 3 图3 2f t 6 4 处理器的总体结构2 6 图3 3f t 6 4 处理器并行系统3 0 图3 4s r f 的总体结构3l 图3 5 流数据在s r f 和主存中的放置3 2 图3 6 数据在s b 中的放置3 3 图3 7s b 的仲裁算法示意图3 4 图3 8s r f 的访问流水线3 5 图3 9m s c 的总体结构3 6 图3 1 0d 删c 的总体结构4 0 图3 1 l寄存器控制模块的结构4 1 图3 1 2 访存控制模块的结构4 2 图3 1 3 接口模块的结构4 3 图3 1 4f t 6 4 处理器芯片及系统4 4 图3 1 5 计算时间和访存时间占程序总执行时间的比例4 5 图3 1 6l r f 和s r f 相对于主存的数据吞吐比4 6 图4 1f t 6 4 处理器的应用开发环境4 7 图4 2f t 6 4 处理器模拟器的结构4 8 图5 1 加入s d r - c a c h e 后的处理器存储结构图5 7 图5 2 读取序列不同的流数据无法重用5 8 图5 3读取序列不同的流数据在s d r o c a c h e 中得到重用5 9 图5 4 数据生产和消费的序列不同导致无法重用_ _ 5 9 图5 5 生产和消费序列不同的数据在s d r c a c h e 中得到重用6 0 图5 6 采用f m b 直写技术后的c a c h e l i n e 状态转换6 l 第v i i 页 国防科学技术大学研究生院博十学位论文 图5 ,7 采用生存期预测技术后的c a c h e l i n e 状态转换6 2 图5 8 访存操作中数据重用类型的分布。6 3 图5 9s t o r e 操作的类型分布图6 4 图5 1o访存操作中无效操作的比例6 4 图5 1 1使用s d r c a c h e 及优化后的性能比较6 5 图5 1 2 使用s d r c a c h e 并优化后计算时间和访存时间占总执行时间的比例6 6 图5 1 3s d r c a c h e 不同容量时的程序执行时间对比6 7 图5 1 4s d r - c a c h e 不同相联度时的程序执行时间对比6 7 图6 1s r a m 的读时序约束7 0 图6 2s r a m 的写时序约束7 0 图6 3s r f 的访问流水线7 l 图6 4s r f 存储体的访问时序7 2 图6 5v f f a 的实现机制7 3 图6 6 使用v f f a 技术后的存储体访问时序。7 4 图7 1m s c 访存地址序列生成示例8 0 图7 2 访存地址序列的d ra m 总线波形8 0 图7 3改进后的m s c 访存通路和缓冲逻辑结构8 2 图7 4 利用写缓冲进行请求合并示例8 5 图7 5 各个程序中记录长度的统计8 6 图7 6 存储调度优化后的主存有效周期利用率8 6 图7 7 存储调度优化后的性能提高8 7 图8 1d r a m 内部逻辑结构8 9 图8 2 关页策略下d r a m 读访问的状态转移及时序关系9 0 图8 3开页策略下d r a m 读访问的状态转移及时序关系9 1 图8 4使用开页策略时计算时间和访存时间占总执行时间的比例9 2 图8 5具有地址递增或递减规律的访存操作的比例9 3 图8 6 访存地址流分布特征9 3 图8 7 使用基于流地址分析页策略的d r a m c 结构9 4 图8 8 单体控制器结构9 4 图8 9 基于流地址分析的页策略9 5 图8 1 0 三种页策略下的存储操作c p i 9 6 图8 1 1基于流地址分析的页策略相对开页策略的性能9 7 图8 1 2 开页策略中访问类型的分布。9 7 图8 1 3 基于流地址分析的页策略中访问类型的分布9 8 第v i i i 页 国防科学技术大学研究生院幛十学何论文 图8 1 4f t 6 4 处理器使用优化技术前后的性能对比9 8 图8 1 5f t 6 4 处理器使用优化技术前后计算时间占总执行时问的比例9 9 图8 1 6f t 6 4 处理器使用优化技术前后访存时间占总执行时间的比例9 9 第1 x 页 国防科学技术大学研究生院博七学位论文 缩略语说明 a l u :a r i t h m e t i cl o g i cu n i t ,算术逻辑单元 a s i c - a p p l i c a t i o ns p e c i f i ci n t e g r a t e dc i r c u i t ,专用集成电路 b l t :b l o c kl e v e lt r a n s f e r ,块传输 b s r :b a n ks t a t u sr e g i s t e r ,体状念寄存器 c a m :c o n t e n t sa d d r e s s a b l em e m o r y ,内容寻址存储器 c m o s :c o m p l e m e n t a r ym e t a lo x i d es e m i c o n d u c t o r ,互补金属氧化物半导体 c p i :c y c l ep e ri n s t r u c t i o n ,每条指令执行的时钟周期数 c p u :c e n t r a lp r o c e s s i n gu n i t ,中央处理器 d d r :d o u b l ed a t ar a t e ,双倍数据传输率,在本文指双倍数据传输率的d r a m 存储器 d d r l :d i r t yd a t ar e u s el o a d ,脏数据重用l o a d d d r s :d i r t yd a t ar e u s es t o r e ,脏数据重用s t o r e d l p :d a t al e v e lp a r a l l e l ,数据级并行 d m a :d i r e c tm e m o r ya c c e s s ,直接存储器存取 d r a m :d y n a m i cr a n d o ma c c e s sm e m o r y ,动态随机存取存储器 d r a m c :d r a mc o n t r o l l e r ,d ram 控制器 d s p :d i g i t a ls i g n a lp r o c e s s o r ,数字信号处理器 e d a :e l e c t r o n i cd e s i g na u t o m a t i c ,电子设计自动化 e i b :e l e m e n ti n t e r c o n n e c tb u s ,单元互连总线 f f t :f a s tf o u r i e rt r a n s f o r m ,快速傅立叶变换 f i f o :f i r s ti nf i r s to u t ,先入先出队列 f l o p s :f l o a t i n gp o i n to p e r a t i o n sp e rs e c o n d ,每秒执行的浮点操作数 f m b :f u l l ym o d i f i e db l o c k ,完全修改模块 f p g a :f i e l dp r o g r a m m a b l eg a t ea r r a y ,现场可编程门阵列 i b m :i n t e r n a t i o n a lb u s i n e s sm a c h i n ec o r p o r a t i o n ,国际商业机器公司 1 2 c :i n t e ri n t e g r a t e dc i r c u i t ,内部集成总线 i l p :i n s t r u c t i o nl e v e lp a r a l l e l ,指令级并行 i p c l :i r r e g u l a rp r o d u c e r - c o n s u m e rl o c a l i t y ,不规则的生产者消费者局部性 i t r :h - r e g u l a rt e m p o r a lr e s u e ,不规则的时间重用 i o :i n p u t o u t p u t ,输入输出 l l p :l i n kl e v e lp o r t ,链路层端口 第1 1 5 页 国防科学技术大学研究生院博十学位论文 l r f :l o c a lr e g i s t e rf i l e ,局部寄存器文件 m a r :m e m o r ya d d r e s sr e g i s t e r ,存储地址寄存器 m m x :m u l t im e d i ae x t e n s i o n s ,多媒体指令扩展 m s c :m e m o r y s c h e d u l ec o n t r o l l e r ,存储调度控制器 m s c r :m e m o r ys t r e a mc o n t r o lr e g i s t e r ,存储流控制寄存器 n l :n o r m a ll o a d ,正常载入 n s - n o r m a ls t o r e ,正常存储 n u c a :n o n u n i f o r mc a c h ea c c e s s ,非一致访问c a c h e n u m a :n o n u n i f o 衄m e m o r ya c c e s s ,非一致访问存储系统 o a r :0 f f s e ta d d r e s sr e g i s t e r ,偏移地址寄存器 p i m p r o c e s s o ri nm e m o r y ,存储器内处理器 p l l - p h a s e l o c k e dl o o p ,锁相环 p p e :p o w e rp r o c e s s i n ge l e m e n t ,主处理单元 r a w :r e a da f t e rw r i t e ,写后读 r i s c :r e d u c e di n s t r u c t i o ns e tc o m p u t i n g ,精简指令集计算机 r p c l :r e g u l a rp r o d u c e r c o n s u m e rl o c a l i t y ,规则的生产者消费者局部性 r t r :r e g u l a rt e m p o r a lr e u s e ,规则的时间重用 s b - s t r e a mb u f f e r ,流缓冲 s c :s t r e a mc o n t r o l l e r ,流控制器 s c r :s t r e a mc o n t r o lr e g i s t e r ,流控制寄存器 s d r :s t r e a md e s c r i p t o rr e g i s t e r ,流描述符寄存器 s d r c a c h e :s t r e a md a t ar e u s ec a c h e ,流数据重用c a c h e s d r a m :s t a t i cd r a m ,静态d 蝴 s i m d - s i n g l ei n s t r u c t i o nm u l t i p l ed a t a ,单指令流多数据流 s o c :s y s t e m o n c h i p ,片上系统 s p e :s y n e r g i s t i cp r o c e s s i n ge l e m e n t ,协处理单元 s p s :s t r e a mp r o c e s ss y s t e m ,流处理系统 s r f :s t r e a mr e g i s t e rf i l e ,流寄存器文件 s r a m :s t a t i cr a n d o ma c c e s sm e m o r y ,静态随机存取存储器 s u n :s u nm i c r o s y s t e m s ,s u n 公司 t l p :t a s kl e v e lp a r a l l e l ,任务级并行 t ht e x a si n s t r u m e n t s ,德州仪器公司 u c a :u n i f o n nc a c h ea c c e s s ,一致性访问c a c h e v f f a - v i r t u a lf u l l f r e q u e n c ya c c e s s ,虚拟全频访问 第11 6 页 国防科学技术大学研究生院博十学位论文 v l i w :v e r yl o n gi n s t r u c t i o nw o r d ,超长指令字 v l s hv e r yl a r g es p e c i f i ci n t e g r a t e dc i r c u i t ,超大规模专用集成电路 w a r :w r i t ea f t e rr e a d ,读后写 z r a m - z e r oc a p a c i t o rr a m ,零电容的r a m 存储位元 第11 7 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包台 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学披术大学戎烈i ,: 教育机构的学位或证书而使用过的利料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文题目:速签歪箜捡壶篮歪统鲍遮过塞堡丞蝗丝选丝堕窒 学位论文作者签名:墨曼鱼查日期:妒7 年f 2 月2 日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并时国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书。) 学位做作者签名:墨塑鱼日期:御7 日 日 f,吖, z 、) 月 月 z 乞 i 年 年 国防科学技术大学研究生院博士学位论文 第一章绪论 在国家8 6 3 高技术项目和国家自然科学基金项目的资助下,本文对流体系结 构存储系统展开研究。 流体系结构是适应当前应用需求和v l s i 技术发展的一种面向流应用的高性 能处理器体系结构。流体系结构中的流存储系统在面向流应用时显现出比传统体 系结构中的存储系统更多的优势。 本文在深入研究当前新型体系结构存储系统的基础上提出了一种流存储系统 设计思想,并在f t 6 4 处理器上设计实现,接着面向流应用特点,提出了一系列流 存储系统的性能优化技术,为流体系结构的发展提供理论基础和实践依据。 1 1 1 流体系结构的产生 1 1 研究背景 1 1 1 1 应用对体系结构提出了新的要求 随着科技的进步和计算技术的发展,流应用逐渐成为处理器的主要负载。流 应用主要分为两类:一类是媒体应用,用来实时地处理音频、视频、静态图像及 其它数据密集型计算,典型的应用包括图形图像处理、视频编码解码和信号处理 等;另一类是科学计算,主要用于科学模型的建立和模拟,典型的应用包括流体 力学、气象、分子动力学、线形代数计算、有限元方法问题等【l 】【2 】。 流应用具有以下特点: 并行性:在流应用中存在很多数据级并行,流应用需要对大规模数据集合 中的每个元素执行许多独立的计算操作。流应用中还存在很多指令级并行 和任务级并行。 o 计算密集度:计算密集度是指计算操作的数量与片内外通信数据量的比 值。计算密集度决定了应用程序是受到访存带宽的限制还是受到计算资源 的限制。计算密集度与程序的局部性紧密相关。当局部性较高时,数据通 信就较少,计算密集度一般较高。流应用程序一般具有较高的计算密集度。 时间局部性:时间局部性可分为数据重用局部性和生产者一消费者局部 性。数据重用局部性是指多个计算对同一批数据的重用。生产者一消费者 局部性是指一个计算输出的数据经过一段时间后被另一个计算使用。通 常,流应用程序的时间局部性较强。 s t a n f o r d 大学的r i x n e r 对四个流应用( 深度萃取、视频的编码与解码、多边 第1 页 国防科学技术大学研究生院博士学位论文 形的着色和矩阵的q r 分解) 【3 】的研究表明:深度萃取住卷积过滤与绝对值求和过 程中对每个访存的数据进行了4 7 3 3 个算术操作,其它流应用的计算密集度在5 7 9 到1 5 5 3 之间。比较而言,在s p e c i n t 2 0 0 0 测试平台上,传统整数应用的算术计 算指令只占全部指令的2 5 0 ,而访存指令占1 5 8 0 【4 】。这些差别说明,为传 统整数计算而设计的体系结构( 例如通用处理器体系结构) 并不适合流应用,流 应用需要新的体系结构来充分发挥它的特点。 1 1 1 2v l s i 技术的发展对处理器体系结构的影响 随着芯片特征尺寸的不断缩小,单芯片能够集成的晶体管的数量按照摩尔定 律不断增长,这为单片计算性能的持续提高提供了可能。一个6 4 位浮点计算单元 在1 9 8 9 年工艺条件下所占的芯片面积约为2 0 m m 2 ,而在如今9 0 n m 工艺条件下所 占的芯片面积仅为o 5 m m 2 ,而一个面积为1 2 m m x l 2 m m 的芯片可以集成数百个浮 点计算单元【5 1 。 在当前芯片实现中,片外通信成为制约处理器性能的一个重要因素,也成为 处理器功耗的主要组成部分。从可用性和功耗的角度看,通信带宽的耗费与连线 的长度至少为线性关系【6 】。由于芯片引脚的数量并没有随着v l s i 技术的进步而显 著增加,片外通信的功耗也较大,这导致片内外通信的带宽和功耗差距更加明显。 因此,必须进一步开发程序的局部性来提高计算密集度和减少片外通信量,从而 获得较好的性能和功耗结果。 虽然处理器的时钟频率随着工艺的发展每年以1 7 的比例增长,但是片内和 片外长线的延时几乎保持不变。为了获得更高的性能,程序在执行时必须能容忍 很长的访问延时。由于d r a m 访问需要数十个时钟周期,延时容忍这个问题在 d r a m 访问时更为重要。目前,延时容忍成为现代体系结构设计的一个重要考虑。 应用程序可以通过歼发局部性和并行性来缓解这个问题,局部性能缩短操作数传 输的距离从而降低延时,并行性能使数据访问和数据计算并行执行从而隐藏延时。 v l s i 技术的发展为单片处理器的性能极大提高提供了可能,但是获得提高的 前提是在应用程序级能开发出更强的局部性和并行性。开发更强的并行性才能使 大量的计算单元处于工作状态;开发更强的局部性才能提高程序的计算密集度, 弥补大量功能单元所需数据带宽和可用通信带宽之间的差距;同时开发局部性和 并行性才能隐藏数据的访问延时,获得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论