




已阅读5页,还剩77页未读, 继续免费阅读
(信号与信息处理专业论文)基于gpu的h264视频并行编解码器.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 h 2 6 4 是由i t u t 和i s o i e c 两大国际组织共同推出的最新视频编码标准,由于其 具有较高的压缩率和良好的网络适应性,在数字视频存储、传输以及多媒体信息服务等 领域将得到广泛应用。但是其计算复杂度大大增加,尤其用于高清视频编解码时,h 2 6 4 编解码的实时性就成了一大难题,为此人们进行了深入研究。 现在的p c 机都可以装配一块独立显卡。显卡强大的处理能力源于其核心模块一图 形处理器( g r a p h i c sp r o c e s s o ru n i t ,g p u ) 。g p u 最初是为3 d 图形渲染而设计的,具有 强大的浮点计算能力和并行特性。可编程g p u 的出现,使得g p u 不再仅限于图形操作, 而可以用于非图形化领域。于是基于g p u 的通用计算成了一大研究热点,人们已开始 将g p u 用于视频编解码。 本文充分利用g p u 的强大浮点计算能力和并行特性,研究基于g p u 的h 2 6 4 视频 并行编解码器的设计与实现问题。 运动估计占到了整个编码过程处理时间的6 0 以上,因此本文将运动估计模块移入 g p u 进行加速。本文提出了c p u + g p u 的并行编码架构,通过打开传统编码器的反馈通 路,利用原始帧作为参考帧,实现了c p u 和g p u 真正并行。本文提出了基于g p u 的 运动估计算法。实验结果表明该并行架构能显著提高编码速度,对于运动平稳的视频序 列具有较好的编码性能。 解码器由于直接面向客户端而应用广泛,因此对解码进行加速更具有实际意义。本 文根据c p u 和g p u 各自特性,提出了c p u + g p u 的并行解码器:c p u 负责码流分析和 熵解码,而g p u 负责运动补偿、反量化、反变换、重构以及色彩空间转换。本文充分 利用g p u 的多通道特性,提出了多通道运动补偿、反量化、反变换算法。实验结果表 明该并行架构与传统的基于c p u 的解码算法相比,能够达到明显的加速效果。 通过本文的工作表明,在不升级硬件的条件下,利用g p u 强大的计算能力和并行 特性提出的并行编解码器,在保持与传统编码器相当性能的同时,能够显著地提高编解 码速度,具有良好的适用性。 关键词:h 2 6 4 ;图形处理器;并行算法;多通道;编解码器 基于g p u 的h 2 6 4 视频并行编解码器 t h eh 2 6 4v i d e op a r a l l e lc o d e cb a s e do ng p u a b s t r a c t h 2 6 4i st h el a t e s tv i d e oc o d i n gs t a n d a r dc o d e v e l o p e db yt h et w oi n t e r n a t i o n a l o r g a n i z a t i o n s i t u - ta n di s o i e c f o ri t sh i g h e rc o m p r e s s i o nr a t i oa n dm o r ef l e x i b l e n e t w o r ka d a p t a b i l i t y ,h 2 6 4w i l lh a v eaw i d e r a n g ea p p l i c a t i o ni nt h ed i g i t a lv i d e os t o r a g e , t r a n s m i s s i o n , m u l t i m e d i ai n f o r m a t i o ns e r v i c e s ,e t c y e ta st h ec o m p u t a t i o n a lc o m p l e x i t y g r e a t l yi n c r e a s e s ,t h er e a l - t i m eo fh 2 6 4c o d e cb e c o m e sab i gp r o b l e m , e s p e c i a l l yf o rh d v i d e oe n c o d i n ga n dd e c o d i n g r e s e a r c h e sh a v eb e e nc o n d u c t e dt oo v e r c o m et h i sd i f f i c u l t y e v e r ym o d e mp cc a nb ee q u i p p e dag r a p h i c sc a r d r n l ep o w e r f u lg r a p h i c sa b i l i t yi s d e r i v e df r o mt h ek e r n e lm o d u l e g r a p h i c sp r o c e s s i n gu n i t ( g p u ) g p uw a so r i g i n a l l y d e s i g n e dt or e n d e r3 - de n v i r o n m e n t ,a n dh a dp o w e r f u lf l o a t i n g - p o i n tc o m p u t a t i o na b i l i t ya n d t h ep a r a l l e lf e a t u r e t h ee m e r g e n c eo fp r o g r a m m a b l eg p um a k e si tn o to n l yj u s tf o r3 一d r e n d e r i n g ,b u ta l s oa p p l i c a b l ei nn o n - g r a p h i c sa r e a t h u s ,t h eg e n e r a l - p u r p o s ec o m p u t a t i o n b a s e do ng p u sh a sb e c o m eah o t s p o t p e o p l eh a v es t a r t e dt oi m p l e m e n tg p uf o rv i d e o e n c o d i n ga n dd e c o d i n g b yt a k i n gf u l la d v a n t a g eo fg p u sp o w e r f u lf l o a t i n g - p o i n tc o m p u t a t i o na b i l i t ya n d p a r a l l e lf e a t u r e ,r e s e a r c ho nt h ed e s i g na n dr e a l i z a t i o no f h 2 6 4v i d e op a r a l l e lc o d e cb a s e do n g p ui sd o n e m o t i o ne s t i m a t i o na c c o u n t sf o rm o r et h a n6 0 t i m eo ft h ee n t i r ee n c o d i n gp r o c e s s i n g t h u s t h em o t i o ne s t i m a t i o nm o d u l ei ss h i f t e dt og p ut oa c c e l e r a t e ap a r a l l e lc p u + g p u e n c o d i n ga r c h i t e c t u r ei sp r o p o s e d b yo p e n i n gt h ef e e d b a c kl o o po ft r a d i t i o n a le n c o d e ra n d t a k i n gt h ec u r r e n tf l a m ea st h er e f e r e n c ef r a m e ,t h i sp a p e ra c h i e v e si n d e e dp a r a l l e l i s mo fc p u a n d ( 狰u an e wm o t i o ne s t i m a t i o na l g o r i t h mb a s e do ng p ui sp r e s e n t e d t h ee x p e r i m e n t a l r e s u l t sd e m o n s t r a t et h a t t h ep a r a l l e la r c h i t e c t u r ec a ns i g n i f i c a n t l ya c c e l e r a t et h ee n c o d i n g p r o c e s s ,a sw e l la sa b e t t e re n c o d i n gp e r f o r m a n c ef o rs m o o t h m o t i o nv i d e os e q u e n c e s d e c o d e ri su s e dm o r ef r e q u e n t l ya si ts e r v e sf o rt h ec l i e n t s ,s oi t sa c c e l e r a t i o nh a sam o r e p r a c t i c a ls i g n i f i c a n c e c o n s i d e r i n gt h ep r o p e r t i e so fc p ua n dg p ur e s p e c t i v e l y , t h i sp a p e r p r o p o s e sac p u + g p up a r a l l e ld e c o d e r c p ui sr e s p o n s i b l ef o rb i ts t r e a ma n a l y s i sa n d e n t r o p yd e c o d i n g ,w h i l et h eg p u i si nc h a r g eo fm o t i o nc o m p e n s a t i o n ,i n v e r s eq u a n t i z a t i o n , i n v e r s et r a n s f o r m ,r e c o n s t r u c t i o na n dc o l o rs p a c ec o n v e r s i o n b ym a k i n gf u l lu s eo ft h e m u l t i - c h a n n e lf e a t u r eo fg p u ,t h i sp a p e rp r o p o s e sm u l t i - c h a n n e lm o t i o nc o m p e n s a t i o n , m u l t i - c h a n n e li n v e r s eq u a n t i z a t i o na n dn e wi n v e r s et r a n s f o r i l la l g o r i t h m s e x p e r i m e n t a l i i 大连理工大学硕士学位论文 r e s u l t ss h o wt h a tt h ep r o p o s e dp a r a l l e la r c h i t e c t u r ea c c e l e r a t e st h e d e c o d i n gp r o c e s s s i g n i f i c a n t l yc o m p a r i n gw i t ht h et r a d i t i o n a lc p u - b a s e dd e c o d e r t h i sp a p e rs h o w st h a tw i t h o u tu p g r a d i n gt h eh a r d w a r e ,t h ep r o p o s e dp a r a l l e lc o d e c c o m b i n i n gg p u sp o w e r f u lc o m p u t i n ga b i l i t ya n dp a r a l l e lc h a r a c t e r i s t i c sc a l lk e 印t h e e q u i v a l e n tp e r f o r m a n c ew i t ht h et r a d i t i o n a le n c o d e r a tt h es a m et i m ei t c a na c c e l e r a t et h e e n c o d i n ga n dd e c o d i n gp r o c e s ss i g n i f i c a n t l yw i t hag o o da p p l i c a b i l i t y k e yw o r d s :h 2 6 4 ;g r a p h i c sp r o c e s s i n gu n i t ;p a r a l l e la l g o r i t h m ;m u l t i p l e c h a n n e l ;c o d e c i i i 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目:基王鱼里旦鲍坚:! 璺塑麴羞踅缉簋塑墨 作者签名:三生肖l 日期:4 年旦月j 互日 大连理工大学硕士学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题目: 作者签名: 导师签名: 日期:型年朔卫日 日期:4 年上月卑日 大连理工大学硕士学位论文 1 绪论 1 1引言 科学技术的快速发展使得我们进入了一个“信息爆炸 的时代,人们对各种信息的 获取已呈现出多样化趋势。众所周知,人类通过视觉获取的信息量约占总信息量的7 0 【l 】, 而其中视频由于其直观性、可信性等一系列优点而成为人类获取外部信息的一个最重要 途径。但是原始的数字视频如果不进行压缩其数据量是非常巨大的,以4 :1 :1 格式分辨 率为7 2 0 5 7 6 的p a l 视频为例,每帧数据量为7 2 0 x 5 7 6 x s x l 5 - 2 - 4 9 8 m b i t ,那么每秒数 据量为1 2 4 4 m b i t ,一张6 0 0 m b 的c d r o m 也就只能存储大约9 6 4 帧,或者说只能存 储大约3 8 s 的视频图像。如果要存储更高分辨率的视频图像,所能存储的时间就更短。 海量数据对硬件和软件都提出了极高的要求,因此可以从以下两个方面去解决:第 一,在硬件环境方面我们可以想办法提高计算机处理速度、扩大存储器容量以及增加信 道的带宽,但是它们的发展速度远远低于数据量爆炸式的增长速度,因此仅靠硬件发展 来提升性能是很有限的;第二,开发出高效的压缩算法来减少冗余信息,使得在相同的 存储器上存储更多的视频信息或者在相同带宽的信道上传输更高质量的视频信息。 视频图像本身所具有的特点也决定了进行视频压缩是完全可行的。这是因为视频图 像相邻像素之间存在着很强的相关性,如果能最大地去除图像之间的冗余信息那么就可 以达到压缩数据的目的。视频图像中存在着各种各样的冗余信息,如时间冗余、空间冗 余、结构冗余、视觉冗余等1 2 j ,视频压缩编码的目的就是尽可能的去除它们。 从2 0 世纪9 0 年代起,i s o f l e c 、i t u - t 等各大国际标准化组织就致力于图像压缩 编码标准的制定。到2 0 0 9 年为止,正式发布并得到了广泛应用的视频编码国际标准有: i s o i e c 运动图像专家组开发的m p e g - x 系列和i t u t 的视频编码专家组开发的标准 h 2 6 x 系列。 其中h 2 6 4 a v c 是i t u t 的v c e g 和i s o f i e c 的m p e g 联合成立的“联合视频 组”j v t ( j o i n tv i d e ot e a m ) 共同制定的新标准,即i s o 的m p e g - 4 的p a r t l o 和i t u - t 的 h 2 6 4 。h 2 6 4 标准由于更高的压缩效率和更好的网络适应性而得到广泛关注。下一代 d v d 存储格式的两大阵营蓝光和h d d v d t 3 】都将其纳入编码标准,同时国际两大显卡 厂商a t i 和n v i d i a 生产的显卡芯片也都开始支持h 2 6 4 。 然而h 2 6 4 性能的巨大改进是以增加了编解码的复杂性为代价而获得的。当现在的 p c 机用于高清视频实时编解码时,c p u 的负担是很沉重的。为此人们利用d s p 芯片、 f p g a 硬件电路、i n t e l 多媒体指令集等方法来加速编解码,并且已经获得了较好的效果。 基于g p u 的h 2 6 4 视频并行编解码器 自从n v i d i a 于1 9 9 9 年发布了第一颗图形处理器g p u 的图形芯片- - g e f o r e e 2 5 6 以来, g p u 就逐渐成为p c 机的标准配置。g p u 的可编程性和强大的浮点计算能力以及并行特 性在通用计算方面已经获得了广泛应用。如果g p u 能够应用到视频编解码中,和c p u 并行工作,那么必将极大的提高视频编解码的效率。事实上国内外已经有一些公司和研 究单位开始对可编程g p u 用于视频编解码领域进行了研究。如n v i d i a 、a t i 和a m d 等各大公司都开始纷纷推出了利用g p u 进行高清视频编解码的技术。 1 2 视频压缩编码标准的发展 自从1 9 6 4 年贝尔实验室研制出最早的可视电话以来,图像、视频通信在2 0 世纪7 0 年代末和8 0 年代初经历了2 次发展高潮 4 1 。但由于当时编码技术、市场需求等原因使得 视频编码技术未能获得快速发展。 进入9 0 年代之后,视频编码技术获得了快速发展【4 】,图像通信已不仅限于实验室而 开始进入实用化阶段,视频会议、可视电话、视频监控等视频应用开始出现在我们的日 常生活中。广泛的市场需求和信息技术的逐渐成熟使得数字图像视频通信进入了一个快 速发展时期。 目前从事视频编码标准制定的国际组织主要有国际电信联盟i t u t 的视频编码专 家组v c e g f v i d e oc o d i n ge x p e r tg r o u p ) 和国际标准化组织i s o i e c 的运动图像专家组 m p e g ( m o t i o np i c t u r ee x p e r tg r o u p ) 。这两大标准化组织针对不同的应用领域分别制定了 h 2 6 x 和m p e g x 系列的视频编码标准。其中i t u t 针对可视会议等应用制定了h 2 6 1 、 h 2 6 3 、h 2 6 3 + 、h 2 6 3 + + 、h 2 6 l 标准,而i s o i e c 则制定了m p e g 1 、m p e g 2 、m p e g 4 。 表1 1 给出了现有的主流视频编码标准m p e g x 系列、i t u t 的h 2 6 x 系列以及中 国的a v s 标准的发展历史以及应用领域。 h 2 6 1 是由i t u t 制定的第一个国际视频编码标准,它发布于1 9 9 0 年,其应用目 标是i s d n 网络上的视频电视会议和可视电话。h 2 6 1 第一次采用了基于块的运动补偿 与d c t 变换相结合的混合视频编码框架,该框架成为了以后各种视频编码标准的基础。 h 2 6 3 标准在h 2 6 1 标准基础上增加了4 个高级选项,被认为是以像素为基础的第 一代混合编码技术方案所能达到的最佳结果。随后提出的h 2 6 3 + 、h 2 6 3 + + 标准引入了 更多的高级模式,进一步的降低码率,改善图像主观质量。 m p e g - l 是i s o i e c 制定的第一个m p e g 标准,它能提供与家用录像机相似的功能, 应用于消费级多媒体场合。而m p e g - 2 则在m p e g 1 的基础上进行了重大改进,从而在 数字电视、高清晰度数字电视、d v d 、卫星电视等领域得到了广泛应用。 一2 一 大连理工大学硕士学位论文 表1 1 视频压缩标准的发展 t a b 1 1t h ed e v e l o p m e n to f v i d e oc o m p r e s s i o ns t a n d a r d s 标准简称 标准全称 公布时间应用领域技术特点 p 6 4 k b i t s 视听业务的 视频编解码器 1 9 9 0 1 2 i s d n 网上的视采用d c t 加帧间运动补偿预 h 2 6 1 测的混合编码模式 ( v i d e oc o d e cf o ra u d i o v i s u a l 频传输 s e r v i c e sa tp 。6 4 k b i t s ) 用于高至1 5 m b i t s 的数字数字 存储媒体的活动图像和相应的 消费多媒体、 实现了类似录像机的交互功 m p e g - l 音频编码( c o d i n go fm o v i n g 1 9 9 2 1 1c d r o m 、光盘 能,使用了半像素的运动补偿 p i c t u r e sa n da s s o c i a t e da u d i o 存储等 f o rd i g i t a ls t o r a g em e d i aa tu p t oa b o u t1 5m b i t ,s 、 运动图像和伴音信息的通用编 标准数字电视、 许多方面做了重大改进,支持 m e p ( 2 码f g e n e r i cc o d i n go fm o v i n g 1 9 9 4 1 l 高清数字电视、 隔行扫描,第一次引进档次和 p i c t u r e sa n da s s o c i a t e da u d i od v d 、卫星电 级别概念 i n f o r m a t i o n )视等 低比特率通信视频编码 增加j r 非1 5 畏制还功同量模式、 基于语法的算术编码、高级预 h 2 6 3 ( v i d e oc o d i n g f o rl o wb i tr a t e1 9 9 6 5 d d n 、i s d n 、 测模式、p b 帧模式4 个高级选 c o m m u n i c a t i o n ) p s t n 网络上视 项 低比特率通信视频编码 频通信 h 2 6 3 + ( v e r s i o n2 :v i d e oc o d i n gf o r 1 9 9 8 5增加了1 2 个高级模式 l o wb i tr a t ec o m m u n i c a t i o n ) 数字电视、i p 采用了基于对象的视频压缩编 基于音视频对象的编码 网络、实时监 码方法和基于内容的交互功 眦g - 4 ( c o d i n go f a u d i o v i s u a l 1 9 9 9 5 控、基于内容存 能,支持对多媒体信息的内容 o b j e c t s )储和检索的多 访问,提高了抗误码性能 媒体系统等 h 2 6 3 标准附录u ,v ,和w d d n 、i s d n 、 增加了3 个高级模式,进一步 h 2 6 3 + + ( “h 2 6 3 + + ”a n n e x e su ,va n d 2 0 0 0 1 lp s t n 网络上视降低比特率,改善图像主观质 wt or e c o m m e n d a t i o nh 2 6 3 ) 频通信量和增强抗误码能力 高级视频编码各种网络上的视频编码层+ 网络抽象层的分 h 2 6 4 2 0 0 3 3 ( a d v a n c e dv i d e oc o d i n g )视频通信、高清 层结构,采用了多种新的技术 音频编码技术标准 数字电视、 以h 2 6 4 为基础,强调自主知 w s2 0 0 3 1 2 i p t v 等 识产权,同时考虑实现复杂度 ( a u d i ov i d e oc o d i n gs t a n d a r d ) 1 9 9 9 年i s o h e c 推出的m p e g 4 标准,第一次采用了基于对象的视频压缩编码方 法,它不仅可以实现对视频图像数据的高效压缩,还可以提供基于内容的交互功能,支 持对多媒体信息的内容访问。 在h 2 6 l 提出以后不久,i s o h e c 的m p e g 意识到h 2 6 l 具有潜在的优越性能,于 是在2 0 0 1 年6 月与i t u t 的v e c g 共同成立了“联合视频组”( j v t ) 。经过努力,t 最后制定了两个相同的标准:i s o 的m p e g 4 的p a r t l 0 和i t u t 的h 2 6 4 。h 2 6 4 仍然 采用传统的混合编码框架,但是引入了多项新的技术,使得编码效率显著提高。 基于g p u 的h 2 6 4 视频并行编解码器 为了完全摆脱知识产权问题的困扰,我国也积极参与国际标准的制定,于2 0 0 3 年 1 2 月通过了数字音视频编解码技术标准a v s 标准草案阁。它兼容最新的国际视频编码 标准,而且还充分考虑实现的复杂度,精简已有标准中的不必要模块,从而可以提供较 高的性价比。 1 3h 2 6 4 标准国内外研究现状 1 3 1h 2 6 4 研究热点 h 2 6 4 标准草案于2 0 0 3 年3 月正式发布以后,2 0 0 3 年7 月i e e et r a n s a c t i o n 的c i r c u i t s a n ds y s t e m sf o rv i d e ot e c h n o l o g y 就开辟了一个h 2 6 4 专题。h 2 6 4 的标准创始者t w i e g a n d 和g s u l l i v a n 等撰写了第一篇关于h 2 6 4 的文献“o v e r v i e wo ft h eh 2 6 4 a v c v i d e oc o d i n gs t a n d a r d ”1 6 j ,文献 7 】则对b 帧的优点进行了深入探讨,而文献 8 】对环路 滤波部分进行了深入研究。以上3 篇文献成为了研究h 2 6 4 标准的必读文献。 虽然自h 2 6 4 标准草案颁布以来,人们就开始对标准进行了深入研究,但是h 2 6 4 离真正大规模实际应用还是有一段距离。其根本原因是由于h 2 6 4 的高效压缩性能是以 增加编解码的计算复杂度为代价的。据估计【9 】,h 2 6 4 的编码计算复杂度大约相当于 h 2 6 3 的3 倍,m p e g 4 的5 1 0 倍,解码复杂度大约相当于h 2 6 3 的2 倍,m p e g 4 的 2 - 4 倍。编码复杂度的提高必然导致h 2 6 4 中计算量的显著增加,在一些实时性要求非 常高的场合,如果采用较低配置的硬件,那么h 2 6 4 高效的压缩性能就无法体现出来。 因此如何降低h 2 6 4 的计算复杂度必将是一个持久的研究热点。 h 2 6 4 编解码器中计算复杂度最大的模块有:运动估计、运动补偿、整数变换、帧 内帧间模式决策、环路滤波。其中运动估计是最耗时的,计算时间大约占整个编码时间 的6 0 8 0 【l o 】。运动估计通常有两种:整像素运动估计和子像素运动估计。其中整像 素运动估计的计算量是最大的,因此国内外学者对整像素运动估计进行了深入研究。到 目前为止已经提出的比较好的整像素搜索算法有:三步法( t s s ) 【1 1 】,新三步法t s s ) 【1 2 】, 中心三步法( c t t s ) 【1 3 】,钻石搜索法( d s ) 【14 1 ,四步法( 4 s s ) 【1 5 】,基于块的梯度下降搜索法 ( b b g d s ) 1 6 】,六边形搜索法及其改进算法( h e r b s ) 【1 7 - 2 2 ,非对称十字交叉多层次六边形 格点搜索法( u m h e x a g o n s ) 【l o 】等。其中u m h e x a g o n s 算法是清华大学提出的,它采用一 种混合多模板的运动搜索策略,能够很好地解决“局部最优”问题,现已被h 2 6 4 标准的 测试模型j m 正式采纳。 对于环路滤波器,文献 2 3 】和 2 4 】对微处理器i n t e lc e n t r i n o 上边缘强度的判定过程 进行了优化,其基本思路是通过减少求解边缘强度过程中的分支判断次数来加快滤波过 一4 一 大连理工大学硕士学位论文 程。而文献( 2 5 2 7 】则提出了新的滤波次序,通过减少存储空间和计算量来实现加速。与 以往的国际标准不同,h 2 6 4 标准首次采用了整数变换,变换系数矩阵元素只有加法、 减法和移位,正向变换矩阵和反向变换矩阵的比例因子都融入到量化过程中,易于硬件 实现。文献2 8 】根据这些特征提出了三种变换矩阵( 整数d c t 正变换,整数d c t 反变换, 4 阶哈达玛变换) 的快速实现方法,并将量化和反量化操作集成到变换矩阵的硬件架构 中。而文献 2 9 】将变换和量化分开,设计了通用的正向变换和反变换的并行硬件架构。 除了在算法上进行改进和优化外,还可以利用其它硬件或者软件资源来进一步提高 运算速度。例如i n t e l 提供了基于s i m d 技术的m m x 、s s e 、s s e 2 等多媒体扩展指令集。 这些多媒体指令是针对多媒体应用而专门设计的,它们能够充分利用处理器资源,提高 数据运算的并行性和实时性。另外也可以采用硬件架构来进行加速,比较常见的架构有: 纯f p g a 架构和f p g a 结合d s p 软硬件的架构。 总的来说,国内外学者已对h 2 6 4 编解码器的加速进行了大量研究,并取得了令人 可喜的成绩,一些算法已经运用到实际的系统中去。但是大部分还没达到实用的要求, 相信未来一段时间人们对这方面还会进行更加深入的研究。 d 3 2g p u 在视频编解码的应用现状 现在的计算机都可以装配一颗功能强大的图形处理器g p u 。虽然最初的g p u 是为 3 d 渲染而设计,但是可编程顶点着色器和像素着色器的出现,使得g p u 不再只限于3 d 谊染,也可用来解决一些非图形化问题。目前,g p u 不仅在数值计算领域得到了广泛应 用,而且在信号处理领域也展示出巨大潜力。例如k m o r e l a n d 等人【3 0 】利用g p u 的可编 程性实现了f f t ,h o p f 和e h l 3 q 利用g p u 实现了h a a r 和d a u b e c h i e s 小波变换及其反变 换,并将其应用到边缘检测。 最近几年,人们开始逐渐意识到g p u 的强大并行计算能力也可以应用到视频编解 码中,为此进行了不少研究。文献【3 2 将微软公司w m v 8 解码器中的运动补偿、重构、 色彩空间转换这3 个模块移植到g p u 中,取得了较好的加速效果。文献 3 3 提出了许多 新的技术在通用可编程g p u 上实现d c t i d c t ,实验结果表明该方法明显快于在c p u 上使用m m x 优化的i d c t 算法。文献 3 4 】充分利用像素着色器的可编程性,实现了 y c o c g r 到g r b 颜色空间的转换。文献 3 5 3 7 将h 2 6 4 中运动补偿、重构、色彩空间 转换移入g p u ,实现了高清视频的实时解码。文献【3 8 通过重新排列4 x 4 块的编码顺序, 去除块之间的相关性,实现了运动估计的g p u 加速。实验结果表明,该方法比c p u 优 化的s d v t d 快了4 5 倍。 基于g p u 的h 2 6 4 视频并行编解码器 虽然将g p u 用于h 。2 6 4 的视频解码已取得了一定的成绩,但是人们对于这方面的 研究还处于起步阶段。同时g p u 硬件本身也存在着一些缺陷,例如从g p u 回读数据是 一大瓶颈【3 9 】,另外虽然现在的m o d e l3 0 片段处理器支持了动态分支和循环,但是不恰 当使用仍将付出很大的时间代价【4 0 】。随着硬件技术的不断发展,这些缺陷将逐步得到解 决,新一代的通用g p u 将更适合于高清视频的编解码。因此,将通用g p u 用于视频编 解码是一个长期而重要的研究课题。 1 4 本文研究内容及章节安排 本文从利用g p u 实现h 2 6 4 实时编解码的角度出发,对计算复杂度最大的几个模 块进行了深入的研究,提出了c p u + g p u 的并行编解码框架和具体实现方案与措施。实 验结果表明该框架能显著提高编解码速度,具有良好的应用前景。 本文具体章节安排如下: 第章首先介绍视频压缩编码的研究背景及其意义,并对已有的视频编码标准一 m p e g x 系列、h 2 6 x 系列以及我国的a v s 标准的发展历程进行简单分析和比较。然 后分析h 2 6 4 的国内外研究热点以及g p u 在视频编解码领域的应用情况,最后阐述了 本文的主要内容和章节安排。 第二章对g p u 可编程管线、g p u 特点以及最新的国际视频编码标准h 2 6 4 的关键 技术等基础知识分别进行简要阐述。 第三章首先在分析了传统的h 2 6 4 编码器特性以及最新的g p u 加速运动估计的研 究进展之后,提出了基于g p u 的的并行编码方案。然后具体给出基于g p u 的运动向量 预测m e r g e & s p l i t 算法、整像素运动估计、分像素运动估计算法以及整体的双线程并行 编码框架。最后通过实验仿真表明了该框架的优缺点。 第四章提出基于g p u 的并行解码器,在g p u 上编程实现了运动补偿、反量化、反 变换、重构以及色彩空间转换这些模块。文中利用g p u 多通道并行计算的特性,具体 给出了基于g p u 的多通道运动补偿、多通道反量化及其新的反整数变换算法。最后通 过实验仿真表明了该框架确实比传统的c p u 解码具有更高的帧率。 第五章总结本文的工作,并对今后的研究方向进行展望。 大连理工大学硕士学位论文 2g p u 编程与h 2 6 4 标准基础知识概述 2 1可编程图形硬件简介 随着计算机技术的飞速发展,现代的p c 机中都可以配备一块功能强大的独立显卡。 显卡之所以具有强大的图形处理能力,功劳主要在于其核心模块一图形处理器 ( g r a p h i c sp r o c e s s o ru n i t ,g p u ) 。自1 9 9 3 年以来,g p u 的性能几乎以每年2 4 倍的速度 增长,其计算能力的增长速度已经大大超过了按著名摩尔定律( 2 倍1 8 个月) 发展的中 央处理器( c p u ) 计算能力的增长速度 3 0 , 3 2 1 。2 0 0 4 年n v i d i a 推出的g p ug e f o r c e6 8 0 0 u l t r a 浮点运算能力就达到了峰值4 0g i g a f l o p s ( 1g i g a f l o p s = 1 0 亿次的浮点运算1 秒) , 2 0 0 7 发布的g e f o r e e8 8 0 0g t x 更是将峰值提高至令人惊讶的5 1 8 4 3 g i g a f l o p s 4 1 1 。而i n t e l 6 4 - b i t 双核c p u 只有3 2 g i g a f l o p s 4 2 。,可见g p u 的浮点运算能力是相当强大的。 而到目前为止,g p u 已经经历了六代的发展【4 3 1 ,每一代的g p u 都拥有比前一代 g p u 更强的性能和更加完善的体系架构。自1 9 9 8 年以来,几乎平均每一年就会有新一 。代的g p u 问世。 i 在g p u 的发展历程中最具有标志性的事件就是2 0 0 1 年g p u 中引入了顶点级可编 程性以及2 0 0 3 年引入了像素级可编程性州。可编程性的出现,使得g p u 不再是单纯的 用于图形渲染,而可用于其它非图形化操作,这就是g p u 的通用计算( g p g p u ) 。 流水线是指将一个大的任务分成若干道可以并行和按照固定先后顺序执行的工序。 每道工序都是以前一道的输出作为本次输入,然后把执行完的结果输出给随后的工序。 传统的图像硬件就是以流水线的方式来处理输入的大量顶点、几何图元和片段。 图2 1 表示了当今可编程图形处理器所采用的图形硬件流水线。从图中可以看出典 型的图形硬件流水线包括以下几个部分:顶点变换和光照、图元装配、光栅化、纹理映 射以及光栅化操作。在可编程顶点处理器和片段处理器出现之前,顶点变换、光照以及 纹理映射在硬件中都采用的是固定渲染模式,因此缺乏灵活性。第四代以后的g p u 图 形架构都支持了可编程的顶点着色器和和片段着色器( 在d i r e c t 3 d 中称为像素处理器) , 使得开发人员可以自定义一些信息,然后在每个顶点或者片段处理器上执行一段称之为 着色器( s h a d e r ) 的程序。这些着色器分别取代了原先的顶点变换、光照单元及纹理映射 单元。另外片段处理器是以单指令多数据( s i m d ) 的方式操作数据,并行地处理四维向量, 使得g p u 具有高度的并行计算能力。可编程性的出现大大提高了程序的灵活性,但也 增加了编程实现的复杂度。 基于g p u 的h 2 6 4 视频并行编解码器 图2 1 可编程图形硬件流水线 f i g 2 1 t h ep r o g r a m m a b l eg r a p h i c sh a r d w a r ep i p e l i n e 2 2 可编程g p u 用于视频编解码 2 2 1g p u 的特点 g p u 采用了特殊的硬件架构,有着高度并行的计算特性、强大的浮点计算能力和很 高的存储带宽,使得g p u 在某些方面的性能远远优于c p u 。与c p u 相比,g p u 的优 势主要体现在以下5 个方面【4 6 1 : ( 1 ) 浮点运算速度快 现在大多数g p u 都能达到2 0 0g i g a f l o p s 以上,而i n t e l6 4 b i t 双核c p u 只有 3 2 g i g a f l o p s 。 ( 2 ) 适合并行处理 由于g p u 只有很少的分支判断,可以容忍较长的延时,因此在g p u 中引入了高达 几百的超长流水线,同时在顶点着色器和像素着色器中引入了多条渲染管线,大大提高 了并行计算速度。另外在g p u 中专门设置了s i m d 指令来处理向量,一次可以同时处 理四个数据。 ( 3 ) 适合重复性工作 g p u 最初是为图形渲染而专门设计的。因此只要采用固定的渲染模式或者编写好 对应的顶点和像素着色器程序,g p u 就会在每次输入顶点数据流后执行相同的顶点或者 像素着色器程序。类似的重复性工作都可以在g p u 上运行。 ( 4 ) 很高的存储带宽 以g e f o r c e 8 8 0 0 为例,g p u 和设备内存的带宽达到了8 6 4 g b s h 2 1 ,而通过p c i ex 1 6 总线连接的主机内存和设备内存之间带宽只有4 g b s ,前者比后者快了2 0 多倍。 大连理工大学硕士学位论文 ( 5 ) 成本相对低廉 现在一颗g p u 的市场价格和c p u 的价格很接近,但是如果在执行复杂算法时g p u 就可以获得比c p u 几倍甚至几十倍的加速效果。在相同时间内,以前需要很多个c p u 并行处理才能完成的工作,现在只需要一颗g p u 就足以应付,大大地降低了系统的开 发成本。 正是由于这些优势,使得g p u 比c p u 更适用于流式并行计算,在科学运算、数据 分析、流体模拟等领域展示出巨大的潜力。 然而g p u 毕竟是为3 d 图形渲染而设计的,它特殊的硬件结构使得在某些场合存在 着严重的不足,其中最主要的有以下几点: ( 1 ) 需要使用图形处理a p i 函数 由于g p u 最初用于图形渲染,因此g p u 用于通用计算时也得使用图形处理a p i 函数来实现。这对研究人员来说无疑增加了难度,不得不先学习一些计算机图形学的相 关知识。但学习图形渲染的理论知识对于大部
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 精制制盐工入职考核试卷及答案
- 烟草物理检验员安全规范考核试卷及答案
- 工业废气治理工成本控制考核试卷及答案
- 长期照护师抗压考核试卷及答案
- 2025合同范本融资项目知识产权质押合同
- 2025年职业技能认证跨境培训平台教育资源共享平台建设报告
- 压敏电阻器制造工技能操作考核试卷及答案
- 2025还款合同样本
- 烟草制品转运设备操作工三级安全教育(班组级)考核试卷及答案
- 肃南裕固族自治县电梯安全管理人员月考试题库加答案
- 新能源发电技术 电子课件 2.5 可控核聚变及其未来利用方式
- 建材销售购销合同范本
- 《火灾调查 第2版》 课件 第5-7章 火灾调查分析、放火火灾调查、电气火灾调查
- 加油加气站 反恐防范重点目标档案 范例2024
- 潮牌产品商业计划书
- 消化道出血诊疗规范2022版
- 混龄教育及带班技巧培训
- Q∕GDW 1480-2015 分布式电源接入电网技术规定
- 洪泽县LED道路照明及智慧应用工程建设项目建议书
- 储能柜质保协议
- 教学课件 《自动化制造系统(第4版)》张根保
评论
0/150
提交评论