(计算机应用技术专业论文)mpeg4视频解码器的设计与优化.pdf_第1页
(计算机应用技术专业论文)mpeg4视频解码器的设计与优化.pdf_第2页
(计算机应用技术专业论文)mpeg4视频解码器的设计与优化.pdf_第3页
(计算机应用技术专业论文)mpeg4视频解码器的设计与优化.pdf_第4页
(计算机应用技术专业论文)mpeg4视频解码器的设计与优化.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华中科技大学硕士学位论文 摘要 m p e g 4 标准是最有影响的多媒体数据编码国际标准之一,其具有高压缩比、可扩 展性、可交互性等诸多的优点,已经逐渐成为现代视频编码领域的主流标准。多媒体 应用的迅速扩充使基于m p e g - 4 标准的视频编解码技术受到前所未有的重视。由 于视频的原始数据量很大,在存储和传输时都是以压缩方式进行的,在提供给最 终用户前必须进行解码。而解码所需的计算量也非常大,因此如何高效地对压缩 视频流解码,已成为当前迫切需要解决的问题之一。 在分析m p e g - 4 视频编解码标准的基础上,对解码算法中运算大的部分:逆离散 余弦变换、反量化及运动补偿进行了深入研究。通过研究当代计算机中图形处理单元 ( g p u ) 的发展趋势和软硬件结构,发现可将视频解码中计算量最大的色度空间转换 和运动补偿模块移到g p u 上实现的特点,据此设计了一种利用g p u 加速视频解码的 并行架构方案,并通过比较三个适用于此架构的运动补偿算法( p s c ,v s c ,z b c ) 性能, 对此架构下最优运动补偿算法进行了选择。最后,以优化解码算法为中心,并结合 g p u 加速视频解码的技术,实现了一个经过优化的视频解码器软件原型。通过x v i d 软件测试,发现优化后的m p e g - 4 视频解码器解码速度平均提高了大约2 0 。所设 计的m p e g 4 视频解码器可以满足不同用户的应用需求,具有实用价值。 关键词:视频解码器 图形处理单元 m p e g - 4运动补偿 华中科技大学硕士学位论文 a b s t i a c t l 强em p e g 4 o n eo f 氆e 黼o s t 试蠡u e n t i 鑫重i f l t 懿瑶蛀o n a ls 姗a r d so nm n l 矗m e d 谂d 琏t e c o d e ,h a sm a i l ya d v a n t a g e :n l ch i 曲c o m p r e s s i o nm t i o ,t l l e p m p e r 哆o fe x p a n d i n gt l l e p r o p e r t yo fc a l r y i n go nt h es 、j v i t c i l i n g ,a n d 戗c i th a sa l r e a d y 鲫d u a l l yb e c o n l em a j n s 攮n d a 砖i 珏氆e 辩采毪lo f 描烈酗隰证d e of 沁唾娃貔e yc o d o 稳l e 妇班q h eo 城d 扛。唾珏o n e y c o d i n ga i l dd e c o d i n g ,b 觞i n g0 nn l es t a l l 出删o fm p e ( m ,i sv a l u e di n o v ei m p o n a n tt l l a n b c f o r cf o rt h cq 城c k 朋l a r g e m e n to f a p p l i c a t i o nt o 删l t i m e d i a 1 ko r i g i n a id a 协q l l a n t i t yo f v i 如o 蠡甓渊l c yi sv e f yl a f g e ,a 聪b 融主趣s a v i n g 磊越d e l i v 嬲鹋e a 舛弛g 漱ae 凇p f e s s 至张 w a y a sar c s i l l t ,t h ed e c o d i n gm l l s tb en n i s h e db e 白f ci t 淅l lb cp r o v i d e dt om ef l 蹦 l i s e r s m o r e o v e r ,h d wt od e c o d 。e m e i e n n yf 0 州a r d st l l e f r l p r e s s i v e v i d e o 舶q u e n c yh a s b e c o m eo n eo f 搬e 脚b l e m sn d i n gt ob c 摊l v e dm d 鲢w 黔n t l ya tp r e s e n tb e c a u s eo f 也e 瀚d so f d e 承n g sl a 氇e 锄。黼to f e a l c u l 8 畦o n 0 n 血eb a s eo f 蛐a l y z i n gm ec o d i n ga n dd e c o d i n g 蝴l d a r d so fm 憾g - 4v i d e o 础e p 叭so fd e c o d i n g so p e m t i o nd a t a 她h 嬲l a r g ea m o u n to fc a l c m a t i o n ,如c l u d i n g 嚣 ,麓,a n d 鹾c ,巍鑫s 耗强s 刚i 醚辩一。鹳l y ,翔。啦f e s e a i 蕊裙畦撼d 嚣v e l 印i 王l g 魏聪髓 c o m t e m p o r a r yc o m p u t e r sg p ua n ds o f i h a r dw a r es t n l c n j r e s ,t l l ec h a r a c t e r i s t i cw a s d i s c o v e r e dm a tc s c 孤dm c 埘mm e1 a r g e s ta i n o u n to fc 破c m a t i o ni nv i d e o 舶q u e n c y d e e 喇 n ge a n 毂毽娃s 氮嚣疆t o ( 潦u a o 确鹳掇氇e 基s c o v e 拶,a 刚e c t 酶愆糍建o f 掰髓l l e l s t r u c 彻_ c st oa c c e l e 蹦e 伪ed e c o d i l l go f v i d e o 触q u c n c yw 淞d e s i 弘e d 赫dm eb e s tm e 饿o d o ft 1 1 r e em o t i o nd c c o d 岫gc o m p e 璐a t ec a l c u l a t i 彻 p s c ,v s c ,z b c ) 岫d e rm i ss m l 曲鹏h a s c nc h o s e nb yc o m 溅也e 矗瞰c t i o 璐o f出e m 也a 主 s 嗡抛b 王et ot h i s s 溆l c 论豫f i n 蜒l y ,e o n s i d e 五菇g 饿em e m 醯o fd e c o d i n gc a c 落越i o 矗a sc e 勰f ,e 蛳b i 嚣g 壕e t e c h n i q u et l l a tg p ua c c e l e r a t e s _ 【l l ed e c o d 协go fv i d e o 触q u e n c y ,ad e c p d o m gc p 丘w a r e m o d eo fv i d e o 矗饕q u e n c yw a sd i s c o v e r e d f i 董l d i n gm ed c c o d i n gs p e e do fm p e g _ 4v i d e o 蠹麓渤e y & e q 莲遮g 蠹瑟妇f 棼黼爨甄痨。睡2 游磊傩鑫v e f a g e 酝t 董撼协蛾n go fx v l d s o 觚黼t h ev i d e o 舶q u e n c ym e g _ 4d e 。o d i n gm a c h i n ed e s i 驴e dc a l ls 撕唧叩p l i e d d e m a n d so f d i 岱料mc u s n l l e r s ,h a v i n gt l l ep r a c t i c a lv a l u e k 蟛w o 砖s :v i d 彘r ( 漤u瓣嚣g m o 呔嗽黻滞s 蔽o n l l 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体 已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以 明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 却啤 日期:如“年年月勰日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保 留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本 人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本论文属于 不保密日。 ( 请在以上方框内打“”) 学位论文作者签名: 朝珲 日期:2 口6 年牟月z 2 日 指剥嗽啊 曰期:年舻月 ,l 日 红歪 华中科技大学硕士学位论文 1 1 课题研究的背景及意义 l 绪论 多媒体技术的爆炸式发展以及人们已经接受了它的交互方式操作,已经证明了传 统的电视不再是简单的视听服务了,用户想要像现在访问文本和图形那样访问视频和 音频【i 】。这就要求在网络上以低比特率传输具有可接受质量的视频和音频。网络视频 的需求主要集中在视频会议、视频电话、电子商务、远程教学、远程医疗、数字电视 等领域中。视频信息的庞大数据量和信道带宽的限制迫使视频通信数据通常要经过压 缩编码才能传输。压缩数据对传输过程中的差错非常敏感,会造成误码环境下重建图 像质量严重下降。针对网络视频的特点,m p e g - 4 以它极高的视频压缩比和近似于 d v d 的视频清晰度、较好的网络传输特性成为视频数字化的压缩标准中的主流。 如何实现对m p e g - 4 视频流的快速实时解码,为客户提供了高质量的视频使 m p e g - 4 视频解码器的设计与优化面临着挑战,本课题针对m p e g - 4 的解码技术做了 重点研究,实现了对压缩视频流的高效率解码,在研究的过程中着重考虑了解码器的 视频解码速度及回放质量。 本文研究了m p e g - 4 解码关键技术与图形处理单元( g m p l l i c sp r o c e s s m gu n i tg p u ) 加速视频解码技术,提出了g p u 辅助c p u 加速视频解码的设计,对运动补偿部分所 采用的三种算法做出比较,得出基于z b u 脓的分类算法是其最优算法。在对d c t f 逆 离散余弦变换) 算法和运动解码算法优化的基础上,结合( m u 辅助c p u 加速视频解码 技术,实现了解码器的软件原型,建立了继续研究的测试平台,为m p e g 4 解码技术 的实际应用奠定了基础。 1 2 国内外发展研究现状 1 f 2 1m p e g 系统的演进 m p e g 是m o v i n gp i c t u r e se x p e n sg r o u p ( 动态图像专家组) 的缩写。是一个致力于 数字视频、音频技术发展及标准化的杰出组织,它是i s o ( i n t e m a t i o n a ls t a i l d a r d 华中科技大学硕士学位论文 o r g 蚰i z a t i o n ) 国际标准化组织与i e c ( i n t e m t i o n a le l e 髓r o i cc o m m i n e c ) 国际电工委 员会在1 9 8 8 年联合成立的,正规的组织代号是i s 0 i e cj t c i s c 2 9 w g “,成员专家 来自于不同国家的最有业界影响力的研发机构。 在十多年的时间里,m p e g 组织取得了丰硕的成果,自身也有了很大的发展。1 9 9 2 年1 1 月,m p e g 一1 被批准,并于1 9 9 3 年被i s o 组织接纳为国际标准;1 9 9 4 年1 1 月, m p e g 一2 标准发布,并在1 9 9 5 年成为国际标准;m p e g 一4 标准则于1 9 9 9 年和2 0 0 1 年分 别有了版本l 和版本2 ;目前,h 2 6 4 肝e g 一4a v c ( 即i s 0m p e g 4p a nl o ) 正在制 定之中。 ( 1 ) i s om p e g l 标准 m p e g 一1 制定于1 9 9 2 年,为工业级标准而设计,编号为i s 0 i e c1 1 1 7 2 。m p e g l 针对c i f 标准分辨率( n t s c 制为3 5 2 2 4 0 ;p a l 制为3 5 2 2 8 8 ) 的图像进行压缩, 并在标准中规定了视音频信息经过压缩后的数据码率最大为1 5 胁p s 叫。m p e g 一1 可实 现在不同带宽的设备,如c d r 侧、v i d e o c d 等数字媒体上进行存储v h s ( 盒式录象带) 质量的视频信号,也可以在局域网、i s d n 网上进行视音频信息的传输。 ( 2 ) i s om p e g 一2 标准 在m p e g l 标准化过程即将结束时,已经变得清楚的是,m p e g 一1 不能以广播质量 有效地压缩隔行数字视频。因此,m p e g 组发出了征集电视广播应用系统的音频和视频 数字编码技术建议的通知。性能最优的算法是将m p e g 一1 扩展到处理隔行视频格式。 在算法开发的合作实验阶段,保留了大量的与m p e g - l 的相似性。 m p e g 组织在1 9 9 4 年推出了m p e g _ 2 压缩标准,并在1 9 9 5 年成为国际标准,编号 为i s 0 i e c l 3 8 1 8 。m p e g 一2 标准是针对标准数字电视和高清晰度电视在各种应用下的 压缩方案和系统层的详细规定,编码码率可达1 0 0 m b p s 。m p e g 一2 不是m p e g l 的简单 升级,它在系统和传送方面作了更加详细的规定和进一步的完善。m p e g 一2 特别适用于 广播级的数字电视的编码和传送,被认定为s d t v 和h d t v 的编码标准。由于m p e g 一2 的视频质量已达到高清晰度电视( h d t v ) 的要求,原打算为h d t v 设计的m p e g 一3 标准被 舍弃了。 m p e g 一2 具有以下几个突出特点:( 1 ) 支持的图像分辨率最高,包括符合 2 华中科技大学硕士学位论文 i t u r r e c 6 0 1 ( c c i r 6 0 1 ) 格式的标准分辨率的数字电视和更高分辨率的h d t v 。( 2 ) 支持包括高速体育运动在内的各种活动图像。( 3 ) 支持的应用最为广泛,既包括存储 媒体中的d v d ,广播电视中的数字广播电视和i d t v ,还可应用于交互式的视频点播 ( v o d ) 和准视频点播( n v o d ) 。( 4 ) 还能够适配a t m 等宽带通信网。 ( 3 ) i s 0m p e g 一4 标准 m p e g 一1 和m p e g _ 2 标准促进了广为接受的诸如v c d 、d v d 、数字电视和数字音频广 播之类的商业产品与服务。取得了很大的成功,但是始终不能解决视频质量与带宽之 间的矛盾。于是,m p e g 一4 于1 9 9 8 年1 0 月定案,在1 9 9 9 年1 月成为一个国际性标准, 随后为扩展用途又进行了第二版的开发,在2 0 0 1 年有了其第二个版本。m p e g 一4 的国 际标准编号为i s o i e c l 4 4 9 6 。卿e g 一4 标准的目的是定义视听编码标准以应对日渐明 显的通信、交互式和广播式服务模型的需求,以及由于它们在技术上的汇聚而产生的 混合服务模型的需求。三种分离的应用领域:通信、计算、电影电视娱乐的汇聚就 是这三者互相交叉渗透的证明。 1 2 2m p e g 一4 的特点及优势 m p e g 一4 的特点是其更适于交互a v 服务以及远程监控,是一个有交互性的动态图 像标准。其优势在于: ( 1 ) m p e g 一4 是做为一个国际化的标准来制定研究的,因而具有很好的兼容性及开 放性。 ( 2 ) m p e g 一4 提供高压缩比的同时,对数据的损失很小,达到以最小的数据获得最 佳的图像质量的目的。 ( 3 ) m p e g 一4 是个开放标准,因其高质量的数字影像,以及允许内容创建者从m p e g 一2 质量一直到极低带宽的i n t e r n e t 流式内容全程进行品质和带宽的均衡,而被全世界 的无线、电脑及娱乐公司广泛采用。 ( 4 ) 正如m p e g - 2 将使数字电视最终完全取代现有的模拟电视那样,随着m p e g 一4 新标准的不断推出,数据压缩和传输技术必将趋向更加规范化。 到目前为此,m p e g 一4 建立了起三个成功领域:数字电视、交互式图形应用( 合成 内容) 、交互式多媒体【3 】【4 】。 华中科技大学硕士学位论文 1 3 论文内容及作者所完成的工作 本文简要介绍了视频压缩编解码关键算法及技术,并在此基础上重点研究了 m p e g 一4 视频压缩编码标准的d c t 算法及运动估计和运动补偿,针对m p e g 一4 系统提出 了一种g p u + c p u 并行实现架构,实现了基于d c t 算法改进的m p e g 一4 解码器软件设计, 利用当前最先进的x v i d 软件对解码器进行软件测试,得到很好的测试结果。论文章 节安排如下: 第一章,绪论,对视频编码技术发展的历史和应用作了简要的回顾,并在此基础 上对比其他视频标准讨论了m p e g 一4 的新功能和特点。 第二章,介绍了m p e g 系统编解码标准的关键算法及技术,为做好后续研究打下 理论基础。 第三章,通过分析g p u 的基本现状和可行性,提出了基于帧的g p u + c p u 并行架构, 针对三种不同算法做了比较,根据实验得出最优算法。 第四章,详细介绍了基于d c t 、运动估计和运动补偿算法改进,实现了m p e g 一4 解码器。 第五章,总结全文并提出了今后的研究工作 4 华中科技大学硕士学位论文 2m p e g - 4 视频解码关键技术 2 1m p e g 4 压缩视频的码流结构 通过m p e g - 4 码流的分析有助于更好的理解m p e g 4 解码流程,m p e g - 4 标准定 义了一个标准m p e g - 4 码流中的每一位的具体含义。m p e g - 4 码流的组织形式是按分 层的形式组织起来的。如图2 1 所示( 其实对很多标准的码流都是这样的) 。 卫垂受堕麴堕堑 顾1 该蕊夔丽受国 i 宏块头l 按块形式组织的帧数据 图2 1 码流的分层组织 首先码流头是一个在码流中其它地方不会出现的一个比较长的特殊序列,又叫起 始码字:然后是具体的头信息,它定义了整个码流的一些特征,这些特征将会对如何 对这个码流进行解码产生影晌,例如,帧的长度和宽度,该码流使用技术等。帧头, 首先是帧起始码字;然后是具体的帧头信息,它定义了当前帧的一些特征,例如当前 帧使用的量化值等,这些信息决定了该如何解码当前帧。从宏块头开始就是具体的数 据了,宏块头并没有一个宏块起始码字,它紧跟在帧头信息后面。 按照上文的分析,只要给出一个符合m p e g _ 4 标准的码流,就能按照标准定义的 码流形式对这个码流解析并进行解码。首先,搜索码流起始码字,由于起始码字唯一, 只要码流正确,肯定能搜索到,找到起始码字后,就可以对码流头信息进行解析,并 把对后面的解码有影响的码字保存下来;接着,寻找帧头起始码字,找到后,对帧头 信息进行解析,并存储对解码过程有影响的码字;最后,从码流中读出宏块数据,并 进行解码,恢复为原来的图像。 对这个过程有助于理解视频解码器的解码流程,此部分介绍码流的定义为解码流 程分析打下了基础,从而更好的实现最终解码器算法的优化与实现。 华中科技大学硕士学位论文 2 2 枷p e g 4 视频的解码流程 v 0 p 是m p e g 4 的基本编码单元,它包含视频对象边框的尺寸。从图2 2 可以看 出一个v o p 的解码过程,m p e g - 4 视频解码主要由三部分组成:形状解码、运动解 码和纹理解码,重建的v o p 是通过合并解码的形状、运动和纹理信息得到的。 2 3 码流解析 图2 2m p e g _ 4 的解码流程 码流解析就是从编码码流中解析到头信息,并把对用户有用的信息保存下来。接 着将纹理数据交给纹理解码模块,运动数据交给运动解码模块,实际上也就是把对码 流的控制权交给它们。 2 4 形状解码 二值形状编码是建立在基于块的表示基础上。主要的编码方法是基于块、基于上 下文的二值算术编码和基于块的运动补偿。主要数据结构是二值d 块( b a b ) 。b a b 是 表示透明或不透明的二值像素组成正方形块,它指定了1 6 1 6 区域的形状。事实上, 每一个b a b 和一个纹理宏块在同一位置。 从v o l ( 视频对象层) 的语法结构可以看出,当v i d e o j b j e c u a y e r h 印e 为“o o ” 时,则不需要二值形状解码;当v i d e oo b j e c tl a y e rs h a p e 不等于“o o ”时,则需要执 6 华中科技大学硕士学位论文 行二值形状解码,对其后每一个v o p ,重建v o p 的限制矩形尺度由v o p d t l l 和 v o p _ h e i g h t 获得。如果解码后的尺度不能被1 6 整除,那么v 0 几啊d t l l 和v o ”l e i g l l t 的 值上取整到能被1 6 整除。 另外,为了简化运动补偿,v o p 的水平和垂直位置由v o p _ h o r i z o n t a l m c s p a t i a l - r c f 和v o p - v e r t i c a lm cs 叫a l _ r e f 得到。每个v o p 的空间参考点可能是不同的,但是 一个v o l 中所有的v o p 必须使用相同的坐标系统。另外,解码空域参考点必须为偶 数。标志v o 叫l a p ec o d i n gt y p e 在错误恢复时使用,它可以允许在p - v o p 中使用内 部形状解码。 最后,在v o p 类中必须解码c h 趿g e i n v m t i o _ m s a b l e 。它说明了c o n v _ r a t i o 是 否在宏块层被解码。一旦上述元素被解码,二值形状解码器就可以在限制矩形中,解 码每个宏块的形状。 2 4 1 宏块解码 v o p 限制矩形中的每一个宏块的形状信息以1 6 1 6 的b a b 形式被解码。宏块解 码包括以下几个过程:模式解码、二值a 块运动补偿、运动向量解码、帧间b a b 的 运动补偿和基于上下文算术解码。 2 4 2 算术解码 算术解码包括四个主要步骤; ( 1 ) 去除填充比特; ( 2 ) 初始化,它在解码第一个符号之前执行; ( 3 ) 解码符号,每一个符号的解码可能跟着一个重新标准化的过程; ( 4 ) 在解码最后一个符号后终止。 2 4 3 灰度形状解码 灰度a 平面解码可以分两部分得到;支持区域和a 通道的值。支持区域使用二值 形状传输。在二值形状数据中指示透明的所有采用必须在解码灰度a 平面时被设定为 0 。在v o p 内部。d 采样的值通过解码灰度d 解码过程产生。二值形状信息解码不依 7 华中科技大学硕士学位论文 赖于灰度a 的解码。o 的值以宏块的形式按解码亮度通道的方法解码。a 值1 6 x1 6 的块作为以后的a 宏块的数据紧跟在相应纹理块的数据后面出现。 2 5 运动补偿解码部分 2 5 1 半采样插值 m p e g 4 支持整像素、半像素和1 4 像素的运动估计与运动补偿【5 】。任何图像都 是以整像素为采样单位的,并不存在真正的半像素采样点,半像素是人为内插产生的。 在进行半像素运动估计时,首先对参考帧进行双线性插值,然后再在插值帧中搜索到 预测块。 2 5 2 一般运动向量解码 为了解码运动向量( m v x ,m 、 ,要通过变长码解码从码流中解出差分运动向量 ( m v d x ,m v d 叻,然后把它加到运动向量预测值( p x ,p y ) 上得到最终的运动向量。运动向 量要限制在一定范围内,允许范围由参数v o pf c o d e 选定。 2 5 3p - v o p 的运动向量解码和运动补偿 了一, 而 o , m v im v1 “| 图2 - 3 候选运动向量预测器的定义图 为了解码运动向量,运动向量预测值的水平和垂直分量分别由自己解码的相邻 宏块或块得到的候选运动向量( m v l ,m v 2 ,m v 3 ) ,通过中值滤波计算出来。每一个块 的候选预测器的空间位置由图2 3 所示。当整个宏块使用一个运动向量时,使用图2 3 中的“左上”情形。v o p 外的块的m v 当作o 处理。 三个候选运动向量的中值作为运动向量的预测值( p x ,p ”: 8 华中科技大学硕士学位论文 尸_ x = 肌p d 妇根( f y l x , l y 2 x ,。 3 x )( 2 1 ) 印= m 8 矗谊n ( ,矿1 ) t ,时矿2 弘肼矿3 y ) ( 2 2 ) 例如,如果m v l = ( 1 ,2 ) 、m v 2 鼍o ,3 ) 和m v 3 = ( - 2 ,6 ) ,那么p x _ - l ,p y = 3 a 4 m v 模式的色差的运动向量m v c h r 由4 个m v 平均后再映射到色度空间( 长度除 以2 1 。m v 一般是按半像素点给出的。所以m v 映射时要注意对除不尽的尾数进行取 舍。 2 5 4 非限制运动矢量的运动补偿 运动矢量允许参考v o p 的解码区域之外。对矩形v o p ,先将参考帧以边界填充的 方法向上下左右扩充1 6 的倍数,具体扩充多大由运动向量范围决定。例如,v o p f c o d e = 1 时,运动向量范围是 一3 2 ,3 1 ,这时参考帧上下均扩充3 2 行,左右均扩充 3 2 列,如图2 4 中参考帧所示。这里的扩充也就是对于v 0 p 左边的每一个像素向左对 v 0 p 外的像素进行复制,对右边的向右进行复制;对上边的每一个像素向上进行复制, 对下边的向下进行复制。 考帧 ( o ,0 ) 7 当前帧 图2 4 边缘填充及非限制的运动补偿 这样,对于当前v o p 靠边界的块,根据运动矢量在参考帧中找预测块时就不会因 出界而找不到参考值。如图2 4 所示,对于坐标为( 1 7 ,5 ) 的像素,若运动矢量为( 一1 3 , 一1 0 ) ,则预测像素的坐标为( 4 ,一5 ) ,指向了顶部的扩充值( 坐标原定在矩形v o p 的左 上角) 。 9 华中科技大学硕士学位论文 2 6 纹理解码工具 2 6 1i d c t 解码 离散余弦变换d c t 是数字图像信号处理,尤其是图像压缩编码算法,如d v ,j p e g 和m p e g 等,应用最广泛的变换算法。视频编码算法中帧内和帧间编码的核心算法都 是离散余弦变换( d c t ) ,它有效地削减了视频序列中帧内图像和预测残差信号空域冗 余,且它的性能最接近理论上最优的k - l 变换,有相对简单的实现方法,有着广泛的 应用。 因为图像其实是人类的视觉系统对不同频率光线的感知,d c t 变换的目的是经过 多维坐标系中适当的旋转变换,将原始图像由空域转换到频域上,使能量分布集中在 低频部分,从而有利于后续的量化和编码,实现信息的压缩。o c t 产生了近乎最优的 能量集中6 1 ,它实际上是离散傅立叶变换的一种简化,是仅取了傅立叶变换系数中的 余弦函数部分的变换。在视频压缩算法中通常采用的是8 8 二维d 四,其定义如下: f ( 州) :土c ( 。x ,) 至兰,( w ) c 。s 堕坐c o s 里掣堕 ( 2 3 ) 4x = 0 产o1 61 6 通过上式的d c t 变换公式可对8 x 8 的图像块进行d c t 变换,并可通过反d c t 变换 f i d c n 恢复原图像块。i d c t 定义如下: 脚,= 扣m 三盖c c 州,小o s 等竽c o s 鼍竽 泣4 , 4 x = oy = 0 1 6 1 6 其中u 和v 分别是水平和垂直频率索引;f ( u ,v ) 是d c t 变换系数,f ( o ,o ) 代表直 流分量的系数,f ( u ,v ) 为不同频率( u ,v ) 的系数,u 和v 的值越大,代表的频率越高; f ( x ,y ) 是在( x ,y ) 位置处的象素值;而常量。c ( u ) 和c ( v ) 由下式给出: c ( 矾c ( r ) = l ,2 甚”o ( 2 - 5 ) 原始图像块经过d c t 变换后,相应的由频域系数组成的图像块具有以下特点:所有图 像像素点的均值( 即直流分量) 都位于频域图像矩阵的左上角。离直流分量距离越远的 像素点,其系数所代表的图像点的交流成分的频域越高。更具体地说,在频域图像块 中,像素的行索引值越大,则其代表原始图像块在列的方向上的交流成分频率越高; t o 华中科技大学硕士学位论文 像素的列索引值越大,则其代表原始图像块在行的方向上的交流成分频率越高7 1 ,如 图2 5 所示。 1 8 3 1 6 09 41 5 31 9 41 6 31 3 21 6 5 1 8 31 5 3 1 1 6 1 7 61 8 71 6 61 3 01 6 9 1 7 91 6 81 7 11 8 21 7 81 7 01 3 l1 6 7 1 7 71 7 71 7 91 7 71 7 91 6 51 3 l1 6 7 1 7 81 7 81 7 91 7 61 8 21 6 41 3 01 7 l 1 6 91 8 01 8 01 7 91 8 31 7 91 3 21 6 9 1 7 91 7 91 8 01 8 21 8 31 7 01 2 91 7 3 1 8 01 7 91 8 11 7 91 8 11 7 01 3 01 6 9 变换前 图像块经过d c t 变换后, 是图像变换的魅力所在。 2 6 2 反量化 3 1 3 5 62 71 87 86 02 72 7 3 82 71 3 4 4 3 212 4一l o 一2 01 71 03 32 16一1 69 1 0一891 791 0一1 31 6l643755 230374o3 44一l一29024 3l042一l31 变换后 图2 5d c t 的能量聚集示意图 会发现在这个数据块有大量的零或非常小的系数,这就 m p e g 一4 标准中,i n t r a 鹏的d c 系数使用和其它系数不同的逆量化方法: r 0 0 = d o s c a l e r q f o o ,a c 有两种量化方式:m p e g 量化方式和h 2 6 3 量化方 式。相应的有两种逆量化方法。 1 m p e g 逆量化方法:q u a n t t y p r 为1 时,使用此方法。m p e g 量化方法事实上是 非线性的,它对不同频段的d c t 系数的量化步长进行不同的加权( 这样就对应一个加 权矩阵叫w w v u 。逆量化方程为: p = 弘州m + 删v 】篙。三= ) 1 6 捌v 】【小。( 2 6 ) 这里 刑小 0 鲫埔。,:。鼍篆 汜r , 2 h 2 6 3 逆量化方法:它在q u a n t y p e 为0 时使用,h 2 6 3 量化不要加权矩阵,逆 量化方程为: 华中科技大学硕士学位论文 f0 矿q h 川【川= o j 一【川【卅= ( 数l 洲m ”+ l 伊脚诫蚶一5 如,矿研嵋m o 伊蜘撕一s 翻妇括删, i ( 数l ! 则m i + l 孕蜘船一即日如一l ,矿研明【川o ,卵柳撕一即日妇括f 惭 ( 2 8 ) 其中, v “ 的符号由q f v “ 决定。 2 7 本章小结 本章主要介绍了m p e g 一4 相关的形状解码、运动解码和纹理解码,其中运动补偿解 码是视频解码中计算量比较大的部分,也是本文着重研究的关键所在,研究m p e g 一4 的关键技术将为下一步工作打好理论基础。 1 2 华中科技大学硕士学位论文 3g p u 辅助c p u 加速视频解码技术 3 1g p u 计算技术的发展与软硬件结构 无论是在p c 还是在家用游戏主机上,要实现h d 解码,都将是十分困难的。不过 现代p c 或者家用游戏主机,除了c p u 以外,还有一颗十分强劲的处理器一显卡上的g p u ( g r a p h i c sp r o c e s s i n gu n i t ) 。从n v i d i a1 9 9 9 年发布g e f o r c e 2 5 6 这颗被业界首次 称为g p u 的图形芯片以来,g p u 己经成为当代p c 的标准配置。近年来,设计创新和半 导体科技的持续发展,使g p u 的计算能力不断提高,为了充分发挥g p u 的计算能力和 减轻c p u 的负担,利用g p u 的可编程3 d 引擎,使g p u 参与到视频解码工作中,和c p u 并行工作,可以极大的提高视频解码的效率。事实上,这方面的研究一赢也没有中断 过,目前的g p u 也已经具备了一定辅助c p u 进行视频解码的能力。 由于进行视频解码的计算难度特别高,按难度高度排序,色彩空间转换( c o l o r s p a c ec o n v e r s i o n c s c ) 是最耗时间的一部分,其次是运动补偿( m o t i o n c o m p e n s a t i o n m c ) ,两者消耗了多于6 0 的计算机资源嗍,由于c s c 的计算比较固定, 当显卡进入d i r e c t x ( d x ) 7 o 版本的时候,g p u 中开始集成了c s c 部分,硬件c s c 可以 使视频流的解码速度加快2 0 。同时g p u 中还集成了视频画面缩放的功能,这也进一 步降低了c p u 的工作量。 硬件c s c 和视频缩放构成了第一代v p e ( v i d e op r o c e s s i n ge n g i n e ) 。从n v i d i a 的n v l 5 开始,主流的独立显卡g p u 中都普遍集成了v p e ,v p e 的强弱已经成为衡量g p u 的一项重要指标。由于视频图像的大小不断增加,仅仅在硬件上集成c s c 还是远远不 够的。对g p u 而言,v p e 仅占芯片面积很小的部分。自从显卡在上世纪9 0 年代后期进 入3 d 时代以来,3 d 引擎逐渐成为g p u 的最主要组成部分,占到芯片面积的6 5 以上。 同时,当代3 d 引擎的性能也十分惊人发展,2 0 0 4 年,n v i d i a 公司的g e f o r c e6 8 0 0u l t r a 已经达到峰值4 0 g f l o p s ,而i n t e l 公司的p e n t i u m i v 一3 g 采用s s e 指令也只能达到 6 g f l o p s 吼g p u 的发展速度更是同期c p u 的三倍多【1 0 1 。根据n v i d i a 的预测,在未来 华中科技大学硕士学位论文 l o 年内,g p u 仍将保持现在的高速发展趋判”】。 3 d 引擎强大的运算能力吸引着研究者们思考这样的问题:能不能利用g p u 做一些 3 d 绘制以外的工作。基于g p u 的通用计算( g e n e r a lp u r p o s eg p u ,g p g p u ) 的概念应运 而生,它指的是利用图形卡来实现一般意义上的计算,而不单纯是3 d 绘制。可编程 3 d 引擎的出现,使研究者们的愿望有可能变成现实。2 0 0 0 年微软推出了d i r e c t x 8 , 2 0 0 2 年又推出了d i r e c t x 9 ,标准的更新换代,推动着厂家不断设计出具有更强可编 程能力的g p u 。随着2 0 0 1 年g e f o r c e 3 的出现,顶点级可编程开始普及,到了2 0 0 2 年研究者们开始利用t e x t u r es h a d e r 结合r e g i s t e rc 伽b i n e r 来求解扩散方程,而 到了2 0 0 3 年像素级可编程性出现,很多人开始利用像素程序来求解一般代数闯题。 同年,世界上唯一的图形学硬件年会一s i g g r a p h e u r o g r a p h i c sg r a p h i c sh a r d w a r e , 也迅速将其重点转向了计算机图形处理器的非图形应用。因此,2 0 0 3 年被认为是图形 硬件被用来做通用计算的一个里程碑。 目前,g p u 在数值计算领域的应用非常广泛。t h o m p s o n 等人1 1 2 1 利用3 d 引擎的可 编程顶点流水线实现了一个代数运算的框架系统,其中包括矢量运算和矩阵乘法。 k r u g e r 等人【1 3 】则利用像素流水线来完成基本的代数运算,并在此基础上实现了共扼 梯度法和高斯一赛德尔迭代法,从而完成流体p d e s ( p a r t i a ld i f e r e n t i a le q u a t i o n s ) 的求解。b 0 1 z 等人【1 q 实现了基于像素编程的稀疏非结构化矩阵的共扼梯度法和正交 网格的多重网格法,并用于加速几何处理和流体模拟。h i l l e s l a n d 等人【l5 j 将最速下 降法和共辘梯度法求解带有简单约束和规则化的非线性最小二乘优化问题映射到图 形硬件上,并将其应用到图像建模上。t o m o v 等人【16 】则利用g p u 来进行蒙特p 洛仿真。 除了数值计算,g p g p u 在信号处理领域也显示了巨大的潜力。m o r e l a n d 等人1 1 7 j 利用 g p u 实现了快速傅里叶变换,通过灵活组织索引避免了重新排序。h o p f 和e h l 【is j 利用 s g io c t a n e 工作站的图形处理器m x e ,基于0 p e n g l 实现了h a a r 和d a u b e c h i e s 小波 的变换及反变换以用于边缘检测。其测试效率比用纯软件实现的小波变换提高了2 5 倍。王剑清等人1 9 】在最新发展的g p u 上实现了完整的小波变换,包括小波多尺度分解 变换和重建逆变换,并将其应用于图像的多分辨率表示、图像基于频谱变化的变形和 图像压缩( j p e g 2 0 0 0 ) 上。吴仲乐等人1 2 0 】贝9 发展了基于g p u 的快速水平集( l e v e ls e t ) 1 4 华中科技大学硕士学位论文 图像分割方法。 此外,g p u 在数据库领域【2 l j 也取得了可喜的进展。尽管g p u 己经被研究者们广泛 接受,但在视频编解码领域,g p g p u 的研究还相对较少。事实上,将3 d 引擎应用于视 频领域的先驱是微软的v i d e om i x i n g r e n d e r e r 技术,包括v m r 7 和v m r 9 。不过,v m r 技术仅是利用3 d 引擎将解码后的视频绘制到某个表面( 表面是物体外部的一个显示) , 必要时再负责一些后处理的工作,并且v i r 也是不可编程的一程序员不能修改r 的处理过程,因此r 并不是真正意义上的视频编解码技术。然而,r 揭示了3 d 引擎的确可以为视频应用服务,因为视频本质上就是图像的集合,而3 d 引擎的本质 就是图像实时渲染。r o h i t 等人的工作【硐则表明改造过的g p u 可以直接承担m p e g 一4 的解码工作。哺p e g 4 标准中基于对象的编码技术具有很大的前瞻性,不过此技术也带 来了复杂度的急剧上升,因此目前的m p e g 4 编解码器都没有集成这个技术。这种技术 需要在传统的编解码框架下增加许多新的环节,b m p ( b o u n d a r ym a c r o b l o c kp a d d i n g ) 就是其中之一。r o h i t 等人提出了一种利用图形处理器完成m p e g 4 解码中b m p 的方法, 理论上可以最高提供9 6 倍的速度增益,但需要设计新的g p u ,以提供新的指令。另 些研究者则直接利用当前g p u 的3 d 引擎。r o b e r t 等在文献中发表了一种在可编程 像素流水线上实现的基于光流( 0 p t i c a lf l o w ) 算法的像素级运动估计( m o t i o n e s t i m a t i o n ,m e ) 技术。尽管目前的视频压缩标准采用的都是基于块的运动估计算法, 但r o b e r t 等人的工作仍然具有很高的参考价值。除了3 d 引擎强大的运算能力以外, 利用可编程g p u 加速视频编解码相比其他技术,还有一个突出的优点一不需要额外成 本。目前绝大多数家庭p c ,除了c p u 以外都会有一颗强劲的g p u ,以满足3 d 游戏的 需求。对于家用游戏主机而言,它们拥有的g p u 就更加强大。而在通常的娱乐活动中, c p u 和g p u 一般不会同时处于十分繁忙的工作状态,例如人们在观看视频时,不太可 能同时在玩3 d 游戏,反之亦然。也就是说,虽然p c ( 或者游戏主机) 已经提供了一个 双处理器的平台,但在实际应用中,并没有充分发挥出这种双核心的优势。利用3 d 引擎来加速

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论