(电路与系统专业论文)基于资源重用的h264预测补偿模块vlsi设计与研究.pdf_第1页
(电路与系统专业论文)基于资源重用的h264预测补偿模块vlsi设计与研究.pdf_第2页
(电路与系统专业论文)基于资源重用的h264预测补偿模块vlsi设计与研究.pdf_第3页
(电路与系统专业论文)基于资源重用的h264预测补偿模块vlsi设计与研究.pdf_第4页
(电路与系统专业论文)基于资源重用的h264预测补偿模块vlsi设计与研究.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(电路与系统专业论文)基于资源重用的h264预测补偿模块vlsi设计与研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文摘要 摘要 随着网络通信,数据存储及处理器计算能力的不断发展,人们对观赏高 质量多媒体的需求迅速提升,视频以其直观,真实,感染力强等一系列优点, 成为多媒体领域新的应用需求热点h 2 6 4 视频标准以其极高的压缩率成为 近年来最为热门的视频编码标准。h 2 6 4 获得高压缩率的代价是极高的运算 量,对编码器及解码器的计算能力提出了巨大的挑战。本文以h 2 6 4 视频解 码器设计为背景,探索高性能,低功耗,低成本的h 2 6 4 视频解码器预测模 块的架构,设计了一种基于分时复用硬件资源的h 2 6 4 预测模块,在不影响 性能的前提下下,极大的减少了帧内预测模块的面积,从而降低了视频解码 器的功耗和成本。主要研究内容和创新点包括: l 、支持h 2 6 4 并行解码的混合流水线。解码器采用宏块级流水线进行h 2 6 4 任务分割,并将帧内预测的模式预测任务和帧间预测的运动向量预测任务 安排到第一级流水线上,以平衡各流水级问的负载。在第二级流水线,将 预测,反量化反变换,重建任务以l x 4 为单位并行计算,节省了并行解码 所需的临时同步资源帧间补偿以4 x 4 为单位安排两级流水线,提高了帧 间补偿的吞吐量,达到与帧内预测吞吐量相近的水平在解码器采用宏块 级为单位的流水线前提下,帧间4 x 4 子宏块根据各种宏块分割类型进行重 排序解码,实现了8 x 8 分割块间的参考像素共享,减少了内存访问次数, 并提高了流水线效率,降低了功耗。 2 、分时复用硬件资源。在以宏块级为单位的解码流水线基础上,分时复用帧 内解码模块的存储单元和帧间解码模块的存储单元,帧内解码模块的运算 单元和帧问解码模块的运算单元,使帧内预测单元的面积大幅度下降,达 到了运算负载和硬件开销成正比的目的 关键词h 2 6 4 ;视频;帧内;帧间;预测;解码;复用;设计 浙江大学硕士学位论文 a b s t r a c t w i mh i g h e s td a t ac o m p r e s s i o nr a t e ,, t h eh 2 6 4b e c a m et h em o s tp o p u l a rv i d e o s t a n d a r d h o w e v e r , i ta c h i e v eh i g hd a t ac o m p r e s s i o nr a t i oa tt h ec o s to fh i g hc o m p l e x c o m p u t a t i o n t h i sp a p e re x p l o r et h eh a r d w a r ea r c h i t e c t u r eo fh i g h - p e r f o r m a n c e ,l o w p o w e r , l o wc o s th 2 6 4p r e d i c t i o ne n g i n e b a s eo nt h et i m e - m u l t i p l e x i n go fh a r d w a r e r e s o u r c e s ,t h et a r g e ta r c h i t e c t u r es a v e st h ep o w e rc o n s u m p t i o na n dc o s tg r e a t l yb y r e d u c i n gt h ea r e ao fi n t r ap r e d i c t i o nm o d u l ew i t h o u ta f f e c t i n gt h ec o d i n gp e r f o r m a n c e m a i nr e s e a r c ht o p i ca n di n n o v a t i o np o i n t si n c l u d e : 1 、h y b r i dm u l t i - l a y e rp i p e l i n ef o rh 2 6 4d e c o d i n g v i d e od e c o d i n gi sm a c r ob l o c k p i p e l i n e da c c o r d i n gt o t h et a s kp a r t i t i o n t h ec o m p u t a t i o no fi n t r ap r e d i c t i o n m o d ea n dt h ec o m p u t a t i o no fi n t e rm o t i o nv e c t o ra r ea r r a n g e di nt h ef i s tp i p e l i n e s t a g et o g e t h e rw i t hb i t s t r e a mp a r s i n ga n dc a v l cd e c o d i n gt ob a l a n c et h el o a d b e t w e e np i p e l i n es t a g e s i nt h es e c o n dp i p e l i n es t a g e ,p r e d i c t i o n ,i q i ta n d r e c o n s t r u c t i o nb e f o r ed e b l o c ka r elx 4p a r a l l e l i z e dt os a v et h et e m p o r a r y s y n c h r o n i z a t i o n r e s o u r c e sn e e d e df o rr e c o n s t r u c t i o n u n d e rt h em a c r ob l o c k l a y e r p i p e l i n e ,t h e r ei sa4 x 4l a y e rt w os t a g ei n t e rc o m p e n s a t i o np i p e l i n e w h i c hi s a d o p t e dt or i s et h et h r o u g h o u to ft h ei n t e rc o m p e n s a t i o n t h e4 x 4s u bm a c r o b l o c kc a l lb ed e c o d e di nv a r i o u so r d e r sa c c o r d i n gt ot h ep a r t i t i o nt y p ea n ds u b p a r t i t i o nt y p eo fpm a c r ob l o c k b ya d j u s t i n gt h e4 x 4s u bm a c r ob l o c kd e c o d i n g o r d e r , t h er e f e r e n c ep i x e lc a l lb es h a r e db e t w e e n8 x 8p a r t i t i o n ,w h i c hr e d u c e st h e n u m b e ro fm e m o 巧a c c e s s ,i m p r o v e sp i p e l i n ee f f i c i e n c ya n ds a v e sp o w e r c o n s u m p t i o n 2 、r e u s eh a r d w a r er e s o u r c eb e t w e e ni n t r ap r e d i c t i o na n di n t e rp r e d i c t i o n b a s eo n t h em a c r ob l o c kl a y e rp i p e l i n e ,r e u s a b l eh a r d w a r er e s o u r c ei se x p l o r e db o t hi i l t h es a m ep i p e l i n es t a g ea n da c r o s st h ep i p e l i n es t a g e a sar e s u l t ,t h ea r e ao fi n t r a p r e d i c t i o nm o d u l ei sr e d u c e ds i g n i f i c a n t l y k e y w o r d sh 2 6 4 ;v i d e o ;i n t r a ;i n t e r ;d e c o d e ;r e u s e ;d e s i g n i i 浙江大学硕士学位论文目录 图目录 图1 1 视频压缩技术框图1 图1 2 任务划分和数据划分3 图1 3 基于混合任务划分与数据划分的方法4 图1 4 基于专用硬件加速器的h 2 6 4 解码器框图5 图1 5 基于4 x 4 子块和宏块混合的流水线结构5 图1 - 6 按照行和按照列列解码4 x 4 子宏块对比6 图1 7h 2 6 4 标准的子宏块解码顺序6 图1 8 按照标准的4 x 4 解码时序7 图1 - 9 重排序4 x 4 子宏块解码顺序7 图1 1 0 重排序后的4 x 4 解码时序7 图1 1 1 帧内预测多级内存结构8 图1 1 2 滑动窗示意图。8 图1 1 3s e p a r a t e d1 df i r 内插单元。9 图1 1 4 帧间预测参考点重用9 图1 1 5 不同小数坐标内插所需像素值1 0 图2 - 1 图像被分为顶场和底场1 2 图2 2 图像被分割为3 个s l i c e 1 3 图2 3h 2 6 4 解码流程1 3 图2 4 宏块分割:1 6 x 1 6 ,8 x 1 6 ,1 6 x 8 ,8 x 8 1 4 图2 5 子宏块分割:8 x 8 ,4 x 8 ,8 x 4 ,4 x 4 1 4 图2 - 6 一张图片被分割成各种不同大小的块1 4 图2 7 相邻宏块的定义1 6 图2 - 8 当前宏块依赖的分割块1 6 图2 - 9 按照1 6 x 8 和8 x 1 6 进行分割的m v p 依赖的分割块1 8 图2 1 0 运动向量为整数和小数的例子1 8 图2 1 1 亮度宏块的整数位置和小数位置1 9 图2 1 2 色度宏块的小数点位置补偿算法2 l i i i 浙江大学硕士学位论文目录 图2 1 3 亮度i n t r a 4 x 4 预测类型的8 种方向2 2 图2 1 4 帧内预测亮度i n t r a 4 x 4v e r t i c a l 和h o r i z o n t a l 模式的算法2 4 图2 1 5 帧内预测亮度i n t r a 4 x 4d c 模式的三种算法2 4 图2 1 6 帧内预测亮度i n t r a 4 x 4d o w n l e f t 和d o w n _ r i g h t 模式的算法2 5 图2 17 帧内预测亮度i n t r a 4 x 4v e r t i c a l _ f i g h t 和h o r i z o n t a l d o w n 模式的算法 :! ! ; 图2 - 1 8 帧内预测亮度i n t r a 4 x 4v e r t i c a l l e f t 和h o r i z o n t a l u p 模式的算法2 6 图2 1 9i n t r a l 6 x 1 6 的4 种预测算法2 7 图3 1 通过安排在不同时段写存储器避免资源冲突3 0 图3 - 2 h 2 6 4 各个任务之间的依赖关系3 0 图3 3 按照4 x 4 子宏块进行解码的流水线31 图3 4 未将m v 预测调整到第一级流水线的情况3 1 图3 5 将m v 预测调整到第一级流水线后的情况3 2 图3 - 6 帧内预测以l x 4 为单位并行计算3 2 图3 7 经典的反变换运算单元3 3 图3 8 帧内预测类型为i n t r a 4 x 4 时的流水线3 3 图3 - 9 预测模式为i n t r a l 6 x 1 6 水平和垂直模式时的流水线3 4 图3 1 0 预测模式为i n t r a l 6 x 1 6d c 模式时的流水线3 4 图3 1 1 预测模式为i n t r a l 6 x 1 6p l a n e 模式时的流水线3 4 图3 1 2 先计算v 值,p l a n e 模式的流水线3 5 图3 1 3 色度帧内预测模式为水平和垂直时的流水线3 5 图3 1 4 色度帧内预测模式为d c 时的流水线3 5 图3 1 5 色度帧内预测模式为p l a n e 时的流水线3 5 图3 1 6 位置为d ,h ,n 时的插值流水线3 6 图3 1 7 位置为a ,b ,c 时的插值流水线3 7 图3 1 8 位置为e ,g ,p ,r 时的插值流水线。3 7 图3 1 9 位置为j 时的插值流水线3 7 图3 2 0 位置为f i ,k ,q 时的插值流水线3 7 图3 2 l 整点4 x 4 帧问预测流水线3 8 图3 2 2 位置为d ,h ,1 1 时的4 x 4 帧间预测流水线。3 8 i v 浙江大学硕士学位论文目录 图3 2 3 位置为e ,g ,p ,r ,f q ,i ,k ,j 时的4 x 4 帧间预测流水线3 8 图3 2 4 扩大像素缓存并调整解码顺序后的4 x 4 帧间预测流水线3 9 图3 2 5 调整解码顺序后的像素读取过程( 8 x 8 和1 6 x 8 ) 3 9 图4 - l 流水线间采用的p i n g p o n g 结构存储预测模式4 1 图4 2 帧内预测解码模块结构4 3 图4 - 3i n t r a 4 x 4 预测模式计算逻辑4 4 图4 4 帧内像素预测模块结构。4 5 图4 5h y b r i dp r o c e s se l e m e n t 结构- 4 6 图4 6s e e dp r o c e s se l e m e n t 结构4 7 图5 - 1 采用移动窗管理参考帧,索引1 6 个参考帧需用1 7 个序号4 9 图5 2 帧间预测解码模块结构5 0 图5 3 六阶滤波器和双线性滤波器结构结构5 1 图5 4 色度宏块的插值运算单元5 2 图6 1 可用于垂直内插和帧内预测的运算单元5 4 图6 2 帧内4 x 4 子宏块预测模式捆绑存储方式5 5 图6 3 基于资源复用的帧内帧间模块的架构5 6 v 浙江大学硕士学位论文目录 表目录 表格2 - l 宏块分割方式对应的m b _ t y p e 值1 5 表格2 2 子宏块的分割方式对应的s u b _ r o bt y p e 值1 5 表格2 3i n t r a 4 x 4 的9 种预测模式2 l 表格2 4 帧内预测宏块的类型值对应的i n t r a l 6 x 1 6 预测模式2 2 表格2 5 色度宏块的四种预测模式2 2 表格4 1 帧内预测模块所需存储器。4 2 表格4 2 计算i n t r a l 6 x 1 6p l a n e 模式种子的过程4 5 表格4 3 计算i n t r a l 6 x 1 6p l a n e 模式种子的过程:4 6 表格5 1 帧间预测模块所需存储单元4 9 表格6 1 同一级流水线内的存储单元复用情况5 3 v i 浙江大学硕士学位论文浙江大学研究生学位论文独创性声明 浙江大学研究生学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经 发表或撰写过的研究成果,也不包含为获得逝鎏基堂或其他教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示谢意 学位论文作者签名:朴蜂老,殳 签字日期:年月 日 学位论文版权使用授权书 本学位论文作者完全了解逝姿盘堂有权保留并向国家有关部门或机 构送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权逝姿盘堂 可以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用 影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:嘻齐释春乳 签字日期:年月 日 导师签名:懈 签字日期:扣年歹月l 口日 浙江大学硕士学位论文致谢 致谢 两年半的研究生生活在紧张的学习和实验中悄悄流过,回顾这两年多来, 最应该感谢的就是我的导师王维维老师,感谢王老师对我的悉心指导和深切 关注王老师严谨的治学态度,谦逊的处事风格,一直是我学习的榜样。同 时,非常感谢严晓浪教授为我们提供了良好的学习科研环境,以及言传身教 的科研态度,这是我取得进步的物质基础和精神支柱。 我也要感谢葛海通老师多年来对我在学习和生活上的关心,以及在工程 项目上的悉心指导和预见性建议。还要感谢浙江大学超大规模集成电路设计 研究所的吴晓波、史峥、沈海斌、何乐年、王国雄、王维维、竺红卫、罗小 华、张培勇、赵梦恋等老师给予我的指导和帮助。 同时也要感谢黄凯和孟建熠两位位师兄在我研究生学习阶段对我的热情 指导和帮助,他们严谨的工作作风,渊博的科学知识,乐观的生活态度让我 十分敬佩,终身受益。感谢冯炯师兄在s o c 集成方面对我的指导和帮助。另 外,感谢参与s o c 集成工具开发和参与h 2 6 4 视频解码器开发的所有人员, 在完成艰巨任务的同时帮助我顺利h 2 6 4 视频解码器的设计研究工作还要 感谢在中天微系统公司一起学习和工作的同学和同事:黄凯、孟建熠、李春 强、丁永林、殷燎、刘兵、张欣、陈志坚、冯炯、彭信民、莫鹏飞、龚帅帅、 徐鸿明、傅可威、沙子岩、马德、李春树、胡东启、休斯文、刘智力、陈晨、 郑丹丹、黄雪维、卢永江、项晓燕、刘磊等。另外,还要再次感谢黄凯和孟 建熠师兄对我研究生论文相关研究工作的大力支持和无私帮助。 还要感谢浙江大学对我七年的培育,浙江大学的深厚文化底蕴是内心深 处的归宿,浙江大学的求是精神是陪伴左右的座右铭。 还要感谢我的父母二十多年的培养和关怀,你们一直以来对我的关心和 信任也是我积极进取的动力和信念。 最后由衷的感谢在求学生涯中所有帮助过我的老师、同学和朋友们。 林锋毅 2 0 1 0 1 2 4 浙江大学硕学位论文第1 章雏论 1 1 课题研究背景及意义 第1 章绪论 随着网络通信,数据存储及处理嚣计算能力的不断发展,近年来人们对观赏 高质量多媒体的需求迅速提升,视频以其直观,真实,感染力强等一系列优点, 成为多撵体领域新的应用需求热点由于视频豫的所包含的信息量极大,以 y u v4 :2 :0 的采样格式闭为铡,每个由2 x 2 个2 行2 列相邻的像素组成的宏像 素需要占用6 字节内存,则存储尺寸为7 2 0 x 4 8 0 像素的一帧圉像需要5 0 2 k b 内 存,以每秒2 5 桢的刷新率,存储1 小时该格式视频薄需要6 2 g b 内存1 张d v d 光盘存储容量为47 g b ,远远小干存储1 小时视频所需容量,所以视频琢必须经 过压缩之后才能做后续的传输或存储视频压缩技术的框图如下圉所示,在编码 端,原始视频数据经过编码压缩后传精或存储1 5 1 数据压缩方法有有损与无损两 种 4 1 相比无损压缩,有损压缩以损失围像质量为代价,获得更高的压缩率在 解码端,数据经过解码墨解压缩后显示视频压缩技术以编码和解码所需的计算 量为代价来换取传输带宽和存储介质与有限的带宽和存储介质相比,计算所需 代价要小很多,所以数据压缩对于视频应用意义重大 1 1 目镕# # i = 书 * 日 臣 刈 解码 图1 - 1 枧籁压缩技术框图 为了使解码器能正确解析出各个编码端所赴理的数据,视频编解码器通常是 由特定的组织发布文档规范来标准化自从1 9 9 3 年i t u 发布第一个视频压缩标 准h2 6 1 n 毗来,依次有以下视频压缩标准问世:m p e g 1v i d e o n ,m p e g - 2 v i d e o f l ,h2 6 3 8 1 ,m p e g m v i s u a l l 9 1 ,h 2 6 4 t 蛔和v c 1 j 其中m p e g 2 在广播 视频和d v d 领域取得巨大成功唧。近年来随着网络带宽,存储能力的大幅度提 高,数字电视和网络视频得到蓬勃发展,应用于更高画质的m p e g - 4 和h2 6 4 瓣胃 浙江大学硕士学位论文第1 章绪论 开始逐渐活跃。m p e g 4 脱离了视频图像的必须是矩形的限制,提供一个开放, 灵活的框架【1 2 】。相比之下,h 2 6 4 以压缩效率为目标,它以极高的数据压缩比率 而被普遍认为是最有影响力的行业标准。在同等图像质量的条件下,h 2 6 4 的压 缩率约是m p e g 4 的1 5 倍【1 3 1 h 2 6 4 获得高压缩率的代价是极高的运算量,对 编码器及解码器的计算能力提出了巨大的挑战。在嵌入式领域,目前的处理器计 算能力尚无法独立解码高清h 2 6 4 的码流【1 4 1 ,使得设计硬件加速单元来协助处理 器势在必行 1 2 国内外研究现状 目前h 2 6 4 解码器的实现方式主要有以下几种:纯软件解码、基于d s p 的 软件解码、基于多核处理器的软件解码及基于专用硬件加速器的解码。 1 2 1 纯软件解码 纯软件实现解码器,其通用性强,但对处理器的运算能力要求很高,目前主 要应用于p c 机视频编解码及其他多媒体应用的运算复杂度对p c 处理器的的 性能提出了新的要求,大部分现代p c 处理器都扩展了多媒体指令( 如i n t e lm m x 和s s e 技术【1 5 1 ) ,并采用了多线程技术1 叼来提高其多媒体处理能力【1 7 】 软件算法一般在t 在发布h 2 6 4 标准时推出的开源软件参考模型基础上 做优化,途径还包括:内存复用、c a v l c 熵解码的优化、像素内插算法优化、 去块滤波顺序优化等,优化结果比软件参考模型性比,速度提高1 0 倍左右【1 8 】 在此基础上,进一步采用多媒体指令优化,可以使速度提高3 倍以上【1 9 1 在论文 【1 钔中,经过针对p e n t i u m3 平台,经过s i m d 指令优化的软件算法在频率为 6 0 0 m 的情况下,解码尺寸为c i f ( 3 5 2 x 2 8 8 ) 的h 2 6 4 视频源,速度能达到每秒 6 0 帧左右 1 2 2 基于d s p 的软件解码 与p c 处理器的多媒体指令相比,d s p 具有更强的数学运算能力。以 c p u + d s p 的结构实现h 2 6 4 的解码器,将反量化,反变换,帧间预测补偿等需 要做大量数字信号处理的运算通过d s p 指令加速,与单纯采用c p u 相比,优化 效果非常显著【2 0 ,2 1 1 。与上节的方案相比,采用d s p 配合性能和功耗都较低的嵌 2 斯江大学硕士学位论文第1 章绪论 入式处理器的方案,在成本和功耗上具有明显的优势 1 2 3 基于多核处理器的软件解码 采用同构或异构多棱娃理嚣结构的h2 6 4 解码墨,通过任务划分实现并行解 码和数据划分实现并行处理,加速了整帧固像的处理速度基于任务划分的并行 解码将h2 6 4 的解码流程中个各个步骤按照运算量的太小,均衡地分配给几个处 理器,实现流水化处理而基于教据划分的并行解码将图像分割成相互独立的几 个部分,分别分配给几个处理墨解码,从而实现并行处理 2 2 1 如田1 2 所示, 左边为任务划分,右边为数据划分。采用任务划分的方案,一艘采用异构多核 c p u 结构,将计算量太的任务运行在s i m dc p u ,而以控制为主的任务则运行 在通用c p u 1 基于任务划分结构的解码墨,各个任务之间需要有大量的数据 通信采用数据划分的方案,一般呆用同构多棱c p u 结构每个c p u 运行相同 的程序各自解码一部分没有数据依赖关系的田像 m 篇黑赫一 圈圈 晡案端l 。 图1 - 2 任务捌分和鼓据划分 相比于任务划分的方案,数据划分方案主要具有以下两个优点: 1 由于某段图像的所有解码任务全部由扁一个c p u 处理,提供足够大小的 c a c h e ,保证数据的本地性,可大量减少存储器访问次数,提高性能 2 每个c p u 都运行相同的解码程序,可根据图像尺寸调节c p u 的教量而无需 更改解码程序,可拓展性强 教据划分方案在性能和可扩展性上与任务划分相比具有较大的优势,但是与 浙江大学砸学位论文第l 章绪论 m p e c 4 不同,h 2 6 4 定义的一帧图像可能只包含一个s l i c e 哪,导致s l i c e 级别的 数据划分方法不再适用【2 4 1 h2 6 4 的数据划分需要在宏块级别进行导致宏块之 阿依赖关系的原西有三种,分别是:帧内预测模式及像素值需要根据周遗宏块的 模式和像素进行解码、帧问预测的运动矢量值需要根据周连宏块的运动矢量进行 解码环路滤波需要根据周田像素值进行滤波楚理将图像分割成完全不存在以 上三种依赖关系的几个部分,难度较大所以有相关研究,在混合任务划分和数 据划分两种方案的基础上进行围像的并行解码【均分割方法如图1 3 所示由 于帧问补偿预测的运算量占总运算量的5 0 ,所以对其进行数据分割为了消除 计算运动矢量的敷据依赖关系,在计算帻j 可宏块的像素值之前,于p p e 中先行 计算所有的运动矢量 一 由 1 7 降嘲蚓圈汹 一曩 2 1 | _叫b ” 圈1 - 3 羹于混台任务划分与数据期分的方法 1 2 4 基于专用硬件加速器解码 基于专用硬件加速器的h2 6 4 解码器针对h2 6 4 特定算法,采用少量的硬件 代价完成其中复杂的运算任务,包括s l i c e 级别的熵解码,预测补偿,残差数据 的反量化和反变换,重建以及环路滤菠等任务阁。典型的基于专用加速器的 h2 6 4 解码器的结构如图1 4 所示c p u 负责解码序列参数图像参数等少量数 据,控制s l i c e 级别的解码进程而需要大量运算量的s l i c e 数据交由专用硬件解 码器处理,待处理完成后将解码后的s l i c e 数据从存储器中读出 浙江 学硕士学位论立第1 章绪论 圈1 一基于专用硬件加速器的h2 6 4 霹码器框圈 以上四种方案,前三种采用软件方式进行解码曲方案,可拓展到支持多视频 标准解码,而采用硬件加速器解码的方案,虽然灵活度低,但通过少量的面积和 功耗换取大量的运算负载,使系统的成本和功耗大大降低,对嵌入式系统芯片具 有很大的吸引力在针对特定视凝标准的应用领域,如视频监控,具有明显优势 基于专用硬件加速垂的h2 6 4 解码器主要研究方向在于:1 、提高吞吐量;2 减小面积;3 ,降低功耗本课题关注与专用硬件加速嚣的预测模块的设计与优 化,本节以下内客介绍了当前h 2 6 4 硬件加速单元的预测模块的研究现状 1 2 4 1 4 x 4 于块和宏块混合流水线 硬件加速器呆用流水线技术来提高解码器的吞吐量该流水线结构如图l 一5 所示流水线分为3 级:比特流解析级,预测重建级,环路谴波顿。比特流分析 级和预测重建级建立在4 x 4 子宏块级别,既符合h 2 6 4 以4 x 4 为单位进行子宏块 扫描的特点,又能减少比特流解析级和预测重建级之间的存储单元数量对于帧 内预测宏块,h2 6 4 规定环路滤波必须在该宏块的所有像素重建完成后才能进行, 所以环路滤波必须建立在宏块级别 * # i # * a * t t *# $ i t 4 ”鬯j 矗- 围1 基于4 x 4 子块和宏块混台的流水绕结构 为减少预剥值与残差值的临时存储单元和相加前的等待时间,通过四路并行 垦 一日日_11 匪| | 主 习卧 嚣 浙江大学项学位论文第1 章镕论 计算逻辑使帧内,帧间预测和残差值的吞吐量都为每周期4 个像素点。就按行或 列输出4 个像素点进行比较后,采用按列输出理由如下:对于每周期输出1 列 4 个像素情况,4 x 4 子宏块最后一列恰好是下一4 x 4 子宏块的左侧相邻点,帧内 预测解码第1 ,3 ,5 ,7 ,9 ,l l ,1 3 和1 5 个子宏块时,将避免从存储单元获取 左侧像素点的操作其次,按行输出时每4 x 4 子宏块解码完成后将不再连续,而 按列输出则每2 个4 x 4 子宏块解码完成后不再连续。在宏块m v 值一致的情况下, 帧间预测第1 ,3 ,5 ,7 ,9 ,1 1 ,1 3 和1 5 个子宏块时将避免从存储单元获取参 考像素 坩:m 擀褥 ,乩辅稍乖蕊 旧i 【l ll ,瞻i 前i :i | :| i i i 烹i 阿4 如。2 4 圈1 弗按照行和按照列列解码4 “子宏壤对比 1 2 4 2 4 x 4 子宏块重排序帻内预溯 h2 6 4 规定的于宏块解码顺序如图1 7 所示,由于帧内预测依赖于左侧子宏 块的像素值,导致在按4 x 4 子宏块为单位进行解码时,解码4 x 4 子宏块依赖于左 侧的4 x 4 子宏块解码完毕,引入了停顿,如图1 8 所示。 匪田 图1 7h2 6 4 标准的子宏块解码厢序 浙江大学硕士学位论文第1 章绪论 帧内预测 变换 重建 时间 图1 8 按照标准的4 x 4 解码时序 通过如图1 - 9 所示重新排序4 x 4 子宏块的解码顺序,可消除由于数据依赖导 致的停顿2 7 1 o l3 5 247 9 68l i 1 3 1 01 2 1 4 1 5 田田 图1 - g 重排序4 x 4 子宏块解码顺序 帧攀。二 图1 1 0 重排序后的4 x 4 解码时序 1 2 43 采用多级内存结构技术管理相邻像素 h 2 6 4 帧内预测解码操作依赖于相邻像素值,频繁的内存访问不仅产生大量 功耗,而且占用了系统总线时间,导致加剧总线通信堵塞。通过采用多级内存结 构管理技术,可避免以上问题口引如图1 1 1 所示,第一层是存储缓冲器,保存 整帧的上行,左列的像素值和预测模式。为减少片外内存的访问次数,该缓冲器 通过片上s r a m 实现。第二层是当前宏块相邻像素寄存器文件,保存的是宏块 级的相邻像素值,包括宏块左侧,上面,左上和右上的像素值。在i n t r a 4 x 4 预测 模式下,宏块内部的4 x 4 子宏块是根据相邻4 x 4 子宏块的重建像素值进行运算, 而非宏块的相邻像素值,所以在解码i n t r a 4 x 4 模式的宏块时,将经重建后的4 x 4 子宏块右侧及最后一行保存在n r f 中。通过引入该层内存结构有三个好处:1 、 7 浙江大学硕士学位论文 第1 章绪论 大大减少了访问片上s r a m 的次数,降低了功耗。2 、消除了片上s r a m 位宽 的限制,提高了性能。3 、由于s r a m 数据需经过地址周期才能读取,导致解码 下一4 x 4 子宏块延迟了一个周期。引入n f r 后,数据写入后可直接使用,消除 了流水线停顿。第三层是叶子寄存器组,存储了4 x 4 块内的预测结构。根据帧内 预测算法,有多种模式可根据左列的数据直接获取而避免了重复计算,降低了预 算单元的功耗,第四层是滑动窗,它从宏块级相邻像素值中筛选出当前4 x 4 子宏 块的相邻像素值。左侧像素和右侧像素分别使用一个滑动窗,降低了数据筛选的 复杂度。如图1 1 2 所示,第0 ,1 ,4 ,5 使用同一个列滑动窗口,而第0 ,2 ,8 , 1 0 使用同一个行滑动窗口。 图1 1 1 帧内预测多级内存结构 o 1 露 45 纭 2i367 8 l 91 21 3 荔 1 0 l l l1 41 5 p 豳豳圜豳 圈圈豳i 豳豳翻i 豳 图1 1 2 滑动窗示意图 1 2 44s e p a r a t e d1 - df i r 内插运算单元 导致帧间预测补偿占据h 2 6 4 解码5 0 以上的运算负荷的主要原因是内插 运算。同样在硬件加速器中,内插运算单元也是整个帧间预测补偿单元中最耗时 的模块。目前有1 d 结构的f i r 内插运算单元【2 9 1 ,2 - d 结构的f i r 内插运算单元 浙江大学硬学位论文第1 章绪论 p ”和解p a 哪e di - df i r 内插运算结构捌1 - d 结构硬件开销最小,但是运算 效率低内存访问频繁2 - d 结构延时太长,硬件开销大s e p a r a t e di - d 结构具 有2 - d 同样的性能,而面积只有2 - d 结构的7 0 s e p a r a t e d1 - d 结构如图1 1 3 所示 、 一 * 女女# * 口¥ n 静i 群 一 t 墨惑z 坦 n r h 1 f b 口f 上 卜川 t 斗、吝半夕“ m ! m 耳i 三m 显m 霉j ! g = = ,m 围1 - 1 3s e p a r a t e d1 - df i r 内插单元 1 2 4 5 帧问预测参考点重用 每个4 x 4 子宏块将根据m v 值参考9 x 9 矩阵像素,当水平相邻的4 x 4 块具有 相同的m v 值时,它们所参考的9 x 9 矩阵中有5 x 9 的像素重合;当垂直相邻的 4 x 4 块具有相同的m v 值时,它们所参考的9 曲矩阵中有9 x 5 的像素重合。如图 1 1 4 所示,1 3 x 9 的环形寄存器能保存相邻2 个4 “于宏块所需的参考像素在2 , 3 子宏块的m v 值也与0 ,1 相同时,0 ,1 子宏块的部分参考像素再次被重用为 2 ,3 于宏块的参考像素解码2 ,3 子宏块将只需获取1 3 x 4 个参考像素 解日j 如,1 块群码蕾2 ,3 壤 田1 1 4 帧问预测誊考点重用 浙江大学硕士学位论文第l 章绪论 1 2 4 6 根据参考像素坐标按莆获取参考像素 不同小数的坐标,内插的所依赖的像素值各不相同,如图1 1 5 所示。根据 坐标所需的像素值从内存中读取对应位置的像素而非将固定获取9 x 9 个参考像 素可节约5 0 阻上的内存访问次数划 蔓缸点d b i na b cf q i ,】l k 耳暑鼠群弼:嗣习书 强麓激瓣 黪嚣黪激潞 1 3 论文研究内容 围1 1 5 不同小数坐标内插所需搬素值 本课题着重对h2 6 4 硬件加速单元中的帧内预测和帧阔补偿模块的v s l i 实 现进行研究。作为h2 6 4 解码器中运算量最大的一部分,本文将研究实现一个高 性能,低功耗,低成本的h 2 6 4 预测补偿模块,应用于以嵌入式音视频为主要应 用的s o c 平台9 3 ,州h2 6 4 帻内预测及帧阿补偿解码需依赖于之前解码的参考 像素,涉及从存储器大量读取参考像素的操作本课题通过减少预测解码模块对 存储单元需求量柬降低系统成本,适过并行化运算和提升流水线效率来提高预测 解码模块的吞吐量,通过减少对存储单元的访问次鼓束降低系统功耗,通过重用 帧内预剥与帧问补偿两者硬件资源以减少芯片面积 研究内容包括以下部分: 1 帧内预测算法的v l s l 的实现方法 2 帧问补偿算法的v l s i 的实现方法 3帧内帧问预测补偿模块分时复用存储单元的研究 4 分时复用逻辑运算单元的研究 5分时复用寄存器的研究 蹊 嚣 溢露雾骜 浙江大学硕士学位论文第l 章绪论 6 该预测补偿单元与反量化反变换单元的并行运算的优化 这些研究内容始终以提高预测补偿单元的性能、减少硬件开销和降低单位像 素的功耗为目的,为实现高性能,低成本,低功耗的h 2 6 4 硬件解码单元打下坚 实基础。 1 4 论文组织结构 第一章绪论,介绍了课题的研究背景,意义以及当前国内外相关的研究进展。 第二章介绍h 2 6 4 视频解码的基本原理,重点分析了本文所关注的h 2 6 4 基 本档次的帧内和帧间的预测算法。 第三章研究并设计了视频解码加速器的流水线结构,包括解码器整体流水线 及帧内,帧间的内部流水线。 第四章根据第三章的帧内流水线,设计帧内预测模块架构。 第五章根据第三章的帧间流水线,设计帧间预测模块架构。 第六章基于分时复用硬件资源的思想,进一步优化帧内帧间架构,形成统一 的帧内帧闻预测解码器架构,并与相关研究进行对比。 第七章为对本研究课题的总结和对未来研究方向的展望 浙江大学硕士学位论文 第2 章h 2 6 4 视频解码的基本原理和算法 第2 章i - i 2 6 4 视频解码的基本原理和算法 2 1 i - i 2 6 4 视频解码介绍 h 2 6 4 视频标准规定了4 种视频压缩档次,分别为基本档次,主要档次,扩 展档次和高级档次。其中基本档次主要应用于视频会议,网络电视,无线通信等 实时视频通信领域,是本课题的研究目标。h 2 6 4 基本档次定义了两种图像格式: 帧和场。帧是一幅完整的图像,而场是帧根据隔行抽取所的,分为顶场和底场, 如图2 1 所示。经h 2 6 4 标准编码的图像被分成一到多个s l i c e ,每个s l i c e 以固 定大小的宏块大小按照光栅扫描顺序传输,如图2 2 所示。宏块的大小为1 6 x 1 6 像素。根据y c b c r 色彩空问的不同采样格式,一个宏块包含1 6 x 1 6 亮度块和两 个不同大小的色度块。h 2 6 4 基本档次规定当采样格式为4 :2 :0 时,色度块大 小为8 x 8 。宏块的信息包括用于预测的参数和用于重建所需的残差数据。根据预 测模式,宏块可分为i 宏块和p 宏块。i 宏块采用帧内预测,p 宏块采用帧间预 测【3 5 】。h 2 6 4 基本档次支持is l i c e 和ps l i c e 。is l i c e 只包含i 宏块,ps l i c e 可包 含i 宏块和p 宏块。 顶场 图2 - 1 图像被分为顶场和底场 h 2 6 4 解码流程如图2 3 所示h 2 6 4 编码的数据经过熵解码后分成残差数 据和预测参数,分别经过反量化反变换和预测补偿后相加,再经过环路滤波后输 出解码后的数据。帧内预测参考环路滤波前的重建像素值,而帧间参考经环路滤 波后的重建像素值。 1 2 浙江大学硕士学位论文第2 章h 2 6 4 视频解码的基本原理和算法 s c e , u 、 、 、 、- s l i :e 摹e1 s ii c e群2 帧间预测根据时间相似度,选择之前解码过的图片进行基于块的补偿。p 宏 块采用基于数结构的帧间预测。每个p 亮度宏块可以有4 种分割方法:1 个1 6 x 1 6 , 2 个1 6 x 8 ,2 个8 x 1 6 和4 个8 x 8 ,如图2 - 4 所示。对于被分割成4 个8 x 8 子宏块 的宏块,每一个8 x 8 子宏块还可以进一步分割成1 个8 x 8 ,2 个4 x 8 ,2 个8 x 4 和4 个4 x 4 子宏块分区,如图2 5 所示。通过这种树形的分区,一个宏块可以被 分成多种由不同大小组成的块,每一个块分别参考帧预测,如图2 - 6 所示。每个 分割块或分割子快依赖于一个运动向量和参考图像序号,该分割块根据对应的运 动向量从参考图像中获取

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论