(计算机系统结构专业论文)基于片上多核的h264编码的并行加速性研究.pdf_第1页
(计算机系统结构专业论文)基于片上多核的h264编码的并行加速性研究.pdf_第2页
(计算机系统结构专业论文)基于片上多核的h264编码的并行加速性研究.pdf_第3页
(计算机系统结构专业论文)基于片上多核的h264编码的并行加速性研究.pdf_第4页
(计算机系统结构专业论文)基于片上多核的h264编码的并行加速性研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机系统结构专业论文)基于片上多核的h264编码的并行加速性研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

二厂二, _ _ _ _。擎徘皂萃歌珥毒拦妤非戥申苇箪地毒¥拦掣俐谚革拱码毒拦移非勘锋固辫蕈兽专西( 辫鲤毕一) 氢斡罢勤甲。革殃科毒明千鞋、千簟l 阜鲋明士斟搿椠茸兽锋斟群卓:蕃塾茸现妊导0 l k 苏排显并:瑕学一tl( ,z ao 。f :)o 乒旱掌秽阳j l翼¥擘峰絮辜! 鼍:( 嘴g i i ) 1 耳骈料砚w 口f p ,司垆山x h 俨i ! b 硼丑加9 乎“毛拿,婴印当滞锋弘黟嘭哗炒而粤簟量黧梆社茸冬;,鲻当酬口斗、衄华杀筑刨口蛳磁搿掣口珥杀吓争+ 墼周+ 、衄幽赤口+ 斟略椠茸现目手f h s 七o ,“嘛曰毒! j 嚣i6 o o 心台杀罐劫誓矽稀萼姐种争4 乒0 岬皇t 嘶书, 一钓每丁吖乒节目睹茸砚冒哥晕勒萃拱珥毒干箪搬毒¥妊掣甘l 它日j 匆0 ,o 乙:专焉y 砰群矗娑助。最目勘s l j 网l 崖酬甭琶抱甲船盟¥一岳霭钵砰群章。犁群驰丁皋蕊晕刨y 章。兽口y 章甲凿g 碍业翠骁刨业圈啤墟一站甲朝茸识章磐獍钉狲士印茸砚珥杀聃革瞥:挺嚣茸砚取群翟斯背勤脚靼翠劬田刨晦乜杀杀¥妊阜觋并茸拱珥杀明y 卓:瓤准y 章。叫q x o p u y l 0 0 8 :1 9 1 o z e i i z o z # :d u q 。辚幽鼬5 l 圈辫耍忑鬻狲乒币茸砚。茸砚拦影刨钐舶i 睡聂蕾g 毋鸪暂础静静畦砸弭q 彭叫业即酬酶母哿茸砚珥奈妊汤非。唑砰鲫茸砚擎髯料灏砚并翠目哿y 卓抽刨。暂础冒哥如释* 鞑辆豳¥醉并较酶蛔辨醵茸砚珥杀缁醉y 劲冀狲乒印茸暂茸砚珥杀6 i j 幽聪犁群莓瞥穗狲印士印( 罂粜) n 士睁半赤国亡b l 睡抬x 擒冒粤瓣性国七b 叫弭杀斟群岩勤覃观弭杀( p ) o 茸砚珥杀朝妊汤萆誓珥责犁群勰旦辚叫杀y 妊阜犁磷¥单蝇晕辚辨诽( ) o 暂邵冯髫罐西妨蕖j 、骠懈茸弓茸观谣佝噼茸、澎弭誉日茸观滑馨丁圆凹辫艰罄乜;l 甭蛳掣辫希鬻蚓鲡盐膨s l :圈晕僻谣k 勤茸砚料杀明妊琳相迎料杀明日拇性哇杀磁k ( z ) 2 捌辫骠茸弓茸砚珥杀+ 迹刘杀y 拦掣y 孵矩覃砚珥杀再延擒拙哿碍士滞酉珊鹭翁由黪、由缮晰卷佝且辫奈( 到乒砷谣卓喈由骝撕群回) 茸观珥杀革爵犁群戮蟛巧某勘罪珥奈( t ) :佣碑时珊覃砚料赤脚f r l 幽弹犁酵餮砰勤特黟晕时杀y 妊阜。犁群蟊舄鲫晰唑l 睡逖) ;l l 茸砚珥嘉甭延地¥晕葫y 妊掣埔上弓罩y 卓。銎i 乒印缁畔谣章彗狮茸砚珥嘉鲫y 章莓鬻杀丫妊掣掣酶瞬某勘罪珥杀+ 逊、+ 刘鲫辫2 睡餮哗甚舄晰唑i 睡逖) ;| f 茸砚料杀甭琶地- i ¥赤y 妊单鬻诽肆碑弭茸觋茸观码杀嘉¥妊掣一二二;要落戬蒸糟置曩罄豸iiiljoi,鱼乳y釜氍鼍飞南开大学学位论文使用授权书根据南开大学关于研究生学位论文收藏和利用管理办法,我校的博士、硕士学位获得者均须向南开大学提交本人的学位论文纸质本及相应电子版。本人完全了解南开大学有关研究生学位论文收藏和利用的管理规定。南开大学拥有在著作权法规定范围内的学位论文使用权,即:( 1 ) 学位获得者必须按规定提交学位论文( 包括纸质印刷本及电子版) ,学校可以采用影印、缩印或其他复制手段保存研究生学位论文,并编入南开大学博硕士学位论文全文数据库;( 2 ) 为教学和科研目的,学校可以将公开的学位论文作为资料在图书馆等场所提供校内师生阅读,在校园网上提供论文目录检索、文摘以及论文全文浏览、下载等免费信息服务;( 3 ) 根据教育部有关规定,南开大学向教育部指定单位提交公开的学位论文;( 4 ) 学位论文作者授权学校向中国科技信息研究所和中国学术期刊( 光盘) 电子出版社提交规定范围的学位论文及其电子版并收入相应学位论文数据库,通过其相关网站对外进行信息服务。同时本人保留在其他媒体发表论文的权利。非公开学位论文,保密期限内不向外提交和提供服务,解密后提交和服务同公开论文。论文电子版提交至校图书馆网站:h t t p :h 2 0 2 1 1 3 2 0 1 6 1 :8 0 0 1 i n d e x h t m 。本人承诺:本人的学位论文是在南开大学学习期间创作完成的作品,并已通过论文答辩;提交的学位论文电子版与纸质本论文的内容一致,如因不同造成不良后果由本人自负。本人同意遵守上述规定。本授权书签署一式两份,由研究生院和图书馆留存。作者暨授权人签字:一童嗑燕2 0 1 0 年5 月3 1 日南开大学研究生学位论文作者信息论文题目基于片上多核的h 2 6 4 编码的并行加速性研究姓名章晓燕学号2 1 2 0 0 7 0 2 9 1答辩日期2 0 1 0 年5 月2 5 日论文类别博士口学历硕士口硕士专业学位口高校教师口同等学力硕士口院系所信息技术与科学学院专业计算机系统结构联系电话l3 9 2 0 3 6 3 2 0 4e m a i lz h a n g x y _ c h 16 3 t o m通信地址( 邮编) :天津市南开大学伯苓楼东区5 1 0 ( 3 0 0 0 7 1 )备注:是否批准为1 e 公开论文注:本授权书适用我校授予的所有博士、硕士的学位论文。由作者填写( 一式两份) 签字后交校图书馆,非公开学位论文须附南开大学研究生申请非公开学位论文审批表。南开大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研究工作所取得的研究成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名:童晓慈2 0 1 0 年5 月3 1 日非公开学位论文标注说明根据南开大学有关规定,非公开学位论文须经指导教师同意、作者本人申请和相关部门批准方能标注。未经批准的均为公开学位论文,公开学位论文本说明为空白。论文题目基于片上多核的h 2 6 4 编码的并行加速性研究申请密级口限制( 2 年)口秘密( l o 年)口机密( 2 0 年)保密期限2 0年月日至2 0年月日审批表编号批准日期2 0年月日限制2 年( 最长2 年,可少于2 年)秘密1 0 年( 最长5 年,可少于5 年)机密2 0 年( 最长1 0 年,可少于1 0 年)摘要摘要随着便携设备上高画质视频处理等需求的日益增长,高性能编解码等相关问题的研究逐渐成为热点。h 2 6 4 作为新一代视频编解码标准,具有高压缩率和高画质等特点,但同时它的计算复杂度也很高。在嵌入式领域,一般的处理平台的计算能力已经不能满足h 2 6 4 高计算复杂度的要求。当前多核技术成为下一代超级集成电路发展的发展趋势,于是,利用片上多核( m p s o c ) 平台来应对高复杂计算成为必然选择。本文在研究了现行的软件并行算法和硬件并行系统结构的基础上,在硬件结构方面,结合h 2 6 4 编码的需求,设计了单总线结构的m p s o c 。该系统的计算模块采用了4 个n i o si i 处理器核,核间交互采用互斥核、p i o 中断和条件同步相结合的模式,系统存储采用本地存储和共享存储相结合的混合模式,并在s t r a t i xi i 的f p g a 上对该结构进行了实现和功能验证;在软件算法方面,经过分析采用了基于片的并行方式来最少限度的减少处理器之间的数据依赖关系;并且由于h 2 6 4 标准中的基本档次适合本文面对的便携设备中的实时编码需求,在选择出x 2 6 4 编码器作为基础代码体系之后,对其进行相应的裁剪和优化。将修改后的编码器向所设计的m p s o c 上进行移植,移植的过程中引入了一个最小限度的嵌入式实时操作系统内核e r i k ae n t e r p r i s e ,用以管理中断、m u t e x 互斥核和共享数据等。对在该m p s o c 平台上的编码器性能进行测试,实验中采用了不同分辨率、不同图像特征的测试序列,证明了在多核平台上,通过合理的安排片数据的大小以保证处理器负载平衡,h 2 6 4 并行编码可以获得良好的加速效果。关键词2h 2 6 4 片上多核并行编码片n i o si it h e r ew a r et w oa s p e c t sw o r ko fh a r d w a r ea n ds o f t w a r ed o n ei nt h i sp a p e r i nt e r m so fh a r d w a r ea r c l l i t e c t u r e ,c o m b i n e d 晰t ht h er e q u i r e m e n to fh 2 6 4e n c o d i n g ,t h ep a p e rd e s i g n e das i n g l e b u sb a s e dm p s o cp r o t o t y p e i t sc a l c u l a t i n gm o d u l ei n t e g r a t e sf o u rp r o c e s s o r s t h ei n t e r a c t i o nb e t w e e np r o c e s s o r sa d o p t sam i x e dm o d eo fc o n d i t i o n a ls y n c h r o n i z a t i o n , i n t e r r u p ta n dm u t e x t h es y s t e mm e m o 巧u s e sam i x e dm o d eo fl o c a ls t o r a g ea n dg l o b a ls h a r e ds t o r a g e t h e nt h ep r o t o t y p ew a si m p l e m e n t e do nt h ea l t e r an i o sd e v e l o p m e n tb o a r d i nt e r m so fs o f t w a r ea l g o r i t h m ,t h ep a p e ra d o p t e dt h es l i c e - b a s e dp a r a l l e le n c o d i n gt oe x t r e m e l yr e d u c et h ed a t ad e p e n d e n c yb e t w e e np r o c e s s o r s w h a t sm o r e ,a st h eb a s e l i n ep r o f i l eo ft h eh 2 6 4s t a n d a r df i t st h ep o t a b l ed e v i c e s r e q u i r e m e n t si nr e a l t i m ee n c o d i n g ,a f t e rs e l e c t i n gt h ex 2 6 4e n c o d e r 鼬t h eb a s i ce n c o d e r , t h ep a p e rm a d et h ec o r r e s p o n d i n gc u t t i n ga n do p t i m i z a t i o n t h e nt h em o d i f i e de n c o d e rw a st r a n s p l a n t e dt ot h em p s o c a n da l s oam i n i m a le m b e d d e dr t o sk e r n e lw h i c hi sc a l l e de r i k ae n t e r p r i s ew a si n t r o d u c e di nt h ep r o c e s so ft r a n s p l a n t a t i o n i tm a k e se a s yt om a n a g et h ei n t e r r u p t ,m u t e xa n dt h es h a r e dd a t a f i n a l l y , e x p e r i m e n t si nw h i c ht h et e s ts e q u e n c e sh a v ed i f f e r e n td p ia n dd i f f e r e n ti m a g ef e a t u r e sw a r ed e s i g n e dt o t e s tt h ep a r a l l e le n c o d e r sp e r f o r m a n c e i nt h ee x p e r i m e n t s ,t h r o u g hb a l a n c i n gt h ep r o c e s s o r sl o a db ya d j u s t i n gt h es i z eo ft h es l i c e ,t h es l i c e - b a s e dh 2 6 4p a r a l l e le n c o d e rg o tm u c hs p e e d u pi m p r o v e m e n t k e yw o r d s :h 2 6 4m p s o cp a r a l l e le n c o d i n gs l i c en i o si i11:;! ;第二章h 2 6 4 编码标准及并行化分析6第一节h 2 6 4 编码器的系统框架6第二节h 2 6 4 编码的核心技术。72 2 1 预测编码72 2 2 变换编码,量化和滤波。92 2 3 熵编码10第三节h 2 6 4 的主要特征1 1第四节h 2 6 4 并行化分析132 4 1 并行算法选择j 。1 32 4 2 基于数据并行的h 2 6 4 编码分析1 4第三章基于f p g a 的m p s o c 设计18第一节m p s o c 开发环境和流程l83 1 1f p g a 开发板简介。1 83 1 2开发环境和流程1 9第二节m p s o c 的核心组件2li t i目录3 2 1n i o s1 1 微处理器。2l3 2 2a v a l o n 总线2 3第三节并行体系结构2 3第四节m p s o c 原型系统的设计2 53 4 1 总体设计2 53 4 2 存储器功能模块2 63 4 3 核间通信功能模块2 73 4 4 其它功能模块2 93 4 5 系统生成。3 03 4 6 系统的启动和通讯3 2第四章基于m p s o c 的h 2 6 4 并行编码3 4第一节编码器的选择3 4第二节x 2 6 4 编码器的优化3 64 2 1 硬件平台优化3 64 2 2 项目级优化3 64 2 3 代码级优化3 7第三节x 2 6 4 编码器在m p s o c 上的并行实现3 84 3 1x 2 6 4 编码器的移植。3 84 3 2x 2 6 4 编码器的并行实现。4 0第五章实验与评价4 3第一节性能评价指标4 3第二节实验条件4 4第三节实验结果分析4 6第六章结论5 0参考文献5 2i v目录致谢5 4个人简介与研究成果5 5v第一章引言第一章引言第一节研究背景网络通信技术和多媒体技术的发展,视频会议、可视电话、控等视频实时应用场合对实时视频处理提出了要求,各种便频处理的要求也日益增长。h 2 6 4 a v c t l j 作为国际数字视频压为重要的行业标准。正是因为其良好的压缩性能和网络友好目前视频存储和图像通信研究领域的一个热点问题。的优秀性能的是计算复杂度的提高,在一些实时视频处理场合,尤其是面对当前计算能力较低的嵌入式平台时,优点并不能有效体现。由于传统的单处理器已渐渐不能负荷越来越庞大的计算要求,利用多核技术来并行解决问题成为有效途径。利用多核并行计算可以降低单个问题的求解时间,增加问题求解的规模,提高问题求解精度。于是,对于视频技术在嵌入式环境上的应用,利用h 2 6 4 并行编解码技术以及片上多核( m p s o c ,m u l t i p r o c e s s o rs y s t e mo nc h i p ) 技术来解决人们在视频方面日益增长的要求,已成为了一种最有效的途径。为了充分利用当前片上多核的计算能力来提高h 2 6 4 的编码效率,本文通过硬件结构和软件算法协同优化的方式,在f p g a 上设计实现了单总线结构m p s o c ,选择合适的h 2 6 4 编码体系进行并行编码改造,将其成功移植到m p s o c平台上,获得了良好的编码加速效果,证明在嵌入式环境下,利用m p s o c 可以实现h 2 6 4 的高速编码。第二节视频编码标准的发展和研究现状视频数字化后信息量大,而网络带宽小,发展视频信息的压缩编码技术正是解决该矛盾的关键。为了实现各种网络和多媒体系统的对接,建立统一的国际视频压缩编码标准成为必要选择。以预测编码、变换编码和统计编码三大经典编码技术为基础,经过国际标准化组织( i s o ) 、国际电信联盟( i t u t ) 等几大国际标准化组织的推动,先后形成了多个系列的针对不同类型应用的视频压第一章引言缩编码标准,其中最具代表性的是i t u t 推出的h 2 6 x 系列视频编码标准和i s o i e c 推出的m p e g 系列视频压缩编码标准,以及二者联合制定的h 2 6 4 a v c标准,其发展历程大致如图1 1 所示【。1 9 8 41 9 8 6 1 9 8 81 9 9 01 9 9 2 1 9 9 41 9 9 61 9 9 8 2 0 0 02 0 0 22 0 0 4图1 1 视频压缩编码标准的发展h 2 6 x 中第一个标准h 2 6 1 的应用目的是视频会议、可视电话,码率为p x 6 4 k b i t s ( p 为1 3 0 ) ,覆盖了当时整个i s d n 信道速率。为了提高h 2 6 1 图像质量和传输帧频,i t u t 推出了h 2 6 3 ,在技术上对h 2 6 1 进行改进和扩充,支持码率小于6 4 k b i t s 的应用。随后的h 2 6 3 + 增加了支持的视频源格式,增强运动估计和v c l 编码等,进一步提高了压缩编码性能。h 2 6 3 + + 在此基础上新增加了3 个高级模式。h 2 6 x 系列标准版本的不断升级,使得应用范围更加宽广,压缩效率、抗误码能力以及压缩图像的主观质量等均得到提高。m p e g 1 是第一个m p g e 标准,用于高至1 5 m b i t s 的数字存储媒体和相应的视频编码,主要应用于v c d 存储和播放。m p e g 2 也相当于h 2 6 2 ,向下兼容m p e g 1 ,对其出许多重大改进,支持高至1 0 m b i 以的码率,应用于数字电视和高清晰度电视广播,以及d v d 存储和播放。m p e g - 4 目标是对交互式多媒体应用提高支持,应用面非常广泛,尤其在低码率多媒体交互系统方面。视频编码标准从h 2 6 x 到m p e g 系列,都有一个共同的不断追求的目标,即在尽可能大的压缩比下获得尽可能好的图像质量。在1 9 9 8 年,i t u t 和i s o i e c 联手制定了h 2 6 4 ,即m p e g 4 的p a r t l 0 。与其它h 2 6 x 和m p e g 标准相比,h 2 6 4 有很大改进,基于传统的混合编码框架,在编码上采用了分层处理,具体编码技术中对帧内预测、运动补偿、整数变换、滤波等采用多种新技术。这些措施使得在同等的图像质量条件下,h 2 6 4 的数据压缩率是h 2 6 3 和m p e g 2 的2 倍,是m p e g 4 的1 5 倍,获得了很好的效果【i 】。一一2第一章引言作为新的视频编码标准,h 2 6 4 具有低码率、高质量、高抗误码能力、网络适应性强等优点,能够很好地适应i p 和移动网络的应用。所以在高质量实时传输领域,h 2 6 4 具有强大的优势。但是,h 2 6 4 的优秀编码性能导致了计算复杂度的提高,其编码复杂度大约是h 2 6 3 的3 倍,解码复杂度相当于h 2 6 3 的2倍。h 2 6 4 编码标准草案在2 0 0 3 年正式颁布,但迄今为止在实际中仍是应用不足,尤其是在便携设备中的应用。究其原因是其为了增强压缩比和压缩图像的质量而引起的计算复杂度的大幅增长。为此,国内外学术界和产业界纷纷投入力量对这一新的视频编码标准进行开发应用研究。对h 2 6 4 编码方面的研究大致分两个方面,一方面是算法级改进,针对非常复杂的具体编码算法实现,用相应的快速算法来替代,或者对其进行优化,包括运动估计方面的分数像素估计【5 】,帧内预测模式选择算法6 】【7 】,帧间预测模式选择算法【8 】多参考帧的选取【8 1 0 0 1 等。另一方面是试图对h 2 6 4 编码采用并行的手段,主要有针对p c 多核平台的线程级并行【i 和工作站集群并行【1 2 1 。二者的研究方式的最终目的都是为了降低计算复杂度,缩短编码时间,提升编码性能。第三节m p s o c 的发展趋势和研究现状随着视频编码标准的升级,其高复杂度的视频处理冲击着处理器的计算能力。从近几十年来处理器的发展可知,处理器性能的提升主要基于两个方面的原因:半导体工艺的进步和体系结构的发展,二者相互促进,每次半导体工艺的进步都刺激着体系结构的发展,而体系结构的进步又对半导体技术提出新的要求。从2 0 世纪7 0 年代起,处理器集成晶体管的数量越来越多,主频越来越高,性能越来越强大,处理器的发展基本应验了摩尔定律【2 l 。而到了2 l 世纪,摩尔定律的局限性开始体现:处理器的频率已超过2 g ;集成的晶体管数量有数亿个;主流处理器制造技术为4 5 纳米,正在向3 2 纳米进步,半导体工艺即将到达物理极限,期待新的质的突破,此时的计算机平台性能的提升开始重点依赖体系结构的发展。由于工艺、能耗、存储器和系统软件的限制,单处理器芯片已不能满足需要,多核处理器平台开始受到重视。近2 0 年来,数字集成电路经历着从传统专用集成电路( a s i c ) 到单处理器系统芯片( s o c ,s y s t e mo nc h i p ) ,再3第一章引言到如今正兴行的多处理器系统芯片m p s o c 3 】的过程。为了满足复杂应用的需求,m p s o c ( m u l t i p r o c e s s o rs o c ,片上多核系统) 已成为下一代超大规模集成电路发展的导向和热点,如图1 2 所示。m p s o c 是指将多个计算内核集成在一个单芯片的s o c 4 ,由计算节点和通讯架构组成。计算机节点可以是微处理器或s o c ,也可以是任意功能的i p ,负责计算任务;通讯架构负责各个计算节点之间的通信,可以是总线,也可以是片上互联网络。从某个角度来看,可以把m p s o c 看作单芯片上的并行计算机,m p s o c 设计工作中的研究人员可以借鉴现有的并行机体系结构研究中的理论和方法,这在很大程度减轻了工作的难度。ia s i ce r a ;s o ce r ai 。- _ _ _ - - _ - _ l _ - _ _ - l ,b :l l _ _ _ _ _ - _ _ _ - - - l _ - _ _ _ l _ _ - _ _ - _ _ _ _ _ _ _ - _ - _ _ _ _ - _ _ _ _ _ _ - - - _ _ _ - _ _ - _ - _ _ _ _ _ _ _ _ _ _ - _ - _ 。图1 2 数字集成电路近2 0 年发展趋势m p s o c 继承了s o c 的设计理念,支持高效率可重用设计方法学,它的设计实现从确定系统功能开始,再进行软、硬件划分,最终协同完成设计。现有的s o c 和i p 核完全可以作为m p s o c 的功能模块参与可重用设计,允许设计人员根据具体的应用目标任务来定制微处理器、i p 核、存储器等,本文采用f p g a的方法,可以在较短时间内完成片上系统的设计,加以验证。近几年随着m p s o c 概念的兴起,产业界已有成型的m p s o c 平台,分别有a r m 的m p c o r e in 3 j ,t i 的o m a p m j 等,为高性能计算提供了有利条件。由于m p s o c 的研究正在起步阶段,编程模型的存在限制【3 l ,并且应用开发工具的还不成剿”j ,还未能开发出更优性能的m p s o c 和方便高效的利用该平台【4 】 这些正是学术界研究的主要集中点。4第一章引言第四节本文内容结构目前便携设备正迫切的需求高性能的视频处理能力,而h 2 6 4 协议以其诸多明显优势成为视频压缩的未来主流标准。但是,h 2 6 4 具有的较高的计算复杂度,这与当前便携设备的较低计算能力形成了突出的矛盾。为解决上述矛盾,进一步达到较高性能的h 2 6 4 实时编解码,本文提出了基于多核结构的h 2 6 4 并行化方案,实现多核结构上的高速编码。为了便于描述整个研究工作,本文的内容按以下结构组织:第一章介绍了国际编码标准的发展历程,对m p s o c 作为下一代超大规模集成电路的发展趋势进行了阐述,并概括了国内外当前的研究状况,对本文的整体研究工作做了概述。第二章详细介绍了h 2 6 4 编码标准,包括编码器的整个工作流程框图和涉及到的核心算法,以及优于其它编码标准的特征技术。基于h 2 6 4 的句法层次结构重点对其进行了数据并行的研究,分析每种并行算法的优劣,结合m p s o c 的结构特点,得出基于片级数据进行并行的结论。第三章介绍了研究工作中m p s o c 的设计环境、流程和设计中需要用到的核心组件;基于a l t e r a n i o si i 的开发板,设计了单总线结构的m p s o c ,并对其进行实现和验证。第四章选择了x 2 6 4 编码器作为研究工作的基础代码,对其进行裁剪和优化,结合第三章实现的m p s o c 结构的特点进行改造和移植。基于编码实验数据进行分析得出,采用片上多核的平台对h 2 6 4 编码进行基于片级的并行计算可以获得良好的编码加速效果。第五章对本文的工作进行了总结,并对研究工作的前景和研究方向进行了介绍。5仅具景广技术到的h 2 6 4 标准并不是明确规定一个编解码器具体如何实现,而是规定了编码之后视频比特流的句法,和该比特流的解码方法,使得各个厂商的编解码器在此框架下应能够互通,在实现上具有较大的灵活性,彼此良性竞争。h 2 6 4 编码器的功能组成见图2 1 所示,编码器包括两个数据流通路【i 们,一个“前向 通路( 从左到右) 和一个“重建”的通路( 从右到左) 。下面简单地描述h 2 6 4 编码器是为了有一个总的了解,术语“宏块 用于表示视频中1 6 1 6 的亮度样点和相应的色度样点。当i ;订d p 贞f n图2 1t t 2 6 4 编码系统框图6第二章h 2 6 4 编码标准及并行化分析1 编码器( 前向通路)输入的当前图像e 以宏块为单位被编码器处理。在预测编码中,如果采用帧内预测编码模式,其预测值p r e d ( 图2 1 中标注为p ) 由当| j i 图像中前面已编码、解码、重建的宏块产生;如果采用帧间预测编码模式,预测值p r e d 由一个或几个参考图像中经运动补偿后得出。在编码框图中,参考图像表示为以前编码的图像1 ,为了提高预测精度,从而提高压缩比,实际对于每个宏块的预测参考图像( 帧间模式) 可以从过去或将来( 显示次序) 已经编码、重建和滤波的图像中选择。从当i 块减去预测的p r e d 产生一个残差块见,经块变换、量化后产生一组量化后的变换系数x ,再经熵编码,熵编码系数与解码所需的其他辅助信息( 如预测模式,量化参数,运动矢量等) 一起组成一个压缩后的码流,经n a l 供传输和存储。2 编码器( 重建的通路)编码器中重建图像是为了提供下一帧图像预测用的参考图像。将残差图像经反量化、反变换后得到的砭与预测值p r e d 相加,得到重建的e ( 表示没有进行滤波) 。为了减少块失真,提高参考帧的图像质量,从而提高压缩图像性能,编码器中设置了一个环路滤波器,滤波后的输出e 即重建图像,可用作参考图像。2 2 1预测编码第二节h 2 6 4 编码的核心技术h 2 6 4 中的预测编码技术主要体现在帧内预测编码和帧内预测编码两个方面。1 帧内预测编码帧内预测编码f 1 7 l 主要是利用图像内空间相关性,消除视频图像的空间冗余。预测块p 是基于已编码重建块和当前块形成的。h 2 6 4 预测编码模式中,对于亮度像素可以基于4 x 4 和1 6 1 6 两种不同的尺寸进行。按照预测方向的不同,对4 x4 亮度块有9 种预测模式,如2 2 左图所示( 除模式2 为d c 预测外) 适用于带有大量细节的图像编码;对1 6 1 6 亮度块有4 种预测模式,适用于存在7第二章h 2 6 4 编码标准及并行化分析大面积缓慢变化的图像。由于色度信号通常在很大范围内都很平滑,故相应的8x 8 色度块只有的4 种预测模式,与1 6 1 6 亮度块相同,只是模式编号稍有不同,两种色度成分通常采用同一种预测模式。编码时选择使预测块和编码块之间差异最小( s a e ) 的预测模式。i|、3 | | 彦、形心p、486图2 2h 2 6 4 中4 4 亮度块帧内预测以4 x 4 块亮度块为例,如2 2 右图,其中小写字母a p 为当前需要预测的色素,亮度块上方和左方像素a q 为已编码和重建的像素,作为预测参考像素。图中所示的为模式l ,a = b = c = d = i 。需要注意的是,像素a q 如果位于图像外部或者编码次序上之后于当前待编码像素,则相应的预测模式无效。此外,还有一种帧内编码模式称为ip c m 模式,编码器直接传输图像像素值,无需经过预测和变换,特别适用于内容不规则或者量化参数非常低的图像。2 帧间预测编码要对视频图像进行高倍的压缩,除了利用图像帧内的空间相关性进行帧内压缩外,更用充分利用帧间的时间相关性,利用先前已编码的一帧或多帧的图像进行帧间预测i ln 。h 2 6 4 标准中采用树状结构的运动预测,见图2 3 。每个宏块( 1 6 1 6 亮度像素) 有4 种分割:1 6x1 6 ,1 6 x8 ,8 1 6 或8 8 块,如果选择8x8 分割,还可以继续进行亚分割:8 x8 ,8 4 ,4 8 或4 x 4 块。这些子分割和亚分割可以组合出许多种宏块的分割方法,这种分割下进行的运动补偿称为树状结构运动补偿。8第二章h 2 6 4 编码标准及并行化分析图2 3 树状结构运动补偿结合多参考帧对每个分割块进行独立的运动估计,可采取的运动估计算法有全搜索( h e x ) ,菱形搜索( d 认) ,正六边形搜索( h e x ) 或可变半径六边形搜索( e s a ) 等,经由运动搜索算法得出运动矢量( m v ) ,再进行运动补偿。此外,h 2 6 4 中允许使用一种ps k i p 跳跃块,该类型块本身不携带任何数据,既不传输量化后的预测误差,也不传送运动矢量以及其他参数,解码器通过周围已重建的宏块的数据来恢复,适合于图像平坦的区域。由于每个分割的尺寸和m v 必须被编码、传输,大分割尺寸的m v 和尺寸信息只需少量的比特,但运动补偿残差在多细节区域能量很高,故适合平坦区域;小分割尺寸运动补偿残差能量低,但须较多的比特来表示m v 和尺寸信息,适合多细节区域。编码器为编码帧的每个部分选择了最佳划分尺寸,使传输信息量最少。对于宏块中的色度成分,分割模式和亮度一样,只是尺寸减半,运动矢量也必须取亮度运动矢量分量的一半。运动估计和补偿是视频压缩的核心算法,占据了绝大部分的编码时间。2 2 2 变换编码,量化和滤波绝大部分视频图像都有一个特征:平坦区域和内容缓慢变化区域占据图像的大部分,细节区域和内容突变区域占小部分。为了去除图像信号中的相关性和减小图像编码的动态范围,通常采用变换编码和量化。h 2 6 4 主要采用4 x 4 整数d c t ( 离散余弦变换) 对帧内或帧间预测的残差进行变化编码【l7 1 ,一方面是为了配合帧内预测编码中的最小预测单元尺寸,以及帧间预测编码中所采用的变尺寸匹配算法:另一方面,这种变换算法是以整数为基础,只需加法和移位操作,运算速度快,且在反变化中不会出现失配问9第二章h 2 6 4 编码标准及并行化分析题。在整数变换之后,h 2 6 4 对变换残差系数采用分级量化模式1 1 9 1 ,量化步长既。共分为5 2 个等级,由量化参数q p 控制。对于色度分量,为了避免视觉上的明显变化,一般将q p 限定为亮度值的8 0 。这种精细的量化步长的选择方式,可保证重建图像的质量平稳。在h 2 6 4 编码的实际量化过程中,将变换过程和量化过程相结合,可以进一步减少运算复杂度,从而提高该编码环节的整体性能。为了重建用于下一步预测的参考图像,对变换、量化之后的残差图像进行反量化和反变换,由于整个编码过程是基于像素块,此时图像会出现方块效应。为了提高图像的质量,h 2 6 4 标准中引入了环路滤波器【2 们,当块边界上两边差较小时,使用滤波器将差别“平滑 掉,若边界图像特征明显则不使用滤波器。这样既减弱了块效应的影响又避免了滤掉图像本身的内容,同时在维持主观质量的情况下使码率降低了5 - - - , 1 0 1 1 8 】。2 2 3 熵编码熵编码是无损压缩编码方法【l7 1 ,建立在随机过程的统计特性基础上,它生成的码流可以无失真的解码出原数据。h 2 6 4 使用两种熵编码技术对变换和量化后的残差图像进行统计压缩。一种是基于上下文自适应的变长编码( c a v l c ) ,v l c 的基本思想是:对出现概率大的符号分配短字长的二进制码,对出现概率小的符号分配长字长的二进制码,以此得到平均码长最短的码流。h 2 6 4 编码中c a v l c 能根据已经传输的残差图像数据的统计规律,在几个不同的既定码表之间进行自适应切换,使其能够更好地适应其后传输数据的统计规律,以此提高变字长编码的压缩效率。另一种是基于上下文的自适应二进制算术编码模式( c a b a c ) 。b a c 的思想是用o 到1 的区间上的一个浮点数来表示一个字符输入流,本质上是为整个输入流分配一个码字,而不是给输入流中的每个字符分别指定码字。在相同的重建图像质量的前提下,c a b a c 算法能够比c a v l c 算法降低1 0 , - - - , 1 5 的码率【i j ,但相应的计算复杂度也会随之增加。1 0制信息一起作为n a l 的输入数据,n a l 负责按照网络所要求的方式对数据进行打包和传送,将头部信息和数据映射到传输协议层上,这样可以减少在分组交换传输中组帧和重同步所需要的资源开销。图2 4h 2 6 4 的分层处理结构编码器输出的比特码流中,每个比特都属于某个句法元素,在h 2 6 4 定义的码流中,句法元素被组织成序列、图像、片、宏块、自宏块五个层次,如图2 5所示,一个视频图像可编码成一个或多个片,每片包含整数个宏块。h 2 6 4 支持5 种片编码类型:i 片:帧内编码片,所有的宏块不参考视频序列中其他的图像,利用图像自身的相关性进行编码。p 片:前向预测片,p 片的宏块除了帧内编码外,。部分宏块可以利用帧问预第二章h 2 6 4 编码标准及并行化分析测,参考过去已编码的图像用运动补偿预测技术进行编码。b 片:双向预测片,b 片在预测时,既可使用前一个图像作参照,也可使用下一个图像作参照或同时使用前后两个图像作为参照图像( 双向预测) ,压缩率最高。以上三种与以前的标准相似,主要是参考图像不同,其余两种是新类型s p和s i 片,用于在不同码率编码码流之间进行切换。视频序列图2 5 数据分层结构图h 2 6 4 定义了基本、主要、扩展三种档次( p r o f i l e ) 。三个档次分别应对不同场合的应用,各自支持一组特定的编码功能,见表2 1 。表2 1 三种档次的部分功能比较功能基本档次主要档次扩展档次i 片、p 片支持支持支持c a v l c支持支持支持片组和a s o支持不支持支持冗余片支持不支持支持b 片不支持支持支持加权预测不支持支持支持c a b a c不支持支持不支持s i 和s p 片不支持不支持支持数据分割不支持不支持支持基本档次通过i 片和p 片进行帧内和帧问编码,支持基于上下文自适应变长熵编码( c a v l c ) ,无需知道当前帧之后视频的情况,符合实时编码的特点,较其他档次更适合便携式视频通信设备的需求。2 预测编码中的改进在以往的视频编解码标准中,预测编码都是采用帧间预测的方式,只采用1 2信预多偿匹进l缓与以往的视频编码标准相似,h 2 6 4 对残差进行基于块的变换编码,但变换的最小单位是4 x 4 块,而不是往常用的8 x 8 块,并且是可逆的整数操作。由于变换块尺寸的缩小,使运动物体的划分更精确,变换计算量较小。为了使小尺寸块的变换方式对图像中较大面积的平滑区域不产生块之间的灰度差异,h 2 6 4 中可选择对亮度和色度数据的4 x 4 块的d c 系数进行第二次变换。h 2 6 4 标准中的熵编码除了往常的c a v l c ,添加了基于上下文的自适应二进制算术编码模式( c a b a c ) ,可以给每个符号的字母分配非整数的比特,使得以更接近它的信息熵的形式被编码,获得更高的压缩率。2 4 1 并行算法选择第四节h 2 6 4 并行化分析从软件角度考虑对h 2 6 4 编码进行并行计算,根本上分为两种途径:任务并行和数据并行。任务并行是指将一个大任务分割成若干个小任务,分别分配到不同的处理单元进行处理,小任务彼此之间可能存在依赖关系,也可能彼此独立,最典型的任务并行是流水线技术。h 2 6 4 编码流程基本为:预测( 帧间或帧内) ,整数变换,量化,熵编码。如果对其进行任务并行,可以将流程的各个阶段划分在不同的处理器上执行。如果考虑对h 。2 6 4 编码进行数据并行,则将原始1 3第二章h 2 6 4 编码标准及并行化分析视频数据分发给处理器进行并行编码,编码完成后再对编码数据进行收集封装。任务并行和数据并行两种方法都可以实现对h 2 6 4 的并行编码,但考虑m p s o c 体系结构的限制和综合编码性能,数据并行的方式更适合。第一,h 2 6 4面向的是m p s o c 平台,任务并行的方式不利于多核结构的扩展。第二,各阶段任务的执行时间长短不一,其中预测编码阶段占据了编码时间的8 0 以上,变换、量化和熵编码只占据少量时间,任务并行会导致处理器之间负载严重不均,出现较多空闲等待的情况。数据并行可通过对数据划分的大小来控制各个处理器的负载。第三,各阶段任务相互数据依赖,处理器之间频繁通信,形成巨大的通信开销,将严重影响并行编码的性能。2 4 2 基于数据并行的h 2 6 4 编码分析h 2 6 4 的语法结构将数据划分为序列、图像、片、宏块、子宏块五个层次,如图2 5 所示,可被选择作为数据并行算法的基本调度单元【1 2 1 。1 序列级并行图2 6 中示意的是以序列为调度单元的并行编码。序列彼此之间相对独立,数据依赖关系较小,极大程度的减少了通信开销,具有并行优势,但其缺点也比较明显。其并行粒度较大,一旦序列间视频的复杂程度发生变化,会造成各处理器负载不平衡。且对各个处理器要求较大缓存空间,以一段实时采样频率为3 0 帧秒的视频为例,将一秒3 0 帧的视频平均分成n 个序列分给n 个处理器进行并行编码,需要在编码开始前缓存3 0 帧图像,并不适于存储资源紧张的嵌入式平台。1 42 图像级并行h 2 6 4 的基本档次只支持i 片和p 片,如图2 7 所示,视频序列为i p p p ,将各帧图像分配给每个处理器进行编码,在编码开始前只需要每个处理器各自存储一帧图像,存储量要求较小。但序列中的一帧图像基本上必须以前面已编码图像帧为参考,如果以图像为独立编码单元,势必会造成处理器之间的相互等待,并且增加处理器之间的通信开销。圆团回圆i图2 7 图像级并行3 宏块和子宏块级并行宏块和比宏块更细粒度上的并行编码中,处理器之间的通信次数会大幅度1 5土孚丽一卤j 圈一2 一一一一土璐工兰壶一丽工坚甲堕一o 一一一一堕j|l;i囤囤昌第二章h 2 6 4 编码标准及并行化分析增加,因为宏块以及子宏块的预测编码需要大量参考周围已编码的宏块像素,以图2 8 为例,宏块( 1 ,2 ) 的编码需要参考( o ,1 ) 、( o ,2 ) 、( 0 ,3 ) 和( 1 ,1 ) 4 个宏块,所以必须在这4 个宏块编码完成后,才能开始宏块( 1 ,2 ) 。首先,这会造成处理器之间较高的通信开销。其次,由于宏块编码之间势必存在相互依赖和等待,会造成处理器大量的空闲等待,浪费计算资源。最后,这种方式难以进行调度管理。这种数据并行方式严重影响系统性能,有时甚至会低于单处理器的性能。( o ,0 )( o 义( 0 1 2 )夕3 )_vj【笆叉( 1 ,0 )( 1 ,峥k i ,2 )( 1 ,3 )( 2 ,0 )( 2 ,1 )( 2 ,2 )( 2 ,3 )( 3 ,o )( 3 ,1 )( 3 ,2 )( 3 ,3 )图2 8 宏块级并行4 片级并行一个视频图像中分成若干个片,片在h 2 6 4 中是相对独立的数据划分,设片的目的是为了限制误码的扩散和传输,所以同一帧图像中的不同片之间相互独立编码,某片的预测不以其它片中的像素为参考,是最小的独立单元。以片作为编码的调度单位可以大大减少核间的通信开销,并且可以根据处理器的个数来决定分片的数目,便于扩展。所以,选择基于片的多核数据并行方式是恰当的。由第三节中句法元素的分层结构和n a l 封装可知,在一个图像中,各个片之间有相同的数据,h 2 6 4 编码器将该图像的公共信息抽取出来,形成图像一级的句法元素,作为控制数据,而在片级只携带该片自身独有的句法元素,由此,在多核环境下,从核可只负责对所分配的片数据进行编码,控制信息的添加、封装等工作可只交由主核负责。图2 9 给出了h 2 6 4 编码基于片的并行编码结构,主核将一帧图像在空间上划分为多个片,交给多个核分别进行编码,编码结束后主核收集、合并编码数据,同时读取下一帧图像,进行下一帧图像的并行编码。1 6第二章h 2 6 4 编码标准及并行化分析r 碍”s l i c e0i ”巧习一囊?s l i c e1j。毋彩? = 一可。琴一么施。三。弦。? 。j 、;。铀图2 9 片级并行图第三章基丁f p g a 的m p s o c 设计第三章基于f p g a 的m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论