已阅读5页,还剩124页未读, 继续免费阅读
(电路与系统专业论文)视频编解码专用处理器及其VLSI实现研究[电路与系统专业优秀论文].pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江大学博士学位论文摘要 摘要 随着视频应用对处理器性能要求的不断提高,面向视频编解码的专用指令集 处理器( a p p l i c a t i o ns p e c i f i ci n s t r u c t i o n s e tp r o c e s s o r ,a s i p ) 设计已成为了目前的 研究热点之一。本文围绕面向视频编解码应用的a s i p 设计及其v l s i 实现从以下 三方面展开了研究工作: 1 比特流处理器设计 针对视频解码应用中的比特流解析、交长熵解码等串行操作,提出了一种高 效的比特流处理器结构。通过分析比特流处理的计算核心及速度瓶颈,针对频繁 出现的共性操作,如s h o w b i t s 、g e t b i t s 、f l u s h b i t s 等,提出了7 条变长解码专用指 令及其硬件实现结构。实验结果表明,结合l n z 分组解码算法,该比特流处理器 在1 5 0 m h z 工作频率下可以满足高清1 0 8 0 i 格式的h 2 6 4 a v c 实时解码性能要求。 并且其硬件实现开销和设计复杂度等都很小。该结构已经成功应用于自主研发设 计的s p o c k 处理器中的变长编解码( v a r i a b l el e n gc o d i n g d e c o d i n g ,v l x ) 特殊 功能执行单元。这使得s p o c k 在视频编解码应用中的性能得到了大大提高,能够 胜任流处理器的角色。 2 并行存储结构设计 针对s i m d ( s i n g l ei n s t r u c t i o nm u l t i p l ed a t a ) 处理器在视频编解码中内存读 写操作带来的大量额外非计算开销,提出了一种高效的2 维并行存储结构。结合 视频编解码主要算法,分析所需的数据存取格式,提出了两种数据交织存储方案 a s c h e m e 和s - s c h e m e 。它们分别为视频应用中的两种数据类型( 8 b i t 像素和1 6 b i t 变换系数) 提供2 维空间行列方向上数据的连续并行访问和间隔步长为2 1 的并行 访问。实验结果表明,在h 2 6 4 实时解码中,该并行存储器结构比字节寻址存储 结构性能平均提高了1 2 8 倍。同时,提出的硬件实现结构简单,并易于在不同数 据总线宽度的处理器平台上扩展。随着数据带宽的增加,其优势更为明显。 3 s h u b e r t 处理器设计 浙江大学博士学位论文摘要 针对传统s i m d 指令集体系中严格要求的操作数格式所带来大量的数据重新 组织开销,提出了一种显示数据组织s i m d ( e x p l i c i td a t ao r g a n i z a t i o n , e d o s i m d ) 指令集体系结构。它显性地将数据置换信息声明在指令中,将数据 组织与数据运算操作合并在一起执行,由在寄存器文件和s i m d 计算单元之间增 加的数据置换网络提供灵活的操作数格式,从而有效提高s i m d 处理器的并行性 能。我们自主研发了支持e d o s i m d 指令体系的s c h u b e r t 视频处理器。它是基于 非耦合的存取执行体系结构设计的,并结合主要视频编解码算法扩展了 e d o s i m d 视频专用指令集。仿真结果显示,扩展指令有效提高了s c h u b e r t 处理 器在多种视频标准应用中的性能。s c h u b e r t 分别在1 1 4 m h z 和4 9 1 m h z 的工作频 率下可完成q c i f 、c i f 分辨率并且速率为3 0 帧秒的h 2 6 4 实时解码应用。 关键词 视频编解码、专用指令集处理器、比特流处理器、单指令多数据、 并行存储器 浙江大学博士学位论文 a b s t r a c t w i t ht h ei n c r e a s i n gp e r f o r m a n c er e q u i r e m e n to fv i d e oc o d i n g ,t h ed e s i g no fa s i p ( a p p l i c a t i o ns p e c i f i ci n s t r u c t i o n s e tp r o c e s s o r ) f o rv i d e oc o d i n gh a sb e e na r e s e a r c h h o t s p o tb o t hi na c a d e m ya n di n d u s t r y t h i sp a p e rf o c u s e so nf o l l o w i n gt h r e ea s p e c t s : 1 ) d e s i g no fap r o g r a m m a b l eb i t s t r e a mp r o c e s s o rf o rm u l t i p l ev i d e oc o d i n gs t a n d a r d s t h i sp a p e rp r o p o s e sa l le f f i c i e n tb i t s t r e a mp a r s e rf o rb i t s t r e a mp a r s i n ga n dv l d ( v a r i a b l el e n g t hd e c o d i n g ) i nv i d e od e c o d i n g t h ep r o p o s e dd e s i g np r e s e n t s a n e x t e n s i o ni n s t r u c t i o ns e tt oa c c e l e r a t es o m ek e r n e lf u n c t i o n so fb i t s t r e a mp a r s i n g ,s u c h a ss h o w b i t s ,g e t b i t s ,f l u s h b i t sa n ds oo n w i t ht h el n zg r o u pa l g o r i t h m ,t h ep r o p o s e d b i t s t e a mp a r s e rc a nm e e tt h ep e r f o r m a n c er e q u i r e m e n t so fh 2 6 4r e a lt i m ed e c o d i n ga t 12 8 0 ir e s o l u t i o na t3 0f r a m e sp e rs e c o n dw i t h i n15 0 m h z t h es y n t h e s i sr e s u l ts h o w s t h a tt h eh a r d w a r ec o s ti sa b o u t7 kg a t e so fl o g i ca n d2 kb y t er a mu n d e ra0 18 u m c o m st e c h n o l o g y f u r t h e r m o r e ,i ti sa p p l i e dt ot h ev l xs p e c i f i cf u n c t i o nu n i to f s p o o k ,w h i c hi sa ne m b e d d e dr i s cc o r ed e v e l o p e db yu s 2 ) d e s i g no f a p a r a l l e lm e m o r y a r c h i t e c t u r ef o rv i d e oc o d i n g i no r d e rt oe f f i c i e n t l ye x p l o i tt h ep e r f o r m a n c eo fs i m da r c h i t e c t u r e sf o rv i d e o c o d i n g ,ap a r a l l e lm e m o r ya r c h i t e c t u r ew i t hp o w e r - o f - t w om e m o r ym o d u l e si s p r o p o s e di nt h i sp a p e r b a s e do nt h ea n a l y s i so fr e q u i r e da c c e s sf o r m a t sf o rv i d e o c o d i n g , w ep r e s e n tt w on o v e ls k e w i n gs c h e m e s a s c h e m ep r o v i d e sc o n f l i c tf r e e a c c e s st oa d j a c e n te l e m e n t s ( 8 - b i ta n d16 - b i td a t at y p e s ) ,a n ds s c h e m es u p p o r t s p a r a l l e la c c e s sw i t hp o w e r - o f - t w oi n t e r v a l sb o t hi nh o r i z o n t a la n dv e r t i c a ld i r e c t i o n s t h es i m u l m i o nr e s u l ts h o w st h a tt h ep r o p o s e dd e s i g na c h i e v e s1 2 8xs p e e d u p si n h 2 6 4r e a lt i m ed e c o d i n g ,c o m p a r e dt ot h eb y t e a d d r e s s a b l em e m o r ya r c h i t e c t u r e f u r t h e r m o r e ,t h eh a r d w a r ei m p l e m e n t a t i o ni ss i m p l ea n ds c a l a b l ef o rd i f f e r e n td a t ab u s w i d t h s a st h en u m b e ro fm e m o r ym o d u l e si n c r e a s i n g ,t h ea d v a n t a g ei sm o r ea n d m o r ee v i d e n t 3 ) d e s i g no fav i d e op r o c e s s o r - s c h u b e r t t h ee d o - s i m di n s t r u c t i o ns e ta r c h i t e c t u r e ( i s a ) i sp r o p o s e dt ot or e d u c et h e v 浙江大学博士学位论文 d a t ac o n v e r s i o na n dr e a r r a n g e m e n to v e r h e a df o rb r i n g i n gd a t ai naf o r ma m e n a b l et o s i m dp r o c e s s i n g i tc a l lp r o v i d ef l e x i b l ef o r m a t so fo p e r a n d sb yt h ea d d i t i o n a ld a t a p e r m u t a t i o nn e t w o r kb e t w e e nt h er e g i s t e rf i l ea n ds i m dc o m p u t i n gu n i t s w ed e v e l o p ad u a l - p i p e l i n ev i d e o p r o c e s s o r s c h u b e r tt os u p p o r te d o s i m di s a t h e a r c h i t e c t u r eo fs c h u b e r ti sb a s e do nd e c o n p l e da c c e s sa n de x e c u t i o nc o n c e p t t h e e x e c u t i o np i p e l i n ei sf o re d o s i m dp r o c e s s i n g ,a n dt h ea c c e s sp i p e l i n ei sf o rt h e v e c t o rl o a d s t o r eu n i t f u r t h e r , as p e c i f i ci n s t r u c t i o ns e te x t e n s i o ni sp r o p o s e df o rv i d e o c o d i n go ns c h u b e r tp l a t f o r m t h es i m u l m i o nr e s u l t ss h o wt h a th 2 6 4d e c o d i n ga t q c i fa n dc i fr e s o l u t i o na t3 0f r a m e sp e rs e c o n di sa c h i e v e dw i t h i n11 4 m h za n d 4 9 1m h z r e s p e c t i v e l yo fs c h u b e r tp e r f o r m a n c e k e y w o r d sv i d e oc o d i n g ,a p p l i c a t i o n s p e c i f i ci n s t r u c t i o ns e tp r o c e s s o r , b i t s t r e a mp r o c e s s o r , s i n g l ei n s t r u c t i o nm u l t i p l ed a t a , p a r a l l e lm e m o d , 浙江大学博士学位论文图目录 图目录 1 1 国际视频编码标准发展2 1 2f u j i t s um p e g 4 编解码器结构3 1 3o m a p 5 9 1 0 系统架构图4 1 4h 2 6 4 高清视频编解码在p u r e v i d e oh d 引擎的解决方案5 1 5m c d c t 编码原理框图6 2 1d p c m 预测编码原理框图1 l 2 2 基于块的运动估计。1 2 2 3 霍夫曼编码树1 5 2 4z i g z a g 扫描顺序1 6 2 5h 2 6 1 编码框图1 7 2 6h 2 6 4 编码原理框图一2 0 2 7h 2 6 4 中宏块边界滤波顺序2 3 2 8a v s 编码原理框图2 4 2 9v c 一1 编码原理框图2 7 2 1 0v c 1 中采用的死区量化和一般基于步长的量化2 8 2 1 lv c 1 中环内滤波与重叠平滑2 9 3 - 1m p e g 2 和h 2 6 4 解码器的复杂度分析3 2 3 2m p e g 2 和h 2 6 4 编码器的复杂度分析3 3 3 3 不同运动估计搜索窗大小对m p e g 2 编码复杂度分布变化3 3 3 4 视频处理器结构分类3 5 3 5h 2 6 4 编码器a s i c 硬件结构图3 6 3 - 6 支持子字并行的可拆分a l u 结构3 8 3 7d i a m o n d 3 8 8 v d o 双核视频引擎框图4 0 3 8v l l w 处理器基本结构4 1 3 - 9t m 3 2 7 0 媒体处理器( 5 路v l i w 结构) 4 2 3 1 0v i r a m 处理器体系结构框图4 4 3 - 1ls i m d 处理器中的数据组织指令4 5 3 1 2i b me l i t e 处理器的s i m d d 数据并行技术4 5 3 1 3v i p e rp n x 8 5 0 0 体系结构框图4 6 3 1 4h i b r i d s o c 多核结构4 7 4 一lh 2 6 4 中c a v l c 编码。5 l 4 2h 2 6 4 中c a v l c 解码5 2 4 3m e p g 2 解码在t m s 3 2 0 c 6 x 和t m s 3 2 0 c 8 0 上的时间消耗分布5 3 4 4p c l c 分组算法5 4 4 5v l d 中4 个基本比特流处理函数5 6 4 6m i p sr i s c 处理器实现s h o w b i t s 的汇编代码5 7 1 v 图图图图图图图图图图图图图图图图图图图图图图图图图图图图图图图图图图图图 浙江大学博士学位论文图目录 4 _ 7 实现比特流基本操作加速指令的硬件结构框图6 0 4 8 变长比特流处理器结构框图。6 1 4 9h 2 6 4 熵解码应用中的性能比较一6 3 4 - 1 0s p o o k 处理器体系结构框图6 4 4 - 1 1s p o c k 处理器中v l x 单元结构图6 5 5 1 典型的并行存储器结构框图6 8 5 2 存在的并行存储方案6 9 5 3 视频编解码应用中的数据存取格式7 1 5 _ 4 定义的数据2 d 内存访问模式7 2 5 5 线性s h i f t r o t a t e 方案( m = 8 ) 7 3 5 - 6 a 和s - s c h e m e 方案的内存模块分配示例图7 6 5 7 并行存储结构框图7 6 5 8a g u 单元结构框图7 7 5 - 9e a u 单元的实现电路图7 8 5 1 0p c u 单元的逻辑电路图7 9 5 1 1 地址和数据置换网络的实现电路7 9 5 1 2 并行存储器的流水线结构8 2 5 1 3 并行存储结构在h 2 6 4 实时解码应用中性能比较8 4 6 1e l i t e 处理器数据组织方案。8 7 砚引入显示数据组织方式的s i m d 数据通路结构8 7 6 3 显示数据置换s i m d 指令示例8 8 6 4 数据置换网络的结构设计8 9 6 5s c h u b e r t 视频处理体系结构框图9 0 6 6c h e n - w a n gi d c t 算法信号流图9 1 6 7b u t t e r f l y 和r o t a t e 专用指令a ) v h b u t r sb ) v w b u t r sc ) v r o t r s 9 3 6 8 整形变换专用指令9 4 6 9 运动估计专用指令v s a d 9 5 6 1 0h 2 6 4 中亮度半像素及四分之一像素位置的插入9 6 6 1 1v o f i r r s 指令9 7 6 1 2 数据通路设计1 0 0 6 1 3e d o s i m d 仿真器结构框图1 0 2 6 1 4h 2 6 4 中4 x 4 i i t 的性能比较1 0 4 6 - 1 5 去块效率滤波算法的性能比较1 0 5 6 1 6e d o s i m d 处理器数据通路框图1 0 6 6 1 7s c h u b e r t 处理器存取单元的结构框图10 8 6 1 8s c h u b e r t 处理器物理实现版图1 0 9 v 图图图图图图图图图图图图图图图图图图图图图图图图图图图图图图图图图图图图 浙江大学博士学位论文表目录 表目录 表格3 1 国际视频编码标准的主要特点3 1 表格3 2 视频编解码应用中通用计算操作及特点3 4 表格3 3 通用处理器媒体扩展3 7 表格4 1e x p g o l o m b 编码原理4 9 表格4 2p c l c 分组信息5 5 表格4 3h 2 6 4 解码应用中调用4 个典型比特流处理函数的次数5 6 表格4 4 变长比特流基本操作加速指令5 7 表格4 5h 2 6 4 中c o e f ft o k e n 码表l n z 分组算法5 8 表格4 6h 2 6 4 解码中e x p g o l o m b 解码函数的调用次数一5 9 表格4 7 硬件实现开销6 2 表格4 8 指令性能比较6 2 表格5 1 并行存储器中各模块单元的面积消耗( g a t e ) 8 0 表格5 2 并行存储器中各模块单元的延迟( n s ) 8 l 表格5 3 比较的并行存储器结构8 1 表格5 4 并行存储结构面积开销比较( g a t e ) 8 2 表格5 5 与 8 4 1 的关键路径比较8 3 表格5 - 6 数据访问指令数比较8 4 表格6 1s i m d 指令的执行分布比例8 6 表格6 2 标志寄存器c f r 更新真值表9 9 表格6 3e d o s i m d 在余弦变换核心中的性能1 0 3 表格6 48 x 8i d c t 性能比较10 3 表格6 5h 2 6 4 基本档次实时解码性能1 0 5 表格6 6s c h u b e r t 物理实现主要结果1 1 0 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得逝姿盘堂或其他教育机 构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确的说明并表示谢意。 学位论文作者躲锄侧茛期:砌寥年尹月7 日 学位论文版权使用授权书 本学位论文作者完全了解逝姿蠢鲎有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阅。本人授权逝姿盘堂可以将学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 龇勃7 助1 埃 签字吼加8 年彳月_ 7 日 导师签名 签字日期:访。勿年夕月 f 日 学位论文作者毕业后去向: 工作姚毒考古钙磷删( 蛐) 锨侗 通讯地址:上渐团旃踌4 8 号考裤 电话:,;占7 竹占f 岁多 邮编: d 弓多 致谢 在本论文完成之际,我首先要感谢我的博士导师陈偕雄教授和严晓浪教授。 陈老师严谨的治学态度、高度的敬业精神和坦荡宽广的胸怀令我深受感动。严老 师高瞻远瞩、精力充沛、思想敏锐、高瞻远瞩、胸怀全局,一直是我学习的楷模。 正是在他们二位老师的悉心指导和关怀下,才完成了这篇毕业论文的撰写。 感谢我的硕士导师金文光老师,他在我刚进入浙江大学那段时间在学习和生 活上给予了大力的帮助与指导。同时感谢浙江大学超大规模集成电路设计研究所 的吴晓波老师、何乐年老师、葛海通老师、史铮老师、沈海滨老师、罗小华老师、 王国雄老师、赵梦恋老师、张培勇老师、刘大可老师等的帮助和支持。 同时,我也要感谢在此期间所有教过我、给过我帮助和关心的老师、同学和 朋友。感谢超大所和杭州中天微系统公司给我提供良好的学习环境和完善的实验 设备。感谢秦兴、杨建、何仙娥,刘坤杰、阳烨、杨军、黄凯、全励、孟建熠、郑 丹丹、刘纯悦、胡赣娟、季爱明、孟建斌、伊蔚、孙杰等一起工作学习过的同学和 同事,我不会忘记你们的无私帮助以及与你们共同走过的岁月。尤其要感谢李德贤 同学,你在论文撰写过程中不断给我鼓励和支持! 感谢我的父母和哥哥,是你们无微不至的关怀和默默的支持陪伴着我顺利走完 了这漫长的求学历程。 最后,我衷心祝愿所有曾经帮助、关心和支持过我的人,一生平安幸福。 彭剑英 2 0 0 8 年9 月 浙江大学博士学位论文第1 章绪论 第1 章绪论 1 1 课题背景及意义 众所周知,人类通过视觉获取的信息量约占总信息量的7 0 ,而且视频信息 具有直观性、高效性、可靠性等一系列优点【l 】。近2 0 年来,随着数字电路和微 电子技术的进步,特别是超大规模集成电路的快速发展,使得数字视频的优点变 得越来越突出,应用越来越广泛,如高清晰度广播电视、数字机顶盒、移动视频、 视频监控等众多领域。据信息产业部电子信息产品“十五”投资指南预测, 以数字视频为主的多媒体产业2 0 1 0 年年产值将达到1 5 万亿,将成为信息产业的 第一大产业【2 】。因此,将视频编解码专用处理器设计及其v l s i 实现作为研究课 题,具有很重要的现实意义。 视频数据存在空间冗余、时间冗余、统计冗余、人类视觉冗余等,这些特点 使得视频压缩成为可能。在信息论的指引下,视频压缩技术一直在不停地发展, 从传统的熵编码技术、预测编码和变换编码技术到模型编码、小波变换、神经网 络等新的编码技术。随着图像视频编解码技术的日益发展,越来越多的研究工作 者对视频编码和处理提出了新理论和新方法,同时各种国际组织参与视频标准的 制定。图1 1 列出了到目前为止,国际电信联盟i t u t 和国际标准化组织i s o 的 运动图像专家组( m o v i n gp i c t u r ee x p e l sg r o u p ,m p e g ) 两大国际组织制定完成 的国际视频编码标准。最早通过的是i t u t h 2 6 1 【3 】,它是后来相继提出的采用混 合编码的m p e g 1 1 4 ,m p e g 2 1 5 h 2 6 2 ,h 2 6 3 1 6 和h 2 6 4 a v c 7 标准的基础。 h 2 6 1 的目标应用为视频电话,复杂度较低可以实现全双工视频通讯。m p e g l 用于v c d 格式视频存储和c d 播放,其最优码率是1 2 m b p s ,后被m p e g 2 所取 代。为数字电视广播开发的m p e g 2 视频压缩标准,是目前应用领域最成功的视 频压缩标准。i t u t 和m p e g 共同最新制定的h 2 6 4 a v c 标准,代表了当前最先 进的视频压缩算法,采用了多帧和多模式运动估计、帧间预测和环内去块效应滤 波等,与m p e g 2 相比较在同样的图像质量下,传输码率可以降低5 0 。被公认 为新一代视频技术的还有v c 1 1 8 和a v s 标准【9 】。前者是由微软提出并开发的, 浙江大学博士学位论文第1 章绪论 于2 0 0 6 年被s m p t e ( 活动图像和电视工程师协会) 正式颁布为产业标准。a v s 是由中国信息产业部成立的中国数字音视频编码技术标准工作组( a v s 工作组) 制定完成的,并于2 0 0 5 年年末被正式确立为中国先进编解码技术的国家标准。 视频编码标准对视频技术的推广应用起着至关重要的作用。从用于i s d n ( i n t e g r a t e ds e r v i c e sd i g i t a ln e t w o r k ) 视频会议的h 2 6 1 标准到更高效的压缩效率和 网络适配能力的h 2 6 4 标准,只用了1 0 来年的时间,并且这种前进的步伐还在 继续。随着h 2 6 4 的成熟,i t u t 已经开始规划下一代视频压缩标准h 2 6 5 ,期 望在2 0 1 0 年前推出。视频压缩技术的不断发展,归纳起来具有以下特点:1 ) 支 持的算法和工具不断增加,灵活性和容错能力越来越强;2 ) 编码效率越来越高, 图像质量越来越好;3 ) 算法设计的计算复杂度越来越高;4 ) 编码标准不断更新。 国 三 叵叵瑁 匿s t a n 塾d a r d s 】囝叵竺竺竺兰l - l 篇器s m p e g - 1m p e g 4 图1 - 1 国际视频编码标准发展 视频编解码过程是数据密集和计算密集的数字处理过程。而且最新的编解码 技术更是以算法复杂度为代价来获得成倍的压缩效率。就h 2 6 4 的b a s e l i n e 而言, 其解码复杂度是h 2 6 3 标准的3 倍左右,而编码复杂度更是高达l o 多倍 1 0 】。基 于新一代压缩技术的编码与解码对于芯片的计算能力提出了挑战,而目前通用处 理器( 各类c p u 和d s p ) 的计算能力都不足以处理高运算复杂度的视频应用, 因此需要采用专用加速引擎来满足需求。主要有两种视频加速引擎的设计方案。 第一种方案是专用集成电路( a p p l i c a t i o ns p e c i f ci n t e g r a t e dc i r c u i t ,a s i c ) 。 a s i c 针对某一特定视频标准算法采用硬件电路实现,具有速度高、面积小、功 耗底等特点。例如n a k a y a m a 等人在 1 1 】中提出了一种高效的m e p g 4 编解码系 统,其系统结构如图1 - 2 所示,其中所有编解码任务模块都是采用专门的r t l 浙江大学博士学位论文 第1 章绪论 结构实现。该视频芯片工作在1 3 5 m h z 的工作频率下就可以完成m p e g - 4 简单档 次1 5 帧秒的编解码,且功耗仅为2 9 m w 。但是a s i c 方案致命的缺点是灵活性差, 所支持的每个视频标准都需要一个专门的硬件电路来实现。无论是实现一个新的 视频标准、更新升级已有的标准还是消除其中的故障都需要重新进行芯片加工。 而且随着超深亚微米芯片设计中一次性工程费用的增长和产品上市时间的缩短, a s i c 方案遇到了极大的挑战;再加较高的设计成本和设计风险,除非极大批量 的应用,否则无法承受。 图1 - 2f u j i t s um p e g - 4 编解码器结构 第二种方案是可编程a s i p 。面向视频应用的a s i p 一般被称为视频处理器或 是媒体处理器( m e d i ap r o c e s s o r ) 。视频编解码技术处于一个高速发展的阶段, 各种视频标准共存且新标准不断更新发展,所以需要采用可编程高性能处理器的 灵活解决方案支持现有和将来的视频编解码算法。然而通用嵌入式处理器和d s p 缺乏专用指令操作,其性能不足以完成数据和计算密集的视频处理。a s i p 视频处 理器针对视频编解码应用进行了指令集及体系结构的优化与裁剪,结合了a s i c 的高性能低功耗等特点与通用嵌入式处理器的可编程性与灵活性,更有效的利用 了芯片的硅面积。随着视频应用对处理器性能要求的不断提高,可编程a s i p 视 频处理器获得了越来越广泛的应用,并得到了业界与学术界的广泛关注。 目前,业界相继推出了众多的多媒体处理器以及其s o c 设计平台,例如t i 浙江大学博士学位论文第1 章绪论 的t m s 3 2 0 c 5 5 xd s p 核及开放式多媒体应用平台( o p e nm u l t i m e d i aa p p l i c a t i o n p l a t f o r m , o m a p ) 【1 2 ,1 3 和t m s 3 2 0 c 6 4 xd s p 核及达芬奇技术( d a v i n c i ) 1 4 、 p h i l i p s 的t r i m e d i ac p u 核及n e x p e r i a 媒体处理器【1 5 ,1 6 、t e n s i l i c a 的钻石视频 处理引擎( d i a m o n ds t a n d a r dv d o ,v i d e o ) 【1 7 】等。近些年,学术界开展了多媒 体处理器的多方面研究,如b e r k e l e y 的v i r a m 处理器 1 8 】、t u d e l f t 的c s i ( c o m p l e x s t r e a m t e d i n s t r u c t i o n s e t ) 多媒体处理器【19 】、h a n n o v e r 的 h i b r i d s o c 2 0 ,2 1 】等。图1 3 所示的是t i 面向嵌入式多媒体应用的o m a p 5 9 1 0 的硬件平台架构图,集成了一个a r m 9 2 5 和一个t m s c 5 5 x d s p 处理器。其中 a r m 是比特流处理器,通过增加额外指令集来完成比特流解析和熵编解码等串 行处理;t m s c 5 5 xd s p 是像素处理器,采用了v l i w 技术扩展专用指令进行像 素数据的并行处理。 图1 - 3o m a p 5 9 1 0 系统架构图 n v i d i a 和a m d 公司分别开发了p u r e v i d e o 和a v i v o 视频引擎在图像处理器 ( g r a p h i c sp r o c e s s i n gu n i t ,g p u ) 平台上支持视频编解码加速。视频编解码原本 是c p u 在负责处理,但由于高清视频的盛行,庞大的数据运算量让c p u 不堪重 负,因此需要g p u 分担c p u 的视频编解码任务。n v i d i a 推出的p u r e v i d e o 采 用独立视频引擎,减低了整机功耗表现。 的高级应用,也将c p u 完全解放处理, 4 不仅实现了低端个人电脑高清视频播放 以适应任务处理的需求。在g e f o r c e 7 时 浙江大学博士学位论文 第1 章绪论 代的g p u 包含了一个由取址、标量( 1 6 路s i m d 引擎) 、矢量、分支四个单元构 成的可编程视频处理器,能够处理诸如v c 1 、h 2 6 4 、m p e g - 4 和m p e g - 2 等多 种格式,并考虑了未来视频格式的适用性。视频引擎可以完成如反变换、反量化、 运动补偿等主要功能模块的处理,但还需要耗费相当大的c p u 资源。g 8 4 、8 6 采用了最新的第二代视频处理引擎,专门加入了针对h 2 6 4 视频加速的比特流处 理( b i t s t r e a mp r o c e s s i n g ,b s p ) 引擎。b s p 是专门为h 2 6 4 中c a v l c 和c a b a c 熵解码而设计的处理器。它将这部分的处理从c p u 转移到了g p u 中,加上新设 计的视频处理其余部分,整个视频解码完全由g p u 来完成,从而使得c p u 占用 率大大降低。图图1 4 列出了h 2 6 4 格式的高清视频编解码在n v i d i a 不同阶段 g p u 上的解决方案及c p u 占用情况。g 9 8 后的g p u 都可以支持对h 2 6 4 和v c 1 的全硬解码,但对m p e g 2 及其它的格式视频解码只能部分处理优化。为了支持 更多格式的高清视频编解码,p u r e v i d e o 可编程视频引擎仍需要不断发展与完善。 w i t i l a l tp l l “v i d h d h 2 “h i g i ld c f i i l i i o nv i d e 。p r o c c s s i i l g h i g hc pucpu ,蛳由! u tn ? 蔓y i 毁h 9 一一、 u t i h z a t i o n w i t hp u r e v i d e oh d ( g e f o r c e7s 一哟c p u t - - 一,一一一- - 一一。一一一+ -一- - ,删m - y i 啦迥f 熊螋! 嫂j 一f g 哟, 图1 - 4h 2 6 4 高清视频编解码在p u r e v i d e oh d 引擎的解决方案 随着高清视频的出现和推广,数字视频领域进入了全新时代,面向视频编解 码应用的高性能可编程视频处理器设计已经成为了目前工业界与学术界的研究 热点。 国掣目= 目 嘞 枷。 岫 h 。 岫 h 浙江大学博士学位论文 第1 章绪论 1 2 本文研究内容及主要创新点 目前,基于运动补偿离散余弦变换( m c d c t ) 的混合编码结构因其高效性 和易实现性得到了最广泛的应用【2 2 ,其编码框图如图1 5 所示。本文的工作也 是面向基于m c d c t 混合编解码的视频应用而展开的。 通过对m c d c t 混合编码算法的深入分析发现,视频编解码应用中既存在如 运动估计( m o t i o ne s t i m a t i o n ,m e ) 、运动补偿( m o t i o nc o m p e n s a t i o n ,m c ) 、d c t ( d i s c r e t ec o s i n et r a n s f o r m ) 等数据、计算密集且易于并行处理的任务核心,也存 在如比特流解析、熵编解码等基于比特级的串行处理操作。而且新一代视频编码 算法本身包含了丰富的基于压缩和网络传输的各种编码选项,视频处理的数据粒 度越来越细,计算间的控制和通信事件越来越频繁和复杂。因此不存在一种通用 的同构处理器体系适用于视频应用。目前r s i c ( 流处理器) + d s p ( 视频专用d s p 或多媒体处理器) 的异构双核多核架构是视频处理器的主流架构体系【2 3 ,2 4 1 。其 中r i s c 处理器负责控制操作,并利用特殊指令进行视频数据的串行处理如熵编 解码、运算向量预测等,而d s p 或多媒体处理器利用s i m d 或v l l w ( v e r yl o n g i n s t r u c t i o nw o r d ) 等并行技术对m e m c 、正反d c t 变换、去块滤波等计算密集 的算法模块进行并行处理,有效提高了视频编解码器系统的性能 f n l 一 厂、 广 d c t- q u a n t h l 尸m o t i o nl i 一 k 乏勘曲c 。矗湎卜 h e a d e r sa n dv e c t o r s 。 。1 。_ p 。 f n 。厂、 i d c t一r
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 贵州省小学五年级上学期数学第一单元测试卷-小数乘法(奥数衔接)
- 2025秋学期小学三年级上册劳动技术(苏科版)期末测试卷及答案(三套)
- 企业管理-内科规章制度和岗位职责 SOP
- 云南省下学期小学六年级数学期中阅读理解试卷
- 吴忠书画买卖合同
- 学校甲醛净化服务合同
- 山东省青岛市小学二年级上学期数学期中测评卷
- 定制浮雕壁画订购合同
- 新疆维吾尔自治区阿克苏地区小学二年级上学期数学期中质量调研试卷
- 遴选公务员笔试真题及答案
- 高校金融学教学大纲及教案
- 基于认知的动机激发策略-洞察及研究
- 商场会员维护培训课件
- 意大利安全培训资料课件
- 2025秋季学期国开电大法学本科《国际私法》期末纸质考试案例分析题库珍藏版
- 小学生安全素养测试题库及答案解析
- 药厂压缩空气培训课件
- 医院微笑服务培训课件
- 土地承包与租赁合同范本
- 新疆农业大学《数学》2024-2025学年第一学期期末试卷
- 延长停工留薪期申请书
评论
0/150
提交评论