(计算机应用技术专业论文)vc1视频编码技术研究及在dsp上的实现.pdf_第1页
(计算机应用技术专业论文)vc1视频编码技术研究及在dsp上的实现.pdf_第2页
(计算机应用技术专业论文)vc1视频编码技术研究及在dsp上的实现.pdf_第3页
(计算机应用技术专业论文)vc1视频编码技术研究及在dsp上的实现.pdf_第4页
(计算机应用技术专业论文)vc1视频编码技术研究及在dsp上的实现.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机应用技术专业论文)vc1视频编码技术研究及在dsp上的实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着信息化时代的发展,人类也进入了一个崭新的网络多媒体时代,作为诸 多计算机研究领域中最为活跃之一的多媒体视频编码技术也随着应用要求的改变 而不断发展着。为此,2 0 0 6 年4 月,微软公司以其在w m v 9 ( w i n d o w sm e d i av i d e o 9 ) 基础上开发的v c 1 ( v i d e oc o d e c1 ) 视频编码压缩技术向美国电影电视工程师 协会s m p t e ( s o c i e t y o fm o t i o np i c t u r ea n dt e l e v i s i o ne n g i n e e r s ) 提出公开标准化 的申请,并获得通过,v c 1 正式命名为s m p t e4 2 1 m 。此协议提出的目的是能够 在低比特率下获得很好的图像压缩效果并能适应不同的网络环境,以满足对压缩 效率、图像质量和在当前网络带宽条件下的实时传输要求。 本文对v c 1 视频编码技术进行了深入研究,分析了其使用的关键技术,包括 帧内预测,帧间预测,1 4 像素精度的运动估计,熵编码,环路滤波,重叠平滑技 术等。通过对目前的各模块算法进行深入剖析研究,寻找出目前所提出算法中的 不足和影响编码速度的瓶颈,进而对瓶颈部分进行分析研究找出算法的改进方法。 因为根据大量的实验数据显示,运动估计在v c 1 全部算法计算中占有相当大的比 例,所以本文主要在运动估计算法方面提出了改进方法,对基于块匹配的十字菱 形搜索算法进行了迸一步的优化。并完成了将在p c 机下的部分改进代码向目前专 门面向多媒体应用的专用数字信号处理( d s p ,d i g t a ls i g n a lp r o c e s s i n g ) 芯片 t m s 3 2 0 d m 6 4 2 的移植及优化工作。根据此d s p 芯片的特点,通过对移植后的程 序进行c 语言和汇编语言级的优化,使v c 1 编码算法达到了良好的优化效果。本 文有图2 1 幅,表4 个,参考文献4 3 篇。 关键词:视频编码;v c 1 视频编码技术;帧问编码;运动估计;d s p i 竖塞銮道太堂亟堂位诠塞旦s ! 醛g ! a bs t r a c t w i t ht h ec o m i n go ft h ei n f o r m a t i o na g e , h u m a nb e i n gi se n t e r i n gi n t oab r a n d n e w n e t w o r k m u l t i m e d i aa g e a so n eo ft h em o s ta c t i v ef i e l d so fc o m p u t e rr e s e a r c h ,t h e m u l t i m e d i ae n c o d et e c h n o l o g yi s d e v e l o p i n gw i t h t h er e q u e s to ft h e a p p l i c a t i o n t h e r e f o r e ,an e wv i d e oc o m p r e s s i o ns t a n d a r dn a m e dv c 一1 ( v i d e oc o d e c1 ) b a s e do n w m v 9 ( w i n d o w sm e d i av i d e o9 ) i sp u b l i s h e db ym i c r o s o f t ,a n da p p l i c a t i o nf o r s t a n d a r d i z a t i o nf r o ms m p t e ( s o c i e t yo fm o t i o np i c t u r ea n dt e l e v i s i o ne n g i n e e r s ) a t 2 0 0 6 4a n dp a s s e ds u c c e s s f u l l y , t h e nv c 一1w a sn a m e ds m p t e4 21m f o r m a l l y t h e n e ws t a n d a r da i m sa to b t a i n i n gh i g l aq u a l i t y , h i g hc o m p r e s s i o nr a t i o ,a n da b i l i t yt oa d a p t t ov a r i o u sn e t w o r ke n v i r o n m e n t sf o rr e a l t i m et r a n s m i s s i o n t h e r ea r em a n yn e wt e c h n i q u e sp r o p o s e di nv c 1 ,i n c l u d i n gi n t r ap r e d i c t i o n ,i n t e r p r e d i c t i o n ,q u a r t e r - s a m p l e - a c c u r a t e m o t i o n c o m p e n s a t i o n ,e n t r o p ye n c o d i n g , l o o p f i l t e ra n do v e r l a ps m o o t h i n gt e c h n i q u e , e t c ,a l lt h e s en e wt e c h n i q u e sa n d a l g o r i t h m sw i l lb ed i s c u s s e di nt h i sp a p e r t h o u g hd e e p l ys t u d y i n gt h em a i nt e c h n i q u e s a n da l g o r i t h m s ,f i n do u tt h es h o r t a g eo ft h o s ek e ye n c o d i n gm o d u l e sa n dt h eb o t t l e n e c k w h i c hi n f l u e n c e st h ee n c o d i n gs p e e d f u r t h e r m o r e ,a c c o r d i n gt ot h ee x p e r t s e x p e r i e n c e k n o w l e d g ef r o mal o to fe x p e r i m e n t s ,t h a tt h em o t i o n e s t i m a t i o na l w a y so c c u p i e sav e r y l a r g ep e r c e n t a g e i nt h ew h o l ee n c o d i n g p r o c e d u r e ,a ni m p r o v e dc r o s s d i a m o n d a l g o r i t h mi sp r o p o s e dt oi m p r o v et h ec o d ee f f i c i e n c y f i n a l l yp a r to ft h ei m p r o v e d e n c o d i n ga l g o r i t h mi st r a n s p l a n t e dt ot h et m s 3 2 0 d m 6 4 2d s pc h i p ,a n da f t e rt h ec p r o g r a ma n da s s e m b l yl e v e lo p t i m i z a t i o na c c o r d i n gt ot h ec h i p sf e a t u r e ,i th a sab e t t e r e f f e c to nt h ev c - 1e n c o d i n go p t i m i z a t i o n t h ep a p e rh a s21 f i g u r e s ,4 t a b l e s ,4 3 r e f e r e n c e s , k e y w o r d s :v i d e oe n c o d i n g ;v c - 1v i d e oe n c o d i n gt e c h n i q u e ;i n t e rc o d i n g ; m o t i o ne s t i m a t i o n ;d s p 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:善圆圆 导师签名: 签字日期:姗8 年石月e l签字日期:侧细 沙 月否郸n 州 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:善圆圆签字日期:如g年石月石日 5 9 致谢 本论文的工作是在我的导师罗四维教授的悉心指导下完成的,罗四维教授严 谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢两年来 罗四维老师对我的关心和指导。 罗四维教授悉心指导我们完成了实验室的科研工作,在学习上和生活上都给 予了我很大的关心和帮助,在此向罗四维老师表示衷心的谢意。 罗四维教授对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷 心的感谢。 在实验室工作、公司实习及撰写论文期间,徐兴建经理、黄华老师、冯丽同 学等对我论文中的运动估计算法研究和代码优化工作给予了热情帮助,在此向他 们表达我的感激之情。 另外也感谢我的父母和家人,他们的理解和支持使我能够在学校专心完成我 的学业。 1 绪论 1 1 背景介绍 从2 0 世纪8 0 年代开始,人们致力于研究将声音、图形和图像作为新的信息媒 体输入输出计算机,这使得计算机的应用更为直观、容易。随着现代社会中计算 机技术、通信技术、数字信号处理等技术的飞速发展,人类对信息的处理也逐步 进入数字领域和网络交互式处理阶段,从简单的文本信息处理逐步转为多媒体信 息处理。所以可以形象的称2 1 世纪为信息时代、数字时代、多媒体时代。特别是 近几年多媒体技术得到很好的发展,已逐步深入到人们的日常生活和学习中。由 此可见,利用多媒体是计算机技术发展的必然趋势,同时,多媒体处理技术的研 究也具有了重要的意义。 应用多媒体技术是2 0 世纪9 0 年代计算机的时代特征,是9 0 年代计算机的又一 次革命。媒体在计算机领域中有两种含义:一是指用以存储信息的实体,如磁带、 磁盘、光盘和半导体存储器;一是指信息的载体,如数字、文字、声音、图像、 图形和视频。多媒体技术中的媒体是指后者。其中视频因为其直观、准确、易于 接受、信息容量大等特点而成为多媒体信息中的最重要的部分。 数字计算机面临的是多种媒体承载的由模拟量转化为数字量信息的存储和传 输问题。数字化了的视频和音频信号的数据量之大是非常惊人的。例如一页印在 b 5 ( 约1 8 0 m m 2 5 5 m m ) 纸上的文件,若以中等分辨率( 3 0 0 d p i 约1 2 像素点r a m 的扫描仪进行采样,其数据量约6 6 1 m b 页。一片6 5 0 m b 的c d r o m 可存9 8 页。 再举一个陆地卫星( l a n d s a t 3 ) 的例子( 其水平、垂直分辨率分别为2 3 4 0 和3 2 4 0 , 四波段、采样精度7 位) ,它的一幅图像的数据量为2 3 4 0 3 2 4 0 7 x 4 = 2 1 2 ( m b ) , 按每天3 0 幅计,每天数据量为2 1 2 3 0 = 6 3 6 ( g b ) ,每年的数据量高达2 3 0 0 ( g b ) 】。 从以上列举的数据例子可以看出,数字化信息的数据量是很庞大的,这样大 的数据量,无疑给存储器的存储容量、通信干线的信道传输率以及计算机的速度 都增加了极大的压力。这个问题是多媒体技术发展中的一个瓶颈问题。各种视频 压缩标准和技术即在此背景下应运而生,通过数据压缩手段把信息数据量压下来, 以压缩形式存储和传输,既紧缩节约了存储空间,又提高了通信干线的传输效率, 同时也使计算机实时处理音频、视频信息,以保证播放出高质量的视频、音频节 目成为可能。 多媒体数据压缩不仅是必要的而且也是可能的,原因是,多媒体文、声、静 图像、视频图像等信源数据有很强的相关性,也就是说有大量的冗余信息。数据 压缩就是将庞大数据中的冗余信息去掉,即去除数据之间的相关性,保留相互独 立的信息分量。 1 2 视频压缩编码的国际标准 在多媒体世界中,用户如何选择产品,自由的组合、装配来自不同厂家的产 品部件,构成自己满意的系统,这就提出了一个不同厂家产品的兼容性问题,因 此需要一个全球性的统一的国际技术标准。国际标准化协会( i s o ) ,国际电子学 委员会( i r c ) ,国际电信协会( i t u ) 等国际组织,于上世纪9 0 年代开始,制定 了许多重要的多媒体数据压缩标准【l 】。 其中,国际电信联盟( i t u ) 致力于电信应用,已经开发了用于低比特率视频 电话的h 2 6 x 标准,其中包括h 2 6 1 、h 2 6 2 、h 2 6 3 与h 2 6 4 2 】;国际标准化组 织( i s o ) 主要针对消费类应用,已经针对运动图像压缩定义了m p e g 标准。 m p e g 标准包括m p e g l 、m p e g 2 与m p e g 4 。同时,这些国际标准所普遍采用 的混合编码( h v b 订dc o d i n g ) 技术也作为当今最为实用的高效编码方法,得到了广 泛的推广和应用,己成为当今视频编码技术的主流【3 】。图1 1 说明了视频编解码标 准的发展历程。 圈日巨正咽 i m 麟轹壤 il m p 轼融t l m p e g - 4 il | 9 躺1 9 8 61 9 8 8 1 9 9 01 9 9 21 9 9 41 9 9 61 9 9 82 0 0 02 讯趁2 0 0 4 图1 - i 视频压缩标准的发展 f i g u r e l 一1d e v e l o p m e n to ft h ev i d e oc o m p r e s s i o ns t a n d a r d s ( 1 ) h 2 6 1 标准:i t u 编制的h 2 6 1 4 】标准是第一个主流视频压缩标准。它主要针 对双工视频会议应用,是为支持4 0 k p b s , - 、,2 m b p s 的i s d n 网络而设计的。h 2 6 1 支持 3 5 2 2 8 8 ( c i f ) 及1 7 6 1 4 4 ( q c i f ) 分辨率,色度分辨率二次采样为4 :2 :0 。由于可 视电话需要同步实时编解码,因此复杂性设计得较低。由于主要用于对延迟敏感 的双向视频,因此h 2 6 1 仅允许采用i 与p 帧,而不允许b 帧。h 2 6 1 采用基于块的d c t 2 进行残差信号的变换编码,在模块边缘采用的简单2 df i r 滤波器用于平滑参考帧 中的量化效应。h 2 6 1 的产生在视频编码技术领域具有十分重要的意义,后来的 h 2 6 3 和m p e g x 等均是在其基础上产生的。 ( 2 ) m p e g 一1 标准:m p e g 1 【5 】是i s o 开发的第一个视频压缩算法,主要应用是 数字媒体上动态图像与音频的存储与检索,如v c d 。m p e g 1 与h 2 6 1 相似,不过 编码器一般需要更高的性能,以便支持电影内容的较高运动性而不是典型的可视 电话功能。与h 2 6 1 相比,m p e g 一1 允许采用b 帧。另外它还采用自适应感知量化, 也就是说,对每个频段采用单独的量化比例因子( 或等步长) ,以便优化人们的 视觉感受。m p e g 一1 仅支持逐行视频,因此新标准m p e g 一2 已经开始做出努力, 同时支持分辨率及波特率更高的逐行与隔行视频。 ( 3 ) m p e g 一2 h 2 6 2 标准:m p e g 2 【6 】专门针对数字电视而开发,很快成为了迄 今最成功的视频压缩标准。m p e g 2 既能够满足标准逐行视频的需求( 其中视频序 列由一系列按一定时间间隔采集的帧构成) ,又能够满足电视领域常用的隔行视 频的需求。m p e g 2 中的隔行编码工具包含优化运动补偿的能力,同时支持基于场 和基于帧的预测,而且同时支持基于场和基于帧的d c t i d c t 。m p e g 2 增加了分 级视频编码工具,以支持多层视频编码,即:时域分级、空域分级、s n r 分级以 及数据分割。m p e g 2 在4 8 m b p s 时达到的质量适合消费类视频应用,因此它很快 在许多应用中得到普及,如:数字卫星电视、数字有线电视、d v d 以及后来的高 清电视等。 ( 4 ) h 2 6 3 标准:h 2 6 3 7 】是i t u - t 于1 9 9 6 年提出的视频编解码标准,是专为中、 高质量运动图像压缩所设计的低码率视频图像压缩标准。h 2 6 3 的码率较h 2 6 1 的 更低,单位码率可以小于6 4 k b p s ,且所支持的输入原始图像的格式也较广,包括 q c i f ,c i f ,h d t v ,i t u r 6 0 1 ,i t u r 7 0 9 等等。技术上,在h 2 6 1 的基本算法基 础上进行了改进,将运动矢量的搜索精度增加为半像素点搜索;同时增加了无限 制的运动矢量、基于语法的算术编码、高级预测技术和p 、b 帧编码等四个高级选 项。从而进一步降低码率和提高编码质量,使其更适于i p 视频会议和可视电话等 低带宽环境下的应用。 ( 5 ) m p e g 4 标准:m p e g 一4 【8 】标准是融合了图像分析与合成、计算机视觉、计 算图形学、虚拟现实及语言合成技术等多种理论提出的一种音视频编码标准,主 要的特征是基于对象的编码和基于模型的编码,同时还提供了一些基于对象的分 级功能,以适应无线网和互联网等窄带宽网络的传输。m p e g 4 简化类( s p ) 以h 2 6 3 为基础,为改善压缩增加了新的工具,包括:无限制的运动矢量、可变块大小运 动补偿等;增加了容错功能,以支持丢包情况下的恢复;另外还增加了四分之一 像素运动补偿及用于全局运动补偿的选项。m p e g 4 简化类目前在移动数据流中得 3 到广泛应用。 ( 6 ) h 2 6 4 m p e g 一4a v c 标准:视频编码技术在过去几年最重要的发展之一是 由i t u 和i s o i e c 的联合视频小组( j v t ) 开发了h 2 6 4 m p e g - 4a v c 9 j 标准。 h 2 6 4 a v c 在压缩效率方面取得了巨大突破,一般情况下达到m p e g 一2 及m p e g 一4 简化类压缩效率的大约2 倍。尽管h 2 6 4 采用与旧标准相同的主要编码功能,不过 它还具有许多与旧标准不同的新功能,它们一起实现了编码效率的提高。h 2 6 4 采 用空域帧内预测技术,它对预测残差信号和预测模式进行编码;允许采用不同块 大小执行运动补偿;通过允许半像素和四分之一像素运动矢量分辨率可以改善运 动补偿;1 6 个不同的参考帧可以用于帧问编码,从而可以改善视频质量的主观感 受并提高编码效率;采用一种自适应解块滤波器,会在预测回路内对水平和垂直 区块边缘进行处理,用于消除块预测误差造成的失真。h 2 6 4 以其卓越的压缩性能 在电视、高清晰度电视、卫星电视、存储媒体、无线多媒体应用等方面显示出了 巨大的应用潜力。 除了上述的国际视频压缩标准之外,中国也制定了具有自主知识产权的音、 视频编码标准,即2 0 0 3 年l1 月由中国国家信息产业部“数字音视频编码标准组 ( a u d i ov i d e oc o d i n gs t a n d a r dw o r k i n gg r o u po fc h i n a ) 正式发布的a v s 标准草 案,a v s 即为“信息技术先进音视频编码”系列标准的简称。目前a v s 标准正在 通过正式程序提请被评为新的国际音视频压缩编码标准。其编码效率己达到 m p e g 2 的2 3 倍,同时,相对于h 2 6 4 而言,压缩效率和图像质量上差别很小, 算法复杂度也相对有所降低【1 0 1 。 1 3v c 一1 视频编码技术的产生及应用 2 0 0 6 年4 月,微软公司以其在w m v 9 ( w i n d o w sm e d i av i d e o9 ) 基础上开发 的v c 1 ( v i d e oc o d e c1 ) 视频编码压缩技术向美国电影电视工程师协会s m p t e ( s o c i e t yo fm o t i o np i c t u r ea n d t e l e v i s i o ne n g i n e e r s ) 提出公开标准化的申请,并获 得通过,v c 1 正式命名为s m p t e4 2 1 m 【i 。 所谓w m v 格式,是在微软公司的w i n d o w sm e d i a 核心的a s f ( a d v a n c e d s t r e a mf o r m a t ) 格式上升级延伸而来。w m v 是一种数据格式,音频、视频、图像 以及控制命令脚本等多媒体信息通过这种格式,以网络数据包的形式传输,实现 流式多媒体内容发布。w m v 最大优点就是体积小,因此适合网络传输。w m v 9 支持v b r 编码方式,v b r 是v a r i a b l eb i tr a t e ( 可改变之比特率) 的英文缩写。 影片的静止画面和运动画面对压缩采样率的要求是不同的,如果始终保持固定的 比特率,会对影片质量造成影响。在微软对w m v 9 的大力推广下,a v i 文件转成 4 w m v 9 就成了时下流行的方式。w m v 9 和a v i 相比,主要是细节表现不太明显, 这方面比r m v b 做得好些,但是压缩比不如r m v b 强。 在同等视频质量的情况下,w m v 9 v c 1 只有m p e g 4 的1 2 码流,m p e g 一2 的1 4 码流,与h 2 6 4 大致相同【1 2 1 。但在其它方面,w m v 9 v c 。1 却比h 2 6 4 有着 明显的优势。首先在通用性上,微软的w i n d o w s 操作系统占有了桌面操作系统的 9 0 以上、掌上电脑( p d a ) 操作系统的7 0 以上、智能手机操作系统的5 0 以 上,所有这些设备都不需要任何新的软件就可以播放w m v 9 。其次微软的视频编 码器可以在微软的网站上免费下载,在一台普通配置的电脑上就可以使用,然而, 一台h 2 6 4 的视频编码系统要几万美金。第三,对于系统的要求,相同条件下, w m v 9 的解码难度只有h 2 6 4 的一半,这对手持式设备是非常关键的,因为这意 味着使用w m v 9 的系统在c p u 速度、功耗、成本等方面都将占有极大的优势。 最后,微软己经开发了大量与w m v 9 配套的技术,如用于流媒体的a s f ,用于加 密的d r m 。 v c 1 在高清晰度影片上表现出色,具备迅速缩小与h 2 6 4 差距的潜力,v c l 的优势在于w m v 9 已在互联网中得到广泛应用,目前已得到超过7 5 个公司的支 持,具有很强的竞争力。v c 一1 可应用于移动视频通信、流媒体和高清d v d 等方 面。虽然h 2 6 4 也可以部署在微软的i p t v 平台上,但已经采用微软w m v 9 的公 司更倾向于使用完整的微软i p t v 集成方案。v c 一1 的主要定位是消费电子市场, v c 1 现在已成为h d d v d 和蓝光d v d 的强制性编码,在北美发行的h d d v d 都采用了微软的v c 1 视频编码,许多电信公司如n b c 已宣布支持微软的i p t v 平台,华纳已经开始采用v c 1 编码来进行视频点播。 1 4 国内外发展状况 v c 1 由于是微软支持的技术标准,在基于p c 平台的w i n d o w s 系统及互联网 中得到了广泛应用。另一方面v c 1 与h 2 6 4 压缩效率相当,但运算复杂度相对较 低。因此也同样能够被广泛应用至广播电视等视频压缩领域当中。t a n d b e r g , h a r m o n i c 等厂商部推出了实时的支持高清或标清的v c 1 编码器;而s i g m ad e s i g n s 等厂商也相应推出了v c l 的解码芯片。 v c 1 所具有的这些优势仍然是在牺牲计算复杂度的基础上实现的。因为其算 法较为复杂,目前的计算能力在实现其较好的实时编码方面还有些难度。为了适 应多媒体技术特别是视频传输应用要求的不断提高,对v c 1 视频编码技术的算法 优化和硬件上的实现是目前需要解决的问题。 近年来,由于半导体制造工艺的发展和计算机体系结构等方面的改进, 5 d s p ( d i g i t a ls i g n a lp r o c e s s i n g ) 芯片的功能也越来越强大。这使得信号处理研究的重 点在很大程度上可以放到软件的算法优化实现上,且随着d s p 运算速度的提高, 能够实时处理的信号带宽也大大增加,数字信号处理的研究重点由非实时应用转 向了实时应用【l 引。t m s 3 2 0 d m 6 4 2 是t i 公司开发研制的一款专门面向多媒体应用 的专用数字信号处理芯片,比较适用于v c 1 编码的硬件实现。目前,世界上许多 公司如美国的t i 、a d i 等都已经完成了v c 1 在d s p 上的移植。 1 5 本论文内容安排 第l 章简要介绍了课题背景,视频压缩算法的发展及现有的国际压缩标准, 对v c 一1 的国内外发展状况进行了简单介绍。 第2 章介绍了v c 1 视频编码框架和主要功能模块及关键技术。其中对帧内编 码、帧间编码、变换与量化、熵编码、环路滤波和重叠平滑技术、隔行编码以及 其他一些技术分别进行了详细的分析论述。 第3 章对帧问编码所涉及的运动估计部分进行算法优化,通过对块匹配算法 的分析,对十字一菱形算法进行了改进,并进行了性能分析。 第4 章介绍了t m s 3 2 0 d m 6 4 2 数字信号处理芯片,将v c 1 编码算法移植到 d s p 上并进行代码结构改进、c 语言和线性汇编级优化,最终使v c 1 编码器的性 能得到良好的优化效果。 6 2v c 1 视频编码技术的分析及研究 2 1 视频编码的基本原理 视频编码的整体思想就是通过去除或减少各种相关以降低视频内容中的冗 余,以达到用较少的比特数来表示较大的视频图像内容的目的,进而实现对视频 数据的压缩【1 4 】。 视频图像数据有极强的相关性,也就是说有大量的冗余信息。其中冗余信息 可分为空域冗余信息和时域冗余信息。压缩技术就是将数据中的冗余信息去掉, 即去除数据之间的相关性,压缩技术包含帧内图像数据压缩技术、帧间图像数据 压缩技术和熵编码压缩技术。 使用帧问编码技术可去除时域冗余信息,它包括以下三部分:运动补偿、运 动表示、运动估计。其中,运动补偿是通过先前的局部图像来预测、补偿当前的 局部图像,它是减少帧序列冗余信息的有效方法。运动表示是指,不同区域的图 像需要使用不同的运动矢量来描述运动信息,运动矢量通过熵编码进行压缩。运 动估计是从视频序列中抽取运动信息的一整套技术。通用的压缩标准都使用基于 块的运动估计和运动补偿。 去空域冗余信息主要使用帧内编码技术和熵编码技术。帧内图像和预测差分 信号都有很高的空域冗余信息。变换编码将空域信号变换到另一正交矢量空间, 使其相关性下降,数据冗余度减小。经过变换编码后,产生一批变换系数,对这 些系数进行量化,使编码器的输出达到一定的位率,这一过程导致精度的降低。 熵编码是无损编码。它对变换、量化后得到的系数和运动信息,进行进一步的压 缩。 目前,较为经典和广泛使用的图像压缩编码方法是混合编码,通过减少统计 冗余来达到压缩图像数据量的目的【1 5 】。 2 2v c 一1 编码器结构 v c 1 标准能够支持小尺寸、低码率图像压缩应用( 1 6 0 1 2 0 ,1 0 k b p s ) ,也 能够支持大尺寸、高码率图像压缩应用( 2 8 0 x 7 2 0 1 9 2 0 1 0 8 0 ,4 m b p s - 8 m b p s 。 对于一些要求更高质量的数字高清母版图像它还能够提供更高的压缩码率【1 6 】。 v c l 的编码结构是基于块的运动补偿混合编码结构,如图2 - 1 ,v c 1 在频率 域中进行帧内预测;另外,v c 1 的熵编码采用的是自适应变长编码。 7 图2 1v c l 的编码器结构 f i g u r e 2 - 1v c 1e n c o d e rd i a g r a m v c 一1 标准的图像压缩采用8 比特,4 :2 :0 的格式。系统方案采用基于块的运动 补偿和空间变换技术,这与目前广泛使用的m p e g 系列标准非常相似。广泛的讲, 该类标准都是利用二维运动矢量实现块的运动补偿,寻找当前块在参考帧中同样 大小的最佳匹配块,然后计算匹配块与实际块的差值,形成残差块,最终将这些 残差的图像数据进行空间变换、量化和熵编码。 v c 一1 标准中共包括3 个类分别是简单类、主类和高级类,即s i m p l e 、m a i n 和 a d v a n c e d 。这里的类是指标准中某些特定编码工具、语法和算法的集合。在每个类 中还包括不同的级,用于表示不通的参数集合,如比特率、缓冲区大小等。更高 的级意味着需要更快的处理速度和更多的内存。 简单类主要是用于低比特率的互联网流媒体和低复杂度图像压缩应用。如手 机、个人数字助理( p d a ) 中的视频播放等,该类包括2 个级。主类是为满足高 码率的互联网传输应用,如流媒体电影、电视或视频点播等,该类包括3 个级。 高级类用于支持广播电视等高质量的视频压缩、如数字电视、h dd v d 及h d t v 等,它是唯一一个支持隔行内容的类,并且该类还定义了一些特殊的语法元素用 以能够在目前一些通用的广播系统( 如m p e g 2t s ) 中传输v c 1 压缩的视频内容, 该类中包括5 个级。 2 3v c 一1 视频编码用到的关键技术 与m p e g 等系列标准相比较而言,v c 1 采用了许多先进的技术来提高图像压 缩的率失真性能和主观视觉特性。包括1 4 像素精度的运动补偿、先进的熵编码技 8 术、重叠平滑技术等【l7 1 。 v c 1 格式是基于w i n d o w sm e d i av i d e o9 压缩技术的影像压缩标准,由三大 编解码部件所组成【1 8 】。这些部件包含了以下三种: ( 1 ) w m v 3 :也就是过去俗称的w m v 9 ,w m v 3 可以说是v c 1 的构成基础, 它支持了循序编码方式,可用来作为电脑的显示,也支持了电视常用的逐行扫描 方式,不过当微软开始进行w m v a d v a n c e dp r o f i l e 的研发与推广后,w m v 3 的隔 行编码就不再被需要了。w m v 3 包含了s i m p l e 以及m a i n 这两种p r o f i l e ,并且应 用在v c 1 编解码标准中。 ( 2 ) w m v a :这是最原始版本的w m va d v a n c ep r o f i l e ,被s m p t e 接受纳入为 v c 1 标准的草案,这个部件也被包含在微软的视窗多媒体播放软件w i n d o w s m e d i ap l a y e r1 0 当中,不过在2 0 0 6 年正式被w v c l 所取代。 ( 3 ) w v c l :也就是w i n d o w sm e d i av i d e o9a d v a n c e dp r o f i l e 的证式版,成为 v c 1 中最主要的编码架构,被应用在新一代蓝光影音的压缩标准中。 2 3 1帧内编码 帧内编码的思想是根据同一帧内的相邻宏块间具有空间相关性,特别是当相 邻像素位于同一视频对象中( 如背景区域) 时,其相关性极强的特点,采用对点的预 测编码算法去除这种空间相关性,从而降低i 帧的编码码流长度。 v c 1 的帧内预测采用传统m p e g 标准的预测模式,即在频率域内进行帧内预 测,在反量化前和重叠平滑化之后采用8 8 块的d c 系数与a c 系数的预测【1 9 】。 与h 2 4 6 基于空间域的帧内预测相比,v c 1 在预测精度和效率方面相对h 2 6 4 低 一些,但技术成熟,易于实现。 d c 与a c 的预测是在一个8 8 小区块的d c 区域与a c 区域做预测,如图 2 2 所示,a c 区域仅做a c l 区域或a c 2 区域择一预测。d c 的值的预测是由上面 相邻小区块或由左边相邻小区块的d c 区域的值而得。要做a c l 区域或a c 2 区域 的预测是依据d c 预测是从何处来而定。若d c 预测值是从上面的相邻小区块而来, 则做a c l 区域预测,其值为上面相邻小区块相对a c l 区域的值。同样的,若d c 预测值是从左边的相邻小区块而来,则做a c 2 区域预测,其值为左边相邻小区块 相对a c 2 区域的值。 重叠平滑化步骤后的同画面预测就很简单,是一个全部都是1 2 8 值的8 8 矩 阵。 9 2 3 2 帧间编码 图2 2v c 一1d c 与a c 的预测 f i g u r e 2 - 2t h ep r e d i c t i o no fd ca n da c i nv c 一1 与以往的视频编码标准类似,v c 1 也使用块匹配的帧问预测以消除视频序列 的时域冗余。 帧间编码的基本思想是根据视频序列中相邻帧在时间轴上有很强的相关性, 存在大量的冗余信息,利用运动补偿技术对帧间图像进行编码,以去除时域上的 相关性。目前广为应用于视频压缩国际标准的主体技术框架中的运动补偿帧间预 测编码如图2 3 所示。 其中,v l c 是变长编码;离散余弦变换( d c t :d i s c r e t ec o s i n et r a n s f o r m ) 及其逆变换( d c t 1 ) 在此的作用是,把对预测误差的量化和恢复( 分别用q 和q - 1 表示) 由“空间域变换到“频率域 进行;而运动参数估计器( m e ) 、运动补 偿器( m c ) 和帧存储器的共同作用,则构成了帧间编码的预测器【2 0 】。帧间编码预 测器还需要将额外的运动矢量( m v :m o t i o nv e c t o r ,即对运动物体的位移估计) 编码传输给接收端。在实际编码传输时,仅传输真实值n 与预测值n 之间的差值 d 。当运动估计十分有效时,则d 的取值也基本在0 值附近,从而达到减小码流 的目的。由此可见,运动补偿帧间预测的技术组成主要有: ( 1 ) 图像分割:把图像划分为静止的和运动的两部分,这里假设运动物体仅作 平移; ( 2 ) 运动估值:估计物体的位移值,得到运动矢量; ( 3 ) 运动补偿:用运动矢量补偿( 或抵消) 物体的运动效果,再进行预测; ( 4 ) 预测信息编码:包括帧间预测误差和运动矢量。 1 0 圈缘输入科流输出 图2 3 运动补偿帧间预测编码器框图 f i g u r e 2 3m o t i o nc o m p e n s a t i o ni n t e rp r e d i c t i o ne n c o d e rd i a g r a m 块匹配算法( b m a :b l o c km a t c h i n ga l g o r i t h m ) 是目前最常用的一类运动估 值算法。其基本原理是,将当前帧划分为m n 大小的图像子块,假设子块内各 像素只作相同的平移运动。对当f j 帧的每一个图像子块,在上一帧的某一搜索范 围内寻求最优匹配,并认为本子块就是从上一帧的最优匹配块位置处平移过来的。 若最大可能的运动矢量为j 一= ( a x m 戤,a y 一) 。,则该搜索范围为 ( m + 2 砂一) ( + 2 d x m a x ) 。衡量匹配效果的常用准则有归一化互相关函数 ( n c c f :n o r m a l i z a t i o nc r o s sc o r r e l a t i o nf u n c t i o n ) 、均方误差( m s e :m e a ns q u a r e d e r r o r ) 和绝对误差和( s a d :s u mo f a b s o l u t ed i f f e r e n c e ) 。采用3 种准则所得到的 估值结果差别不大,但s a d 准则无需乘法,便于计算和硬件实现,所以用的最多。 v c 一1 也采用这种准则作为判别标准。s a d 定义为: mn s a d ( i ,歹) = i s ,( 珑,z ) 一s 一。( 聊+ f ,l + ) l ( 式2 1 ) m = ln = l ( 一咖。啦f ,一j d 夏嗽) 式中墨( 所,n ) 为第下帧( 当前帧) 中的图像块值,墨一,( m + f ,n + ) 为前一帧的搜索 范围,( f ,歹) 7 即为运动矢量,若在某一个( f ,) r = ( 玉,函) r 处s a d ( i , j ) 达到最小,则 该点就是要找的最优匹配点。 v c 一1 的帧问编码仍然是基于运动估计和补偿,以消除时域相关性,是压缩效 率的重要来源。v c 1 的帧间预测参考帧仅由前1 帧的重建帧所组成,减小了缓存 容量,使编解码器的复杂性大为降低。 预测块的大小是影响运动补偿效果的重要因素。v c 一1 采用1 6 x 1 6 、8 8 两种 大小的块,另外考虑到帧场自适应的预测,也包括了1 6 x 8 的块。通过特定的判决 准则来选用不同的运动补偿的块类型,从而提高预测的精确性和编码效率。虽然 v c 1 的块尺寸没有h 2 6 4 完整,但明显的减小了计算量。 运动矢量精度是决定帧间预测精确性的重要因素。v c 1 标准的运动矢量精度 可以达到1 4 像素,相对于整像素和半像素来说,明显的提高了预测的精确性,从 而得到更好的压缩效率。v c 1 支持两种内插运算:1 2 像素的b i l i n e a r 内插运算和 1 4 像素的b i c u b i c 内插运算。v c 1 的移动向量可分为1 m v 、1 - m vh a l f - p e l 、1 - m v h a l f - p e lb i l i n e a r 、m i x e d m v 与i n t e n s i t yc o m p e n s a t i o n 等五种型态,若移动向量 型态是1 m vh a l f p e lb i l i n e a r ,是使用b i l i n e a r 内插方式推导非整数点外,所有其 他的型态则使用b i c u b i c 内插方式推导非整数点1 2 。 首先说明b i l i n e a r 内插方式,在说明内插法找非整数像素点之前,先定义出 整数点与小数点的对应关系。如图2 4 所示,大写英文字母a 、b 、c 、d 分别代 表四个整数点,小写英文字母a 、b 、c 、则分别代表小数点的状态。 图2 4 双线性内插不葸图 f i g u r e 2 - 4b i l i n e a ri n t e r p o l a t i o nd i a g r a m 若a 为( o ,o ) 点,b 为( o ,1 ) 点,d 为( 1 ,o ) 点,则g 为( 3 4 ,1 4 ) 。假设p = ( x 4 ,y 4 ) 是要推导的小数点,b i l i n e a r 内插公式为: p = ( f x l f y a + f x l g y b + g x g y c + g x f y d + 8 一月彻) 4 ( 式2 2 ) 其中研 _ 4 ,3 ,2 ,1 ,0 ) ,g 【 = 0 ,1 ,2 ,3 ,4 ) ,r n d 为r o u n d i n gc o n t r o lv a l u e ,用 以控制四舍五入。在if r a m e 中r n d = 1 ,在pf r a m e 中,则为o 1 区间内的值。 依据此公式,小写英文字母a 、b 、c 、可由整数点推导而得如表2 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论