




已阅读5页,还剩74页未读, 继续免费阅读
(信号与信息处理专业论文)mpeg2到avs及h264到avs转码研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 近几十年国际数字视频压缩标准的出现极大地推动了数字视频应用领域的发 展,比如数字电视、网络流媒体、视频会议可视电话等等。目前主要存在的数字 视频标准主要有国际电信联盟i t u 所制定的h 2 6 1 h 2 6 3 h 2 6 4 系列,国际标准化 组织i s o 制定的m p e g l 2 4 系列,以及我国具有自主知识产权的第二代视频编码 标准a v s 等等。其中尤以m p e g 2 在目前的软件、硬件以及多媒体数据存储应用 上最为广泛。但在无线移动传输,网络视频会议等带宽有限的应用场合,m p e g 2 并不适用。与之相比,a v s 具有更高的编码效率,并且不受专利困扰等优点。因 此实现m p e g 2 编码的多媒体数据转换到a v s 编码数据在视频应用领域是一种可 行且有效的解决方案。 本文首先介绍了视频转码技术的背景和研究现状,然后通过对m p e g 2 以及 a v s 的编码过程以及关键技术的研究分析,给出了两者间像素域级联转码结构以 及d c t 域转码算法结构,并同时采用了一种i 帧变换域转码算法,在p c 平台实 现了两者数据之间的转换。在两种结构基础上,分析了转码的耗时模块,分别为 帧间运动矢量估计模块和i 帧p 帧的亚像素和1 4 像素插值计算模块。通过采用帧 间运动矢量重用算法和s s e 指令在代码级别对转码工程进行了优化。同时采用了 一种根据m p e g 2 端d c t 系数进行a v s 端i 帧预测模式计算的方式减少了预测模 式决策时间。通过不同分辨率的视频序列转码测试结果,验证了本文的转码算法 在保证图像质量下降较少的前提下大幅提高了转码速度,针对c i f 格式可实现实 时转码并播放。本文同时以给出了与“m p e g 2 到a v s 转码工程 类似的h 2 6 4 到a v s 转码研究以及部分转码结果。其中采用了一种重用h 2 6 4 端帧内预测模式 进行a v s 端对应块预测模式的映射算法以及帧间运动矢量重用算法,同时根据理 论推导给出了两种标准间变换系数的对应转换关系,即本文中指的s 变换。 关键词:视频转码,m p e g 2 ,h 2 6 4 ,a v s ,变换域,s s e a b s t r a c t a b s t r a c t d u r i n gt h er e c e n td e c a d e s ,t h ei n t e r n a t i o n a lv i d e oc o d i n gs t a n d a r dd e v e l o p e dt h e u t i l i t yo fd i g i t a l v i d e o t e c h n o l o g yl i k ed i g i t a lt v , n e t w o r km u l t i m e d i as t r e a m , n e t w o r kv i d e om e e t i n ge t c t h em a i nv i d e oc o d i n gs t a n d a r d st h a ta r ew i d e l yu s e d n o w a d a y si n c l u d eh 2 6 xs e r i e s ,m p e g xs e r i e s ,a n da v s a m o n ga l lt h e s es t a n d a r d s , m p e g 2i st h em o s tw i d e l yu s e do n ei ns o f t w a r e ,h a r d w a r ed e s i g na n dm u l t i m e d i a d a t as t o r a g ed o m a i n b u ti ns o m eb a n d w i d t hl i m i t e da p p l i c a t i o na r e a sl i k ew i r e l e s s t r a n s m i s s i o n , n e t w o r kv i d e om e e t i n g , m p e g 2i sn o tt h eb e s tc h o i c e c o m p a r e dt o m p e g 2 ,a v sh a sh i g h e rc o d i n ge f f i c i e n c ya n do w n st h ek e yv i d e oc o d i n gp a t e n t i n c o n c l u s i o n ,t h et r a n s c o d i n gf r o mm p e g 2 t oa v si so n ev i a b l ea n de f f e c t i v er e s o l u t i o n i nv i d e ot e c h n o l o g ya p p l i c a t i o na r e a i nt h i sd i s s e r t a t i o n , t h ev i d e ot r a n s c o d i n gt e c h n o l o g yb a c k g r o u n da n da c t u a l i t ya r e f i r s td i s c u s s e d t h e nw ei n t r o d u c et h ek e yc o d i n gt e c h n o l o g yo fm p e g 2a n da v st op u t f o r w a r dt h ep i x e lc a s c a d et r a n s c o d i n gf r a m e w o r ka n daf a s tt r a n s f o r md o m a i n t r a n s c o d i n gf r a m e w o r kf r o mm p e g 2t oa v s m e a n w h i l eaf a s tif r a m et r a n s f o r m d o m a i nt r a n s c o d i n ga l g o r i t h mi sp u tf o r w a r di nt h i sp a p e r t h et r a n s c o d i n gf r a m e w o r k i si m p l e m e n t e do np cp a l t e f o r mu s i n gm p e g 2t ms o u r c ec o d ea n da v sr m 5 2 fs o u r c e c o d e a c c o r d i n gt oa n a l y z i n gt h et i m ec o s to fa l lf u n c t i o nm o d u l e s ,w ef o u n dt h a tt h e i n t e rf r a m e s m vr e e s t i m a t i o nm o d u l ea n dt h eh a l f q u a r t e rp i x e li n t e r p o l a t i o nm o d u l e i ni pf r a m e sc o s tt h em o s tt i m ei nt h et r a n s c o d i n gp r o c e s s am v r e - u s i n ga l g o r i t h m b e t w e e ni n t e rf r a m e sa n ds s ec o d ea r ea d o p t e dt oo p t i m i z et h ep r o j e c t m e a n w h i l ei f i m a e s p r e d i c t i o nm o d e si na v se n c o d e ra r ed e c i d e db yd c tc o e f f i c i e n t sf r o m m p e g 2d e c o d e r t h et e s tr e s u l to ft h r e er e s o l u t i o ns t r e a mv e r i f i e st h a tt h ea l g o r i t h mp u t f o r w a r di nt h i sp a p e ra c c e l e r a t et h et r a n s c o d i n gp r o c e s s 谢t l ll i t t l ep i c t u r ed i s t o r t i o na n d t r a n s c o d ec i f m 2 vs t r e a mt o a v ss t r e a mi nr e a lt i m e t h e “h 2 6 4t oa v st r a n s c o d i n g p r o j e c t i sd i s c u s s e di nt h ef i f t hc h a p t e r t h ep r e d i c t i o nm o d e sm a p p i n ga l g o r i t h ma n ds t r a n s f o r m a t i o na r ep u tf o r w a r di nt h i sp r o j e c t k e y w o r d :v i d e ot r a n s c o d i n g ,m p e g 2 ,a v s ,t r a n s f o r md o m a i n ,s s e i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名: j 园茎:笙、日期:沏艿年月2 ,日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:虱壶垩 导师签名:鑫鱼亟立: 日期:动年月日 第一章绪论 1 1 课题背景和意义 第一章绪论 目前数字视频技术的应用相当广泛,包括多媒体数据存储、网络视频电话会 议、网络流媒体应用以及数字电视等等诸多领域。在如此广泛的应用领域里,各 个设备厂商所使用的视频标准以及各种标准不同级别所适用的范围也千差万别, 因此,实现各种视频标准数据之间的相互转换以及标准内部不同级别之间的转换 均有其特定的应用领域。尤其在上个世纪九十年代,视频转码成为视频编码领域 一个新的研究热点。 由国际标准化组织( i s o ) 制定的m p e g 2 标准目前在各个视频技术应用领域占 据了主导地位,比如广播卫星服务、光纤网络有线电视、多媒体数据存储、可视 会议、视频监控等等。因此现阶段数字视频设备厂商针对m p e g 2 无论在硬件、软 件还是数据存储上均有巨大积累,但实际情况是在很多领域m p e g 2 由于编码效率 低、占据带宽较大等缺点,并不适用。我国具有自主知识产权的a v s 具有更高的 编码效率并且能够支持更广泛的应用以及不受专利产权的困扰等优势。因此,实 现m p e g 2 到a v s 的转码是有效的解决方案。 1 2 国内外研究现状 视频转码技术是指将多媒体内容从一种编码格式转换到另一种编码格式,使 在转换处理之后的数据能够满足信道传输或者接受端对码流的要求的技术。 以下列出了视频转码应用的领域: ( 1 ) 各种视频编码标准存在以及应用的领域各不相同,在这些应用的交叉领域 需要视频转码技术; ( 2 ) 不同的网络以不同的带宽运行,网络互联需要视频转码技术; ( 3 ) 不同的解码环境具有不同的解码能力,包括运算速度、参考帧存储器大小 以及码流缓冲器容量等等,码流可能需要经过转换才能输入解码器; ( 4 ) 显示终端需要的分辨率不同,可以通过视频转码技术合成符合分辨率要求 的码流。 电子科技大学硕士学位论文 目前视频转码技术主要集中在码率转换、分辨率转换和异类码流之间的转换 等几个研究方向。下面简单介绍各种应用的研究现状。 1 2 1 码率转换 在电视广播、因特网视频流传输以及无限网络等领域,由于各种信道活着数 字设备网络带宽各不相同,不能统一使用同一种码流。而实现码流的码率转换, 可以有效地减低码率以节省带宽,得到网络传输或者数字设备应用中带宽所允许 的码流。这种技术的研究主要集中在降低复杂度和减少误差漂移两个方向【1 1 。 由于视频编码的原理是基于时间以及空间上图像帧的参考,因此如果解码得 到的图像与原始图像不匹配的情况下,必然导致后续图像中使用当前帧作为参考 的图像解码得到的图像与原始图像不匹配,误差的积累会使图像质量严重下降直 至另一帧内编码帧的出现,这种情况称之为误差漂移。由于在有损编码过程中会 去除图像很多高频分量,量化过程也决定了压缩后的图像与原始图像必然存在差 异,因此误差漂移在编码中普遍存在,而转码过程实际上还是解码后重新编码的 过程,这必然造成误差的进一步漂移。当误差漂移到达一定水平,转码过后的码 流经过相应的解码器解码,得到的图像就不再符合应用需求。 文献 2 列出了较早的针对m p e g 2 视频压缩流之间码率转换方面提出的四种 方法。第一种是截断高频d c t 分量( 如图1 1 ) ,通过丢弃部分高频d c t 系数,是 各块的比特数满足要求,但缺点是会造成图像细节的损失,容易在重建帧中产生 块效应。第二种方法是选取合适量化步长,对解码后频域系数进行再量化来降低 码率,其转码框架如图1 2 所示。第三种方法利用提取的运动矢量和编码模式信息, 通过将这些信息经过一定的计算或者映射得到的信息来对图像重新编码,避免重 新运动估计以及编码模式的选择,并重新进行运动补偿防止误差积累。第四种方 法在第三种基础上重新选择最优编码模式。 图1 1 截断高频系数方法的结构图 2 第一章绪论 图l - 2 频域系数再量化结构图 图1 - 3 一种衍生的全解全编转码结构 以上四种方法中,方法一、二属于开环系统,不需要进行d c t 1 d c t 且重建 图像,这样在很大程度上降低了复杂度。然而,由于编解码器的预测器中的重建 图像不相匹配导致了漂移误差的产生,在g o p 内,图像误差逐渐积累。方法三、 四属于闭环系统,虽然复杂度略高,但由于对解码图像进行了重建,反馈参考帧 图像,重新计算了各宏块的残差,有效地去除了误差扩散,因此其转码视频质量 较高。关于转码质量的比较,开环方法由于误差扩散所以质量较差,全解全编转 码的质量最好,闭环方法的质量接近全解全编,但转码复杂度比较低。 除此四种方法,图1 3 给出了全解全编方式的一种衍生结构,这种结构直接从 输入码流提取相应编码信息,不需要运动估计,而且d c t 和i d c t 只需要各进行 一次,大幅度降低了复杂度,并相对于图1 。2 给出的转码结构得到的结果质量上有 一定的提高。对于转码所需的运动信息,相比较上面方法三、四中采用的简单的 重用策略,文献【3 ,4 分析了调整量化步长导致运动矢量非最优,采用运动矢量优 化方法( m o t i o n v e c t o rr e f i n e m e n ts c h e m e ,m v k ) 提高运动估计精度。为降低闭环形式 的复杂度,文献 5 】分析了闭环结构中的量化误差积累补偿问题,提出一种阈值自适 应算法,利用积累量化误差的大小决定是否误差补偿,进一步降低了计算复杂度。 另外一种码率转换是从恒定码率流( c b r ,c o n s t a n tb i tr a t e ) 转换到可变码率流 ( v b r , v a r i a b l eb i tr a t e ) 。前者码率恒定但是解码得到的图象质量不稳定,后者获 得的图像质量稳定但是码率不恒定。 3 电子科技大学硕士学位论文 同时码率转换可以在变换域进行,其结构即是在图1 3 的基础上省略了i d c t 和d c t 计算,这样可以迸一步降低计算复杂度,但是其问题在于在变换域上的运 动估计以及漂移误差的补偿同样具有一定计算复杂度,并且获得的结果并不理想。 本文将会从这个角度进行一定程度的探讨。 1 2 2 空间分辨率转码 空间分辨率转码的提出是由于不同的显示终端设备所支持的或者所要求的空 间分辨率各不相同,因此需要将输入的码流经过空间分辨率转码以适用于显示设 备。应用场合比如手持设备需要播放p c 上的码流,由于两者支持的分辨率有区别, 需要将p c 上的码流降低分辨率以应用到手持设备上来显示。同时从高清电视到标 清电视的转换也是空间分辨率转码的原因之一。与降码率转换转码相比,空间分 辨率转码在全解全编转码结构中需要加入一个采样模块【6 】。在分辨率转码这一研究 方向中主要有以下几方面内容:降低空间分辨率下采样算法 7 引,运动矢量映射算 法和伸缩算法【9 t1 0 1 ,宏块编码模式决策算法【1 1 】以及帧内刷新机制【1 2 | 1 3 1 等等。 降低空间分辨率下采样算法即是要缩小图像的空间尺寸,主要存在以下三种 方法【8 】: ( 1 ) 像素平均法,即是使用2 2 像素的平均值来表示一个像素,适用于缩放比 例为2 的整数次方的情况; ( 2 ) 滤波加子采样法,文献 8 中采用了七抽头滤波器对原图像滤波然后抽样; ( 3 ) 用截断原输入d c t 系数的方法来获取低分辨率的图像的d c t 系数【1 4 1 。当 缩放比例不是整数分之一时,文献 7 】提出了对原图像进行补零插值然后再用低通 滤波器去除插值带来的高频残差,最后进行下采样得到所需要的图像。其流程图 如图1 4 所示,l 为上采样倍数,m 为下采样倍数。 图l _ 4 缩放比例为l m 时分辨率转码结构图 运动矢量的映射和伸缩算法是指在降低了图像空间分辨率的前提下,低分辨 率图像每一个宏块会对应原图像的多个宏块,因此其运动矢量存在多对一的映射。 这种映射的算法当前的研究成果比较多,最直观的便是文献 1 0 中提到的平均法、 中值法和在降低分辨率后的当前块所对应的原图像宏块中当前任意选取一个矢量 作为当前块的运动矢量等算法;文献 15 】中采用的利用图像活动度做加权平均来计 4 兰二垩笙笙 算运动矢量;文献 8 】中采用各个宏块在降采样宏块上对应的面积,对候选运动矢 量做加权平均来计算运动矢量,这种方法的缺点是对脉冲噪声很敏感;针对这一 缺点,文献 1 1 ,1 6 】提出了使用加权中值滤波方法来计算预测运动矢量;文献 1 7 】 提出了一种d c m a x 的方法,其原理是利用原各宏块当d c 系数作为活动度度量, 可以降低复杂度且获取的p s n r 值高于平均值法;文献 1 6 】讨论了在输入图片格式 为场同时存在跳帧的情况时,预测运动矢量的计算方法,最后,在上述方法所得运 动矢量的附近进行m v r ,可得到更准确的运动矢量。 宏块编码模式决策指在运动估计之后转码器的编码端重新计算或者利用从已 解码码流获取的信息映射当前宏块的编码模式。在降低分辨率的情况下宏块模式 决策较保持相同分辨率转码情况下的决策复杂,目前己存在很多此类型转码的映 射策略。文献 1 8 】给出如图1 5 所示的2 :1 下采样决策的处理方法如下:如果 四个宏块至少有一个i n t r a 类型,新宏块选择i n t r a 类型;否则,如果四个 宏块均为i n t e r 类型,则选择i n t e r 类型;否则,如果所有宏块为s k i p 类型, 选择s k i p 类型;否则,重新估计宏块类型。这种决策方式可以称作“少数服从 多数”原则。文献 1 0 中也提出了对于b 帧编码预测方向时也可采取同样的策略, 候选项则变为前向、后向以及双向三种。 p r e d 2 p r e d 3p r e d 4 模式映射前各4 x 4 模块 预测模式示意图 模式映射后8 x 8 模块 预测模式示意图 图l 一52 :1f = 采样宏块模式决策 帧内刷新机制指由于前述的误差漂移影响,输出的视频图像质量在不采取抑 制误差前提下会逐步变坏,为了抵抗质量的下降,需要在p 帧中提供一定比例的 帧内宏块编码 1 9 2 0 1 。 1 2 3 时间分辨率转码 由于不同的网络具有不同的带宽,不同的终端解码设备也具有不同的解码能 力,因此需要降低视频序列帧率来适应不同的应用环境,这种转换称之为时间分 辨率转码。这种转码方式不仅降低码率,也降低了对其进行处理的设备的解码 s 电子科技大学硕士掌位论文 能力的要求,可以使用于网络带宽窄、终端设备解码能力弱等场合。其中涉及的 关键技术主要是丢帧策略【2 l 】、必要时的帧类型转换策略 2 2 1 、场帧转换策略2 2 1 以 及合理利用己丢弃帧信息合成运动矢量的策叫1 6 ,2 3 2 4 】等等。 丢帧策略可以最明显的降低码率,但是也会造成转码后显示图像视觉的不连 续。考虑到b 帧对i 和p 帧的解码没有影响,文献 2 2 中提出的首先考虑丢弃b 帧。 为了使转码后视频序列在输出码率符合带宽要求的同时图像中的运动较为平滑, 文献 2 1 1 提出了根绝运动矢量的积累幅度来决定是否丢帧。 帧类型转换的提出是由于在m p e g 2 转码到m p e g 4 时,m p e g 4 的s p 帧不支 持b 帧,因此需要将原来的b 帧转码到p 帧。其原理是将原来存在的前向、后向 以及双向运动矢量按照依赖关系全部转换成前向运动矢量。文献 1 0 给出了如图 1 - 6 所示的m p e g 2 到m p e g 4 转码时丢帧及更新参考帧和运动矢量的示意图。 ,弋一r 弋 ib 1b 2p 3b 4b 5p 6b 7b 8p 9 i p a p b p cp d 。一夕一,。夕卜、 图1 - 6 降低帧率转码时的运动矢量更新实例 场帧转换策略指转码过程将原始场编码的帧转换为帧编码的帧。文献【2 2 】给出 了针对m p e g 2 到h 2 6 3 转码中“i 场p 帧 和“p 场。p 帧”转换时运动矢量的调 整算法。 运动矢量的合成算法是指由于视频各帧之间由运动矢量的产生而具有依赖关 系,一旦丢帧会产生中断。如果将被丢弃的帧包含的运动矢量合理利用加以累积 可以产生指向新的参考帧的运动矢量 2 1 2 5 1 。其中涉及的关键技术主要包含如下几 个方面:双线性插值算澍2 1 1 、前向主矢量选择算澍2 3 1 、伸缩矢量合成法【2 5 】以及宏 块活动度主运动矢量选择算法【2 6 1 等等。当前宏块在被丢弃的参考帧中最多与四个 彼此相邻的宏块相重叠。双线性插值算法对这四个宏块的运动矢量进行线性插值, 求得重叠区域在前面未被丢弃的参考帧中对应的运动矢量,通过叠加求得当前宏 块指向新参考帧的运动矢量。f d v s 方法则在这四个宏块中,选取重叠面积最大 的宏块为主宏块,取主宏块的运动矢量为所需的中间运动矢量。如图1 7 给出的前 向主矢量选择算法的原理图,选择面积最大的宏块e - 1 为主宏块,取其运动矢量 6 第一章绪论 朋w _ 1 为中间运动矢量帆,。t v c 与f d v s 十分相似,但是复杂度较小,仅仅 是把当前宏块在被丢掉帧对应宏块的运动矢量逐个累加在一起,其效果只比f d v s 稍微差一点,甚至相同。a d v s 则是对f d v s 的一种改进,利用宏块活动度来 选择主宏块和运动矢量。在m v c 之后,利用得到的运动矢量作为参考运动矢量, 进行m v r ,达到近似最优匹配,从而提高运动估计的精度 2 5 1 。 1 2 4 容错转码 ? ,; ,; ,: f r 锄e n - l f r 锄e n ( s k i p p e d ) 1 。4 图1 7 前向主矢量选择算法 在无线信道上传输视频需要考虑其信道窄、误码率高的特点,不仅要在信道 l 传输上加入容错措施,在信源编码上也需采取一定措施增强容错纠错能力。文献1 2 7 i 2 8 】便是从这方面着手给出了一些容错措施:为加快空间域上的再同步,减少每个 s l i c e 包含的宏块个数;增加每帧帧内宏块比例以减少运动估计导致的错误扩散; 帧内宏块自适应刷新机制;发送反馈控制信号等技术。 1 3 本文主要工作 本文通过对m p e g 2 和a v s 标准的分析比较,提出并实现了基于p c 的 w i n d o w s 平台的m p e g 2 到a v s 的转码应用框架。其主要工作包括如下: ( 1 ) 比较分析了m p e g 2 和a v s 标准的视频编码结构,针对转码器的关键技术 分析了二者的异同; ( 2 ) 基于( 1 ) 的结果提出了m p e g 2 到a v s 的像素域级联转码结构和变换域转码 结构: 7 电予科技大学硕士学位论文 ( 3 ) 根据二者i 帧编码原理,提出了一种m e p g 2 到a v s 的i 帧变换域转码算 法并加以实现; ( 4 ) 分别实现了( 2 ) 中提出的m p e g 2 到a v s 的转码系统并加入统一界面,可针 对同一码流实现两种转码方式,并由测试结果证明转码结构的正确性; ( 5 ) 在其他工作一章中列出了h 2 6 4 到a v s 的高清转码实现。 1 4 论文结构 本文共分为五章,各章内容安排如下: 第一章介绍本文的研究背景、国内外发展现状以及本文的主要工作; 第二章介绍视频压缩标准及其发展,分别对当前主要应用标准m p e g 2 和新 一代编码标准a v s 及h 2 6 4 的特点以及关键技术进行分节介绍; 第三章简要介绍当前已有的各种视频标准问的转码算法及其核心技术; 第四章介绍m p e g 2 到a v s 转码根据各自的变码原理而涉及的关键技术以及 本文提出的参考解决方案,并给出了转码算法的软件实现; 第五章在进行本文工作的同时进行的其他研究工作介绍。 8 第二章数字视频编码原理及视频编码标准简介 第二章数字视频编码原理及视频编码标准简介 2 1 数字视频压缩编码原理 我国拟定于2 0 1 5 年停止模拟电视广播,实现全面数字电视广播,现存的模拟 电视技术很快将被数字电视取代并向着高清电视过渡,其原因在于数字电视具有 失真小、稳定度高、图像和伴音清晰、便于存储和加入特技效果、便于在各类通 信网络中传输等优点。但是在模拟视频信号数字化后,码率大增,未经过压缩的 数据需要大约2 1 6 m b i t s 的传输带宽,这种带宽要求在目前的技术前提下不可能实 现大范围的应用,于是出现了数字视频压缩的概念。 数字化后的视频信号能够进行压缩主要依据两个基本条件: ( 1 ) 视频图像存在大量冗余,也即图像的各像素之间存在极强的相关性,比如 空间冗余、时间冗余、结构冗余、知识和视觉冗余等等。消除这些冗余在编解码 后可以无失真的恢复原图; ( 2 ) 可以利用人的视觉特性,在图像变化不被觉察或人眼可以忍受的条件下, 以一定的客观失真换取数据压缩。数字视频信号的压缩正是采用了上述方法,一 部分像素的数据可以由另一部分像素的数据推导而来,结果使视频数据量得以极 大的压缩,有利于传输和存储。一般的压缩编码方法都是混合编码:即采用变换 编码+ 运动估计和运动补偿+ 熵编码。即用变换编码来消除图像的帧内冗余,用运 动估计和运动补偿来去除图像的帧间冗余,用熵编码来进一步提高压缩的效率【2 9 1 。 数字视频压缩编码原理主要包含以下四个关键技术,下面分节介绍。 2 1 1 变换编码 由于图像各个像素之间具有很强的相关性,通过将l l ( l 为整数) 的图像像素 值块离散余弦变换( d c t ) 从时间域变换为频域,可以将原图像的低频高频分量分离 出来。一般情况会在低频系数集中大量能量,而高频系数的能量则很少。根据这 一特性可以将一帧大小为m x n 的图像分成尺寸为l l 的彼此没有重叠的子图 像。显然m 和n 必须为l 的整数倍,才能通过这种切割方式对图像进行处理。对 于l l 的二维图像,其离散余弦变换定义如下: 9 电子科技人学硕士学位论文 疹万4c c 萎l - i 萎l - 1 f ( u 4 伽川c o s 半 c o s 警 ( 2 - 1 ) ,d = i ( “) c ( v ) ( 聊,z ) s l 竿l c o s l 竿l 工。 州= 0 月= 0l 厶上o jl 厶上o j 反变换定义如下: zzc(m)c(u=0v = o l 1 a :) ,z ) =咒) ,( “,v ) c o s l c o s i ! 竿l : jl 二厶 j 其中 c ( i ) :老又汪o ) ; i1 ,( f o ) f ( m , n ) 表示输入图像的样点值;f ( u ,v ) 表示d c t 变换后的变换系数。 信号经过上述d c t 变换得到的频域信息需要进行量化。由于人的眼睛对图像 的低频特性比如物体的总体亮度信息很敏感,而对图像中的高频信息不敏感,因 此在编码过程中可以少传送甚至不传送高频信息而只传送低频部分。量化过程就 是这样一种判断某个高频分量是否需要传送的过程。通过这一处理,人眼视觉不 敏感的信息被去除而降低了信息传送比特率。量化的过程可以用如下公式表示: f e ( u , v ) = r o u n d c l 揣j ) ( 2 - 3 , 其中:f q ( u ,v ) 表示经过量化后的d c t 系数;f ( u ,v ) 表示量化前的d c t 系数; q ( u ,v ) 表示量化加权矩阵;q 表示量化步长;r o u n d 表示归整,即将输 出的值取为与之最接近的整数值。类似的,其反量化表达式如下: 尸( “,1 ,) = 吃( “,1 ,) q ( u ,r ) q ( 2 4 ) 经过量化处理得到的d c t 系数大部分变为零值,而只有很少一部分系数非零, 此时只需要将这部分非零值传送给接收端便可以完成图像编码工作。 2 1 2 熵编码 熵编码( e n t r o p yc o d i n g ) 是一类无损编码,其编码后的平均码长可接近信源。 实现方式多采用可变长编码v l c ( v a r i a b l el e n g t hc o d i n g ) ,基本原理是对信源中出 现概率大的符号赋了短码,对于出现概率小的符号赋予长码,从而在统计上获得 较短的平均码长。这类编码方式包括霍夫曼( h u f f m a n ) 编码、算术编码和游程编码 r l c ( r u nl e n g t hc o d i n g ) 等。其中游程编码压缩效率不高,但具有复杂度低,编解 码速度快的特点,仍有广泛的应用。 可变长编码需要先将量化后定长的系数变换为可变长度码字,即在量化器输 1 0 兰三兰鍪兰望塑堡塑堕堡墨望塑笙塑堡堡箜坌 出的直流系数后对紧跟其后的交流系数进行z 型扫描。z 型扫描可将二维的量化 系数转换为一维的时间序列,并在此基础上进行游程编码。游程编码就是将上述 的一维时间序列变成一个二维事件,每个事件用( a ,b ) 来表示,其中包括两部分, 前一部分称为游程,表示在非零系数之间0 的系数的个数阿,后一部分为系数之 值b 。对当前数据块处理之后得到的事件再进行一种变长编码,其原理是对出现概 率大的事件用较短码字表示,对出现概率小的事件用较长的码字表示,从而使编 码后的平均码长比采用定长结构使用的码长要短,提高了编码效率。 2 1 3 运动估计和运动补偿 在被编码的视频序列中,时间顺序上的各帧存在很强的相关性,特别是相邻 的帧。在图像景物变换不快的前提下,如果视频按照2 5 f p s 的速度播放,那么一秒 钟播放的这2 5 帧图像内容是非常相似的。这就意味着在编码的过程中我们可以根 据这样的相关性只针对图像帧中变换的部分进行编码,从而可以大大减少需要编 码的数据量。通过运动估计( m o r o ne s t i m a t i o n ) 和运动补偿( m o t i o nc o m p e n s a t i o n ) 的技术可以实现这样的工作。 运动估计和运动补偿是消除图像序列时间方向冗余度的有效手段。在运动估 计中,将当前的输入图像分割为若干个彼此不相重叠的小图像子块,然后在当前 图像时间上相邻的前向某一帧或者后向某一帧的某个搜索窗口的范围内为每一块 寻找一个与之相近的图像块称之为匹配块。匹配块与当前编码的图像块之间的水 平和垂直距离构成了当前块的运动矢量,因此将匹配块与当前块做一差值得到的 图像块包含的数值很小。这个相减的过程称作运动补偿。编码器只需要传送运动 矢量和得到的差值块进行编码后得到的数据,在解码器端便可以通过参考匹配块 恢复当前块数据。 在编码过程中需要使用参考图像来进行运动估计和运动补偿,并且在后续的 解码过程中同样需要参考图像和差值图像来恢复图像数据,这就产生了编码中 i ( i n t r a ) 帧、p ( p r e d i c t i o n ) 帧和b ( b i d i r e c t i o n p r e d i c t i o n ) 帧编码机制,即编码器将要 编码的帧按照配置要求编码成这三种帧类型,各种类犁编码遵循各自的编码规则。 对于i 帧来说,编码过程不需要运动估计和运动补偿,只是对当前输入图像分割成 不等大小的块分别进行编码。显然,其没有消除时间方向的相关性,编码效率并 不高,但是可以获得较好的恢复质量。p 帧图像区别于i 帧的地方在于在编码过程 中需要利用前面已经编码的i 或者p 帧图像作为参考图像进行差值编码。b 帧编码 方式与p 帧相似,惟一不同的地方在于在编码过程中要利用当前位置i 或者p 帧 电f 科技大掌帧士学位论义 和后面的i 或者p 帧图像作参考进行预测,并从中选出最佳运动矢量,因此b 帧 也被称为双向预测帧。通过这样一种编码机制可以有效地解决参考图像的选择问 题,也可以抑制因为误差积累而导致的图像质量下降。 2 1 4 混合编码 在实际的编码过程中会将以上的各个编码技术结合起来以得到最佳压缩效 果,这种压缩编码方式称之为混合编码。混合编码的模型如下图2 1 所示,被广泛 应用于h 2 6 1 ,h 2 6 3 ,h 2 6 4 ,m p e g l ,m p e g 2 ,a v s 等等诸多视频标准中。 编码流 i,一 图2 1 混合编码模型 从图中我们可以看到,当前输入的图像首先要经过分块,分块得到的小图像 要与经过运动补偿的预测图像相减得到差值图像x ( m ,n ) ,然后对该差值图像块 进行d c t 变换和量化,量化输出有两个不同的应用;第一个应用是送给熵编码器 进行编码,编码后的比特流输出到一个缓存器中保存,等待信号的传输部分来将 其读出送到线路上去。另一个应用是进行反量化和反变化后的到信号x ( m ,n ) , 该信号将与运动补偿输出的图像块相加得到新的预测图像信号,并将新的预测图 像块送帧存储器。 2 2m p e g 2 视频编码标准简介 m p e g 2 标准正式名称为“i s o f l e c l 3 8 1 8 信息技术活动图像和相关声音信息 1 2 丝三兰鍪兰望鉴塑塑堕堡墨望塑塑里堡堡塑坌 的一般编码方法”。它制定于1 9 9 4 年,设计目标是高级工业标准的图像质量以及 更高的传输率。由于m p e g 2 在设计时的巧妙处理,使得大多数m p e g 2 解码器 也播放m p e g 1 格式的数据,如v c d 。同时,由于m p e g 2 的出色性能表现,已 能适用于h d t v ,使得原打算为h d t v 设计的m p e g 3 ,还没出世就被抛弃了。 ( m p e g 3 要求速率在2 0 m b i t s s e c - 4 0 m b i t s s e c 间,但这将使画面有轻度扭曲) 。 但是它有个致命的缺陷,就是压缩率较低( 4 0 :1 ) ,这样就需要很大的硬盘容量 来满足长时间的录像存储。硬盘存储容量一直都是硬盘录像主机的瓶颈所在,要 想使录像文件保存的时间更长,就只有增加硬盘容量,但这无疑增加了成本,硬 盘数量增加也会造成系统的不稳定,另外,硬盘的散热也是不容忽视的问题。 m p e g 2 对于压缩p a l 制2 5 帧秒的画面,需要3 1 0 m b i t s s 传输率,占用如此高 的带宽只能做到在局域网内传输。m p e g 2 由于要更多的消耗硬盘资源或者网络带 宽,虽然清晰度可以达到d v d 画质一般主流厂家未见采用。m p e g 2 还可以用于 为广播,有线电视网,电缆网络以及卫星直播( d i r e c tb r o a d c a s ts a t e l l i t e ) 提供广 播级的数字视频。m p e g 2 的另一特点是,可提供一个较广的范围改变压缩比,以 适应不同画面质量,存储容量,以及带宽的要求。对于最终用户来说,由于现存 电视机分辨率限m p e g 2 所带来的高清晰度画面质量( 如d v d 两面) 在电视上效 果并不明显,倒是其音频特性( 如加重低音,多伴音声道等) 更引入注目。 2 2 1m p e g 2 图像编码( 1 3 8 1 8 2 ) m p e g 2 编码的视频数据由称为层的比特流序列组成。如果只有一层,则这些 编码视频数据称为不分级的视频比特流。如果不只一层,则这些编码的视频数据 称为分级的视频比特流。其中,第一层为基本层( b a s el a y e r ) ,可以被独立解码:其 它层称为增强层( e n h a n c el a y e r ) ,增强层的解码依赖于基本层的解码。基本层视频 码流又分为六层,其目的是为了把比特流上的独立实体分开便于解码。 ( 1 ) 视频序列层( s e q u e n c e ) 视频序列是指构成某路节目的连续图像序列,是编码比特流的最高语法结构。 一个视频序列由序列头引导,后面可选地跟着一组图像头和一个或更多的编码帧, 并以序列结束标志( s e q u e n c e e n d c o d e ) 结尾。其中,数据头给出了有关图像水平大 小、垂直大小、宽高比、帧速率、码率、视频缓存校验器的大小、量化矩阵、层 号( l a y e r - i d ) 、分级法( s c a l a b l em o d e ) 等,为解码提供了重要依据。 ( 2 ) 图像组层( g o p ,g r o u po f p i c t u r e ) 图像组是由一个视频序列中连续的若干帧图像组成。每个图像组层由一个i 1 3 电子科技大学硕士学位论文 帧、一些p 帧和一些b 帧组成,而且图像组层的第一帧一定是i 帧。图像组层头 由数据头和若干幅图像组成,用于支持解码过程中的随机存取功能图像分组是从 有利于随机存取及编辑出发的,不是m p e g 一2 结构组成的必要条件,可在分组 与否之间灵活选择。其中,数据头给出了图像编码类型、码表选择、图像组头部 开始码、视频磁带记录时间及控制码等。编码流中图的顺序就是播放时解码器处 理的顺序,但是和输入序列的顺序有可能不同。如果序列中用到了b 帧,则解码 输出的重构帧在显示时涉及到帧重排的问题。这是因为m p e g 一2 中存在进行前 向和后向的图像运动补偿的b 帧,处理顺序中后面的图像需要优先处理而引起的。 下面是一个视频序列中的开始部分取出的图像的例子。本例中,在顺序的两个p 帧之间有两个编码b 帧,或者在顺序的i 图和p 图之间有两个编码的b 帧。 假设编码器输入的视频序列如下: l234567891 0 ibbpbbpbbi 为编码处理这个视频序列,当然要先处理1 i 帧,但是2 b 帧和3 b 帧依赖于1 i 帧和4 p 帧的共同预测,所以必须先对4 p 帧进行处理,然后才能处理2 b 帧和3 b 帧。所以,编码要按下面的顺序来进行视频序列处理: 1234567891 0 i p b b pb bi bb 编码器输出的比特流,即解码器输入的视频序列也就是上面的序列。但解码 器输出的视频序列,必须进行重排序,从而与输入的顺序保持一致,故解码器输 出的视频顺序为: 123456789 1 0 i bbpbbpbbi 另外,连续的b 帧的数目是可变的,在顺序的p 帧之间( 或i 和p 帧之间) 。一 个序列不能仅由b 帧组成,但是可能不包含b 帧组成。 ( 3 ) 图像层( p i c t u r e ) 图像层包括不同编码类型的图像,即i 帧、p 帧和b 帧。图像层由数据头和1 1 4 第二章数罕视频编码原理及视频编码标准简介 帧图像数据组成,是图像组层若干幅图像中的1 幅,包含了1 幅图像的全部编码 信息。其中,数据头提供的基本部分有头起始码、图像编号的时间基准、图像( i , b ,p ) 帧类型、视频缓存检验器延迟时间等,扩展部分有图像编码扩展、图像显示 扩展、图像空间分级扩展、图像时间分级扩展等。 m p e g 2 图像扫描可有逐行或隔行两种方式:当为逐行时,图像为逐帧压缩; 当为隔行时,图像为逐场或逐帧压缩,即在运动多的场景采用逐场压缩,在运动 少的场景采用逐帧压缩。每个图是由亮度矩阵( 和两个色差矩阵( c b 和c r ) 构成。 根据色度矩阵采样格式的不同,可以分成下列几种格式: 4 :2 :0 格式:c b 和c r 矩阵水平和垂直方向都是y 矩阵
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025共同生产协议(合同样本)
- 2025房地产买卖合同范本
- 2025年北京租房合同的简化版本
- 2025年有偿保管合同范本
- 2025年连锁加盟合同范本
- 2025年网页制作合同简化版范本
- 铁路规程考试题库及答案
- 2025年中国某城市购房签合同注意事项
- 2025年质量员之市政质量基础知识考试题库附参考答案(夺分金卷)
- 2025年消除三病母婴传播业务培训、反歧视培训课前问卷答案
- 2025年国家电网公司招聘岗位竞聘模拟题及答案
- 隧道施工应急预案与响应方案
- 2025年广播电视技术能手预选赛竞赛试题含答案
- 食品添加剂培训课件
- 2025年健身教练专业技能测评考试试题及答案解析
- 2025年山东高考化学试题及答案
- 2025-2026北师大版二年级数学上册(全册)教案设计
- 环卫人员安全知识培训课件
- 诉讼业务培训课件
- DB11T 2441-2025 学校食堂清洁和消毒规范
- 公司适用法律法规标准清单2025年08月更新
评论
0/150
提交评论