




已阅读5页,还剩59页未读, 继续免费阅读
(通信与信息系统专业论文)h264到mpeg4视频转码的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 数字视频技术获得了广泛的应用,随着互联网和移动通信的快速发展,数字视频在 网络中的处理和传输成为了热点技术。许多国际组织已经制定出了一批优秀的视频压缩 算法,如m p e g 系列标准、h 2 6 x 系列标准以及我国自主的音视频编码标准a v s 等。 这些标准在语法格式、压缩能力、输出码率和分辨率方面各有不同,这严重制约了采用 不同视频标准的系统间的互通性。为此人们开始研究视频转码技术,视频转码的主要目 的是使得异构的系统间,能够高效率、高质量的进行视频数据转换。 本文的研究目标是在保证转换后图像质量的前提下,实现一种高效的h 2 6 4 到 m p e g - 4 的码流转换算法。 本文首先介绍了视频转码技术的发展现状,然后介绍了视频编码和视频转码的基本 原理和相关技术。在此基础上,介绍了h 2 6 4 和m p e g 4 标准并将它们做了比较,提出 了本文的转码方案。 本文的主要工作有:( 1 ) h 2 6 4 到m p e g - 4 的运动矢量重用。( 2 ) h 2 6 4 到m p e g 一4 的变换系数重用。( 3 ) h 2 6 4 基本档次到m p e g 4 简单档次的码流转换。 本文提出一种基于空域和频域的混合型转码器框架,该框架对帧内编码宏块采用频 域模型来提高转码速度,对帧间编码宏块采用像素域模型来保证转码质量,防止漂移误 差。此混合型转码框架结合了空域转码框架和频域转码框架柳e 点,实现了转码效率和 转码质量的折中。由于h 2 6 4 与m p e g 4 编码标准差异很大,为实现该转码框架,本文 提出了一些关键转码技术,包括多参考帧到单一参考帧的映射算法、帧内编码宏块的模 式映射算法、整数d c t 变换到d c t 变换系数映射算法、帧间编码宏块模式映射算法、 运动矢量映射算法和运动矢量重估计算法。 最后,根据本文提出的转码器框架和相关的转码关键技术,在p c 机上实现了一个 从h 2 6 4 到m p e g - 4 的转码系统。标准序列测试结果表明,本文的转码器的转码速度和 转码质量均能达到较好的效果。 关键词:h 2 6 4 ;m p e g - 4 ;d c t ;整数d c t ;运动矢量 大连理工大学硕士学位论文 r e s e a r c ha n di m p l e m e n t a t i o nf o rv i d e obi t s t r e a mt r a n s c o d e r f r o mh 2 6 4t om 咿e g 4 a b s t r a c t t h et e c h n o l o g yo fd i g i t a lv i d e oi sr e c e i v i n gi n c r e a s i n ga p p l i c a t i o n s ,a n da st h er a p i d d e v e l o p m e n to ft h ei n t e r n e ta n dw i r e l e s sc o m m u n i c a t i o n ,t h et r a n s m i s s i o na n dp r o c e s s i n go f d i g i t a lv i d e oh a sb e e nar e s e a r c hh o t s p o t s e v e r a li n t e r n a t i o n a lo r g a n i z a t i o n sh a v ec r e a t e d s o m ee x c e l l e n tv i d e oc o m p r e s s i o ns t a n d a r d ,f o re x a m p l e ,m p e gs e r i e s s t a n d a r d s ,h 2 6 x s e r i e ss t a n d a r d sa n d 斟sa u d i oa n dv i d e oc o d i n gs t a n d a r do fo u rc o u n t r y 。t h e s es t a n d a r d s h a v es o m ed i f f e r e n c e si na s p e c t so fg r a m m a rf o r m a lc o m p r e s s i o na b i l i t y ,o u t p u tc o d er a t e a n dr e s o l u t i o n , w h i c hs e r i o u s l yl i m i t st h ei n t e r a c t i o nb e t w e e nd i f f e r e n ts y s t e m so fv i d e o s t a n d a r d s t h e r e f o r e ,p e o p l ea r ef o c u s i n go nt h ev i d e ot r a n s c o d e rt e c h n o l o g y ,w h i c ha i m st o o b t a i nm o r ee f f i c i e n ta n dq u a l i f i e dt r a n s c o d i n go fv i d e od a t ab e t w e e nd i f f e r e n tt y p e so f s y s t e m s n l ep u r p o s eo ft h i st h e s i si st oi m p l e m e n ta ne f f i c i e n tt r a n s c o d ea l g o r i t h mf r o mh 2 6 4t o m p e g - 4 ,a tt h em e a nt i m e ,k e e p i n gt h ei m a g eq u a l i t yu n c h a n g e d a tf i r s t , c u r r e n td e v e l o p m e n to fv i d e ot r a n s c o d i n gt e c h n i q u ei si n t r o d u c e d ,a n dt h e n b a s i cp r i n c i p l ea n dr e l e v a n tt e c h n i q u e so fv i d e oe n c o d i n ga n dt r a n s c o d i n ga r ep r e s e n t e d t h r o u g hc o m p a r i n gh 2 6 4a n dm p e g 一4 ,an e wt r a n s c o d i n gs c h e m ei sp r o p o s e di nt h i st h e s i s t h em a i n c o n t r i b u t i o n si nt h i st h e s i si n c l u d e : ( 1 ) r e u s em o v ev e c t o rf r o mh 2 6 4t om p e g - 4 ( 2 ) r e u s ei c tr e s u l tf r o mh 2 6 4t om p e g 一4 ( 3 ) t r a n s c o d i n gf r o mh 2 6 4b a s e l i n et om p e g - 4s i m p l ep r o f i l e a h y b r i dt r a n s c o d e rs c h e m eb a s e do ns p a t i a la n df r e q u e n c yd o m a i ni sp r o p o s e di nt h i s t h e s i s t h ep r o p o s e ds c h e m ea d o p t sf r e q u e n c yd o m a i ns c h e m et oi n c r e a s et r a n s c o d i n gs p e e d o fi n t r am a c r o b l o c k , a n ds p a t i a ld o m a i ns c h e m et oe n s u r et r a n s c o d i n gq u a l i t yo fi n t e r m a c r o b l o c k i nt h i sw a y ,t h es c h e m ec o m b i n e st h ea d v a n t a g e so fs p a t i a ld o m a i ns c h e m ea n d f r e q u e n c yd o m a i ns c h e m e ,a c h i e v i n gt h et r a d e - o f fb e t w e e nt h ee f f i c i e n c ya n dq u a l i t yo f t r a n s c o d i n g s i n c et h e r ei sg r e a td i f f e r e n c eb e t w e e nt h eh 2 6 4a n dm p e g 一4s t a n d a r d s ,t o r e a l i z et h ep r o p o s e ds c h e m e ,s o m ek e yt e c h n i q u e so ft r a n s c o d i n ga r ea l s op r o p o s e di nt h i s t h e s i s ,s u c ha sm a p p i n ga l g o r i t h mf r o mm u l t ir e f e r e n c ef r a m e st os i n g l er e f e r e n c ef r a m e , m a p p i n ga l g o r i t h mf o ri n t r ap r e d i c t i o nm o d e ,m a p p i n ga l g o r i t h mf r o mi n t e g e rd c t r e s u l tt o d c t r e s u l t ,m a p p i n ga l g o r i t h mf o ri n t e rb l o c k m a p p i n ga l g o r i t h mf o rm o v ev e c t o ra n dm o v e v e c t o rr e f i n e m e n ta l g o r i t h m i i i h 2 6 4 到m p e g - 4 视频流转码的研究与实现 a tl a s t ,b a s e do nt h ep r o p o s e dt r a n s c o d i n gs c h e m ea n dk e yt e c h n i q u e s ,at r a n s c o d i n g s y s t e mf r o mh 2 6 4t om p e g - 4i sr e a l i z e do np c ,t h er e s u l t st e s t e db ys t a n d a r dv i d e o s e q u e n c e ss h o wt h a tt h ep r o p o s e dt r a n s c o d i n gs y s t e ma c h i e v e sg o o dp e r f o r m a n c ei nb o t h e f f i c i e n c ya n dq u a l i t y k e yw o r d s :h 2 6 4 ;m p e g - 4 ;d c t ;i n t e r g e rd c t ;m o v e v e c t o r i v 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 作者签名:! 三坚量至! 日期: 竺:= 呈年l 月巳日 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 作者签名: 导师签名: ! 三鳖塑日期:旦年月上日 大连理工大学硕士学位论文 1绪论 1 1 应用背景 数字视频技术在通信和广播领域获得了日益广泛的应用,随着i n t e r n e t 和移动通信 的迅猛发展,视频信息和多媒体信息在i n t e m e t 网络和移动网络中的处理和传输成为了 信息化中的热点技术。视频信息具有直观性、确切性、广泛性等优点,但视频信息的数 据量太大,这严重制约了其使用范围。要想有效的使用视频技术,必须找到行之有效的 压缩方法,能在高效压缩的同时保证视频的质量。 研究结果显示,视频信息中含有大量的冗余,包括时间冗余和空间冗余。通过适当 的压缩算法可以有效的剔除这些冗余信息,并保证视频的质量【l l 。数字视频压缩已成为 一种几乎在各种类型的视频应用中都非常重要的技术。随着硬件技术的不断发展,更高 性能的处理器不断出现,为复杂压缩算法的可实现性创造了前提条件。伴随而来的是各 种优秀压缩算法的出现,如m p e g 系列标准、h 2 6 x 系列标准以及我国自主的音视频编 码标准a v s 等。这些视频压缩算法标准有着许多的共同点,如高效压缩,高保真的图 像质量,算法核心结构的相似性等。但它们又有各自的关注点,如m p e g - 4 标准关注观 看者与媒体之间的交互性,而h 2 6 4 标准更关注压缩效率和网络传输的容错能力。 由于多种算法的存在,使得应用者需要针对每一种标准采用相应的软硬件设备。而 当一个系统需要同时支持多种标准时会大大增加系统的复杂性与成本。如何有效的在这 些不同的系统间无缝地实现各种各样的多媒体服务,更好的实现用户和系统的交互性, 己经变得越来越重要。通用多媒体访问( u m a :u n i v e r s a lm u l t i m e d i aa c c e s s ) 概念应运而 生【2 1 。在u m a 系统中,存在不同的网络结构,不同的终端设备,以及不同的多媒体数 据格式;这些对于最终用户都是透明的。用户通过和系统的交互,得到需要的数据服务, 而无须关心网络的结构特征、终端设备的处理能力以及多媒体数据的表示格式。由于多 媒体数据格式多种多样,网络结构也各不相同,终端处理能力更是千差万别,u m a 系 统内部必然涉及若干数据的转换。首先,用户需要的数据类型和存储的数据类型可能不 同,比如用户需要声音数据,而存储的是文本数据,这就需要文本到声音的转换。其次, 从服务器到用户终端可能经过不同的网络结构路径,而在不同的网络结构中需要将数据 进行不同的打包封装实现可靠的网络传输。最后,用户的终端设备处理能力也不尽相同, 例如存储的是高码率、高分辨率的视频码流,而用户的个人数字助理( p d a ) 却只能处理 低码率、低分辨率的视频码流,这就需要视频转码技术的支持。因此,数据转换技术是 实现u m a 系统的核心,u m a 系统必须自动完成这些数据转换的工作,以实现最终用 h 2 6 4 到m p e g - 4 视频流转码的研究与实现 户所需的服务。在u m a 系统支持的众多数据服务中,视频数据服务构成了它的一个重 要组成部分,而视频转码技术是实现视频数据服务的关键技术。最简单的实现不同视频 标准间转换的方法无疑是将它们都转换成原始的非压缩的中间格式。但这也是最低效 率、最高成本的方法。考虑到不同视频压缩标准的核心算法中有很大的相似性,可以利 用这些相似性实现码流之间的转换,从而回避转换为中间格式的复杂性,这无疑会大大 的提高转换效率并降低系统的软硬件成本。因此视频转码具有很高的实用价值【3 1 。 视频转码的主要目的是使得异构的系统间,不同标准的视频压缩数据能够高效率、 高质量的进行相互间的转换。在一些视频应用系统中,也需要视频转码功能。如在一些 优秀的v o d 系统中,服务端会根据终端处理能力、接入带宽以及信道质量的不同,动 态改变发送的码流类型。 近些年,视频转码成为了人们关注的一个新课题,也因此产生了多种不同原理的转 码技术。但随着新的视频压缩标准的不断出现,与之相应的转码技术仍然有待人们去研 究。同时,随着硬件处理能力的提升,使得高复杂度的算法能够得以使用,这也不断促 使着新的转码技术的出现。 1 2 视频转码研究现状 将已编码的视频码流转换成其他格式、码率、分辨率或加入信息,是常见的视频转 码需求。 1 2 1 比特率缩减转换 缩减码流的比特率一般是为了在保证有效传输视频信息的情况下,尽可能的迎合有 限的网络传输带宽。已有研究中实现比特率缩减转换的方法主要有三种方式h j : ( 1 ) 直接丢弃高频d c t 系数:这种方法非常简单,通过减少高频系数来降低v l c 编码的码字长度。但由于丢失了高频分量,所以转码后新的编码帧会发生退化。在进行 运动补偿时,当前帧的预测部分会从退化了的参考帧中获得,而残差部分会从原始码流 中获得,这会导致预测部分和残差部分的不匹配,即产生了所谓的漂移误差。前面帧的 漂移误差会被带到后续的帧中,直到新的i 帧出现。这会使得很小的误差被放大,最终 严重影响到转码后的图像质量。 ( 2 ) 重量化:对部分解码后的d c t 系数采用新的步长重新进行量化。此方法会自动 补偿再量化时引起的偏差,所以不会产生漂移误差。 f 3 ) 丢弃若干数据帧:根据需要直接丢弃若干数据帧也可以起到降低比特率的作用, 但丢弃参考帧会对后续帧的解码产生很大影响。 大连理工大学硕士学位论文 1 2 2 空间和时间分辨率转换 由于不同种类终端的显示和运算能力不同,在发布视频数据的时候就产生了修改视 频图像大小以及帧率的需求。这种类型视频转换的关键在于如何高效的利用原始码流中 的信息来生成新的运动矢量。 在空间分辨率的转换中,要将一幅大尺寸的图像转换为较小的尺寸。主要设计三个 方面的问题【引。 ( 1 ) 生成新的宏块运动矢量。在如图1 1 的4 :1 下采样中,图像的长度和高度都缩减 为原来的一半,因此原图像中的4 个宏块被映射为新图像中的一个宏块,原来的4 个运 动矢量被合成为一个新的运动矢量。在某些支持小尺寸运动补偿块的视频编码标准中也 可以被映射为4 个8 x 8 的运动矢量。常见的运动矢量合成方法有3 种: ”l 缸1 6 的运动矢量( d v ) m v 龇 m 埘, 4 个g x 8 的运动矢t 图1 1 运动矢量重新估计 f i g 1 1 m o v ev e c t o r sr e e s t i m a t e 均值法:这种方法十分简单,即将4 个宏块的运动矢量的均值作为新的宏块的 运动矢量, = 三y 彬 ( 1 1 ) aj i - 一 同向均值法:这种方法使用输入运动矢量中具有相同运动方向的运动矢量的均 值作为新宏块的运动矢量, = 二心,0 sm 0 ( 2 6 ) 。 2 川 其中g = 专( f = o ) ,q = 号 ( 2 ) 整数d c t 变换,即整数余弦变换。 整数d c t 变换是对d c t 变换的一种改进【i l 】。由于传统d c t 变换的变换矩阵为浮 点值,在解码端的浮点运算存在精度问题,这会导致解码后的数据失配,进而引起漂移。 而整数d c t 变换将浮点成分从变换矩阵中分离出来,并融入后端的量化处理中,从而 使得变换过程变化精确的整数运算。以h 2 6 4 为例,它采用4 x 4 的整数d c t 变化,下 面介绍从4 x 4 的d c t 变换到4 x 4 的整数d c t 变换的推导过程。式( 2 7 ) 为4 x 4 的d c t 变换矩阵a : i吉c 。s ( o )吉c 。s ( o ) 丢c 。s ( o )圭c 。s ( o ) l 压c o s c 争压c 似争压c 。s c 争压c 呶争 肛l 压c o s c 等,后c 。s c 争压c o s c 警,压c 嘁警, i 、j 1 - c 呶了3 n ,压c 。s 等,后c o s c 警,压弧c 半, 圭 j 1j 1 丢1 i 压c 。s c 压c 呶等,一压c 似等,一层c 。s c 詈,l 。i 圭 一丢一j 1i 1 i 【- 压c 呶i 3 n ,一店c o s c 争压c 。s c 争一店c 叫争j 设口= 圭,6 = 也c 叫争及c = 如c 似等,则有: ( 2 7 ) 大连理工大学硕士学位论文 a = 口口 bc aa c- b 口口 - - cb 一口口 b - - c ( 2 8 ) 可以通过提取系数的方式将彳分离成整数矩阵与实系数的形式。式( 2 9 ) 为按此方 式分离后4 x 4d c t 变换的表达式: y = 删r = ( c x c 7 ) 圆e = 1111 lddl llll d一11一d柱il一1 ld 一1 一l 一1l 1一d卜 a 2a b a bb 2 口2a b a bb 2 口2口6 a b6 2 a 2a b a bb 2 ( 2 9 ) 其中d = 詈( o 4 1 4 ) 。符号。表示结果中的每个元素乘以矩阵e 中对应位置上的系数值 的运算。为了简化计算,取d = 0 5 。同时为了保持变换的正交性,对b 进行修正,取 6 = 詈。对矩阵c 中的第2 行和第4 行,以及矩阵中的第2 列和第4 列元素乘以2 ,得 到新的矩阵q 和哆,相应地改造矩阵e 为q ,以保持式( 2 9 ) 成立,得到: y = ( q 蟛) 圆b = 1111 1 21- 1 _ 2 l x 1一l一1 l l l 1 - 22-1 1 12ll l1一l一2 1一l一12 l一21 一l卜 ( 2 1 0 ) h 2 6 4 将d c t 中的 q 运算融合到后面的量化处理中,则实际的d c t 输出为: i , v = c r x c 二 11 2l l一1 12 1l 一12 一ll 2一l l2l1 1ll一2 1 一l 一12 12 11 式( 2 1 1 ) 即为h 2 6 4 中使用的4 4 整数d c t 变换公式。 ( 2 1 1 ) 面一2矿一4动一2铲一4 矿 动一2 矿 曲一2 曲一2矿一4动一2矿一4 矿 曲一2 矿 动一2 h 2 6 4 到m p e g - 4 视频流转码的研究与实现 2 1 3 熵编码 在对视频图像进行了预测编码和变换编码后,还要进行一次熵编码来消除码流中统 计上的冗余。常用的熵编码方式包括:变长编码和算数编码【1 1 。 ( 1 ) 变长编码 变长编码器将输入的符号编码成一系列码字。每个符号映射为一个码字,码字的长 度可变,但必须是整数个比特。出现频率较高的符号映射为长度较短的码字,而反之则 映射为较长的码字。当输入的符号集十分庞大时,变长编码可以起到压缩数据的作用。 常见的变长编码包括哈夫曼编码、指数哥伦布编码、基于内容的自适应变长编码等。 ( 2 ) 算术编码 与哈夫曼编码为每一个符号分配一个码字的做法不同,算数编码将一串符号编码为 一个小于l 且大于等于0 的浮点数字。 从理论上分析,在一些极端情况下,如某些符号的出现概率超过0 5 ,算数编码比 变长编码拥有更高的编码效率,但算数编码比变长编码实现起来更复杂。在实际系统中, 两种熵编码方式用得到了广泛的采用。 2 2 视频转码原理 视频转码的目的是将原视频码流转换为符合某些要求的目标码流。可以通过多种途 径来实现这种转换,不同转码途径具有不同的转码质量和处理效率。研究视频转码的目 的就是要为不同的应用需求寻找高质、高效的转码方案【l2 1 。 2 2 1 全编全解转码框架 视频转码最简单的实现方式就是将原码流的解码器与目标码流的编码器级联起来 组成的转码系统,如图2 5 。这种结构的转码系统首先对原始码流进行解码得到像素域 图像,然后进行必要的处理,再由目标编码器编码输出新的码流。这种结构的转码器一 般称为全编全解转码器。由于该结构中的编码部分和解码部分在结构上是完全独立的, 因此在视频转码时具有很大灵活性。它可以很容易的实现上一章中提及的全部类型的转 码。全编全解转码器的优点是:易于实现,且转码质量好。缺点是:由于完全没有利用 原始视频码流中的相关编码信息进行转换,所需的计算复杂度很高、内存占用量大,如 采用软件方式实现,几乎无法实时运行【t 3 , 1 4 。 虽然全编全解框架不适合与实际应用,但它可以作为其他结构的转码器的设计基础 和性能参考标准。 大连理工大学硕士学位论文 _一i := :|7 i 竺i 一 + i 运动矢量厂运羽陌虱酮 补偿j 1l 缓存 ;一 一 ;一l 哑 盈m 划 ;竺竺 - 斥翮- r 羽弋觯嗍亿习网一 编码赖输入 - 1 竺兰广1 竺i 7 鞲 + _删q 鞘 一目郴唬由 厂= : 一厂= = 胜7 、 图2 5 全编全解框架结构框图 f i g 2 5c a s c a d e dt r a n s e o d e r 2 2 2 空域转码框架 在全编全解结构的基础上稍加改动,就可以得到空域转码结构,如图2 6 所示。考 虑到原始码流中已经含有运动信息,因此可以从原始码流中分离出运动信息并直接为编 码部分采用,这样就可以省去全编全解结构中的运动估计模块,从而降低运算量,且转 码质量与重新进行完全运动估计几乎相同。如果不需要对视频流进行分辨率的转换,原 编码标准与目标编码标准的变换域类型相同,并且运动补偿精度也相同,还可以将图2 5 结构中的分辨率转换模块去掉得到更为简化的结构,如图2 7 所示。文献 1 5 】中指出若 直接利用原始码流中的运动矢量,将会比全局运动估计节约至少3 倍的计算时间。对于 相同视频编码标准内部进行转码,空域转码结构与全编全解结构在本质上是一致的,但 转码效率却得到很大提高【i l 】。 空域转码框架对全编全解框架做出一个重要的简化,就是省略了重编码时的运动搜 索。这是对转码器性能的一个很大改进,此外由于它同样是要将编码图像还原到像素域 进行处理,所以它同全编全解框架一样具备很高的灵活性,适合于多种转码情况。 h 2 6 4 到m p e g - 4 视频流转码的研究与实现 一l ! 原码漉j差动矢量lr 【赴盛厂一鲢j 广 ;阚骧鼢 空间 广驾庭置里_ j ;一i ”9 ” h划 l 抽取 厂- 涧 目标码流运动矢量 码帧入 广;:刀厂二= - 1 l 厂 i i 曩存ij 1 竺竺广_ 1 竺竺i 7 + j 。t l i i o o p ” 墅叫蛊卜j 1 一目撇厂= 厂_ = = = _ 厂_ = :_ 一i t 鼙一 图2 6 空域结构框图 f i g 2 6p i x e ld o m a i nt r a n s c o d e r 7 己一 r 一 i ! 黼分i l ; i j 抽取重用l 转嗍 i : 目标码流运动矢量 1b 一胃二 1! j 田l , 露p 想= , 7 w7 口一 ,一l ,q _ f r 一一一l r + 二掣i_j ! 掰蝴i , i 一; 目郴唬广=、,j 厂 碉撇陶一 图2 7 简化了的空域结构框图 f i g 2 7s i m p l i f i e dp i x e ld o m a i nt r a n s c o d e r 2 2 3 频域转码框架 空域转码结构通过省略了重新编码时的运动估计来提转码效率。但系统中还存在一 个运算量较大的处理环节,就是d c t i d c t 变换。进行d c t 和i d c t 变换的目的是为 了在像素域对图像进行运动补偿。由于d c t i d c t 是线性变换,所以可以在d c t 域对 图像进行运动补偿,从而省去d c t i d c t 变换,如图2 8 。如果不需要对视频流进行分 辨率的转换,并且原编码标准与目标编码标准的运动补偿精度相同,还可以将图2 7 结 构中的分辨率转换模块去掉得到更为简化的结构,如图2 9 所示。此种结构的主要特点 是由于进一步的省略了d c t i d c t 变换模块,使得转码效率更为提高。但由于d c t i d c t 大连理工大学硕士学位论文 系数精度的影响,变换过程不是严格线性的。这种省略结构必然会引入误差。此外这种 结构的灵活性较差,不适用于需要改变运动矢量、帧编码类型等情况【1 2 】。 一匕_ 一一 善去 原码漉运动矢量 ii 竺翌li 竺竺l 解硎酗吩 i : 隔卿 一。! 网葡羁耵 l 塑墅d躺粉i区瞪 i 目标码流运动矢量 广:= t 厂佟锄竹= 编码帧输入 7 i = :i 7 、 7 圈厂一一一一一 i 绷嘲鞴盼 i 1 i;预测帧n 闲 1r l 塑壁| 1 目郴魄庀 一广1 髓、j 图2 8 频域结构框图 f i g 2 8 d c td o m a i nt r a n s c o d e r l 1i 7 l “l 原码流运动矢量 解码器鼢 r 萄痢疆r l 抽鬼朗i 转码部分 目标码流运动矢量 d o - 1e i l4 l ,一伴一翻 _ 编码帧输入 一i 竺二l 7 ? 一l 谢 + j , 糖码器部分 删n 藏网一 r i 珊慵j 目标码漉1 。l l 1 残差,、j 图2 9 简化了的频域结构框图 f i g 2 9s i m p l i f i e dd c t d o m a i nt r a n s c o d e r 频域转码框架比空域转码框架更进一步的省略掉了d c t i d c t 操作,使转码器性能 得到进一步提升。但由于将运动补偿转移到了频域,无法在进行基于像素域的处理,使 得转码器的灵活性大为下降。 h 2 6 4 到m p e g - 4 视频流转码的研究与实现 2 3 视频转码主要技术 2 3 1 编码模式映射 在两种情况下需要对源码流和目标码流进行宏块的编码模式映射: ( 1 ) 在降低空间分辨率的转码中,会使得原始码流中的多个宏块合并为目标码流中 的一个宏块。这些原始码流中的宏块可能采用不同的编码模式和运动矢量,因此要指定 一套映射规则来确定合并后的宏块的编码模式和运动矢量。 ( 2 ) 当原始码流中包含有目标码流中不具备的编码模式时,就要指定一套映射规则 来确定如何将完成映射。这可能会涉及到模式判决和运动矢量的合成或拆分。 2 3 2 运动矢量重用 运动估计是整个视频编码系统中最复杂,计算量最大的一个步骤。因此在转码系统 中最关心的就是如何有效的利用原始码率中的运动矢量来生成目标码率中的运动矢量, 从而省去重新进行运动估计。然而由于不同视频编码标准间的宏块分割不同会导致需要 进行运动矢量的合成和分割,运动补偿精度的不同导致需要重新进行运动矢量估算,运 动预测单位不同和变化范围不同导致需要进行运动矢量的缩放等变换。从原始码流中获 得的运动矢量不能直接用于目标码流中【1 6 , 1 7 。运动矢量重用的研究重点就是要对从原始 码流中获得的运动矢量进行适当的处理,使得处理后的运动矢量能够用于目标码流。这 种处理往往是某种简单的映射规则或局部的运动搜索,处理起来十分简洁快速,因此较 重新进行完整的运动估计有很大的效率提升。 2 3 3 重量化 在现有的混合型视频编码结构中,量化是唯- 2 j l 起视频质量下降的一步操作,同时 也是实现数据压缩的关键步骤。为了降低引入的误差,量化器应将输入值映射为最接近 它真实值的重建等级。在降低码率的转码中,重量化是控制码率的重要手段。通过增大 量化步长可以降低码率,但同时也会引入更大的失真。因此应增大量化步长至刚好能满 足目标码率要求,而不应该盲目的为了降低码率而大幅增加量化步长。 2 4 小结 本章首先介绍了视频编码的基本原理和其中的关键技术并结合h 2 6 4 视频编码标准 进行说明,然后列举了三种视频转码器框架结构并分析说明各自的优缺点和使用场合, 最后介绍了视频转码中涉及的主要技术。 大连理工大学硕士学位论文 3 h 2 6 4 和m p e g - 4 标准介绍和对比 上一章中我们研究了视频转码的基本原理。在实际实现一个视频转码系统时我们必 须深入了解原视频码流的编码标准和目标视频码流的编码标准。这样才能有针对性的设 计出效率更高,质量更好的转码器来。由于本文的主要目标是研究与实现h 2 6 4 标准码 流向m p e g - 4 标准码流的转换,本章将对m p e g 4 标准和h 2 6 4 标准进行详细的讨论和 对比。 3 i h 2 6 4 视频编码标准 m p e g ( m o v i n g p i c t u r ee x p e r t sg r o u p ) 和v c e g ( v i d e oc o d i n ge x p e r t sg r o u p ) 联合开 发了一个比早期研发的m p e g 和h 2 6 3 性能更好的视频压缩编码标准,这就是被命名 为a v c ( a d v a n c e dv i d e oc o d i n g ) 的,也被称为i t u th 2 6 4 建议和m p e g 4 的第1o 部 分的标准,简称为h 2 6 4 a v c 或h 2 6 4 。这个国际标准已于2 0 0 3 3 正式被i t u t 所通 过并在国际上正式颁布。h 2 6 4 的颁布是视频压缩编码学科发展中的一件大事,它的优。, 异的压缩性能也将在数字电视广播、视频实时通信、网络视频流媒体传递以及多媒体短 信等各个方面发挥重要作用i l 9 】。 3 1 1 h 。2 6 4 概述 h 2 6 4 和以往的标准一样,也是d p c m 加变换编码的混合编码模式,但与传统的视 频编码标准相比h 2 6 4 具有很多重大的改进。不同与以往的视频编码标准中采用的频域 帧内预测模型,h 2 6 4 引入了像素域的帧内预测模型,虽然运算的复杂度很高但压缩率 得到明显改善。对宏块的细粒度分割、高精度运动补偿和多参考帧引用也是h 2 6 4 能取 得高压缩率的一个主要原因。h 2 6 4 采用“回归基本”的简洁设计,不用众多的选项, 获得比m e p g 4 好得多的压缩性能;h 2 6 4 加强了对各种信道的适应能力,采用“网络 友好 的结构和语法,有利于对误差和丢包的处理;h 2 6 4 应用目标范围较宽,可以满 足不同速率、不同解析度以及不同传输( 存储) 场合的需求。 在系统层面上,h 2 6 4 提出了一个新的概念,在视频编码层( v i d e oc o d m gl a y e r , v c l ) 和网络提取层( n e t w o r ka b s t r a c t i o nl a y e r ,n a l ) 之间进行概念性分割,前者是视频 内容的核心压缩内容之表述,后者是通过特定类型网络进行递送的表述,这样的结构便 于信息的封装和对信息进行更好的优先级控制。 和m p e g 4 的重点是灵活性不同,h 2 6 4 着重在压缩的高效率和传输的高可靠性, 因而其应用面十分广泛,具体说来,h 2 6 4 支持三个不同档次: h 2 6 4 到m p e g - 4 视频流转码的研究与实现 ( 1 ) 基本档次:主要用于“视频会话 ,如会议电视,可视电话,远程医疗、远程 教学等; ( 2 ) 扩展档次:主要用于网络的视频流,如视频点播; ( 3 ) 主要档次:主要用于消费电子应用,如数字电视广播,数字视频存储等。 3 1 2h 2 6 4 的码流结构 为了实现高的视频压缩比和良好的网络亲和性,h 2 6 4 的功能被分为两层:视频编 码层( v c l ) 和网络抽象层( n a l ) 。v c l 数据即编码处理的输出,它表示被压缩编码后 的视频数据序列。在v c l 数据传输或存储之前,这些编码的v c l 数据,先被映射或封 装进n a l 单元中。每个n a l 单元包括一个原始字节序列负荷( r b s p ) 、一组对应于视 频编码数据的n a l 头信息。图3 1 为n a l 单元序列的结构 9 1 。 【:jiii;l;!:i:iijjii!:jili;l;:!iij!i:jiiii;:j:习 图3 1n a l 单元序列结构 f i g 3 1 s t r u c t u r eo f n a lu n i ts e q u e n c e 一幅编码的图像有一个或多个条带组成,每个条带包含的宏块数介于l 到总宏块数 之间。每个条带所包含的宏块数目不固定。为了防止编码的错误扩散,条带之间是最小 的相互独立单元。表3 1 列出了条带的五种类型,编码图像可以由不同类型的条带组成。 基本类的编码图像可以包含i 和p 类型的条带,而主要或扩展类的图像可以包含i 、p 和b 类型的条带。 表3 1h 2 6 4 的条带类型 t a b 3 1s l i c et y p e so f h 2 6 4 大连理工大学硕士学位论文 图3 2 为条带的语法结构,其中条带头规定了条带的类型,所属的图像,有关参考 图像等。条带数据由一组编码宏块和或指示跳转的宏块组成。每个宏块包含一组头元素 ( 见表3 2 ) 和编码差值数据组成。一个宏块包含对应于视频帧的1 6 x 1 6 ( 1 6 x 1 6 亮度采样 点,8 8c b 和8 8c r 采样点) 采样区域的编码数据。宏块在一帧内以光栅次序扫描。 图3 2 条带语法结构 f i g 3 2s y n t a xs t r u c t u r eo fs l i c e 表3 2 宏块语法结构 t a b 3 2 s y n t a xs t r u c t u r eo fm a r c o b l o c k m b _ t y p e 确定该宏块的编码模式以及分割尺寸。 m b _ p r e d s u b _ m b _ p r e d c o d e d b l o c k _ p a t t e r n m b _ q b _ d e l t a r e s i d u a l 确定帧内预测模式;确定表l i s t o 和或l i s t l 参考图像;对每一个宏块分割 运动矢量。 ( 只对8 8 大小的帧间宏块) 确定子宏块分割的大小;每一宏块分割的表 l i s t o 和表l i s t l 参考图像:每一宏块的子分割的运动矢量。 指出那个8 x 8 块( 亮度和彩色) 包含编码变换系数。 量化参数的改变值。 预测后对应于残差图像取样的变换编码系数。 3 1 3 h 2 6 4 的编码技术 由于本文转码只涉及到h 2 6 4 基本档次,所以下面只介绍基本档次中会使用的技术, 对于主要档次和扩展档次中的b 片、s p s i 片等的内容没有述及。 ( 1 ) 帧内预测编码 帧内预测编码用来缩减图像的空间冗余。为了提高h 2 6 4 帧内编码的效率,在给定 帧中充分利用相邻宏块的空间相关性,相邻的宏块通常含有相似的属性。因此,在对一 h 2 6 4 到m p e g - 4 视频流转码的研究与实现 给定宏块编码时,首先可以根据周围的宏块预测,然后对预测值与实际值的差值进行编 码。这样,相对于直接对该宏块编码而言,可以大大减小码率。预测块p 是基于已编码 重建块和当前块形成的。对亮度像素而言,p 块用于4 x 4 子块或者1 6 x 1 6 宏块的相关操 作。4 x 4 亮度子块有9 种可选预测模式,独立预测每一个4 x 4 亮度子块,适用于带有大 量细节的图像编码;1 6 x 1 6 亮度块有4 种预测模式,预测整个1 6 x 1 6 亮度块,适用于平 坦区域图像编码;色度块也有4 种预测模式,类似于1 6 x 1 6 亮度块预测模式【1 8 , 1 9 。编码 器通常选择使p 块和编码块之间差异最小的预测模式。 4 x 4 亮度分量帧内预测模式 当图像区域中包含细节较为丰富时,由于块内各像素点有一定差别,因此按照以往 的算法将图像分割为8 8 大小的块进行预测产生的误差较大,此时将图像分为更小的块 进行预测是更好的选择。h 2 6 4 可以支持小至4 x 4 像素块的预测,使预测具有更好的准 确度。图3 3 ( a ) 为一待编码的4 4 亮度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 46023.2-2025汽车用智能变色玻璃第2部分:聚合物分散液晶调光玻璃
- GB 46033-2025粮食仓库安全操作规程
- 冷链鲜奶油打发协议
- 冷链柴油车维保服务协议
- 2025年合伙人股权利益协议
- 2025年度便利店转让合同及便利店经营授权协议
- 2025年度劳动合同终止与辞退员工安置协议
- 2025版私人门面房出租合同及租赁双方信息保密协议
- 2025年安全生产安全生产法律法规考试题及答案
- 2025年安全生产填空题及答案大全
- 试管婴儿医院协议书
- 运输咨询服务合同协议
- 2025-2031年中国咖啡豆行业市场深度分析及投资策略研究报告
- 2024版原醛症诊断治疗的专家共识解读
- 草坪补种合同协议
- 教师名师笔试题库及答案
- 连锁公司发票管理制度
- 中级四级计算机程序员技能鉴定理论考试题(附答案)
- GB/T 45355-2025无压埋地排污、排水用聚乙烯(PE)管道系统
- 学校食堂员工薪资方案
- 2025-2030中国冷冻榴莲行业供需现状究及未来销售渠道趋势报告
评论
0/150
提交评论