(信号与信息处理专业论文)视频编码中若干关键技术的研究.pdf_第1页
(信号与信息处理专业论文)视频编码中若干关键技术的研究.pdf_第2页
(信号与信息处理专业论文)视频编码中若干关键技术的研究.pdf_第3页
(信号与信息处理专业论文)视频编码中若干关键技术的研究.pdf_第4页
(信号与信息处理专业论文)视频编码中若干关键技术的研究.pdf_第5页
已阅读5页,还剩92页未读 继续免费阅读

(信号与信息处理专业论文)视频编码中若干关键技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 视频编码技术是多媒体通信中的关键技术之一。本论文对视频编码中的若干 关键技术进行了研究,主要包括基于m p e g 4f g s 的码率分配算法、亚像素插 值技术、h 2 6 4 编码算法的优化和视频点播平台的软件实现。本论文已取得的研 究成果包括以下四点: 1 提出了一种基于感兴趣区的m p e g 一4f g s 增强层码率分配算法。具有细 粒度可扩展( f o s ) 性的压缩码流可在任意位置进行截断,从而能有效地适应网络 带宽的变化。同时,f g s 中的选择性增强技术可以显著提高视频图像中人眼感兴 趣区的主观感受。但是简单的码率平均分配算法会造成相邻图像重建质量的严重 波动,而人眼对相邻图像问的质量波动是非常敏感的。因此,如何分配各帧增强 层的码率以获得恒定的重建图像质量是一个非常重要的问题。为此,本文针对经 过选择性增强后的f g s 增强层码流的率失真特性,建立了分段的二阶模型来精 确描述实际的增强层率失真曲线。然后基于此分段模型,提出了一种基于感兴趣 区的m p e g 一4f g s 增强层码率分配算法。实验结果表明,与码率平均分配算法 相比,该算法可以显著降低相邻图像中感兴趣区的重建质量波动。并且,通过算 法复杂度分析可咀证明,该算法引入的计算复杂度不会对视频服务器的性能造成 很大影响。 2 提出了两种新的亚像素插值滤波器以及一种新的亚像素插值方案。亚像 素插值技术用于获得运动补偿预测中所需的上采样图像,对编码效率有重要的影 响。本文对a v sm 中的业像素插值技术进行了深入研究,提出了一种新的8 抽 头插值滤波器和一组对称的3 抽头滤波器,分别用于1 2 像素和1 4 像素的插值 过程。在对六种亚像素插值方案的编码效率和软硬件实现复杂度进行了分析和比 较后,本文提出了一种新的亚像素插值方案。其中,1 2 像素插值采用8 抽头滤 波器和4 抽头滤波器的组合方式,1 4 像素插值采用线性插值。实验结果表明, 该方案的编码效率和软硬件实现复杂度与h 2 6 4 中的插值方案基本相当。目前该 方案已被a v sm 标准正式采纳。 3 实现了基于p c 平台的h 2 6 4 实时视频编码器。h 2 6 4 的高复杂度对于实 时视频编码器的实现构成了巨大挑战。为此,本文首先分析了h 2 6 4 软件编码器 中各功能模块的时间复杂度,然后基于m m x s s e s s e 2 指令集,对 l 2 6 4 编码 器中的s a d 计算、亚像素插值以及整数变换和量化这三个复杂度较大的功能模 块进行了代码级优化。实验结果表明,经过优化后的编码器,对于c i f 格式图像, 编码帧率可以达到3 0 帧秒以上,满足实时编码的要求。 4 建立了局域网环境下的视频点播演示平台。视频点播是网络视频流技术 北京丁业大学工学硼士学位论文 最重要的应用之一,而h ,2 6 4 标准也采用了多种有效的机制和工具,为视频流传 输提供了有力支持。为此,本文采用w i n s o c k 和多线程编程技术实现了一个基于 h 2 6 4 的视频点播演示平台。测试结果表明,在局域网环境下,该平台可同时为 3 0 个以上用户提供基本的视频点播服务。 关键词:视频编码,视频流,细粒度可扩展编码,码率分配,亚像素插值 a b s t r a o t v i d e oc o d i n gi so n eo fk e yt e c h n o l o g i e si nm u l t i m e d i ac o m m u n i c a t i o ni nt h i st h e s i s , t h er e s e a r c h e sh a v eb e e nc o n d u c t e do ns e v e r a lk e yt e c h n i q u e si nt h i s f i e l d ,i n c l u d i n g r a t ea l l o c a t i o nf o rm p e g - 4f g s ,s u b p i x e li n t e r p o l a t i o n ,o p t i m i z a t i o no fh 2 6 4 e n c o d e ra n ds o f t w a r ei m p l e m e n t a t i o no fv o d ( v i d e oo nd e m a n d ) t h em a i n c o n t r i b u t i o n so ft h et h e s i sc o n s i s to f t h ef o l l o w i n gf o u rp a r t s : 1 ar o i ( r e g i o no fi n t e r e s t ) b a s e dr a t ea l l o c a t i o na l g o r i t h mf o rm p e g - 4f g s i sp r o p o s e d w i t hf i n e g r a n u l a r i t ys c a l a b l e ( f o s ) c o d i n g ,t h ec o m p r e s s e db i ts t r e a mc a nb e t r u n c a t e da ta n yp o i n tt oe f f i c i e n t l y a d a p tt ov a r i o u sb a n d w i d t h s m o r e o v e r , f g s p r o v i d e st ot h ee n c o d e rt h ea b i l i t yt os e l e c t i v e l ye n h a n c et h er e g i o n st h a ta r ev i s u a l l y i m p o r t a n t ,s i g n i f i c a n t l yi m p r o v i n gt h es u b j e c t i v ev i s u a lq u a l i t yo fr e c o n s t r u c t e dv i d e o f r a m e s h o w e v e r , t h es i m p l er a t ea l l o c a t i o na l g o r i t h m ,i nw h i c ht h ee n h a n c e m e n t l a y e rb i t sa r ee q u a l l ya l l o c a t e dt oe a c hf r a m e ,m a yc a u s es e r i o u sq u a l i t yf l u c t u a t i o n , w h i l eh u m a ne y e sa r e v e r y s e n s i t i v et o q u a l i t yv a r i a t i o n s i na d j a c e n tf r a m e s t h e r e f o r e ,h o wt oa l l o c a t et h er a t ea m o n ge n h a n c e m e n tl a y e r st oa c h i e v et h ec o n s t a n t r e c o n s t r u c t e dq u a l i t yi sv e r yi m p o r t a n t i nt h et h e s i s ,ap i e c e w i s es e c o n d o r d e rm o d e l i sf i r s t l ys e tu pt od e s c r i b et h ea c t u a lr a t e d i s t o r t i o nc h a r a c t e r i s t i c so fe n h a n c e m e n t l a y e rb i ts t r e a n ae n h a n c e ds e l e c t i v e l y b a s e d o nt h i sm o d e l ,ar o i b a s e dr a t e a l l o c a t i o na l g o r i t h mf o rm p e g 一4f g si sp r e s e n t e d e x p e r i m e n t a lr e s u l t ss h o wt h a t t h ea l g o r i t h mc a na c h i e v em o r ec o n s t a n tr e c o n s t r u c t e dq u a l i t yo fr o i ,a d d i t i o n a l l y , t h ec o m p l e x i t ya n a l y s i ss h o w st h a t ,t h ec o m p l e x i t yb r o u g h tb yt h ea l g o r i t h md o e sn o t a f f e c tt h ep e r f o r m a n c eo fv i d e os e r v e rt o om u c h 2 t w os u b p i x e li n t e r p o l a t i o nf i l t e r sa n das u b p i x e li n t e r p o l a t i o ns c h e m ea r e p r o p o s e d s u b p i x e li n t e r p o l a t i o n ,b yw h i c ht h eu p - s a m p l e di m a g e sf o rm o t i o n c o m p e n s a t e d p r e d i c t i o na r ep r o d u c e d ,i sc l o s e l yr e l a t e dt oc o d i n ge f f i c i e n c y i nt h et h e s i s ,d e e p r e s e a r c h e sh a v eb e e nd o n eo ns u b p i x e li n t e r p o l a t i o ni na v s ms t a n d a r d w ep r e s e n t a n8 - t a pf i l t e rf o r1 1 2p i x e li n t e r p o l a t i o na n dap a i ro fs y m m e t r i c3 - t a pf i l t e r sf o r1 4 p i x e li n t e r p o l a t i o n f o l l o w i n g ,t h ec o m p a r i s o na m o n gs i xi n t e r p o l a t i o ns c h e m e sh a s b e e nc o n d u c t e dw i t hr e g a r dt oc o d i n ge f f i c i e n c ya n ds o f t w a r e h a r d w a r ec o m p l e x i t y f i n a l l y , w ep r o p o s ean o v e ls u b p i x e li n t e r p o l a t i o ns c h e m e ,i nw h i c hac o m b i n a t i o no f 8 - t a pa n d4 - t a pf i l t e r si se m p o l y e dt oi n t e r p o l a t e1 2p i x e l s ,a n da2 - t a pl i n e a rf i l t e ri s 1 1 1 u s e dt oi n t e r p o l a t e1 4p i x e l s e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ec o d i n ge f f i c i e n c y a n ds o f l w a l e h a r d w a l ec o m p l e x i t yo ft h ep r o p o s e ds c h e m ea l ec o m p a r a b l et ot h o s eo f t h ei n t e r p o l a t i o ns c h e m ei nh 2 6 4 t h es c h e m eh a sb e e na d o p t e db ya v s ms t a n d a r d 3 ap c b a s e dh 2 6 4r e a l - t i m ev i d e oe n e o d e ri si m p l e m e n t e d t h eh i 曲c o m p l e x i t yo fh 2 6 4 c o d i n ga l g o r i t h m sp o s e sg r e a tc h a l l e n g e s t o i m p l e m e n t a t i o no fr e a l t i m ev i d e oe n c o d e r f i r s t l y , t h et i m ec o m p l e x i t yo ff u n c t i o n a l m o d u l e si nh 2 6 4s o f t w a r ee n c o d e ri sa n a l y z e di nt h et h e s i s t h e n ,t h e t i m e c o n s u m i n gm o d u l e si n c l u d i n gs a dc o m p u t a t i o n ,s u b p i x e li n t e r p o l a t i o n ,i n t e g e r t r a n s f o r ma n dq u a n t i z a t i o na l eo p t i m i z e db a s e do nm m ) ( ,s s e s s e 2i n s t r u c t i o n s e x p e r i m e n t a ir e s u l t sd e m o n s t r a t et h a tt h eo p t i m i z e de n c o d e rc a ne n c o d em o r et h a n3 0 f r a m e so f c i ff o r m a ti m a g ei nas e c o n d 4 av o dp l a t f o r mo v e rl a n i si m p l e m e n t e d v o d ( v i d e oo nd e m a n d ) i so n eo ft h em o s ti m p o r t a n tv i d e os t r e a m i n ga p p l i c a t i o n s , w h i l eh 2 6 4e m p l o y sm a n ye f f e c t i v em e c h a n i s m sa n dt o o l st of a c i l i t a t et r a n s m i s s i o n o fv i d e os t r e a m 。i nt h et h e s i s ah 2 6 4b a s e dv o dp l a t f o r mi si m p l e m e n t e du s i n g w i n s o c ka n dm u l t i t h r e a d t e s tr e s u l t ss h o wt h a tt h ep l a t f o r mc a np r o v i d eb a s i cv o d s e r v i c e sf o rm o r et h a n3 0l a nu s e r sa tt h es a m et i m e k e y w o r d :v i d e oc o d i n g ,v i d e os t r e a m i n g ,f i n eg r a n u l a r i t ys c a l a b l ec o d i n g ,r a t e a l l o c a t i o n ,s u b p i x e li n t e r p o l a t i o n t v 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:了意雪虽日期:至! ! 堇量 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:随强聊签i 垡鱼蹶丝丛 1 1 研究背景 第1 章绪论 研究表明,人们接收的信息7 0 以上是通过视觉获得的【l 】。与文字和语音信 息相比,图像视频信息具有信息量大、直观和易于理解的特点,因此在人们的 日常生活、工作和通信等各方面都具有不,可替代的重要性。特别是随着信息技术 的飞速发展,数字化的图像视频信息已经渗入到人们日常生活的方方面面,成 为人们获取信息的重要来源。 虽然数字化的图像视频信息具有抗干扰能力强、易于加密和可以再生中继 等诸多优点,但其所需的数据量巨大【2 】,对传输和存储都极为不利。例如,对于 3 5 2 2 8 8 大小的原始视频图像,如果每个像素信息用3 个字节表示,当帧率是 3 0 帧秒时,所需的码率将达到7 3 m b p s 。如果网络连接的速率是1 m b p s ,传输1 秒钟的视频数据就需要大约7 0 秒的时间,根本无法达到实时传输的要求。而一 张普通的c d ( 约6 5 0 m b ) 最多也只能存储一、两分钟这样的原始视频数据。因 此,我们必须对原始图像视频数据进行高效的压缩( 编码) ,并以压缩码流的形 式传输和存储这些数据。 自2 0 世纪8 0 年代中期以来,视频编码技术作为多媒体通信中的核心技术, 一直是学术界和工业界的研究和应用热点。特别是随着超大规模集成电路( v l s i ) 技术的飞速发展,先进的视频编码算法不断涌现,使编码效率得到了显著提高u 】。 与此同时,i s o m p e g 和i t u t 分别推出了面向广播和消费类电子应用的m p e g 系列视频编码标准,以及面向多媒体通信应用的h 2 6 x 系列视频编码标准。这 些标准的开发和制定极大地推动了数字音视频产业的发展。其中,用于v c d 的 m p e g 1 标准和用于,“播电视、d v d 以及h d t v 的m p e g 一2 标准都已在商业上 取得了巨大成功。 目前视频编码领域中的研究热点和发展趋势主要体现在以f 几方面: ( 1 ) 面向网络传输的视频编码技术 随着网络技术和移动通信技术的迅猛发展,视频编码技术正逐渐由面向存储 转变为面向传输。与其它数据业务相比,实时视频业务不仅具有庞大的数据量, 而且对传输延时也有严格的要求。然而,传统的因特网只能提供“尽力而为” ( b e s t e f f o r t ) 的服务,无法保证视频传输的服务质量( q o s ,q u a l i t yo fs e r v i c e ) ,使 得在因特网上传输视频面临着诸多挑战【4 4 】,例如带宽受限、网络丢包、时延抖 动、网络和终端的异构性等等。为此,人们对面向网络传输的视频编码技术展开 :! ;坚! :三些;i 耋! 坠;i ! 塞! ! :! :, : 了广泛和深入的研究,研究的重点包括:可扩展编码、码率控制、码率分配、转 码、码流切换以及自适应编码等。 ( 2 ) 高编码效率、高复杂度的视频编码方法以及编码算法的优化技术 研究和开发具有更高压缩效率的编码方法一直是视频编码技术发展的方向。 随着处理器计算能力的不断增强以及v l s i 技术的迅速发展,各类先进的视频编 码技术层出不穷,编码效率也越来越高。例如,早期的h 2 6 l 标准,由于受到当 时处理器计算能力的限制,只能支持整像素精度的运动矢量;而最新的h 2 6 4 标 准则可以支持1 1 4 和1 8 像素精度的运动矢量例。此外,h 2 6 4 标准还采用了帧内 预测、多种块尺寸的运动估计、环路滤波器、基于内容的自适应二进制算术编码 等多种先进的视频编码技术l s - t l l ,使得h 2 6 4 的编码效率与之前的视频编码标准 相比有了明显提高。例如在相同质量下,h 2 6 4 可比h 2 6 3 和m p e g 一4 节省约5 0 的码率t 2 - t 3 。 然丽,视频编码算法的编码效率和计算复杂度是密切相关的。编码效率越高 的算法,其计算复杂度通常也会越高。同样,h 2 6 4 的高编码效率也是以高复杂 度为代价的,据统计h 2 6 4 编码算法的复杂度大约相当于h ,2 6 3 的2 到3 倍l j 4 ”j 。 显然,过高的复杂度对于一些应用( 例如p d a 和手机等移动终端) 来说将构成 巨大的挑战。为了在这类计算能力和功耗都非常有限的平台上实现h 2 6 4 编解码 算法,我们就必须对算法进行高效地优化,使得在编码效率基本不变或略有下降 的条件下,显著降低算法的复杂度和运行时间。因此,基于不同平台的视频编码 算法的优化技术已成为当前视频编码领域中的研究热点【i “”j 。 ( 3 ) 拥有自主知识产权的视频编码技术和标准 目前,我国已成为消费类电子产品的生产和销售大国,但是由于缺乏具备自 主知识产权的核心技术,国内的相关企业长期受制于国外持有标准、专利和技术 的企业及组织。例如,每生产一台采用m p e g 一2 标准的设备,就需交纳2 ,5 美元 的专利费,所以国内的相关企业每年都要为此付出巨额的费用 2 2 , 2 3 1 。 为了促进国内音视频产业的发展,国家信息产业部科学技术司于2 0 0 2 年6 月批准成立了数字音视频编解码技术标准工作组( 简称a v s 工作组) ,联合国内 企业和科研机构,共同制定拥有自主知识产权的音视频编码标准a v s ( k u d i o v i d e oc o d i n gs t a n d a r d ) 。除强调自主知识产权以外,a v s 中采用的视频编码技 术还具有很高的编码效率,同时也充分考虑到算法的实现复杂度等问题,以利于 该标准最终的实用化和产业化 2 4 1 。 1 2 本论文的研究内容 如前所述,目前视频编码领域的研究热点包括:面向网络传输的视频编码技 第1 章绪论 术、高效的视频编码方法以及编码算法的优化技术等。同时对于我国而言,研究 和玎发拥有自主知识产权的视频编码标准也是非常重要的。以此为背景,本论文 的主要研究内容包括以下四方面: 1 ) 在传输m p e g 一4f g s 压缩码流之前,视频服务器需要实时地将当前可用 网络带宽分配给各帧的增强层码流,以适应网络带宽的动态变化。传统的码率平 均分配算法是将当前可用的网络带宽平均分配给各帧,这种算法非常简单,但它 没有考虑各帧图像率失真特性之间的差异,所以会造成相邻帧之制重建图像质量 的严重波动,而人眼视觉系统对相邻图像的质量波动是非常敏感的。因此,在有 限的网络带宽条件下,需要研究一种更加合理的m p e g 4f g s 增强层码率分配 算法,使接收端能获得更恒定的重建图像质量。同时,码率分配算法的运算复杂 度不能过高,否则将会对视频服务器的性能造成很大影响。 2 ) 皿像素插值技术对于编码效率具有非常重要的影响。为了使我国的 a v sm 视频编码标准具有更强的竞争力,需要研究和开发新的亚像素插值方法 以及相应的插值滤波器。除强调自主知识产权以外,新的亚像素插值方法还应具 有很高的编码效率,同时也要充分考虑到算法的运算和实现复杂度等问题。 3 ) h 2 6 4 的编码效率与之前的视频编码标准相比有了显著提高,但这是以 巨大的计算复杂度为代价的,而过高的复杂度已成为h 2 6 4 实用化过程中的主要 瓶颈,所以对h 2 6 4 进行高效的优化已成为当前视频编码领域内的研究热点之 一。为了实现基于p c 平台的h 2 6 4 实时视频编码器,我们首先需要分析h 2 6 4 编码器中各功能模块的复杂度,再基于m m x s s e s s e 2 指令集,对其中复杂度 较大的功能模块或算法进行高效的代码级优化,同时还应保证不会对编码效率造 成较大影响。 4 ) 视频点播是网络视频流技术最重要的应用之一,而h 2 6 4 标准也提供了 多种有效机制,为h 2 6 4 压缩码流在网络上的流化传输提供了有力支持。为此, 我们开发了局域网环境下的视频点播演示平台,该平台支持h 2 6 4 压缩码流,并 可同时为多个用,j 提供基本的视频点播服务。 1 3 论文结构 论文共分8 章,各章内容安排如下: 第l 章绪论。阐述了本沦文的研究背景、主要研究内容以及论文结构。 第2 章视频编码技术和标准。介绍了基本的视频编码方法和典型的 d p c m d c t 混合编码方案;并对h 2 6 4 、m p e g 4 和a v s 标准中的主要技术特 点进行了说明。 第3 章面向网络传输的可扩展视频编码方法。阐述了因特网视频流技术的 北京工业大学工学硕士学位论文 基本概念、所而临的挑战以及对视频编码的要求:并重点讨论了面向网络传输的 可扩展视频编码方法,包括传统的分层可扩展编码方法以及m p e g 一4 中的细粒度 可扩展( f g s ,f i n eg r a n u l a r i t ys c a l a b i l i t y ) 编码方法。 第4 章基于感兴趣区的m p e g 一4f g s 增强层码率分配算法。建立了经过选 择性增强后的f g s 增强层率失真模型;并基于此模型,提出了一种基于感兴趣 区的f g s 增强层码率分配算法,以有效降低相邻帧之间的质量波动,提高重建 视频图像的人眼主观感受。 第5 章亚像素插值技术。首先介绍了亚像素插值技术的基本原理,并分别 对自适应插值滤波器和固定系数插值滤波器的主要特点进行了阐述。然后,介绍 了h 2 6 4 和a v s1 0 中采用的亚像素插值方法。接下来,提出了一种用于1 2 像 素插值的8 抽头滤波器和一种用于1 4 像素插值的对称3 抽头滤波器。最后,对 6 种不同的插值方案进行了详细比较,并给出了- f 0 新的亚像素插值方案,该方 案目前已被a v sm 标准所采纳。 第6 章h 2 6 4 软件编码器的优化。首先介绍了单指令多数据( s i m d ) 技术的 基本原理和m m x s s e s s e 2 指令集的主要特点。然后分析了t t 2 6 4 编码器中各 功能模块的运算复杂度。最后对s a d 计算、亚像素插值以及整数变换和量化过 程的优化技术进行了详细阐述。 第7 章局域网环境下视频点播演示平台的实现。首先介绍了网络视频传输 中经常使用的r t p u d p i p 协议,并对h 2 6 4 中的n a l ( n e t w o r k a b s t r a c t i o n l a y e r ) 单元做了简要说明。然后,实现了一个局域网环境下的视频点播演示平台,并详 细说明了该平台的基本结构以及主要的程序流程。 第8 章总结与展望。总结本论文的主要工作,提出论文的创新点,并对下 一步工作作了展望。 论文最后给出了参考文献、攻读硕士学位期间完成的论文、提交的技术提案、 参加的科研工作和致谢等。 !:! ! : 薹:茎堡堡塑塑垫童塑堡塞 第2 章视频编码技术和标准 2 1 视频编码技术概述 视频压缩( 编码) 是通过去除视频数据中的各类冗余信息来实现的i 心】。首 先,对数字视频信号进行统计分析后可以发现,视频图像的基本元素( 像素) 之 间存在着很强的统计相关性。通过去除这类统计冗余,就可以达到视频压缩的目 的。其次,视频信号的最终接受者是人的眼睛,由于人类视觉系统并不能感知图 像巾的所有细节及变化,所以去除人眼并不敏感的空域或时域视觉信息后,压缩 比可获得进一步提高。 实际使用的视频编码器主要去除以下三类冗余信息:空域冗余、时域冗余和 编码冗余。 2 1 1 空域冗余和变换编码 空域冗余( s p a t i a lr e d u n d a n c y ) 是指在一帧图像内,相邻像素问存在的统计 丰同关性,因此也称为帧内冗余。采用变换编码( t r a n s t b r mc o d i n g ) 【i 。1 技术町以 有效地去除这类冗余。变换编码是将空域内相关的像素点通过正交变换映射到另 一个正交矢量空间( 变换域或频域) ,即将空域中的像素值用变换域中的变换系 数来表示。虽然正交变换本身不能对数据进行压缩,但由于变换后系数之间的相 关性明显降低,图像的大部分能量一般都集中在低频区域,即集中在少数几个变 换系数上,所以对变换系数进行量化后,就可以丢弃人眼并不敏感的高频分量, 而只保留少数重要的系数,从而达到数据压缩的目的。 在当前的视频编码标准中,常见的正交变换包括离散余弦变换( d c t , d i s c r e t e f o u r i e rt r a n s f o r m ) 、哈达玛变换( h a r d a m at r a n s f o r m ) 以及整数变换( i n t e g e r t r a n s f o r m ) 等。其中,基于分块的d c t 变换被众多图像视频编码标准所采纳, 这一方面是因为d c t 变换具有良好的去相关性,另一方面是由于d c t 变换具有 快速算法并且对内存的需求较小,有利于软硬件实现。但是这类变换的缺点是, 当量化步长较大时,容易产生块效应,影响图像的主观感受。 下面对d c t 变换进行简要的介绍,d c t 正变换可表示为: y = a x a 7 ( 2 - 1 ) 其中盖是一个n n 的样值块( 图像的像素值或残差值) ,a 是d c t 变换矩 阵,而】,就是变换系数矩阵。变换矩阵a 中的元素定义如下: a y = c ic o s 笋舯c = 挎锄,c = 蜘堋 由式( 2 一1 ) 和式( 2 - 2 ) 可得: t 户c x cn-i。,c。s堡生堕竖c。s堕三坠坚(2-3)cxcy 岛2 。,篙_ c o s 警c 。s 警 l c 0j = 0 类似地,d c t 的反变换i d c t 可表示为: x = a r y a ( 2 4 ) _ ,= f n - i y n - i c 。c 疋c o s 堕旦卫旦c 。s ( 2 i + 1 ) x z ( 2 - 5 ) 以= x = o e q 岛警c 。s 矿y = o v 2 1 2 时域冗余和运动补偿预测 时域冗余是指相邻图像的像素之f n j 存在的统计相关性,因此也称为帧间冗 余。帧间预测编码可以有效地去除时域冗余,从而显著提高编码效率i 1 “。帧间 预测编码一般是针对图像块的预测编码,主要包括运动补偿预测( m c p , m o t i o n c o m p e n s a t e dp r e d i c t i o n ) 、帧重复等多种方法。其中运动补偿预测编码己 被目前各种视频编码标准所采纳。 运动补偿预测编码的基本原理是,首先在已编码的相邻帧( 前帧或后帧) 中, 为当前编码块找到一个与其最匹配的区域,二者在水平和垂直方向上的平移称为 运动矢量。然后对当前块与该区域的差值( 残差) 以及相应的运动矢量进行编码。 由于相邻图像像素之间的相关性,残差值与原始图像数据相比,幅度明显下降, 所以可用较少的比特数来表示,从而达到视频压缩的目的。 2 1 3 熵编码 为了进一步提高编码效率,需要对上述的变换系数以及运动矢量等编码信息 进行熵编码( e n t r o p yc o d i n g ) 。熵编码是纯粹基于信号统计特性的编码技术,属于 无损编码方法。常用的熵编码方法包括游程编码0 l l c ,r u n l e n g t hc o d i n 曲、霍 夫曼编码( h u f f m a nc o d i n g ) 和算术编码( a r i t h m e t i cc o d i n g ) 。 游程编码的基本原理是建立在图像的统计特性基础上的,当由字符构成的数 据流中各字符重复连续出现时,可以采用更紧密的序列来代替这些相同的字符序 列。例如,对编码系数进行量化和锯齿形扫描后,会出现大量连续零系数的情况。 这时利用游程编码就可降低表示零系数所用的比特数。 霍夫曼编码的理论依据是变长编码( v l c ,v a r i a b l el e n g t hc o d i n g ) 理论。变长 编码的基本原理是按照输入信息符号出现的统计概率,为输出码字分配不同的字 第2 章视频编码技术和标准 长。出现概率较大的输入符号会被赋以一个较短的码字,而出现概率较小的输入 符号则被赋以一个较长的码宁,从而使最终的平均码长尽量接近信源的信息熵, 即码长的下限。对于相同概率分布的信源来说,霍夫曼编码的平均码长比其它任 何一种有效编码方法都短。但是霍夫曼编码必须预先知道信源的概率分布,然而 对于统计特性极为复杂的视频数据来说,这通常是难以做到的。因此只能用对大 量数据进行统计后得到的近似概率分布来代替,使得霍夫曼编码在实际应用时无 法达到最佳性能。 算术编码的基本原理是任何一个数据序列都可以表示成0 和l 之问的一个间 隔,而该间隔的位置是与输入数据的概率分布有关的。既可以根据信源的统计特 性来设计算术编码器,也可以针对未知概率的信源来殴计能够自适应地适配其分 布的算术编码器。在信源概率分布未知的大部分情况下,算术编码要优于霍大曼 编码,但其复杂度要高于霍夫曼编码。 2 2d p c m d c t 混合编码方案 从h 2 6 1 标准开始,基于运动补偿的差分脉冲编码调制离散余弦变换混合 编码( d p c m d c th y b r i dv i d e oc o d i n g ) 方案已被各视频标准所采用【卜。】。在该方 案中,视频编解码器包括三个主要部分:运动估计补偿、变换编码和熵编码器。 图2 - 1 和图2 2 所示的是一对通用的d p c m d c t 混合编解码器的基本结构1 2 。5 j 。 其中,编码器对当前帧f 进行编码并输出压缩码流,而解码器对该压缩码流进 行解码并输出该帧的重建图像f 2 。由于这类编码方案通常采用有损压缩,所以 重建图像( 与原始图像e 是不同的。需要指出的是,在进行运动补偿时,编码 器利用当前帧的重建图像作为后续帧的参考图像,使得参考图像在编码器端和解 码器端能够保持一致,所以编码器中实际包含了解码器中的大部分功能模块。 视频编码器基本的运行流程分为编码流程和重建流程两部分l l 。 编码流程: ( 1 ) 视频图像以宏块( 1 6 1 6 的亮度块和相应的两个色度块,色度块的大小依 赖于采用的图像格式) 为单位进行编码。 ( 2 ) 编码器对各宏块进行帧内编码或帧间编码。对于帧间编码宏块,编码器中 的运动估计模块首先会在参考图像( 如一) 中,根据某种匹配准则,为当前编 码宏块找到一个1 6 1 6 的匹配块j d 。当前块与该匹配块在空问上的位移被称为 运动矢量。 ( 3 ) 将当前宏块与匹配块( 或预测值) p 相减,就可得到残差块d 。 :,! ! 童三些奎耋三耋至圭茎堡耋圣, ! ! :! ! , ( 4 ) 对d 进行d c t 变换。如果是帧内编码的宏块,编码器则直接对原始视频数 据进行d c t 变换。 ( 5 ) 对变换系数进行量化。 ( 6 ) 将量化后的二维变换系数( x ) 进行锯齿形扫描排列成一维数组,然后对 其进行游程编码。 ( 7 ) 最后,编码器将游程编码的输出结果、运动矢量、头信息等进行熵编码后, 就得到该宏块的压缩码流。 e 丑厂。- _ o 铲+ 三卜怔h 函l1 巨一剧r l i 一一* 兰芈 降十一蕊 斗 一恒掣咂乎:“ 图2 1d p c m d c t 视频编码器 图2 - 2d p c m d c t 视舰解码器 重建流程: ( i ) 将量化后的变换系数进行反量化和反变换( d c t ) 后得到重建残差块d 。 需要指出的是,量化过程是不可逆的,所以d 与d 并不完全相同,即量化过程 会引入一定的失真。 ( 2 ) 编码器将匹配块j d 与d 相加就得到了重建宏块,然后将该重建宏块存储在 缓存中。最后,在完成当前帧中所有宏块的编码后,就可得到该帧的重建帧, 可以作为后续帧的参考帧。 需要指出的是,对于帧内编码宏块,除了不需要进行运动估计补偿以外,其 它过程与帧内编码宏块是类似的,因此不再具体说明。 视频解码器的运行流程如下: ( 1 ) 从压缩码流中提取出各宏块的变换系数、运动矢量以及头信息等。 r 第2 章视努! 编5 马技术和标准 ( 2 ) 采用与编码端的游程编码和扫描过程相反的操作,就可得到该宏块二维的 量化后的变换系数z 。 ( 3 ) 将进行反量化和反变换后生成解码残差d 。 ( 4 ) 基于解码出的运动矢量,对参考帧一,中的相应区域进行运动补偿后,就 得到了当前宏块的预测值p 。 ( 5 ) 将j d 与d 相加得到重建宏块。最后,对当前帧中所有的宏块解码后,就得 到了完整的用于显示的解码帧。( 也可作为后续解码帧的参考帧。 2 3 视频编码标准概述 标准化是产业化成功的前提,从1 9 8 8 年开始,i s o i e cm p e g ( m o v i n gp i c t u r e e x p e r t sg r o u p ) 和i t u tv c e g ( v i d e oc o d i n ge x p e r t s ) 针对不同的应用制定了 一系列视频编码国际标准。其中,m p e g 系列标准主要面向广播和数字电视等消 费电子类应用,包括m p e g 1 、m p e g 2 和m p e g 4 等标准2 5 2 7 。i t u t 制定的 h 2 6 x 系列标准主要面向多媒体通信,包括h 2 6 1 、h 2 6 3 、h 2 6 3 + + + 等标准 2 8 - 3 1 1 。 在2 0 0 1 年1 2 月,m p e g 与v c e g 正式成立了联合视频工作组j v t ( j o i n tv i d e o t e a m ) ,制定了新的视频编码标准,该标准在i s o i e c 中的正式名称为m p e g 一4 a v c ,作为m p e g 4 标准的第十部分:在i t u t 中的正式名称为h 2 6 4 ”1 。以上 各视频编码标准的基本信息如表2 1 所示。 表2 一l 国际视频编码标准 标准完成时间主要特征 h 2 6 11 9 9 0 用于视频会议,6 4 k b p s 1 9 2 m b p s m p e g 11 9 9 2 用于在c d - r o m 一1 - 存储音视频数据,1 5 m b p s m p e g 一2 ( h2 6 2 ) 1 9 9 5 用于d v d 、数字电视广播等 h 2 6 31 9 9 5 用于极低比特率视频编码,小于6 4 k b p s h ,2 6 3 + ( v e r s i o n2 、 1 9 9 8 在h 2 6 3 的基础上增加了新的选项 m p e g 一41 9 9 9 基于内容的多媒体数据压缩编码 m p e g 一4 ( v e r s i o n2 ) 2 0 0 0 在m p e g 一4 的基础上增加了新的编码工具 h 2 6 3 4 - + 2 0 0 0在h 2 6 3 + 的基础上增加了更多的选项 h 2 6 42 0 0 3覆盖从低码率通信到高清晰电视的广域标准 我国信息产业部于2 0 0 2 年6 月批准成立了数字音视频编解码技术标准工作 组。该工作组的任务是,联合国内的企业和科研院所,制定拥有自主知识产权的 数字音视频编解码技术标准( a v s ,a u d i ov i d e oc o d i n gs t a n d a r d ) 。该标准主要面 北京工业大学工学硕士学位论文 向高分辨率数字广播、高密度激光数字存储媒体、无线宽带多媒体通讯、互联网 宽带流媒体等产业应用。 本论文的工作主要基于m p e g 4 、h 2 6 4 及a v s 标准展开,下面分别对这三 个标准的主要技术特点加以说明。 2 3 1m p e g 一4v i s u a l m p e g 4 标准中的第二部分( m p e g 4 v i s u a l ) p7 】用于对“自然”以及“合成” 视觉对象的编码。与较早的m p e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论