




已阅读5页,还剩54页未读, 继续免费阅读
(通信与信息系统专业论文)h364场景转换研究与优化.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
重庆邮电大学硕士论文 摘要 摘要 随着通信技术的发展,多媒体通信在各行各业中都有普遍的应用。自从h 2 6 4 标准发布以来,由于其高效的压缩性能、良好的网络亲和性以及完善的编解码算 法,逐渐成为通信领域研究的热点。与以往的视频编码标准一样,h 2 6 4 采用基于 块的运动补偿和变换的混合编码技术。但是与以往编码标准相比,它通过对一些 关键技术的改进,使编码效率提高了5 0 。h 2 6 4 不仅采用了分层的编码结构,还 在以往的视频编码基础上对编码方式进行了改进,从而使得该标准具有更高的实 用性。 在h 2 6 4 中,已有的码率控制提案j v t - g 0 1 2 可以实现较好的控制,但是 j v t - g 0 1 2 并没有考虑场景转换带来的影响。当场景转换发生后,相邻帧之间的相 关性降低,导致不能有效的进行预测编码,因而造成图像质量的下降。本文针对 场景转换给图像质量造成的影响,进行相应的研究和改进。主要内容如下: 首先,本文介绍了h 2 6 4 框架结构和核心技术。由于这些关键技术的应用, 使得该标准算法功能更强、运算精度更高,压缩效率更高。相对于以往的视频编 码标准来说,是更为实用和有效的视频编码标准。 其次,本文阐述了常见的场景转换的检测方法,特别对灰度法和直方图法进 行详细的分析和深入的研究。针对现有算法,提出了一种基于灰度直方图的改进 算法。该算法使用双阈值对归一化的灰度直方图进行判断,来检测场景的突变和 渐变。通过j m 8 6 测试平台实验,实验结果显示该算法能达到比较让人满意的查准 率和查全率。 最后,在上述检测算法的基础上,针对场景转换时图像质量下降的问题,本 文提出了一种基于可变长g o p 的码率控制算法。该算法在场景转换发生在前一个 g o p 开始位置时,避免新生成的g o p 相对过长。若g o p 过长时,将新的g o p 拆 分成2 个g o p ,避免缓冲区溢出。在场景转换时该算法能够提高图像质量,降低 场景转换给图像质量造成的影响。同时,本文还将该算法与j v t - g 0 1 2 算法进行比 较,考察其性能,通过实验验证了在场景中有物体剧烈运动或者场景发生转换时, 该算法能更好的控制码率,使得图像质量在主观和客观上得到了相应的提高,且 能很好的控制了p s n r 的波动。 关键词:h 2 6 4 ,场景转换,检测,灰度直方图,码率控制,变长c r o p 重庆邮电大学硕士论文 a b s t r a c t a b s t r a c t w i t h d e v e l o p i n g o fc o m m u n i c a t i o nt e c h n o l o g y , m u l t i m e d i ac o m m u n i c a t i o n a p p l i c a t i o n sh a v e b e e nw i d e s p r e a d s i n c et h eh 2 6 4s t a n d a r dh a sb e e nr e l e a e ,w h i c hh a s b e c a m et h eh o t s p o to fr e s e a r c hi nt e l e c o m m u n i c a t i o nf i e l df o ri t se x c e l l e n tc o m p r e s s i o n , i ti sf a m o u sw i t l lf r i e n d l yn e t w o r ki n t e r f a c ea n dp e r f e c tc o d e ca l g o r i t h m a ss a m ea st h e p r e v i o u sv i d e oc o d i n gs t a n d a r d s ,h 2 6 4u s et h eh y b r i dc o d i n gt e c h n i q u u so fb l o c k m o t i o nc o m p e n s a t i o na n dt r a n s f o r m a t i o n h o w e v e r , c o m p a r e dw i t ht h eo t h e rs t a n d a r d s , i t si m p r o v e ds o m ek e yt e c h n o l o g i e s ,c a l li n c r e a s e dt h ec o d i n ge f f i c i e n c yb y5 0 h 2 6 4 n o to n l yu s et h eh i e r a r c h i c a lc o d i n gs t r u c t u r e ,b u ta l s oi m p r o v e dt h ec o d i n gm e t h o ds o h 2 6 4s t a n d a r di sm o r ep r a c t i c a l h lh 2 6 4 ,t h ee x i s t i n gp r o p o s a lj v t - g 0 1 2r a t ec o n t r o lc a na c h i e v eb e a e rc o n t r o l , b u ti td i dn o tt a k ei n t oa c c o u n tt h ei m p a c to fs c e n ec h a n g e a f t e rt h es c e n ec h a n g e ,t h e c o r r e l a t i o nb e t w e e na d j a c e n tf r a m e sb e c o m el o w e r , r e s u l t e di tc a nn o tp r e d i c tc o d i n g e f f e c t i v e l yt oa f f e c tt h eq u a l i t yo fv i d e oi m a g e i nt h i sp a p e r , f o rt h ei m p a c to ft h es c e n e c h a n g e ,w ed i ds o m er e s e a r c ha n di m p r o v e m e n t s i t sc o n t a i n s : f i r s t ,d e s c r i b e dt h ef r a m es t r u c t u r ea n dc o r et e c h n o l o g i e so fh 2 6 4 a st h e s ek e y t e c h n o l o g y , m a k e st h ea l g o r i t h m sm o r ep o w e r f u l ,t h ec o m p u t i n gm o r ea c c u r a t ea n d m o r ee f f i c i e n tc o m p r e s s i o n c o m p a r e dw i t ht h ep r e v i o u ss t a n d a r d s ,i ti sm o r ep r a c t i c a l a n de m c i e n ts t a n d a r d s s e c o n d ,t h i sp a p e rd e s c r i b e dal i s to fc o m m o nm e t h o d so fs c e n ec h a n g ed e t e c t i o n i np a r t i c u l a rd i da n a l y s i sa n dr e s e a r c hi nt h eg r a ya n dh i s t o g r a m b a s e dt h eo r i g i n a l d e t e c t i o na l g o r i t h m ,p r o p o s e daa l g o r i t h mf o rs c e n ec h a n g ed e t e c t i o nb a s e do n g r a y - h i s t o g r a m t h ea l g o r i t h mu s e st w ot h r e s h o l d sa n dt h en o r m a l i z e dv a l u e ,t od e t e c t t h ea b r u p ta n dg r a d u a l j m 8 6p l a t f o r mt h r o u g ht h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h e a l g o r i t h mc a n a c h i e v em o r e s a t i s f y i n gp r e c i s i o na n dr e c a l l f i n a l l y , b a s e dt h ed e t e c t i o na l g o r i t h mi nt h i sp a p e r , f o rt h ei m a g eq u a l i t yr e d u c e w h e ns c e n ec h a n g e d ,p r o p o s e dav a r i a b l el e n g t hg o pa l g o r i t h mf o rr a t ec o n t r 0 1 t h e a l g o r i t h mc h a r a c t e r i z ei st h a tc h a n g i n gt h el e n g t ho fg o p t oi m p r o v et h ei m a g eq u a l i t y , n r e d u c et h i si n f l u e n c ew h e ns c e n ec h a n g eh a p p e n m o r e o v e r , c o m p a r et h ea l g o r i t h mo f j v t - g 012 ,t h ee x p e r i m e n t a lr e s u l t ss h o w sp r o p o s e sa l g o r i t h mc a nb e t t e rc o n t r o lt h er a t e m a k et h ei m a g eq u a l i t yh a sb e e ni m p r o v e d ,a n dc o n t r o lo ft h ep s n rf l u c t u a t i o n k e yw o r d s :h 2 6 4 ,s c e n ec h a n g e ,d e t e c t i o n ,h i s t o g r a m ,r a t ec o n t r o l , v a r i e t yg o p s i z e 。 i i i 重庆邮电大学硕士论文 图索引与表索引 图索引 图1 1 视频传输存储的过程2 图1 2 视频编码标准的演进4 图2 1h 2 6 4 a v c 的分层结构。1 0 图2 2n u l u 单元的结构1 0 图2 3i 帧、p 帧、b 帧三者之间的关系1 l 图2 4h 2 6 4 的档次划分1 2 图2 5 视频编码的基本流程:1 3 图2 6h 2 6 4 编码器结构框图1 3 图2 7h 2 6 4 a v c 支持的可变块尺寸:1 4 图2 8 可变块的运动补偿1 5 图2 9 矢量位移。1 6 图2 1 01 6 1 6 亮度或色度块的预测模式1 6 图2 1 14 * 4 亮度块预测模型1 7 图2 1 2z i g - z a g 扫描,2 l 图2 1 3 去块效应滤波器的效果比较2 2 图3 1 视频的结构示意图2 4 图3 2 突变2 5 图3 3 淡入淡出。2 5 图3 4 消融2 6 图3 5 划变2 6 图3 6 改进算法流程图。3 4 图3 7 实验结果3 7 图4 1 码率控制流程。3 9 图4 2g o p 重组方法示例4 3 图4 3 算法流程图4 4 图4 4 包含场景转换序列的比较4 6 表索引 表1 1 常用的格式及其比特率2 表1 2 网络传输速率和媒质存储容量3 表1 3 常见的编码算法分类4 重庆邮电大学硕士论文 图索引与表索引 表1 4 常见业务的比特流和所使用的编码标准5 表2 1 预测模式描述1 7 表2 2h 2 6 4 中编码器量化步长2 1 表3 1 具体渐变类型的划分3 1 表3 2 实验结果3 5 表3 3 由标准测试序列合成序列的实验结果3 5 表4 1 实验环境4 6 表4 2 含有场景转换的视频序列p s n r 值对比4 6 重庆邮电大学硕士论文 第一章绪论 1 1 引言 第一章绪论 随着科学技术的飞速发展和社会的不断进步,我们已经迈入了信息化时代,处 理信息的方法也有了很大的变化。传统的语音已经远远满足不了人们的需求,在 听到声音的同时也希望能看到图像,而且最好是逼真的彩色视频图像。近几十年 来,视频已经成为人们通信和娱乐的一个重要的媒体。由于计算机技术的发展, 视频图像信息也不断的进步,从以前的模拟形式变成了数字视频。数字视频不同 于传统的信息,它携带的信息量远远大于了语音和数据,它具有直观、生动、具 体和易于接受等特点,慢慢的成为了人们最主要的通信手段之一。根据统计,7 0 左右的信息是人们通过视觉获取的,所以数字视频作为多媒体信息的主要载体之 一,已经深入了人们的生活。 数字视频的处理和传输逐渐成为了人们关注的热点。从8 0 年代后期开始,数 字视频已经成为重要的研究领域。为了满足人们日益增长的需求,需要对数字视 频的处理和传输等一系列先进技术进行大力发展,而首先就需要解决对数字视频 信号的编码问题。由于数字视频包含着巨大的信息量,而网络资源是有限的,所 以只有将现有的数字视频信号进行大幅压缩,才可能在网络中进行传输。因而高 效率的数字视频压缩编码对突破网络带宽的限制,降低储存成本,以及更好的推 广视频图像技术具有非常重要的意义。 1 2 视频编码概述 1 2 1 视频编码的历史 1 9 4 8 年,o l i v e r 提出了第一个编码理论一c m 。同年s h a n n o n 首次提出并 建立了突破性的信息熵的概念和理论。之后,s h a n n o n 和r f a n o 设计了一个系统 的方法来分配码字,从而压缩使用的信息块的概率。1 9 5 1 年,d h u f f m a n 研究得 出了一种比可变长、平均码率可以更接近信息源熵值的编码。在7 0 年代中后期, 随着文本文件在线储存变得普遍,压缩编码软件开始发展,而这些软件几乎全部 是基于h u f f r n a n 自适应编码。1 9 7 7 年,a l e m p e l 和j z i v 提出并发表了l z 7 7 算法, 后来由w e l c h 1 j 于1 9 8 4 年在硬件设计过程中进行改进,提出了l z w 重庆邮电大学硕士论文 第一章绪论 ( l e m p e l z i v w e l c h ) 算法。这些算法,能够精确恢复原始数据,因此被称为无损 压缩。在8 0 年代后期,随着数字图像的普及,无损压缩的压缩比已经不能满足人 们的需要,使有损压缩得到了大力的发展。对于有损压缩,在保证一定精度的情 况下可以得到比无损压缩高得多的压缩比,但是它只能用近似数据代替原始数据, 所以会有一定程度的失真。由于有损压缩在压缩比上具有优势,在9 0 年代初期得 到了广泛的应用。 1 2 2 视频编码的用途 网络的传输带宽和存储能力是一种昂贵且稀缺的自然资源。为了解决网络带宽 和存储能力的限制,就需要对数据进行压缩,让数据的传输和存储更经济高效, 从而压缩技术更加受到青睐,图1 1 给出了视频传输存储的过程。在网络传输中, 一个好的视频压缩协议,可以在低带宽的条件下提供相对高质量的视频信号。在 高带宽中,更容易获得高分辨率传输。支持更高的视觉质量,例如标准清晰度电 视和高清晰度电视( h d t v ) 。 视频输入一 二三三三三二 j 三里三至二) - 叫叫二三至至乎视频输出 图1 1 视频传输存储的过程 表1 1 举例给出了视频通信系统中常用的格式以及非压缩比特率。 表1 1 常用的格式及其比特率 视频格式亮度 色度频率 非压缩比特率( m b p s ) n u r 6 l 8 5 8 * 5 2 5 4 2 9 宰5 2 5 ( 4 :2 :2 ) 3 02 1 6 c i f3 5 2 * 2 8 8 1 7 6 掌1 4 4 ( 4 :2 :0 ) 3 03 6 5 q c i f 1 7 6 1 4 4 8 8 7 2 ( 4 :2 :o ) 1 54 6 表1 2 给出了常用的网络传输系统带宽和存储媒质容量。 通过表1 1 和表1 2 可以得知,由于数字视频的数据量巨大和网络带宽资源的 限制,我们不可能将没有压缩的c i f 格式的图像序列通过网络来进行传输。同样, 将h d t v 的数字视频数据也不可能存储在媒质中,h d t v 的比特率为 1 2 8 0 7 2 0 6 0 3 8 = 1 3g b y t e s ,就算是蓝光d v d ( 是d v d 5 的1 0 倍的容量) 能存 储5 0 g b y t e s ,也无法存储5 分钟的视频图像。因此数字视频压缩在传输和存储中 是一个非常关键的技术,它能使现有的传输带宽和存储容量得到最有效的利用。 2 重庆邮电大学硕士论文 第一章绪论 表1 2 网络传输速率和媒质存储容量 媒质网络 容量 以太网( 1 0 m b p s )最大1 0 m b p s , 通常1 - 2 m b p s 以太网( 1 0 0 )最大1 0 0m b p s ;通常1 0 2 0m b p s a d s l通常1 - 2m b p s ( 下行速率) i s d n - 2 1 2 8 k b p s v 9 0m o d e m 5 6 k b p s 下行速率:3 3 k p b s 上行速率 c d r o m7 0 0m b y t e s d v d 54 7g b y t e s d v d 98 5g b y t e s 1 2 3 视频编码的原理 视频压缩编码主要是在压缩比和视频质量之间作出权衡。在减少视频数据量的 同时,保证人类视觉系统( h v s ) 的感观质量,通过除去视频序列中的冗余来达到这 个目的。实际中视频序列包含了四种常见的冗余:心理视觉、空间、时间和符号 统计冗余。下面简略的介绍一下这四种冗余: ( 1 ) 心理视觉冗余:由于人眼是视频图像的最终接收者,所以可以充分利用人 眼的视觉特性来提高视频的压缩比。人的视觉系统对图像的敏感是非线 性、非均匀的,并不是对图像中的任何变化都能感知。利用这个特点,可 以在不引入重大感知差异的情况下,使图像得到更大的压缩比。 ( 2 ) 空间冗余:是静态图像中最主要的一种。是指可以通过图像中某一点的像 素值推断出相邻点的像素值,即相邻的像素往往是相关的。因此可以在减 少每帧数据量的情况下,得到相似程度较高的像素值。 ( 3 ) 时间冗余:通常包含相同的对象,相邻帧之间有相对的运动的物体,只不 过运动物体所在的空间位置略有不同,可以通过运动矢量来代表物体的移 动,在时间上相邻两帧图像的大部分的像素变化很小。 ( 4 ) 符号统计冗余:通过分析视频序列的符号发生概率,来实现更高的压缩比。 这就是所谓的熵编码。根据不同符号各自出现的概率,合理的分配不同长 度的码字。 压缩编码技术分为有损压缩和无损压缩。利用冗余的前3 个类型进行压缩编码 称为有损压缩,因为压缩后的数据不能将源数据完全恢复。无损编码或者熵编码 结合有损编码达到能更高的压缩效率。h u f f r n a n 编码,行程编码和算术编码都是基 3 重庆邮电大学硕士论文 第一章绪论 于熵的编码。无损压缩通常只能实现相对较多的压缩比。例如压缩软件w i n z n d 在压缩文本文件时,不可能达到2 :1 的压缩比。但是,视频的压缩比要求很高( 超 过了1 0 0 0 :1 ) ,为了能高效的传输和存储这些视频数据,因此有损压缩技术还采 用了降低比特率和视频数据量的大小,同时对视频的质量有一定的限制。下面将 无损压缩和有损压缩进行分类,分类结果如表1 3 所示: 表1 3 常见的编码算法分类 编码方法实例 行程编码 无损编码i - i u t f n a n 编码 字典编码 算术编码 预测编码 变换编码 有损编码金字塔编码 子带编码 矢量量化编码 1 2 4 视频编码的发展 现在社会上使用的主要视频编码标准分为两类:m p e g x 和h 2 6 x ,下面分别 介绍这两种主要的视频编码标准。图1 2 为这两种视频编码标准的演进历程。表 1 4 为常见业务所使采用的编码标准。 1 9 8 41 9 1 9 勰1 9 9 01 9 9 21 9 舛1 9 9 61 9 9 1 1舢2 口2 0 0 图1 2 视频编码标准的演进 4 重庆邮电大学硕士论文 第一章绪论 表1 4 常见业务的比特流和所使用的编码标准 应用程序比特流编码标准 s d t v 2 - 6 m b p s h 2 6 2 m 田e g - 2 h d t v 1 0 一2 0m b p s h 2 6 2 m p e g 一2 v c d 1 4 m b p s m p e g 1 d v d 5 - 8 m b p s h 2 6 2 m 呼e g 2 网络视频 2 0 - 3 0 0k b p s h 2 6 3 ,m p e g - 4 h 2 6 4 a v c 视频会议视频电话 2 0 3 2 0k b p s h 2 6 1 ,h 2 6 3 , h 2 6 4 a v 3 g 无线视频 2 0 1 0 0k b p s h 2 6 3 ,m p e g - 4 h 2 6 4 a v c m p e g 是动态图像专家组的缩写,该专家组成立于1 9 8 8 年,是专门负责制定 音频和视频标准的组织。其成员均为音、视频领域的技术专家,由于此小组提出 并指定了i s o i e c l l 7 2 压缩编码标准,使得m p e g 名扬于世。现在所泛指的 m p e g x 版本,是指由国际标准化组织i s o 和国际电信联盟i t u 指定并发布的音 视频压缩标准。总体来说,m p e g 在三个方面优于其他的压缩解压编码标准。 ( 1 ) 兼容性好,主要是因为他一开始就被作为一个国际化的标准来研究指定。 ( 2 ) 能够达到更高的压缩比,最高可达2 0 0 - 1 。 ( 3 ) 在提供高压缩比的同时,数据损失造成的音、视频失真很小。 m p e g - 1 是m p e g 组织于1 9 9 2 年为工业级标准而设计的第一个视频和音频的 有损压缩标准,适用于不同带宽的设备,如c d r o m 、v i d e o - c d 等。m p e g 一1 的 最高编码速率可以达4 - 5m b i t s ,但随着速率的提高,其解码后的图像质量有所下 降。m p e g 1 采用了一系列先进技术对传输速率进行优化,使它可以被用于数字电 话网络上的视频传输,例如非对称数字用户线a d s l 、视频点播v o d 以及教育网 络等。 m p e g 2 【2 1 制定于1 9 9 4 年,其目标是保障高级工业标准的图像质量以及更高的 传输速率。它不是m p e g 的简单升级,而是在系统和传送方面做了更加详细的规 定和进一步的完善。由于m p e g - 2 的表现出色,所以被认定为数字标准高清晰度 电视( s d t v ) 高清晰度电视( h d t v ) 的编码标准,从而使m p e g 一3 未发布就被 放弃了。m p e g 2 除了作为d v d 的指定标准外,还可以为广播、有线电视网络、 电缆网络以及卫星直播( d i r e c tb r o a d c a s ts a t e l l i t e ) 提供广播级的数字视频。m p e g 一2 作为一个得到广泛应用的国际标准,主要在于提出了通用的压缩编码方法,定义 5 重庆邮电大学硕士论文 第一章绪论 了不同的“档次”和“级别”,可以满足不同业务需要。 为了使音、视频媒体达到品质高、体积小、应用层面广的要求,m p e g 专家组 在成功定义了m p e g 1 和m p e g - 2 之后,于1 9 9 4 年开始指定全新的m p e g - 4 标准。 该标准主要应用于视频电话( v i d e op h o n e ) 、视频电子邮件( v i d e oe m a i l ) 和电子新 闻( e l e c t r o n i cn e w s ) 等。它将众多的多媒体应用集成于一个完整的框架内,为了多 媒体通信及其应用环境提供标准的算法和工具,用于实现音、视频数据的高效编 码及更为灵活的存取。m p e g - 4 利用很窄的带宽,通过帧重建技术压缩和传输数据, 使得能够以最少的视频数据来获得最佳的图像质量。 其实m p e g 4 的初衷是打算将d v d 质量的视频图像的码流从每秒6 m 降低到 1 5 m ,将高清晰度电视的码流从每秒几十m 降低到6 - 8 m ,如果要实现这样的编 码压缩水平,这需要a v c 视频编码技术【l 】。 h 2 6 x 系列视频编码标准是i t u :t 国际组织发布的,为了满足不同的视频通信 应用。如h 2 6 1 、h 2 6 2 、h 2 6 3 视频编码标准是为了满足从i s d n 视频服务到局域 网、无线网络视频服务等要求。总的来说,h 2 6 x 在技术上有如下优点: ( 1 ) 视频压缩的码流具有严格的语法规则,各标准之间具有兼容性,因此基于 h 2 6 x 技术的内核解码器可以做成一个标准内核或器件。 ( 2 ) h 2 6 x 标准针对具体应用进行技术优化,保证了最佳的视频效果。 ( 3 ) h 2 6 x 标准是一个开放的体系,公司、科研院所和个人都可以对它进行改 进,提高其技术性能。 h 2 6 1 3 】是i t u - t 公布的用于综合业务数字网( i s d n ) 上以p * 6 4 k b s 的速率进 行视频会议和可视电话业务的视频压缩标准,是第一个成功用于实际的数字视频 标准。可以通过调整p 值的高低,来适应不同图像质量的视频会议业务。h 2 6 1 只 对q c i f 和c i f 两种格式的图像进行处理,它详细制定了视频编码的各个部分,包 括运动补偿的帧间预测、量化、熵编码、d c t 变换,以及与固定速率的信道相匹 配的速率控制等等。 h 2 6 2 就是m p e g - 2 的视频编码部分,它面向常规的数字电视、高清晰度数字 电视( h d t v ) 、d v d 和数字视频点播等应用,能在多种不同分辨率下提供速率范围 为2 2 0 m b s 的音、视频编码方案。 h 2 6 3 t 4 】视频编码标准于1 9 9 5 年定稿,为低码率条件下的网络视频服务制定, 旨在利用p s t n 和移动通信网开展可视电话业务。该标准在h 2 6 1 算法框架的基础 上,为降低码率提出几项改进的编码模式,使之综合性能有很大的提高。算法的 基本思想类似于h 2 6 1 ,把减少空间冗余的帧内预测和减少时间冗余的变换编码结 合起来。h 2 6 3 标准被广泛的应用于低码率条件下的网络视频服务,这些网络包括 移动网络、公共电话交换网和窄带i s d n 。为了扩展h 2 6 3 的应用范围,i v 相继 6 重庆邮电大学硕士论文 第一章绪论 发布了h 2 6 3 + 和h 2 6 3 + + 等改进版本,目的就是为了进一步提高视频图像的质量 以及传输过程中的容错能力。 h 2 6 4 a v c 是由i s o i e c 与r r u t 组成的联合视频小组( j v t ) 锖t j 定的新一代视 频压缩编码标准,于2 0 0 3 年定稿。1 9 9 6 年制定h 2 6 3 标准后,i n 卜t 的视频编码 专家组( v c e g ) 开始了一个长期研究计划,在长期研究计划中产生了h 2 6 l 标准 草案。h 2 6 l 无论在压缩效率,还是网络适应性方面都有明显的优越性。于是在 i s o i e c 中该标准命名为a v c ,作为m p e g 4 标准的第l o 个选项;在r r u t 中正 式命名为h 2 6 4 标准。与先前的一些编码标准相比,h 2 6 4 a v c 的主要技术性能 体现在以下几个方面【5 】【6 】 ( 1 ) 高压缩率,在相同的重建图像质量下比h 2 6 3 节省5 0 的码率,在进行高 比特率压缩时质量优良。 ( 2 ) 采用简洁的设计方式、简单的语法描述。避免过多的选项和配置,尽量利 用现有的编码模块,具有更好的兼容性。 ( 3 ) 低时延,对不同业务灵活的采用相应的时延机制,既可以满足实时业务也 能满足无时延要求的业务。 ( 4 ) 加强对误码和丢包的处理,提高解码器的差错恢复能力。 ( 5 ) 在编解码器中采用复杂度可分级设计,在图像质量和编码处理之间可缩放 ( 质量可分级) ,以适应高和低复杂性的应用。 ( 6 ) 提高网络的亲和性,以适应m 网络和移动网络的应用。 h 2 6 4 a v c 是为了在如下领域中提供高质量的视频压缩解决方案t ( 1 ) 基于卫星、电缆、d s l 和宽带网络的视频广播服务。 ( 2 ) 提供更好的光存储或磁盘存储性能。 ( 3 ) 在以太网、局域网、d s l 、无线网络和移动网中提供常规的视频服务。 ( 4 ) 为多媒体消息服务提供视频压缩解决方案。 h 2 6 4 a v c 编码标准的主要功能包括了以下几个方面: 1 3 本文工作 本文首先对h 。2 6 4 a v c 视频编码标准进行了仔细研究,选用编码简单但性能 完善的j m s 6 f a a s e l i n ep r o f i l e ) 作为测试平台,通过对其进行代码优化来进行实验, 通过实验验证算法的有效性。 通过观察发现在剧烈运动或者场景发生转换的情况下,图像质量会大幅下降。 经过对h 2 6 4 深入的了解,发现图像质量下降的原因是h 2 6 4 中码率控制j v t - g 0 1 2 没有考虑场景转换带来的影响。发生场景转换时,相邻帧之间的相关性降低使编 重庆邮电大学硕士论文 第一章绪论 码时产生了严重的预测误差,导致图像质量突然下降。为了解决这个问题,本文 对h 2 6 4 场景转换进行了研究与优化。 本文通过对以前的各种检测算法进行详细的研究与了解后,根据原有方法的 优点与不足,提出了一种通过归一化灰度直方图并且采用双阈值的方法。实验证 明该方法能比较准确高效的检测出场景转换,达到令人满意的查全率和查准率。 在具有高效检测效率算法的基础上,通过研究h 2 6 4 的码率控制的方法,详 细了解了常见的各种码率控制方法。针对j v t - g 0 1 2 中对剧烈运动图像和场景转换 时的不足,提出了一种基于可变长g o p 的码率控制算法。通过在j m 8 6 测试平台 下进行实验,证明场景转换时该算法能够提高图像质量,降低场景转换给图像质 量造成的影响。同时,本文还将该算法与j v t - g 0 1 2 算法进行比较,考察其性能, 通过实验验证了在场景中有物体剧烈运动或者场景发生转换时,该算法能更好的 控制码率,使得图像质量在主观和客观上得到了相应的提高,且很好的控制了 p s n r 的波动。 1 4 章节安排 本文将从以下几章来详细的介绍和描述h 2 6 4 视频场景转换检测与编码优化。 第一章,绪论,对视频压缩编码历史、用途、原理和发展进行了简要的介绍, 并指出了本文所做工作。 第二章,详细分析h 2 6 4 视频压缩编码标准以及其采用的帧间预测、帧内预测、 熵编码、变换编码、矢量量化、加权预测以及去块效应滤波等关键技术。 第三章,说明了场景转换检测的意义,同时对场景转换的方法进行了详细的介 绍,并提出一种基于灰度直方图的改进算法,通过实验证明该算法能达到令人满 意的查全率和查准率。 第四章,对码率控制的原理及方法进行了详细介绍,提出了一种基于可变长 g o p 的改进算法,对场景转换进行优化,以达到提高图像质量的目的。在j m 8 6 平台上进行实验,并与j v t - g 0 1 2 码率控制算法进行对比,得到了很好的效果,达 到了预定目的。 第五章,总结全文所做的工作,并提出以后需要进一步研究的方向,和一些需 要考虑的问题。 8 重庆邮电大学硕士论文 第二章h 2 6 4 视频压缩编码标准 第二章h 2 6 4 视频压缩编码标准 h 2 6 4 a v c 视频编码压缩标准是由国际电信联盟( i t u t ) 的视频编码专家组 ( v c e g ) 和国际标准化组织( i s o m c ) 的活动图像专家组( m p e g ) 组成的联 合视频小组( t ) 开发的一个新的视频编码标准。它既是1 1 u t 的h 2 6 4 又是 i s o i e c 的m p e g 4 的第十部分。所以人们常常将h 2 6 4 标准与m p e g - 4 合起来, 称为h 2 6 4 a v c 。h 2 6 4 a v c 在没有对结构进行太大改变的基础上,集成了h 2 6 3 和m p e g 1 2 4 标准的所有优点。h 2 6 4 a v c 视频编码标准通过对常规的运动补偿、 系数变换编码、熵编码等关键技术进行改进来提高编码效率。并且采用4 * 4 块( 在 实际应用时的最小单位通常精确到像素,为了避免复杂度加大,常将相邻的多个 关联像素组成各种尺寸的模块来便于计算) 的d c t 整数变换对残差信号进行变换 编码,提高运算速度。采用基于内容的自适应变长编码c a v l c 和基于内容的自适 应二进制算术编码c a b a c 进行熵编码,提高了压缩效率。由于这些技术的使用, 使得h 2 6 4 具有算法功能强、运算精度高、压缩效率高等优点,相对于其他的视 频编码标准来说更为实用和有效。本章将详细介绍和分析h 2 6 4 a v c 视频编码标 准。 2 1 h 2 6 4 视频编码结构 2 1 1 h 2 6 4 的分层结构 如图2 1 所示,h 2 6 4 a v c 视频编码标准是基于分层结构,将网络适应性与视 频编码紧密的结合起来,以获得最佳的传输性能,从而有效的解决现在和未来对 网络视频应用的各种需求。分层技术主要是通过视频编码层( v c l ) 和网络抽象层 f n a l ) 来实现整个编码过程f 7 1 。v c l 对视频内容进行表述,n a l 则是对v c l 层的 视频内容进行格式化,将v c l 表示的视频编码数据转化成一种适合予特定网络传 输或存储的视频格式。这样的结构便于信息的封装,也便于对信息进行更好的控 制。下面对v c l 和n a l 的功能分别进行介绍。 ( 1 ) h 2 6 4 的视频编码层( v c l ) h 2 6 4 同以往的视频编码标准相比能获得更高的压缩比和更好的图像质量,除 了采用了一系列的新算法,最主要的是v c l 层采用了基于块的混合编码方法。通 过对预测残差进行d c t 整数变换来减少视频图像空间域上的冗余,通过帧间预测 9 重庆邮电大学硕士论文 第二章h 2 6 4 视频压缩编码标准 来减少视频序列在时域上的冗余。 ( 2 ) h 2 6 4 的网络提取层( n a l ) 网络提取层( n a i ,) 负责使用下层网络的分段格式来对数据进行封装,包括帧组 ( g o p ) 、逻辑信道的信令、定时信息的利用和发序列结束信号等。n a l 以n a l u ( n a lu n i t ) 来支持编码数据在基于分组交换技术网络中的传输,这有利于数据 经打包后在网络中的传输。编码的视频数据组织成n a l 单元,每个n a l u 含有一 个字节的头信息和多个字节的数据信息。头信息含有存储标志和类型标志:存储 标志用于指示当前数据是否属于被参考帧,以便服务器根据网络情况进行选择; 类型标志用于指示该数据的类型,如:i 帧、p 帧和b 帧等。在面向包或面向比特 的传输系统中,n a l 断垣结构定义了统一的格式,由编码器生成的一系列n a l 单元称为一个n a l 单元流。n a l 的任务是提供适当的映射方法将头部信息和数据 映射到传输协议上,从而消除分组交换传输中组帧和重同步的开消。图2 2 显示了 n a l u 单元的结构。 图2 2 n u l u 单元的结构 1 0 重庆邮电大学硕士论文 第二章h 2 6 4 视频压缩编码标准 2 1 2 h 2 6 4 支持的图像帧结构 h 2 6 4 视频编码标准支持多种分辨率的视频图像格式,包括q c i f 、c i f 、4 c f 、 s u b q c 等。这些视频图像序列一般是以y u v 格式进行存储。- 格式中,将 亮度和色度信号分开存储,因此h 2 6 4 支持视频格式包括了4 :2 :0 、4 :2 :2 和4 :4 :4 等几种方式,并且还支持逐行扫描和隔行扫描。 视频输入的图像都将被分成1 6 1 6 的宏块( m b ) ,每个宏块又可以分成4 个4 * 4 的子块或2 个8 * 8 的小块。一个c i f 格式的视频图像可以分为2 2 1 8 = 3 9 6 个宏块, 一个q c i f 的图像可以分为9 1 1 - - - - 9 9 个子块。片( s l i c e ) 由若干个宏块可以组成宏 块组成,它是图像的子集。一个q c i f 图像最多可以分成9 9 个片,最少可以分成 1 个片。设置片的目的是为了限制误码的传输和扩散,所以应该使编码片间保持相 互独立。 2 1 3 h 2 6 4 支持的图像帧类型 h 2 6 4 中图像帧类型除了传统的i 帧、p 帧、b 帧,还引入了s p 帧和s b 帧。 其中i 帧是最简单的编码类型,只包含了帧内编码,所有的宏块不参考视频序列中 的其他帧;p 帧是通过对它之前的i 帧或者p 帧进行预测得到的;b 帧可以对它之 前或之后的i 帧和p 帧进行双向预测。图2 3 现实了这三种帧结构之间的关系。由 于本文使用h 2 6 4 的基本档次( b a s e l i n ep r o f i l e ) 未涉及s p 帧和s b 帧,这里就不 再进行介绍。 图2 3i 帧、p 帧、b 帧三者之间的关系 2 1 4 h 2 6 4 的编码档次 档次( p r o f i l e ) 定义了一组编码工县的算法,用于产生一致性的码流。每种档次 都支持一组特定的编码功能。h 2 6 4 定义了3 种档次:基本档次( b a s e l i n ep r o f i l e ) 、 主档次( m a i np r 0 丘1 e ) 和扩展档次( e x t c l l d e dp r o f i l e ) 。如图2 4 所示。下面给出各档次 的功能: ( 1 ) 基本档次:版本简单,应用面广。 重庆邮电大学硕士论文 第二章h 2 6 4 视频压缩编码标准 ( 2 ) 主档次:采用多项提高图像质量和增加压缩比的技术措施,可以用作 s d t v 、h d t v 和d v d 等。 ( 3 ) 扩展档次:主要应用于各种网络的视频传输。 基本档次的内容基本上都被其他更高的档次所包含【8 】,但是由于h 2 6 4 本身的 算法非常复杂,因此本文的算法研究中,不需要涉及到更多复杂内容,只需选择 最简单的基本档次就能满
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大数据驱动的精准农业管理解决方案
- 2025年医院信息化建设初步设计评估关注移动医疗的应用报告
- 舟山市住房保障和房产管理中心招聘编外人员的笔试模拟试题及完整答案详解1套
- 注册公用设备工程师练习题附答案详解(预热题)
- 汽车拆解回收及加工项目可行性研究报告
- 中央党校(国家行政学院)教师岗位2025年公开招聘笔试高频难、易错点备考题库参考答案详解
- 注册电气工程师题库试题附答案详解【基础题】
- 三农创新发展模式探索指南
- 自然资源部第三海洋研究所2025年度公开招聘在职人员笔试备考题库及答案详解1套
- 中医药产业2025年国际市场拓展中的中医药产业国际化法规研究报告
- 无废工厂宣传课件
- 酒店预算培训课件
- 关于财富的课件
- 2025-2030中国汽车工程服务外包(ESO)行业现状调查与前景趋势研究报告
- 华为荣誉激励管理办法
- 2025至2030全球及中国实验室PH电极行业发展趋势分析与未来投资战略咨询研究报告
- 相控阵超声检测技术及应用
- 第四单元整本书阅读《红岩》课件 2025-2026学年统编版语文八年级上册
- 特色小吃街商业运营与管理合作协议
- 金提炼过程中的贵金属综合回收利用考核试卷
- 三级安全教育试题及答案
评论
0/150
提交评论