




已阅读5页,还剩124页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海大学博士学位论文 基于h.264/avc的可伸缩视频编码及其相关技术研究基于h.264_avc的可伸缩视频编码及其相关技术研究摘 要h.264/avc是itu-t和iso联合推出的新标准,采用和发展了近几年视频编码方面的先进技术,以较高编码效率和网络友好性而著称。它仍基于以前视频编码标准的运动补偿混合编码方案,主要不同有:增强的运动预测能力;准确匹配的较小块变换;自适应环内滤波器;增强的熵编码。测试结果表明这些新特征使编码效率比以前的标准约提高50%,但增加了复杂度。本文着重研究经传输层的若干应用问题。随着新的视频编码标准h.264/avc的逐步推广应用,如何将h.264/avc视频流经mpeg-2的系统传输层传输,对于充分利用原有大量的mpeg-2系统有重要意义。对此提出一种解决方案。要点是:先把h.264/avc视频作为mpeg-2系统层传输的基本流,然后扩展mpeg-2标准中的传输流系统目标解码器(t-std),使之可以将h.264/avc编码视频作为mpeg-2传输流(ts)在internet上传输和解码。被解码的基本流通常来自于一个“容器”(如avi或者ts),在客户端从服务器端的这个容器中取出h.264/avc基本流后便可实时解码、显示。经仿真实验表明,该方案能够获得较好的流视频效果,在带宽受限的情况下信噪比低于40db的帧数少于5%,可用于ip网络流视频或移动视频中。在完成h.264算法优化和多媒体指令集优化之后,将其扩展至基于比特平面编码的fgs编码,从而实现了基于pc平台的实时snr(信噪比)精细粒度可伸缩编码,cif格式编码帧速可达30fps以上。此外,为使h.264/avc码流能在带宽较大变化的ip和无线等异构网络中传输,本文另外提出一种将h.264扩展至混合空域/时域/snr精细可伸缩方案,并给出了相应的码率控制策略:根据率失真优化的结果来选择qp(量化参数),在编码器端对基本层作gop(图像组)级的码率控制,而对增强层作逐次精细化的码率控制。本文方案与由jm8.6的基本层码率控制、fgs比特平面截断作增强层码率控制(简称jm8.6+fgs)的方法相比,视频质量更高,psnr(峰值信噪比)变化更为平滑。且在接收端,在某一目标比特率约束下,可以由不同时间分辨率(帧速率)和不同空间分辨率(图像格式)配置的终端截取和实时解码。仿真结果表明,本文方法的亮度平均峰值信噪比(y-psnr)在cif格式时优于jm8.6+fgs方法达2.45db,且与目标比特率更为匹配;也比新近提出的jvt-n020提案,在平均y-psnr上有0.15db的增益,而且图像质量更为平滑。h.264/avc支持sp(同步预测)帧,允许不同质量比特流之间的高效切换,mpeg-4支持fgs编码。本文提出一种将两者融合在一起的解决方案,在jm联合模型中实现了流切换的功能,并且加入fgs编码,使得传输的比特流既能适应因特网或无线网传输带宽的大跨度波动,又能灵活适应小范围的带宽变化。仿真实验结果表明:本文所提出方案的亮度y分量峰值信噪比比fgs平均好0.47db,比流切换方法平均好0.23db。且在专为移动业务而设计的h.264/avc扩展类上,在3gpp/3gpp2无线视频通用测试条件下,本文所提出方案的性能比单一的fgs平均好0.76db,比单一的流切换方法平均好0.51db。关键词:h.264,avc,mpeg-2,传输流,网络抽象层,可伸缩编码,实时编码,流切换,视频传输,精细可伸缩编码,码率控制,空间可分级,时间可分级,信噪比可伸缩本项研究受国家自然科学基金重点项目(60332030)和国家自然科学基金项目(60372091)的资助。abstracth.264/avc is a new video codec standard accepted by itu-t and iso, which adopts many advanced technologies and develops them in video codec since recent years, and becomes famous for its higher coding efficiency and better network friendlyship than others. based on the motion-compensated hybrid coding scheme originated from previous video codec standards, h.264/avc has other important differences as follows: the enhanced motion prediction capability; accurate matching for small block-size tranforming; adaptive in-loop deblocking filter; enhanced entropy coding. the experimental results are shown that these new characteristics promote the encoder efficiency by about 50% than the previous counterparts, but the complexity addition is inevitable. this thesis focuses all our attentions on some applications studies throughout the transport layer in the ip networks.with the increasingly extensive applications for the new emerging video coding standard, h.264/avc, it becomes more and more important that we transport h.264/avc video stream over mpeg-2 system by exploiting all the existing large amount of the infrastructure of mpeg-2 systems. we propose a solution for it. the key technologies are as follows: firstly we use an h.264/avc video as an elementary stream of mpeg-2 system, then extend the transport stream-system target decoder(t-std) of mpeg-2 standard, so as to pack the h.264/avc video elementary stream into mpeg-2 transport stream(ts) to transport through internet and decode it in the client. the decoded elementary stream should ordinarily come from a container, such as avi or ts. we extract the h.264/avc video from this container to be real-time decoded and be represented in the client after the reception. the experiment results show that we get a good effect, with less than 5% frames whose psnr40db even in the case of bandwidth-constrained scenario. running in the ip networks, the streaming solution can also be used for mobile video.after the algorithms optimization and multi-media instruction-set optimization for the h.264 encoder, the fgs (fine-granular scalability) based on bit-plane coding is extended to realize a real-time snr fine-granular scalable coding based on pc platform, and the frame rate can be 30 fps and over for the video with cif format. moreover, to enable transmission of h.264/avc bit-stream over ip and wireless heterogeneous networks with randomly variable bandwidth, another scheme of hybrid spatial/temporal/snr refined scalability and its rate control stratege are given: the rate control for gop (group of pictures) level is done on the base-layer at the encoder side to select the qp (quantization parameter) according to the rdo (rate distortion optimization) results, and the progressively refined rate control is done on the enhancement-layer. in comparison with the method of jm8.6+fgs (i.e., the base-layer rate control is based on jm8.6, and the enhancement-layer control is based on the fgs bit-plane truncation), our proposed gets better video quality with smoother psnr (peak signal noise ratio) variation. at the receiver, under certain target bit-rate constraint, the total bit-stream can be truncated and real-time decoded by the ends configured with different temporal resolutions (i.e. frame rates) and different spatial resolutions (i.e. video formats). the experimental results are shown that the y-psnr (psnr for luma y component) of ours with cif format is 2.45db better than that of jm8.6+fgs, and ours matches the target bit-rate more fitly; additionally, ours is 0.15db better than recently proposed jvt-n020 in y-psnr on average, and ours gets smoother video quality than the other two schemes.sp (synchronization-predictive) frame, which enables high efficiency of switching between two bitstreams with different qualities, is supported by h.264/avc. and fgs video coding is supported by mpeg-4. this paper proposes a solution for combination between these two tools, and the joint model has been extended to support stream switching and fgs coding is added into it so as to adapt to high bandwidth variations of internet or wireless networks and to low bandwidth variations flexibly for transmitted streams. experimental results show that our proposed system outperforms fgs by 0.47db and the h.264/avc-based stream switching approach by 0.23db on average, respectively. and for h.264/avc extended profile suitable for mobile services, our proposed system outperforms fgs by 0.76db and the h.264/avc-based video stream switching approach by 0.51db on average, respectively, under 3gpp /3gpp2 wireless common test conditions.keywords: h.264, avc, mpeg-2, transport stream, network abstraction layer, scalable coding, real-time encoding, stream switching, video transmission, fine-granular scalability, rate control, spatial scalability, temporal scalability, snr scalability目 录摘 要iabstractiii目 录v缩 略 语viii第一章 绪论11.1 引言11.2 h.264/avc应用概述61.2.1 nal简介 nal单元 使用字节流格式的nal单元 使用包格式的nal单元 vcl的nal单元和非-vcl的nal单元 参数集 访问单元 编码视频序列101.2.2 类别及其应用简介 类(profile)和级(level) 各个类的应用领域131.3 本文的结构与创新点131.3.1 本文主要研究内容及结构安排131.3.2 本文的创新点14第二章 h.264/avc基于ip和无线网络应用的基础152.1 h.264/avc在ip环境中应用的基础知识152.1.1 ip上的视频传输 不同应用业务的特点 ip多媒体传输协议172.1.2 rtp打包 h.264的nal单元概念 打包设计的约束条件 简单的打包2 nalu分段2 nalu合并262.2 h.264/avc在无线环境中应用的基础知识272.2.1 移动网络视频的应用和约束272.2.2 无线系统中h.264/avc传输292.2.3 用于无线视频的通用测试条件302.3 小结31第三章 h.264视频流在mpeg-2系统层上流传输333.1 mpeg-2系统层标准333.2 h.264视频流over mpeg-2系统层传输343.2.1 h.264/avc over mpeg-2流视频方案3 系统框图3 约束条件3 t-std模型扩展3 dpbn 缓存器管理373.2.2 仿真实验3 实验方案3 软件平台3 实验结果403.3 小结41第四章 基于h.264的fgs改进方案及码率控制策略424.1 可伸缩编码概述424.1.1 四种可伸缩方法974 质量可分级性4 空间可分级性4 时间可分级性4 频率可分级性4 基本方案的组合4 精细粒度可伸缩性484.1.2 现有的fgs的改进方法504.2 h.264 fgs分析及其改进:基于pc平台的实时fgs编码504.2.1 基于h.264的fgs编码分析514.2.2 基于h.264的fgs解码分析534.2.3 自适应量化544.2.4 基于pc平台的实时fgs编码器5 基于简化rdo的编码器优化5 多媒体指令集优化5 实时fgs编码步骤5 性能测试与比较604.3 可扩大伸缩范围的空时分级snr-fgs编码方法624.3.1 基于h.264的混合fgs编码的原理和流程634.3.2 qp值的精细化选择654.4 码率控制策略664.4.1 基本层码率控制664.4.2 增强层码率控制684.5 实验结果694.5.1 与jm8.6+fgs方法的比较694.5.2 与jvt-n020的比较724.6 小结73第五章 基于h.264-ss与fgs结合的可伸缩自适应选择方法755.1 流切换(ss)的概念和特性755.2 流切换的应用场合和sp/si帧的编解码方法785.2.1 sp/si帧的应用场合7 拼接和随机访问7 误码复原7 误码弹性80 视频冗余编码方法805.2.2 sp/si帧的编解码方法8 主sp帧和si帧编码过程8 次级sp帧的编码过程8 主sp帧的解码过程8 次级sp帧和si帧的解码过程845.3 基于h.264 fgs的流切换及其自适应选择算法845.4 仿真实验885.4.1 直通信道下fgs和流切换结合的实验结果885.4.2 无线环境下的可伸缩比特流流切换的实验结果925.5 小结97第六章 总结与展望98参考文献100作者在攻读博士学位期间的成果112致 谢114缩 略 语3gpp(3rd generation partnership project)第三代合作伙伴项目3gpp2(3rd generation partnership project 2)第3代合作伙伴项目2asf(advanced streaming format)高级流式文件格式aso(arbitrary slice ordering)任意的条带排序avc(advanced video coding)先进视频编码avi(audio video interleaved)音视频交插记录的文件格式cabac(context-based adaptive binary arithmetic coding)基于上下文的自适应二进制算术编码crc(cyclic redundancy check)循环冗余检测cr lf(carriage return line feed)回车换行es(elementary stream)基本流fgs(fine granular scalability)精细可伸缩fmo(flexible macroblock ordering)灵活的宏块排序ftp(file transfer protocol)文件传输协议gop(group of picture)图像组hrd(hypothetical reference decoder)假说性参考解码器http(hypertext transfer protocol)超文本传输协议icmp(internet control message protocol)internet控制消息协议idr(instantaneous decoder refresh)瞬时解码器刷新igmp(internet group management protocol)internet组管理协议ip(internet protocol)网际协议jm(joint model)jvt联合模型mad(mean absolute deviation)平均绝对差mms(multimedia messaging services)多媒体消息业务mtu(maximum transmission unit)最大传输单元nal(network abstract layer)网络抽象层nalu(nal unit)nal单元pcs(packet-switching conversation service)分组交换会话业务pdcp(packet data convergence protocol)分组数据集中协议pfgs(progressive fine granularity scalablability)渐进精细可伸缩ppp(point-to-point protocol)点对点协议ps(program stream)节目流psnr(peak signal noice ratio)峰值信噪比pss(packet-switching streaming service)分组交换流业务qp(quantization parameter)量化参数rdo(rate-distortion optimization)率失真优化rlc(radio link control)无线链路控制rlp(radio link protocol)无线链路协议rtcp(rtp control protocol)rtp控制协议rtp(real time protocol)实时传输协议rtsp(real time streaming protocol)实时流协议sdu(service data unit)业务数据单元si(synchronization intra-frame)同步i帧snr(signal noice ratio)信噪比sp(synchronization-predictive frame)同步预测帧ss(stream switching)流切换std(system target decoder) 系统目标解码器tcp(transmission control protocol)传输控制协议ts(transport stream)传输流udp(user datagram protocol)用户数据报协议umts(universal mobile telecommunications system)通用移动通信系统vcl(video coding layer)视频编码层vlc(variable length coding)可变长编码vld(variable length decoding)可变长解码119第一章 绪论1.1 引言h.264标准保留了现有标准的共有特点,同时又具有以下一些现有标准不同的新特点:(1) 节省比特率。与h.263v2 (h.263 + ) 或m peg-4 简单类相比,h.264实现平均节省比特率近50%;(2) 高质量的视频。h.264在多种比特率条件下都能提供高质量的视频,包括低比特率;(3) 自适应延迟。h.264可工作在低延迟模式以适应实时通信应用(如视频会议),同时在其他应用中也允许大的处理延迟(如视频存储、基于服务器的视频流应用);(4) 错误校正。h.264提供必要的工具来处理网络中数据包的丢失和无线网络中的比特错误;(5) 网络友好性。h.264的一个新特点是视频编码层(vcl)和网络抽象层(nal )的分离,这使数据易于打包和更好地进行数据优先权控制,vcl 对视频图象进行高质量压缩,nal 对压缩数据进行打包,使其在特定网络上传输。h.264网络抽象层(nal)正式定义了视频编/解码器和外部网络之间基于ip包的接口,以便将视频编码层(vcl)视频流进行协议封装后,通过nal无缝集成到传输层。解码时nal对vcl的承载过程相反。nal层的引入将编码与信道隔离,大大提高了h.264适应复杂信道的能力,对现有或未来的各种不同网络都有很强的网络友好性。随着计算机网络和多媒体技术的飞速发展,在ip网络上传输实时多媒体数据(如声音和视频)的应用越来越多。这种传输音频和视频的实时(realtime)程序可以容忍一定程度的丢包,但必须要求能够及时地传输,即对传输实时性的要求远高于传输可靠性。然而,现时的ip互联网络并不是等时性( isochronous)系统,发送的数据包可以被复制、延迟或不按顺序到达,且抖动(jitter)现象尤其普遍,这就会严重影响网络服务质量(qos),使多媒体传输的实时性不复存在。因此,为了允许在ip网络上有意义地传输和再现多媒体数字信号,需要额外的协议支持。为了解决上述问题,互联网技术工作组( internet engineering task force, ietf)陆续提出了一系列新的协议,如rtp/rtcp、rsvp和rtsp等,通过它们协同工作,在很大程度上可满足实时数据的传输要求1。mpeg-2系统标准定义了传输流格式来传送压缩的视音频节目数据。传输流适于在容易发生错误的环境下传送数据,对于例如卫星信道、数字电视地面广播、ip网络等应用环境,其错误表现为数据位的出错和传输流分组的丢失。为了便于在网络上传输,节省带宽,流传输系统可以考虑使用高效的h.264编解码标准对原始输入视频进行压缩编码,并组成传输流。传送流在ip网上传输,为保证可靠性,紧接着需对数据打包成rtp数据包,然后利用udp协议将其封装成udp包,随后系统将数据交给ip层,在ip层中打成ip包后发送到网络上进行传输。客户端收到载有视频信息的ip数据包后,将它解包后交给udp层,在udp层去掉udp包头,解出rtp信息,依次类推,直到将ts流送至h.264解码器进行解压缩,然后在终端进行显示。rtp/udp/ip不是独立的,其中也发送和接收rtcp分组,并通过和rtcp反馈控制模块的交互来完成对流量的调整和丢包的统计。在互联网上传输视频流需要解决的一个基本问题是网络带宽的波动2,不仅是不同的人在不同的时刻用不同的终端设备,甚至是同一个人在同一个时刻,哪怕是在传输同一个视频流,从互联网所得到的数据传输率存在着很大的差异。传统的编码方法生成的视频流很难适应如此复杂的网络带宽的波动,以往处理这个问题有两种方法:码流转换(transcoding)3,4和联播(simulcast)5,6。码流转换是先由编码器生成一个高码率的码流,在传输前再根据网络的带宽将码流转换到一个匹配的码率,这种方法首先会增加视频服务器的负担,其次将码流从高码率转换到低码率也会造成额外的视频质量损失。联播方法是生成多个不同码率的码流,在传输时根据网络的带宽选择一个合适码率的码流,这种方法很难实现传输过程中任意码流的动态切换,码率的变化也被局限在几个特定的码率中,不能充分利用信道的容量。在互联网上传输视频流的另外一个问题是数据包的丢失,在编码过程中为了提高编码效率,视频流的每一个比特都有极其严格的定义,不用说丢失一个数据包,哪怕是一个数据位的错误都会造成大量的视频流不可解码,从而降低了解码图像的视觉质量,并且这种错误还会通过视频编码固有的运动补偿影响到后面许多帧的图像质量。目前,解决上述网络带宽波动和丢包这两个问题的一个最合适的方法是可伸缩性地编码视频序列7,8。可伸缩编码通常生成两个视频流:基本层码流和增强层码流,基本层码流是必须传输的,并且码率比较低,增强层码流可以根据带宽情况进行任意截断,或者不传。由于可伸缩性编码方法生成的视频流可以在一定码率范围内自适应调整,因而能够适应复杂的网络带宽波动9。此外,除了基本层码流需要尽量避免数据包的丢失外,由于增强层码流的数据包的丢失不会带来明显的视觉质量的降低,也不会影响到其它帧,因而可伸缩性编码生成的视频流有较好的鲁棒性。fgs编码10 已纳入mpeg4标准,其基本层采用现有的运动补偿dct 变换编码,这种基本层的编码也可用于如mpeg2 和h.264等其它的标准中。 通常基本层的码率较低,因而基本层的量化步长可较大。基本层的量化误差通过比特平面编码技术形成增强层码流,采用比特平面编码技术的好处是它能提供一个非常精细的可伸缩码流。即使在较低的增强层,其编码效率也比变长编码方法高。从fgs 编码结构可以看出,基本层和所有的增强层都是用前一帧的重构基本层为参考, 因此如果在传输过程中增强层码流出现丢失和错误,只需要丢掉这一帧后面的增强层码流即可,在随后的一帧依然可以得到完好的图像质量,增强层码流的丢失和错误不会产生严重的视觉影响和误差累积。但从编码的角度讲,fgs 方法的编码效率是比较低的,因为它总是用最低质量基本层的重构层作为运动补偿的参考,因而运动补偿的效果就比较差,从而降低了整个编码方案的效率,与非可伸缩性编码方法相比,伸缩性编码方法的编码效率会降低2.0db 以上。为此,11,12提出了渐进fgs(pfgs)编码,其基本思路是在编码增强层时也用一些高质量的增强层作为参考,由于增强层重构图像的质量总是要比基本层高,使得运动补偿更有效,从而提高了可伸缩性编码的编码效率。当然这种编码效率的改进必须以不能牺牲其可伸缩性的特性为前提条件,因而在设计渐进的pfgs 编码框架时有两个关键点:首先在编码增强层时尽量采用高质量的增强层为参考来提高编码效率;其次是必须保留一些从基本层到最高质量的增强层之间完整的预测路径,以使生成的码流具有可伸缩性。pfgs 比m peg4的fgs 编码能提高编码效率约1db,但仍明显低于非可伸缩性编码方法。且其所生成的码流通过internet 或无线等易发生错误信道传输时还有许多问题需要解决。例如如果在增强层码流出现数据丢失和错误,该帧后面的码流都不可解,只能继续解码后面的一帧。应该在pfgs的增强层编码时加入一些简单的错误检测和再同步工具,来减少传输错误的影响。此外,pfgs仍如fgs那样,总是假设基本层能得到很好的保护,但是在网络带宽动态变化时,这样的假设不一定成立,这就要进一步研究如何随信道的状态给基本层和增强层动态地分配码率。随着新一代视频编码h.264标准的确立,h.264的可伸缩编码方案也成为人们研究的热点。为了在网络带宽和延时/缓存的限制下获得持续好的视频质量,码率控制已成为视频编码的关键技术。由于目前各种视频编码国际标准只对编码后比特流的语法和解码器作了规定,没有对码率控制策略进行明确界定,所以不少学者和机构都提出了各自的码率控制策略,目前较为流行的码率控制算法有mpeg-2 tm513、h.263 tmn814、mpeg-4 vm815。码率控制包括两个部分:一是合理分配比特;二是如何通过调整参数实现所分配的比特。对于前者,mpeg-2 tm5的方法是为每一个图像组(group of picture, gop)分配固定的比特数,再将gop之内的比特数分配给各帧、各宏块,随后的不少方案也延续了这种思想。对于后者,文献14提出了用lagrange方法优化率失真模型的码率控制算法,但是该算法的复杂度大;文献16提出一种比较简单的线性模型,发现在视频编码系数变换量化后非零值个数与编码码率之间存在线性关系,但是此种模型需要对系数变换进行处理;文献15提出了二次量化模型,该模型形式相对简单,也最接近实际r-q(rate-quantization)关系且不用对系数变换,因此,目前较多的编码控制策略使用二次量化模型。由于h.264的编码标准中模式选择的复杂性,使其对于码率控制也增加了困难。这是因为h.264采用了r-d优化模式判别,宏块的编码模式与量化参数的选取有关。为了进行宏块的编码模式判别,必须先给出一个量化级,然而为了控制码率,量化级的计算一般要根据编码模式判别后的帧内预测或帧间运动估计残差来决定。jvt-g01217 提案给出的码率控制方法是将一帧划分为若干基本单元,在r-d模式判别前对当前基本单元的mad进行线性预测,并运用mpeg-4中使用的二次r-q模型计算量化级,用此量化级进行模式选择和编码。h.264的参考软件jm8.6中采用的是jvt-h01418提案中的码率控制算法。该算法采用了分层码率控制的方法,共三层:gop层码率控制、帧层码率控制、基本单元层码率控制。gop层的目标比特与tm5相同,采用固定比特;帧层的目标比特则由网络带宽、缓存占用量、缓存大小以及剩余共同决定;基本单元层的目标比特是基于平均绝对差值(mean absolute difference, mad)进行分配的。由于采用了率失真优化(rate distortion optimization, rdo),只有在rdo操作后才能计算出实际mad。所以计算基本单元层目标比特时,mad只能使用预测值。所采用的是线性模型预测,每处理完一个基本单元要对模型的参数进行更新操作,故这种方法在预测mad时运算开销较大。某些快速码率控制方法常通过在宏块层改变量化精度来实现,也可以使用空间/时间分级编码方法来控制码流变化。例如,在mpeg-4中采用精细可分级(fgs:fine granular scalability)编码,h.263+中定义了时域分级、空域分级和信噪比(snr)分级三种分级能力。但是这些分级方法的效率较低,因此目前也越来越多地使用流切换(ss:stream switching)技术来代替分级编码。h.264中定义了两种新的帧编码类型,即通过sp和si条带来完成不同流之间的切换,以避免频繁刷新intra帧带来的效率下降。这种在同一个原始视频序列的不同编码速率的码流之间作切换、在切换点插入sp条带的方法比插入i条带能节省大量的比特。除了可以实现码流高效切换之外,sp条带还提供随机访问以及类似vcr的功能。sp/si帧19-21支持自适应的大范围码率调整,可以实现不同传输速率和图象质量间的切换,从而最大限度地利用现有资源而不至于因缺少参考帧而引起解码错误。sp帧编码的基本原理类似于p帧,仍然是基于帧间预测的运动补偿预测编码,但它能够在使用不同参考帧的情况下重构相同的图像帧。利用这一特性可以实现码流的随机切换功能,即sp帧可以在流间切换(bitstream switching)、拼接(splicing)、随机访问(random access)、快进/快退和错误恢复等应用中取代i帧。si帧与sp帧相对应,所利用的是基于帧内预测的编码技术。sp帧的缺点是存储的流数目越多,则消耗的服务器资源越大,但可以和fgs结合使用,取长补短。受无线带宽资源和传输能力的限制,目前的用户多是按流量支付费用的方式使用无线网络的数据服务,故提高压缩效率应是无线视频和多媒体应用的主要目标。而移动手持设备受处理器速度和存储容量的限制,因此,视频编码的设计必须兼顾编码效率和处理复杂度,这也是目前将h.264引入到用于移动视频通信系统中需研究的问题之一。1.2 h.264/avc应用概述h.264/avc是itu-t视频编码专家组和iso/iec运动图像专家组制订的最新视频编码标准,其主要目标是:增强压缩性能,提供一种网络友好的视频表示,包括会话的应用(视频电话)、以及非会话的应用(存储、广播、或者流)22。与现有的标准相比,h.264/avc除了在编码效率和率失真性能等方面有重大改进外,还新增了大量设计,使得在不同的网络环境下对于数据误码/丢包更具鲁棒性,在操作上也更灵活。其突出的特性可归纳如下:(1) 参数集结构:参数集设计提供用于稳健高效地传输头部信息。此前的标准中,若传输中丢失少数核心比特时将会影响正确的解码;而在h.264/avc设计中,这类核心信息被分隔开来,并作更灵活、更专门的处理。(2) nal单元语法结构:h.264/avc中每一个语法结构都放置在一个称为“nal单元”的逻辑数据包中。nal单元语法结构不规定系统的特定比特流接口(而以前的视频编码标准则规定了系统的特定比特流接口),从而允许为每一个专有网络量身定制地给出适合传输视频内容的方法。(3) 灵活的条带尺寸:mpeg-2中的条带结构是固定的,并且因为增加了头部数据的数量、降低了预测的有效性,从而降低了编码效率;而h.264/avc中的条带尺寸如早先的mpeg-1那样是高度灵活变化的。(4) 灵活的宏块排序(fmo):该功能把图像分隔成多个区域即所谓的“条带组”;每一个条带成为一个条带组的一个独立可解码的子集。当有效运用fmo时,能够显著地增强数据丢失的鲁棒性。(5) 任意条带排序(aso):若使一帧编码图像的每一个条带都能(近似)独立于该图像的其它条带解码,就能以任意顺序发送、接收图像的所有条带。这可改进实时应用中的端对端延迟,尤其对于无序发送网络(例如:ip网络)所起作用更大。(6) 冗余图像:该功能是为了增强数据丢失的鲁棒性而设计的,允许编码器发送图像区域的冗余表示,以便为那些在数据传输期间丢失的原始数据提供质量稍低的图像表示。(7) 数据分割:因为用于每一个区域表示的某些编码信息(例如:运动矢量、以及其它预测信息)对于视频内容表示来说更为重要、或者说比其它信息更有价值,所以h.264/avc允许每一个条带的语法可以分割成3个不同的分区传输,具体要依据语法元素的分类来确定分区的数目。(8) sp/si (synchronization-predictive frame/sychronization-intra frame)同步预测/同步帧内预测:sp帧的编码效率尽管略低于p帧,但却远远高于i帧,而且其提供的功能是p帧所不具有的,尽管使用不同的参考帧仍然可以得到同等的重建图像质量。有了sp/si帧之后,h.264在网络友好性方面有了很大改进,支持灵活的流媒体服务,且具有很强的抗误码性能,以适应在噪声干扰大、丢包率高的无线信道中传输。h.264/avc分为vcl(视频编码层)和nal(网络抽象层)。对于前者已研究得很多,本文着重于nal。1.2.1 nal简介nal设计的目标是:提供网络友好的性能,使得各类系统能更简单、有效地使用vcl。或者说,通过nal可将vcl数据更方便地映射到如下各种类型的传输层,例如:(1) 便于用于任意类型的实时internet业务和实时无线ip业务(会话和流)的rtp/ip传输。(2) 便于形成文件格式,例如用于存储iso mp4(符合iso标准的带有aac音频的mpeg-4流)和mms(多媒体消息业务)。(3) 用于有线会话业务和无线会话业务的h.32x。(4) 用于广播业务的mpeg-2系统,等等。使视频内容完全适合于每种特殊应用的需求这虽不在h.264/avc标准的研究范围之内,但是nal的设计已预先考虑了各种映射关系。nal的一些核心概念包括:nal单元、字节流、nal单元的包格式、参数集、访问单元等。下面简要描述这些概念,详细的描述可参见23,24。 nal单元编码的视频数据组织成nal单元,每一个nal单元是一个包含有效整数个字节的包。其第一个字节是头部字节,它包含了nal单元中数据类型的指示。余下的字节包含了有效负载数据。nal单元中的有效负载数据中必须交织插入防止竞争的字节,这些防止竞争的字节当中插入了某个特定值,以防止在有效负载中偶然生成称为“起始码前缀”的某一类特殊数据图样。在面向包或面向比特流的传输系统中,nal单元结构定义了某一格式。由编码器生成的一系列nal单元被称为一个nal单元流。1.2.1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 多措并举促进教育培训提质增效的策略及实施路径
- 探索河流水质自然恢复路径的策略及实施路径
- 复杂地形区域土石方施工方案
- BIM与AR技术在建筑施工可视化中的应用研究
- 新能源企业2025年国际化能源互联网平台建设报告
- 2025年车工评级考试试题及答案
- 品牌媒体活动策划方案范文
- 北辰区微信营销方案
- 2025年海洋能发电与海岛地区新能源产业协同发展模式研究报告
- 辽宁财务咨询方案
- 科学道德与学风建设讲座
- T-YNX 002-2025 葡萄组培脱毒快繁技术规程
- 衣服投标供货方案(3篇)
- 2025至2030年中国丁酮肟市场现状分析及前景预测报告
- 公司电脑补贴管理办法
- 中石化对供应商管理办法
- Unit 2 Home Sweet Home 语法与阅读专项练习 (含答案) 人教版(2024)八年级上册
- 2025年少先队应知应会知识竞赛考试题库及答案
- 【课件】第14章+全等三角形+数学活动++式+课件2025-2026学年人教版数学八年级上册
- 2025版安全生产法全文
- 2025年中远海运集团招聘笔试备考题库(带答案详解)
评论
0/150
提交评论