




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、高效的视频编码及其应用,Video Image Processing Lab, Shanghai University,王永芳,提纲,视频编码技术简介 视频编码技术前沿与方向 H.264编码 基于视觉特性的编码 可伸缩编码 3D视频编码 分布式编码 下一代视频编码标准-H.265,为什么要编码,无压缩的视频流(8bit YUV420)数据量惊人, 无法适用于现有的存储媒介和通讯带宽 例如: VCD (352x288x25FPS): 45分钟的数据量约为10GB, 需要26.5:1的压缩 DVD (720 x480 x30FPS): 2小时的数据量约为100GB, 通常需要15:1的压缩 高清节
2、目广播 (1920 x1080 x30FPS): 通讯带宽24Mbps(未来希望两路), 需要30:1(60:1)的压缩 手机视频聊天 (320 x240 x15FPS): 单项带宽100:1的压缩,ISO/IEC MPEG MPEG-1, MPEG-2, MPEG-4, MPEG-4 AVC/H.264, MPEG HVC ITU-T VCEG H.261, H.262(MPEG-2), H.263, H.264, SVC,MVC 中国 AVS AVS-P2, AVS-S,视频编码标准发展历程,数字视频应用,数字视频应用,传统视频编码技术原理,传统视频编码方法 从信号处理层面入手,以像素、块
3、为表示基础 基于香农信息论,采用混合编码框架:变换 + 预测 + 熵编码 视频编码的极限 数学极限 熵 差别感知能力 Weber定律, 心理学模型,t+1,t,视频编码技术发展历程,编码效率进一步提高已很艰难 色彩空间和变换编码已接近最优 用计算复杂度换取预测增益的空间越来越小 熵编码提高增益的路也不宽,传统视频编码技术原理,概率统计特性的编码 用概率大的其信息小,可用较小比特;概率小的其信息大,可用 较 多比特来达到平均比特率的降低 频域统计压缩编码 图像变换到频域使用权其能量集中在低端,所以可对高频成分用较少比特表示来达到压缩码率. 时/空统计的压缩编码 利用邻域象素间的空间相关统计特性,
4、以帧内DPCM预测来压缩码率;利用图像前后帧间的时间相关统计特性,以帧间DPCM预测来压缩码率. 视觉特性的编码 利用人眼对亮度,色度,灰度级的有限分辩率;利用人眼对空间频率的有限分辩率;利用运动图像轮廓与平坦区灰度变化的不同的敏感性,以非线性量化减少码率,提纲,视频编码技术简介 视频编码技术前沿与方向 H.264编码 基于视觉特性的编码 可伸缩编码 多视/立体视编码 分布式编码 下一代视频编码标准-H.265,H.264编码特点,4x4的宏块 预测精度 前后的帧都可作为帧间预测时的参考帧 9种帧内预测的方式 整数编码 去块滤波器 熵编码,压缩性能,Tempete CIF 30Hz,25,26
5、,27,28,29,30,31,32,33,34,35,36,37,38,0,500,1000,1500,2000,2500,3000,3500,MPEG-2,MPEG-4,H.264,H.263,编码基本结构,H.264的编解码过程,帧间预测:,帧内预测:,H.264的编解码过程,从预测值到网络传输,+,编码端的重建,H.264的编码全过程如下图所示:,+,解码过程为编码过程的反过程。,+,帧内预测模式,Directional spatial prediction (9 types for luma, 1 chroma) e.g., Mode 3: diagonal down/right p
6、redictiona, f, k, p are predicted by (A + 2Q + I + 2) 2,Q A B C D E F G H I a b c d J e f g h K i j k l L m n o p,帧内编码模式,4x4 Intra Prediction Modes,16x16 Intra Prediction Modes,Page 22 by Fu Ying, SHU, China,已存在像素点,待预测像素点I,待预测像素点II,帧内预测,Page 23 by Fu Ying, SHU, China,已存在像素点,待预测像素点I,待预测像素点II,帧内预测,Pag
7、e 24 by Fu Ying, SHU, China,已存在像素点,待预测像素点I,待预测像素点II,=round( +1/32E -5/32F +20/32G +20/32H -5/32I +1/32J) round的函数的作用将其限在0,255,帧内预测,Page 25 by Fu Ying, SHU, China,已存在像素点,待预测像素点I,待预测像素点II,帧内预测,Page 26 by Fu Ying, SHU, China,已存在像素点,待预测像素点I,待预测像素点II,=round( +1/32A -5/32C +20/32G +20/32M -5/32R +1/32T) r
8、ound的函数的作用将其限在0,255,帧内预测,Page 27 by Fu Ying, SHU, China,已存在像素点,待预测像素点I,待预测像素点II,帧内预测,Page 28 by Fu Ying, SHU, China,已存在像素点,待预测像素点I,待预测像素点II,对,的预测:,帧内预测,Page 29 by Fu Ying, SHU, China,已存在像素点,待预测像素点I,待预测像素点II,对,的预测:,=round( +1/32t -5/32u +20/32h +20/32m -5/32v +1/32w) round的函数的作用将其限在0,255,帧内预测,Page 30
9、 by Fu Ying, SHU, China,已存在像素点,待预测像素点I,待预测像素点II,帧内预测,Page 31 by Fu Ying, SHU, China,已存在像素点,待预测像素点I,待预测像素点II,下面我们进行1/4像素点的预测。让我们首先将左图加框块放大一倍。,帧内预测,Page 32 by Fu Ying, SHU, China,已存在像素点,待测像点III,待测像点IV,对,的预测:,半像素点I,半像素点II,帧内预测,Page 33 by Fu Ying, SHU, China,已存在像素点,待测像点III,待测像点IV,对,的预测:,半像素点I,半像素点II,=ro
10、und( +1/2G +1/2h) round的函数的作用将其限在0,255,帧内预测,Page 34 by Fu Ying, SHU, China,已存在像素点,待测像点III,待测像点IV,对,的预测:,半像素点I,半像素点II,帧内预测,Page 35 by Fu Ying, SHU, China,已存在像素点,待测像点III,待测像点IV,对,的预测:,半像素点I,半像素点II,=round( +1/2b +1/2h) round的函数的作用将其限在0,255,帧内预测,Page 36 by Fu Ying, SHU, China,在色度信号中,还要进行1/8像素点的预测。,已存在像素
11、点,待测像点III,待测像点IV,半像素点I,半像素点II,1/8待测像点IV,帧内预测,Page 37 by Fu Ying, SHU, China,在色度信号中,还要进行1/8像素点的预测。,dx,帧内预测,Page 38 by Fu Ying, SHU, China,在色度信号中,还要进行1/8像素点的预测。,dx,帧内预测,运动补偿,H.264 Motion compensation Accuracy,运动矢量的确定和残差的传输,以1616亮度信息为例:,运动估计,该1616亮度块在另一帧中的允许运动的范围,运动矢量的确定和残差的传输,以1616亮度信息为例:,运动估计,该1616亮度
12、块在另一帧中最匹配的块,运动矢量的确定和残差的传输,以1616亮度信息为例:,运动估计,将这个位移抽象出来,如图中黑色箭头所示,这就是我们常说的“运动矢量”。参考帧虚线框的值和绿色框中相应点的差值叫做残差。 我们在传输视频序列时,不但要传输运动矢量,也要传输相应的残差值。,运动估计,多参考帧,Multiple Reference Frames,五种帧,SP帧:低速网传高速视频 SI帧:前后两帧相关性很低(如:插广告),B帧的运动补偿,B帧和P帧相比,其本质的不同在于B帧的宏块或块在建立预测信号的时候可以把两个不同的运动补偿预测值加权运算。 B帧的四种预测方法:list 0、list 1、双向预
13、测、直接预测。双向预测即list 0、list 1的加权预测。直接预测会根据传输的语法元素确定究竟是使用list 0 预测、list 1预测亦或双向预测。,B-帧预测加权,Playback order: I0 B1 B2 B3 P4 B5 B6 . Bitstream order: I0 P4 B1 B3 B2 P8 B5 .,SP-Slices(片),Efficiently switching between two bitstreams Provides VCR-like functions,44 整数变换,H.264的整数变换与量化,与之前的编码标准不同,H.264对图像或预测残差采用4
14、4的整数DCT技术,避免了以往标准中变换/反变换中出现的失配(mismatch)问题。 整数离散余弦变换可以写作:,在H.264中,将式子的红圈部分移到了量化的过程中。这样,整数变换的过程只剩下了加法、减法和移位(乘以2),避免了以往标准中变换/反变换中出现的失配(mismatch)问题。设W矩阵为下面去红圈后的式子。,H.264的整数变换与量化,Deblocking Filter,环路去块滤波,Without filter with H.264/AVC De-blocking,Highly compressed decoded inter picture Significantly redu
15、ces prediction residuals,Entropy Coding 熵编码,两种熵编码,CAVLC,全称: Context-Adaptive Variable Length Coding 优点:编码简单 缺点:压缩率低,CABAC,全称: Context-based Adaptive Binary Arithmetic Coding 优点:压缩率高 缺点:编码复杂,H.264/AVC目标,Improved Coding Efficiency Average bit rate reduction of 50% given fixed fidelity compared to any
16、other standard Complexity vs. coding efficiency scalability Improved Network Friendliness Issues examined in H.263 and MPEG-4 are further improved Anticipate error-prone transport over mobile networks and the wired and wireless Internet Simple syntax specification Targeting simple and clean solution
17、s Avoiding any excessive quantity of optional features or profile configurations,H.264/AVC应用,Entertainment Video (1-8+ Mbps, higher latency) Broadcast / Satellite / Cable / Cable Modem / DSL / Terrestrial ( DVB / ATSC / SCTE ), etc. Interactive or serial storage on optical and magnetic devices, e.g.
18、 DVD Conversational Services (generally 1Mbps, low latency) H.320 Conversational 3GPP Conversational H.324/M H.323 Conversational Internet/best effort IP/RTP 3GPP Conversational IP/RTP/SIP Streaming Services (generally lower bit rate, higher latency) 3GPP Streaming IP/RTP/RTSP Streaming IP/RTP/RTSP
19、(without TCP fallback),VOD or multimedia streaming services over ISDN, DSL Ethernet, LAN, Wireless Networks, etc. Other Services 3GPP Multimedia Messaging Services New applications over existing and future networks,提纲,视频编码技术简介 视频编码技术前沿与方向 H.264编码 基于视觉特性的编码 可伸缩编码 多视/立体视编码 分布式编码 下一代视频编码标准-H.265,问题分析:客
20、观指标与主观感知的差异?,峰值信噪比=6.24,峰值信噪比=5.98,一般认为:峰值信噪比与图像质量近似成正比关系。,结论:1、峰值信噪比度量与人的视觉感知并不完全一致! 2、需要寻求更加符合人类视觉感知的客观度量方法以 及相应的编码理论和方法。,稀疏编码,对视觉感知机理的认识逐渐深入,用于视频编码的潜力很大,可能突破方向:借鉴视觉感知机理,Guo03, ICCV,基于视觉特性的视频编码,视觉信息论 从像素到基元(熵) 质量评价方法 与主观感知一致 编码方法 多维度感知编码、分布式视觉编码,基于视觉特性的视频编码,技术1:纹理分析合成编码*,*Thomas Wiegand: New Techn
21、iques for Improved Video Coding,基于视觉特性的视频编码,*Thomas Wiegand: New Techniques for Improved Video Coding,纹理分析合成编码* 实验结果对比,基于视觉特性的视频编码,技术2:基于Inpainting技术的视频编码* 码率节省达18%,*D. Liu; X. Sun; F. Wu; S. Li; Y. Zhang, Image Compression With Edge-Based Inpainting, IEEE-TCSVT, Vol. 17, No. 10, Oct. 2007 pp. 12731
22、287.,基于视觉特性的视频编码,技术3:视觉感知机理与编码 “像素-基元/纹理-对象-场景” 层次模型 S. Zhu, UCLA,基于视觉特性的视频编码,基于视觉特性的视频编码,技术4:基于JND(Just Noticeable Distortion),由于人眼的各种屏蔽效应,人眼只能觉察超过某一阈值的噪声。 JND模型常用来指导图像或视频的感知编码和处理,如预处理、自适应量化、码流控制、运动估计。,基于视觉特性的视频编码,技术5:基于关注度(Visual Attention ),人眼对若干显著对象或区域很注意的生理感知过程。 影响视觉关注度通常有自上而下认知性触发因素(皮肤颜色和人脸)和自
23、下而上刺激性触发因素(运动、纹理、对比度、目标大小、目标形状和颜色) VA模型就是这两个因素中所有特征信息的融合。视觉关注度模型主要是用来定位感兴趣区,用于视频编码的码流控制。,基于视觉特性的视频编码,符合人眼特性的图像/视频质量评价标准 块效应、模糊效应、振铃效应的模型表示,图像/视频库,主观质量评价 视觉失真测度模型,提纲,视频编码技术简介 视频编码技术前沿与方向 H.264编码 基于视觉特性的编码 可伸缩编码 多视/立体视编码 分布式编码 下一代视频编码标准-H.265,传统可伸缩编码,可伸缩视频流:比特流可以分解,包括基本层和一系列增强层,根据用户需求从比特流中提取 基本层和部分增强层
24、在客户的解码端正确解码, 只是图像质量等有微小差别,传统可伸缩编码,时域可分级,空域可分级,质量可分级,时域可分级,质量可分级,Temporal scalability,Spatial scalability,Quality scalability,QCIF,CIF,TV,传统可伸缩编码,传统可伸缩编码,H.264 SVC Hierarchical Picture编码, 完全可兼容AVC的SVC编码方案, 通过层次预测实现时域可分级编码,传统可伸缩编码,H.264 SVC SNR可分级:层间预测,多维度可伸缩视频编码,可伸缩编码框架:融合时域、空域、质量、注意、动态范围等的多维度可伸缩编码方法
25、 注意编码:基于注意模型的感兴趣区域表达、编码及码流优化截取方法,提纲,视频编码技术简介 视频编码技术前沿与方向 H.264编码 基于视觉特性的编码 可伸缩编码 3D视频编码 分布式编码 下一代视频编码标准-H.265,3D视频编码,立体感的产生 视差原理,3D视频编码,立体电视与自由视点电视,3D视频编码,3D显示 戴眼镜观看:互补色、时分立体电视 不戴眼镜即可观看:三维显示器,立体电视重现方法,对于立体电视系统而言,立体电视传输是连接立体视频采集和显示 的重要环节。,双路信号独立传输,主动式立体信号传输,被动式立体信号传输,“二维+深度信息”数据传输,双路信号独立传输,左右通道独立编码传输
26、 左右双路视频分别进行独立编码传输,在接收端输出双路电视信号到拥有双电视解码器的显示器上,再通过佩戴专业立体眼镜等方式收看。 编码过程中可以应用运动补偿技术(MCP)以提高压缩比。,主动式立体信号传输,主要针对采用快门式眼镜的立体电视收看方式 需要在显示屏幕上交替显示左右眼图像,通过提高画面的快速刷新率(至少要达到120Hz)来实现3D效果。观众的两只眼睛看到快速切换的不同画面,并且在大脑中产生错觉 。,主动式立体信号传输,要求立体信号作为左右眼视图的交替帧进行编码。分以下几种方式:,1080i/50Hz高清立体信号传输,场同步格式 采用了隔行扫描技术,将一副画面分为两个图场。传输中,可以将左
27、眼图像与右眼图像分别置于奇图场和偶图场。 显示端用场同步快门式立体眼镜与之配合,将图像垂直同步信号当做快门切换同步信号。每只眼睛看到的是540p/25Hz的视频。,720p/50Hz高清立体信号传输,帧画面同步格式 显示端将左右眼图像交替显示在屏幕上,使用帧同步快门式立体眼镜与这类立体显示模式搭配,这样左右眼都会看到720p/25Hz的视频。,被动式立体信号传输,被动式立体电视主要是指采用偏振光原理收看立体电视的方式。立体数据通过不同的方式组织起来显示在具有相匹配的微偏振技术的显示器上,观看者佩戴偏振眼镜观看。,“左右”排列方式,”上下”排列方式,“隔行”排列方式,“棋盘”排列方式,“左右”排
28、列方式,“左右”格式偏振图 屏幕的左半边显示左眼要看的视频,右半边显示右眼要看到的视频,再通过偏振眼镜进行观看,从而显示立体的效果。,“上下”排列方式,“上下”格式偏振图 屏幕的上半边显示左眼要看的视频,下半边显示右眼要看到的视频,将垂直分辨率一分为二。再通过偏振眼镜进行观看,从而显示立体的效果。,“隔行”排列方式,“隔行”格式偏振图 将左右两路图像信息在屏幕上隔行交叉排列,奇数行和偶数行分别显示一只眼睛要看到的视频,再通过偏振光眼镜。,“棋盘”排列方式,“棋盘”格式偏振图 分辨率损失由垂直方向和水平方向分摊,但总的效果仍是将空间分辨率一分为二。,二维+深度信息数据传输,最早由荷兰飞利浦公司提
29、出,对传统二维视频进行传输的同时配以相应的深度图。 深度图是一张256色的灰度图(视频处理中一般使用YUV空间表示一帧图像。Y图像的亮度 U、V图像的色度信息(色调、饱和度)三个量分别由8bit数据表示。)灰度图U=V=128,每个像素的亮度值Y与二位图像一一对应。0-255代表了对应点上二维像素和人眼相对距离。,二维+深度信息数据传输,采用这种方式,仅有二维视频解码器的观众可以正常地观看二维视频,实现了二维视频的向后兼容。 如果拥有立体解码器,会利用二维视频和相应的深度图创建立体视频的左右眼视图,实现立体观看的效果。 “二维+深度”信息方法的延伸是“二维+元数据”方式,即二维图像加深度、遮挡
30、信息和透明度数据。,深度信息的提取,Zcam景深摄像机 摄像机在采集一路正常视频信号的同时,摄像机还不断发射10ns的光脉冲,发射到被拍摄后发生发射,摄像机再接收发射回来的光脉冲。收到的光脉冲能量与该光脉冲一去一回经过的距离成反比,因此可以通过测量接收到的光脉冲能量来计算摄像机与物体距离。,多视编码,多视采集系统 线阵排列,多视编码,多视采集系统 弧形排列,多视编码,采集系统 面阵排列,多视编码,多视点预测编码H.264 MVC 视内预测 视间预测:消除视间的冗余,多视编码,H.264 MVC 编码效率,多视视频编码,基于深度的多视预测编码 深度信息获取 立体摄像机直接获取:成本高 双目立体匹
31、配方法:匹配点不唯一问题,遮挡问题 单目单图示线索方法 :可利用图示信息较少,提取深度不准确 其他研究:单目多图示线索方法,立体显示 戴眼镜观看:互补色、时分立体电视 不戴眼镜即可观看:三维显示器,立体成像:显示,2视点裸视3D显示,分为采视差障壁(Barrier)技术 为利用安置在背光模块及LCD面板间的视差障壁,将左眼及右眼可视的画面分开,使观看者可得到3D影象 柱状透镜(Lenticular Lens)柱状透镜通常放置在LCD面板最上方,该技术的3D显像原理是将给左眼及给右眼的可视画面分开,以便让观看者看得见3D影象。 2视点所看到3D影像的视角范围较小,3D时代的到来,进入21世纪以来
32、,立体显示技术获得了长足的发展,以阿凡达为 代表的一大批立体电影的出现,在全球掀起了3D立体风暴。,3D显示样例,真三维显示,体三维显示可以让你看到科幻电影中一般“悬浮”在半空中的三维透视图像,能够实现动态效果的3D技术,体三维显示技术目前大体可分为扫描体显示 (Swept-Volume Display)和固态体显示 (Solid-Volume Display)两种。,3D显示样例,全息显示,全息技术:在底片上除记录光波振幅外,还有相位信息-全部信息,利用全息图对适当照明光的衍射原理,把原三维影像提取出来。 全息技术是利用干涉和衍射原理,记录并再现物体真实的三维图像的记录和再现的技术。 一般只
33、能生成静态的三维光学场景,并且对观察角度还有要求,所以就目前而言,它对于人机交互应用而言还并不适合。,上海大学3D视频系统,工博会3D视频系统展示:工博科技亮点,2009.11,展示主题段落:城市让生活更美好、世博场馆介绍、生态、未来,自由视点视频立体显示技术 多通道3D动画技术 先进的2D-3D转换技术 独特的视差调控技术 领导高度评价,确定在世博会上应用,世博会中国馆项目:49m层希望大地“仿真湿地”展项,46”3D-LCD 仿真沼泽湿地,85”3D-PDP 仿真静态水体,46”3D-LCD 仿真激流态水体,上海大学3D视频系统,世博会中国馆项目:33m层低碳经济“森林碳汇”展项,上海大学3D视频系统,系统配置:103” 3DTV x 4,多视角自动立体显示,立体影像范围广 分辨率降低、影片制作成本高、容易产生重迭影像等。,提纲,视频编码技术简介 视频编码技术前沿与方向 H.264编码 基于视觉特性的编码 可伸缩编码 立体/多视视频编码 分布式编码 下一代视频编码标准-H.265,分布式编码原理,Slepian-Wolf理论 独立编码信源X,Y也可达到联合熵下界 独立编码相关信源X,Y可在解码端通过联合解码进行重建 满足条件约束,1 Slepian-Wolf, Noise
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【怀化】2025年湖南省怀化市溆浦县招聘事业单位工作人员65人笔试历年典型考题及考点剖析附带答案详解
- 《我的路》教学课件
- 【无锡】2025年江苏省无锡职业技术学院公开招聘专职辅导员4人笔试历年典型考题及考点剖析附带答案详解
- 定量分析概述12课件
- 【成都】2025年上半年四川成都市城市运行和政务服务管理办公室所属事业单位招聘工作人员7人笔试历年典型考题及考点剖析附带答案详解
- 第三章防火防爆技术40课件
- Brand KPIs for milk:Tirol in Brazil-英文培训课件2025
- 2025年基金从业考试知识点测试新版含答案
- 口腔知识培训课件教学
- 2025年医养结合养老机构运营环境分析与应对策略报告
- 合同能源托管合同
- 营养专科护士总结汇报
- 仓库转让合同范本
- VTE防控管理相关制度(VTE患者管理与随访的相关管理制度)
- 职业技能竞赛-网络与信息安全管理员理论题库(附参考答案)
- 2023年山东青岛局属高中自主招生物理试卷真题(含答案详解)
- 2024年中华全国律师协会招聘5人历年(高频重点复习提升训练)共500题附带答案详解
- 房地产 -2024年第二季度大连写字楼和零售物业市场报告
- 档案管理借阅制度
- 《电机与变压器》教案
- 重力式(仰斜、俯斜)挡土墙计算软件
评论
0/150
提交评论