全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.视频信息编码技术摘要:多媒体信息是未来人类获取信息最主要的载体,它已成为目前世界上技术开发和研究的热点。本文将就其中最受关注、数据量最大的视频信息编码技术进行展开,简述它从传统的矩形DCT变换编码到根据视频内容、划分对象、分别变换编码的新的编码方法,如VO/VOP编码技术以及新的技术标准MPEG-4。关键词:视频编码;VO/VOP编码技术;MPEG-41 引言传统的视频编码是以视频信号的数字量为编码对象的,与视频信息的内容无关,无论是M-JPEG、MPEG-1还是MPEG-2,都是以DCT矩形变换块为变换编码单元,对DCT块内图像的亮度和色度进行特征取样,提取像素,采用帧间编码、运动估测技术,在参考帧帧内DCT编码的基础上,对DCT块内图像的像素特征进行差值预测编码。基于矩形DCT编码的视频编码在设计思想上只考虑到对信号数据进行处理的需要(比如小的比特率以利于传输、高的比特率以保证质量),但未考虑视频信息-图像内容本身的含义和重要性,以及视频信息应用者的主观需求(比如部分内容的提取功能)。另外,这种基于DCT块的压缩算法在低码率时容易产生“方块效应”和“抽帧”,大大缩小了视频信息的应用领域。而小波变换是一种新的变换编码方法,它与DCT变换相比,考虑到了视频信号对不同应用环境的自适应性(不同的清晰度与比特率),可以将基础图像层与增强图像层分离编码传输,用户可根据实际情况选择是否打开增强图像层。 传统的视频编码方式是将整个视频信号作为一个内容单体来处理,其本身不可再分割,而这与人类对视觉信息的判别法则是完全不同的。这就决定了我们不可能将一个视频信息完整的从视频信号中提取出来,比如:将加有台标和字幕的视频恢复成无台标、字幕的视频。解决问题的惟一途径就是在编码时就将不同的视频信息载体视频对象VO(Video Objects)区分开,单独编码传送,将图像序列中的每一帧,看成是由不同的VO加上活动的背景所组成。VO可以是人或物,也可以是计算机生成的2D或3D图形。VO具有音频属性,其属性赋值可能是“有”也可能是“无”。但音频的具体内容数据是独立于视频编码传输的。VO概念的引入,更加符合人脑对视觉信息的处理方式,并使视频信号的处理方式从数字化进展到智能化。提高了视频信号的交互性和灵活性,使得更广泛的视频应用和更多的内容交互功能成为可能。 现代图像编码理论指出,人眼捕获图像信息的本质是轮廓纹理,即人眼感兴趣的是VO的一些表面特性,如形状、运动、纹理等。VO的表面往往是不规则的、千变万化的,但可将其视为一定视角下,n个形状规则的、具有一定纹理的剖面的组合的连续运动,这些剖面的组合称为视频对象面VOP(Video Object Profile)。VOP描述了VO在一定视角条件下的表面特性。VOP的编码主要由两部分组成:一个是形状编码,另一个是纹理和运动信息编码。VOP纹理编码和运动的预测、补偿在原理上同MPEG-2基本一致,而形状编码技术则是首次应用在图像编码领域。2 新的编码技术 根据合成VO的合成机理和特性,大部分合成VO都可以用通用的有关图形文本的多种表达方式来描述。非复杂性合成VO将被视为一种独立于视频的数据类型来编码,并定义其描述框架、通用的数据流结构和灵活的接口。而复杂性合成VO和自然VO的编码方法,将采用以下的编码方法。2.1 基于矩形窗口的VOP分割 目前已得到应用的VO编码技术,仍采用了基于矩形窗口的内容分割法。编码时,先利用像素特征统计,将每一个VOP都限定在一个矩形窗口内,称之为VOP窗口(VOP Window),取窗的原则为:长和宽均为16像素的整数倍(便于对现有标准的兼容和将来的扩展),同时保证VOP窗口中非VOP的宏块数目最少。目前标准中的视频帧可认为是一个无VOP的特例,在编码过程中将形状编码模块屏蔽掉就可以了。在一个VOP窗口内,VOP剖面的形状也是采用88像素的矩形形状。针对不同的VOP,可以根据不同的应用场合和运动、变化的特点,采用固定的或可变的VOP帧频(即VOP刷新频率)。矩形窗口分割法并不能体现VOP的具体形状信息。为了确认采用矩形窗口分割法的VOP的形状信息,就引入了形状编码技术。2.2 基于小波变换的VOP分割基于矩形窗口的VOP分割依旧存在块效应问题,而基于小波变换的VOP分割则可以很好的解决这个问题,而且由于这种分割方法的本身就包含了VOP的形状信息,所以无需另对形状信息进行判别与编码。基于小波变换的VOP分割方法林林总总,但基本可以被划分为一下两类:1、利用图像灰度特征分割:不同的图像具有不同的灰度分布,利用小波变换,将图像变换到小波域,产生各层、各子带图像。小波变换后,大部分的能量是集中在低频子带图像上,即大面积的平均灰度区域信息主要在低频子带图像中体现。根据信息论的原理,确定多个灰度阈值,可以将具有不同灰度的VOP从低频子带图像中分离。同时再利用高频子带图像以及模糊数学模型,确定每一个VOP的边缘信息。2、利用图像纹理特征分割:纹理是一种局部特征反复出现的结果,它体现了图像的局部频域信息。对于一幅数字图像,进行多方向的小波变换是可行的,比如对一帧画面进行垂直方向或对角线方向的小波变换。经过多种小波变换后可得到不同方向的各子带图像,它们各自蕴涵着不同纹理的局部频谱信息和纹理走向等信息。对具有相同纹理特征的图像局部的进行聚类分析,并根据纹理频谱和纹理走向确定该聚类的纹理边缘。根据信息论原理和运动估测,将运动矢量具有相关性的聚类二次归类于不同的对象(即VOP),并影射成不同灰度显示。进行小波变换的方向越多,各方向的夹角越小,图像分割也就越准确,但计算量也因此增大。根据局域纹理中心频率的变化自适应地选择小波变换的级数和方向,有助于在图像分割的准确性和计算量之间达到平衡。无论是哪一种方法,当得到不同VOP的不同灰度表示之后,通过类似于键技术的多通道处理,即可得到多个原始的彩色VOP。 纹理编码 在已得到实际应用的MPEG-4中,VOP的纹理编码基本上仍采用基于88像素块的DCT方法,有3种模式:帧内编码模式(I-VOP)、帧间预测编码模式(P-VOP)和帧间双向预测编码模式(B-VOP)。编码时,对于完全位于VOP内的像素块,则采用经典的DCT方法;对于完全位于VOP之外的像素块则不进行编码;对于部分在VOP内,部分在VOP外的像素块则首先采用图像填充技术来获取VOP之外的像素值,之后再进行DCT编码。目前依据视觉特性的纹理编码目前仍处于理论研究阶段,其目标是:建立常见纹理局部特征符号集,定义描述纹理分布、走向的多媒体语言。以人脸为例:人脸定义参数(FDP)描述了特定人脸纹理形状模型与通用人脸模型之间的差别,通过接收到的各种FDP,能把通用的人脸模型变换成由其形状和纹理确定的特定人脸。人脸动画参数(FAP)描述了特定的人脸表情与中性表情的变化关系,通过接收到的各种FAP能生成人脸的各种表情以及与声音同步的嘴唇活动等。分级编码 多媒体的应用场合具有不同的信道带宽、处理能力、显示能力及用户需求,要求在解码端支持时域、空间及质量的上伸缩性,即分级编码。分级编码可以通过视频对象层VOL(Video Object Layer)的数据结构来实现。每一种分级编码都至少有2层VOL,低层称为基本层,高层称为增强层。空间伸缩性可通过增强层强化基本层的空间分辨率来实现,因此在对增强层中的VOP进行解码之前,必须先对基本层中相应的VOP进行解码。同样对于时域伸缩性,可通过增强层来增加视频序列中某个VO(特别是运动的VO)的帧率,使其与其余区域相比更为平滑。3 新的技术标准-MPEG 43.1 MPEG 4标准的构成 1) DMIF(The Dellivery Multimedia Integration Framework):多媒体传送整体框架协议。MPEG-4标准将众多的多媒体应用集成于一个完整的框架内,旨在为多媒体通信及应用环境提供灵活的算法及工具,用于实现音视频数据的有效编码及更为灵活的存取。它解决了多领域中多媒体应用个性化交互操作的问题。 2) 解码器:定义了MPEG-4系统特殊的解码模式(SDM),要求特殊的缓冲区和实时模式。 3) 音频编码:支持自然声音和合成声音,支持音频的对象特征。 4) 视频编码:支持自然和合成的视觉对象,合成的视觉对象包括2D、3D动画和人面部表情动画等。 5) 场景描述BIFS(Binary Format for Scene description):关于一组VO的时空结构关系的参数信息,主要描述了各VO在一具体背景下的相互关系与同步等问题,以及VO及其背景的知识产权保护等问题。BIFS与VO对象特征信息的编码、传输是相对独立的。场景描述信息编码及其的独立传输是实现用户端编辑操作的关键:在解码之后和场景合成之前,用户可以通过对BIFS参数的重新设置来对VO 进行多种编辑操作,如增减、缩放、平移,甚至一些特技效果。3.2 MPEG 4视频编码功能与特点 MPEG 4标准的制定有两个目标:低比特率的多媒体通信和多工业的多媒体通信的综合。与现有的MPEG-1和MPEG-2视频压缩相比,MPEG-4视频有一些重要的改进:1)基于内容的交互功能: MPEG-4提供了全新的交互方式,根据制作者的具体自由度设计,在有限的时间内可实现对多媒体VO的时域随机存取(从不同的源获取内容或向不同的源发送内容)、快速搜索、改变场景的视角、改变场景中物体的位置、大小和形状,或对该对象进行置换甚至清除。 2)支持自然及合成信息的混合编码(NHC:Synthetic and Natural Hybrid Coding):MPEG-4支持合成信息的编码,可对合成的VO及其活动信息进行参数化描述。对于频繁出现的视觉对象则分别定义了它们的纹理形状和动画参数。 3)高效编码:包括视频VO数据的高效编码和多个并发数据的有效同步编码。 4)基于内容的伸缩性:是指分级编码后,纹理、图像和视频基于内容的伸缩性,视频序列中时域、空间及质量的伸缩性,表现为时域实时或非实时、数据率大小及重建的图像质量上。 5)可变的最终输出:不同的码率意味着支持不同的功能集。功能集的底层是VLBV核心(VLBV:Very Low Bit Rate Video),它为最低达5-64kbits/s视频操作与应用提供算法与工具,支持较低的空间分辨率(低于352288像素)和较低的帧频(低于15Hz)。VLBV核心功能包括:矩形图像序列的有效编码、多媒体数据库的搜索和随机存取。MPEG-4的HBV(HBV: High Bit Rate Video,范围在64kbits/s-4Mbits/s之间)同样支持上述功能,但它同时还支持较高的空间与时间分辨率。其
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年烹饪知识试题库及答案
- 2025个人信用贷款借款合同模板
- 公对公工资结清协议书
- 宾馆长期住宿协议书
- 中欧协议书终止
- 中国联通sgip协议书
- 2025餐饮业员工劳动合同模板
- 药店加盟协议书
- 拦河网拆除协议书
- tcp ip协议书 数据传输
- 小鲤鱼跳龙门电子版
- 《清新空气是个宝》教学反思
- 浙江省杭州市杭州中学2023-2024学年九年级上学期期中科学试卷
- 第九套广播体操评分细则及评分表
- 新版入团志愿书表格(含申请书范本)
- 6.2 材料的性能与规划 课件【知识精研精讲】高中通用技术苏教版(2019)必修《技术与设计1》
- PICC维护技术操作SOP
- SB/T 10952-2012实木复合门
- GB/T 12235-1989通用阀门法兰连接钢制截止阀和升降式止回阀
- 陕西西北工业大学电子信息学院党务秘书公开招聘1人【共500题附答案解析】模拟检测试卷
- 沈阳终止解除劳动合同证明书(三联)
评论
0/150
提交评论