




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第7期贺强等:针对移动视频终端的基于感兴趣区域的快速转换编码41针对移动视频终端的基于感兴趣区域的快速转换编码贺强1,杨高波1, 2, 张兆扬3(1. 湖南大学 计算机与通信学院,湖南 长沙 410082;2. 南京邮电大学 图像处理与图像通信江苏省重点实验室,江苏 南京 210003;3. 新型显示技术及应用集成教育部重点实验室(上海大学),上海 200072)摘 要:提出一种针对移动终端, 基于感兴趣区域(ROI)的快速转换编码方案。首先,根据移动终端的显示尺寸,在视频服务器端利用视觉关注度模型从H.264视频流自动地检测出ROI。然后,在代理服务器端根据ROI转换编码生成适合于移动终端的视频流。此外,针对此转码体系提出了一种快速模式选择算法。仿真实验结果表明,本方案可在降低网络占用带宽的情况下,获得较好的主观视觉效果,并且计算量小。关键词:视频转换编码;感兴趣区域;视频服务器;快速模式选择中图分类号:TP391.1 文献标识码:A 文章编号:1000-436X(2009)07-0036-05Region-of-interest based fast transcoding for mobile video terminalsHE Qiang1, YANG Gao-bo1, 2, ZHANG Zhao-yang3(1. School of Computer & Communication, Hunan University, Changsha 410082, China;2. Key Lab of Image Processing and Image Communication, Nanjing University of Posts and Telecomm, Jiangshu 210003, China;3. Key Laboratory of Advanced Display and System Applications(Shanghai University), Ministry of Education, Shanghai 200072, China)Abstract: A fast transcoding scheme based on region of interest (ROI) was proposed for mobile video terminals. According to the target displaying size, the ROIs were automatically detected from the input H.264 video stream based on visual attention model in the video server. The video stream was automatically generated at the proxy server by video transcoding for mobile terminals. Moreover, a fast mode decision algorithm was proposed for video transcoding. Experimental results demonstrate that the proposed approach can not only reduce the bandwidth occupation, but also obtain excellent video quality with a low computational complexity. Key words: video transcoding; region of interest; video server; fast mode decision1 引言收稿日期:2008-06-21;修回日期:2009-05-20基金项目:图像处理与图像通信江苏省重点实验室开放课题基金资助项目(ZK207006);新型显示技术及应用集成教育部重点实验室(上海大学)开放课题基金资助项目(P200801);湖南省青年骨干教师培养对象基金资助项目(2008025)Foundation Items: The Research Fund of the Jiangsu Key Laboratory of Image Processing and Image Communication (ZK207006);The Key Laboratory of Advanced Display and System Applications (Shanghai University), Ministry of Education (P200801); The Project of Key Youth Teachers Training Program of Hunan Province (2008025)随着无线网络的发展,人们对无线视频通信的需求越来越强烈。但是,对于移动终端来说,存在2个突出的难题:首先是受到无线网络带宽的约束,难以满足高分辨率视频的带宽要求;其次,由于移动终端的显示屏尺寸有限,分辨率较低,现有视频节目不能简单地直接提供给它们1。因此,需要寻找一种能在使用现有低分辨率的移动视频终端的前提下,尽可能提高视频的主观视觉质量的解决方案。空间分辨率缩减的视频转换编码是解决这类问题的一种可行的思路,通过将高分辨率的视频缩减为低分辨率的视频,可在一定程度上满足移动视频终端的低分辨率要求2。但是,它没有考虑用户的主观视觉感受,单纯的下采样会导致视频的感兴趣区域(ROI, region of interest)的缩减。近年来,研究人员提出了基于ROI的视频转码算法:陈立群等提出一种基于ROI和注意力值的视觉关注度模型,有较强的可扩展性,并采用分支界限算法寻找图像在低分辨率显示设备上的高效自适应3;王毅等提出一种基于关注度建模的空域视频转换编码方法,实现了对目标对象的智能显示4。这些算法综合考虑人类视觉特性,通过尽可能保持ROI的质量以改善移动视频的视觉效果。但是,现存的这些体系存在2个突出的缺陷:首先,基于ROI的转换编码必须在给定的视频中获取准确的ROI,为此需要对不同类型的注意力物体进行检测操作,将给代理服务器和网关带来很大的计算负担;其次,必须每次在不同用户发起视频浏览服务的时候都进行ROI检测与定位,难以同时满足PC用户的视频要求。如果将ROI的检测和融合过程调整到视频服务器端进行,上述缺陷有望得到较好的解决2。首先,服务器端对视频流进行ROI检测和定位后,将ROI信息直接嵌入到视频流,在代理服务器端自动提取ROI的信息;其次,采用变换域的转换编码操作,可进一步降低计算复杂度。基于上述分析,本文针对移动终端的视频需求,研究一种服务器端的、基于ROI的快速转换编码新体系结构。它的前提是:在视频服务器端,视频都是离线生成的,此时计算量将不再是一个限制条件;此外,假设不同的移动终端用户具有相同的视觉关注度模型,即不同的用户观察同一段视频时ROI是相同的。这个假设在通常情况下是易于满足的。2 视频服务器端基于ROI视频转码体系结构本文的基本思想就是将ROI的检测定位从代理服务器转移到视频服务器,且是对编码后的视频流直接进行处理。视频服务器端基于ROI的视频转码的体系结构如图1所示。图1 基于ROI的视频转码的体系结构整个系统由2部分组成:视频服务器的预处理和代理服务器的转换编码。服务器端进行ROI检测,即离线生成ROI信息,并将ROI信息附加于视频流的增强层(enhanced layer)。视频服务器可为多个代理服务器提供附加了ROI信息的高分辨率视频流,ROI信息的检测仅需要在视频服务器执行一次,代理服务器根据不同的终端请求对视频服务器输出的视频流进行处理。当移动终端发起视频服务请求时,位于代理服务器1上的视频自适应系统将执行转换编码的操作,利用视觉关注度模型生成满足移动终端需求的低分辨率视频流。当PC用户发起视频请求的时候,代理服务器2可直接将高分辨率的视频流发送给PC用户,而不进行转换编码。这样,将ROI检测和视频自适应操作分开,具有2个明显优势:第一,ROI信息的检测只需要在视频服务器执行一次就可以应用于所有的代理服务器,适用于所有移动终端用户,自适应系统在保持灵活性的同时,计算量显著降低;第二,可利用检测到的ROI信息进一步提高自适应性,对将来的视频自适应有一定的可拓展性。3 视觉关注度建模3.1 视觉关注度模型采用视觉关注度模型检测和定位ROI。此时,用户关注的是图像中的一个个感兴趣物体,而不是整个图像。假定一幅图像的视觉注意力模型是由多个被关注对象(AO, attention objects)组成的一个集合4:(1)每个AO有3个属性。其中,表示图像中第个被关注的对象,为所对应的感兴趣区域,是的注意力关注值,是最小可视面积,N是这幅图像中被关注对象的总数。3.2 基于视觉关注度获取ROI的自动建模为了自动地检测和定位ROI,AO的3个属性将通过自动建模的方法计算。本文重点考虑的感兴趣对象是运动对象,暂时不对人脸对象、文本对象等进行特殊考虑。相对于静止图像的建模方法,视频的不同之处在于:通常情况下,视频的运动部分最为重要2。它可以通过直接提取视频的运动场来进行表示并衡量。运动场的计算如下式:(2)其中,()表示运动矢量的x分量和y分量,将看作一幅图像,得到每个运动对象的空间范围。首先,采用中值滤波器去除噪声。然后,进行直方图均衡,在处理后的上选取多个种子点,利用区域增长的方法得到运动对象所在的空间区域。AV值则根据区域的尺寸,时间和空间的关联以及运动的强度进行估计。一般情况下,AV的值和运动对象的面积、运动强度、关联的强弱成正比。拥有较大的面积,较快的运动速度和更一致关联性的运动对象具有更高的AV值。其计算公式如下:(3)其中,表示运动对象的AV值,表示运动对象的面积,表示运动强度,表示关联的强弱。拥有较大的面积、较快的运动速度和更一致关联性的运动对象具有更高的AV值。运动显著对象的检测一般采用多特征融合的检测方法5。图2为基于关注度模型的运动显著对象检测结果。尽管背景比较复杂,仍可得到视觉关注度模型所关注的ROI,即运动的人所在的区域。检测到的ROI将应用于后续的视频自适应操作。 (a) 检测到的矩形ROI (b) 本文的视觉关注度图图2 基于关注度模型的运动显著对象检测3.3 基于虚拟相机控制技术对检测结果的融合在视频的不同帧中,检测和定位到的ROI大小并不一定完全相同。在实际应用环境中,ROI的大小需要受到编码标准的约束,通常要求每一帧的ROI的大小是一致的。此外,为了便于后续空间分辨率缩减的转换编码设计,本文将ROI的尺寸限制为有限集合,例如CIF(352288)和QCIF(176144)。本文,ROI被定义为一个矩形,实际的尺寸根据移动终端的显示分辨率确定。根据解码得到的视频帧ROI信息,如果该区域不符合事先确定的尺寸,则对检测的区域进行缩放。此时,如果不考虑视频相邻帧之间的关系,单独为每一帧确定ROI,容易造成闪烁现象,从而影响用户的视觉效果。为了避免新视频流产生闪烁现象,采用文献6的虚拟相机控制技术调整每帧ROI最终确定的位置。4 基于ROI模型的视频转换编码视频转码的体系结构通常可分为级联像素域转换编码(CPDT)和变换域转换编码(DDT)。其中,CPDT需要对已编码的视频完全解码后,在像素域进行ROI检测,再重新编码生成适合移动设备的视频流。尽管CPDT很灵活,但由于同时包含了完全解码和重编码的过程,计算量大,会给代理服务器带来很大的处理压力。因此,DDT通过部分解码视频码流,在编码过程中利用解码得到的信息,有助于缩减计算量1, 更适合于本文的转码。考虑到最新的视频标准H.264/AVC,具有很高的编码效率和良好的应用前景,本文以H.264视频流为例进行实现。本文提出的视频转换编码框架可安置在代理服务器或网关上,当视频服务器将高分辨率(HR)视频经过代理服务器或网关发送给移动用户时,自适应系统根据实际的显示屏尺寸,利用转码技术调整原始视频,生成满足显示尺寸的低分辨率(LR)视频。转换编码的原理框图如图3所示,由2大模块组成:解码器和编码器。解码器从高分辨率的码流中解码得到运动信息、重建帧、感兴趣信息等。ROI模块根据移动视频终端反馈给代理服务器的显示尺寸,确定满足屏幕尺寸限制的区域,最后从解码得到的视频确定ROI组成一个新的低分辨率视频。其中,ROI决定和快速模式决定(FMD)是本文的关键,ROI决定前面已阐述。图3 基于感兴趣区域的快速视频转码系统DDT的关键在于充分利用原码流解码过程得到的运动矢量等信息。对于H.264,它更为复杂,不仅需要计算运动矢量的值,还要确定最优的模式,两者都对最终的转码性能存在显著影响7。本文提出一种快速模式选择算法,具体步骤如下。1) 运动矢量调整快速帧间模式选择要先进行运动矢量的调整,以修正不同帧的ROI位置不同所造成的运动信息错误。运动矢量的调整可以大幅度提高转码性能。本文采用文献4的方法,对不同帧中的感兴趣位置不同造成的运动信息错位进行修正。2) 快速模式选择(FMD)H.264支持7种可变分块大小运动估计,以提高运动估计的精度。利用输入视频流的分块模式,可减少转码过程中帧间模式选择的运算复杂度。对于运动较小或者运动比较平滑的区域采用大的分块模式;对于运动较不规则的区域采用小的分块模式,运动矢量的梯度方向可以较好地区分运动情况。通过利用解码码流中的运动矢量信息,本文提出一种基于运动矢量梯度方向的快速模式选择算法,步骤如下。Step1 将下采样的图像分成88的模块,并从输入码流中获得对应区域运动矢量调整后的运动矢量。Step2 将每个1616宏块分为4个88块,分别统计以下信息:MVA表示1616宏块的平均运动矢量;MVVi表示各个块运动矢量的方差(i=1,2,3,4);GradAM表示运动矢量的幅度;GradDir表示运动矢量的梯度方向。每个宏块的梯度方向和大小计算如下: (4)(5)(6)如果或者,GradDir=0;如果,GradDir=1;如果,GradDir=2;如果,GradDir=3。Step3 进行快速模式判别图4是快速帧间模式选择的流程图。当所有块的平均方差小于预定阈值T1的条件下,且梯度的幅度小于预定阈值T2,则选择1616模式。如果梯度幅度大于阈值T2,则根据梯度方向选择168还是816。而当平均方差大于预定阈值T1,且梯度幅度小于预定阈值T3,选择88。否则选择sub88,对每一个88块分割为4个44的小块,并计算其方差、梯度和梯度方向,确定其最终的模式。图4 快速模式选择流程实际上,如果宏块对应区域的宏块类型全都是1616或者Skip,则宏块的候选类型为1616和Skip,从中选取率失真(RD)值最小的为最终模式。如果宏块对应区域存在帧内模式类型,则宏块类型为以88模式为起点向下进行全搜索。5 实验结果及分析为了验证本文算法的性能,在VC6.0平台进行了仿真实验。测试序列选取Coastguard、Foreman、Mobile和Stefan, 它们包含大范围的场景,更具说服力。输入为CIF格式的H.264视频流,输出为QCIF格式的视频流。解码器为JM10.1的H.264解码器,编码器为X.264的H.264编码器。编码器级别为Baseline, 其运动估计的范围是1616,搜索方法为采用小钻石搜索,参考帧数为1,量化参数为28。图5为Coastguard和Stefan序列转码前后的实验结果对比。其中,图5(a)和图5(b)为输入的原始视频帧。如果直接采用下采样转换为QCIF格式,其结果分别如图5(c)和图5(e)所示,图5(d)和图5(f)为采用本文方案进行ROI视频转码到的结果。显然,基于ROI转换编码在基本保持背景信息的同时,突出了ROI,有利于改善在小显示屏移动视频终端上的主观视觉效果。 (a)Coastguard原始帧 (b)Stefan原始帧 (c)下采样效果 (d)本文效果 (e)下采样效果 (f)本文效果图5 原始视频序列和转码后视频序列视觉效果比较此外,为了客观地评价本文的算法,将本文的快速模式选择算法与基于CPDT的全搜索模式(FS)在运算复杂度、比特率、视频质量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教育的文化差异和多元性
- 创意与艺术教学展示课件
- 甲功五项检查原理
- 田间单对角线取样法课件
- 中职护理教学课件模板
- 新解读《GB-T 36797-2018装修防开裂用环氧树脂接缝胶》
- 用电安全知识培训课件通讯
- 新解读《GB-T 35030 - 2018烟花发射高度、发射偏斜角、辐射半径测定方法》
- 生鲜超市基本知识培训
- 急性上呼吸道感染咳嗽护理查房
- 集团公司新闻宣传工作管理办法
- 物业消防安全管理制度
- 无线电监测技术设施运行维护项目需求
- NSA2000变频器使用说明书
- 动物生理学电子教案
- 2025年电梯修理T证试题(附答案)
- 学校开荒保洁服务方案
- DB32-T 3144-2016普通高校单位综合能耗、电耗限额及计算方法
- 劳动合同样本范例2025年
- 文档管理与归档制度
- 《幼儿园教师家庭教育指导能力现状调查》
评论
0/150
提交评论