




已阅读5页,还剩122页未读, 继续免费阅读
(信号与信息处理专业论文)基于主观感知的视频编码及流传输.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国科学技术大学博士学位论文 摘要 摘要 随着互联网的发展和多媒体信息的迅速增长,新一代视频压缩编码和网络传 输技术不断出现并日益成熟。基于视频内容的交互、灵活的可伸缩的视频流传输、 以及对吏好的主观服务质量的追求已经成为重要的研究课题。本论文针对这些研 究方向,分别对感兴趣区域的自动提取、视频主观质量的评价、基于感兴趣区域 的视频编码和传输这几个方面进行了研究,在基于主观感知的视频编码及传输的 体系和方法上开展了具有创新性的研究工作。本论文具体的研究工作和研究成果 如下: 首先,本论文提出了基于视觉注意力模型的感兴趣区域提取方法。视觉注意 力模型从视频信息的静态特征、动念特征等各个方面模拟人的视觉响应和感知, 是一种比较有效的视频内容表征。在视觉注意力模型提供的显著性图上进行极大 值检测,得到感兴趣区域的位置和尺寸信息,再结合现有的一些图像和视频分割 的方法,可以进一步提取出具有精细边缘的感兴趣区域。这种感兴趣区域的提取 方法,为本文后继的基于区域的视频编码码率分配的研究提供了有效的支持。 其次本文提出了衡量视频在空间域和时间域的主观感知的视频空间质量 ( 画面清晰度) 和视频时问质量( 运动连贯度) 评价方法。在感兴趣区域分割的 基础上,依据人类视觉系统( h v s ) 的空问敏感度分布特性,提出了一种基于区 域加权的误差及信噪比计算方法。然后在分析了视频的帧速率,运动信息和人眼 对运动感知特性之间的关系后,提出了一种用于衡量视频运动平滑和连贯程度的 视频时间质量评价方法。 第三,以最优化视频的主观视觉质量为目标,考虑到人眼对视频中感兴趣区 域和其他区域的误差敏感度不同,本文提出了基于感兴趣区域的空间区域码率分 配的视频编码方法,为感兴趣区域分配更高的码率,咀提高视频的整体主观质量。 本文还对这种编码方法在各种情况下,如不同带宽环境下的性能进行了实验分 析,结果表明这种编码方法可以有效地提高主观视觉质量,在低带宽的场合尤其 明显。随后,本文又提出了基于感兴趣区域的时间域码率分配,即帧速率的分配 方法。该方法为感兴趣区域分配高的帧速率以保证其平滑的运动,而不会因画面 跳动等因素影响视觉质量;对背景区域则分配较低帧速率,并用综合背景补偿模 型进行合成,以减少区域边界运动不连续等现象。这种时间域码率分配的方法, 在低带宽、低质量的应用场合,也可以有效地提高视频的主观时间质量。 最后,本文针对用户观看视频节目时对画面质量、运动连续质量和整体主观 视觉质量之间的关系进行了分析和研究。通过一组主观用户测试实验,建立了一 中阻科学技术大学博上学位论义摘要 个感知模型,能够根据一个视频片断的空间质量和时间质量对视频的整体感知质 量做出预测。以此感知模型为基础,本文提出了一个基于主观感知的空间一时间 域可伸缩的视频流传输方法,该方法可以根据当前的带宽、视频的内容特征自动 地从几种传输方式中选取一种最优的、可以获得最佳整体感知质量的方式。这种 视频流传输方法可以在带宽较低的情况下,为用户提供最佳的视频服务效果。 关键询:视频编码,视频流传输,码流分配,精细可伸缩性编码,视觉注意力模 型,感兴趣区域,主观感知,视觉质量 中国科学技术大学博:l + 学位论文 a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e ta n dt h e i n c r e a s i n go fa b u n d a n tv i d e o c o n t e n t s ,m a n yn o v e lv i d e oc o d i n ga n ds t r e a m i n gt e c h n i q u e sh a v eb e e np r o p o s e da n d d e v e l o p e d c o n t e n t - b a s e di n t e r a c t i v ev i d e oc o d i n g ,f l e x i b l ys c a l a b l ev i d e os t r e a m i n g a n dt h e r e q u i r e m e n t o fb e t t e r s u b j e c t i v e s e r v i c e q u a l i t yh a v eb e c a m ei m p o r t a n t r e s e a r c ht o p i c s i nt h i st h e s i s ,t h ea u t h o rp r o p o s e sa ni n n o v a t i v es y s t e ma n dm e t h o d o ns u b j e c t i v ep e r c e p t i o n b a s e dv i d e oc o d i n g s t r e a m i n gb a s e do nt h er e s e a r c hw o r k s i n c l u d i n ga u t o m a t i ce x t r a c t i o no fr o i ( r e g i o no fi n t e r e s t ) ,s u b j e c t i v ev i d e oq u a l i t y a s s e s s m e n t ,a n dr o i b a s e dv i d e oc o d i n g s t r e a n l i n ge t c t h ed e t a i l e dr e s e a r c hw o r k s a r e1 i s t e da sf o l l o w i n g : f i r s t l y ,a nr o i e x t r a c t i o nm e t h o db a s e do nv i s u a la t t e n t i o nm o d e li sp r o p o s e d t h ev i s u a la t t e n t i o nm o d e l ,w h i c hs i m u l m e sv i e w e r s v i s u a lr e s p o n s ea n dp e r c e p t i o n b yi n t e g r a t i o no ft h e s t a t i ca n dd y n a m i cv i s u a lf e a t u r e so fv i d e oc o n t e n t s ,i sa n e f f e c t i v er e p r e s e n t a t i o no fv i d e oc o n t e n t s t h es a l i e n c ym a pc a r lb eg e n e r a t e db a s e d o na t t e n t i o nm o d e l ,w h i c hw i l lb eu s e dt od e t e r m i n et h ec e n t e ra n ds i z eo f r o i t h e n , an o v e lr o ie x t r a c t i o nm e t h o di sp r o p o s e db yt h ec o m b i n a t i o no ft h es a l i e n c em a p a n dt h ee x i s t i n gi m a g ea n dv i d e os e g m e n t a t i o na l g o r i t h m s ,i nw h i c ht h ef i n eb o u n d a r y o fr o tc a nb eo b t a i n e da n di d e n t i f i e d t h i sm e t h o dw i l lg i v ee f f e c t i v es u p p o r tf o rt h e r o i b a s e dv i d e o c o d i n g s e c o n d l y , t h eq u a l i t ya s s e s s m e n tm e t h o d s a r ep r o p o s e dt om e a s u r et h es u b j e c t i v e s p a t i a lq u a l i t y ( i m a g ec l a r i t y ) a n dt e m p o r a lq u a l i t y ( m o t i o ns m o o t h n e s s ) o fv i d e o c o n t e n tr e s p e c t i v e l y i nt h i sm e t h o d ,a r e g i o nw e i g h t e dd i s t o r t i o ni si n t r o d u c e d a st h e m e a s u r eo ft h es u b j e c ts p a t i a lq u a l i t yb a s e do nr o is e g m e n t a t i o na n dh v s ( h u m a n v i s u a ls y s t e m ) f e a t u r e s t h e n ,t h es u b j e c t i v em e a s u r eo f t e m p o r a lq u a l i t yi sp r o p o s e d b ye v a l u a t i n g t h ev i e w e r s m o t i o np e r c e p t i o nq u a l i t ya c c o r d i n gt om o t i o ni n f o r m a t i o n a n d p l a y b a c kf r a m e r a t e t h i r d l y , ar o l - b a s e ds p a t i a lb i ta l l o c a t i o ns c h e m ei nv i d e oc o d i n gi sp r o p o s e d t o m a x i m i z es u b j e c t i v ev i d e oq u a l i t y d u et ot h ed i f f e r e n te r r o rs e n s i t i v i t i e so nd i f f e r e n t s p a t i a lr e g i o n so f v i d e of r a n a e s ,t h es u b j e c t i v eq u a l i t yo fv i d e oc a nb ei m p r o v e db y a l l o c a t i n gm o r eb i t s f o rr o i t h ep e r f o r m a n c ea n a l y s i su n d e rd i f f e r e n tb a n d w i d t h c o n d i t i o n ss h o w st h a tt h i sm e t h o dc a no b t a i ng o o ds u b j e c t i v ep e r c e p t i o nq u a l i t y , e s p e c i a l l yf o rl o w - b a n d w i d t hc o n d i t i o n s l h e n ,ar o i b a s e dt e m p o r a lb i ta l l o c a t i o n s c h e m ei sp r o p o s e d i nt h i ss c h e m e ,t h er o l sa r ee n c o d e da n dd e l i v e r e da tah i g h 中国科学技术大学博士学位论文 a b s t r a c t f r a m er a t et om a i n t a i ns m o o t hm o t i o na n dg o o dt e m p o r a lp e r c e p t i o nq u a l i t y , w h i l e b a c k g r o u n d ( n o n r o ia r e a s ) i se n c o d e da n dd e l i v e r e d a tal o wf r a m er a t e ,a n di s i n t e r p o l a t e dt oh i g hf r a m er a t ea c c o r d i n gt ot h ei n t e g r a t e db a c k g r o u n dc o m p o s i t i o n m o d e l t h i sv i d e oc o d i n gm e t h o dc a l la l s oi m p r o v et h es u b j e c t i v ep e r c e p t i o nq u a l i t y i nl o wb a n d w i d t ha n d l o w q u a l i t y v i d e oa p p l i c a t i o n s f i n a l l y , ap e r c e p t i o nm o d e l ,w h i c hc a np r e d i c ti n t e g r a lp e r c e p t i o ng i v e nb y s p a t i a l a n d t e m p o r a lq u a l i t y , i s c r e a t e d a c c o r d i n g t ou s e r s t u d y r e s u l t so ft h e r e l a t i o n s h i po fv i e w e r s s p a t i a lp e r c e p t i o nq u a l i t y ( i m a g ec l a r i t y ) ,t e m p o r a lq u a l i t y ( m o t i o ns m o o t h n e s s ) a n di n t e g r a lp e r c e p t i o n b a s e d o nt h i s p e r c e p t i o nm o d e l ,a t e m p o r a l s p a t i a l s c a l a b l ev i d e os t r e a m i n gm e t h o di sp r o p o s e d ,w h i c ha l l o w st h e s t r e a m i n gs y s t e mt o c h o o s et h eb e s tc o d i n ga n dd e l i v e r ys c h e m ea u t o m a t i c a l l yt o o b t a i nm a x i m u mp e r c e i v e dq u a l i t ya c c o r d i n gt ot h ev i d e oc o n t e n ta n db a n d w i d t h c o n d i t i o n s t h i ss t r e a m i n gs c h e m ew i l lb eh e l p f u li np r o v i d i n ga sg o o da sp o s s i b l e s e r v i c eq u a l i t yi nl o wb a n d w i d t hv i d e oa p p l i c a t i o n s k e y w o r d s :v i d e oc o d i n g ,v i d e os t r e a m i n g ,b “a l l o c a t i o n ,f i n e g r a n u l a r i t y s c a l a b i l i t y , v i s u a la t t e n t i o nm o d e l ,r e g i o no fi n t e r e s t ,s u b j e c t i v ep e r c e p t i o n ,v i s u a l q u a l i t y v 中国科学拄术大学博:卜学位论文图表目录 图表目录及缩略语 插图目录 图1 一1 分层可伸缩编解码器的框架,7 图1 2 m p e g - 4f g s 编码方案的基本结构,8 一 图1 3 静态特征注意力模型1 4 图1 4 动态特征注意力模型建立1 5 一 图1 5 人眼空间分辨率的不均匀分布,】6 图2 1 视觉特征反差示例一2 0 一 图2 - 2 ,静态视觉洼意力模型的建立,2 0 图2 3 显著性图用于提取注意焦点、注意区域和注意视图2 1 图2 - 4 运动注意力模型示例2 3 图2 5 镜头运动注意力模型示例2 5 图2 - 6 人脸检测以及注意力权重,2 6 。 图2 7 邻域窗模板2 7 图2 8 感兴趣区域中心检测2 8 一 图2 - 9 图像边缘和导数示例,3 0 图2 1 0 常用梯度算子模板3 0 一 图2 1 1 k i r s c h 算予3 ) ( 3 模板中的4 个3 0 图2 】2j l 种拉普拉斯算子的模板,3 1 - 图2 。1 3 分水岭算法示意3 1 图2 1 4 分水岭算法的过分割结果3 3 圈2 1 5 感兴趣区域分割提取的结果3 6 图2 ,1 6 感兴趣区域轨迹修正示意3 7 一 图3 1 归化的反羞敏感度及截上卜频率4 1 图3 2 区域加权的误差敏感度计算示意一4 4 图3 3 主观视频评价测试4 6 一 图3 - 4 ,“运动抖动”现象示意4 7 图3 5 运动信息与时间质量感知一4 9 图3 - 6 主体运动区域的分割,5 0 。 图3 7 时间质量评价方法的测试一5 2 图4 1 基于感兴趣域的空问码率分配设想结果,一s 3 一 图4 2 视频序列l e n n i s 和f o o t b a l l 的r q p 曲线- 5 4 图4 3 频率加权的位平面移动示意5 9 图4 - 4 可选择增强示意5 9 图4 5 f g s t 作为单独一层的f g s 码流结构一6 0 图4 - 6f g s t 和f g s 置于同一增强层的码流结构一6 l - 图4 7 基本层量化系数和对应增强层位平面个数的关系一6 2 。 图4 _ 8 各种位平面移动方法示意一6 2 一 图4 - 9 视频序列s t e f a n 即感兴趣区域分割一6 3 图4 1 0 序列s t e f a n 常规编码和r o i 编码韵结果对比一6 6 一 图4 1 1 序列s t e f a n 常规编码和r o i 编码的m s e 对比6 7 - v 中国科学拉术大学搏j :学位论文图表目录 图4 1 2 序列s t e f a n 常规编码和r o i 编码的w m s e 对比一6 7 图4 1 3 主观测试结果比例图,6 8 图4 1 4 ,各种编码情况下的性能一6 9 一 图5 - 1 计算感知运动能量谱的时间一空间窗7 2 图5 2 p m e s 图示例一7 5 图5 3 镜头缩放的运动矢量场和p m e s 的计算,7 6 图5 - 4 帧插值转换示意一7 8 图5 - 5 帧速率分配示意7 8 图5 - 6 插值合成示意7 9 图5 。7 插值台成时“空洞”的形成8 0 图5 - 8 综合背景运动合成模型示意8 1 图5 9 p m e s 图一8 3 一 图5 1 0 三种方案前3 0 帧的p n s r 8 4 - 图5 1 1 三种方案插值帧的p s n r 8 5 一 图5 1 2 三种编码方案比较,测试序列“s t e f a n ”,第2 3 帧一8 6 - 图5 13 帧速率分配主观测试结果比例图一8 8 一 图6 1 ,用户主观测试:具界面一9 2 图6 2 感知函数的有向图模型一9 4 图6 3 三种备选的视频流传输方案一9 9 - 图6 - 4 模拟网络带宽曲线- 1 0 3 一 图6 5 三种传输方案的p s q 曲线一1 0 3 一 图6 - 6 三种传输方案的阿q 曲线1 0 3 - 图6 7 目标方案序列一1 0 3 - 图6 8 视频流传输结果示例一1 0 4 一 表格目录 表3 1 误差加权模型参数值4 5 - 表4 1 主观测试结果一6 8 一 表5 1 区域平均p m e s 值8 3 一 表5 - 2 帧速率分配主观测试结果一8 7 - 表6 - 1 感知模型确认度一9 6 一 表6 2 不同被试者结果的一致性一9 7 - 常用缩略语 r o l h v s w m s e s w m p s q p t q q p f g s 御订e s r e g i o no f i n t e r e s t h u m a nv i s u a ls y s t e m w e i 曲t e dm e a ns q u a r e de r r o r s e g m e n t a t i o nw e i g h t e dm o t i o nm a g n i t u d e p e r c e i v e ds p a l i a lq u a l i t y p e r c e i v e dt e m p o r a lq u a l i t y q u a n t i z a t i o np a r a m e t e r f i n eg r a n u l a r i t ys c a l a b l ec o d i n g p e r c e i v e dm o t i o ne n e r g ys p e c t r u m v 感兴趣区域 人类视觉系统 加权均方差 区域加权运动幅度 感知空间质量 感知时间质量 量化参数 精细呵伸缩编码 感知运动能量谱 中国科学技术人学博,l 学位论文 第一章:绪论 第一章绪论 当今时代,信息技术和计算机互联网技术己得到飞速发展。在此背景下,多 媒体信息已成为人类获取信息的最主要载体之,同时也成为电子信息领域技术 开发和研究的热点。多媒体信息经数字化处理后具有易于加密、抗干扰能力强、 可再生中继等优点;但同时也伴随海量数据的产生,这对信息存储设备及通信网 络均提出了很高要求,成为阻碍人们有效获取和使用信息的重大瓶颈。因此研究 高效的多媒体数据压缩编码方法,以压缩形式存储和传输数字化的多媒体信息具 有重要意义。人类获取的信息中7 0 来自于视觉,视频信息在多媒体信息中占有 重要地位;同时也因为视频数据的冗余度最大。经压缩处理后的视频质量高低成 为决定多媒体服务质量的关键因素。因此数字视频技术是多媒体应用的核心技 术,对视频编码的研究已成为信息技术领域的热门话题。 作为多媒体技术的核心及关键,多媒体数据压缩编码近年来在技术及应用方 面都取得了长足进展,它的进步和完善正深刻影响着现代社会的方方面面。随着 因特网业务的巨大增长,在速率起伏很大的i p ( i n t e m e t p r o t o c 0 1 ) 网络及具有不 同传输特性的异构网络上进行视频传输的要求和应用越来越多。在这种背景下, 视频分级和可伸缩编码的重要性同益突出,其应用范围非常广泛且具有很高的理 论研究及实际应用价值,m p e g - 4 在增补的视频流应用框架中提出了精细可伸 缩性( f i n eg r a n u l a r i t ys c a l a b i l i t y ) 视频编码算法。该算法可以做到视频数据只 压缩一次却能以多个帧速率、空闻分辨率或视频质量进行解码,从而能支持多 种类型用户的各种不同应用要求。 伴随着视频编码相关学科及新兴学科的迅速发展,新一代数据压缩技术不断 诞生并日益成熟,其编码思想开始由基于像素和像素块转变为基于内容 ( c o n t e n t b a s e d ) 。m p e g 4 算法是基于模型,对象的第二代压缩编码技术的一个 典型代表,它利用了人眼视觉特性,抓住了图像信息传输的本质,从轮廓、纹理 思路出发,支持基于视觉内容的交互功能,适应了多媒体信息的应用由播放型转 向基于内容的访问、检索及操作的发展趋势。在基于媒体内容的访问、检索和操 作等应用中,需要涉及到对视频内容的分析、表征和语义理解等。实现基于内容 交互的首要任务就是把视频图像分割成不同对象或者把运动对象从背景中分离 出来,然后针对不同对象采用相应编码方法,以实现高效压缩。视频对象分割作 为视频编码的关键技术,也是新一代视频编码的研究热点和难点。 由于底层视觉特征与高层的语义之问存在着巨大的“鸿沟”,直接基于底层 视觉特征的分割方法无法得到满意的结果。其中。一个重要的研究方向是从生理学 和心理认知科学的角度出发,研究图像中哪些因素可以抓住人的视觉注意力,即 中国科学技术大学博士学位论义第一章;绪论 从研究人类的视觉感知特性出发得到图像的感兴趣区域,并由此可以有效的得到 视频对象。另外,由于视频信息的最终接受者是人,所以衡量视频信息的主观感 知质量也是一个很重要的话题。人类视觉系统( h v s :h u m a nv i s u a ls y s t e m ) 的 提出,为图像和视频质量评价引入了一个新的研究方向,基于h v s 视觉响应特 性的视频质量评价可以比较有效的衡量人的主观感知。 因此,一个能够满足人们实际需要的视频应用系统应该充分地考虑到人的主 观感知特性。尽量保证感兴趣的视频对象和区域的视觉质量,并且具有灵活的基 于对象的码流可伸缩性,尤其在无线网络应用及低带宽等情况下,尽可能的提供 符合人的主观感知的服务质量。 1 1 视频编码和传输的背景和现状 1 1 1 视频编码标准回顾 数字视频信息丰富,数据量庞大,且需求众多,随着社会信息化的进程,高 效的视频编码技术的研究得到了越来越广泛的关注。事实上,在近半个世纪的研 究中,数字视频编码技术无论是在算法研究还是在产业发展上都有了长足的进 展。1 9 8 9 年国际电话和电报协会( c c i t t ) 发布了第一个数字视频编码标准:c c i t t 建议h 2 6 1 【l 】,这个标准至今仍然适用于i s d n 视频电话及视频会议系统。c c i t t 后更名为i t u 。进入二十世纪九十年代后,国际标准化组织( 1 s o ) 和国际电信联 盟( i t u ) 对已有的视频和图像编码技术进行了测试和整合,在这些先进而成熟的 编码技术的基础上,针对不同的应用环境和需求,制定了一系列的通用的多媒体 编码标准:包括用于通过模拟电话线路传输视频会议和连接到i n t e r n e t 桌面和移 动终端的h 2 6 3 1 2 1 ;用于a t m 宽带榄频会议的h 2 6 2 m p e g 2 3 ,4 】视频编码标 准:兼顾低码率和高码率视频编码的h 2 6 l 标准【5 】;最新的和i s o i e cm p e g 共同开发并以作为国际标准1 4 4 9 6 1 0 ( m p e g 一4 第l o 部分) 的视频编码标准 h 2 6 4 a v c 6 ;和用于视音频编码压缩的m p e g 标准系列,特别是面向1 5 m b p s 数字视频和音频传输与c d r o m 存储的m p e g 1 【7 】和支持h d t v 等商品质数字 视频和音频传输与存储的m p e g 2 4 】,已经在视音频的传输和存储领域中取得了 举足轻重的地位,其相关产品v c d 和d v d 亦已经享誉全球,极大地推动了视 频压缩技术的实用化和产业化。 m p e g - 4 8 1 3 1 是于1 9 9 9 年出台的一个新的多媒体标准。较之m p e g 前两个 视频编码标准丽言,m p e g 一4 为多媒体数据压缩提供了一个更为广阔的平台。它 将各种多媒体技术充分应用于编码,一种除压缩本身一些工具外,还包括图像分 析和合成、计算机视觉、计算机图形学、虚拟现实和语音合成技术。m p e g - 4 提 供了许多新的性能:提供了基于内容的交互性、定义了音频视频对象,可以对任 中国科学技术大学博士学位论文第一章:绪论 意形状的视频对象编码;可以高效地对自然或合成的多媒体数据编码;高效的压 缩性,具有更高的编码效率,同已存在或即将形成的其他标准相比,在相同比特 率下具有更高的视觉听觉质量:提供了易出错环境中的健壮性,来保证其在许多 无线和有线网络以及存储介质中的应用等等。 1 1 2 视频编码发展的热点方向 当前视频编码研究的热点及可能的发展趋势主要集中在三个方面:健壮的视 频编码、合成自然混和数据编码和基于对象的自适应视频编码。 健壮的视频编码 视频编码的目的是压缩视频信息。但是随着视频信息冗余度的减少,视频抗 误码能力也降低。由于目前通信传输信道不是理想信道( 如i n t e r n e t 网络不提供 质量保证及无线网络的极低带宽、高误码等特性) ,为了能够有效的进行视频通 信,需要健壮的视频编码技术。健壮视频编码需要联合考虑信源和信道两个方面, 在不影响编码效率的情况下,适当增加些冗余来提高比特流抗误码能力。h 2 6 3 和m p e g 。4 标准是首先考虑编码健壮性的编码标准。它们采用了一些健壮编码 方法,如h 2 6 3 + 中的参考帧选择模式 1 4 ,m p e g 4 标准中采用的可逆变长码【9 等技术。由于视频编码健壮性能的提高需要考虑编码各个环节之间的配合高效 的健壮编码算法还有待进一步的研究。 合成自然混和数据编码 合成自然混和数据编码( s n h c ) 【9 ,1 5 1 8 是用柬表示和传输合成自然的 混和数据的技术,是当前图像视频编码领域的又一个新的研究热点,同时也是 m p e g - 4 支持的特性之一。现在越来越多的实时交互应用需要对听觉、视觉信息 和2 d 、3 d 计算机图形进行混和编码。 m p e g 4 建立一种人脸动画模型,可以用来对活动人脸进行高效的编码和显 示,其形状、纹理和表情由人脸定义参数( f a c i a ld e f i n i t i o np a r a m e t e r s ,f d p s ) 和人 脸动画参数( f a c i a l a n i m a t i o np a r a m e t e r s ,f a p s ) 来进行描述和表征。动画参数可以 驱使人脸做无限制范围的运动。系统启动时,入脸对象是一个具有中性表情的一 般人脸。它可以立刻从码流中接受动画参数来驱使人脸活动,同时可以接收定义 参数来改变人脸的形状和纹理,使其成为一个特定的脸。如果愿意,可以下载一 个完整的人脸模型。人脸模型本身并没有标准化,但系统提供标准化的工具来描 述模型的容貌。 本文作者曾经进行过相关的工作f 1 9 2 1 ,利用一个通用的三维人头模型,和 用户的正侧面的照片,建立自然逼真灵活的三维合成人像模型,它可以利用 中国科学技术人学博士学位论文 第一章:绪论 m p e g - 4 定义的f a p 和f d p 来传送数据量很小的口型和表情描述参数,在接收 端合成出逼真的效果,可以应用于基于m p e g 一4 框架的视频通信中,如可视聊 天系统、网络虚拟主持人等等。 基于对象的自适应视频编码 基于对象的视频编码是为了给多媒体提供更强的交互性而产生的视频编码 新技术。由于信息和网络等技术的迅猛发展以及人们物质生活水平的提高,人们 对高交互多媒体业务和i n t e r n e t 业务【2 2 ,2 3 ( 如远程会议、远程教学、购物点播、 视频v o d 、电予商务等) 的需求日益增加,迫切需要出现新的编码技术来提供 较强的交互性。基于对象、基于内容的视频编码技术就是顺应这种需求而产生的, 它也是m p e g 一4 标准的重要特性之一,它的发展在很大程度上受m p e g 一4 标准 活动的驱使。基于对象的编码可以对任意形状的视频对象进行编码、传输、解码, 但也由此而带来一些新的难题。当前基于对象的视频编码的研究集中在视频对象 分割、基于对象编码技术( 包括对象纹理、形状及运动估计等方法) 以及基于对 象的速率控制等方面。网络多媒体的应用对基于对象的编码技术提出了更高的要 求,编码器必须要考虑网络的时变性和不可预制性,考虑终端用户在带宽和处理 能力上的差异性,编码输出的内容应该具有极强的适应性。 1 1 3 面向互联网的视频流传输 进入二十世纪九十年代后,新的数字媒体载体技术日新月异的发展,使得视 频内容的存储问题己经不是阻碍视频信息广泛应用的主要问题。随着i n t e m e t 的 迅猛发展,网络已经深入人们的日常生活,而多媒体信息,尤其是连续媒体内容 正在迅速地增加,使得视频信息在网络上的应用需求日益广泛、迫切,而视频编 码的目标也就从过去的面向存储转变为面向网络传输。在网络视频应用的初期, 视频内容在网络上传输主要是通过在发送端和接收端建立端对端 ( e n d t o e n d ) 2 4 1 的连接来实现的。在这种情况下,视频传输所需的带宽是可知的 并且相对稳定。随着互联网视频服务需求的快速增长,越来越多的视频内容采用 数据包广播的方式 2 5 2 7 1 在互联网上进行传递。由于i n t e m e t 网络设计的初衷是 为了计算机间的数据通信,因此多媒体数据,特别是视频流,在网络上的传输还 面临着诸多问题。 1 1 3 1 视频流传输技术及其现状 同般的文件传输不同,压缩视频在网络上是以视频流化( v i d e os t r e a m i n g ) 的方式进行传输的。流化视频通常不采取静态数据的传输方式,不必将全部的媒 体节目视频信息下载到终端设备后再播放,而具有边下载边播放的特点。对于终 端用户而言,在享用视音频服务的同时,无需等待漫长的下载时间,也不必提供 中国科学技术大学储1 1 学位论义 第一章:绪论 大容量的存储设备,在带宽充足的情况下,可以获得本地播放多媒体文件的效果。 这也使得实时的节目流传输成为可能。目前,最为常用的三种网络视频播放器 【2 8 :苹果( a p p l e ) 公司的q u i c k t i m e t m 、微软( m i c r o s o f t ) 公司的m e d i ap l a y e r t m 以 及r e a l n e t w o r k 的r e a l p l a y e r t m ,都在其产品中采用了媒体流化技术,提供了一 套完整的从服务器到客户端的解决方案。 尽管视频流化技术研究己经取得了相当的成果,也推出了相应的实用产品, 然而它在网络实时传输中依然很难提供用户满意的服务质量。除了误码和缺乏服 务质量保证( q o s :q u a l i t yo fs e r v i c e ) 此类传统的网络传输问题之外,在网络 上传输视频等多媒体信息所面临的最大挑战则是传输带宽的抖动,即相同的终端 不同的时间或者不同的终端相同时间访问互联网时所得到的传输带宽存在很大 的差异。这个问题主要由于网络的异构性所造成。再加上i n t e m e t 网络并不提供 资源预留一类的协议保护,也不支持多优先缴的传输,这样,在网络拥塞时,多 媒体信息传输所得到的有效带宽会陡然降低,从而严重地影响接收到的多媒体信 息的质量。传统的视频编码技术通常希望在给定的某个码率下获得最好的视频质 量,因此其产生的码流很难适应如此复杂的网络带宽波动,不能充分利用信道的 容量。如何在异构的网络环境中高效的传输连续媒体成为产业界和各科学研究机 构密切关注的问题。 为了更好的推动视频流在网络上的应用,低码率编码、容错编码、分层编码、 可伸缩编码成为今年研究的热点。面向互联网的流化视频高效编码技术逐渐成为 诸多国内外从事信息处理和多媒体技术研究的大学、研究院、公司和国际标准化 组织研究开发关注的重要课题。美国的m i t 2 9 ,u cb e r k e l y 3 0 等,i b m 3 1 】 和m i c r o s o f t 3 2 等跨国公司,国内的清华大学 3 3 ,中科院 3 4 1 等研究单位都有 专门的研究团队从事视频压缩和传输技术的探索和研究。特别的是,我国数字视 音频编解码技术标准化工作组( a v s ) f 3 5 的建立有力地推动了我国流化媒体技 术的发展。新一代面向对象的视音频编码标准m p e g 4 的视频编码部分在低码 率和可伸缩编码两方面都有相应的技术标准,它确定并提供了可伸缩视频编码方 案 3 6 】。在i s om p e g 正在制定的m p e g 一2 1 标准 3 7 ,3 8 】中对如何提高可伸缩编 码方案的编码效率的问题展开迸一步的研究和开发。目前i s om p e g 和i t u t v c e g 联合制定的下一代低码率视频编码标准 3 9 1 中也在广泛的征集适用于网络 传输的可伸缩视频编码方案。 目前流化视频服务中主要采取以下的一些视频编码方法来适应现有的 i n t e m e t 网络的传输环境,提供带宽适应性。 自适应编码( a d a p t i v ee n c o d i n g ) :在自适应编码系统中,编码器可以实时 的根据网络传输信道的情况来调节其编码参数( 如量化系数q p ) ,从而生成适合 中国科学投术大学博 + 学位论文第一章:绪论 当前网络传输的视频流 4 0 】。但是,这种方法需要实时的根据反馈网络信息来调 整编码参数和生成码流,对服务器的要求非常高,而且在编码和传输是相互独立 的网络视频流服务中,自适应编码方法无法使用。该方法多用于视频会议类的实 时视频服务中。 码流转化( t r a n s c o d i n g ) f 4 1 】:。在码流转化的编码系统中,它事先离线的 编码生成一个质量足够好的视频流文件并且将其存放在服务器上。在网络传输 时,如果网络带宽不足以传输存放的视频文件,服务器会对该文件进行部分的解 码并且采用新的量化参数进行重新编码到一个更低的码速率以适
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 襄州七中考试题目及答案
- 数学四上中考试卷及答案
- 专利实质审查检索报告对比文件类型相关试卷及答案
- 糕点配方多目标优化-第1篇-洞察与解读
- LED故障云诊断技术-洞察与解读
- 《内科呼吸系统》考试复习题库(带答案)
- 创新绩效竞争评估-洞察与解读
- 2025年事业单位招聘卫生类医学检验专业知识试卷(真题模拟)
- 2025内蒙古通辽市奈曼旗招募青年见习人员387人考前自测高频考点模拟试题完整答案详解
- 衡阳地理会考试卷及答案
- 2025民政如法考试题目及答案
- 2025年成人高考高起点理化综合真题及答案(完整)
- 甘肃国家电网招聘2026备考考试题库附答案解析
- 非遗文化活动演出方案策划
- 2025至2030中国高纯硒粒行业发展形势与前景规划分析报告
- 差旅费报销标准(2025财政版)
- 高考《数学大合集》专题突破强化训练往年高考抽象函数10题型归纳(原卷版)
- 2025年中国磁力积木行业市场全景分析及前景机遇研判报告
- 2025河北承德市市直事业单位卫生类招聘85人考试参考试题及答案解析
- 医院用消毒剂的配制课件
- 腰大池引流管护理查房
评论
0/150
提交评论