（计算机应用技术专业论文）基于感知的视频质量评价与视频编解码.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：58 大小：5.76MB 积分：0 举报 版权申诉

已阅读5页，还剩53页未读，继续免费阅读

（计算机应用技术专业论文）基于感知的视频质量评价与视频编解码.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要数字视频质量评估在视频压缩、处理以及视频通信领域中起着十分重要的作用。可见，视频质量评价的研究不仅有重要的理论价值，而且有广泛的应用需求。本文介绍了视频质量评价的定义，概括和比较了当前较有代表性的客观视频质量评价方法；深入研究了基于结构相似的数字视频客观质量评估方法，提出了几种新的改进方案，以及两种基于视频质量评价方法研究成果的h 2 6 4 视频编解码器的改进算法。本文主要研究成果为：结合h v s 和人眼感兴趣区域自动检测算法，提出一种基于感兴区的s s i m 改进方法。该方法通过自动提取视频的感兴趣区域，对不同感兴趣程度的区域进行加权，从而达到提高视频客观评价准确度的目的。提出基于场景因素的s s i m 改进方法。该方法根据视频的不同平滑度场景、不同运动速度场景对主观质量和客观质量的不同影响，对客观质量得分进行调整，以达到提高客观评价与主观评价相关度的目的。根据随机噪声对视频主观质量比客观质量影响程度小的问题，提出基于噪声检测的s s i m 改进方法，可进一步提高客观评价的准确度。基于上述研究成果，结合h v s 和视频感兴趣区自动提取算法，提出两种h 2 6 4 视频编解码器改进算法，在不降低视频主观质量的情况下，可使压缩视频码率下降3 0 一4 8 。【关键词】视频质量评价结构相似感兴趣区域视频编解码 a b s t r a c t d i g i t a lv i d e oq u a l i t ya s s e s s m e n tp l a y si m p o r t a n tr o l e si nv i d e oc o m p r e s s i o n ，v i s u a l p r o c e s s i n ga n dv i d e oc o m m u n i c a t i o n s s o ，t h es t u d yo fv i d e oq u a l i t ya s s e s s m e n ti sn o t o n l yi m p o r t a n ti nt h e o r e t i c a ls o n s e ，b u ta l s ow i d e l yw a n t e db yv a r i e t yo fa p p l i c a t i o n s i n t h i sd i s s e r t a t i o n ，t h ed e f i n i t i o no fi m a g eq u a l i t ya s s e s s m e n ti sd e f i n e d ，a n ds o m et y p i c a l i m a g ea s s e s s m e n tm e t h o d s a tp r e s e n ta r es u m m a r i z e da n dc o m p a r e d t h e nt h e s t r u c t u r a ld i s t o r t i o nb a s e dm e t h o di ss t u d i e di nd e p t h ，a n ds e v e r a li m p r o v ep r o g r a m s a r ep r o p o s e d b a s e do nt h er e s u l t so ft h er e s e a r c ha b o v e ，t w oi m p r o v e da l g o r i t h m so f t h eh 2 6 4v i d e oc o d e cb a s ea r ep r o p o s e d t h em a j o rc o n t r i b u t i o n so f t h i sd i s s e r t a t i o na r es u m m a r i z e da sf o l l o w s ： t h eh v s ( h u m a nv i s u a ls y s t e m ) a n dt h ea u t o m a t i cd e t e c t i o na l g o r i t h mo ft h e r o i ( r e g i o no fi n t e r e s t ) a r es t u d i e df i r s t l y , a n d a l li m p r o v e dm e t h o do fs s i m ( s t r u c t u r a ls i m i l a r i t y ) b a s e dr o i i sp r e s e n t e d w i t ht h ea u t o m a t i cd e t e c t i o no ft h ev i d e o r e g i o no fi n t e r e s t ，d i f f e r e n tl e v e l so ft h er o ia r ew e i g h t e ds oa st oa c h i e v ea na c c u r a c y o b j e c t i v ee v a l u a t i o no ft h ev i d e o w i t hd i f f e r e n ts m o o t h n e s sa n dd i f f e r e n tm o v ev e l o c i t yo ft h es c e n e ，t h eq u a l i t yo f s u b j e c t i v ea n do b j e c t i v ea l en o tc h a n g ea st h es a m e a c c o r d i n g l ya na d j u s ta l g o r i t h mi s u s e dt oe l i m i n a t et h ed i f f e r e n c eb e t w e e nt h es u b j e c t i v ea n dt h eo b j e c t i v ee v a l u a t i o n w h e nt h e r ei sr a n d o mn o i s ei nt h ev i d e o ，t h e r ei sad i f f e r e n te f f e c tb e t w e e nt h e s u b j e c t i v ea n dt h eo b j e c t i v ee v a l u a t i o n a c c o r d i n g l ya l la d j u s ta l g o r i t h mi su s e dt o e l i m i n a t et h e d i f f e r e n c et oi m p r o v et h ea c c u r a c yo ft h eo b j e c t i v ee v a l u a t i o n b a s e do nt h er e s u l t so ft h er e s e a r c h ，c o m b i n e st h eh v sa n dt h ea u t o m a t i c d e t e c t i o na l g o r i t h mo ft h er o i ，t w oi m p r o v e da l g o r i t h mo ft h eh 2 6 4a r ep r o p o s e d t h e b i tr a t eo ft h ec o m p r e s s e dv i d e od e c l i n eo b v i o u s l y ( 3 0 一4 8 ) w h i l et h es u b je c t i v e q u a l i t yo ft h ev i d e om a i n t a i n st h es a m el e v e l k e yw o r d s v i d e oq u a l i t ya s s e s s m e n t ，s s i m ，r o i ，v i d e oc o d e e 2 独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写的研究成果，也不包含为获得江西财经大学或其他教育机构的学位或证书所使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。虢孵年吼也_ 关于论文使用授权的说明本人完全了解江西财经大学有关保留、使用学位论文的规定，即：学校有权保留送交论文的复印件，允许论文被查阅和借阅；学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后遵守此规定) 虢蜱聊虢丝邋魄丝q 1 绪论 1 绪论 1 1 课题来源本课题来源于如下基金项目：【1 】江西省高性能计算技术重点实验室开放课题基金项目“基于视觉感知和人机交互的数字视频质量客观评价方法( j x h c 一2 0 0 5 0 0 4 ) ；【2 】江西省教育厅教育科技项目“磁共振波谱信号处理方法研究 ( 赣教技字【2 0 0 6 1 2 3 2 号) ；【3 】江西省自然科学基金项目“数字图像的无参考质量评估”( 0 6 1 1 0 3 6 ) ； 4 江西省自然科学基金项目“基于生物力学的红外人脸识别理论与系统研究”( 0 6 1 1 0 2 5 ) ；【5 】国家自然科学基金项目“非常态下远红外人脸识别中鲁棒生物特征提取研究”( 6 0 6 6 5 0 0 1 ) 。 1 2 研究背景视频技术泛指将一系列的静态影像以电信号方式加以捕捉，纪录，处理，储存，传送，与重现的各种技术。视频技术最早是为了电视系统而发展，但是现在已经更加发展为各种不同的格式以利于消费者将视频记录下来。网络技术的发达也促使视频的纪录片段以流媒体的形式存在于因特网之上并可被电脑接收与播放。经研究发现，人类的信息加工在很大程度上依赖于视觉，来自外界的信息有 8 3 是通过人的眼睛获得的。很多情况下，图像和视频所承载的信息比任何其他形式的信息都更真切、更丰富，获取也更便捷，图像和视频的重要性可见一斑。随着信息技术的发展和宽带网络的普及，数字视频在人们的工作生活娱乐中地位越来越重要。像视频会议系统已成为各大企业降低工作成本，提高工作效率的必备工具；高清数字电视也已日益普及；网络视频也已成为人们生活娱乐不可或缺的一部分；随着3 g 无线网络的普及，视频通讯也成为人们生活的组成部分的。还有在生物医学、卫星遥感、环境监测、安全监控、军事侦察等各行各业，数字视频都正发挥着越来越重要的作用。在当今高清电视、网络视频、视频会议等日益增长的视频通讯要求中，数据量巨大是它们共同的特征，由于带宽、存储器或计算资源有限，数据必须经过压缩才能保证通讯系统的效率。视频的数据量是很大的，以一秒c i f 格式( 3 0 昂s ) 的视频画面为例，如不经压缩，每秒数据量将达到3 5 2 2 8 8 8 1 5 3 0 = 3 6 m 比特，直接保存或传输这样的数据量是无法令人接受的。视频编码的目的就是在保证视基于感知的视频质量评价与视频编解码频观察质量的前提下，尽可能减低码率，减少传输时间、传输通道，降低成本。为达到所要求的比特率，不得不舍弃一些信息，甚至低于信号的香农信源熵，另外其他诸如传输干扰也会不可避免地导致恢复视频的一些失真。然而，丢失信息导致的失真将直接影响到用户对视频的主观感受，同时，不同类型的失真对用户的主观感受的影响也不一样。如果要对视频压缩算法或传输方法进行改进，就必须先了解视频降质的产生原因、影响形式和影响的程度，因此，就需要对视频质量进行精确细致的评价。对视频失真度的正确评价在视频处理的许多领域有着重要的实际意义，特别是在视频编码领域，直接关系到编码算法的设计、优化和性能评价。视频压缩技术可以看作是在码率，视频质量视觉感知失真和压缩算法复杂度之间的折衷，高压缩比必然带来视频质量的损失，如何评定压缩后重建视频的质量长期以来一直是人们所关心的问题。本选题的实际意义主要基于以下情况： 1 ) 在视频的处理中，衡量视频处理算法的优劣需要以处理前后视频的比较为依据，如目前大量使用的视频压缩算法，因此需要对失真( 降质) 视频进行质量评估。 2 ) 经过通信传输后在用户端或终端显示的视频可能会因网络问题存在降质，因此需要质量评估。 3 ) 视频质量评估不仅能用于视频系统中监测视频质量，从而进行质量控制，还可嵌入视频处理系统中为优化算法和参数设置提供依据。 1 3 数字视频及其质量 1 3 1 数字视频数字视频采集就是先用数字摄像机之类的视频捕捉设备，将外界影像的亮度和颜色信息转变为电信号，再记录到储存介质( 如录像带或硬盘) 。播放时，视频信号被转变为帧信息，并以固定的帧速( 如常用的2 4 f p s ，2 5 f p s ，3 0 f p s ) 投影到显示器上，使人类的眼睛认为它是连续不问断地运动着的。为了存储视觉信息，模拟视频信号必须通过数字模拟( d a ) 转换器来转变为数字的“0 或“1 。这个转变过程就是我们所说的视频捕捉( 或采集过程) 。如果要在电视机上观看数字视频，则需要一个从数字到模拟的转换器将二进制信息解码成模拟信号，才能进行播放【l 】。 1 3 1 1 数字视频的采样在普通电视信号c c i r 6 0 1 中，亮度信号的带宽一般是色度信号带宽的两倍。因此其数字化时可采用幅色采样法，即对信号的色差分量的采样率低于对亮度分量 2 1 绪论的采样率。用y ：u ：v 来表示三分量的采样比例，则数字视频的采样格式分别有4 ：1 ：1 、4 ：2 ：2 和4 ：4 ：4 等三种。电视图像既是空间的函数，也是时间的函数，而且又是隔行扫描式，所以其采样方式比扫描仪扫描图像的方式要复杂得多。分量采样时采到的是隔行样本点，要把隔行样本组合成逐行样本，然后进行样本点的量化，到r g b 色彩空间的转换等等，最后才能得到数字视频数据。 1 3 1 2 视频压缩视频压缩的目标是在尽可能保证视觉效果的前提下减少视频数据率。视频压缩比一般指压缩后的数据量与压缩前的数据量之比。由于视频是连续的静态图像，因此其压缩编码算法与静态图像的压缩编码算法有某些共同之处，但是运动的视频还有其自身的特性，因此在压缩时还应考虑其运动特性才能达到高压缩的目标。在视频压缩中常需用到以下的一些基本概念： ( 1 ) 有损和无损压缩：视频无损压缩即压缩前和解压缩后的数据完全一致。多数的无损压缩都采用 r l e 行程编码算法。有损压缩意味着解压缩后的数据与压缩前的数据不一致。在压缩的过程中要丢失一些人眼和人耳所不敏感的信息，而且丢失的信息不可恢复。几乎所有高压缩的算法都采用有损压缩，这样才能达到降低数据率的目标。丢失的数据率与压缩比有关，压缩比越小，丢失的数据越多，解压缩后的图像质量一般越差。此外，某些有损压缩算法采用多次重复压缩的方式，这样还会引起额外的数据丢失。 ( 2 ) 帧内和帧间压缩：帧内( i n t r a f r a m e ) 压缩也称为空间压缩( s p a t i a lc o m p r e s s i o n ) 。当压缩一帧图像时，仅考虑本帧的数据而不考虑相邻帧之间的冗余信息，这实际上与静态图像压缩类似。帧内一般采用有损压缩算法，由于帧内压缩时各个帧之间没有相互关系，所以压缩后的视频数据仍可以以帧为单位进行编辑。帧内压缩一般达不到很高的压缩比。采用帧间( i n t e r f i a m e ) 压缩是基于许多视频或动画的连续前后两帧具有很大的相关性，或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息，根据这一特性，压缩相邻帧之间的冗余量就可以进一步提高压缩量，减小压缩比。帧间压缩也称为时间压缩( t e m p o r a lc o m p r e s s i o n ) ，它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。帧差值( f r a m e d i f f e r e n c i n g ) 算法是一种典型的时间压缩法，它通过比较本帧与相邻帧之间的差异，仅记录本帧与其相邻帧的差值，这样可以大大减少数据量。 ( 3 ) 对称和不对称编码：对称性( s y m m e t r i c ) 是压缩编码的一个关键特征。对称意味着压缩和解压缩 3 基于感知的视频质量评价与视频编解码占用相同的计算处理能力和时间，对称算法适合于实时压缩和传送视频，如视频会议应用就以采用对称的压缩编码算法为好。而在电子出版和其它多媒体应用中，般是把视频预先压缩处理好，然后再播放，因此可以采用不对称( a s y m m e t r i c ) 编码。不对称或非对称意味着压缩时需要花费大量的处理能力和时间，而解压缩时则能较好地实时回放，也即以不同的速度进行压缩和解压缩。一般地说，压缩一段视频的时间比回放( 解压缩) 该视频的时间要多得多。 1 3 2 影响视频质量的因素分析量化是视频压缩的重要组成部分，也是视频的压缩过程中导致恢复视频质量下降的根本原因。但我们必须看到，现有的视频压缩标准采用的预测变换等技术也会导致多种视觉上的失真效应【2 1 。这些失真效应主要有： ( 1 ) 方块效应基于块d c t 压缩算法( 如m p e g - - 2 、h 2 6 3 ) 等编码后，恢复视频的主要失真就是方块效应。方块效应是指图像中编码块边界的不连续性，这种不连续性是由相邻块在编码中相互独立的系数量化过程造成的。块边界不连续的程度反映了方块效应的大小。 ( 2 ) 模糊模糊是指视频内容空间细节的丢失和边缘清晰度的下降，产生模糊的原因主要是高频系数的粗量化。还有在部分编解码标准( 如h 2 6 4 ) 中，为了消除方块效应对方块边界进行滤波也会对产生模糊失真。 ( 3 ) 震荡效应震荡效应是指失真图像中高对比度边缘处的抖动现象，在对比度高的区域较明显，但不会出现在平滑区域。它同样是由于量化特别是高频分量的粗量化引起的，对高频分量的粗量化等同于使用了一个锐截止的低通滤波器对图像数据进行滤波。 ( 4 ) 色彩流失色彩流失是指颜色差别明显的区域内色彩的丢失，由色彩信息高频分量的失真引起。由于进行了色彩亚抽样，这种效应可扩散至整个宏块。 ( 5 ) 蚊噪蚊噪是视频中的一种时域效应，在同一序列各帧的相同区域出现，主要出现在结构平滑的区域。当亮度或色彩信号随高对比度区域的边缘或移动物体不断变化时容易产生蚊噪，主要是由采用了块匹配的位移估值和运动补偿算法引起的。 ( 6 ) 闪烁当视频中景物的纹理很复杂时，相邻图像内对应纹理部分采用不同的量化因 4 绪论子e 绵，彳手红会导致视频中该纹理私分的闪烁。小川的编码万往，将产生小程度的各种视觉火真效应。例如，基块的编码算法产q 的方块j 效应较为f “重，而基丁小波变换的压缩编码，最易引起的视觉火真足模糊竹震荡效应。 14 人类视觉系统( h v s ) 视频通信的最终接收者足人，视频质量的高低最终啦决于人眼的观感受，冈此合理的视频质母评估与法必须符台人眼的视觉特性。可见，研究人眼视觉机制以及与视频通信、图像处理相关的视觉特性，是准确建立视频质量许估模型的牡础。本节将简坚讨论与视频通信密切树必的人类视觉系统( h u m a n v i s u a ls y s t e m ， h v s ) 。 14 1 人眼视觉生理分析 14 】1 人眼生理结构- 廿 p 协i 卜人类对光的感知足依靠视网膜( r e t i n a ) 细胞。c o n e s ( 网锥细胞) 负责感知光度( 较强光研色彩，r o d s ( 轩状细胞1 仅能感知光度，不能感知颜色，但其对光的敏感度是 c o n e s 的一万倍，川以接收到仅由一个光子发h 的微弱信号。在微光环境下r o d s 起主要作用，冈此我们不能在黑暗环境中分辨颜色，人眼的光学结构如图11 所不。视网膜巾的圆锥细胞分种：l 型同锥细胞、m 型圆锥细胞、s 删圆锥细胞，图1 2 显小丁人目e 视刚膜结构。有重叠的频率响应曲线，f h 响应强度有所不同他们分别对蓝( 4 4 0 h m ) 、绿( 5 4 0 n m l 、红( 5 7 0 n m ) 光有最敏感艿同决定了色彩感觉。光谱的重叠是【确分辨色彩的必备条什，凶此到锥细胞对于颜色分辨非常重要。人眼感觉到的光度( 1 u m i n a n c e l 视眦膜细胞接受剑的光强度能量成正比，仉人类对扣同强度不同波k 的光具有不同的敏感度。u r 感知的波长范围3 8 0 n m 7 8 0 n m ，称基于感知的视频质量评价与视频编解码为可见光。其中对绿色( 5 5 0 砌) 光产生最大的光强敏感度1 3 j 。另外，视网膜小凹区域( f o v e a ) 能够提供的视角大约为2 度。因此某一时刻传入大脑的信息只是所观测物体的一个很小区域，大脑对整个受测物体的理解依赖于人眼迅速运动( s a c c a d e ) 所形成的印象，人眼每秒钟一般只有2 3 次聚焦( f i x a t i o n ) 的能力。这就决定了人眼在观看视频时只能注意到一小部分感兴趣区域。 1 4 1 2 光敏感性：人眼能够辨别光十分细微的变化，可接受1 2 种强度层次的光，是因为人眼具有对光强的自适应特性。视网膜上的光敏感细胞以及视神经元都有自动适应光强 l o ga d a p t i n gl u m i n a n c e 图1 3 对比度门限随背景亮度的变化 h v s 的响应主要依赖于激励相对于背景区域的变化，而不是激励的绝对光强，这种性质称为w e b e r - f e c h n e r 定律。亮度的相对变化通常用对比度进行衡量，目前有多个对比度的定义形式，其中最常用的是w e b e r 对比度。w e b e r 对比度定义为：一w 战乙 = 三这一定义能够反映亮度为l 的均匀背景上具有较小亮度变化址的情况。对比度门限是指人眼能观察到的最小亮度变化的对比度，图1 3 给出了对比度门限随背景亮度变化的曲线。可以看到由于人眼的自适应能力，在人眼可感知的光强范围内，对比度门限几乎维持为常数。对比敏感度定义为对比度门限的倒数。 1 4 1 3 颜色感知色彩可由光的频谱确定，但人眼并不是对所有频谱的光都有反应。h e r i n g 发现某两种颜色的光可以共存并作为一种新的色彩被感知，而某两种颜色的光却不能。如果两种不同颜色的光不能被感知为一种色彩，则这两种光称为对立色( 或对立光) ，如红和绿，黄和蓝。人们推测对立色是在不同的视觉通路中被传递的。对立色降低了色彩之间的联系，视频图像处理中已经广泛地利用了这一特性。现在 6 1 绪论发现的有三对主要的对立色：黑和白，红和绿，蓝和黄。 1 4 1 4 掩盖效应掩盖是视觉系统的一个重要特性，在图像处理过程中，特别是在描述视觉激励的相互作用时起着非常重要的作用。当一种激励的存在使得另一种激励不可见时，就产生了掩盖效应。掩盖效应可以分为空间掩盖和时间掩盖。占钧遑 c m o 幻gc m 图1 4 掩盖效应曲线图可以通过测量激励光的门限值随掩盖背景对比度的变化情况，量化空间掩盖效应 3 】。在图1 4 中，横轴表示掩盖背景的对比度c m 的对数值，纵轴表示激励光在可见门限值处对比度g 的对数值。g 表示没有任何背景掩盖时目标激励的可见门限值。当掩盖背景的对比度大于c 吖。时，目标激励的可见门限值随掩盖背景对比度的增大而增大。当掩盖背景的对比度接近c w 。时，从图1 4 中可以看到目标激励的可见门限变化有a 和b 两种情况。a 情况通常对应掩盖背景与目标激励有不同的特性；而在b 情况中，当对比度接近c m 。时，目标的可见门限反而降低，说明在这个对比度区间内，由于另一种光的存在，目标变得更加明显，这种情况被称作助长，主要在目标和掩盖激励有非常接近的性质时才会发生。激励在时域内的不连续引起可视门限值的升高称为时域掩盖，如视频整幅场景黑白变化时，激励可见门限值的升高会持续万分之几秒。研究发现，m p e g 2 视频中场景切换后的第一帧图像会出现十分明显的掩盖效应。另外，时域掩盖效 7 基于感知的视频质量评价与视频编解码应不但出现在激励的时域不连续之后，也可能发生在激励的时域不连续之前，如视频中场景切换前的最后一帧图像也会出现较明显的掩盖效应。 1 4 1 5 多通道特性实验表明，和主视觉皮层中的大部分神经元与特定的视觉信息相关联，如色彩、频率、方向等。对于模式分辨、掩盖效应等视觉特性进行的实验进一步证明了不同类型的光激励是在视觉系统的不同通路中进行处理的，这些实验促使了人类视觉多通道理论的产生【3 1 。多通道机制分为空域多通道和时域多通道。人们通过对空域多通道的研究，发现主视觉皮层中的大部分神经细胞的接受场有类似g a b o r 型的分布，因此它们可以用特定空间频率、方向的带通滤波器来表示。人们对时域多通道机制也进行了很多研究，但仍然知之甚少。最初的研究结果认为时域通道存在很多非常复杂的机制，近期的研究结果认为时域通道至少存在一个低通机制和一个带通机制，称之为固定通道和暂时通道，己有学者通过用一个固定通道和一个暂时通道解释了很多实验数据。 1 4 2 人眼视觉心理分析视觉过程除了包括基于生理基础的一些物理过程之外，还有人的许多先验知识在起作用，我们把这些先验知识归结为视觉的心理学知识。心理学家g e s t a l t 将视觉的一些心理现象总结成以下规律【4 】：相似律：具有相同或相近特性( 如亮度、颜色、形状、大小等) 的小块常被联想成同一类物体对应的区域。接近律：相互接近的小块常被看成属于一个物体。光顺律：多条相交的曲线中，两段连接光线的曲线被看成一条曲线。闭合律：封闭的图形往往被看成一个单元。相同运动律：同一速度移动的点集常常被看成连通的一个单元。对称律：对称的图形被看成连通域的两边。简化律：人们喜欢用尽量简单的模式去解释所看到的图形。上述规律人们常常不由自主加以运用，而且每次只发生一种情况，违反这些规律的图形很难使人看清它是什么。人们这种视觉上的组合起到一个十分可贵的作用，没有它，人们无法从复杂的图像中分离出同一物体。人们根据这些原理设计出各种图形分割算法，把散布的图像数据划分为不同的区域或抽取出轮廓线，这是完成视觉低层处理过渡到中层表达的重要基础。尽管如此，由于这些视觉心理学过程非常复杂，难以用物理模型或数学模型表述，在目前的图像和视频质量评价中并未得到广泛的应用。 8 1 绪论 1 5 论文结构与组织本文共分为五章，各章的内容安排如下：第一章简要介绍视频质量评价的应用背景及含义，研究方法的分类和本文的研究角度，简要介绍影响视频质量的因素和人眼视觉特性( h v s ) 。第二章视频质量评价方法综述。并介绍主观和客观视频质量评价方法的发展历史及研究现状，重点讨论几种有代表性的客观视频质量评价方法，以及介绍 v q e g 关于各种客观质量评价方法效果的标准化评价方法。第三章重点介绍基于结构失真的全参考视频质量评价s s i m 方法，讨论了感兴趣区域自动提取算法，提出基于感兴趣区域的视频质量评价方法。研究了视频场景、噪声等因素对视频主观和客观质量的不同影响，并根据这些特性对s s i m 方法进行了改进。第四章结合第三章的研究成果，结合h v s 和感兴趣区域对h 2 6 4 视频编码算法进行改进，在基本不影响视频主观质量的情况下，大幅提高h 2 6 4 编码器的压缩效率。第五章总结与展望。对本文的工作进行总结，并探讨今后可以深入进行研究的方向。最后是致谢和就读硕士期间参加的科研项目和发表论文目录。本文所有测试视频来自于v q e g 第一阶段f r - t v 标准测试视频。 h t t p ：w w w v q e g o r g 。 9 基于感知的视频质量评价与视频编解码 2 视频质量评价方法概述 2 1 引言数字视频数据在采集、压缩、处理、传输、恢复过程中会产生各种各样的失真，如有损视频压缩技术，为降低数据在存储和传输过程中所占带宽，会在量化过程中降低视频质量；在误码信道( 如无线信道) 传输中，信道误码和数据丢失会增加解码后视频的失真；在包交换网络( 如因特网) 传输中，网络拥塞造成接收数据丢失和过大时延，又会增加失真。在大多数应用中，端到端的视频质量是衡量系统性能优劣的一个关键指标，视频服务系统必须能及时把握并量化视频质量下降的情况，并通过必要的手段来维持和增强。因此，找到一种有效的评价方法度量视频质量至关重要。图像质量的评价既可采用主观感觉评价法，也可采用客观评定法。主观评定法来自观察者对图像质量的主观评定，可以很好的反映视频的质量，但主观评定法既复杂又费时且经济成本高。客观评定法借助电子设备完成，可给出基于数值算法的结果，具有可重复性，易操作，但并不能完全如实反映人的视觉系统对图像的评价。国际电信联盟所属的视频质量专家组( v i d e oq u a l i t ye x p e r t sg r o u p ，v q e g ) 提出了3 类视频质量测试法，即全参考、部分参考和无参考数据的视频客观质量度量【5 1 。其中，部分参考数据的方法只需用到部分源视频序列信息，其核心思想是特征提取法，测量结果与主观评价数据有较强相关性，且容易实现视频质量的不停播监测，因此在网络视频系统的设计、运行和维护中有着重要的实用价值。 2 2 主观视频质量评价方法视频质量主观评价凭感知者主观感受评价视频对象的质量，包括视觉信息的录入系统，即人眼成像系统：视频信息处理系统，即人脑对视觉信息的加工。成像系统与信息处理系统两部分互相结合，对视频评价的结果产生显著的影响，目前尚没有合适的数学模型对其进行精确的刻画。主观质量评价一般采用连续双激励质量度量法( d o u b l es t i m u l u sc o n t i n u o u s q u a l i t ys c a l e ，d s c q s ) t 6 1 ，对任一观测者连续给出原始视频图像和处理过的失真图像，由观测者根据主观感知给出分值。i t u t 已经发布相关标准b t - 5 1 0 ，就主观质量评价过程中的测试序列、人员、距离以及环境做了详细规定，并综合考虑了影响视觉感知的分辨率、白平衡等因素【7 1 。中国国标g b 7 4 0 1 8 7 中对有线电视广播系统图像质量评价进行了规定，给出了电视图像主观质量的5 级打分标准，并对伴音图像的质量评价进行了规定【8 】。主观质量评价方法需针对多个视频对象进行 l o 2 视频质量评价方法概述多次重复实验，耗时多、费用高，难以操作。有学者就主观质量评价体系的组成环节进行改进研究。r i c h a r d s o n 通过在主观评价过程中引入测试者反馈信息来加快主观质量评价过程【9 1 。在主观质量评价过程中，给每个测试者连续的视频剪辑和一个输入控制设备，通过一个显示滑块实现与视频播放的交互。该方法不必中断视频剪辑，节省了测试时间及成本。就测试人员而言，主观质量评价原则上要求由不具有先验经验的非评价专家对待测对象打分，但观测者看到相同图像以后，实际上已经对同一个图像及相关的失真图像都建立了部分的先验信息。相对于主观质量评价，客观质量评价具有操作简单、成本低、易于实现特点，它已经成为视频图像质量评价研究的重点，这也是本文综述的重点。在实际视频通信中，更倾向于主观评价方法与客观评价方法的结合，如利用主观评价结果对客观质量评价模型结果进行校正。 2 3 客观视频质量评价方法 ” 客观质量评价方法可分为三类【3 】：全参考质量评价( f u l l r e f e r e n c eq a ) 、无参考质量评价( n o r e f e r e n c eq a ) 、弱参考质量评价( r e d u c e d r e f e r e n c eq a ) 。在全参考质量评价方法中，需要将评价的失真视频与参考视频进行比较得到评价结果，而理想的参考视频通常来自高质量的采集系统。无参考质量评价需要在不借助任何参考视频的前提下，对失真视频质量进行评估。在弱参考质量评价方法中，可以得到部分关于参考视频的特征信息，然后就通过这些部分信息完成失真视频的质量评估。 2 3 1p s n r m s e 法最简单的客观评价方法就是均方误差( m s e ) 和峰值信噪比( p s n r ) 法。 m s e 和p s n r 运算简便，物理含义明确，目前的应用也最为广泛。其表达式如下 mn 慨厂己，。) 2 脚= 堡生坚l m n ( 2 一1 ) 删：1 0 l g 丝( 2 2 ) 。m s e 、7 但是m s e 有以下几个严重缺陷无法解决【1 0 】： 1 ) m s e 中的像素取值，无法准确表示进入人眼的光线刺激； 2 ) 主观上对不同内容的不同失真现象有不同的反应，而这种反应的不同在 m s e 的计算中无法被准确的区分出来； 3 ) 同样强度的干扰信号叠加在不同的源视频上会产生不同类型的失真；基于感知的视频质量评价与视频编解码 4 ) m s e 中时误著进行简单的累加方式。l 主观判断图像损伤的方式有显著不同。如图2 1 中是l e n a 幽和几种不h 的失真图的对比，这几幅失真 ! | 的m s e 值都是十廿世一1，n _ i | i 带叫r 毋皇厶下二叩帚舵吁t 7 v q e ，p s 专寸竹五罡川 c ) ，1 i 。r ，、 2 25( 【lm s t2 21 图2 1l e n a 图和几种不同的失真图的对比 232 基于h v s 生理特征的视频质量客观评价方法 2321 h v s 生理特征基j 二m s e 和p s n r 的问题，视频质晕评价过程中需要结合h v s 生理特征米提高卡、客观质量评价方法的相芙性。h v s 主要的生理特征如下： 1 ) h v s 能进行色彩空n q 变换。视网膜中的l 型、m 型和s 型圆锥视神经细胞 2 视频质量评价方法概述将映射到视网膜上的图像分解成3 个视频流，并对应着不同波长的光，可以理解为r g b 三色分量。 2 ) 人眼光学系统将视觉激励聚集在视网膜上时对图像进行了模糊化，这可以通过一个点扩散函数( p o i n ts p r e a df u n c t i o n p s f ) f f ；以描述【1 2 l 。 3 ) 视网膜上的感光细胞分布不均衡，在视网膜凹点处密度大，致使人眼观看事物是以不同的分辨率进行的。l e e 等1 3 1 提出将视网膜成像看作生物凹陷过滤过程，并设计小凹评价模型进行质量评价。 4 ) 人眼具有感光自适应性。视网膜通过对视觉激励的对比度而不是光强的绝对值进行处理，使人眼具有从暗到亮的快速自动调节功能，w e b e r 定理就反映了这一点。 5 ) 对比度灵敏度函数( c o n t r a s ts e n s i t i v ef u n c t i o n ，c s f ) 。人眼与对比度的敏感度与激励的颜色、空间和时间频率有关。c s f 一般定义为对比度门限的倒数。 6 ) 人眼具有多通道特性。视觉皮层神经元相当于一组有方向的带通滤波器，它对中心值附近一定区域的空间频率和方向做出响应。 7 ) 人眼视觉具有掩蔽效应。当掩蔽信号和原始信号有相同的频率内容和方向时，掩蔽效应最强。 8 ) 整合效应。人脑可以将独立的多通道视觉机制聚合起来，具体的机理尚不清楚。 2 3 2 2 客观评价方法j 。基于h v s 生理特征的客观评价方法可以用基于感知误差的统一模型来描述，客观评价过程的框图如图2 2 所示。图2 - 2 基于h v s 生理特征的客观评价过程预处理环节处理数据排列、色彩空间转化、p s f 滤波和d p a 显示操作；c s f 环节中一般采用线性滤波逼近c s f 的频率响应或通过调整多通道分解的权值模拟 c s f 的响应；多通道分解将视觉激励分解成不同的空域和时域子带，常采用小波变基于感知的视频质量评价与视频编解码换或d c t 进行操作；误差掩蔽环节中采用增益控制并通过对每个通道内的误差信号与空域视觉门限比较来衡量掩蔽效应；误差整合环节联合不同通道中的误差对视频质量损失给出一个确切数值，一般采用m i n k o w s k i 原则对不同通道的视频失真进行非线性合并，即e = ( le t 。i 声) 声，其中，e i ，k 为第1 个通道的第k 个系数，1 3 ，七为一个常数值。目前已有多种基于h v s 生理特征的质量客观评价方法：t a n 等建立了感知模拟器模拟人眼时域的平滑效应和掩蔽效应，分析了人眼的不对称评价方式，即相对图像质量从差到好变化，人眼更易于发现从好到差的图像质量的变化【1 4 】；块效应检测联合掩蔽模型进行质量评价能给出质量客观评价值，它也可用于衡量视频块效应的严重程度【1 5 】；文献【1 6 。1 7 】通过对c s f 增加时间维分量使原始视频产生了2 个对应不同时域属性的视频流，这2 个视频流模拟h v s 对静止态和稳定运动态的视频质量处理机制，通过提取运动信息对m p q m ( m q o t i o np i c t u r eq u a l i t ym e t r i c ) 进行了扩展； w i n k l e 对色彩变换后的通道应用质量评价矩阵，利用i i r 滤波器产生2 个视频流，同时空域上分解成5 个子带和4 个方向，各通道按c s f 值进行加权【1 8 】；马苗等利用灰色系统理论中的灰色关联分析( g r e yr e l a t i o n a la n a l y s i s ，g r a ) 的整体比较机制和小波变换的多尺度分辨率匹配于h v s 的多信道模型，通过小波域系数之间的灰色关联度，利用小波系数的关联进行图像质量评价，但该方法的评判结果只具有相对意义【1 9 】；y u 等将w i n k l e 的感知矩阵推广到可感知块损失的矩阵模型，模型参数可以通过最小化视频的预测质量与v q e g 主观测试结果的差得到【2 们。 h v s 是一个高度复杂和非线性的系统，当前对其的认知仍然有限。文献【9 以5 】中的方法都基于一定的假设前提，但存在如下问题： 1 ) 基于h v s 生理特征的方法一般都认为原始图像质量是完美的且w e b e r 定律和p s f 模型始终成立。 2 ) 一般假定h v s 的多通道响应可以通过线性离散集合来模拟。 3 ) 一般假定通道分解是无损或无损于视觉的，变换后仍保持了质量评价的绝大部分信息。 4 ) 一般认为通道分解剔除了图像间的关联，通道变换的作用可以通过掩蔽模型来模拟。 5 ) h v s 的评价值可以通过测试误差的非线性组合来模拟，但目前大多采用线性加权组合。自然图像相当复杂，仅利用一些简单有限的通道组合提供质量评价无疑是存在差距的。还有其他一些基于h v s 某一特征进行视频质量评价的方法：i n a z u m i 等提出了种考虑视频质量随时间变化时的评价方法【2 l 】，该方法基于人脑短时的记忆存贮 1 4 2 视频质量评价方法概述效应，整个视频的质量通过各个帧的质量加权来评价，视频质量的时变因素作为加权函数考虑。最佳加权函数利用遗传算法最小化评价误差获取，该方法对单帧质量评价时采用主元分析( p r i n c i p a lc o m p o n e n ta n a l y s i s ，p c a ) 提取失真特征和纹理特征，并利用多回归分析得到单帧质量评价模型，能较好地反映时变的特征；但是其计算量相当大，对h v s 生理特征的利用较少。o n g 等利用边缘损失、块效应程度和振铃噪声3 个参量进行质量评价【2 2 1 ，但它仅利用了视频流的时域特征且主要针对低码率的视频流。w a n g 等提出了3 层噪声加权模型：将图像结构分为噪声层、纹理层和目标层，每一层采用m s e 和p s n r 来度量图像质量，但是在每一层都使用了考虑人眼视觉感知的加权函数，最后通过3 层的测量值加权确定最后的质量【2 3 1 。文献【2 4 】利用人工智能的方法，如通过建立模糊推理模型解决质量评价问题，模型输入量为视觉掩蔽误差、模糊失真和对比度失真3 个量，输出量为视频质量评测值；推理规则通过神经网络训练学习得到，但该方法运算复杂，只能用于离线评估。目前尚未确立一个标准的视频质量客观评价模型，各评价方案仍在争论之中【2 5 1 。但是，在视频质量评价中引入h v s 这一点已经被多数学者所接受。由于还没有建立起精确、统一的数学模型，在一定程度上影响了视频质量评价的准确性。 2 3 3 基于结构失真的视频质量客观评价方法 h v s 是复杂的非线性系统，感知误差模型方法涉及的模型大都基于线性系统，这些模型的激励简单且存在多种限制。感知误差模型方法进行视频质量的客观评价建立在很多假设之上，第3 2 节提到了基于这些假设所带来的问题。自然图像信号具有特定的结构，像素点之间带有很强的从属关系，这些从属关系包含了视觉场景中大量重要的结构信息。由此，z w a n g 提出了一种新的视频质量客观评价方法：基于结构失真的图像和视频质量评价方法一结构相似( s t r u c t u r a ls i m i l a r i t y ， s s l

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于感知的视频质量评价与视频编解码.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于感知的视频质量评价与视频编解码.pdf

文档简介

温馨提示

最新文档

评论

相关文档