




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(项目管理)项目基于视觉特性的视频编码理论与方法研究项目名称:,基于视觉特性的视频编码理论与方法研究首席科学家:,高文北京大学起止年限:,2009.1至2013.8依托部门:,教育部一、研究内容由于可以有效节省通信带宽和存储容量,高效率的视频编码技术已经成为感谢阅读数字视频广播(广播网)、数字媒体存储与网络传输(计算机网络)、以及多媒体感谢阅读通讯(通信网)等数字媒体产业的共性关键技术。特别是近年来,我国的数字媒谢谢阅读体产业迅猛发展,年均产值已近万亿元,使得音视频编解码标准技术的地位越感谢阅读来越重要。经过多年努力,2006年中国终于有了自己的视频编码国家标准感谢阅读AVS。但我们仍需未雨绸缪,从模型、理论、方法和技术上为下一代视频编码国谢谢阅读家标准和国际标准的制定早做准备,确保在下一轮的标准竞争中立于不败之精品文档放心下载地。从视频编码的需求角度看,编码的主要动机是在尽量保证高质量视觉效果精品文档放心下载的前提下最大限度地降低码率,达到压缩的目的。众所周知,人类视觉系统的精品文档放心下载信息处理能力远远超过目前的视频处理系统,因此,从方法论上借鉴人类视觉谢谢阅读系统的视觉信息处理基本神经机制和心理机理,构建统一的图像/视频基本结构精品文档放心下载与表示模型及其相应的视觉计算方法,发展将香农信息论与人类视觉系统信息谢谢阅读处理原理相结合的高效视觉信息编码理论与方法,就成为了本项目的基本出发谢谢阅读点和立项依据。视频编码处理的核心环节要对视频中包含的视觉信息进行高效的表达和准精品文档放心下载确的重建,其本质是视觉信息的基本结构和有效表示问题。为此,我们需要探谢谢阅读讨以下关键科学问题:(1)视频编码可以借鉴的视觉信息处理机理是什么?(2)作为长期进化的结果,人类视觉信息处理系统是至为精致的生物系统之精品文档放心下载一。但遗憾的是,其基本神经机制、知觉和认知机理目前尚不完全清精品文档放心下载晰。本项目将从多学科交叉的角度出发,探索视觉信息处理的基本神经谢谢阅读机制和认知机理,研究相应的理论和模型,对其进行实验验证与计算仿精品文档放心下载真,以期能够用以指导建立更加有效的视觉计算模型。(3)视频编码可以利用的符合视觉信息处理机理的计算模型是什么?精品文档放心下载(4)尽管人类视觉系统的信息处理机理尚不完全明了,但随着技术手段的提精品文档放心下载高,脑科学、神经科学和认知心理学专家已经掌握了越来越多的规律并感谢阅读提出了很多假说和模型。如何基于这些发现构建相应的、可计算的视觉感谢阅读信息处理数学模型就成为一个重要的基础科学问题。其解决不仅可以有谢谢阅读效促进视觉编码技术的发展,还可以从计算模拟的角度反过来推动视觉谢谢阅读基本机理的研究。(5)与人类视觉系统特性相吻合的视频表示及编码的理论是什么?精品文档放心下载(6)香农信息论虽然从理论上给出了编码效率的上界和失真的关系,但并未谢谢阅读考虑编码的符号(事件)集,因而对视频中高阶相关缺乏有效的描述手感谢阅读段。视觉信息论试图借鉴神经生理学在不同感知阶段对感知对象的抽谢谢阅读象,建立对应的符号(事件)集,使之能够方便地描述高阶相关性,体现谢谢阅读语义结构,从而丰富信息论理论。符号(事件)是借鉴稀疏编码理论通过精品文档放心下载采用贝叶斯计算视觉感知的后验概率建立的。这将为高效视频编码提供感谢阅读指导性的理论基础。上述三个关键科学问题紧紧围绕视觉信息处理系统中最核心的表示与编码问感谢阅读题,分别从生理/心理基本机理、视觉信息处理计算模型、视频编码基础理论三谢谢阅读个层面展开。其中,视觉基本机理既是基本出发点也是落脚点,计算模型是桥感谢阅读梁和纽带,视觉信息论则是设计和实现下一代视频编码方法和技术的理论基谢谢阅读础。围绕上述三个关键科学问题,我们提出的总体研究内容框架如图2所示,感谢阅读以期建立解决这些问题的模型、理论和方法,构建相应的验证平台和原型系精品文档放心下载统。如图所示,对应三个关键科学问题,本项目的主要研究内容自底向上分别感谢阅读建立在三个层面,即:机理与模型层,理论与方法层,关键技术与验证层。下精品文档放心下载面我们分别从这三个层面对本项目的主要研究内容进行阐述。感谢阅读2.1视觉基本机理与模型层该层面的研究内容面向的科学问题主要是前两个:视觉信息处理的基本机谢谢阅读理和符合这些基本机理的计算模型。不难理解,二者有天然的紧密联系:一方谢谢阅读面,视觉信息处理基本机理为视觉信息处理的计算仿真、计算模型建立等提供精品文档放心下载了良好的生理学和心理学参照系,对其基本规律的认识为计算模型的建立提供精品文档放心下载了良好的技术可能性和努力方向。另一方面,计算模型也为基本机理的正确性精品文档放心下载和模型的有效性提供了验证机会,有利于推动视觉基本机理的研究。下面分别感谢阅读叙述本项目在视觉基本机理和计算模型方面拟开展的研究。精品文档放心下载2.1.1视觉信息处理基本机理研究在视知觉机理方面,将主要从生理、心理角度,通过神经电生理学、视觉感谢阅读行为学、药物学等研究手段,在灵长类动物上采用包括微电极矩阵记录方法、谢谢阅读高时间分辨率的事件相关电位(ERP)、功能核磁共振(fMRI)等技术手段从初级视谢谢阅读觉皮层V1神经元群体反应特性入手,研究V1神经元经典和非经典感受野与上谢谢阅读级视觉皮层区域神经元正向和反向联系、V1神经元之间的横向联系,以及视觉精品文档放心下载学习过程中神经元群视觉编码模式的变化特性,探索初级和高级皮层中的神经谢谢阅读元群在视觉处理中对简单和复杂视觉刺激的编码模式以及动态反应模式,各级感谢阅读皮层神经元群对不同视觉模式识别的贡献,考察视觉注意和知觉组织之间相互感谢阅读影响和交互作用,以验证或改进现有假说或理论模型(如稀疏编码、群组编码、精品文档放心下载视觉注意、增量成组假说等),乃至提出有关视觉模式识别的神经机制及编码机精品文档放心下载理的新假说、新模型,为后续的计算模型的研究提供神经机制和心理机理方面感谢阅读的基础。图3给出了本项目在视知觉基本机理方面拟开展的主要研究内容,涉精品文档放心下载及的主要关键问题,机理模型/假说,以及拟采用的技术手段。感谢阅读视知觉基本机理的研究成果为实现人工视觉提供了一条可行的道路,利用谢谢阅读基本视觉机理如稀疏编码、群组编码、增量成组等,根据人类视觉系统在平感谢阅读移、旋转、尺度下的不变性以及对数据缺失、噪声等问题的自适应性,从计算感谢阅读仿真的角度研究相应的视觉信息处理计算结构,探讨视知觉的计算机理,建立谢谢阅读相应的表示和计算模型。我们将在这一框架下研究包括视觉信息的稀疏表示、初级视觉皮层(V1区)精品文档放心下载、V2区、V4区和IT区的各个层次、不同复杂度下特征形成的计算模型和实现感谢阅读算法。具体研究内容包括:在视皮层网络结构第一层上研究视觉信息稀疏表示感谢阅读的机器学习算法、超完备表示对实现鲁棒图像编码的作用以及基于超完备表示精品文档放心下载的特征提取方法等。在第二网络层次上将研究视觉特征成组(FeatureGrouping)谢谢阅读机理以及神经网络拓扑结构和学习算法。在皮层型网络的第三层上则研究整体精品文档放心下载特征形成机理及计算模拟算法,在最高层则研究基于整体特征的物体识别模型谢谢阅读与算法。2.1.2面向视频编码的视觉计算模型研究在上述视知觉机理研究基础上,我们将从功能模拟的角度,采用统计学习谢谢阅读方法,研究从图像和视频中学习与视觉感知相对应的视觉信息表示基本粒子结精品文档放心下载构,建立形式化数学描述的有关理论和方法。特别要重点研究稀疏编码、增量感谢阅读成组和视觉注意机制所遵循的基本规律及其可能的计算模型,进而建立与视觉感谢阅读信息处理相关的统计模型和计算方法。在本项目的研究中,我们将基于静态要素图模型,提出一个针对视觉运动的、精品文档放心下载统一的视觉表示模型——时空要素图(SpatialTemporalprImalskeTChgraph—感谢阅读STITCH)系统。该系统包含了运动图像序列中每一帧的要素图表示。这些要素图精品文档放心下载比以往从静态图像中所获得的要素图显示出更强的语义信息。这些语义信息主谢谢阅读要来源于运动所提供的丰富线索——考虑到运动的时空相关性以及整体运动的精品文档放心下载一致性(coherence),我们可以对每帧静态要素图做进一步的分析处理,如层次精品文档放心下载化连接不同粒度的基元和模式等。图与图之间元素的对应关系表示了这些元素谢谢阅读在时间上的动态对应关系。此外,STITCH系统还包括驱使这些要素图产生变化精品文档放心下载的动力学模型,如:要素图或其子图的运动、几何变形、以及拓扑结构的变化精品文档放心下载模型等。我们认为时空要素图模型是对运动图像序列的一种内在本质表示,它感谢阅读将为编码提供稀疏、高效的表示,从而有望使得新一代编码技术获得本质性的精品文档放心下载飞跃。本项目将通过提出上述针对视频信息的“时空要素图”表示模型和计算方谢谢阅读法,研究将视频分解为层次化基元结构的可行性,探讨视频表示及编码的基本精品文档放心下载数学模型问题,进而探索视频的内在基本结构,为后续的“视知觉熵、“视觉谢谢阅读信息论、基于视觉特性的高效视频压缩、多维度可伸缩编码、分布式多视点编谢谢阅读码和面向智能监控的视频编码等研究内容提供基础性的视觉表示和计算模型。谢谢阅读在视觉注意计算方面,项目将基于前面讨论的STITCH表示,研究视频的注精品文档放心下载意选择计算模型。将视频分解成基元结构后,根据视觉机理中的“中心-环绕”感谢阅读机制,视频中的注意区域可定义为运动基元的时空特征拐点,如飞翔的小鸟、精品文档放心下载飘落的雪花可能会因其空间特征与周围区域有显著差异而显著性高,而快速行感谢阅读走的人突然停下来可能会引起运动特征与周围(时间轴)有变化而被关注。精品文档放心下载显著性可以用特征与中心/环绕类别标记之间的互信息来描述,特征与类别感谢阅读标记关联越紧密,该特征越能将中心和环绕区域分离开,即中心与环绕区域之精品文档放心下载间的特征分布差异越大,则显著性越高这种定义在运动基元上的显著性与现有的基于低级特征(如颜色、亮度、方感谢阅读向和光流)的显著性相比更加符合人类的视觉特性,可以为后续基于注意的视频感谢阅读编码和内容监控提供更多信息。2.2视频编码理论与方法层上述视觉基本机理与模型层研究的核心内容是视觉信息的有效表示问题,精品文档放心下载而视频编码的根本目标则是要使用尽可能少的比特来编码表达原始视频中包含精品文档放心下载的视觉信息,因此,上述基本机理和数学模型恰可以利用以进行高效的视频编感谢阅读码,而且这为突破现有技术框架提出了新思路,即基于视觉特性的高效视频编感谢阅读码理论。从视频编码领域自身技术发展趋势来看,除了提高编码效率这一核心目标之谢谢阅读外,也需要在其他角度上发展。首先,需要适应不同的传输带宽、存储和检索谢谢阅读目的,实现多个维度上的可伸缩编码。传统的可伸缩编码重点在时间、空间和感谢阅读质量上进行伸缩,我们则提出了更多的维度,包括注意可伸缩、动态范围可伸感谢阅读缩等。其次,分布式系统、立体视系统(尤其是三维电视)等应用需求越来越强谢谢阅读烈,因此也特别有必要针对这类多视频源编码问题进行探讨,即所谓分布式多精品文档放心下载视点编码。最后,在视频监控领域,对智能视频监控的需求日益强烈。目前的谢谢阅读监控系统均直接采用面向广播或通信业务的视频编码方法,而没有针对监控任精品文档放心下载务本身进行特殊的编码,因此编码和后端的智能分析功能是割裂开的。为此本感谢阅读项目提出一种新的解决思路,试图将二者更加紧密地联系起来,即在前端编码精品文档放心下载阶段就尽量多地考虑后端的智能分析需求。在视频编码理论与方法层面,我们将重点开展四个方面的研究,即:基于谢谢阅读视觉模型的高效视频编码理论、多维度可伸缩编码方法、分布式多视点视频编谢谢阅读码方法和面向智能监控的视频编码方法。它们之间的关系如表1所示:谢谢阅读表1编码理论与方法主要研究内容之间的关系编码方法,涉及的机理与计算模型,主要的理论与方法,主要应用领域感谢阅读基于视觉模型的高效视频编码,视知觉机理,特别是稀疏编码理论,视觉计算模型,特别是感谢阅读局部视觉(基元)模型,视觉信息论,视觉要素编码方法,局部视觉模型参数编码,高清、谢谢阅读超高清视频广播,视频存储多维度可伸缩编码,视觉注意机理,图像/视频显著性计算模型,可伸缩编码理论,注意区域精品文档放心下载编码方法,流媒体服务,可伸缩质量服务分布式多视点视频编码,分布式信源相关模型,深度视觉计算模型,分布式编码理论,精品文档放心下载Wyner-Ziv编码,多视点视频,3D电视面向智能监控的视频编码,群组编码机理,对象检测与识别模型,视觉注意机理,面向对象精品文档放心下载编码方法,智能视频分析与编码,索引编码,智能视频监控,视频检索感谢阅读四个主要研究内容各自具体描述如下:2.2.1基于视觉模型的高效视频编码理论结合视知觉机理和视觉计算模型,研究符合人类视知觉机理的视频压缩理论精品文档放心下载与方法。本部分研究内容将从基础理论、算法与框架以及应用三个方面开展。感谢阅读在基础理论方面,研究基于视知觉熵的视觉信息论,探讨视知觉机理中给出谢谢阅读的视觉基本组成单元与视觉信息论中基本信源符号的关系,定义合理的基本信谢谢阅读源符号,进而提出视知觉熵的概念;研究视知觉熵的测度和数量化方法,特别精品文档放心下载是视知觉熵的动态测度特性,探索鲁棒、易行的视知觉质量评价方法,及其基谢谢阅读于视知觉熵的率失真理论,进而提出视觉信息论,为基于视知觉的视频压缩提谢谢阅读供理论依据。在算法及系统方面,以视觉信息论为指导,研究基于视知觉的视频压缩算法感谢阅读及系统,设计理论上最优的压缩系统,寻找基于视知觉率失真理论的系统优化感谢阅读方法。具体而言,就是从人的视觉特性出发,对视频内容进行分析,从中提取谢谢阅读出视频的关键特征,如边缘、纹理、运动等人眼所关注的局部特征,探索针对精品文档放心下载这些局部特征的参数化算法、根据局部特征参数的视觉掩蔽模型的动态调整方精品文档放心下载法、以及相应的量化算法和编码算法,建立空域、时域、局部特征的相关性模谢谢阅读型。在这里如何进行局部特征的提取,以及利用这些局部特征对视觉模型的调谢谢阅读整与具体编码模块间的联系成为整个编码系统的关键问题,因此,找出这些特谢谢阅读征的规律,并用其指导压缩成为提高压缩效率的关键,为此项目研究还将对基精品文档放心下载于模型的图像/视频局部特征提取进行深入研究,从而可以通过学习训练适应性感谢阅读地进行特征提取与编码。在应用方面,我们拟研究基于视觉的动画压缩和基于视觉的超高清视频编码精品文档放心下载以及超分辨率视频编码。动画本身的产生机制非常有利于采用基于视觉的编码谢谢阅读方法,和自然视频相比,动画一般有着较明显的边缘特征、纹理特征、或色彩感谢阅读一致的区域,运动模型也相对较容易建立,因此我们拟结合动画制作的基本原精品文档放心下载理,对基于视觉特征的动画编码进行研究,搭建基于视觉的动画压缩系统,提高感谢阅读动画的压缩效率,为推动基于视觉的视频压缩应用迈出关键的一步。谢谢阅读对于超高清分辨率视频,目前的压缩效率还难以满足应用需求,本项目拟研感谢阅读究基于视觉的超分辨率视频编码技术,提高超高清视频的编码效率。我们拟在感谢阅读原始分辨率视频上提取边缘、纹理等视觉特征并进行编码,然后对原始分辨率感谢阅读视频进行下采样编码,在解码端通过超分辨率插值技术重构高分辨率视频。精品文档放心下载随着硬件技术的快速发展,高分辨率的逐行显示设备越来越普及,但在许多感谢阅读应用场合由于历史的原因隔行视频还将长期存在一段时间,对此我们拟研究基精品文档放心下载于超分辨率技术的去隔行效应研究,实现低分辨率、低帧率的隔行视频到高分精品文档放心下载辨率、高帧率的视频转换,取得更好的主观效果。2.2.2多维度可伸缩编码方法对此问题将从理论层和算法层分别展开。理论部分主要结合香农传统信息精品文档放心下载论和视觉信息论,根据视知觉熵的定义、测度及相关率失真理论,探求可伸缩精品文档放心下载编码的视知觉率失真曲线,及其与传统率失真曲线的关系。在此理论研究基础谢谢阅读上我们将探索基于视觉信息论的SVC编码框架及算法。通过在传统三维SVC框精品文档放心下载架上引入注意度,进一步提高SVC编码的性能;引入针对高动态范围视频输入感谢阅读的动态范围这一自由度,支持高动态范围图像的编码显示。精品文档放心下载对于这一问题重点研究注意模型的建立及基于注意模型的感兴趣区域的提精品文档放心下载取、表达和编码,力图寻求具有最高率失真性能的可伸缩编码;研究具有强容感谢阅读错能力并且能够适应各种动态变化网络和不同的用户终端设备的可伸缩视频编感谢阅读码方法,主要基于视频内容的视知觉熵,为视频要素提供不同级别的纠错保谢谢阅读护,尽可能提高重建视频的主观满意度;研究基于注意度的码流优化截取方感谢阅读法,其目标即为最大化重建视频的视知觉率失真性能,同时兼顾复杂度。谢谢阅读2.2.3分布式多视点视频编码方法在资源受限的分布式视频应用中,鉴于现有分布式视频编码的低效性,需精品文档放心下载要利用视觉特性,研究分布式多视点编码理论,从而提高编码效率。同时,必精品文档放心下载须充分利用分布式信源之间的相关性,去除分布式信源的视间冗余,达到分布感谢阅读式视频信息高效解码。在立体视编码方面,需要利用深度辅助信息来精确描述精品文档放心下载真实的三维世界。根据立体视觉成像的原理,利用多个视点图像的空间几何关系谢谢阅读以及图示线索知识获取深度信息是立体视点视频处理的重点研究内容;同时,精品文档放心下载需要研究利用多视点视频编码对大量的视频原始数据和辅助信息进行压缩并且精品文档放心下载通过网络进行有效传输;通过自由视点切换保证用户的交互功能,使用户可以精品文档放心下载根据自己的兴趣选择不同的视角具体的研究内容包括:(1)基于视觉特性的视频源分割在视觉模型的指导下,研究基于视觉特性与统计特性的信源分割准则。感谢阅读根据这种分割准则,将视频源划分为若干个视觉特性、统计特性相异的子视精品文档放心下载频源。然后对每个子视频源使用相应的高效编码方法,以期获取好的主观质感谢阅读量。(2)基于多视频源相关模型的分布式编码根据视频序列的具体分割形式,利用多视点信源的相关特性、视点间的谢谢阅读几何位置以及采集参数,研究其相应的相关模型以及参数估计方法,指导编谢谢阅读码器进行高效的分布式编码。(3)研究多视频源时间、视间联合相关性,实现高效解码感谢阅读分布式编码理论要求独立编码的信源码流必须在解码端联合解码,通过精品文档放心下载充分挖掘信源间的相关性来高质量地重建源数据。利用基于视间运动的边信精品文档放心下载息导出、数据融合等技术,研究高效的边信息生成、信道解码以及源数据重感谢阅读建等方法。(4)面向视觉质量的自适应解码将主观视觉质量评价模型嵌入到分布式解码器中,当目标视频区域解码感谢阅读质量达到主观质量要求时,即终止解码过程。这样既可以达到更优的码率与感谢阅读视觉质量平衡,还可以控制解码器的计算复杂度。(5)基于立体视觉机理的多视编码研究利用多个视点图像的空间几何关系以及图示线索知识生成深度序谢谢阅读列,用以精确表达真实世界的立体视觉信息。基于立体视觉机理,进一步研精品文档放心下载究深度序列与彩色视频的联合高效压缩,重构出最优的三维视频。为了支持感谢阅读多视点切换,研究高效灵活的低延迟视点切换,同时使压缩效率和视点切换精品文档放心下载代价之间达到最优的平衡。(6)三维显示技术研究高效虚拟视合成技术,可使用户按照深度感知能力选择合适的欣赏感谢阅读视点;研究多视点的三维显示器,使观察者具有更加广阔的视域。精品文档放心下载2.2.4面向智能监控的视频编码方法虽然视频监控部署规模已经比较庞大,而且发挥着重要作用,但是目前系统谢谢阅读的应用模式比较落后,主要靠人工监视多路视频和事发后的人工搜检,其中实感谢阅读时现场人工监视耗费大量人力,而且监视人员易疲劳、漏检风险大,亟待半自感谢阅读动乃至全自动预警的支持。这需要我们从视频编码层次进行基础性创新,从而谢谢阅读构建新一代的智能化、高效能视频监控体系。针对视频监控的特点与需求,研究三层码流结构(基本层、对象层和索引层)感谢阅读的新一代监控视频编码方法与标准,拟利用本项目研究的视频编码方法进行基谢谢阅读本层编码,通过在视频码流中增加对象层和索引层,将满足视频监控智能化和谢谢阅读高效率的需要。基本层编码方法采用本项目研究的基于视觉特性的视频编码方法,针对监控感谢阅读视频的特点和需求,提出适合监控需要的视频编码方案并进行标准化。针对重谢谢阅读要场合监控中可获得多摄像源的特点,通过多源视频融合获得广视角、高清晰感谢阅读的监控效果。对象层编码面向监控智能化的需要,基于基本层码流中的视觉基元、运动向谢谢阅读量等要素,研究监控背景、场景、物体、人物等对象模型,分析异常行为和异感谢阅读常事件,形成描述监控目标及其关系的对象层码流,发挥基于视觉特性的编码感谢阅读理论与方法的优越性,提高视频监控系统的效率。索引层以提高海量监控视频的检索和存储效率为目标,基于基本层中的感兴精品文档放心下载趣区域、视觉基元和对象层中的对象描述信息,研究监控场景变化的检测方谢谢阅读法,提出评价视频片段重要性的计量方法,获得场景变换位置、视频片段重要精品文档放心下载程度等描述信息,形成描述视频结构的索引,支持对监控视频的提纲携领式检精品文档放心下载索、摘要和存储容量缩减。2.3原型研究与验证层上述两个层面所研究的基础性的模型、理论和方法还需要通过设计原型系统谢谢阅读或者应用平台进行验证。我们重点考虑在宽带移动多媒体应用中进行原型研究精品文档放心下载和系统验证,构建相应的验证平台。具体研究内容如下:(1)面向远程医疗的高动态视频采集技术:高动态范围视频采集通过多个摄谢谢阅读像头协同采集同一场景不同动态范围的图像,生成高保真的高动态范围视频谢谢阅读源。(2)视频转码技术研究:主要解决流媒体系统平移过程中的转码关键问题,精品文档放心下载特别是多种其它编码格式到AVS等视频格式的转码技术,在此基础上突破解决感谢阅读转码的一些共性的关键技术,例如新的转码结构的设计、视频图像的滤波预处谢谢阅读理、转码运动矢量的预测等。同时在转码过程中研究编码的率失真属性,为视感谢阅读频的有效调度打下基础。(3)多流封装技术:针对网络传输介质误码率高、带宽差异等问题,本项目谢谢阅读基于可伸缩编码方法研究多流封装技术,将一个视频源分拆为多个独立的视频谢谢阅读流单独传输,从而确保传输的健壮性。研究基于传输通道的冗余编码技术,减精品文档放心下载少传输过程对误码率的影响,适应不同带宽。(4)面向远程医疗的视频编码应用技术研究:根据基于视觉特性的视频编码谢谢阅读理论和远程医疗业务应用需求,针对远程医疗的视频编码技术应用场景进行分谢谢阅读析和研究,主要包括:感兴趣区域编码的远程医疗会诊技术应用研究,高动态范感谢阅读围视频手术监测技术应用研究等。(5)高清IPTV和固定移动融合(FMC)视频应用验证平台实现技术:研究面感谢阅读向远程医疗的高清IPTV网络流媒体系统架构,固定移动融合(FMC)环境下的谢谢阅读网络流媒体系统架构,搭建相应的宽带移动多媒体传输验证平台,对新一代基谢谢阅读于视觉特性的视频编码理论和方法进行验证。二、预期目标3.1总体目标本项目针对高效视频编码所涉及的视觉信息处理基础科学问题开展多学科谢谢阅读交叉的共同研究,借鉴神经科学的最新研究成果,以探索视觉信息表示和编码谢谢阅读的基本神经机制和心理机理为出发点,构建视频内容表示的时空要素图模型及精品文档放心下载其统一的计算模型。在这些研究的基础上,针对视觉信息编码与传输问题,将谢谢阅读香农信息论与人类视觉系统信息处理原理相结合,并以此作为视频编码的理论感谢阅读基础,从而提出新的基于视觉模型的下一代高效视频编码框架,并扩展研究包感谢阅读括视觉注意和高动态范围在内的多维度可伸缩编码方法、面向多视频源的分布精品文档放心下载式多视点编码方法以及面向智能监控的视频编码方法,从而构建一套基于视觉感谢阅读特性的高效视频编码理论、模型和方法体系——这即是本项目在理论方面的总精品文档放心下载体目标。本项目在解决国家重大需求和产业创新方面的总体目标包括两方面。首谢谢阅读先,以此为基础衍生出的视频编码技术可为下一代视频编码国家标准做出不可精品文档放心下载替代的贡献,并深度参与未来视频编码国际标准的制订工作,从而提高我国信精品文档放心下载息通信产业的国际竞争力。其次,本项目面向智能监控的编码方法等研究成果感谢阅读预期可以改变传统视频监控的应用模式,从而服务于国家公共安全、重大事件谢谢阅读应急管理等国家重大需求;通用编码方法则还可以为下一代宽带移动多媒体应精品文档放心下载用技术提供理论与核心技术基础,并为航天遥现遥控等国家重大工程提供技术谢谢阅读储备。3.2五年预期目标根据上述总体目标,未来五年内本项目预期在理论与方法、解决国家重大精品文档放心下载需求、科研成果和人才培养方面达到如下目标:1、预期在理论与方法方面取得的进展、突破及其科学价值精品文档放心下载如前所述,理论层面我们的总体目标是构建一套高效的基于视觉特性的视频编精品文档放心下载码理论、模型和方法体系,具体的五年目标主要体现在以下几个方面:感谢阅读(1)在视觉基本机理层面,探索视觉信息处理的基本神经机制和认知机理并感谢阅读对其进行计算仿真。特别要采用先进的多电极矩阵技术手段,为揭示视精品文档放心下载知觉的神经机制提供经验和第一手实验证据。期望能探明稀疏编码与群谢谢阅读组编码这两类编码方式的区别与联系、转化机制及相应的心理机理;探精品文档放心下载明基本成组和增量成组两种成组方式之间的相互作用以及视觉注意在其精品文档放心下载中的调节机制,从而为建立视觉计算模型提供基本机理基础。感谢阅读(2)在视觉计算模型层面,建立统一的统计视觉表示与计算模型。提出并完精品文档放心下载成面向视频处理的“时空要素图”模型,建立视频内容基本要素的数学谢谢阅读统计模型及其符号化的形式化描述以及相应的计算推理方法。精品文档放心下载(3)在视频编码理论层面,提出与视觉感知一致的视频编码与传输理论。建感谢阅读立视觉信息量、视知觉熵等概念的形式化描述,从而构建符合视觉特性谢谢阅读的视频编码理论。(4)在视频编码方法层面,构建包括基于视觉模型的新型编码方法、多维度感谢阅读可伸缩编码方法、分布式多视点编码方法和面向智能监控的视频编码方谢谢阅读法等在内的下一代高效视频编码理论与方法体系。2、预期在解决国家重大需求方面的研究目标(1)突破数字视频编解码核心技术,为制定下一代自主知识产权的高效视频感谢阅读压缩国际/国家标准提供理论、方法和关键技术上的支持,实现5年内视精品文档放心下载频压缩率再提高1倍的目标(即从目前的约1:100提高到1:200)。预期能谢谢阅读够为下一代视频编码国家标准(AVS阶段2)做出不可替代的贡献(预期本精品文档放心下载项目组成员贡献率不低于40%)。同时,至少申请10项以上具有我国自主谢谢阅读知识产权的国际专利,扭转中国视频产业核心技术长期受制于人的被动谢谢阅读局面,推动我国数字视音频产业的战略转型。(2)突破面向智能监控的视频编码关键技术,通过在编码过程中引入局部视谢谢阅读觉模型和视觉注意等新要素,从而有效支持自动异常发现和报警、目标精品文档放心下载检索等功能,从而改变智能视频监控的应用模式,满足国家在公共安全谢谢阅读和重大应急事件管理中,对智能视频监控系统的重大需求。感谢阅读(3)突破宽带移动多媒体应用系统涉及的关键技术,本项目在视频编码方面谢谢阅读的研究成果可以有效支持面向高清的IPTV、具有三维和高动态范围视频精品文档放心下载属性的远程医疗系统等,提高我国在宽带移动多媒体应用方面的技术水谢谢阅读平并得到产业应用。3、在科研产出、优秀人才培养等方面的预期目标(1)预期在视频编码领域的部分研究成果达到国际领先水平,促进相关学科谢谢阅读的发展。预期五年内发表SCI、EI收录学术论文300篇以上,其中国际感谢阅读期刊论文100篇以上,出版专著2本以上,申请专利40项以上,争取获精品文档放心下载得1~2项国家级科技奖励。(2)在相关领域形成一支思维活跃、创新能力强的国际知名研究团队,培养谢谢阅读高水平学术人才,造就一批在国内外相关领域有相当影响力的学术带头谢谢阅读人。培养博士60人、硕士100人。三、研究方案4.1总体学术思路与技术路线如前所述,传统的视频编码技术建立在香农信息论基础上,只能在信号层谢谢阅读面上采用统计处理的手段对视频进行压缩,所以,基于传统信息论的方法流行精品文档放心下载多年,形成了延续至今的基于变换与预测的混合编码框架,基于此的编码效率谢谢阅读已遭遇瓶颈。我们可以认为,这种传统的编码方法主要停留在以像素或图像块精品文档放心下载“眼脑”视觉信息处理感谢阅读通路的视网膜层面,至多部分延伸至侧膝体。因此,本项目的总体研究思路就是(如图12中间虚线右侧部分):借鉴人类谢谢阅读视觉系统的信息处理过程,将编码的理论基础向视觉通路的后端延伸,即延伸精品文档放心下载至视觉皮层的V1区,V2区,V3区,V4区,乃至IT/MT区。从视觉信息表示的精品文档放心下载基本对象角度来看,该思路主要采用视觉基元作为视觉内容的基本单元,而不感谢阅读再是传统方法中的像素或者图像块。这种信息表示机制变化的意义在于:通过精品文档放心下载将编码符号集合定义在具有视觉意义的基元上,传统的信息论就可以被扩展,感谢阅读我们称之为“视觉信息论,以区分一般意义上的信息论。为此,我们就需要探感谢阅读讨符合视觉感知的视觉基元与视觉信息论中基本信源符号的关系,寻找基本信谢谢阅读源符号的合理定义,进而提出并形式化视觉信息量、视知觉熵等概念,研究其谢谢阅读测度和数量化方法,寻找并借助客观、鲁棒、易行的视觉质量评价方法,探索精品文档放心下载基于视知觉熵的率失真关系,进而形成新的率失真理论。从而以视知觉熵和视感谢阅读知觉率失真理论为基础,建立视觉信息论,为基于视觉模型的新型高效视频编精品文档放心下载码技术奠定坚实的理论基础。本项目研究将基于上述总体思路展开,分别在视觉信息处理基本机理、视精品文档放心下载觉表示与计算模型、视频编码理论与方法以及系统验证等几个层面展开。精品文档放心下载具体的,在视觉基本机理方面,我们将采用多电极矩阵植入猴脑和计算仿真感谢阅读两种方法,重点探讨稀疏编码、群组编码、增量成组、运动感知、视觉注意等感谢阅读主要内容。这些机理可以指导我们研究新的视频内容表示与计算模型,具体感谢阅读的,我们拟沿着对视觉信息进行统计学习的思路,学习图像/视频的基本要素,感谢阅读建立时空要素图模型,并在此基础上对视觉注意进行建模分析。最后则可以基感谢阅读于这些计算模型研究基于局部视觉模型的高效视频编码、包含注意机制的多维感谢阅读度可伸缩编码、分布式多视编码和面向智能监控的视频编码等理论与方法。感谢阅读需要指出的是,本项目的上述研究方案强调了神经科学、生理学、心理学、精品文档放心下载数学、计算科学和电子学等多学科的交叉从而有效地促进我国科学与技术研究精品文档放心下载在上述领域中的进一步发展。4.2各主要研究内容的研究方案基于上述总体学术思路和技术路线,本项目各个主要研究内容的研究方案精品文档放心下载概述如下:4.2.1视觉信息处理基本机理方面这部分的研究将采用包括清醒动物神经电生理学、视觉行为学和药物学方精品文档放心下载法以及ERP、fMRI等技术手段研究生物视觉系统知觉组织主要环节的神经机制精品文档放心下载和心理机理。对视皮层神经元群反应特性等问题的研究方案,简述如下:采用不同的视谢谢阅读觉刺激模式(刺激-背景和自然景物图像)对灵长类动物进行视觉行为学训练;在感谢阅读动物V1区植入多电极矩阵;采用神经电生理学记录研究动物作视觉识别和视觉感谢阅读学习时V1区神经元群反应模式;在各级皮层采用物理或化学药品手段改变纵向谢谢阅读神经输入对V1区的作用;研究当动物作视觉识别时记录V1区神经元群反应特谢谢阅读征。视觉注意的生理心理基础及在视觉认知组织中的作用则将主要采用ERP和精品文档放心下载fMRI技术,对被测试人的脑电活动进行测量,研究知觉组织和视觉信息处理过感谢阅读程中,基本成组和增量成组过程在时序和脑区上的差异,以及注意等认知过程感谢阅读对其之间的相互影响的差异以加工及相应的脑机制。具体方案为:向被试呈现谢谢阅读不同的刺激图片(背景和图像容易分离或不易分离,自然图像或刺激-背景图形)精品文档放心下载,考察在给不同线索(cue)情况下,ERP的波形,反应时间以及激活脑区的差感谢阅读异。在模型研究方面,考虑图像在不同感觉、知觉层面上的不同表示,对于视感谢阅读觉信息的稀疏表示、视觉皮层V2区、V4区和IT区的各个层次采用前馈联接,感谢阅读采用无监督和有监督两种不同学习方式解决局部特征和整体特征的学习任务。精品文档放心下载总体上采用阶层、模块化网络结构。其中,第一层对应稀疏表示,目标是建立精品文档放心下载视觉信息的超完备表示,模拟视觉初始皮层的功能,该层的学习算法采用自适精品文档放心下载应的视觉信息稀疏表示算法,在神经信息内部编码方面,研究基于神经元信号谢谢阅读独立分解机理的内部稀疏表示的统计模型,使得该层的神经元具有超完备稀疏感谢阅读响应特征。第二层的功能是局部特征成组(FeatureGrouping),该层的学习准则是使得谢谢阅读具有相近响应特征的神经元尽可能集群到相近的邻域,我们拟引入邻域神经元感谢阅读之间的能量变化极小化实现局部特征成组和无监督学习机制。精品文档放心下载第三层的功能是视觉整体特征的形成,该层依赖于具体的视觉处理任务。感谢阅读我们将针对某些特定的典型任务设计相应的整体特征形成与学习方法,研究如感谢阅读何将任务的先验知识或领域知识融入到整体特征的表示与学习中。感谢阅读在最高的识别层,考虑到不可预测的信息包含更多信息量的情况,试图对精品文档放心下载给定的图像计算其不可预测信息。拟采用局部谱能量对数的残余量来定义感兴谢谢阅读趣区域。残差值越大,该区域的可预测性越差,因此我们把局部图像谱能量对谢谢阅读数值残差超过一定阀值的区域定义为感兴趣的区域。通过大量的计算机实验,感谢阅读利用该残差定义的感兴趣区域与人类视知觉的注意区域相吻合。在定义感兴趣感谢阅读区域的基础上,我们将利用Itti的贝叶斯模型,定义视觉注意区域,并且给出感谢阅读计算算法。4.2.2面向视频编码的视觉计算模型与方法概括来说,我们拟采用产生式的、多层结构时空要素图(STITCH)系统作为视谢谢阅读频运动的统一表示,并采用贝叶斯理论框架下的最大似然估计感谢阅读(Maximumlikelihoodestimation)方法实现推理计算。具体地我们拟定以下研究感谢阅读方案:1.运动的统一视觉表示首先,我们提出“时空要素图系统”来统一地表示视频中复杂的运动内容。谢谢阅读作为一种产生式系统,它包括三层结构,:(i)系统的底层为图像层,是我们观谢谢阅读察到的视频序列。(ii)系统的中层为要素图层。为静态图像表示提出的要素图感谢阅读模型,其本质上是一种属性图表示。本层是我们需要推理演算出的隐变量感谢阅读(hiddenvariable)层,是以产生式要素图模型生成底层的图像。(iii)系统的上精品文档放心下载层也是隐变量层,它代表使要素图在运动过程中发生结构变化的因素,拟采用感谢阅读图语法表示。2.针对视频的时空要素图系统表示的计算方法我们将在贝叶斯理论框架下通过最大似然估计的方法学习时空要素图系统中谢谢阅读的最优参数(包括以上提到的各方面内容),从而实现对要素图的整合、分割、感谢阅读与组合,并实现对运动基元(或子图)的提取、跟踪,以及对图语法规则的学精品文档放心下载习。具体研究方案如下:(1)基元在不同子空间中的动态特性分析在确立了以时空要素图系统作为运动图像序列的表示模型后,我们将运动基感谢阅读元定义为时空要素图中的子图,如飘落着的雪花、飞翔的小鸟等。运动基元也精品文档放心下载可以按粒度近一步的分解,如一个行走的人作为某一层上的运动基元可被进一精品文档放心下载步分解成为头、躯干、四肢等具有不同运动特性却又相互关联的不同运动基感谢阅读元。由于运动的物体处于不同的熵域中,所以对不同类型的静态图像基元有不同感谢阅读的表示,如表示低熵结构“可勾画”部分(sketchable)的简约图模型和表示高精品文档放心下载熵“不可勾画”部分(non-sketchable)的纹理模型。这些不同熵域中的静态基谢谢阅读元在时空中的动态特性很不一样。因此,(a)我们首先要定义各种图像基元在时空中的“可跟踪性”(trackability)精品文档放心下载及其度量。我们将借鉴对一般跟踪系统的分析方法,在贝叶斯推理理论框架下谢谢阅读用信息论的方法(informationtheoreticapproach),将物体状态的“不可跟踪谢谢阅读性”度量定义为其后验条件熵。它体现了状态估计或跟踪过程中的状态的不确精品文档放心下载定性。由此我们可以导出可跟踪性度量。为了获得视频的最优的时空要素图表示,我们将可跟踪性度量作为此优化问谢谢阅读题的一个重要参量置于系统动态模型中,使系统能够通过计算,在不同基元优精品文档放心下载化自身可跟踪性度量的同时,能够自动地选择适应不同视频内容的基元表示方精品文档放心下载法,从而获得最优的表示。我们称之为基元对视频的“竞争解释机制”。这里感谢阅读我们所说的“最优”或者定义在对视频内容的最小描述长度谢谢阅读(Minimumdescriptivelength)理论框架下,或者定义在贝叶斯推理理论下的最感谢阅读大后验概率(Maximumaposteriori)估计意义下。精品文档放心下载(b)我们将通过基于采样的学习(learningbysampling)方法,以及可跟踪性谢谢阅读与不可跟踪性基元对视频的竞争解释机制,实现对运动图像序列的全面分析,谢谢阅读得到不同粒度上的基元、运动层次(layer)或物体,以及它们在时空中的对应关精品文档放心下载系,并可以对运动基元进行自动分类(可跟踪与不可跟踪)。在此统计学习过程精品文档放心下载中,我们不断地学习、更新可跟踪运动基元在光度、几何、运动、以及拓扑等谢谢阅读不同维度上的动态特性。同时,对于不可跟踪运动基元,我们将在其特征空间精品文档放心下载(如PCA、Fourier空间)研究其光度和运动等动态特性。谢谢阅读(2)运动基元的时空依赖及相互作用关系在运动过程中,物体与物体之间、基元与基元之间存在着相互作用,如鸟群感谢阅读在飞行的自组合状态,即:个体间的运动轨迹基本相互平行,同时保持一定距谢谢阅读离;人在行走过程中,手臂与腿之间保持一定的协调性;小船随着波浪上下浮谢谢阅读动;车辆经过时会遮挡背景物体等等。在分别研究了不同类型运动基元的动态精品文档放心下载特性后,我们将通过回归式数学模型来描述物体以及基元之间在运动轨迹方面感谢阅读的相互影响;通过学习上下文相关的随机图语法来描述在运动过程中物体或基精品文档放心下载元之间在拓扑结构上产生的相互影响与作用关系。(3)运动基元在不同熵域间的转换同一物体或基元由于运动可能穿梭于不同的熵域。例如,一辆汽车由远及近感谢阅读地驶来:它在很远的地方由于相机分辨率有限,成像后可以简单地用一个尺度谢谢阅读很小的点(blob)来表示,这时它处在高熵纹理区;随着汽车的驶近,它会经过感谢阅读中熵以及低熵图像表示区。在此过程中,如果仅仅用一个blob将不足以表示汽谢谢阅读车不断涌现的细节,这时我们要不断选择合适的视觉“词汇集”精品文档放心下载(visualvocabulary)来描述它在不同熵域中的表观。所以,对于这种感知转换感谢阅读机制(perceptualtransitionmechanism)的研究将在理论上指导我们如何针对不感谢阅读同情况采用适合的视觉“词汇集”来表示运动的物体并通过解释其中的变化来精品文档放心下载实现对复杂运动的鲁棒分析。在本项目的研究中,我们将采用统计学习的方谢谢阅读法,通过上下文相关的随机图语法来描述物体或基元在穿越不同熵域时发生的精品文档放心下载结构变化。4.2.3基于视觉模型的高效视频编码理论以往视频压缩技术的主要理论基础是香农信息论,但目前遇到了效率瓶颈,精品文档放心下载这表现在压缩效率进一步提升将以不可承受的复杂度增加为代价。基于此,本感谢阅读项目研究基于视知觉的视频压缩。人类视觉系统提取外界信息是一个从底层像感谢阅读素到高层物体边缘、结构、颜色、纹理、运动的一个层级、渐进抽象的过程。谢谢阅读人类视觉系统会忽略视知觉感受不到的内容,而关注于有实际物理意义的感兴感谢阅读趣对象。因此,人类视觉系统对有意义信息的提取,也即对视频数据知觉冗余精品文档放心下载的压缩,是相当高效的。目前,传统的视频压缩技术与人类视觉系统的视频处谢谢阅读理过程有着本质区别。两者效率上的差距正是基于视觉的视频压缩技术发展的谢谢阅读空间。本项目的研究内容包括理论基础研究、算法及系统研究,具体的研究思谢谢阅读路如下。(1)基于视知觉熵的视觉信息论结合视知觉机理和视觉计算模型,我们认为“视频要素”是符合人类视觉处感谢阅读理机制的视频信息的基本组成单元。因此,本项目拟将“视频要素”作为所提精品文档放心下载视觉信息论中的基本信源符号,通过“视频要素”的视知觉信息量的定义,即谢谢阅读视知觉熵,以及“视频要素”有损表示下率失真关系的明确,完成视觉信息论感谢阅读的建立。视知觉熵的定义及其数量化测度,特别是视知觉熵的动态测度,是视觉信息谢谢阅读论可应用的关键。本项目拟采用一组无冗余视频要素对视频序列进行表示,则精品文档放心下载视频要素的视知觉熵可通过要素组合视频与原始视频的主观视觉无差异性来测谢谢阅读试获得。测试方法、视知觉熵的数量化方法以及高阶视觉熵的定义需要深入研谢谢阅读究。视知觉率失真理论可在视知觉熵数量化的基础上,通过视觉要素有损表示下谢谢阅读组合视频与原始视频的主观视觉差异性测试,来确定率失真关系,从而完成视感谢阅读知觉率失真理论。主观视觉评价是上述方法中的关键步骤,因此对鲁棒的主观视觉评价方法也谢谢阅读需要进行深入研究。本项目会对以上设想及测试方法的正确性、鲁棒性进行分精品文档放心下载析、实验、论证,对具有更一般性的方法开展研究。(2)基于视知觉的视频压缩算法及框架基于视知觉的视频压缩算法及其系统要求具有高效、功能完备、可实现的特精品文档放心下载点。主要是从两个方面进行研究:首先,在混合编码框架内结合所提取的视觉特征,提高传统编码框架下的编谢谢阅读码效率,对此我们将研究基于局部特征的动态量化,即针对人的对比敏感度函感谢阅读数、纹理掩蔽效应、频率掩蔽效应、速度掩蔽效应等动态视觉特性,研究在视谢谢阅读觉失真的最大容忍程度下的优化量化编码方法;其次,视频信息可由一组“视频要素”来进行符合视知觉机理的高效表示,感谢阅读则压缩算法需要以视频要素为处理对象。这些视频要素可以具体地由边缘、纹感谢阅读理、运动等图像/视频的局部特征来表示。基于所提取的图像特征,提出新的编谢谢阅读码框架,建立一个基于局部特征的压缩系统。为了保证所提出的基于视觉的编精品文档放心下载码系统具有很好的适应性,在各类型的视频序列上都能取得较高的编码效率,感谢阅读我们将首先将自然图像中的局部结构分为几个最基本的特征参数来描述,如:谢谢阅读轮廓形状、方向,空间周期性,时间周期性等。然后用最基本的参数建立特征感谢阅读的基本集。之后通过学习大量的自然图片,获得基本特征的变体,同时对基本感谢阅读集进行扩充。最终形成一个基本覆盖所有自然图片局部特征类型的集合,并建精品文档放心下载立模型,实现对这个特征类型集合的模型表示。这个特征类型集将是超完备并感谢阅读且恒定更新的,将会采用增量学习的办法来保证编码器和解码器的内容同步,感谢阅读并进行模型更新,(3)基于视觉的动画压缩我们拟结合动画制作的基本原理,提取有效的动画特征,包括边缘,纹理,谢谢阅读运动、或色彩等,建立起动画中对象的模型表示,搭建基于视觉的动画压缩系谢谢阅读统,提高动画的压缩效率。(4)基于视觉的超分辨率视频压缩我们拟研究基于超分辨率技术的超高清视频编码方法,首先在原始分辨率视感谢阅读频上提取边缘或纹理等视觉特征信息,并对视觉特征信息进行编码,然后对原感谢阅读始图像进行降分辨率编码,在解码端,根据解码得到的视觉特征信息和低分辨感谢阅读率图像,通过超分辨率插值技术进行视频重构。我们拟对图像中的高频信息和感谢阅读低频信息分别考虑,对高频信息进行建模表示,研究基于多参考帧的超分辨率谢谢阅读插值技术,提高超分辨率视频的重构质量。(5)多光谱视频压缩我们拟根据多光谱图像的平移和光谱分布特点,研究多光谱图像的像素亮度精品文档放心下载对比度量化编码,依据人眼视觉系统在不同光照条件下的对比度阈值调节量化精品文档放心下载误差,提高多光谱视频的压缩效率。4.2.4多维度可伸缩编码现有的SVC编码标准主要从空间、时间、质量三个维度上实现可伸缩性,对精品文档放心下载HVS的考虑还非常少,因此在性能上仍有很大提升空间。基于以上现状,本项目精品文档放心下载主要研究如何在SVC技术中引入新的维度:注意度和动态范围,从而利用人眼谢谢阅读视知觉的特性进一步提高压缩视频的主观质量。主要从如下四方面展开:精品文档放心下载(1)基于注意模型的感兴趣区域提取、表达及编码根据视知觉的敏感特性和视频中各视觉要素的统计特性,对视频内容进行区精品文档放心下载域划分,建立对各注意区域的模型表示,并根据注意程度对感兴趣的级别进行谢谢阅读编码表示。模型的建立还要考虑与应用类型的结合,如针对视频监控的应用的谢谢阅读注意模型等。基于所建立的注意模型,提取感兴趣区域。为提高视觉效果,在感兴趣区域谢谢阅读与非感兴趣区域之间设置梯度过渡区域,组织合理的码流结构表示感兴趣区域精品文档放心下载参数以及内容,并同时考虑感兴趣区域的重叠等情况,最大程度地减少比特开感谢阅读支,提高码流组织方法的鲁棒性。(2)融合时域、空域、质量、注意、动态范围等多维度的可伸缩编码方法谢谢阅读以传统三维可伸缩编码方法为基础框架,融入注意度,。注意度的可伸缩性感谢阅读可以根据人眼对不同区域或视频要素的感兴趣程度,设置相应的重要性参数,感谢阅读该参数应包含在图像头定义中。在组织码流时,给感兴趣区域一定优先,例如精品文档放心下载降低其量化参数或者在增强层提升其变换系数的位平面,从而保证该部分区域感谢阅读更高的重建质量;同时还可根据重要性参数,在必要时丢弃非感兴趣区域部谢谢阅读分。此外我们还可以在这个可伸缩编码框架中增加其他的可变自由度,如针对高谢谢阅读动态视频的动态范围可伸缩编码,用以支持高动态范围图像的编码显示。对此谢谢阅读需要研究相应的量化编码策略,以达到高效的可伸缩编码。感谢阅读(3)基于注意度的码流优化截取方法码流截断须以重建视频的视知觉率失真最优为目标。在增强层率失真建模时精品文档放心下载要考虑到图像组内的误差漂移问题,平衡准确性和复杂度,寻求快速实用且接谢谢阅读近于理论最优的码流截取方法。(4)基于视觉容错模型的可伸缩编码根据人眼视觉对不同区域、不同空间分辨率和不同时间分辨率的敏感特性,感谢阅读构造视觉容错模型(VisionErrorResilienceModel,VERM),并指导容错算法,精品文档放心下载通过对造成视觉损失大的部位进行强容错编码,对造成视觉损失小的部位进行谢谢阅读弱容错编码,在码率增加不大的情况下,达到视频鲁棒编码的目的。谢谢阅读4.2.5分布式多视点视频编码方法针对分布式视频编码,以Wyner-Ziv理论为指导,研究基于视知觉质量评价精品文档放心下载准则的信源分割方法以及相应的信源相关模型,同时在分布式多视频解码过程精品文档放心下载中,为了有效利用多视频信源之间的冗余信息,需要研究如何建立高效的时间谢谢阅读视间联合相关模型以及面向视觉的自适应解码。在立体视编码方面,为了精确谢谢阅读地描述真实三维视频,需要生成精确的深度信息;同时为了进一步实现高效传精品文档放心下载输,深度图像与彩色图像的联合压缩必须满足立体视觉质量最优。具体技术路感谢阅读线如下:(1)基于视觉特性的视频源分割在视觉模型的指导下,考虑分布式编解码的特点,可通过统计分析等手段建谢谢阅读立视频源的视觉特性与统计特性的关联模型。在视觉特性与统计特性的关联模精品文档放心下载型的指导下,结合边缘检测、感兴趣区域检测等技术将视频源划分为若干个视谢谢阅读觉特性,统计特性相异的子视频源区域。在分布式编解码环中,考虑视觉特性精品文档放心下载与统计特性的差异,分别对各子视频源采用与其视觉特性与统计特性相适应的精品文档放心下载编解码方法。如拟采用Canny算子,考虑运动的剧烈程度,可将一帧图像分割精品文档放心下载为运动区域、过渡区域和背景区域。对于运动区域采用Intra编码,对背景区感谢阅读域这类可以获得高质量边信息的区域采用分布式编码,而对过渡区域等视觉不谢谢阅读敏感的区域则采用主要以主观效果为评价准则的分布式编码。精品文档放心下载(2)多视频源相关模型的分布式视频编码多视频信源不仅每个视频信源本身具有高度的时空相关性,而且不同视频信精品文档放心下载源之间也具有很强的视间相关性。一种有效的方式是在编码端获取相关模型,精品文档放心下载从而估计边信息的相关性强弱,以指导编码端的码率分配。单视点视频的相关感谢阅读性可以进行独立估计,而对于多视点视频的视间相关性我们拟采用以下两种方谢谢阅读案:1)通过多视点视频系统中视点间的几何位置以及采集参数估计视间相关性,精品文档放心下载指导视频数据的分割,实现高效的分布式编码。这种方法不需要传感器之间进精品文档放心下载行大量的数据通信以及复杂的视差估计,不过其获取的视差信息不够精确。精品文档放心下载2)通过选择在处理能力强的传感器上进行视差估计,把估计得到的视差参数谢谢阅读传送给处理能力弱的传感器,来指导编码器进行高效的分布式编码。为了降低谢谢阅读复杂度,可以借助视点间的几何位置和采集参数来加速视差参数的估计。精品文档放心下载(3)研究多视频源时间、视间联合相关性,实现高效解码精品文档放心下载实现高效的分布式多视频信源解码的关键在于如何在解码器端有效利用每个精品文档放心下载视点内视频序列的时间与空间相关性,以及多个视点之间的视间相关性来实现谢谢阅读分布式信源的联合解码。这里包括以下几项技术:基于视间运动的边信息推导:不同于传统混合编码的帧间预测,分布式视频精品文档放心下载的Wyner-ziv帧比特流中并没有任何运动相关的描述信息。同时在运动估计感谢阅读中,由于当前帧还没有进行重构,因此边信息的运动信息只能利用前后关键帧感谢阅读基于块的平移运动模型来估计。相邻视点同一个物体往往具有相似的运动趋感谢阅读势,某一传感器中的视频序列Wyner-ziv帧中物体的运动趋势可以由另外一个谢谢阅读传感器中相对应物体的运动趋势来估计。这需要不同网络传感器之间采用不同谢谢阅读的数据分割进行编码,使得Wyner-ziv帧中物体的运动信息可以由其它视点中感谢阅读关键帧的运动模型来推导。数据融合技术:不同边信息可以看作是相同信源信号经过具有不同噪声的信感谢阅读道传输而形成的,因此具有不同的统计特性。为了使解码器更充分地利用多个精品文档放心下载边信息。我们将多个边信息组织成多维的信号。这样,无论是选择一个边信息谢谢阅读还是合并生成多个边信息,对于解码器而言,获得的依然是相同维度的信感谢阅读号。Turbo码的解码器基于网格选择一条路径,使得路径上每个元素的后验概率感谢阅读最大。一般情况下,收到的校验位只是用来验证在只有一个边信息的情况下每谢谢阅读个可能路径的正确性。当有多个边信息的时候,我们通过扩展解码网格,使网谢谢阅读格中每个转移路径上的输入输出均为多维信号集合,每个集合包括相同的元感谢阅读素。(4)面向视觉质量的自适应解码分布式视频编码技术中,解码器通过反馈信道向编码器进行码流请求,从精品文档放心下载而实现码率自适应,或者通过更复杂的解码过程产生更有效的边信息,以实现谢谢阅读质量的自适应控制。我们将主观视觉质量评价模型嵌入于分布式解码器中感谢阅读(5)基于立体视觉机理的多视编码方法1)基于立体视觉机理的深度信息获取和编码根据立体视觉成像的原理,利用多个视点图像的空间几何关系以及图示线索精品文档放心下载知识生成深度信息是立体视点视频处理的重点研究内容,它主要解决了深度信精品文档放心下载息获取算法的复杂性与深度信息获取的精度问题。因为深度信息的损伤程度对感谢阅读后期视点绘制影响很大,所以深度序列的高效压缩也十分重要。彩色视频的压精品文档放心下载缩效率是以视频的率失真程度来衡量的,而通过立体视原理计算得到的深度序感谢阅读列并不是直接用来观看的,它是用来辅助绘制虚拟视点的,因此,按照编码彩谢谢阅读色视频的方法直接编码深度序列并不是最优的方案,对深度序列单独采用率失感谢阅读真(RD)最优的压缩方法并不合适。一种理想的解决方法是通过联合视知觉率感谢阅读失真最优的方式对彩色视频序列与深度序列进行压缩,首先使彩色视频编码满感谢阅读足下式最小:.(1)其中分别代表彩色视频的拉格朗日代价,视知觉失真,码率。而深度图序列精品文档放心下载的编码在满足(1)的情况下继续满足最小化(2)其中分别代表联合视频深度压缩的拉格朗日代价,绘制图像的视知觉失真,感谢阅读联合视频深度压缩的码率。2)基于立体视觉机理的多视点视频切换编码多视点视频的切换是用户交互功能的重要体现。高效灵活的低延迟视点切换谢谢阅读是多视点视频系统的需求。为了使压缩效率和视点切换达到最优的平衡,我们精品文档放心下载通过两个方面的研究解决视点切换问题:调整预测结构:帧间预测的编码结构直接影响视点切换的延迟程度。我精品文档放心下载们拟提出一套以切换代价为评价指标的预测结构调整算法,根据系统所感谢阅读要求的最大解码延迟帧数为目标,建立以当前帧所处的时域方向层次、谢谢阅读视点方向层次、采用的预测模式以及视觉质量为参数的评价函数,从而感谢阅读有效地衡量预测结构的视点切换能力。利用分布式编码:利用来自于不同视点的边信息,进行视觉率失真最优精品文档放心下载的传输调度,既降低了视点切换延迟,又保证了较高的压缩效率,从而感谢阅读可以提供高效的交互式多视点视频服务。(6)三维显示研究为支持用户能按照深度感知能力选择合适的欣赏视点,需要研究虚拟视点谢谢阅读视频合成与虚拟视点深度序列生成技术,从而能合成该虚拟视点的二维视频以谢谢阅读及对应的深度序列。通过在液晶板前添加光栅,利用栅条交错显示左眼和右眼的画面的原理,精品文档放心下载研制多视点的三维显示技术,克服观测者头部必须佩戴定位装置或显示器必须感谢阅读配备自动跟踪观测者位置的装置来调整“视差栅栏”带来的不便,使观看者具精品文档放心下载有更加广阔的视域。4.2.6面向智能监控的视频编码方法针对视频监控智能化、高效率的发展需要,拟根据监控视频的特点研究其感谢阅读专用编码方法,同时在视频码流中增加与之同步的对象层和索引层,分别描述精品文档放心下载视频内的监控目标和整个视频序列的结构,服务于智能化预警和海量监控视频谢谢阅读的快速检索和高效存储。在适合监控特点的可伸缩视频编码研究方面,将建立规模化的监控视频测精品文档放心下载试序列库,覆盖典型监控场景,针对监控视频全天候采集的特点和关注重要目精品文档放心下载标细节的需求,以多维度可伸缩编码方法为基础,在分辨率可伸缩、帧率可伸感谢阅读缩、区域或对象可伸缩以及编码质量可伸缩等方面开展研究,提出满足上述各谢谢阅读类情况的可伸缩编码算法和针对监控视频的基元、码表,设计适合监控需要的谢谢阅读视频编码方案并进行标准化。在全景监控图像中,特殊对象往往占有很少的画面比例,相对于物体本身感谢阅读来说,空间分辨率比较低,大部分细节信息在采样时已经损失,因此,即使对感谢阅读这个区域采用无损编码,也不能够提供足够的细节。即使通过上采样放大,也谢谢阅读仍然是模糊的。所以,这个时候,异常区域应该采用更高空间分辨率的编码。精品文档放心下载区别于以往基于质量调整的ROI压缩算法,根据特定监控对象的分辨率要求的感谢阅读不同,对不同的区域采用不同分辨率的视频压缩算法,实现基于区域的变分辨谢谢阅读率视频编码算法。更进一步,如果编码端从摄像头获取的最高分辨率图像仍然不够清晰,在
这种情况下,单纯依靠压缩编码技术已经没有办法提高该区域的分辨率了。因
此必须提取编码端成像系统的降质特性模型参数做为边信息,在解码端结合边
信息并利用视频超分辨率方法重建出更高分辨率的清晰图像。超分辨率算法不
同于像素内插的上采样算法,图像的超分辨率重建,就是希望尽可能地挽回图
像的分辨率损失,以弥补其“先天不足”,即在保证通频带内图像低频信息复
原的基础上,对截止频率以上的高频信息进行复原,使重建图像获得更多的细谢谢阅读节和信息,更加接近理想图像。因此采用多帧超分辨率视频编码技术,可以进
一步提高特定区域的清晰度,大幅度提高视频压缩编码算法性能。谢谢阅读根据重要场合视频监控摄像头众多、监控中心集中的特点,研究多源视频
融合技术,实现广视角、高清晰的监控视频增强方法。采用本项目研究的分布
式视频编码方法,将来自多个编码端的各帧图像看成独立信源,在解码端,利
用时域相邻帧的相关性,通过对已解码重建运动估计,进行时域内插求取边信
息,最后将边信息用于Slepian-Wolf解码和当前解码帧的重构,也就是说,将
计算量较大的帧间预测(如运动估计)从编码端转移到解码端。更进一步地,基
于多源视频在空间、时间上的相关性,计算视频之间的重叠区,实现多画面拼
接,获得视角更广阔的监控画面。通过将同一区域从不同角度、方位拍摄的多
个视频进行融合,获得针对这一区域的清晰度更高的视频。我们将针对选定的
重点监控场所,构建一个多源视频融合监控试验中心,采用分布式编码等新一
代视频编码方法,获得广视角、高清晰的监控视频。精品文档放心下载对象层编码是监控智能化的重要支撑手段,主要研究监控背景、监控场
景、重要物体和人物的建模、分析和编码。对于摄像头固定的场景,背景建模
是常用的、简单且有效的用来提取前景的方法。我们将在时空要素图表示框架
下,通过运动分析与跟踪算法,学习、建立针对监控背景的统计模型。由于该
模型基于具有语义信息的视觉基元表示,它能够更加鲁棒地去除背景中存在的
阴影、光照和反射的影响,利用视觉心理冗余对监控视频中的背景进行高效编
码。监控场景分析对于异常行为与事件的实时监测起着至关重要的作用。在本
项目中,我们将研究基于时空要素图的统一表达,对监控环境中的不同场景建
立并学习相应的统计模型,并验证其效果,例如对室内/室外、不同天气(阴
天、晴天、下雨或下雪等)下光照的不同变化情况建模、对动态噪音(如树、
草、水、阴影、反光等)的瞬时动态干扰建模、以及对物体运动的路径轨迹等进
行自动统计,从而总结归纳出其运动的规律,建立统计性的描述。当违反规律
的事件发生时,即认为是异常事件,同时对异常事件中涉及的对象进行其特征
提取并记录在对象层码流中,为今后实现视频的高效检索打下基础。
物体是监控的重点对象,几乎所有的物体检测、识别与跟踪都需要得到物
体的位置和类型,这里由于时空要素图能够在语义层面对视频进行表示和描
述,我们还要验证基于此种表达的不同物体检测方法在不同环境下的检测效
果,如判别式模型和生成式模型,并研究如何将这些检测方法有效地结合在一
起以适应不同环境的需求。本项目基于时空要素图系统,可以从视频中学习出
不同熵域的运动图像内容的视觉词汇集以及不同基元的流形,并籍此对视频中
的物体进行高效编码。本项目还将验证以时空要素图为表达的跟踪算法和它们
在不同环境的跟踪效果。精品文档放心下载人脸是监控中对人物进行监测和跟踪的最重要依据之一,本项目将采用统
计学习方法通过对大量人脸数据的学习,建立人脸的统计模型,以检测出复杂
背景中的多姿态人脸。在人脸识别方面,根据监控视频中在一个时段内连续出
现的特点,我们将从基于序列的人脸检测和识别方法入手展开工作,研究时序
信息的有效利用、低质量人脸的预处理、基于局部视觉模型的识别方法、超分
辨率分析等内容,以实现人物这一重要监控对象的提取和编码。感谢阅读视频索引将充分利用视觉计算模型中的视觉注意选择策略,同时融合对比谢谢阅读度、位置和多运动等信息,并根据监控场景切换、突变或结构变化情况的分析谢谢阅读结果,建立时间和空间上自适应的多尺度摘要生成算法,使其更加符合人类认精品文档放心下载知,同时满足可计算性;并进一步根据视频的时序关注曲线,研究并提出评价感谢阅读视频片段重要性的计量方法。视频索引面向视频特征和语义描述信息,主要采谢谢阅读用通用技术与特定算法相结合的方法获得,通用技术主要是研究视频基元的统感谢阅读计特性,以得到视频的特征描述,并采用统计学习或规则学习的方法得到中层谢谢阅读特征的模型,以得到视频基本结构和基本对象的描述。特定算法是指对各种不谢谢阅读同类型视频片段和关键对象的检测技术。对于视频中的具体索引算法,将采用谢谢阅读基于视觉关键词的倒排索引方法;对于高维和时间序列数据,将采用改进树结感谢阅读构、时序扩展等方法来进行高效索引。将视频索引产生的描述信息置入压缩码精品文档放心下载流中,从而快速获取所需的视频监控信息。4.2.7宽带移动多媒体应用原型研究与验证平台在基于视觉特性的高效视频编码理论和算法基础上,本项目将面向远程医精品文档放心下载疗、IPTV等应用搭建宽带移动多媒体系统验证平台,提供基于宽带和无线移动感谢阅读网络/具备高动态范围视频显示等功能的多媒体服务。具体的研究思路介绍如精品文档放心下载下:(1)高动态视频采集在高动态范围视频的获取上,本项目利用远程医疗场景下已经配置有多个精品文档放心下载摄像头的特点,通过设定每个摄像头不同的快门速度,获取不同动态范围,在感谢阅读经过重建后就可以得到统一的高动态范围场景。高动态范围视频的编码需要考感谢阅读虑高动态范围视频的特点,根据人眼视觉特点进行高效的编码。高动态范围视谢谢阅读频不能直接在普通设备中显示,必须要通过色调映射转化为普通动态范围视谢谢阅读频。本项目研究新颖的色调映射方法,应用于远程医疗中。精品文档放心下载(2)视频转码技术主要研究各种视频源到媒体流生成转换的工作,将视频采集和其他来源的精品文档放心下载多媒体数据进行流化封装,用于网络传输准备。传统的视频转码结构通常对应于某一特定的目标,例如码率缩减,空间分精品文档放心下载辨率缩减或者时间分辨率缩减,而实际视频转码过程往往涉及这几个方面的同感谢阅读时实现。为了综合实现这几个方面的目标,同时简化转码算法的设计,本项目采取精品文档放心下载了分步骤实现各个转码目标的方法,为每一个转码目标设置假想的目标视频谢谢阅读层,每一次转码都把源编码的信息转到这个假想的目标视频层上。研究以分步感谢阅读骤的转码算法为主,适当设计跨目标的转码算法。对于视频转码的分析,项目将最基本的概率统计,信息论和量化理论入感谢阅读手,通过点漂移误差分析来建立视频转码帧的漂移误差模型,进而确定视频转感谢阅读码调度包的优先级。(3)面向可伸缩编码的多流封装流化可伸缩编码是实现多流编码的重要技术之一。但作为分层编码特点,接收感谢阅读端在缺乏基本层数据条件下,无法进行解码。利用多描述编码在时间轴的冗余谢谢阅读特性,对视频数据进行分流操作。然后再采用可伸缩编码,对每个子流分层处精品文档放心下载理。利用不同流数据之间的相关性,建立相关性函数并进行流化封包,从而达感谢阅读到各流之间相关性最小。针对无线信道误码率高的特点,基于FCC(前向纠错)编码的信道保护对无线精品文档放心下载媒体传输非常重要。根据无线信道拓扑、信号质量、和数据重要性,建立冗余感谢阅读量模型。对不同流、不同传输路径采用不同的冗余参数,利用最小的冗余数据感谢阅读提高正确率。(4)面向远程医疗的视频编码技术验证跟踪远程医疗系统的演进情况,分析远程医疗应用中针对视频编码的业务谢谢阅读需求,设计面向远程医疗的视频编码技术应用场景,包括:感谢阅读感兴趣区域编码的远程医疗会诊技术应用研究:利用基于视觉特性的多维感谢阅读度可伸缩编码方法,实现手术监测图像中不同重要性区域的编码质量分级,提高谢谢阅读图像整体的压缩比例。高动态范围视频手术监测技术应用研究:利用高动态范围视频的高宽容度,感谢阅读实现远程手术高保真传送。面向远程医疗的宽带移动多媒体应用原型系统研究:结合视频编码的最新感谢阅读成果和业务应用场景,提出面向远程医疗的宽带移动多媒体原型系统的设计方感谢阅读案。结合基于视觉特性的高效编码技术、图像处理技术和宽带移动多媒体技精品文档放心下载术,保证视频在单播以及组播场景下的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 纺织机械操作要点试题及答案
- 纺织机械操作技巧解析试题及答案
- 酒店员工培训方案试题及答案
- 提升质量工程师考试应试能力的技巧试题及答案
- 智能交通设施维护与管理研究试题及答案
- 关键任务质量工程师试题及答案
- 发电厂除氧器的热力系统及运行(热力发电厂课件)
- 智慧交通管理创新试题及答案
- 强化课程电气师资格试题及答案
- 实战经验分享于纺织机械操作试题及答案
- 2024年烟台海阳市卫生健康局所属事业单位招聘工作人员真题
- 延边大学教师岗位招聘考试真题2024
- 青马工程笔试试题及答案
- 豆粕交易合同协议
- 项目设计安全管理制度
- 电子化采购招投标平台系统建设项目解决方案
- 小学京剧知识
- 餐饮行业合伙经营协议书
- 苏教版五年级科学公开课斜坡的启示优秀教学设计和反思
- 中国作家协会入会申请表
- 温控制的PID算法的C语言程序
评论
0/150
提交评论