版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、项目名称:基于视觉特性的视频编码理论与方法研究首席科学家:图文北乐大学起止年限:2009.1 至 2013.8依托部门:教育部一、研究内容由于可以有效节省通信带宽和存储容量,高效率的视频编码技术已经成为数 字视频广播(广播网)、数字媒体存储与网络传输(计算机网络)、以及多媒体通讯 (通信网)等数字媒体产业的共性关键技术。特别是近年来,我国的数字媒体产业迅 猛发展,年均产值已近万亿元,使得音视频编解码标准技术的地位越来越重要。经 过多年努力,2006年中国终于有了自己的视频编码国家标准 AVS但我们仍需未雨 绸缪,从模型、理论、方法和技术上为下一代视频编码国家标准和国际标准的制定 早做准备,确保
2、在下一轮的标准竞争中立于不败之地。从视频编码的需求角度看,编码的主要动机是在尽量保证高质量视觉效果的 前提下最大限度地降低码率,达到压缩的目的。众所周知,人类视觉系统的信息处 理能力远远超过目前的视频处理系统,因此,从方法论上借鉴人类视觉系统的视觉 信息处理基本神经机制和心理机理,构建统一的图像 /视频基本结构与表示模型及 其相应的视觉计算方法,发展将香农信息论与人类视觉系统信息处理原理相结合的 高效视觉信息编码理论与方法,就成为了本项目的基本出发点和立项依据。视频编码处理的核心环节要对视频中包含的视觉信息进行高效的表达和准确 的重建,其本质是视觉信息的基本结构和有效表示问题。为此,我们需要探
3、讨以下 关键科学问题:(1)视频编码可以借鉴的视觉信息处理机理是什么?作为长期进化的结果,人类视觉信息处理系统是至为精致的生物系统之一。但遗憾的是,具基本神经机制、知觉和认知机理目前尚不完全清晰。本项目将从多学科交 叉的角度出发,探索视觉信息处理的基本神经机制和认知机理,研究相应的理论和 模型,对其进行实验验证与计算仿真,以期能够用以指导建立更加有效的视觉计算 模型。(2)视频编码可以利用的符合视觉信息处理机理的计算模型是什么? 尽管人类视觉系统的信息处理机理尚不完全明了,但随着技术手段的提高,脑科 学、神经科学和认知心理学专家已经掌握了越来越多的规律并提出了很多假说和模 型。如何基于这些发现
4、构建相应的、可计算的视觉信息处理数学模型就成为一个重 要的基础科学问题。其解决不仅可以有效促进视觉编码技术的发展,还可以从计算 模拟的角度反过来推动视觉基本机理的研究。(3)与人类视觉系统特性相吻合的视频表示及编码的理论是什么? 香农信息论虽然从理论上给出了编码效率的上界和失真的关系,但并未考虑编码的 符号(事件)集,因而对视频中高阶相关缺乏有效的描述手段。视觉信息论试图借鉴 神经生理学在不同感知阶段对感知对象的抽象,建立对应的符号(事件)集,使之能够方便地描述高阶相关性,体现语义结构,从而丰富信息论理论。符号 (事件)是借 鉴稀疏编码理论通过采用贝叶斯计算视觉感知的后验概率建立的。这将为高效
5、视频 编码提供指导性的理论基础。上述三个关键科学问题紧紧围绕视觉信息处理系统中最核心的表示与编码问 题,分别从生理/心理基本机理、视觉信息处理计算模型、视频编码基础理论三个 层面展开。其中,视觉基本机理既是基本出发点也是落脚点,计算模型是桥梁和纽 带,视觉信息论则是设计和实现下一代视频编码方法和技术的理论基础。围绕上述三个关键科学问题,我们提出的总体研究内容框架如图2所示,以期建立解决这些问题的模型、理论和方法,构建相应的验证平台和原型系统。如图 所示,对应三个关键科学问题,本项目的主要研究内容自底向上分别建立在三个层 面,即:机理与模型层,理论与方法层,关键技术与验证层。下面我们分别从这三
6、个层面对本项目的主要研究内容进行阐述。2.1 视觉基本机理与模型层该层面的研究内容面向的科学问题主要是前两个:视觉信息处理的基本机理 和符合这些基本机理的计算模型。不难理解,二者有天然的紧密联系:一方面,视 觉信息处理基本机理为视觉信息处理的计算仿真、计算模型建立等提供了良好的生 理学和心理学参照系,对其基本规律的认识为计算模型的建立提供了良好的技术可 能性和努力方向。另一方面,计算模型也为基本机理的正确性和模型的有效性提供 了验证机会,有利于推动视觉基本机理的研究。下面分别叙述本项目在视觉基本机 理和计算模型方面拟开展的研究。2.1.1 视觉信息处理基本机理研究在视知觉机理方面,将主要从生理
7、、心理角度,通过神经电生理学、视觉行 为学、药物学等研究手段,在灵长类动物上采用包括微电极矩阵记录方法、高时间 分辨率的事件相关电位(ERP)、功能核磁共振(fMRI)等技术手段从初级视觉皮层V1 神经元群体反应特性入手,研究 V1神经元经典和非经典感受野与上级视觉皮层区 域神经元正向和反向联系、V1神经元之间的横向联系,以及视觉学习过程中神经 元群视觉编码模式的变化特性,探索初级和高级皮层中的神经元群在视觉处理中对 简单和复杂视觉刺激的编码模式以及动态反应模式,各级皮层神经元群对不同视觉 模式识别的贡献,考察视觉注意和知觉组织之间相互影响和交互作用,以验证或改 进现有假说或理论模型(如稀疏编
8、码、群组编码、视觉注意、增量成组假说等 ),乃 至提出有关视觉模式识别的神经机制及编码机理的新假说、新模型,为后续的计算 模型的研究提供神经机制和心理机理方面的基础。图3给出了本项目在视知觉基本机理方面拟开展的主要研究内容,涉及的主要关键问题,机理模型/假说,以及拟采用的技术手段。视知觉基本机理的研究成果为实现人工视觉提供了一条可行的道路,利用基 本视觉机理如稀疏编码、群组编码、增量成组等,根据人类视觉系统在平移、旋 转、尺度下的不变性以及对数据缺失、噪声等问题的自适应性,从计算仿真的角度研究相应的视觉信息处理计算结构,探讨视知觉的计算机理,建立相应的表示和计 算模型。我们将在这一框架下研究包
9、括视觉信息的稀疏表示、初级视觉皮层(V1区)、V2区、V4区和IT区的各个层次、不同复杂度下特征形成的计算模型和实现算法。 具体研究内容包括:在视皮层网络结构第一层上研究视觉信息稀疏表示的机器学习 算法、超完备表示对实现鲁棒图像编码的作用以及基于超完备表示的特征提取方法 等。在第二网络层次上将研究视觉特征成组 (Feature Grouping)机理以及神经网络 拓扑结构和学习算法。在皮层型网络的第三层上则研究整体特征形成机理及计算模 拟算法,在最高层则研究基于整体特征的物体识别模型与算法。2.1.2 面向视频编码的视觉计算模型研究在上述视知觉机理研究基础上,我们将从功能模拟的角度,采用统计学
10、习方 法,研究从图像和视频中学习与视觉感知相对应的视觉信息表示基本粒子结构,建 立形式化数学描述的有关理论和方法。特别要重点研究稀疏编码、增量成组和视觉 注意机制所遵循的基本规律及其可能的计算模型,进而建立与视觉信息处理相关的 统计模型和计算方法。在本项目的研究中,我们将基于静态要素图模型,提出一个针对视觉运动 的、统一的视觉表示模型时空要素图 (Spatial Temporal prImal skeTChgraph STITCH)系统。该系统包含了运动图像序列中每一帧的要素图表示。这些 要素图比以往从静态图像中所获得的要素图显示出更强的语义信息。这些语义信息 主要来源于运动所提供的丰富线索一
11、一考虑到运动的时空相关性以及整体运动的一 致性(coherence),我们可以对每帧静态要素图做进一步的分析处理,如层次化连 接不同粒度的基元和模式等。图与图之间元素的对应关系表示了这些元素在时间上 的动态对应关系。此外,STITCH系统还包括驱使这些要素图产生变化的动力学模 型,如:要素图或其子图的运动、几何变形、以及拓扑结构的变化模型等。我们认 为时空要素图模型是对运动图像序列的一种内在本质表示,它将为编码提供稀疏、 高效的表示,从而有望使得新一代编码技术获得本质性的飞跃。本项目将通过提出上述针对视频信息的“时空要素图”表示模型和计算方 法,研究将视频分解为层次化基元结构的可行性,探讨视频
12、表示及编码的基本数学 模型问题,进而探索视频的内在基本结构,为后续的“视知觉嫡”、“视觉信息 论”、基于视觉特性的高效视频压缩、多维度可伸缩编码、分布式多视点编码和面 向智能监控的视频编码等研究内容提供基础性的视觉表示和计算模型。在视觉注意计算方面,项目将基于前面讨论的 STITCHg示,研究视频的注意 选择计算模型。将视频分解成基元结构后,根据视觉机理中的“中心 -环绕”机 制,视频中的注意区域可定义为运动基元的时空特征拐点,如飞翔的小鸟、飘落的 雪花可能会因其空间特征与周围区域有显著差异而显著性高,而快速行走的人突然 停下来可能会引起运动特征与周围(时间轴)有变化而被关注。显著性可以用特征
13、与中心/环绕类别标记之间的互信息来描述,特征与类别标 记关联越紧密,该特征越能将中心和环绕区域分离开,即中心与环绕区域之间的特 征分布差异越大,则显著性越高这种定义在运动基元上的显著性与现有的基于低级特征 (如颜色、亮度、方向 和光流)的显著性相比更加符合人类的视觉特性,可以为后续基于注意的视频编码 和内容监控提供更多信息。2.2 视频编码理论与方法层上述视觉基本机理与模型层研究的核心内容是视觉信息的有效表示问题,而 视频编码的根本目标则是要使用尽可能少的比特来编码表达原始视频中包含的视觉 信息,因此,上述基本机理和数学模型恰可以利用以进行高效的视频编码,而且这 为突破现有技术框架提出了新思路
14、,即基于视觉特性的高效视频编码理论。从视频编码领域自身技术发展趋势来看,除了提高编码效率这一核心目标之 外,也需要在其他角度上发展。首先,需要适应不同的传输带宽、存储和检索目 的,实现多个维度上的可伸缩编码。传统的可伸缩编码重点在时间、空间和质量上进行伸缩,我们则提出了更多的维度,包括注意可伸缩、动态范围可伸缩等。其 次,分布式系统、立体视系统(尤其是三维电视)等应用需求越来越强烈,因此也特 别有必要针对这类多视频源编码问题进行探讨,即所谓分布式多视点编码。最后, 在视频监控领域,对智能视频监控的需求日益强烈。目前的监控系统均直接采用面 向广播或通信业务的视频编码方法,而没有针对监控任务本身进
15、行特殊的编码,因 此编码和后端的智能分析功能是割裂开的。为此本项目提出一种新的解决思路,试 图将二者更加紧密地联系起来,即在前端编码阶段就尽量多地考虑后端的智能分析 需求。在视频编码理论与方法层面,我们将重点开展四个方面的研究,即:基于视 觉模型的高效视频编码理论、多维度可伸缩编码方法、分布式多视点视频编码方法 和面向智能监控的视频编码方法。它们之间的关系如表 1所示:表1编码理论与方法主要研究内容之间的关系编码方法涉及的机理与计算模型主要的理论与方法主要应用领域基于视觉模 型的图效视 频编码视知觉机理,特别是稀疏编码 理论,视觉计算模型,特别是 局部视觉(基元)模型视觉信息论,视觉要素 编码
16、方法,局部视觉模 型参数编码局清、超局清 视频广播,视 频存储多维度可伸缩编码视觉注意机理,图像/视频显著 性计算模型可伸缩编码理论,注意 区域编码方法流媒体服务,可伸缩质量服 务分布式多视 点视频编码分布式信源相关模型,深度视 觉计算模型分布式编码理论,Wyner-Ziv 编码多视点视频,3D电视面向智能监 控的视频编 码群组编码机理,对象检测与识 别模型,视觉注意机理面向对象编码方法,智 能视频分析与编码,索 引编码智能视频监控,视频检索四个主要研究内容各自具体描述如下:2.2.1 基于视觉模型的高效视频编码理论结合视知觉机理和视觉计算模型,研究符合人类视知觉机理的视频压缩理论 与方法。本部分研究内容将从基础理论、算法与框架以及应用三个方面开展。在基础理论方面,研究基于视知觉嫡的视觉信息论,探讨视知觉机理中给出 的视觉基本组成单元与视觉信息论中基本信源符号的关系,定义合理的基本信源符 号,进而提出视知觉嫡的概念;研究视知觉嫡的测度和数量化方法,特别是视知觉 嫡的动态测度特性,探索鲁棒、易行的视知觉质量评价方法,及其基于视知觉嫡的 率失真理论,进而提出视觉信息论,为基于视知觉的视频压缩提供理论依据。在算法及系统方面,以视觉信息论为指导,研究基于视知觉的视频压缩算法 及系统,设计理论上最优的压缩系统,寻找基于视知觉率失真理论的系统优化方 法。具体而言,就是从人的视觉特性出发,对视
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年AI客服训练师:服务场景中的实体属性抽取训练
- 2026春新外研版英语七下第1单元【The Secrets of Happiness】核心知识点总结
- 塔吊转让合同协议书
- 医学影像科人力资源负荷监测策略
- 班车事故预案
- 外卖行业晋升路径
- 护理查对度专项考试试题(含答案解析)
- 建筑地面节能工程施工方案
- 岐黄国医班职业发展路径
- 《计算机应用 基础》-第7章
- 福建省龙岩市2025-2026学年高二上学期期末教学质量检查语文试卷(含答案)
- 2026年物流师物流管理与供应链优化模拟试题
- 2026春统编版小学道德与法治二年级下册每课教学设计(含目录)新教材
- 工业机器人设备营销课件
- 2025版《中国胰腺癌整合诊治指南》
- 2025年中国科协所属单位招聘笔试真题
- 2026中国国新基金管理有限公司相关岗位招聘14人笔试模拟试题及答案解析
- 2026届新高考语文三轮冲刺复习古代诗歌阅读命题解读
- 7.2《“白山黑水”-东北三省》课件-人教版地理八年级下册
- 燃气管道施工工序安排
- 商誉减值测试内控制度
评论
0/150
提交评论