




已阅读5页,还剩11页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 视频监控系统是一个涉及到计算机硬件、软件、编码、网络等各方面技术的 综合集成系统。本文首先对监控系统的发展阶段和国内外的研究状况作了综述, 提出了一种基于m p e g 4 的网络视频监控系统的系统方案。 整个论文分成五部分。首先讨论了视频监控系统的现况和相关技术。第二部 分介绍了几种常用的视频压缩编码标准,并根据它们之间的特点选择了本系统使 用的m p e g 一4 编码标准。第三部分着重讨论了m p e g 一4 视频编码标准的结构和各个 组成部分,选择了本系统的m p e g 一4 的编码方案,并对一些部分作了适当的优化。 第四部分介绍视频监控中在网络通信的传输技术,确定了本系统采用的网络传输 方案,熏点讨论m p e g 一4o v e rr t p r t c p 的实现。第五部分是基于m p e g 一4 网络视 频监控系统的设计和监控端软件的设计和实现。 关键词:i v l p e g 4 标准,视频监控,r t p r t c p ,流媒体 a b s t r a c t v i d e o m o n i t o r i n gs y s t e m i sa c o m p r e h e n s i v es y s t e m i tr e f e r st os e v e r a lt e c h n i c a l f i e l d si n c l u d i n gc o m p u t e rh a r d w a r e ,s o f t w a r e ,c o d i n ga n dn e t w o r k e t c i nt h i sp a p e r , t h ed e v e l o p m e n ta n dr e s e a r c hs t a t u si si l l u s t r a t e d a n dap r o j e c to f n e t w o r kv i d e o m o n i t o r i n gs y s t e mb a s e d o n m p e 9 4 s t a n d a r di sb r o u g h tf o r w a r d t h ew h o l e p a p e ri so r g a n i z e d i nf i v ep a r t s t h ef i r s tp a r ti sas u m m e r yo fv i d e o m o n i t o r i n gs y s t e m a n di t sr e l a t i v et e c h n o l o g i e s ,t h es e c o n dp a r ti n t r o d u c e ss e v e r a l v i d e oc o m p r e s s i o n c o d i n g s t a n d a r d s a n dw i t ht h ec o m p a r eo ft h e s es t a n d a r d s ,w e c h o o s et h em p e g - 4a st h ec o d i n gt e c h n o l o g yo f o u rs y s t e m w h i l ei nt h ef o l l o w i n g p a r tw e d i s c u s st h es t r u c t u r ea n ds e v e r a lc o d i n g t e c h n o l o g i e si nm p e g 一4s t a n d a r d , a n dc h o o s et h ep r o f i l ea n d c o d i n gs c h e m e w h i c hi sa d o p t e db yo u rm o n i t o r i n gs y s t e m i nt h ef o r t h p a r t ,t h et r a n s p o r t i n gt e c h n o l o g y o v e rn e t w o r ki si n t r o d u c e d ,a n dw e d e s i g n t h en e t w o r k t r a n s p o r t i n gs c h e m e o fo u rs y s t e m ,f u r t h e r m o r e ,w ed i s c u s s e dt h e r e a l i z a t i o no fm p e g - 4o v e rr t p r t c p p r o t o c o l s t h el a s tp a r tg i v e s t h ed e s i g n a t i o n o f t h en e t w o r kv i d e om o n i t o r i n gs y s t e mb a s e do nm p e g 一4 a l s ow ei l l u s t r a t et h e d e s i g n a t i o na n dr e a l i z a t i o no fp a r t so f t h es o f t w a r em o n i t o r i n ge n d k e y w o r d s :m p e g - 4s t a n d a r d ,v i d e om o n i t o r i n g ,r t p r t c p ,s t r e a m i n g 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导r 进行的研究作及取得的研究成果。尽我所 知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰 写过的研究成果也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材 料。与我一同二 作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢 意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: ! 垒蝤 日期: 芝:! : 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留平| i 使f l _ j 学位论文的规定,即:研究生在校 攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部 门或机构送交论文的复印件1 r i 磁盘,允许学位论文被查阅和借阅;学校可以公布学位论 文的全部或部分内容,可以允许采n i p , e p 、缩印或其它复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 丝! 亟 日期:堡兰:! :竺 导师签名:二垂李爿l 一一同期:坦笪:! :挈 北京邮电大学顶。卜学位论文 第一章概述 1 1视频监控系统简介 随着科学技术的发展和信息时代的到来,具有智能化、网络化、数字化特征 的各种高科技新技术不断涌现。在社会生产和人们日常生活中的方方面面,这些 技术得到了日益广泛的应用,降低了社会生产成本,提高了生产效率,节省了大 量的人力物力,也给人们的生活带来了更多的便捷、舒适和享受。 视频监控技术正是其中之一。它综合利用了现代视频图像处理、光电传感、 计算机网络、自动控制和人工智能等高新技术,实现了现场语音视频信息实时再 现、数据存储、自动检测报警、自动远程控制等功能,以其直观、方便、信息内 容车富的特点,同益受到人们的青昧,被广泛应用于安全防范、无人职守、信息 获取和指挥调度场合,如:银行柜台监控、交通违章和流量监控、边防监控、智 能小区安全监控等等。 传统的视频监控技术的发展大致经历了三个阶段。在九十年代以前,主要是 以模拟设各为主的闭路电视监控系统,称为第一代模拟监控系统。主要特点是: 使用黑白模拟摄像机采用模拟方式传输图像信号,抗于扰能力低,图像质量差, 系统功能单一。传输距离一般不能太远,主要应用于小范围内的监控,如大楼监 控等,监控图像一般只能在控制中心查看。 九十年代初,随着计算机微处理器技术和彩色视频技术的发展与普及,视频 监控技术有了第一次质的飞跃,原来的黑臼图像变成了富有生机的彩色图像。人 们利用计算机的高速数据处理能力进行视频的采集和处理,利用显示器的离分辨 率实现图像的多画面显示,从而大大提高了图像质量。但由于网络技术和视频压 缩技术的滞后,无法组建大型监控系统,监控信息局限于本地。这种基于p c 机 的多媒体主控台系统称为第二代数字化本地视频监控系统。 九十年代末,随着网络带宽、计算机处理能力和存储容量的快速提高,以及 各种实用视频压缩处理技术的出现,视频监控步入了全数字化的网络时代,称为 第三代远程数字视频监控系统。第三代视频监控系统以网络为依托,以数字视频 的压缩、传输、存储和播放为核心,以智能实用的图像理解和分析为特色,引发 了视频监控行业的技术革命。新的监控技术完全打破了传统的结构,依靠功能同 益强大的计算机,不仅可以处理文本、数据、图形等,还可以处理视频、声音等 信息,成为真正的多媒体监控终端。再加上网络和通信技术的发展,多媒体信息 的交互和共享趋向更广阔的空间。从局域网络到广域网络。从个城市到另一个 城市,从一个国家到另个国家,都能完成在现场所能完成的一切任务。数字化、 北京邮电大学颂士学位论文 网络化的第三代视频监控技术,与传统的模拟监控技术相比较,还具有:便于模 块化,通用性、可扩展性强:便于智能化、支持远程控制,监控效率更高:信号 抗干扰强,便于对信号进行存取、查找、再次处理;易于安装管理维护,等优点。 第三代网络视频监控技术,融合了新兴的网络技术、多媒体技术、视频技术, 是技术发展和社会进步的一次巨大飞跃,具有深远的现实意义。例如:交通监控 系统不仅能实时收集交通流量参数,对违章车辆的拍照记录加强了交通监管力 度,由此产生的警示作用有利于司机的行为自律,保障交通安全,倡导遵章守纪 的良好社会风尚。对便捷的远程网络访问能力支持,使得视频监控技术可以进入 普通百姓家庭,应用于幼儿看护,智能家居等场合,改变人们传统的生活方式。 视频监控技术还可以应用于企业管理和生产经营管理,提高尘产效率。第三代网 络视频监控技术具有广阔的发展前景和巨大的商机,加之其强大实用的功能,可 拓展的技术空间,良好的社会价值,因此受到了学术界、产业界和相关使用部门 的高度重视,是当前信息产业发展的热点之一。 1 2视频监控系统相关技术 多媒体通信综合了多种媒体信息间的通信,它是通过现有的各种通讯网来传 输、转储和接收多媒体信息的通信方式,几乎覆盖了信息技术领域的所有范畴, 包括数据、音频和视频的综合处理和应用技术。它所涉及的部门众多,种类繁杂, 而技术的发展又是如此迅猛,所有这些使多媒体成为近年来最时兴但又是十分混 乱的一个新领域。 多媒体通信包含两个方面的技术:其一是多媒体技术,即利用多种输入输出 装置的交互作用,将信息以多种媒体的方式协调地表示出来并通过计算机进行综 合处理和控制;另一方面为网络通信技术,即利用各种网络协议,实现多媒体信 息在通信网络上地传输与处理。其中的关键技术包括以下几个方面: 1 音频和视频的压缩编码技术 多媒体信息的数据量非常庞大,如果不经过压缩,以当前网络的数掘传 输速率很难进行实时传输,而且对网络服务器的存储容量以及多媒体信息的 同步都提出了很高的要求。为了解决这些矛盾,在不断改善多媒体网络环境 的同时,更重要的是必须对多媒体数据进行压缩。多媒体数据压缩技术研究 的主要问题包括数据压缩比、压缩解压速度和简洁高效的压缩算法。 2 多媒体通信终端技术 多媒体通信终端是多媒体通信系统中的基本单元,一般是媒体数据的发 送端或接收端。其基本结构包括多媒体的硬件系统以及软件系统。通过硬件 系统和软件系统的配合要实现多媒体信息的采集、接收、处理、存储、传送 北京邮电大学预小学位论文 以及媒体信息同步,信道控制等功能,该论文的主要任务就是实现了在基于 i p 的网络环境下的多媒体通信的服务器端和客户端。 3 ,多媒体通信网络技术 多媒体通信网络首先要求具有足够的带宽。这是由两方面决定的,一方 面是因为多媒体通信的数据量极大:另一方面是同步、实时传输与时间相关 性的媒体信息的需要。其次是要求具有极低的延时,这是由多媒体通信的实 时性决定的。目前,可以开展多媒体通信业务的网络有电话网、i s d n 网络、 i p 网络和a t m 网络,但是不同的网络对多媒体通信的要求不尽相同,因此, 如何在现有各种网络上丌展多媒体通信业务也是多媒体通信研究的一个重 点。 4 多媒体信息传输机制 多媒体信息的传输机制主要涉及三方面的内容,即多媒体网络协议、通 信服务质量q o s 以及多媒体的同步技术。多媒体网络协议包括媒体传输的协 议以及信令控制协议两部分,目的是为了傈证不同厂家设备闻的互联互通。 通信服务质量( q o s ) 是对多媒体通信效果的主要表示参数,主要用于描述通信 双方的传输质量。其基本参数包括吞吐量、网络传输稳定性、可用性、可靠 性、传输延时、时延抖动、丢包率等。多媒体的同步技术是多媒体网络的重 要机制,也是重要的服务质量参数。 1 3 本论文的课题任务和主要工作 本课题的主要任务是基于m p e g 4 的视频压缩技术与流式媒体技术相结合的应 用研究。具体来说,主要研究在流式媒体通信技术中的视频的编码技术和流式媒 体豹传输机制。编程实现一套采用基于m p e g 4 编码技术和流媒体传输技术的 远程视频监控系统。该系统是组成北京邮电大学布来得通信技术开发公司光缆检 测系统中的一个功能模块,目的是实现光缆检测的远程监控。主要内容包括: 1 、视频编码技术研究。在分析和比较当前各种视频编码技术标准的基础上, 提出每种编码的应用场合,重点分绍了m p e g 4 视频编码理论。 2 、网络传输技术研究。在分析了几种有代表性的网络传输技术模型的基础 上,提出了适合基于网络的数字视频监控系统的网络传输技术,并具体实 现。 3 、总体设计方案的提出。提出了基于m p e g 4 的网络视频监控系统的总体 设计思想以及实现的关键技术,给出了系统硬件和软件的设计框图。 4 、系统主要模块的设计以及实现。重点分析介绍了网络传输与控制模块和数 据解码与显示模块的设计及具体实现,给出了模块中主要程序的代码。 一 j ! 蔓! ! ! ! ! 皇查兰! ! :堂焦堕壅 第二章视频压缩编码技术 视频编码压缩算法是龉控系统的核心算法,选择一个合适的编码算法是能否 成功实现整个系统的关键。可喜的是,近年来围绕低码率视频压缩编码新技术的 研究一直非常活跃,i t u 和i s o 也相应陆续发布了针对甚低码率视频压缩编码的 新标准,如h 2 6 3 、m p e g 4 、h 2 6 l 以及最近提出的h 2 6 4 等。本章,将对这些 技术和标准作简单的介绍和对比,从中选择合适的编码技术,作为低码率监控系 统的核心编码算法。 2 1视频编码技术分类 低码率的视频编码技术从思想方法上大致可以分为两大类:波形编码和模型 编码。 波形编码是基于信息论的相关理论思想,将视频信号视为2 d 或3 d 波形信号, 从其内在统计规律出发,研究有效去除视频信号的空间、时间冗余性,实现信息 压缩的编码方法。常见的预测编码、变换编码( d f t 、d c t 等) 、子带小波编码、 分形编码、矢量量化编码等,都属于这一类。 模型编码,顾名思义,是基于对视频图像内容的理解,根据图像模型假设, 利用图像中目标或景物的结构化特征达到高的压缩比,实现信息压缩的编码方 法。模型编码的三个重要阶段是:建模( 利用2 d 图像序列重构3 d 或2 d 图像 模型) 、图像分析和图像合成。 图像模型是决定模型编码好坏的关键因素,因此模型的选择至关重要。模型 包括图像模型和视觉模型两大方面,可分为2 d 模型、3 d 模型或参数化模型、 非参数化模型几大类。参数化模型由于参数集有限,抽象描述性高,合成的自然 景物缺少真实性,更适用于图像分析。非参数化模型是对复杂生物形式建模的主 要工具,但操作较复杂,适合用于图像合成,不适用于分析。结合二者的优缺点 参数化用于分析,非参数化用于合成,会取得更有效的编码系统。但在现阶段, 要实现二者之间的映射还很困难的。 模型编码还可细分为两类:基于普遍景物的面向对象的编码,和基于特定景 物的面向语义的编码。前者针对未知物体,采用一般性的参数集台,如:景物集、 形状集、色彩集等,描述编码图像对象:后者针对特定景物对象,采用限定的参 数集,描述编码图像对象。面向对象的编码,关于景物的先验假设、知识少,需 在编码过程中实时估计模型参数,实时建模,因此可以适用于一般的景物对象; 韭塞堕塑奎兰堕主兰笙堕苎 一 但对景物的知识利用较少,编码效率不够高。语义编码针对特定的景物,先建立 模型,通信时只需要传送基本特征参数或运动参数,编码效率高。 模型编码在提供高压缩比的同时,提供了对图像内容进行结构化描述的方式, 使其适用于需对图像内容进行编辑、操作、处理的场合。m p e g 一4 标准中就纳入 了模型编码的思想。如:m p e g 一4 中基于形状、纹理、网格的编码是面向对象的 模型编码;基于f d p 人脸定义参数集和f a p 人脸活动参数集,对图像中的人脸 对象的编码是基于语义的模型编码。 2 2h 2 6 3 视频编码标准 h 2 6 3 是i t u t 于1 9 9 6 年制订的专门针对甚低码率视频通信应用的视频压缩 标准。1 9 9 6 年3 月h 2 6 3 推出了第一版,有4 个高级模式;1 9 9 8 年1 月推出了 第二版,又称为h 2 6 3 + ,修证了一个高级模式,增加了1 0 个高级模式:2 0 0 0 年1 1 月推出了第三版,称为h 。2 6 3 + 十,再新增了3 个高级模式。h 2 6 3 版本的升 级对旧版本保持兼容,但功能有了增强,提高了视频压缩效率,增强了传输鲁棒 性,扩大了适用范围。 h 2 6 3 具有高压缩比、较强鲁棒性等特点,尤其适用于p s t n 及无线或i n t e m e t 网络环境下的视频传输,已被工业界广泛采用,如:可视电话标准i t u t h 3 2 4 ( p s t n ) 、h 3 2 0 ( i s d n ) 祁h 3 1 0 ( b - i s d n ) 等均采用了h 2 6 3 为视频部分的编 码标准。i s 0 以e cm p e g 4 标准也大量借鉴了h 2 6 3 的视频压缩方案。最初h 2 6 3 确定目标比特率低于6 4 k b p s ,现在已无此限制,对4 c i f 、1 6 c i f 的支持使得h 2 6 3 可以与高比特率视频编码m p e g 系列标准相抗衡。 h 2 6 3 标准是在h 2 6 1 标准的基础上发展起来的,两者的编码框架相似,不 周的是在基本算法中,h ,2 6 3 采用了更为精确豹半象素运动估计取代h 2 6 1 的整 象素运动估计和环路滤波。h 2 6 3 采用的基本编码方式是帧内编码( i n t r a ) 和 基于运动估计和补偿的帧阃编码( i n t e r ) 。 h 2 6 3 处理4 :1 :l 的y u v 空间视频信号,压缩处理的基本数据结构单元是1 6 1 6 宏块( m a c r o b l o c k ) ,一个宏块由4 个8 8 亮度块( b l o c k ) 和2 个色度块 组成,相邻的若干老块被定义为一个块组g o b 。运动估计在常舰模式中是对1 6 1 6 的宏块进行,褪到的运动矢量为半象索精度。协议本身没有规定具体运动 估计算法。对经过预测的运动补偿帧间误差采用8 x 8 的分块d c t 变换去除空间 冗余信息。d c t 系数经过量化、熵编码( h u f f m a n ) 后形成码流。h 。2 6 3 还引入 了m p e g 中p 、b 图像的思想,规定了p b 帧、b 帧模式。 h 2 6 3 的高级模式主要有: i 无限制的运动矢量:运动估计的匹配块可以部分位于图像区域之外,使得图 北京邮电火学颊0 学位论业 像边界处的宏块仍然可以得到较好的预测。对摄像机运动和大图像格式的情 况特别有用。 2 高级预测模式:运动估计是基于8 x8 块,而不是基于1 6 x1 6 的宏块,这样 每个宏块可以具有四个运动矢量,运动估值更精确。解码器由预定义的加权 表采用交迭块运动补偿技术( o v e r l a p p e d b l o c k m o t i o n c o m p e n s a t i o n o b m c ) 得到预测的象素值,o b m c 能消除块效应,改善解码图像质量。 3 p b 帧模式:p b 帧统一编码,p b 帧对应的宏块数据( 共1 2 个b l o c k ) 接在同 一个宏块头后面。p b 帧中的b 帧作双向预测。 4 基于语法的算术编码( s a c ) :可以获得比h u f f m a n 编码更高的压缩比但编 解码器的复杂度会有所提高。 5 修正的非限制运动矢量模式:对运动矢量采用一种新的单精度的可逆变长编 码( r v l c ) ,支持任意大小的运动矢量编码。 6 高级帧内编码模式:由于帧内( i n t r a ) 数据和帧削( i n t e r ) 预测误差数 据具有不同的统计特性,对帧肉数据采用单独的v l c 编码表。同时,对帧内 数据可以采用三种不同的预测方式:只对直流系数进行、对水平第一行系数 进行、对垂直第一列系数进行。 7 去除块效应滤波模式:滤波可以很好地去除编码过程中引进的块效应。 8 片断结构( s l i c e ) 模式:形状位置可变的灵活片断结构( s l i c e ) 代替块组 ( g o b ) 。 9 追加增强信息模式:支持图像冻结、图像快照、视频分段等功能。 l o 改进的p b 帧模式:b 帧允许作双向、前向、后向预测。 1 1 参考图像选择模式:可灵活选择参考图像,克服帧削编码误差传播。 1 2 时间、空间、信噪比可伸缩模式:分级扩展,在同一码流中支持不同的 时空分辨率,或不同信噪比的图像。 1 3 参考图像再抽样模式:对参考图像作变换后再用于预测。当参考图像帧 与源图像格式不同时很有用。 1 4 简化的分辨率更新模式:编码器发送更新信息给较低分辨率图像帧来得 到高分辨率图像。此模式对有复杂背景且运动剧烈的图像帧很有用。 1 5 独立的分段解码模式:限制运动矢量估计于图像的某一分段内部。限制 了错误传播。 1 6 1 7 1 8 可选的帧阃v l c 模式:对某些大量化系数小零游程较多的帧洲块使用帧 内v l c 编码表。 修改的量化模式:对宏块、色度块、d c t 系数的量化作了更好的规定。 数据分割模式:将图像帧中所有的宏块头信息、运动向量、d c t 系数集 北京邮电夫学顸十学位论立 中在一起分别传输。这样便于分级保护。 h 2 6 3 的主要高级模式适合于不同的应用场合,能在不同程度上提高系统性能。 2 3m p e g 4 视频编码标准 i s om p e g 组织于1 9 9 9 年1 月正式公布了m p e g 一4 ( i s o i e c1 4 4 9 6 ) v 1 0 版本,1 9 9 9 年1 2 月又公布了m p e g - 4v 2 ,0 版本。m p e g - 4 制定的初衷是针对视 频会议、视频电话的甚低码率编码。但在制定的过程中,m p e g 组织深切感受到, 软硬件技术的发展和应用需求的变化,迫切要求将编码与基于内容的检索综合起 来考虑。于是m p e g 组织修改了计划,制定了现在意义上的基于内容( 对象) 的压缩编码标准:m p e g 一4 。 m p e g 4 标准为多媒体数据压缩提供了一个更为广阔的平台,它更多定义的 是一种格式和框架,而不是具体的算法。人们可以在系统中随时加入新的有效算 法模块,可以将各种各样的多媒体技术充分用于编码中,如压缩工具和算法、计+ 算机视觉、计算机图形、图像分析合成、虚拟现实和语音合成等。m p e g 4 具有 面向基于内容的交互性、高压缩率、灵活多样的存取模式等特点,在这里就不一 一赘述,而只详细讨论m p e o 4 的甚低码率视频编码特点。 m p e g 一4 视频支持的码率和相应的功能如图2 1 所示。可以看到,其功能集 的底层核心是甚低码率视频压缩。m p e g 4 视频压缩算法借鉴了很多h 2 6 3 中的 思想和算法,但也有其独到的地方。 为支持面向对象的交互,m p e g 4 中引入了视频对象( v i d e oo b j e c t ) 的概念。 视频码流的语法分为视频会话( v s ,v i d e os e s s i o n ) 、视频对象( v o ,v i d e o o b j e e t ) 、视频对象平面层( v o l ,v i d e oo b j e c tl a y e r ) 、视频对象平面组( g v o ) 和视频对象平面( v o p ,v i d e oo b j e c tp l a n e ) 五层。一个视频序列出若干个v s 构成。v o 是场景中的某个物体,由时间上连续的许多帧构成,是用户能够存取 和操作( 如剪切、粘贴等) 的实体。若干个v o 构成一个v s 。v o l 对应着一个 v o 的不同空间或时间分辨率,每个v o 可以有多个v o l 。v o p 是v o 或v o l 在某一时刻的表象,即某一帧v o 。根据采用的编码方式,v o p 可以分为l 、p 、 d 和s 四种类型,分别对应帧内编码、帧i 训预测、双向帧问预测、全景图( s p r i t e ) 编码方式。多个v o p 构成一个g o v 。g o v 是一个可选层,主要目的是为了提 供随机访问、重同步、数据恢复等能力。 v o p 是m p e g 一4 中重要的数据结构,通过v o p ,高压缩比和基于内容的访 问得以实现。v o p 的获取往往涉及图像分割、运动图像分析等技术,目前实时 分割v o p 还具有较犬的难度。 v o p 由形状、纹理、运动三部分编码信息组成。其中纹理、运动估计、运动 北京邮电大学硬? i :学位论文 补偿在原理上同h 2 6 3 是一致的,如半象素运动搜索、无限制的运动估计、高级 预测模式、交迭块运动补偿o b m c 、d c t 变换及量化、h u f f m a n 编码等。当v o p 的形状取为传统的m b 矩形时,编码算法和i - i 2 6 3 、m p e g - l 、m p e g 2 是相近 的。 形状编码是图像编码中第一次引入的技术。基于1 6 x1 6 宏块的形状编码算法 可对任意形状的v o p 进行编码。形状编码分为二进制和灰度a l p h a 平面格式两 种。二进制平面中的点只能取0 和2 5 5 两个值,而灰度a l p h a 平面中的点可以在 0 到2 5 5 之间取值。m p e g 4 允许采用基于语义的算术编码( c a e ) 或其他基于 几何轮廓的编码技术对二进制形状块( b a b ) 编码。对灰度a l p h a 值则视为二进 制形状的纹理特征,附加在二进制形状编码之后。 m p e g 4 中还引入了全景s p r i t e 图像的概念。s p r i t e 主要是针对背景图像提出 的,为了有效编码背景视频对象,可以将其在一段时间的内容拼接成一副完整的 背景图像,这样的图像就叫做s p r i t e 图像。s p r i t e 图只需编码传输一次并存放在 解码端,随后的图像只需要传输摄影机相对于背景的运动参数,就可以从s p r i t e 上恢复所有的图像背景。s p r i t e 作为m p e g 4 的重要概念之一,极大地提高了编 码的效率。但s p r i t e 编码的实现,必须满足两个前提条件:一个是前景与背景要 能很好地分开,另一个是要做到无痕迹地从一段视频中拼接出s p r i t e 图像。 幽2 1 :m p e g 一4 视频支持的码率段和相应的功能组成 2 4 h 2 6 4 视频编码标准 h 2 6 4 标准的主导思想是与其他的视频编解码标准一致的基于块的混合 编码方法,但是它同时运用了大量不同的技术,使得其视频编码性能优于现有的 其他任何标准。 h 2 6 4 与以往的编码方法不同的是如下几个方面: 1 h 2 6 4 采用了不同大小和形状的宏块分割与亚分割的方法。一个宏块的 北京邮电大学硬十学位论文 1 6 x 1 6 亮度值可以按照1 6 x 1 6 、1 6 x 8 、8 x 1 6 或8 x 8 进行分割,而如果选择了8 x 8 分割,那么还可以按照8 x 8 、8 x 4 、4 x 8 或4 x 4 进行亚分割,这些宏块分割与亚分 割的模式可以组合出许多种宏块的分割方法。 2 ,h ,2 6 4 可以达到四分之一像素的运动精度,这是通过利用整像素点的亮度 值进行内差得到的。内差过程先是通过6 抽头的滤波器来获得半像素精度,然后 用线性滤波器来获得四分之一像素的精度。又由于4 :2 :0 采样的关系,色度的运 动精度就达到八分之一像素,这也是通过线性滤波器插值得到的。 3 h 2 6 4 还可以采用多参考图像( 最多前向和后向各5 帧) 柬进行运动预测。 4 h 2 6 4 也在b 图像中利用后向运动预测,这和以前的标准是一致的,但 不同的是b 图像通过加权也能作为其他图像的参考图像。 5 h 2 6 4 根据相邻像素可能有相同的r 眭质,利用了相邻像素的相关性,采用 了新的i n t r a 预测这种模式。通过当前像素块的左边和上边的像素( 已编码重建) 进行预测,只对实际值和预测值的差值进行编码,这样就能用较少的比特数柬表 达i n t r a 编码的像素块信息 6 h 2 6 4 把运动估值和i n t r a 预测的残差结果从时域变换到频域。使用了类 似于4 x 4 离散余弦变换d c t ( d i s c r e t ec o s i n et r a n s f o r m ) 的整数变换。 7 h 2 6 4 使用了两种熵编码方法,即基于上下文的自适应变长编码c a v l c ( c o n t e x t - b a s e d a d a p t i v e v a r i a b l e l e n g t hc o d i n g ) 与一致变字长变码u v l c ( u n i v e r s a lv a r i a b l el e n g t h c o d i n g ) 相结合的编码和基于上下文的自适应二进制 算术编码c a b a c ( c o n t e x t b a s e d a d a p t i v eb i n a r y a r i t h m e t i cc o d i n g ) 。 以上所有的这些新技术使得h 2 6 4 有着令人惊讶的压缩效率? 但是同时也造 成了编解码复杂度的大大增加,在p 42 0 g h z ,2 5 6 m d d r 的p c 上,h 2 6 4 口i 缩一帧c i f 格式的图像就需要近一秒的时i 刨,显然这样的压缩效率离实际应用的 要求还有不小的差距。 2 5 视频压缩标准的选择 在前面几节中,我们对当前最流行的三个低码率视频压缩编码标准做了简单 的介绍。 h 2 6 4 是性能最优异视频编码标准 考帧、多块分割等最新的视频编码技术 它引入了c a b a c 、帧内预测、多帧参 达到出色的视频压缩效果,但是同时我 们也可以看到优异的性能是以高复杂的运算和高要求的资源所换取的,所以要实 现h 2 6 4 编码标准,不太现实。 h 2 6 3 是性能优异的,针对低码率视频压缩的国际标准。其多种高级编码模 式,有助于用户根据不同的应用需求选取最优的编码方案。对比起其他两个标准, 北京邮电大学硕士学位论文 h 2 6 3 在压缩性能和计算复杂度上都有比较出色的表现,目前被广泛的应用在低 码率嵌入式视频领域。 m p e g 一4 基于对象的压缩算法引入了很多新的思想和模型,基于形状的编 码、s p r i t e 编码、网格对象编码、人脸对象编码等等,都有助于提高压缩性能。 但我们也应该看到,上述的这些新颖的算法思想,或者针对特定的对象模型,或 者在现有的图像理解、计算机视觉发展水平阶段,并不具备实时性或普遍适用性。 但是,m p e g 一4 提供了s i m p l ep r o f i l e 和a d v a n c e ds i m p l ep r o f i l e ,他们在基本编 码思想上与h 2 6 3 相似,编码效率也较h 2 6 3 高。 综合考虑算法的计算量、压缩性能、成熟度、资源开销、今后的扩展等各方 面的因素,考虑到视频监控系统丌发的需求,我们决定选用m p e g 一4 作为低码 率监控视频压缩编码的核心框架。在下一章中,我们将对m p e g 一4 标准作详细 的讨论,并且对相关的算法进行优化和改进。 i ! 蔓堕坐兰塑:;:! :竺堡垒兰一 第三章m p e g 4 标准与编码方案的选择 3 i基于对象的视频编码框架 m p e g 4 是一种基于对象的视频编码标准,编码的基本单元是对象,基于对 象的编码主要是针对纹理、形状、运动这三种信息的编码技术。图3 - l 所示的是 可以对任意形状的视频对象进行编码的通用框架。总体来说与对象的视频编码过 程可以分为三步进行: 1 ) 从原始视频流中采用全自动、半自动、人工等方法分割出视频对象。 2 )对视频对象进行编码,对不同的视频对象的运动信息、形状信息和纹理 信息分配不同的码字。 3 1对各个视频对象的码流进行复合。 图3 - i基于对象的视频编码通用框架 3 2m p e g - 4 的结构与语法 m p e g 一4 的视频码流提供了对视频场景得分层描述。分层的每一级都可以通 过码流中被称为起始码的特殊码值进行访问。起始码是一些在视频流的其它部分 不会出现的特殊的比特组合。每一个起始码由起始码前缀和跟在它后面的起始码 值组成。起始码前缀是一个由2 3 个0 和1 个1 组成的比特序列,也就是“0 0 0 00 0 0 0 0 0 0 00 0 0 00 0 0 00 0 0 1 ”。起始码值是一个8 b i t 整数,它柬指示起始码类型大多数 类型起始码使用唯一的起始码值。但是,v i d e oo b j e c ts t a r tc o d e 和 v i d e o _ o b j e c t _ l a y e r _ s t a r t _ c o d e 可以有多个起始码字。 索有起始码字都是字节对齐的。这可以通过在起始码前缀前先插入一个0 再 插入若干个】来实现。表3 - 1 给出了填充】穗比特对豹填充码字。 ! ! 塞业塑查堂堡兰竺堡;! j ! ; 填充的比特数 填充码字 l 0 20 1 3 o l l 4o l l l 50 1 1 1 l 6o l l l l l 70 1 1 1 1 1 1 80 1 1 1 1 】1 l 表3 2 给出了部分起始码的值。 表3 一l 填充码字 名称起始码值 ( 1 6 进制) v i d e o o b j e c t + s t a r t _ c o d e0 0 t h r o u g h1 f v i d e o _ o b j e c t _ l a y e r _ s t a r t _ c o d e 2 0t h r o u g h2 f r e s e r v e d3 0 t h r o u g h3 f r e s e r v e d6 0t h r o u g ha f v i s u a l o b j e c ts e q u e n c e _ s t a r t _ c o d e b 0 v i s u a l o b j e c ts e q u e n c e e n dc o d e b 1 u s e r _ d a t a _ s t a r t _ c o d e b 2 g r o u po f _ v o p _ s t a r t _ c o d e b 3 v i d e o _ s e s s i o n _ e r r o r _ c o d e b 4 v i s u a i _ o b j e c t _ s t a r t _ c o d e b 5 v o p _ s t a r t _ c o d e b 6 s l i c e _ s t a r t _ c o d e b 7 e ) ( t e n s i o n s t a r t _ c o d eb 8 s t u f f i n g s t a r t c o d e c 3 r e s e r v e dc 4 c 5 s y s t e ms t a r tc o d e s ( s e en o t e ) c 6 t h r o u g hf f n o t e s y s t e ms t a r tc o d e sa r ed e f i n e di ni s o t l e c1 4 4 9 6 - 1 表3 - 2 起始码值 m p e g - 4 使用上述的起始码至上而下将整个码流分成几层,如图3 - 2 所示。 1 2 北京邮电大学硕士学位论文 髓期i 封姐序刊般r v 3 ) 他瓢划蛊( w ) 桃捌对藩塍 v o l 赡稽? 肘器平嘛纽( a 0 v 觎嘏剐箍九酮f v o p l 图3 - 2m p e g 4 的视频码流逻辑结构图 用来描述场景得分层级为: l 。视频对象序列( v s ,v i d e o o b j e c ts e q u e n c e ) 它表示完整的m p e g - 4 的场景,可以包括任何二维( 2 d ) 或三维( 3 d ) 自 然或合成对象以及他们的增强层。 s u a i o b i e c t s e q u e n c e ( ) v i s u a l o b j e c t o 2 ,视频对象( v o ,v i d e o o b j e c t ) 一个视频对象对应着场景中的一个特定对象,可以是任意形状的对象,也可 以是矩形帧。 v i s u a l o b j e c t o v i d e o o b j e c t l a y e r ( ) 3 视频对象层( v o l ,v i d e o o b j e c tl a y e r ) 根据应用的具体要求,每一个视频对象都可以用分级或不分级的方式进行编 码,用视频对象层来表征。v o l 提供,对可分级编码的支持。一一个视频对象可 以用空间或时间分级来编码。分辨率可以从粗糙到稽细,译码器可以根据可用带 北京邮电大学i 嘶士学位论文 宽、计算功率、用户需求等参数或的期望的分辨率。视频对象层包括:基本层和 增强层。基本层只有一个,增强层可以有多个,每一层表示一种分辨率。 v i d e o o b j e c t l a y e r 0 d o f i f ( n e x t _ b i t s ( ) 一g r o u po fv o p _ s t a r tc o d e ) g r o u p o f v i d e o o b j e c t p l a n e ( ) v i d e o o b j e c t p l a n e ( ) ) w h i l e ( ( n e x t _ b i t s ( ) 5 。g r o u p _ o f _ v o ps t a r t _ c o d e ) 1 i ( n e x t b i t s 0 = = v o p _ s t a r t _ c o d e ) ) + 如果使用短头格式( 可以通过起始码字米判断) + ( s h o r l v i d e o _ h e a d e r = i d o v i d e o p l a n ew i t hs h o r th e a d e r ( ) w h i l e ( n e x t _ b i t s o s h o r t _ v i d e os t a r tm a r k e r ) ) ) 4 视频对象平面组( g o v ,g r o u p o fv i d e oo b j e c tp l a n e s ) g o v 可以提供码流的随机访问点,g o v 是任选的。 g r o u po f _ _ v i d e o o b j e c t p l a n e ( ) 5 视频对象平面( v o p ,v i d e o o b j e c tp l a n e ) 一个v o p 是对一个视频对象的时间采样,包括视频对象的运动参数、形状 信息和纹理数据,对v o p 编码就是针对某一时刻该帧的v o 的形状、运动、纹 理等信息进行编码。一个普通的视频帧可以用矩形的v o p 来表征。 v i d e o o b j e c t p l a n e 0 f m o t i o n _ s h a p e _ t e x t u r e ( ) 北京邮电大学硕l :学位论义 w h i l e ( n e x t b i t s _ b y t e a l i g h e d ( ) 一r e s y n c _ m a r k e r ) v i d e o _ p a c k e t _ h e a d e r ( ) m o t i o n _ s h a p e _ t e x t u r e ( ) ) 3 3基于v o p 的编码体系 上一节我们介绍了m p e g 一4 的体系结构,可以看到整个视频场景是通过对每 一个v o p 的编码来实现的,这一节,我们将着重探讨基于v o p 的编码体系。 m p
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年智能AI在影像诊断中的智能辅助诊断平台构建报告
- 2025年数字化设计与仿真在模具制造中的三维打印技术应用报告
- 云南省楚雄州双柏县2021-2022学年五年级上学期期中学业质量检测科学试题(含答案)
- 福建省莆田八中2026届高二化学第一学期期中质量检测试题含解析
- 2025年营养师考试专项训练试卷:冲刺阶段营养师心理辅导技巧训练
- 2025年导游资格证考试冲刺试卷:旅游线路设计与营销策略
- 2025年公务员考试行测言语理解专项试卷:逻辑判断与推理高分解析
- 2025年高中生物教师资格证考试教育理论知识专项训练试卷
- 2025年心理咨询师考试全真模拟试卷 心理评估专项强化
- 江苏省扬州市蒋王中学2026届化学高二上期中学业水平测试试题含解析
- 迷你中长导管-
- 中电联理论试卷A(无答案)
- 钢质防火门安装施工方法
- 优化物理教学策略的思考(黄恕伯)
- GB/T 26358-2022旅游度假区等级划分
- GB/T 25146-2010工业设备化学清洗质量验收规范
- GB/T 14825-1993农药可湿性粉剂悬浮率测定方法
- GB/T 12008.7-2010塑料聚醚多元醇第7部分:黏度的测定
- 文化政策与法规(第一课)
- 最全最好的血液净化课件资料
- 寻找消失的滇缅路:松山战痕课件
评论
0/150
提交评论