(通信与信息系统专业论文)针对实时性应用的视频检测算法研究与fpga实现.pdf_第1页
(通信与信息系统专业论文)针对实时性应用的视频检测算法研究与fpga实现.pdf_第2页
(通信与信息系统专业论文)针对实时性应用的视频检测算法研究与fpga实现.pdf_第3页
(通信与信息系统专业论文)针对实时性应用的视频检测算法研究与fpga实现.pdf_第4页
(通信与信息系统专业论文)针对实时性应用的视频检测算法研究与fpga实现.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(通信与信息系统专业论文)针对实时性应用的视频检测算法研究与fpga实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 视频检测、跟踪、识别一直是智能监控、视频检索、模式识别相关领域研究的热点, 这些技术与现代生活密切相关,受到了广泛的应用。其中视频目标检测作为跟踪、识别等 高级处理的前序步骤,处理的精度与速度直接影响到后续工作能否顺利进行。当前检测算 法的研究如果按照检测素材进行分类,可以分为使用像素信息作为基本元素进行检测的像 素域检测,以及使用运动矢量、d c t 系数等信息作为基本元素进行检测的压缩域检测。 本文针对实时性应用,分别对压缩域及像素域检测算法进行了一定研究。 在压缩域,本文基于h 2 6 4 编解码标准,研究了如何从未完全解码的h 2 6 4 视频流中 提取运动矢量,并对矢量进行预处理,得到显著的矢量场作为检测的基本元素。基于得到 的矢量场,本文提出了一种改进的压缩域聚类检测方法,通过对矢量进行特征提取,并对 矢量场进行分层聚类来得到最后的目标区域。实验证明此改进方法相比原始e m 聚类的压 缩域检测方法,提高了检测速度,并且能够有效消除光影噪声区域,此外该改进算法还能 有效克服目标暂时静止而无法被检测的影响。 压缩域的优点在于未完全解码状态就能够开始检测处理,且数据量相比像素域更少, 从两方面提高了检测的效率。但压缩域使用每一个4 x 4 像素块的运动矢量作为基本的检 测元素,相比像素域以像素作为基本的检测元素,检测精度具有一定局限性。 像素域处理历史悠久,理论研究较成熟,但对于越来越高质量的视频应用,对于海 量的像素数据,传统的像素域检测方法无法在保证精度的同时,满足实时性要求。本文基 于变换检测提出了一种改进的像素域检测算法。通过视频序列累计出可靠的背景缓存,通 过当前帧与背景缓存的差异来得到目标区域。该算法相比传统分水岭等像素域方法具有高 效、易于并行,流水线处理等硬件实现的优点。 从实现角度来说,对于目标检测,因为各种复杂的应用环境,出于灵活性以及成本 等因素的考虑往往与跟踪、识别等高级处理一起用c p u 来处理。现场可编程门电路f p g a 作为一种半定制的芯片,比起仅使用c p u 处理的系统,虽然会增加额外系统成本,但它 可以根据特定算法进行优化,充分利用并行性流水线等硬件实现的优势。针对有实时性的 应用,利用f p g a 来实现视频前处理、检测等算法可以大大提高处理速率。 本文基于f p g a 平台,使用数字图像传感器作为输入,显示器作为输出,s d r a m 作 为处理缓存,在f p g a 内部设计了传感器配置、图像同步、图像色彩空间转换、数据调 度、s d r a m 控制、v g a 输出、检测等逻辑模块。实现了基于上述背景寄存检测算法的 检测系统。该系统在满足实时性要求的同时,较好的完成了检测任务。 i 关键词:视频检测实时性f p g a 检测系统 i l a b s t r a c t v i d e oo b j e c td e t e c t i o n ,t r a c k i n ga n dr e c o g n i t i o na r ea l w a y st h eh o ts p o ti ni n t e l l i g e n t s u r v e i l l a n c e ,p a t t e r nr e c o g n i t i o na n dv i d e os e a r c h i n gs t u d yf i e l d t h e s et e c h n o l o g i e sw h i c h c l o s e l yr e l a t e dt od a i l yl i f eh a v eb e e nw i d e l ya p p l i e d d e t e c t i o ni st h ef i r s ts t e pb e f o r eo t h e r l l i 曲l e v e lp r o c e s s i n gs u c ha st r a c k i n ga n dr e c o g n i t i o ni nt h i sf i e l d t h ep r e c i s i o na n de f f i c i e n c y o fd e t e c t i o nr e s u l t sh a v ead i r e c t l yi n f l u e n c eo nt h ef o l l o w i n gs t e p s t h ed e t e c t i o nm e t h o d s b a s e do nd e t e c te l e m e n t sc a nb ed i v i d e di n t ot w oc l a s s e s :f i r s t , t h o s eu s e dp i x e la st h eb a s i c e l e m e n t sc a nb ec a l l e dd e t e c t i o ni np i x e ld o m a i n ;a n ds e c o n dt h o s eu s e dd cp a r a m e t e r s , m o t i o nv e c t o r sa st h eb a s i ce l e m e n t sd u r i n gv i d e od e c o d i n gc a l lb ec a l l e dd e t e c t i o ni n c o m p r e s s e dd o m a i n if o c u s o nr e a lt i m ev i d e od e t e c t i o nd o i n gs o m es t u d yo nt h e s et w o d o m a i n sr e s p e c t i v e l y i nc o m p r e s s e dd o m a i n , t h i sp a p e rb a s e do nh 2 6 4p r o t o c o ld i s c u s s e sf o l l o w i n gt o p i c s : f i r s t , p i c k i n gu pm o t i o nv e c t o r sf r o mh 2 6 4d e c o d es t r e a m ;s e c o n d ,b u i l d i n gao u t s t a n d i n g v e c t o rf i e l df r o mr a wm o t i o nv e c t o r s ;t l l i r d d o i n gd e t e c t i o na l g o r i t h mb a s e do nae n h a n c e d c l u s t e r i n ga l g o r i t h m s i m u l a t i o nr e s u l t ss h o wt h a tt h i se n h a n c e da l g o r i t h mh a s ah i g h e r d e t e c t i o ns p e e dc o m p a r e dw i t ht h eo r i g i n a lo n e i tc a na l s oe f f e c t i v e l ye l i m i n a t eo p t i cn o i s e i n f l u e n c e i na d d i t i o n ,i tc a nd e t e c tt h eo b j e c tw h i c hi st e m p o r a r i l ys t a t i c t h ea d v a n t a g eo fc o m p r e s s e dd o m a i ni st h a ti ts t a r td o i n gd e t e c t i o nw h e nt h ed e c o d i n gi s n o to v e r , m o r e o v e r , t h ep r o c e s s i n gd a t ai sl e s sc o m p a r e d 、析t l lt h ep i x e ld o m a i n b o t ho fw h i c h c a ni n c r e a s et h ee f f i c i e n c yo fd e t e c t i o n b u tb e c a u s et h eb a s i cd e t e c t i o ne l e m e n ti s4 x 4m o t i o n v e c t o r s ,i t sp r e c i s i o nh a sl i m i t a t i o nc o m p a r e d 谢mt h ep i x e ld o m a i n p i x e ld o m a i ns t u d yh a sal o n gh i s t o r y i t st h e o r yi sm o r es t r i c t l y b u tn o w a d a y s ,h i 曲 d e f i n i t i o nv i d e oi sa p p l i e dm o r ea n dm o r ew i d e l y i tm e a n sm a g n a n i m i t yp i x e ld a t a t h e t r a d i t i o n a lp i x e ld e t e c t i o nc a l lh a r d l yb o t hk e e ph i g hp r e c i s i o na n dr e a lt i m er e q u i r e m e n t s t h i s p a p e rr a i s e sa l le n h a n c e dp i x e ld o m a i nd e t e c t i o nb a s e do nc h a n g e - d e t e c t i o n b a s e da p p r o a c h e s i tb u i l d sar e l i a b l eb a c k g r o u n db u f f e rb a s e do nv i d e oi n p u ta n dg e t st h eo b j e c tf i e l db a s e do n c u r r e n tf r a m e ,b a c k g r o u n db u f f e ra n dp r e v i o u sf r a m e t h e s ea p p r o a c h e sa r eh i g he f f i c i e n c y c o m p a r e dw i mt h ew a t e r s h e dw a y s a n di t i ss u i t a b l et ob er e a l i z e db yh a r d w a r eb e c a u s ei t s p r o c e s s i n gc a nb ep a r a l l e la n dp i p e l i n e i nt h ev i e wo fr e a l i z a t i o n , o b j e c td e t e c t i o ni sa l w a y sf i n i s h e db ys o f t w a r e 、衍t 1 1o t h e rh i g h i i i l e v e lp r o c e s s i n gb e c a u s eo fc o n s i d e r i n gs y s t e mc o s ta n dt h ec o m p l e xa p p l i c a t i o ne n v i r o n m e n t n o w a d a y s ,u s i n gf p g a t od od e t e c t i o nr e a l i z a t i o nc a np r o v i d eaw e l ls o l u t i o nf o rr e a l - t i m e a p p l i c a t i o n c o m p a r e dw i t hs o f t w a r er e a l i z a t i o n ,u s i n gf p g a w i l la d da d d i t i o n a lc o s t ,b u ta sa p r o g r a m m a b l ec h i p ,i tt a i ld oo p t i m i z a t i o nf o l l o w i n gd e d i c a t e da l g o r i t h m i t c a l lh u g e l y i n c r e a s et h ep r o c e s s i n gs p e e db e c a u s eo ft h eh a r d w a r ea d v a n t a g e ss u c ha sp a r a l l e la n d p i p e l i n e t h i sp a p e rb a s e do nf p g ad e v e l o p m e n tp l a t f o r m ,d e s i g nad e t e c t i o ns y s t e mb a s e do nt h e a b o v ep i x e ld o m a i nd e t e c t i o na p p r o a c h i tu s ed i g i t a ls e n s o ra si n p u t ,s c r e e na so u t p u t ,s d r a m a s s o l v i n g b u f f e r a n di nf p g a ,id e s i g nt h es e n s o rc o n f i g u r a t i o n m o d u l e ,p i x e l s y n c h r o n i z a t i o nm o d u l e ,p i x e lt r a n s f o r m a t i o nm o d u l e ,d m am o d u l e ,s d r a mc o n t r o l l e r m o d u l e ,v g ac o n t r o l l e rm o d u l ea n dd e t e c tm o d u l e t h i ss y s t e mw o r k sw e l la n dm e e t st h e r e a l t i m ed e t e c tr e q u i r e m e n t s k e yw o r d s :v i d e od e t e c t i o n ,r e a l t i m e ,f p g a ,d e t e c t i o ns y s t e m i v 上海师范大学硕士学位论文 第一章绪论 1 1 研究背景及意义 第一章绪论 运动目标的检测是智能视频监控中重要的一步。智能视频监控是计算机视觉领域一个 新兴的应用方向和备受关注的前沿课题。随着互联网技术和数字视频技术的发展,监控技 术正向着智能化、网络化方向不断前进。智能视频监控是在不需要人为干预的情况下,实 现场景中特定目标的定位、识别、跟踪等。目标检测作为其他后续高级处理的基础,它的 处理速度与精度直接影响到后续处理如目标识别、跟踪等过程的处理。 自2 0 世纪8 0 年代,大量的视频标准以及视频处理技术不断被提出。h 2 6 4 作为新一 代视频压缩标准,正受到越来越多的关注与应用。其中采用了多种新技术:多参考帧运动 估计、多宏块分割模式运动估计、最佳编码模式等。这些技术在提高视频质量的同时,也 为视频处理开辟了许多新的研究课题。就智能监控领域中的目标检测而言,利用h 2 6 4 标准编码的新特性,提取含有序列中运动信息的运动矢量,不但可以在未完全解码的情况 下完成目标检测,也可以将运动矢量应用到原有的经典的基于像素强度变化检测的算法 中,改善原有检测算法的不足,达到更好更快的处理。 视频检测是一种对环境依赖性很强的处理,根据特定环境,适合应用不同的算法和参 数配置,通常不会有专用集成电路( a s i c ) 去量产检测芯片,而往往针对某种应用,将检测 算法嵌入在软件中,用c p u 来完成检测处理。近年来,随着e d a 技术的发展,成本低 于a s i c ,而又可灵活编程的现场可编程门电路f p g a 为完成检测算法提供了一种很好的 解决方案。f p g a 比起传统c p u 的处理,可以获得更高的实现速度与更低的功耗,它的 并行性更适合用来实现特定类的检测算法而解放c p u 去完成更适合它的工作,譬如需要 反复迭代运算的识别,跟踪等算法复杂度高的任务,以满足智能监控更高的实时性要求。 1 2 视频目标检测的发展概述 如果按照所提供的视频素材不同,可以将视频分割分为像素域分割和压缩域分割两类 【1 1 。早些时候的割算法都是针对像素域的。随着视频技术以及检测算法的发展,近些年发 展出了针对不经解压缩,直接利用压缩流数据进行处理的方法,称为基于压缩域的视频检 钡, t j t 2 1 。 第一章绪论 上海师范大学硕士学位论文 1 2 1 基于像素域的目标检测 随着检测算法的发展,按照分割过程中所用的信息不同,传统的像素域视频分割算法 可以分为三类【1 1 。第一类是利用诸如灰度、边沿、纹理等空间信息来分割。文献1 3 1 1 4 1 是 这一类中比较有代表性算法,这些算法主要的步骤可以总结如下:首先,用形态学滤波处 理图像,然后应用分水岭算法来进行区域边界的决定。之后,运动估计来计算每个区域的 运动矢量,有相似运动矢量的区域被合并到一起形成最后的分割区域。这些算法的分割结 果追踪目标的边界,因此分水岭算法比起其他一些方法更加精确。然而,它的计算复杂度 非常高,因为分水岭算法和运动估计都是计算强度很大的处理。 第二类主要利用时间信息,文献【5 1 - 【7 】是这一类中比较有代表性的算法。使用前后帧 之间视频对象的运动信息进行分割,结合上纹理边沿等特征。这类方法的优点是把运动信 息考虑在内,第一类方法不知道运动信息,而浪费很多时间计算分割背景。 第三类可以称为时空分割法,即同时利用上时间信息与空间信息的方法。这是目前像 素域主流的分割方法。 1 2 2 基于压缩域的目标检测 对于压缩域运动目标检测技术,研究从m p e g 2 标准开始,比较有代表性的有y e o 提出的从压缩视频中提取d c 图像【8 】,并实现了视频压缩镜头的分割和检索。s u k m a r g e 9 1 等人将时域运动矢量和空域d c 系数相结合,通过建立最大失真熵模型,来得到具有运动 一致性的区域。b e n z o u g a 1 0 l 等人引入马尔可夫随机场来实现对运动目标的分割。 在现在主流的压缩标准h 2 6 4 a v c 上的压缩域检测方法在参考已有的m p e g 2 压缩 域的方法的基础上,近两年也不断有新的方法被提出,用来检测的信息也不再局限于运动 矢量,文献i l l l 提取运动矢量和宏块分割类型作为特征,在空域和时域分别采用均值偏移 聚类算法对运动矢量场进行聚类,来提取出运动目标。文献 1 2 1 用运动矢量和残差帧的离 散余弦变换系数作为特征,根据马尔科夫随机模型构造背景模型,实现了对运动目标的实 时检测。文献1 1 3 】以运动矢量和宏块分割类型为特征,利用k 邻域算法确定出大致的运动 区域,再用后滤波法去除噪声矢量完成了检测。 1 2 3 像素域与压缩域检测的比较 多媒体视频数据的存储传输一般都采用压缩格式,因此在使用视频数据前必然会对 数据流进行解码,若目标检测能够在解码的过程中就完成,为后续诸如识别跟踪等复杂处 2 上海师范大学硕士学位论文第一章绪论 理留下了更多的处理时间,对有实时性要求的应用来说,是一种很好的解决方案,这使得 压缩域视频检测的研究成为当前的热点问题。 另外对于多媒体数据而言,传统的处理方法是在原始的数据上,或在解压缩之后的 数据上进行的,处理对象是每帧视频图像中每个像素的信息。而压缩域处理根据编解码协 议往往处理的是编码后的块信息,这样待处理的数据量远远小于原始数据。为方便对比, 图1 1 和图1 2 分别给出了传统方法和压缩域方法对于多媒体数据的处理模式。 图1 1 传统多媒体数据处理模式 图1 2 压缩域多媒体数据处理模式 由于压缩域数据处理的这些优点,使得它成为多媒体研究领域的一个研究热点。然 而它作为一种新兴的技术,目前的发展还尚未成熟。 1 处理技术还是参考像素域的处理方法应用于压缩域上,没有统一的理论支持。 2 处理效率的提高必然带来处理精度的降低,因为检测是以块信息为基础的,分割 精度也因此受到了制约。 3 块中所蕴含的运动矢量、d c t 信息等比起原始的信息往往显得信息量不足,对于 环境复杂的应用,健壮性不如像素域的处理。 以上三点也正是压缩域处理技术的难点所在,但尽管如此,压缩域视频处理技术也 不失其实用价值。 3 第一章绪论上海师范大学硕士学位论文 另一方面,像素域与压缩域相对,处理的是解码后的原始数据,因其研究历史较压 缩域更悠久,理论成熟,精度高,健壮性好。但当需处理的数据量庞大时,实时性的应用 是个巨大的挑战。 1 3 主要研究内容及组织结构 现今,人们对视频清晰度的要求越来越高意味着越来越庞大的数据量,对于实时性 应用来说,意味着越来越苛刻的时序要求。另一方面,电子技术也日新月异,有了更高速 的电子器件可以用来实现这种应用,另外更先进的设计工艺,e d a 技术的发展,先进的 半定制芯片f p g a 也为视频处理的实时性应用提供了一种切实可行的手段。 本文在h 2 6 4 编解码标准背景下,提出了一种基于块特征的压缩域检测算法。在像素 域,本文也做了一定研究,提出了一种适合硬件实现的基于背景寄存的像素域检测算法。 并基于f p g a 设计实现了该像素域算法。具体工作如下: 1 对h 2 6 4 a v c 编解码标准进行了研究,分析其码流结构,从中提取出能够表示运 动目标运动信息的运动矢量,对运动矢量的特征进行了分析,提出了一种改进的运动矢量 场预处理方法。 2 提出了一种适用于h 2 6 4 的改进的压缩域运动目标检测算法,从主客观两个角度 分析、比较了所提出算法的性能。 3 针对实时性应用,根据经典的像素域算法,提出了一种适合硬件实现的改进的像 素域检测算法,从主客观两个角度,分析比较了所提出算法的性能。 4 基于f p g a 平台,设计并实现了提出的像素域算法。 本文的组织结构如图1 3 所示。 第一章为绪论,介绍了本文的选题背景及意义;简要概括了运动目标检测的发展, 简要概述了压缩域运动目标检测算法与像素域运动目标检测算法以及他们的优缺点。 第二章基于h 2 6 4 的运动信息提取,将重点讨论了h 2 6 4 a v c 压缩标准的编解码框 架;分析运动矢量的产生原理和运动矢量场的特性;以及运动矢量场的预处理。 第三章基于块特征的运动目标检测算法,针对实时性的应用,提出了一种改进的压 缩域运动目标检测算法,从主、客观两个方面分析了算法的性能。 第四章基于背景寄存的运动目标检测算法,针对实时性的应用,提出了一种改进的 像素域运动目标检测算法,从主、客观两个方面分析了算法的性能。 第五章基于f p g a 平台的目标检测系统设计与实现,基于f p g a 平台,设计了一种 合适的架构,实现了第四章所提出的检测算法。 第六章对论文进行了总结,并对该领域的研究进行了展望。 4 上海师范大学硕士学位论文 第一章绪论 图1 - 3 论文的组织结构 5 第二章基于h 2 6 4 的运动信息堡塾 上海师范大学硕士学位论文 第二章基于h 2 6 4 的运动信息提取 2 1h 2 6 4 编解码标准的框架 2 0 0 3 年3 月,i t u t 的视频编码专家组( v c e g ) 和i s o f l e c 的活动图像专家组共同 成立的联合视频小组( j v t ) 发布了h 2 6 4 a v c 标准。i t u t 在增强型多媒体通信标准 h 2 6 l 的基础上提出的新一代视频编码标准h 2 6 4 a v c ,该标准继承了h 2 6 3 ,m p e g 1 , m p e g 2 以及m p e g 4 的优点,如变换和预测等技术。图2 一l 是h 2 6 4 a v c 的编码器结 构。 图2 - 1h 2 6 4 a v c 编码器结构 在图2 1 中,首先,当前帧或场f 。根据宏块信息,可以选择帧内或帧间的预测方法 进行处理,其中咒代表当前时刻,f o 是参考图像,表示当前帧与参考帧之间的时间距离。 如果选择的是帧间预测,如图中p 所示,它的预测值根据当前片中已编码了的参考图像 经过运动补偿得到,为了提高预测的准确度,从而得到高的压缩比,实际所用参考帧可以 从过去或未来已编码后的重建帧中选取。将预测值与当前块做差值产生残差块d ,残差 块经过变换和量化两个过程产生一组变换系数,如图中x 所示。变换系数经熵编码后与 解码所需的一些信息,如量化参数、预测模式、运动矢量等一起组成压缩码流供传输和存 储所用。 编码器必须具有重建图像的功能来提供预测用的参考帧。因此残差图像经反量化和反 变换得到d n ,与预测值p 相加,经环路滤波器后输出f _ 即为重建帧,用为参考帧。 6 上海师范大学硕士学位论文 第二章基于h 2 6 4 的运动信息提取 以上的编码器结构是较为成熟的,与第一代标准中的编码器结构基本相似,只是各功 能模块的实现细节上会有不同。视频序列不同于普通图像,它是时刻变化的,细节时多时 少且受传输信道影响较大。这两方面因素为获得高压缩比带来了挑战也带来了压缩比技术 的复杂性。h 2 6 4 a v c 就是利用实现高运算复杂度来对抗这些不定因素,来获得高压缩比, 保证高视频质量。在相同失真率的条件下与以往标准相比它的编码效率大幅提高。 图2 2 是h 2 6 4 a v c 的解码器结构。码流经熵解码后得到一组量化后的变换系数x , 后经反量化、反变换过程,得到残差d _ ,与预测值p 相加后通过环路滤波,产生最后的 输出图像重建帧f 0 。 图2 - 2h 2 6 4 a v c 解码器结构 2 2 运动信息的产生与提取 2 2 1 运动估计与运动补偿 运动估计、运动补偿共同组成了运动补偿技术( m o t i o nc o m p e n s a t e dp r e d i c t i o n , m c p ) ,它们是h 2 6 4 标准中算法复杂度最高的算法之一,算法的性能直接影响到视频压 缩性能的好坏。 ( 一) 运动估计( m o t i o ne s t i m a t i o n ) 运动估计用于帧问预测编码。根据视频图像邻近帧中内容存在的相关性,将视频图像 划分成若干宏块或块,然后采用搜索算法在邻近帧中找出与当前处理宏块最为相似的宏块 或块,计算两者的相对偏移量。取得的相对偏移量即为运动矢量,预测运动矢量的过程则 称为运动估计。 运动矢量和运动匹配后两者的差值一起被发送到解码端,在解码时按照运动矢量所指 定的位置,从已解码的参考帧中找到相应的宏块或者块的信息,和差值信息相加后便得到 了当前位置宏块或者块的信息。 7 第二章基于i - i 2 6 4 的运动信息提取 上海师范大学硕士学位论文 运动估计可以消除帧间冗余,使视频图像传输的比特数大大减少。 一般的运动估计方法如图2 3 所示:设r 时刻的图像为当前帧,时刻的图像为参考 帧,参考帧在时间上可以位于当前帧的前面或后面。图中,白色圆点表示当前帧中宏块或 块的位置,黑色圆点表示在当前帧中宏块或块在参考帧中的最佳匹配位置。当r , ,时,如图中t + a t 时刻为前向运动估计。当在参 考帧中搜索到当前帧中宏块或块的最佳匹配时,便可得到当前块的运动矢量。一帧中所有 的运动矢量组成该帧的运动矢量场。 广一一一一一一一一一一一一一一一一一一一一一i i i i i 后向运动估计 f 时刻 l 一, f 一芒时刻 当前帧 : 参考帧 : o 图2 3 前向后向运动估计 参考帧 前向运动估计 ( 二) 运动补偿( m o t i o nc o m p e n s a t i o n ,m c ) 运动补偿指的是利用运动估计得到运动矢量,然后利用运动矢量求预测图像的过程。 即按照运动矢量将当前帧的所有宏块或块移动到对应的位置,作为当前帧的预测帧。 2 2 2h 2 6 4 标准下的运动估计与补偿 h 2 6 4 a v c 标准与以往的视频编解码标准最大的不同在于:在运动估计过程中应用多 参考帧、多尺寸块、以及亚像素运动矢量来提高预测精度。 ( 一) 多参考帧 多参考帧预测指的是在编解码端各建个重建帧的缓存,运动估计过程中对缓存进 行搜索,在缓存中找出与当前待编码块最为相似的块进行运动补偿,因为选用了多帧参考, 时间冗余可以更好的消除。 另外可以利用视频连续性的特点,根据已得的运动矢量来估计最优匹配运动矢量。具 体的来说假设t 时刻所对应的为当前帧,多个参考帧对应的时间为:扣1 ,乒2 ,。则如 果在卜3 帧中搜索到当前块的最优匹配时,可以根据扣1 帧和卜2 帧中的运动矢量来预测卜3 r 上海师范大学硕士学位论文第二章基于h 2 6 4 的运动信息提取 帧中最优匹配块的运动矢量,提高匹配速度。 ( 二) 多尺寸块 h 2 6 4 a v c 标准中块尺寸的范围从4 4 到1 6 1 6 共8 种,1 个1 6 x 1 6 ,或2 个8 1 6 , 或2 个1 6 8 ,或4 个8 8 。其中只有8 8 可以再继续分割,即1 个8 8 ,或2 个4 x 8 ,或 2 个8 4 ,或4 个4 x 4 。如图2 - 4 所示。 8 x 88 x 4 0 1 4 8 01 图2 - 4 宏块及子宏块分割 4 4 o1 2j 图像中细节较多的部分往往选择小尺寸块进行运动估计,细节较少的快选择大尺寸块 进行运动估计。尺寸的选择将影响压缩性能。由于宏块的色度成分( c r 和c b ) 在水平和 垂直方向上都为亮度成分( y ) 的一半。 以图2 5 为例,图示为一个残差帧,图像运动细节较多的块都选用了小尺寸块进行运 动估计,而运动细节较少的块选择了大尺寸块进行运动估计,h 2 6 4 编码器将为每帧选择 最佳的分割尺寸,使得传输的信息量最小。 图2 - 5 残差帧 9 第二章基于h 2 6 4 的运动信息提取 上海师范大学硕士学位论文 ( 三) 亚像素运动矢量 所谓亚像素运动矢量指的是在h 2 6 4 标准进行运动估计时,对亮度采用1 4 的像素精 度,色度成分采用1 8 的像素精度。在完成运动估计后,如果运动矢量的垂直和水平分量 都为整数,则参考块在参考帧中实际存在,可直接使用;如果运动矢量的垂直分量和水平 分量的结果为分数,则参考块在参考帧中实际并不存在,需使用内插像素生成算法。对于 内插像素生成算法这里不做介绍。 2 2 3 运动矢量提取 本文专注于检测算法的研究,为简单起见仅考虑提取码流中p 帧的运动矢量。 码流由表示特定意义的句法元素构成,每句句法元素包括若干个比特,表示某个特定 的物理意义。 在h 2 6 4 的码流定义中,句法元素分别描述了序列、图像、宏块、子宏块五个层次的 信息。如图2 - 6 所示。对码流进行分析后,定位到宏块层句法元素,可以提取出宏块分割 类型信息。从码流中只还能提取到运动矢量差,可以通过参考宏块的运动矢量,计算出实 际的运动矢量。宏块类型为帧内宏块或者跳转宏块的运动矢量值置零。依次提取一帧中所 有的运动矢量便构成了该帧的运动矢量场。 图2 - 6 句法元素的分层结构 需要明确的是,编码之所以使用运动估计,是为了提高码流的压缩率,而非出于压缩 准确性的考虑。因此运动矢量仅代表了帧与帧之间变化的估计值,而不是实际的目标运动。 所以环境的变化,摄像头的运动,噪声的影响都会产生不期望的运动矢量,本文称这样的 运动矢量,为矢量噪声,这些噪声都会对后文视频检测算法产生影响,排除这些噪声的影 响也是本文检测算法中需要分析解决的问题之一。 1 0 上海师范大学硕士学位论文第二章基于h 2 6 4 的运动信息提取 2 。3 运动矢量场预处理 运动估计并不能完全表征视频序列中物体的运动,因为摄像机运动,场景变化,光影 噪声等都会产生不期望的运动矢量。本节将介绍一些运动矢量场的预处理方法,并在本节 最后提出一种改进的预处理方式,可以使得处理后的矢量场具备一些便于后续检测的特 征。 2 3 1 运动矢量场归一化预处理 正如上一节介绍的,h 2 6 4 编解码标准根据图像细节程度会有不同的块尺寸,对于每 个分割块都有一个单独的运动矢量和参考帧序号,在这样情况下的运动矢量场是一个不规 则的稀疏场,不利于后续的检测处理,因此需要对矢量场进行归一化预处理。 首先,对原始的运动矢量场进行时间归一化,目的是使一帧中所有块的参考帧等效为 其前面一帧,这样做可以提高接下去介绍的矢量场积累的有效性。设当前帧f ,中任意块 b ,的运动矢量为疋b ,) ,其参考帧为f ,按如下公式对其进行归一化: n mv ,:型 ( 2 1 )n m v ( b ,) = = _ 卫 ( 2 1 ) ” f 一厂 。 其中,为其参考帧时刻,f 为当前时刻。 空间上进行归一化的目的是为得到大小一致,且均匀的运动矢量场,在后续处理时不 必重复考虑每个块尺寸的大小。由于原始运动矢量场最小的分割大小为4 x 4 ,因此将大于 4 x 4 的块按其所覆盖的所有4 x 4 块直接复制运动矢量,这样便得到一个采样精度为4 x 4 块的均匀的运动矢量场。时空归一化后,对新的运动矢量场进行3 x 3 中值滤波,消除噪 声矢量的同时,可以平滑相邻块之间运动矢量的差异。 2 3 2 矢量中值滤波预处理 把h 2 6 4 压缩视频中的运动矢量场归一化为4 x 4 块,用矢量中值滤波能够消除孤立 矢量噪声并且平滑相邻块之间运动矢量的差异。 使用滑动窗方法进行中值滤波,首先定义n x n 窗函数内各元素之间的差异度为d , z = 列l v ,- - v j b i = 1 2 ( 2 - 2 ) d = l 其中:v ,和v ,是n x n 窗内的运动矢量;l 表示欧几里得距离。将d ,升序排列映射到 第二章基于h 2 6 4 的运动信息提取 上海师范大学硕士学位论文 v ,。最后根据式( 2 - 3 ) ,以排序后的v 咄作为最后的输出结果。 v 删2l v ( n v + l i ) 2 州v 劬( n + e i 州) 2 s v e ) p( 2 3 ) 其中:c o r ( v ( + 1 ) 伽v ) = l l v ( n + 1 ) 2 v v ( n + i ) 2 i iv l i ,v 是平均矢量,p 是预设的阈值。 2 3 3 运动矢量场累积预处理 所谓矢量场累积指对连续几帧的运动矢量进行积累。矢量场累积一方面可以增强运动 矢量的可靠性,削弱噪声矢量的影响;另一方面可以使目标的实际运动更加显著。 矢量场累积最简单的方法是若干帧相同位置运动矢量直接累加,但从编码原理得知, 当前运动矢量是指向参考帧中最匹配的位置,在时序上每帧运动矢量场都是独立的,相同 块不同帧的矢量不一定都能反应同一对象的运动状态。故可以采用迭代后向累计法【l l 】。 该方法可以分为两个过程,映射过程和累积过程。映射公式: m v = p r o j ( m v m ,m k )( 2 4 ) 其中,m v 为运动矢量场,p 表示投影,m ,z 表示不同时刻,p r o j 为投影操作。投 影过程如图2 7 所示。 m v ,m v 。 口 - ,一一。 锾。么 缓 广。 口 - 、 b c i - - 、 、 、 ( b ) m v 。 ( c )( d ) 图2 7 后向映射示意图 m v m 中每个4 x 4 块按照m v n 中相同位置上4 x 4 块的运动矢量移动,图2 7 ( a ) 中 的彩色块a ,b ,c 以图2 7 ( b ) 中a ,b ,c 三个块的运动矢量作为位移量,得到如图2 7 ( d ) 所示的映射位置,接下来计算映射位置m k 中每块的运动矢量。 t 2 上海师范大学硕士学位论文第二章基于h 2 6 4 的运动信息提取 以图中的c 块为例子,计算映射在c 块各个投影块所占的面积比乘上它们各自的运动 矢量再累加,则得到了该c 块的映射矢量值。 以此方法,进行多帧的累积,则能得到最后的运动矢量,如下公式所示: a m v , + f = p r o j ( a m v k + ,+ l + n m v k + f ,n m v k + f + 1 ) ,f = m 一1 , m 一2 ,1 ,0 ( 2 - 5 ) 其中,a m v 表示累积运动矢量场,累积帧数m 将对累积结果产生影响,实验表明: 若m 取值过小,运动较为平缓的视频序列往往累积不到足够的运动信息;若m 取值太大, 噪声矢量也会被累积。对检测造成影响。 2 3 4 改进的运动矢量场累积预处理 文献【1 1 采用后向运动累积方式,能增强对象运动及摄像机全局运动之类可靠的运动 信息,又抑制了单帧运动矢量场通常存在的噪声,其实质是对当前块所在位置及后两帧同 一位置上出现的矢量进行累积。本文提出一种基于块的前向运动累积方法,它是针对同一 块当自口帧及其j d 两帧的运动矢量进行累积。该方法可以有效解决当前处理帧运动目标内存 在静止块不易后续处理的情况,并且通过积累得到了更加显著的矢量场,虽然同时增强了 矢量中值滤波无法消除的大块光影噪声矢量,但宏块特征可有效区分两者的差异,宏块特 征在第三章讨论。 为了获得累积运动场,首先采用前向估计的方法重建预测运动场,如图2 8 所示。 a 、 m f 。: l 一 下 l y4 图2 8 前向预测运动场重建 利用当前f 时刻和卜1 时刻的运动场m e 和m f r 1 来重建预测运动场p m f 。以4 4 块为基本处理单元,如图中a 块表示的4 x4 块为例,根据t 时刻a 块的运动矢量,确定 出卜1 时刻a 块对应的位置。a 位置如图2 - 8 中m e t 。所示,由a 所在位置,根据公式( 2 6 ) 计算出a 块的预测运动矢量。 1 3 第二章基于h 2 6 4 的运动信息提取 上海师范大学硕士学位论文 y 时= v ; i = l ( 2 6 ) 其中:w ,对应m f , 1 位置上覆盖i 块( 如图,i = l ,2 ,3 ,4 ) 的面积百分比,v i 为i 块在,- 1 时刻的运动矢量。 每个块的运动预测矢量都由以上方式得到。就得到了p m f 。同理根据m f t 。 m e t : 重建出p m f t 2 。最后由公式( 2 7 ) 得到最后的累积运动场a m e 。 2 4 本章小结 a m f t = m f t + p m f 卜1 + p m f 卜2 ( 2 - 7 ) 本章简要介绍了h 2 6 4 编解码器结构以及相关的运动估计与运动补偿技术。分析了运 动矢量是如何通过运动估计与运动补偿技术产生的。介绍了从码流中如何提取运动矢量。 此外本章分析了提取到的原始的运动矢量存在的不足,必须通过预处理来得到可靠的 运动矢量场。基于此,本章介绍了一些矢量场预处理的方法,在本章结尾,提出了一种改 进的运动矢量场积累的预处理方式,此预处理方式积累出得矢量场可以有效解决当前处理 帧运动目标内存在静止块不易后续处理的情况,此外所积累出得矢量场,运动矢量与噪声 矢量特征区别明显,可以通过下一章提出的算法有效的区分开来。 1 4 上海师范大学硕士学位论文第三章基于块特征的压缩域运动目标检测算法 第三章基于块特征的压缩域运动目标检测算法 3 1 引言 在得到了显著的运动矢量场之后,提取运动矢量场的特征,根据这些特征值进行聚 类处理,来进行运动目标检测,是压缩域检测的一种方法【1 5 】。 所谓聚类,即按属性对东西进行归类。聚类算法般都是一种不断迭代的方法,通 过迭代,每一类的特征信息不断被修正,以达到类内成员都具有最大相似性,而类与类之 间相差甚远的目的。 既然需要迭代,迭代次数的多少与选择的分类息息相关。为了满足实时性要求,如 何使分类更加准确,成为聚类方法的关键因素。就压缩域检测而言,如何对预处理后的显 著矢量场进行特征提取尤为重要。 本文提出一种基于块特征的改进压缩域检测方法。首先由积累后的矢量场中定义出3 种块特征,采用k 均值和e m 混合分层聚类的方法将对象提取出来。实验结果表明,本 方法相比 1 5 的方法进一步提高了分割效率,且对不同应用场景具有更好的鲁棒性,达到 满足实时要求的较精确检测。 3 2 研究现状 有相当多的研究者考虑在压缩域方法中引入各种聚类算法来实现检测。 文献 1 6 】是基于块的马尔科夫随机模型( m r f ) 来对运动矢量场进行聚类。此类方法 需要设定各种阈值对运动矢量进行分割,阈值的选择直接影响到聚类的结果。 文献 1 5 】是基于块的最大似然估计【e m 方法对运动矢量场进行聚类。此类方法仅选择 块的运动矢量作为特征,而没有考虑块与相邻块之间矢量的关系。聚类结果易受环境因素 影响,本文的算法亦在此算法基础上改进而来,将在下一节具体阐述。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论