(通信与信息系统专业论文)视频运动对象分割及码率分配与控制技术研究.pdf_第1页
(通信与信息系统专业论文)视频运动对象分割及码率分配与控制技术研究.pdf_第2页
(通信与信息系统专业论文)视频运动对象分割及码率分配与控制技术研究.pdf_第3页
(通信与信息系统专业论文)视频运动对象分割及码率分配与控制技术研究.pdf_第4页
(通信与信息系统专业论文)视频运动对象分割及码率分配与控制技术研究.pdf_第5页
已阅读5页,还剩142页未读 继续免费阅读

(通信与信息系统专业论文)视频运动对象分割及码率分配与控制技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 当今社会人们对信息的需求成为信息技术发展的主要动力, 作为最重要的信 息形式一 4 见 频信息及其处理技术取得了长足的进步。 视频信息数据量巨 大, 给存 储和实时传输带来极大的困难, 己成为妨碍数字视频技术应用的主要瓶颈, 因此 需要研究视频数据高效表征及其码率控制技术。 对数字视频高效表征, 人们进行 了大量研究,先后推出了两代编码技术。以m p e g - 1 , m p e g - 2 等为代表的第一代 视频编码技术, 考虑去除帧内以及帧间冗余, 采用块的方式进行编码。 其最大缺 点是没有考虑视频场景的内容构成。 多媒体通信与网络综合服务的应用中, 需要 对信息内容进行操作和交互式控制,因此,人们提出了第二代压缩编码技术, m p e g - 4是其中的代表。它先将视频场景分割成若干区域,每一个区域对应着一 个语义_ l 有意义的视频对象, 然后根据各个视频对象的特征对不同的视频对象采 用不同的编码方法。 这种基于对象的视频编码技术不仅能大大提高编码效率, 而 且支持用户对视频数据按内 容操作。 第二代编码技术需要将视频图像分割为视频 对象。 这就要求研究视频图 像中各种视频对象的运动、 纹理、 形状以及信息量等 特征。 按内 容对视频场景进行描述和码率控制是基于对象编码和交互式操作的关 键和基础, 具有重要的理论意义和应用价值; 而在现有标准中 又没有关于视频对 象自 动生成和码率控制的具体规定,所以这方面是前沿研究的热点课题。 视频图像的帧间运动是全局运动、 局部运动或它们共同构成, 其中前景目 标 在全局运动估计中被称为外点。 若将外点处的局部运动矢量参与全局运动矢量估 算, 将影响全局运动估计的复杂度和准确度, 外点区域在视频场景中所占区域较 大的时候, 容易发生这种情况; 因此, 外点的消除对于准确的全局运动估计非常 重要。现有的外点消除通常用统计方法实现,也有基于光流方程的时 / 空域梯度 比来去除外点的方法, 但误差很大, 效果不好。 本文根据视频图像中外点有聚集 成块的属性, 采用亚采样、 边缘特征图像块匹配的预分析方法来去除外点。 该方 法能去除较大面积外点区域, 并可以根据预分析的结果针对不同的图像使用不同 的全局运动模型,从而提高全局运动矢量估计的准确度。 估算全局运动变化参数时, 人们通常采用的方法可以 划分为基于空域像素点 灰 度的 方法、 基于空域视频特征的 方法和基于变换域的方法三大类。 在这些方法 中, 基于空域视频特征的方法, 有更好的普适性、 抗噪声能力、 运动估计精度和 特征描述简便性等优点。 本文中提出使用多个直线段空域特征进行全局运动估计 的方法。 在去除视频图像序列中外点区域的基础上, 通过提取和比较参考图像与 当前图像中的多个直线段视频特征来估计出 全局运动矢量参数。 该方法能够估计 出全局运动的平移、旋转参数,同时算法复杂度较低和估计精度较高。 当前一般采用邻帧差分法或光流场法进行运动检测, 前者的主要缺点在于不 易准确确定运动目 标轮廓; 后者运算复杂, 极易受噪声干扰影响。 上述方法在复 杂背景或多运动目 标的场景下, 检测效果都不好。 为此, 本文提出一种改进的三 帧双差分算法, 该方法利用多个差分图像来区分不同帧中的运动目 标信息, 并根 据差分图像灰度统计特性自 适应地选择二值化门限,从而检测出运动变化区域。 本文的方法有较强的自 适应性、 通用性和抗噪声干扰能力, 能够有效地检测和分 割出运动目 标区域。 全局运动补偿后的差分图像由残留噪声区域和运动变化区域组成; 运动变化 区域的检测, 就是划分运动变化区域和残留噪声区域。 从数字图像的数据比特结 构出发, 将图像划分为多个比特层, 各比特层包含的视觉信息和噪声是各不相同 的。 据此, 本文提出了一种各比特层预分类, 然后进行与合并的技术, 能明显地 滤除噪声、 纹理等干扰, 检测出 运动图像变化区域。 基于比 特层分类的技术还可 以用于视频图像数据压缩、加密等。 由 于第二代视频编码压缩技术提出了 视频对象的概念, 引出了同时对多个视 频对象进行编码的码率控制问题。 本文在研究传统码率控制方法的基础上, 根据 率一 失真理论,建立了视频对象间码率分配原则,并提出相应的码率控制算法, 从而实现了保证信源q o s ( 率 失真) 下, 有限带宽 ( 总码率) 按视频对象的高效分配。 上述各个研究点都进行了相应的p c仿真,并获得了好的结果,本论文所研 究的理论和技术对于视频图像序列中目 标检测、 识别与分割技术, 对于视频图像 序列基于内容的数据压缩与编码码率控制有有重要的理论和实用参考价值。 关键词: 全局运动域预分析、 特征直线段检测、 全局运动估计, 双差分运动域检 测,噪声特征统计,比特平面与合并,v o码率分配,率一 失真 ab s t r a c t i n m o d e rn s o c i e t y t h e r e q u i r e m e n t o n i n f o r m a t i o n i s b e c o m i n g t h e m a i n f a c t o r t o p r o m o t e t h e d e v e l o p m e n t o f i n f o r m a t i o n t e c h n o l o g y . o n t h e v i d e o i n f o r m a t i o n a n d i t s p r o c e s s i n g t e c h n o lo g y h a v e b e e n m a d e m u c h p r o g r e s s . b e c a u s e o f t h e e n o r m o u s d a t a , i t i s q u i t e d i f fi c u l t t o b e s a v e d a n d l i v e l y t r a n s p o r t e d . a n d a l s o b e h i n d e r e d t h e a p p l i c a t i o n o f d i g i t a l v i d e o in f o r m a t i o n . s o i t i s u r g e n t l y r e q u i r e d t o t a k e a r e s e a r c h o n t h e e f f e c t i v e r e p re s e n t a t io n o f v i d e o d a t a a n d i t s e n c o d i n g r a t e c o n t r o l . a s th e f i r s t g e n e r a t i o n o f v i d e o e n c o d i n g , m p e g - 1 a n d mp e g - 2 a r e b o t h b a s e d o n t h e b l o c k s i n fr a m e a n d p r e d i c t i o n b e t w e e n fr a m e s . a l t h o u g h t h e y a r e g r e a t l y r e d u c e d t h e r e l a t e d r e d u n d a n c y , b u t h a v e n o t u s e t h e c o n t e n t s e g m e n t a t i o n o f v o ( v i d e o o b j e c t ) . wi t h t h e d e v e l o p m e n t o f t h e i n t e r a c t i v e m u l t i - m e d i a a p p l i c a t i o n s in t h e m u l t i - m e d i a c o m m u n i c a t i o n a n d i n t e g r a t e d n e t w o r k s e r v i c e , t h e s e c o n d g e n e r a t i o n o f v i d e o e n c o d i n g c o me s in t o b e i n g w i t h i t s r e p r e s e n t a t i v e o f mp e g - 4 . t h e v i d e o s c e n e i s d i v i d e d i n t o a l o t o f r e g i o n s w i t h e a c h r e g i o n c o r r e s p o n d in g t o a me a n in g f u l v i d e o o b j e c t ( v o ) o n s y n t a x ; a n d t h e n t h e d i ff e r e n t e n c o d i n g t e c h n i q u e s c a n b e a d o p t e d t o d i ff e r e n t v i d e o o b j e c t s a c c o r d i n g t o t h e i r f e a t u r e s . t h e s e e n c o d i n g m e t h o d s c a n g r e a t l y i m p r o v e e f fi c i e n c y a n d t h e u s e r c a n o p e r a t e t h e v i d e o d a t a a c c o r d i n g t o t h e c o n t e n t . t o t h e s e c o n d g e n e r a t i o n o f e n c o d i n g i t i s n e c e s s a r y t o m a k e m o r e a n a l y s i s o n t h e m o t i o n , t e x tu r e , s h a p e a n d i n f o r m a t i o n q u a n t it y o f d i ff e r e n t v i d e o o b j e c t s i n i m a g e s . a s w e k n o w , t h e a u t o m a t i c c r e a t i n g a n d r a t e c o n t r o l o f v o i s t h e k e y p o i n t o f e n c o d i n g b a s e d o n o b j e c t a n d i n t e r a c t i v e o p e r a t i o n w h i le t h e r e a r e n o c o n c r e t e s p e c i f i c a t i o n s o n t h e m i n e x i s t i n g s t a n d a r d s . t h u s , t h e r e s e a r c h o n h o w t o c r e a t e v o a n d t h e r a t e c o n tr o l o f m u l t i - v o h a s b e c o m e a p o p s u b j e c t . t h e m o t i o n o b j e c t r e g io n i s c a l l e d a s o u t - p o i n t i n t h e g l o b a l m o t i o n e s t im a t i o n . b e c a u s e t h e l o c a l m o t i o n v e c t o r o f o u t - p o i n t i s p a r t i c i p a t e d i n f o r m i n g t h e g lo b a l m o t i o n v e c t o r , t h e a c c u r a c y a n d c o m p l e x i t y o f g l o b a l m o t i o n e s t i m a t i o n w i l l b e in fl u e n c e d e s p e c i a l l y w h e n t h e o u t - p o i n t r e g i o n i s a b i g p a rt i n i m a g e s . s o t h e e l i m i n a t i o n o f o u t - p o i n t b e c o m e s s i g n i fi c a n t f o r a c c u r a t e g l o b a l mo t i o n e s t i m a t i o n . u s u a l l y o u t - p o i n t i s e l i m i n a t e d b y s t a t i s t i c a l m e t h o d . t h e p r e - a n a l y s i s o f v i d e o i m a g e b a s e d o n t h e r a t i o o f t e m p o r a l g r a d i e n t s t o s p a t i a l g r a d i e n t s i s u s e d i n s o m e p a p e r s t o e l i m i n a t e o u t - p o i n t s , b u t i t s e ff e c t i s n o t g o o d . i n o u r t h e s i s , t h e p r e - a n a l y s i s b as e d o n b l o c k m a t c h o f e d g e c h a r a c t e r i s t i c i m a g e i s a d o p t e d a c c o r d i n g t o i t s c h a r a c t e ri s t i c t h a t o u t - p o i n t s t e n d t o g a t h e r i n t o b l o c k i n i m a g e . t h r o u g h th i s w a y , t h e f a i r l y b i g r e g i o n o f o u t - p o i n t s c a n b e e l i m i n a t e d a n d d i ff e r e n t m o d e ls o f g l o b a l m o t i o n a r e u s e d f o r t h e m d i f f e r e n t im a g e s . t h u s t h e a c c u r a c y o f t h e e s t i m a t i o n o f g l o b a l m o t i o n v e c t o r h a s b e e n i m p r o v e d g re a t l y . t h e r e a r e t h r e e k i n d s o f t e c h n i q u e s t o e s t i m a t e t h e g l o b a l m o t i o n : t e c h n i q u e s b a s e d o n p i x e l l e v e l , v i s u a l f e a t u r e s i n s p a t i a l d o m a i n a n d v i s u a l f e a t u r e s in t r a n s f o r m a t i o n d o m a in . i n t h e v i e w o f t h e a b i l it y o f a n t i - n o i s e , a d a p t a b i l i t y a n d t h e a c c u r a c y o f e s t i m a t i o n , t h e t e c h n i q u e s b a s e d o n s p a t i a l v i s u a l f e a t u r e s a re t h e b e s t i n t h e t h re e . i n t h i s t h e s i s , t h e t e c h n i q u e o f g l o b a l m o t i o n e s t i m a t i o n w i t h m u l t i s t r a i g h t - l i n e f e a t u re s i s d i s c u s s e d . 玩t h i s w a y , i t i s e a s y t o e s t i m a t e t h e p a r a me t e r s o f g l o b a l d i s p la c e m e n t a n d r o t a t i o n w i t h g o o d a c c u r a c y a n d r e l a t i v e l y s i m p l e a l g o r i t h m t o e x t r a c t m o v i n g o b j e c t i n t h e v i d e o s e q u e n c e s , t h e a d j a c e n t fr a m e d i f f e r e n c e a n d o p t i c a l fl o w m e t h o d s a r e a d o p t e d e x t e n s i v e ly . i t s m a i n d r a w b a c k i s t h a t t h e o u t l i n e o f t h e m o t i o n o b j e c t s i s h a r d l y t o b e d e t e c t e d p r e c i s e l y . i n t h i s t h e s i s , a n im p r o v e d a l g o r i t h m o f d o u b l e d i ff e re n c e s i n th e a d j a c e n t t r i p l e fr a m e s h a s b e e n r a i s e d . t h e r e g i o n o f m o t i o n c a n b e e x t r a c t e d e ff e c t i v e l y w i t h b e tt e r a d a p t a b i l i t y a n d s t r o n g a b i l it y o f a n t i - n o i s e a ft e r c o m p e n s a t i o n o f g l o b a l m o t i o n , t h e d i ff e r e n c e im a g e i s c o m p o s e d o f r e m a i n d e r n o i s e r e g i o n a n d m o t i o n c h a n g i n g r e g i o n . b as e d o n t h e d a t e s t r u c t u r e o f im a g e , t h e i m a g e h as b e e n d i v i d e d i n t o b i t p l a n e s . t h e v i s u a l i n f o r m a t i o n a n d n o i s e in e a c h b i t p l a n e a r e q u i t e d i ff e r e n t . a n e w t e c h n i q u e w i t h b i t p l a n e p r e - a n a l y s i s a n d c o m b i n a t i o n t h r o u g h o r o p e r a t i o n i s d e v e l o p e d . t h e s i m u l a t i o n r e s u l t s s h o w t h a t t h e t e c h n i q u e i s e f f e c t i v e b e c a u s e t h e c o n c e p t o f v i d e o o b j e c t i s r a i s e d i n s e c o n d g e n e r a t i o n o f v i d e o e n c o d i n g , t h e d a t a r a t e c o n t ro l i s b r o u g h t f o r t h i n t h e e n c o d i n g o f m u lt i p l e v id e o o b j e c t s a t t h e s a m e t i m e . b as e d o n t h e r a t e - d i s t o rt i o n t h e o ry , t h e p r i n c i p l e t o d i s t r i b u t e t h e d a t a r a t e r e as o n a b l y a m o n g v i d e o o b j e c t s a n d t h e a l g o r i t h m a r e r a i s e d . a s a r e s u l t , t h e l i m i t e d b a n d w i d t h c a n b e d i s t r ib u t e d e f f e c t iv e l y a n d t h e h o m o g e n e o u s v i d e o q o s b e r e a c h e d p c s i m u l a t i o n a n d t h e r e s u l t s a n a l y s i s a r e c a r r i e d o n w i t h a l l t h e t e c h n iq u e s d i s c u s s e d . wh i c h s h o w t h a t t h e t h e s i s s r e s e a r c h w o r k h a v e i m p o rt a n t v a l u e s i n t h e o ry a n d a p p l i c a t i o n o n o b j e c t s d e t e c t io n , i d e n t i f i c a t i o n , v i d e o s e g m e n t a t i o n , e n c o d i n g a n d r a t e c o n t r o l b a s e d o n v i d e o o b j e c t s . k e y w o r d s :g l o b a l m o t i o n p e r - a n a l y s i s ,s tr a i g h t - l in e d e t e c t i o n ,g l o b a l m o t i o n e s t i ma t i o n , d o u b l e d i ff e r e n c e s , v o r a t e d i s t r i b u t i o n , r a t e - d i s t o r t i o n 独 创 性 声 明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。 据我所知, 除了文中 特别加以标注和致谢的地 方外, 论文中不包含其他人己 经发表或撰写过的研究成果, 也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明 确的说明并表示谢意。 ,1 4 -.、 冲 签名:! 为声 .日 期: ? v v .3 年t -2 月1 k 日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、 使用学位论文 的规定,有权保留并向国家有关部 或机构送交论文的复印件和磁 盘, 允许论文被查阅和借阅。 本人授权电子科技大学可以将学位论文 的全部或部分内 容编入有关数据库进行检索, 可以 采用影印、 缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:。、 、 。 二:渗lam 1 4 日 期: .w 年/ - 月i 分 日 电子科技大学博士论文:视频运动对象分割及码率分配与 控制技术研究 第一章绪论 1 . 1论题提出与理论框架 在当今的信息时代,人们在生活和工作中都离不开对各种信息的获取和使 用。 而视觉信息是人们相互交流和认识客观世界的主要媒体, 科学研究和统计表 明,在人们从外界获取的各种信息中,视觉信息大约占到总量的百分之七十多, 且视觉信息的客观作用是其他信息无法取代的。 带给人们视觉世界中所有信息的 是图示信息, 其中包括静态图像和时变图像序列。 静态图像的特点是其信息密度 在空域分布, 且相对于时间为常量; 而时变图像序列中的图像其信息密度的空域 分布是随时间变化的,因此时变图像是一种时间一 空间密度模式,通常可表示为 i ( xx 21 0 , 其中x i , x 2 是空 域 变 量,t 是时 域 变量, 本 文中 研究 的 视频 指的 就 是 时变图像序列。 随着数字图像处理技术以 及硬件的发展,静态图像的数字处理从六十年代 开始逐渐应用于教育、工业、军事、医学及其他领域。宇宙探测、图像识别、计 算技术、c t图像、气象资料处理、地质勘探数据处理等是静态数字图像处理技 术的一些实际应用例子。 数字视频技术的研究兴起于七十年代, 视频为我们提供 了比 静态图像更丰富的信息, 通过对视频信息进行分析和处理, 可以获得从单一 的静态图像中不可能得到的如运动变化等信息。 与静态数字图 像处理技术相比视 频分析和处理技术在社会生产与生活的各个领域有着更加广泛的应用,如: 在商业上,视频处理广泛应用于数字电视、多媒体应用、视频图像播放系 统、视频会议系统、可视电话、移动视频图像通信、远程医疗以及其他方面。 工业上,用于工业自 动控制、机器人视觉、运载工具自 主导航、流体动力 学分析等。 军事上,用于监控中的目 标检测、识别、跟踪、动态测量等。 其他的应用领域包括重点部门的监视系统、 智能化交通监控系统、 港口 交通 控制、 航空和飞行控制、 远程多媒体教育系统、医学中的生物组织运动分析、 海 洋洋流动态分析、天气预报中的云图分析与预测等。 1 . 1 . 1 论题提出 由于视频信息的最大特点是其数据量巨大, 而巨大的数据量将给视频信息的 存储和实时传输带来极大的困难, 并成为妨碍数字视频技术使用的主要瓶颈, 因 第一章绪 论 此必须研究视频数据高效表征和编码中的码率控制技术。在数字视频编码方面, 人们已经进行了大量研究, 先后提出了两代编码技术。 其中, 第一代视频编码技 术, 如m p e g - 1 , m p e g - 2 , h . 2 6 1 等, 只考虑去除视频中的图 像帧内以 及帧间的冗 余, 采用基于块的方式进行视频编码。 这些编码方法效率低下, 容易造成视觉上 的方块效应; 其最大缺点是仅仅把数字图像看作数值矩阵, 把视频看作帧流, 而 没有考虑视频场景的内容构成。 随着多媒体应用和服务的增加, 特别是按内容操 作和交互特性多媒体应用的增加, 传统编码方法己不能满足新应用的需求, 为了 提供更广阔的多媒体应用平台, 提高视频数据的压缩比, 有必要开发一种新的编 码方法来实现上述功能。 由此人们提出了第二代压缩编码技术, m p e g - 4 1 仁 2 3 就是采用基于场景内容进行编码的新一代编码标准中的代表, 其主要特征是采用 了基于对象的编码技术。mp e g - 4的编码原理如图 1 所示。 视频 场景 图像 序列 用于控制视频流的控制信息数据流 图1 . 1 m p e g - 4 编码原理框图 首先将输入的视频序列 “ v i d e o : = 工业化基本格式” 按视频场景中的内容来 对视频图像进行表征, 将视频场景分割成若干区域, 并提取视频场景描述参数集 合;分割出的每一个区域对应着一个语义上有意义的视频对象( v o ) ,此时 v i d e o = 恤i v r j ; i, 力 ( 其 中 v r 。 为 呱在 场 景 中 的 时 空 关 系 ) , 然 后 根 据 各 个 视 频 对象的特征对不同的视频对象采取不同的编码方法,获得编码视频对象流 c v o ; ( c o d e o f v o) 一 c v r , ( c o d e o f v r ;, ) 为了在有限信道带宽条件下在各个 v o 之间 合理分配数据码率,以便提供质量稳定的解压缩视频场景, 需要根据带宽约束和 电子科 技大学博十论文:视频运动对象分割及码率分配与控制 技术研究 每个v o的 特征给多视频对象编码提供码率 控制; 最后生成编码视频流。 这种基 于对象的视频编码技术不仅能大大提高编码效率, 而且支持用户对多媒体数据按 内容操作。由图1 中的框图可见, 视频分割、 高效编码、 码率控制是第皿代编码 系统中的关键技术。 视频对象的高效编码技术, 在mp e g - 4 协议中已有具体的规 定, 本文不再研究。由于视频分割、码率控制在现有的协议中没有具体的规定, 还处于探索阶段, 因此本文将研究这两个技术问题。 视频分割需要对视频图像序 列进行更多的分析和处理, 以便将视频图像分割为视频对象。 这就要求研究视频 图像中各种视频对象的运动、 纹理、 形状以及信息量等特征。 现有的码率控制都 是针对单个矩形视频对象来进行的, 对新出现的同时有多个视频对象进行编码的 码率控制问题是一个尚待研究的问题。 另外, 视频对象分割技术还在可视场景监 控、 运动目 标的识别与跟踪等许多领域内有着十分广泛的应用; 而多视频对象码 率控制对可视电话、 视频点播、移动多媒体等应用中的流控有普遍的指导作用。 因此, 视频分割技术和码率控制技术具有重要的理论意义和应用价值, 是当前多 媒体技术研究中的热点。 在视频场景序列中, 人们注意及感兴趣的主体, 可能具有形状、 运动、 纹理、 颜色等诸多特性, 因此, 视频场景有不同的分割准则。 本文中我们主要研究具有 自 主运动的物体一运动目 标的分割。 因此视频分割指的是针对视频图像场景中运 动目 标的分割, 在本文中也将运动目标称为视频对象。 视频图像中的背景一般是 没有自主运动的,其变化主要是由摄相机的运动变化或外界光照条件变化造成 的。 这样我们就可以 根据运动特征将视频中的内 容分割为具有自 主运动的物体和 背景两类对象。 这样的分割不仅可以为编码提供有效的 划分, 而且体现了一定的 视频内容特征, 为其他功能的实现打下了良 好的基础。 在两类对象不同的运动中, 由摄相机引起的背景变化又被称为视频图像中的全局运动变化, 对这一运动的估 计与补偿对视频分割与压缩以及运动编码中的自 适应码率控制都有极其重要的 作用, 高效准确的全局运动估计与补偿方法是值得进一步研究的。 由于运动目 标 得到人们更多的关注, 这就要求为它们提供比背景部分更加丰富的信息量, 这就 需要研究在多个视频对象之间合理地分配码率, 这是第二代编码标准面临的新问 题,对这一问题的研究在理论和应用中都有十分重大的意义。 1 . 1 . 2基本理论与实现框架 基于运动特征的视频场景序列中视频对象的分割, 覆盖了一系列重要的视频 第一章绪 论 处理技术领域, 他们在视频对象分割技术模型与实现框架中的位置和作用如图2 所示。 动标 运目 ( o v ) 视频场景 图 1 .2可视运动目 标分割的基本理论与技术框架 由图z 可见, 整个视频对象( 运动目 标 ) 分割过程可以 看成一个系统, 表示为 算 子。 : ( q(i 一 1 ,2 , . . . , k ) ) , 该 算 子由 一 系 列 的 子 算 子q依 次 窜 连 而 成 ; 系 统 的 输 入 为 场 景f ( x , y , z , 0 , 经 过 摄 相机 等 采 集 系 统 处 理构 成的 成 帧 子 算 子o , , 生 成 离 散的数字视频图 像序列i ( x , y , k ) , 其中 每一个图 像称为一个帧; 在各帧中包含由 o , 自 身 变化引 起的 全局 运动 变化的 背 景 域集 合 b ( x , y , k ) 和 场景中 实 体自 主 运 动引 起的 局部 变 化域 集合 o ( x , y , k ) ) ; 另 外由 于 在q中 各 种干 扰的 影响 , 帧中 还存在噪 声集 合 n ( x , y , k ) 。 因 此i ( x , y , k ) 表示如下 i ( x , y , k ) 一 b ( x , y , k ) u o ( x , y , k ) 卜加 ( x , y , k ) ( 1 . 1 ) 其中。表示在空域中交连,+ 表示加性噪声, 具体分析见第二章中相关内容。为 了 将运 动目 标 o ( x , y , k ) 分割出 来, 必须 首先解决好消除 全局运 动变 化的 影响、 背景 杂 波抑制问 题, 这是由 全局运动估计与 补偿子算子o : 和背景 杂波抑制子算 子o , 来实 现的。 全局运动估计与补偿, 现有方法可分为 基于空间 像素点 灰度、 基于变换域和基于空间特征的三个大类, 本文在第四章提出了基于多个直线段特 征的全局运动估计方法, 为了提高估计精度和干扰能力, 又在第三章提出了边缘 特征图 像 分 层 块匹 配的 预估计 方 法。 背 景区 域杂 波抑 制子算 子o , 不 是 本文 研究 重点, 但讨论了基于卡尔曼滤波的实现方法, 详细叙述见第五章。 得到背景平稳 的图 像序列后, 就可以 进行背景 / 运动目 标存在域的检测划分, 由 子算子o , 完成; 现在有多种解决方法, 可分为基于时域差分的方法、 光流分割法、 基于时空域特 征的方法等几大类; 我们提出基于时域差分并结合统计特征的方法和基于灰度图 电子科技大学博士论文: 视频运动对象分割及码率分配与控制技术研究 像比 特层信/ 噪特征的方法,详见本文第五、六章;最后,在结合形态学滤波、 边缘特征等技术的基础_ l 较好地解决视频场景中运动目 标检测与分割的问题, 得 到视频对象v o作为系统的输出。 视频对象编码后生成的视频流, 其数据率是随着视频对象本身的变化而波动 的, 但为了 提高信道的效率, 传送整个视频场景的所有对象的信道总带宽往往是 固定的。 这样一来,为适应信道特性丢弃一些编码数据, 造成回放视频图像的质 量波动。 为了尽量降低这种影响, 就提出了 视频编码中的码率控制问 题。由. 1 .1 中可见, 码率控制可以根据各个视频对象的特性和反馈回来的解码误差来进行。 本文提出了根据上述特性,利用信息论中率一 失真理论来进行码率控制的方法, 较好解决了 码率控制这一问题,详细论述见本文第七章。 1 . 2相关技术发展动态 从 研究角度来看, 数字视频处理技术涉及图像处理领域的诸多技术方面, 主 要可以划分为运动估计与补偿、运动目 标检测与分割、视频数据压缩与流控等。 对于不同的应用, 系统构成、 数理模型、 计算与分析方法是各不相同的, 一般需 根据不同的应用采用不同的技术和方法。 1 . 2 . 1 运动估计技术 作为 数字 视频处理的 基 本问 题之一, 运动估计涉及到图 像 平面 ( 二维 ) 或实体 ( 三维 ) 运动的 估计, 这是人们一直努力 研究的 课题 s 。 文献中 关于运动估计方 法的研究很多, 根据所采用的理论和模型的不同, 可以归纳为基于空间像素点灰 度的 方 法 6 1 . 基于变换域的 方 法 7 1 和基 于空间 特征的 方法 8 1 三 大 类。 1 、基于像素点灰度的方法 使 用 光 流 方 程的 方法 【 9 1 . 基 于 块的 方 法 1 0 1 等 都 是基 于图 像 空 域 像 素点 灰 度 关系的运动估计方法。 使用光流方程的方法是基于场景中实体上的各点在研究的时间段内沿着运 动 轨 迹 上的 亮 度保 持不 变 这一 假 设。 因 此 对 于时 变图 像f ( x i = x $ = t ) 得 到 光 流 方程 d f ( x , , = t ) d r =0 ( 1 . 2 ) 根据该方程, 就能够找到时变图 像序列中不同时刻图像上实体的对应点, 并根据 对应点坐标的变化估计出实体的运动参数。 但由于在每个像素点上光流方程包含 两个未知数, 必须另外增加约束条件才能解决上述问题。 为此, 人们提出了二阶 第一章绪 论 微分法 1 1 、 块运动模型 方法 1 2 , h o rn - s c h u n c k 方法【 1 3 , 梯 度估 算方法 1 3 , 像素递归 法【 1 4 等方法。 基于块的方法 1 0 是假设视频图像是由 运动的 块构成的,并且在每一个块 内, 各像素都有相同的运动矢量。 通过在两帧图像中搜索最佳匹配块, 然后根据 匹配块的位置坐标变化来估计出运动参数。基于块的方法包含三个基本部分: 匹配法则: 确定块匹配程度的准则, 表明块的相似程度。常用的有最大互 相关准则、 最小均方误差准则、 最小平均绝对差值准则、 最大匹配像素统计准则 等。 搜索过程:寻找最佳匹配块的搜索方法。 主要有三步搜索法、交叉搜索法 等。 块大小的确定: 选择一个合适的块尺寸对提高 运动估计的精度和速度都十 分重要。 太大, 不能满足块内各像素运动参数一致的 假设; 太小运算量过大。 一 般使用分级、自 适应等方法。 使用光流方程的方法计算量一般较大, 而且对噪声非常敏感, 并且所使用的 模型也是病态的, 因此在实际的应用系统中并不常见。 基于图像块的运动估计算 法是在实际应用系统中常见的 运动估计方法, 但“ 同 一个图像块中的所有像素都 具有相同的运动特征” 的假设, 对于一个规则的图像块来说, 这个假设并非总是 成立的。 2 、基于变换域的方法 基于变换域的方法是指将时空域中的运动估计转换为其他域( 如频率域) 的参 数估计的方法。 主要的方法有利用傅立叶变换“ 时空域中的平移运动表现为频率 域中 相位变化, 而频域中的幅值保持不变” 的性质, 通过计算相位相关函数来获 取 运 动参 数的 方 法 1 5 和 利 用 三 维 傅 立叶 变换 来 求 解 运动 参 数的 方 法 1 6 ) . 基于变换域的方法的优点是对图像中的亮度变化不敏感, 但它只能处理平移 运动的估计, 对旋转、 缩放等运动变化无法估计, 且还存在无法区分由边界效应 等噪声引起的虚假尖峰和真实运动产生的尖峰和频谱泄漏等影响估计精度的问 题,以及由二维d f t引入的运动估计范围的限制。 3 ,基于空域特征的方法 基于空域特征的运动估计方法是近来引起较多关注的方法,因为根据特征进 电子科技大学博士论文:视频运动对象分割及码率分配与控制技术研究 行视频r iq 像的分析、 处理更符合人的视觉特征。 选用什么样的特征来进行运动估 计是该方法的关键。 特征选择要考虑的因素包括特征的普遍存在性、 特征的 抗噪 声能 力、 特征的 定 位精 度和 特征描述的复 杂 性 等。 边 缘 特征 1 1 1 8 和 拐点 特征 1 9 1 等 特征 元 常 被 用 来 估计 运 动参 数。 提取出 当 前 视 频图 像中的 特征 信息 后, 在 参考图像中找出与之相匹配的特征元, 然后根据特征元的运动变化估计出运动参 数。 基于空域特征的运动估计方法与前面两类方法相比具有更好的普适性, 可以 处理视频图像序列中的平移、 旋转、 缩放等运动变化, 且运算量不大, 精度较好。 1 . 2 . 2运动目 标检测与分割技术 在视频分割中 使用的主要特征有运动信息、 纹理信息、 色彩信息、 灰度信息 等, 其中运动信息尤为受到关注。 其原因 在于: 在视频场景中, 人们主要是对运 动目 标感兴趣, 并且由于运动目标和背景相比 较二者的运动特征明显不同, 因此 便于在视频图像中进行背景与目 标的分割。 运动目 标检测与分割是数字视频处理 技术中一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论