




已阅读5页,还剩68页未读, 继续免费阅读
(计算机科学与技术专业论文)h264avc视频感兴趣区域的检测与保护技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
? 1 “,: j _ l i 一- 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:因数同期:趔翌:f :! 里 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:司糯l 导师签名: i - 摘要 摘要 随着保护公共安全的视频监控系统与个人终端视频采集设备的普及,视频侵 犯个人隐私的事件越来越多,互联网视频安全问题也愈加的严重。视频信息安全 成为目前研究的热点和急需解决的问题。 目前对视频安全问题的研究大都集中在对整帧视频加密算法的研究上。对整 帧视频加密不但会影响对特殊视频场景的理解而且只从密码学的角度研究对视 频加密而不考虑视频的编码结构会影响视频的编码效率。因此本文提出了对视频 感兴趣区域保护的方法。 视频中感兴趣区域往往带有大量重要信息,对感兴趣区域的保护可以有效解 决视频安全问题。目前广泛采用的视频压缩标准为h 2 6 4 a v c ,因此要求加密或 置乱后的视频必须满足h 2 6 4 的语法规范,能够被通用的解码器解码。怎样正确 检测感兴趣区域,怎样在满足场景可理解性,隐私屏蔽性和可恢复性的基础上提 高抗攻击性和编码效率,是本文中需要研究和分析的问题。 通过介绍并分析现有的感兴趣区域检测方法,针对现有方法的不足,提出了 一种基于非感兴趣区域时空分析的运动显著区域检测算法。与传统方法不同的是 本算法立足点是寻找非感兴趣区域,运动显著区域作为非感兴趣区域的补集被提 取。位置信息作为先验知识用来确定初始非感兴趣区域,最后通过时空分析得到 运动显著区域。实验证明,该方法可以有效的检测出运动显著区域,对于有复杂 摄像机运动的视频也具有强鲁棒性。 针对当前视频加密方法的优缺点与h 2 6 4 的编码结构,提出了一种面向h 2 6 4 视频感兴趣区域保护的置乱编码的结构,鉴于视频压缩域加密方法的优越性,本 文提出的置乱编码结构是一种对压缩域加密的结构,对压缩域加密可以防止视频 编码效率下降。本文分析了目前主流的压缩域视频加密方法,结合视频安全的需 求以及h 2 6 4 的特性提出了一种多元素联合的h 2 6 4 视频置乱方法。通过对实验数 据的分析可以证明该方法具有一定的抗攻击性,并且对视频编码的效率没有太大 的影响。 本文分析了对感兴趣区域置乱编码后由于帧内预测和帧间预测而产生的误 北京t 业人学t 学硕 :学f 囊论文 差漂移,介绍了利用h 2 6 4 中f m o 机制以及强制帧内编码机制来抑制误差漂移的 方法,讨论了该方法的优缺点。 关键词视频隐私保护;感兴趣区域;置乱编码;误差漂移 a b s t r a c t a bs t r a c t n o w a d a y s ,v i d e os u l v e i l l a n c es y s t e mw h i c hi su s e dt op r o t e c tp u b l i cs a f e 够a n d i n d i v i d u a lv i d e oc 印t u r ed e v i c e sa r eb e c o m i n gm o r e 觚dm o r ep 叩u l 鸩s ov i d e 0 i n v a s i o no fp e r s o n a lp r i v a c yb e c o m em o r ea n dm o r e i n t e m e tv i d e os a f e t yh a s b e c o m ee v e l lm o r es e r i o u ss e c 耐t yi s s u e s v i d e oi n f o n i l a t i o ns e c u r i t yi s s u e sb e c o m e t h eh o tr e s e a r c hs p o t sa n du 玛e n tp r o b l 锄s a tp r e s e n tt h es t u d yo fv i d e os e c u r i t ym o s t l yf o c u s e do nh o wt 0 明c r y p tm e e n t i r e 仔锄eo fv i d e 0a r l dt h ee n c r y p t i o na l g o r i t h m s e n c r y p tt h ee n t i r e 仔锄eo fv i d e o n o to n l yw i l la f f e c tt h eu 1 1 d e r s t a n d i n go fv i d e os c e n eb u ta l s or e g a m l e s so ft h ev i d e o c o d i n gs t m c t u r eo n l y 丘o mt h ep e r s p e c t i v eo fc r y p t o 黟a p h y v i d e oe 1 1 c r y p t i o nw i l l a f f e c tm ev i d e 0c o d i n ge 伍c i e n c y s ot h i sp a p e rp r o p o s e dt h em e t h o dw m c hp r o t e c t m ev i d e ob a s e do nr e g i o n o f - i n t e r e s t ( r o i ) r o ii nv i d e 0a l w a y sb r i n g sal o to fi m p o r t a n ti n f 0 肌a t i o n t h e r e f o r e ,t l l e p r o t e c t i o no fr o i c 趾b e 孤e 髓c t i v es o l u t i o nt 0v i d e os e c u r i t y c 岍e n t l yh 2 6 4 a v c i s w i d e l yu s e d 嬲m ev i d e oc o m p r e s s i o ns t a i l d a r d , s oa r e rb e e ne n c r ) ,p t e do r s c r a m b l e d ,v i d e os h o u l dm e e tt l l es y n t a ) 【s p e c i f i c a t i o no fh 2 6 4a 1 1 dc a i lb ed e c o d eb y ac o m m o nd e c o d e r ,t h e c o d i n ge 珩c i e n c y o fc n c r ) ,p t e dv i d e os h o u l dn o tb e s i g l l i f i c a n t l yr e d u c e d ,a n dt h ee n c r y p t e dv i d e os h o u l dh a v eac e r t a i nr e s i s t a n c et 0 a g g r e s s i v e h o wt oe x t r a c tt h er o ie x a c t l y ,h o wt oi n c r e a s em er e s i s t a n c et oa t t a c k a i l dt h e c o d i n ge f | f i c i e n c y 0 nm eb a s i so fv i d e 0s c e n ei m e l l 谤b i l i t y p r i v a c y i n f o m a t i o ns a f e t y 锄dr e c o v e n b i l i t ya r et h ep r o b l e n l st os o l v ei nt h i sp 印e r t l l i sp a p e ri n 仃d d u c e s 狮da i l a l y z e st h ec 1 盯e n tr o id e t e c t i o nm e t l l o d ,t o o v e r c o m et h e s el i m i t a t i o n s ,t l l i sp 印e rp r o p o s ean o v e lm e t h o df o rm o t i o ns a l i e n t r e 百o n d e t e c t i o n b ya n a l y z i n gr e 舀o n - o f n o n i n t e r e s t( r o n i )s p a t i a l - t e m p o r a l i n f o m a t i o n d i 缳;r e l l t 五r o mf 0 m e rm e t h o d s ,o u ra p p r o a c hi st 0s t a r t :6 的mt h er o n i , a r l dl o o kf o rm o t i o ns a l i e n tr e 舀o n sa sm e i rc o m p l e m e n t s p o s i t i o n 硒ap r i o r k n o w l e d g ei s u s e dt 0d e t e n i l i n et 1 1 ei i l i t i a lr e 百o n - o f - n o n - i n t e r e s t m o t i o ns a l i e n t i i i _l 北京t 业大学t 学硕l j 学位论文 r e g i o nw i l lb eo b t a i n e db ys p a r i a l t e m p o r a la n a l y s i s e x p 甜m e n t a lr e s u l t si n d i c a t e m a to u rs c h 锄ec 锄d e t e c tm o t i o ns a l i e n tr e 西o ne f f e c t i v e l ye s p e c i a l l yt ot h ev i d e o s w i mc o m p l i c a t e dc 锄e r am o t i o n t h i s 矾i c l ea 1 1 a l y z e st h es 仃e n g t h sa i l dw e a k i l e s s e so fc 眦e n tm e t h o d so fv i d e o e n c r y p t i o n h lv i e wo ft h ec o d i n gs t m c t u r eo fh 2 6 4 ,t h i sp 印e rp r o p o s eas c r a i l l b l i n g c o d i n gs t m c t l cf 1 0 rh 2 6 4v i d e or o ip r o t e c t i o n b e c a u s eo ft h es u p e r i o r i t yo f e n c r y p t i o ni nc o m p r e s s i o nd o m a i n ,t h ep r o p o s e ds t n l c t u r ei s a l s o e n c r y p t i o n i i l c o r n p r e s s i o nd o m a i nw h i c hc 狮p r e v e mt h ed e c l i n ei nc o d i n ge 伍c i e l l c y h lt h i sp 印e r w ea l s od i s c u s st h ec u l l r e n tm a i n s 仃e 锄o fc o m p r e s s e dd o m a i nv i d e oe i l c r y p t i o n m e t h o d s ,c o m b i n e dw i mv i d e os e c u r i t yn e e d s 锄dt h ec h a r a c t e r i s t i c so fh 2 6 4a m u l t i - e l e m e i l tc o m b i n e dh 2 6 4s c 砌m b l i n gm e m o di sp r e s e n t e di 1 1t h i sp a p e r t h e e x p 甜m e n t a lr e s u l t s s h o wt l l a tt l l em e t h o dh 嬲c e n a i na n t i a g 黟e s s i v ea 1 1 d l e e 伍c i e n c yo fv i d e oc o d i n gi sn o tm u c ha 虢c t e d e 玎o r “r sc a u s e db yi n t r aa i l di i l t e rp r e d i c t i o nw r h 饥c o d i n gm es c r a n l b l i n gr o i a r ea n a l y z e di n “sp a p e r ,f 1 e x i b l em a c r o b l o c ko r d e r i n g ( f m o ) m e c h a i l i s mo f h 2 6 4 a v ci si n t r o d u c e dt o p r e v e n tt h e e 丌0 r嘶f t s t l l e a d v a n t a g e s 舭d d i s a d v a i l t a g e so f t h em e t h o da r ea l s od i s c u s s e d k e y w o r d s :v i d e op r i v a c yp r o t e c t i o n ;r e 百o n - o f i n t e r e s t ;v i d e os c r a l l l b l i n gc o d i n g ; e 盯o r d r i r _1, 目录 目录 摘要i a b s t r a c t i i i 第1 章绪论l 1 1 研究背景与意义1 1 2 论文的研究内容2 1 3h - 2 6 4 技术介绍3 1 4 论文结构安排1 2 1 5 本章小结1 2 第2 章国内外研究现状1 3 2 1 感兴趣区域检测技术的研究现状1 3 2 1 1 基于用户交互的方法1 3 2 1 2 基于变换的方法1 3 2 1 3 基于分割的方法1 6 2 1 4 基于视觉模型的方法1 7 2 2 感兴趣区域保护技术的研究现状2 0 2 2 1 选择加密2 1 2 2 2 置乱加密2 3 2 2 3 基于统计规律的加密2 4 2 3 本章小结2 5 第3 章感兴趣区域检测算法的研究2 7 3 1 感兴趣区域检测方法概述2 7 3 2 基于非感兴趣区域时空分析算法模型2 7 3 3 基于非感兴趣区域时空分析算法2 8 3 3 1 位置信息2 8 3 3 2 空间一致性分析2 9 3 3 3 时间一致性分析3 1 3 3 4 运动显著区域的确定3 1 3 4 实验结果及分析3 2 3 5 本章小结3 6 第4 章感兴趣区域置乱策略的研究3 9 4 1 感兴趣区域置乱方法概述3 9 4 2 面向h 2 6 4 感兴趣区域保护的置乱编码结构4 0 4 2 1h 2 6 4 像素域置乱方法4 0 4 2 2h 2 6 4 压缩域置乱方法4 1 v 北京t 业大学t 学硕卜学位论文 4 2 3 置乱编码结构4 2 4 3 多元素联合置乱方法4 3 4 3 1h 2 6 4 视频常用置乱算法分析4 4 4 3 2 多元素联合置乱方法4 6 4 4 误差漂移的抑制4 7 4 5 实验结果及分析4 9 4 6 本章小结5 2 结论5 3 参考文献5 5 攻读硕士学位期间发表的学术论文6 1 致谢6 3 v i 第1 章绪论 1 1 研究背景与意义 第1 章绪论 随着互联网技术与多媒体技术的飞速发展,视频信息在网络和日常生活中得 到了普及和应用,视频监控系统、视频点播、可视电话、视频会议等应用的市场 也日趋火热,这些应用涵盖了教育、医疗、新闻、商务、行政管理、安全和军事 等重要领域,这些视频信息在网络的应用环境中很容易受到人为的攻击,例如信 息泄露、数据篡改、数据删添等。尤其是近年来,由于人们对公共安全关注程度 的提高以及在国家“平安城市建设的号召下,视频监控系统变得越来越普及, 监控视频侵犯个人隐私的案件也层出不穷。 2 0 0 8 年1 月,一对青年情侣在上海地铁站拥吻的视频片断在互联网上广泛流 传,在社会上引起轩然大波;在广州,一名职业技术学院女学生被堵在墙角辱骂 的视频也被公开在了网上:2 0 0 8 年5 月,深圳市的交警监控摄像头被违规操作, 拍摄到某小区居民家中女士洗澡等隐私并在互联网上流传。在国外也同样有着这 样的事件,一家博物馆的闭路电视摄像头甚至被保安用来侦察德国总理默克尔。 视频信息的安全问题越来越多的受到了人们的关注,因此,视频信息的安全问题 成为目前研究的热点和急需解决的问题【lj 。 传统的密码学密钥加密方法是常用的视频安全保护措施,可以在维护公共安 全,满足大众各方面需求的同时保证视频信息不被泄露,是解决视频安全的有效 途径,具有重大的意义。然而,传统的数据加密技术是将视频作为普通的数据流 进行加密,忽略了视频数据结构的特点,无法满足视频系统的安全性、实时性、 高压缩比等要求,具有一定的局限性。而且,传统的方法都是对整个视频进行加 密或者置乱的,该方法不能与视频编解码过程进行很好地结合,对整个视频进行 加密或者置乱处理不仅会导致视频编码时的码率增加、编码效率的下降,也会对 一些有特殊用途视频( 例如监控视频) 场景的理解产生影响。为了解决上述问题, 本文提出了只对视频感兴趣区域进行保护的方法。人们在观看视频的时候,观察 的重点往往集中在视频某些特定的区域里,而对这些区域之外的地方不会有太多 的需求。这些最能引起用户兴趣、最能表现视频内容的区域称为感兴趣区域 ( r e 西o n so fh l t e r e s t ,r o i ) 。视频的感兴趣区域往往带有大量重要的隐私信息, 例如人,车辆以及重要的标志等等。当视频的感兴趣区域被加密或者置乱,在没 有授权的情况下,人们无法从视频中得到感兴趣区域中的重要隐私信息;有授权 的人可以利用密码恢复出原始视频,得到感兴趣区域,如图1 1 所示。只对感兴 趣区域采用适当的加密或者置乱方法并且与视频压缩编码技术结合起来,不仅能 北京t 业大学t 学硕l j 学位论文 够保证视频的安全性,也能节省编码码流的开支,而且不会大大降低编码的效率, 具有非常重要的理论意义和应用价值。 a ) 原始视频b ) r o i 经过加密或置乱的视频 ) o r i 百m lv i d e ob ) s c 埘n b l er o i 图l l 视频感兴趣区域置乱 f 嘻l - ls c r a i n b l ev i d e or o i 1 2 论文研究内容 为了实现保护视频安全的目标,我们采用了只对视频感兴趣区域进行保护的 方案。本文的研究内容主要包括两个部分:感兴趣区域检测算法的研究和对视频 感兴趣区域置乱策略的研究。 对于视频感兴趣区域的定义有两类:一种是指人们主动的去寻找视频中的某 些目标或者区域,这种目标或者区域本身或许显著,或许不显著,由于人们带着 某种目的去观察,这些目标或区域成为人眼感兴趣区域。另一种是指人们在观看 视频的时候,观察的重点往往集中在视频的某些特定的区域里,而对这些区域之 外的地方不会有太多的需求。这些最能引起用户兴趣、最能表现视频内容的区域 称为感兴趣区域。本文中所提到的感兴趣区域是指定义的第二种,这种由于视频 内容本身的显著性引起的人眼注意的区域往往带有大量的重要信息,最能表现视 频内容,因此成为视频保护的重点区域。例如,新闻视频中的人物头肩区域,医 疗视频中的病理区域,监控视频中的运动目标区域等。对感兴趣区域的检测不仅 要保证检测的准确性而且要满足视频实时编码的要求,因此算法的复杂度不能太 高,怎样快速准确的检测出感兴趣区域是本文面临的首要问题。 本文中对视频感兴趣区域的保护主要采用对感兴趣区域置乱的方法,对置乱 后的视频要满足以下三个特性:1 ) 视频必须能够完整的展现场景的实际情况, 即视频要具有可理解性;2 ) 感兴趣区域的屏蔽性,对感兴趣区域应该采用一定 的处理技术使得在没有密钥的情况下,无法辨别出感兴趣区域,并且要有一定的 抗攻击能力;3 ) 隐私的可恢复性,授权人员在必要时( 如案件侦破,调查取证 等情况) 能够查阅视频的完整原始画面,包括之前经过屏蔽处理的感兴趣区域, 2 第1 章绪论 因此要求屏蔽感兴趣区域的加密方法是可逆的。如何在满足以上要求的基础上, 提出一种适当的置乱方法来提高视频的抗攻击性和置乱编码的效率是本文需要 进行深入研究的问题。 现有的视频大都采用h 2 6 4 视频压缩标准,为了获得较高的数据压缩率和较 好的网络适应性,h 2 6 4 采用了许多复杂的压缩技术,这就使得它的复杂度大大 地增加,因此我们必须建立面向h 2 6 4 视频的置乱编码结构,采取符合h 2 6 4 标准 的置乱方法,提高其抗攻击性和编码效率。 只有解决了上述的问题,视频安全就能得到一定程度上保证,因此,本文将 主要研究以上提出的两点问题。 1 3h 2 6 4 技术介绍 h 2 6 4 视频标准( 又称为1 4 4 9 6 1 0 或m p e g - 4p a n l 0 ,a v c ) 是在2 0 0 3 年 3 月运动图像专家组m p e g ( m o v i n gp i c t i 鹏e x p e r t sg r o u p ) 和视频编码专家组 v c e g ( v i d e oc o d i n ge x p 毹g 胁u p ) 共同成立的联合视频小组j v t ( j o i n tv i d e o t e 锄) 发布的。h 2 6 4 视频标准采用了许多新的编码技术,取得了比以往任何一 个视频压缩标准都高的压缩性能,具有良好的差错控制和错误隐藏机制,极大的 提高了其网络传输的可靠性。h 2 6 4 以其优异的压缩性能被广泛地应用于数字电 视广播、视频实时通信、网络视频流媒体传输以及多媒体短信等各个领域。在本 节中将介绍h 2 6 4 视频压缩标准中的关键技术。 1 ) h 2 6 4 编码框架 h 2 6 4 并不明确的规定一个编解码器如何实现,而是规定了一个编了码的视 频比特流的句法和该比特流的解码方法,在实现上具有较大的灵活性。h 2 6 4 标 准仍然采用以块为单位的预测加变换的混合视频编码框架。编码器与解码器的结 构分别如图1 2 ,l 一3 所示。 图1 - 2h 2 6 4 编码器 f i g 1 2h 2 6 4e n c o d e r 北京t 业大学下学硕_ :学位论文 图1 2 中,输入的帧或场c 以宏块为单位被编码器处理。首先,按帧内预测 或帧间预测编码的方法进行处理。如果采用帧内预测编码,其预测值p 是由当前 片中前面已编码的参考图像经运动补偿后得出,其中参考图像用一,表示。为了 提高预测精度,提高压缩比,实际的参考图像可在前面或后面已编码解码重建并 经过滤波的帧中进行选择。预测值和当前块的原始值相减后,产生一个残差块 d 。,经块变换、量化后产生一组量化后的变换系数x ,再经熵编码,与解码所 需的一些信息( 如预测模式量化参数、运动矢量等) 一起组成一个压缩后的码流, 经网络抽象层( n e 觚o r ka b s 仃a c t i o nl a y e r ,n a l ) 后供传输和存储使用。 如上所述,为了提供预测用的参考图像,编码器必须有重建图像的功能。因 此必须使残差图像经反量化、反变换后得到的今与预测值p 相加,得到未经滤 波的帧一。为了去除编码解码环路中产生的噪声,为了提高参考帧的图像质量, 从而提高压缩图像性能,设置了一个环路滤波器,z 一经过滤波后输出,即重 建图像,可用作参考图像。 图1 3h 2 6 4 解码器 f i g 1 3h 2 6 4d e c o d e r 由图1 3 可以看出,其实解码器的大部分模块是包含在编码器中的,编码的 重建过程实际上也就是一个解码的过程。 2 ) h 2 6 4 帧内预测 在帧内预测模式中,预测块是基于已编码重建块和当前块形成的。对于亮度 像素而言,预测块用于4 4 子块或者1 6 1 6 宏块的相关操作。4 4 亮度子块有9 种预 测模式,独立预测每一个4 4 亮度子块,适用于带有大量细节的图像编码。如图 1 4 所示,对于4 4 的亮度预测模式,使用亮度块的上方和左方像素a q 为已编码 和重构像素,用作编解码器中的预测参考像素。a p 为待预测像素,利用a q 值 和9 种模式实现。其中模式2 ( d c 预测) 根据a q 中已编码像素预测,而其余模 式只有在所需预测像素全部提供才能使用。图1 5 箭头表明了每种模式预测方向。 对模式3 8 ,预测像素由a o 加权平均而得。1 6 1 6 亮度块有4 中预测模式,如图 1 6 所示,预测整个1 6 1 6 亮度块,适用于图像的平坦区域。色度块也有4 种预测 模式并采用8 8 的块大小,类似于1 6 1 6 亮度块。编码器通常选择使预测块与编码 4 第1 帝绪论 块之间差异最小的预测模式。 mabcdefgh iabcd jef g h kl j k i lmno p 图1 44 4 像素块预测中像素位置标识 f i g 1 _ 4m a r l 【so f 4 4p i ) 【e l sp r e d i c t i o n 1f h 吨o n t a i ) 2 ( d c )3 胁g o 怕i 咖州啪4 傅a g o n a i 如帅呻帅付 矿亨f 男爵 5 ( v or c i l 卜n g m )8 h o 血o n 协i d 口骱) 酽琴驴纩 图1 54 4 像素块帧内预测模式 f i g 1 - 54 4p 洳l si “眈胁n ep r e d i c t i o nm o d e 图1 - 61 6 1 6 像素块亮度帧内预测模式 f i g 1 - 61 6 1 6p i x e l si i l t r a 丘狮ep r e d i c t i o nn l o d e 3 ) h 2 6 4 帧问预测 h 2 6 4 帧间预测是利用已编码视频帧或场和基于块的运动补偿的预测模式。 与以往标准帧间预测的区别在于块尺寸范围更广( 从1 6 1 6 到4 4 ) 、亚像素运 动矢量的使用( 亮度采用l 4 像素精度m v ) 及多参考帧的运用等等。 树状结构运动补偿 每个宏块( 1 6 1 6 像素) 可以按4 种方式进行分割:1 个1 6 x 1 6 ,或2 个1 6 8 , 5 北京t 业人学t 学硕l 学位论文 或2 个8 1 6 ,或4 个8 8 。其运动补偿也相应有4 种。而8 8 模式的每个子宏 块还可以进一步以4 种方式分割:1 个8 8 ,2 个4 8 或2 个8 4 及4 个4 4 。 这些分割和子宏块大大提高了各宏块之间的关联性。这种分割下的运动补偿则称 为树状结构运动补偿。如图1 7 所示。 口目田田 口日田田 图1 7 宏块树状结构 f i g 1 - 7 i h es 缸u c t u r ea n ds u b s 缸u c t i l r eo f 。n l a c r o b l o c k 每个分割或者子宏块都有一个独立的运动补偿每个m v 必须被编码、传输, 分割的选择也需编码到压缩比特流中。对大的分割尺寸而言,m v 选择和分割类 型只需少量的比特,但运动补偿残差在多细节区域能量将非常高。小尺寸分割运 动补偿残差能量低,但需要较多的比特表征m v 和分割选择。分割尺寸的选择 影响了压缩性能。整体而言,大的分割尺寸适合平坦区域,而小尺寸适合多细节 区域。宏块的色度成分则为相应亮度的一半。色度块采用和亮度块同样的分割模 式,只是尺寸减半( 水平和垂直方向都减半) 。 运动矢量( m v ) 帧间编码宏块的每个分割或者子宏块都是从参考图像某一相同尺寸区域预 测而得。如果要编码的区域和参考区域的运动精确到分像素级别,或者说由于物 体运动的不规则性使得参考宏块不可能刚好处于整像素位置上,亚像素位置的亮 度和色度像素并不存在于参考图像中,需利用邻近已编码点进行内插而得。分像 素精度运动预测在h 2 6 3 中已经提出,而在h 2 6 4 中为了进一步提高压缩效率将 精度达到亮度分量1 4 像素和色度分量1 8 像素( 4 :2 :0 的采样格式) 的级别。与 整数像素运动矢量相比,分像素的预测更加的准确,但是随之而来的就是分像素 会造成编码复杂度的提高。 h 2 6 4 标准中规定帧间预测各宏块或分割的运动向量( m v ) 采用1 4 像素精 度( 亮度块) 和1 8 像素精度( 色度块) ,各分像素位置点通过内插得到。 m v 预测 每个分块的m v 的编码需要大量的比特位,特别是在选择小尺寸的时候。 相邻块的运动矢量通常高度相关,所以每个块的运动矢量都可以从邻近的先前编 码块的运动矢量中进行预测得到。预测矢量m v p 的产生是基于先前计算的运动 6 第l 章绪论 矢量和m v d ( 预测与当前的差异) ,而当前运动矢量和预测运动矢量的差值被编 码和传输。m v p 的形成依赖于运动补偿块的大小和临近运动矢量是否可以得到。 e 为当前宏块或宏块分割子宏块。a 、b 、c 分别为e 的左、上、右上方的三 个相对应块。如果e 的左边不止一个分割,取其中最上的一个为a ;上方不止一 个分割时,取最左边一个为b 。如图1 8 所示为所有分割有着相同尺寸时的临近 分割选择。如图1 9 所示为不同大小尺寸时的临近分割选择。其中: 1 传输分割不包括1 6 8 和8 1 6 时,m v p 为a 、b 、c 分割m v 的中值; 2 对于1 6 8 分割,上面部分m v p 由b 预测,下面部分m v p 由a 预测; 3 对于8 1 6 分割,左面部分m v p 由a 预测,右面部分m v p 由c 预测; 4 跳跃宏块( s k i p p e dm b ) 同1 。 如果如图1 9 所示的传送块不存在时( 如在当前片外) ,m v p 的选择需要重 新调整。在解码端,m v p 以同样的方式形成并加到m v d 上。对于跳跃宏块而 言,由于不存在m v d ,其运动补偿宏块也由m v 直接生成。 b c | a 礅,。“馏 :e : 么,。兹 图l 一8 当前和邻近分割( 尺寸相同) f i g 1 - 8n e c u 玎e n t 觚da d j a c e mp a n i t i o n ( m es 锄es i z e ) 4 8 b c 8 4 1 6 8 a 张, 一1j 嘞 e。 1 6 1 6 ; 琵。二l 图1 9 当前和临近分割( 不同尺寸) f i g - l - 9t l l ec u r r e n t 柚da d j a c 衄tp 枷t i o n ( d i 脑喇s i z e ) 4 ) h 2 6 4 变换与量化 与以往视频编码标准相类似,h 2 6 4 也对预测残差进行了变换编码,尽管也 叫做离散余弦变换( d i s c r e t ec o n s i n et r a n s f 0 彻,d c t ) ,但是与以往的d c t 还不 完全相同,h 2 6 4 将d c t 变换与量化融合在一起来进行计算,前一步仅对预测残 差进行整数变换,从而避免了反向变换时由于产生浮点数而变换不一致而产生的 7 北京t 业大学t 学硕l j 学位论文 预测漂移,后面将产生小数的变换和量化一起进行操作,这样可以有效地解决由 于两次操作带的误差增大问题。 h 2 6 4 中d c t 变换有4 4 块变换和8 8 块变换两种不同的模式,在不同档次和 级别中可以有选择地使用。4 4 块变换的变换公式如下【2 】: y = ( c ,c ,t ) 0 e , l1 21 11 12 1l 一12 11 21 12 11 11 12 11 12 12 11 口2 口6 2 口2 口6 2 口6 2 6 2 4 口6 2 6 2 4 口2 口6 2 口2 口6 2 口6 2 6 2 4 口6 2 6 2 4 其中取a = 1 2 ,取6 = 2 5 ,运算“o 对每个矩阵元素只进行一次乘法,同时 它将被归纳到量化运算中。这样,公式前面就只剩下整数的加法、减法和移位运 算。公式( 1 1 ) 被称为整数d c t ,它的结果与通常d c t 运算结果近似,但因对 d c t 矩阵进行了整数修正,所以两者结果有些差别。 量化过程是在不降低视觉效果的前提下减少图像编码长度,去除对视觉影响 很小的冗余信息。h 2 6 4 采用标量量化技术,它将每个图像样点编码映射成较小 的数值。它也是视频压缩编码的关键所在,它对编码长度的减小是绝对的,也是 不可逆的。 在h 2 6 4 中,量化步长q 。t e p 共有5 2 个值。每个量化步长对应一个量化参数q p , 它是量化步长的序号。当q p 取最小值o 时代表最精细的量化,当q p 取最大值5 1 时代表最粗糙的量化。q p 每增加6 ,q 。t c p 增加一倍。应用时可以在这个较宽的量 化步长范围根据实际需要灵活选择。 5 ) h 2 6 4 熵编码 熵编码是无损压缩编码方法,它生成的码流可以经解码无失真地恢复出原数 据。熵编码是建立在随机过程的统计特性基础上的。熵的大小与信源的概率模型 有着密切的关系,各个符号出现的概率不同,信源的熵也不同。当信源中各事件 是等概率分布时,熵具有极大值。信源的熵与其可能达到的最大值之间的差值反 映了该信源所含有的冗余度。信源的冗余度越小,即每个符号所独立携带的信息 量越大,那么传送相同的信息量所需要的序列长度越短,符号位越少。因此,数 据压缩的一个基本的途径是去除信源的符号之间的相关性,尽可能地使序列成为 无记忆的,即前一符号的出现不影响以后任何一个符号出现的概率。 c a v l c ( 基于上下文的自适应变长编码) 在h 2 6 4 的c a v l c 中,通过根据已编码句法元素的情况动态调整编码中使 用的码表,取得了极高的压缩比。 第l 章绪论 c a v l c 用于亮度和色度残差数据的编码。残差经过变换量化后的数据表现 出如下特性:4 4 块数据经过预测、变换、量化后,非零系数主要集中在低频部 分,而高频系数大部分是零;量化后的数据经过z i g z a g 扫描,d c 系数附近的非 零系数值较大,而高频位置上的非零系数值大部分是+ l 和1 ;相邻的4 4 块的 非零系数的数目是相关的。c a v l c 充分利用残差经过整数变换、量化后数据的 特性进行压缩,进一步减少数据中的冗余信息,为h 2 6 4 卓越的编码效率奠定了 基础。 c a v l c 的具体编码算法如下: ( 1 ) c o e f rt o k e n :对非零系数的数目( t o t a l c o e f r ) 和拖尾系数( 碱l i n g o n e s ) 的数目进行编码,编码过程中根据当前块值( n 姗曲e rc u 玎e m ,们) 值选择6 个 变长码表之一进行编码,其中c 值为当前块上面4 4 块的非零系数数目舫和 当前块左边4 4 块的非零系数数目m 的平均值,另外c 与当前块的系数类型 有关,若当前块为色度直流系数,则c 从1 ,2 和o 中进行选取。这就使得算 法具有上下文自适应性。 表1 1n c 计算方法 1 a b 1 一lc o i n p u t a t i o no f n c ( 2 ) 订a i l i n g - o n e s _ s i 乳n a g :对每个拖尾系数的符号进行编码,+ 1 编码尾 0 ,1 编码为1 。 ( 3 ) l e v e l s :对除拖尾系数之外的非零系数的级别( 1 e v e l ) 进行编码。非零 系数的级别编码由前缀( 1 e v e lp r e f i x ) 和后缀( 1 e v e ls u m x ) 两部分组成。对级 别按照倒序进行编码,从最高的频率开始一直到d c 系数。 ( 4 ) t o t a lz e f o s :编码第一个非零系数后面发生的零的总数,按照z i g z a g 顺序扫描,每个宏块一个。 ( 5 ) n l i lb e f o r e :编码每个非零系数前的零的个数,按照反z i g z a g 顺序。 c a b a c ( 自适应二元算术编码) 算术编码的思想是用0 到1 的区间上的一个数来表示一个字符输入流,它的 本质是为整个输入流分配一个码字,而不是给输入流中的每个字符分别指定码 字。h 2 6 4 标准采用基于上下文的自适应二进制算数编码来得到更好的压缩效果。 这种编码算法采用如下三个特性: ( 1 ) 依据元素的上下文,对每个符号元素选择概率模型。 ( 2 ) 采用基于局部统计的概率估算。 ( 3 ) 使用算术编码,而不是变长编码。 9 北京t 业大学t 学硕f j 学位论文 c a b a c 的具体编码算法如下: ( 1 ) 二进制化:c a b a c 使用算术编码,而算术编码是采用二进制,对非 二进制符号在进行算术编码前要先转换为二进制码。 ( 2 ) 选择上下文模型:上下文模型是一种对二进制化的符号的概率模型, 依据最近编码数据符号的统计,从现有的模型中选择一种模型。 ( 3 ) 算术编码:算术编码器根据确定的概率模型来编码每个位,对每个位 的编码是在两个子范围之间。 ( 4 ) 修改概率:依据实际编码的值修改目前的上下文模型。 6 ) f m o 机制 灵活的宏块次序( f 1 e x i b i l i t ym a c r o b l o c ko r d e r ,f m o ) 是h 2 6 4 a v c 的一 大特色,通过设置宏块次序映射表( m b a m a p ) 来任意地指配宏块到不同的片组, f m 0 模式打乱了原宏块顺序,降低了编码效率,增加了时延,但增强了抗误码 性能。h 2 6 4 几w c 可以将图像划分为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025“黑龙江人才周”嫩江市企事业单位招聘136人备考考试题库附答案解析
- 2025浙江嘉兴市海宁市博物馆招聘1人备考考试题库附答案解析
- 2026厦门航空校园招聘备考考试题库附答案解析
- 2025中国农业科学院烟草研究所第二批招聘4人备考考试题库附答案解析
- 2025四川广安市人民医院精神卫生工作人员招聘1人备考考试题库附答案解析
- 哲学解读新视角
- 2025四川省德阳经开区招聘社区专职8人备考考试题库附答案解析
- 工厂安全培训文图课件
- 陶瓷基复合材料的界面相容性研究-洞察及研究
- 渔业月度回顾与展望
- 赛鸽公棚内部管理制度
- 叉车维护保养
- 气管异物急救知识讲解
- 纵膈气肿护理查房
- “十五五”时期青年发展规划:新环境、新挑战与重点任务
- 林木资产评估报告书-20220520212141
- 临床用血的重点科室、关键环节和流程
- 妊娠合并子痫患者的护理
- 糖尿病视网膜病变教学
- 医院法律、法规培训2024:深入探讨医疗损害赔偿
- 养老院用电安全管理制度
评论
0/150
提交评论