(计算机应用技术专业论文)基于人脸检测的视频压缩.pdf_第1页
(计算机应用技术专业论文)基于人脸检测的视频压缩.pdf_第2页
(计算机应用技术专业论文)基于人脸检测的视频压缩.pdf_第3页
(计算机应用技术专业论文)基于人脸检测的视频压缩.pdf_第4页
(计算机应用技术专业论文)基于人脸检测的视频压缩.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)基于人脸检测的视频压缩.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文 m a $ r st e s l s 摘要 视频压缩是数字视频处理的关键技术,其决定了图像的质量、压缩率和 对象的可分辨性,但是目前的m p e g 压缩算法将不同图像对象以相同的方式处 理使视频图像中的关键对象信息无法清晰表达。 本文在研究监控系统的视频图像压缩基础上提出了给予人脸对象分割的 视频压缩。首先利用运动信息分割出人体轮廓,并综合运用人体的特征与形态 数学的方法成功地分离出人脸大致区域;然后采用基于改进统计彩色信息模型 方法,精确分割出人脸区域,去掉了不相关的冗余信息;最后提出了利用图像 小波变换结合差分链码技术描述了人脸对象,并实现了高效的视频压缩。 实验中提出了一系列新型增强形态变换算法,如m a r k 、a r e a s e l e c t 、 b y l s l a n d 、i s l a n d 等,并且将交叠运动补偿、零树小波编码、基于内容的小波 变换等有机地结合起来,实现了基于人脸关键对象的视频压缩。 本文提出的视频压缩算法在同等压缩效率下,与m p e g 一2 算法相比提高了 图像p s n r 近3 d b ,而且经过本算法处理的视频序列,可以方便地用于人脸检测 为基于内容的检测打下良好的基础。 关键词:人脸检测人脸分割形态变换小波变换零树小波编码 a b s t r a c t v i d e oc o m p r e s s i o n p l a y s a o i m p o r t a n tr o l e o r d i g i tm o v i n gp i c t u r e p r o c e s s i n g ,s i n c ei t a f f e c t st h ep i c t u r e s q u a l i t y ,c o m p r e s s i n gr a t ea n dv i s u a l d e g r e ei nv i d e os e q u e n c e a d o p t i n gt h es a m ea p h e s i so nt h ed i f f e r e n to b j e c t s , t h i s a p p r o a c hw h i c hh a se m p l o y e db ym 薹i 戴g os t a n d a r dh a sl e dt oab l u r i m a g e o f k e yo b j e e t s ,e s p e c i a l l yf o r t h o s eo ft h eh u m a nf a c e s , b ym e a n so fs t u d y i n gt h ep i c t u r ec h a r a c t e r so ft h em o n r o rs y s t e m ,t h e h u m a n f a c e - c e n t r a lv i d e oc o m p r e s s i n ga r c h i t e c t sa r ep r o p o s e d f i r s t l y ,w i t h t h ea p p l i c a t i o no fb o t hm o r p h o l o g i ct r a n s l a t i o na n dh u m a nb o d yf e a t h e r a n a l y s i so i lb i n a r yg r a p h ,t h eh u m a nb o d yc o n t o u r sa r ee x t r a c t e d 姆e x p l o i t e d m o v i n gi n f o r m a t i o n ,p r o d u c i n gp e r f e c t h u m a nf a c e r e g i o ns e g m e n t s ; s e c o n d l y ,i no r d e rt o f o r ma na c c u r a t eb o r d e r ,t h ea u t h o r p r e s e n t s a l l i m p r o v e d s t a t i s t i c a lc o l o rm o d e l ,w h i c hh a sr e m o v e dr e d u n d a n c y s u c c e s s f u l l y ; f i n a l l y ,ah i g hc o m p r e s s i o nr a t ei sa c h i e v e db yw a yo fc o m b i n i n gw a v e l e t t r a n s f o r ma n dd i f f e r e n tc h a i nc o d e s s o m en o v e le n h a n c i n g m o r p h o l o g i c t r a n s l a t i o na l g o r i t h m ss u c ha sm a r k , a r e a s e l e c t ,b y l s l a n d ,i s l a n da r ei m p l e m e n t e di nt h ee x p e r i m e n to ft h i st h e s i s 。 a n dw h a t sm o r e ,m a k i n gf u l lu s eo fo v e r l a p p i n gm o v e m e n tc o m p e n s a t i o n , e m b e d d e dz e r o t r e ew a v e l e tt r a n s l a t i o ne n c o d i n ga n dc o n t e n d - b a s e dw a v e l e t t r a n s l a t i o n ,t h i st h e s i sh a sa c h i e v e dt h eh u m a n f a c e - c e n t r a lv i d e oc o m p r e s s i o n o ft h ek e y o b j e c t s c o m p a r e d w i t hm p e g - 2s t a n d a r da tt h es a m ed a t ar a t e , t h i sa p p r o a c h w eh a v e p r o p o s e dh a si m p r o v ep s n rn e a r l y3 d b a n dt h ev i d e os t r e a m b r o u g h t o u tb yo u ra r i t h m e t i cp r o d u c e sap e r f e c ti n p u tf o rh u m a nf a c er e c o g n i t i o n w h i c hw i l lp r o v i d ec o n v e n i e n c ef o rc o n t e n d - b a s e ds e a r c h e sc o n s i d e r a b l y k e y w o r d :h u m a nf a c e d e t e c th u m a nf a c e s e g m e n tm o r p h o l o g i e t r a n s l a t i o nw a v e l e tt r a n s l a t i o ne m b e d d e d z e r o t r e ew a v e l e t e n c o d i n g 第一章绪论 1 1 引言 在数字化技术高速发展的今天,数字化视频技术吸引了大批研究人员。随 着数字视频技术在军事、电讯、电视、安全、政府、医疗、出版以及娱乐等领 域的广泛应用,视频信号的压缩、传送与存储技术日益成为研究的焦点 1 。 d v d ( d i g i t a lv i d e od i s c s ) 视频压缩标准己成为娱乐业的业介标准,并且娱乐 业公司正在提供互联网v o d ( v i d e oo nd e m a n d ) 视频点播服务,即对影像节目数 字化 2 并通过数字化网络进行广播 3 。在无线通信领域,视频传送将成为第 三代移动通信系统的主要功能 4 。但是,由于数字化视频的数据量巨大,即 使在存储介质高速发展的今天,现有的存储设备仍然无法适应未经压缩的数字 视频数据。以未压缩的高清晰度电视( h d t v ) 信号为例,其数据率为1 g b s 5 。 即使在视频的低数据率应用领域如无线通信中,采用低分辨率图像s q c i f ( s u b q u a r t e rc o m m o ni n t e r f a c ef o r m a t v i d e oa t 3 0f p s ) 格式 6 也会产生 4 m b s 的数据量。所以视频信号的压缩就成为视频应用项目的成功关键。 虽然数字压缩技术已经发展了数十年,但是数字视频压缩技术的发展历史 并不长。m p e g ( m o v e p i c t u r e e x p e r t sg r o u p ) 组织与t t u ( i n t e r n a t i o n a l t e l e c o m m u n i c a t i o nu n i o n ) 针对不同应用领域对图像质量和数据率的不同要求 制定了系列广泛应用的视频压缩标准如m p e g l 、m e p g 一2 、h 。2 6 1 、h 。2 6 3 等。 上述视频压缩标准基本上采用了相似的压缩算法和编码技术。但是这些标准所 采用的算法和编码技术是面向象素的,是利用图像的底层特征进行压缩的算 法,无论从图像质量还是压缩率上都无法满足日益增长的视频技术应用市场。 为了解决上述问题,面向对象的视频压缩技术逐步发展起来并逐步成为未来视 频压缩技术的发展方向。面向对象视频压缩不再将图像视为象素的集合而是对 象的集合,并且引入了v o ( v i d e oo b j e c t ) 视频对象的概念实现了基于内容的视 频压缩。基于象素的视频压缩依据香农信源编码理论的框架,将图像作为随机 信号利用图像统计特征来达到压缩的目的,可以视为第一代视频压缩编码技 硕士学位论文 m a s r e r st h e s i s 术。 7 。8 基于内容的视频压缩去掉图像内容冗余,其中基于对象的( o b j e c t b a s e d ) 方法称为中层压缩法,基于语义的( s e m a n t i c s b a s e d ) 方法称为高层 编码方法。基于内容的压缩方法也被称作第二代视频编码技术,在相同数据率 下第二代标准的图像质量优于第一代标准。 需要强调指出的是,第二代视频编码标准的实现技术非常复杂。原始的视 频信号都是基于象素的,为了实现表征形式从基于象素转化为基于对象的表征 形式,需要采用手工、半自动和全自动方式将视频对象分离出来用以压缩,这 就向第二代压缩标准提出了实现对象自动分离的要求。视频对象的自动分离是 一项困难的工作,特别是对非刚体对象如人脸对象。在安全监控场合,人脸是 最关键信息,其他信息如衣着、动作以及背景等是非关键信息,从基于内容压 缩角度看除了关键信息其他信息可以忽略,所以实现人脸对象的精确分割和人 脸对象的高清晰度表达是实现监控视频信息压缩的最有效途径。 1 2 国内外研究现状 国际标准化组织i s o i e c 的m p e 6 组织一直致力于运动图像及伴音编码标 准化工作,并制定了系列关于一般活动图像的国际标准。 1 9 9 3 年制定的m p e g 一1 标准是针对1 5 m b s 速率的数字存储媒体运动图像 及伴音编码的国际标准 9 ,1 0 ,l l ,1 2 1 3 。m p e g 的带宽最多为1 5 m b s ,其中 1 1 m b s 用于视频,1 2 8 k b s 用于音频,其余带宽用于m p e g 系统本身。m p e g l 把图像编码分成i 帧、p 帧、b 帧和d 帧共四种类型。i 帧为帧内编码帧 ( i n t r a c o d e df r a m e ) ,编码采用类似j p e g 的帧内d c t 编码,i 帧的压缩率是几 种编码类型中最低的。p 帧为预测编码帧( p r e d i c t i v ec o d e df r a m e ) 由前面 的i 或p 帧进行预测。b 帧为双向预测编码帧( b i d i r e c t i o n a l l yp r e d i c t i r e c o d e df r a m e ) 采用双向运动补偿预测和误差d c t 编码,由前面或者后面的i 帧或p 帧进行预测,所以b 帧的压缩率最高。d 帧为直流编码帧( d cc o d e df r a m e ) 只包含每个块的直流分量。m p e g 采用运动补偿去除图像序列时间轴上的冗余 度,可使p 帧和b 帧的图像压缩倍数比i 帧提高很多。 m p e g 组织1 9 9 5 年推出的m p e g 一2 标准是在m p e g l 标准的基础上的进一步 2 硕士学位论文 m a s t e r st h e s i s 扩展和改进,主要是针对视频广播、高清晰度电视和数字视盘等制定的4 - 9 m b s 运动图像及伴音标准 9 ,l o 1 1 1 4 。m p e g 一2 是数字电视顶盒与d v d 等产品的基 础。m p e g 一2 视频允许数据率高达l o o m b s ,支持隔行扫描视频格式与许多高级 性能。考虑到视频信号隔行扫描的特点,m p e g 一2 专门设置了“按帧编码”和“按 场编码”两种模式,并相应地应用运动补偿和d c t 方法进行了扩展,从而显著 提高了压缩编码效率,并增大了重要参数值,允许有更大的画面格式比特率和 运动矢量长度。 1 9 9 2 年开始开发的m p e g 4 1 5 ,1 6 是适应于极低码率的音频视频编码标 准。相对于m p e g 的前两个压缩标准,m p e g 一4 已不再是个单纯的视频音频编码 解码标准,它将内容与交互性作为核心,为多媒体数据压缩提供了一个更为广 阔的平台。它更多地定义了一种格式和框架,而不是具体算法以利于灵活添加 新算法。m p e g 一4 在信息描述中,首次使用了对象( o b j e c t ) 的概念,这种以内容 为核心的描述方法更符合人的心理特征,不仅能获得比现有以象素为基础的标 准更为优越的压缩性能,而且为应用提供了各种新的功能。 h 2 6 1 是i t u t 针对可视电话、会议电视和窄带i s d n 等要求实时编码和低 延时应用提出的一个编码标准 9 ,1 0 ,1 1 ,1 7 该标准包含的比特率为p 6 4 k b i t s ,其中p 为整数,取值范围为卜3 0 ,对应比特率为 6 4 k b i t s 一1 9 2 m b i t s ,h 2 6 1 要求输入图像格式满足c i f 或1 4 c i f ( q c i f ) 格 式。h 2 6 1 标准大致上分为两种编码模式:帧内模式和帧间模式。对于缓慢运 动的人头肩像帧间编码模式将占主导模式,对于画面切换频繁或运动剧烈的序 列图像则帧间编码模式要频繁的向帧内编码模式切换。 1 9 9 5 年,i t u t 总结了当时国际上视频图像编码最新进展,针对低比特率 应用制定了 2 6 3 标准 1 8 。该标准被认为是以象素为基础采用第一代编码技 术的混合编码方案所能达到的最佳结果。随后几年中i t u t 又对其进行了多次 补充。以提高编码效率,增强编码功能。补充修订的版本有1 9 9 8 年的 h 2 6 3 + 1 9 、2 0 0 0 年的h 2 6 3 + + 2 0 。h 2 6 3 系列标准特别适合于p s t n 网络, 无线网络与互联网环境下的视频传送。 为了解决多媒体多媒体传送必须解决网速率变化、终端自适应和跨异种网 络等问题。近年来,有多种可扩展性编码方案成功地应用与异种网络多媒体传 硕士学位论史 m a s t e r st h e s i s 送。篡审采纳戆精细可扩鼹蠼绽码( f g s ) 獒蠢实时隧速率交纯鑫逶应、终端 艇鹞秘逶应和适于弄穆辩络传送等待点,箕鬣大优点在于对数爨曩失豹容错能 力强c 2 1 。在多媒体实时斌信与无线视频传送中取得良好效果。 m p e g 一7 是“基于语义的表示” 2 2 ,2 3 3 。m p e g - 7 定义了一个描述符标准集, 用于描述备种类型的多媒体信息,与之相应的描述方案可以用于规范多媒体描 述符的生成和不同描述符之闯的有机联系,儇楚m p e g - 7 提供内容鲍攒述露不 是蠹容豹鑫麦,宅褥无法耱我鑫毒豹m p e g 拣漤( m p e g i 。m p e g 一2 ,m p e g 一4 ) , 仅仅怒曩有的三个标准的补充。 难在研制的新标准m p e g 一2 1 是一个支持通过异构网络和设备使用户透明方 便使用雾媒体资源的标准,其目的是建立一个交互的多媒体框架。它可以支持 以下功能:通过网络存取,使露著交互操作多媒体对象;实现多萃中业务模型, 雹扩瓣黢蔽黟交曩弱鑫凌骛理;对蠹骞镬蔫骞黪熬豹莓重等。 1 3 系统的提出及实现方法概述 猩从事安全监控系统场合的视频信息处瑕研究过程中,视频信息片段的管 瑾成鸯工作的难点和重点。程开发过程中采爝了m p e g 一1 的视频滕缀标准,并 采瑟7i n t e r b a s e 数摇辩怒舍硬盘文舞系绞完成程菝菝意静存鼹、检素、编 辑与传送。在实际过程中国于采用了第一代愿缭方案出现了系列闯题:第一, 由于m p e g 一1 的压缩效率不高1 5 m b s 平均每小时会产生6 5 0 m 的数据量( 即使 采用市场通用m p e g - 4 压缩软件也只能将数据燃减少三分之二) ,现有的存储设 备无法满足系统的全天候工作。并且随整数据套德量的加大,视频梭索效率迅 遴下辫:第二,视频信惩中存在大量冗余售瑟较大建滚费了宝爨鲍存傣空阗。 为了减少冗余信息,在宴貔中采用了远红外传感器用以检测移动物体,但是由 于其原瑷简单,无法区分怒入还是其他事物进入镜头,从而发出锚误信息引起 冗余数据产生。并且传感器在采用了用以消除浞敏度过高的智能技术后,却带 来了发陂迟钝、无效空镜头、关键信息丢失等一系列阃题。第三,并发检测与 存镳辍蹶。虽然基藏瓣终邀设冬的带宽已达舞予耀甚至更毫,聪怒嚣 l f 豹太容 量存德设备还是采瑁瓤壤缝掏,不可避免鹃存在存穰簸颈。经遗蜜验涯锈,透 硕士学位论文 m a s r st h e s i s 用存储设备的实际处理速度为2 - 3 m b s ,当多路视频信号并发工作时最多只能 处理2 路信号。在工程中多路信号的处理采用了磁盘阵列技术,但是这种解决 方案成本高、可靠性低并且资源浪费严重:第四,第一代视频压缩技术对图像 的整体采用相同的压缩方案,造成了监控图像关键信息( 人脸) 的清晰度不足, 在很多情况下无法分辨。 为了解决上述问题,我们提出了采用新的压缩算法。分析监控图像的特点 得出以下结论:首先,人脸为关键表达信息,而衣着、行为、语言和背景为冗 余信息。其次,背景信息为最大冗余信息,并且背景信息变化缓慢。最后,灰 度信息为关键信息,而彩色信息为冗余信息。在上述结论基础上,我们提出如 下解决方案:第一,采用智能检测技术检测镜头内物体,并判断是否为关键信 息;第二,采用混合运动检测与形态数学方法,分离出人脸区域大致分布区域; 第三,采用统计方法利用色彩信息结合形态数学方法精确分割出人脸区域。第 四,采用形状自适应小波编码,压缩视频序列,形成视频文件。 1 4 本文的结构安排 第二章介绍了常用的人脸检测方法并提出了混合运动检测一形态数学人脸 检测与定位算法。第三章介绍基于色彩的人脸分割方法并提出了统计一形态数 学方法的人脸精确分割。第四章给出了形状自适应小波编码算法以及在本系统 中的实际应用。第五章实验结果和结论。 第二章人脸检测与人脸区域定位 2 1 人脸检测方法介绍 2 1 1 人脸检测算法的分类 对人脸检测技术的研究可以追溯到上世纪7 0 年代初,研究人员采用了简 单的仿生学和启发式方法【2 4 这些方法只能完成简单背景、正态人脸的检测, 如登记照片等。肢势、光照、旋转、背景的微小变化就会导致检测的失败。直 到9 0 年代使用的人脸识别系统成熟之前,人脸检测未取得重大突破。由于人 脸识别技术的日益成熟,研究人员的兴趣逐渐转移到人脸检测上,近十多年来 国内外在人脸检测领域做了大量工作并且提出了许多健壮性良好的检测算法。 研究人员利用运动、色彩、特征、统计、神经网络等方法成功地完成了多视角 多距离的人脸检测,并且还发展了如变形摸板、主动方式等能够快速精确完成 人脸检测与定位的优秀算法。 依据人脸检测算法所利用的人脸信息的差别,可以将人脸检测算法大致分 为两大类。第一种是传统的特征提取法【2 5 1 即利用人脸的特征如肤色、脸部 几何特征等进行分析,通常采用测量距离、角度、面积等方法从图像中提取脸 部特征,由于对人脸的特征进行分析是其采用的主要手段所以又被称作基于特 征的人脸检测,它是最常用的的方法而且其相关文献占绝大部分:第二种是基 于图像的方法 2 6 。由于人脸模式识别技术的高速发展,人脸检测技术借鉴了 人脸识别的相关技术将人脸看作二维数组,采用分析的和训练的方法完成人脸 的检测。人脸检测算法分类见图2 1 2 1 2 基于特征的人脸检测 大多数基于特征的人脸检测采用了相似的步骤:首先在象素级采用特征提 取滤波器如肤色滤波器、边缘检测滤波器等进行特征提取。由于图像底层特征 的随意性极大,得到的结果通常并不准确并含有大量的非特征元素:然后利用 人脸的知识对非特征元素进行滤除;最后利用模板匹配技术和几何特征拟合技 术完成人脸检测。 6 2 1 2 1 基于低层特征分析的人脸检测 2 1 ,2 1 1 基于边界检测的方法 作为计算机视觉的主要特征,边界检测的方法最早被s a k a i 2 7 应用在人 图2 1 人脸检测算法分类 脸检测中。随后在其工作基础上c r a w l 2 8 提出了一种层次结构并结合了曲线拟 合的算法用来检测人的头部轮廓线。利用边界信息进行人脸检测是最常用的方 法之一 2 9 ,3 0 ,3 1 ,3 2 。边界检测是基于边界算法的最关键一步,研究人员提 出了各种边界检测算法。s o b e l 算子 3 0 ,3 13 是最常用的边界检测算法,变形 x y 偏移高斯算法 2 7 ,3 2 ,拉普拉斯算子 2 7 多分辨率方向滤波等也得到了广泛 的应用。在边界检测算法中,常把检测出的边界标记用以与人脸的边界模板进 行匹配,g o v i n d a r a j u 2 9 将检测出的边界分别标记为脸部正视图的左边界、右 边界,然后利用标记后的边界的曲率与标准人脸的曲率模板进行匹配。 2 1 1 1 2 基于肤色的人脸检测 通过人脸检测的相关应用证明人的皮肤颜色是一种有效的并且稳定的检 测特征。虽然每个人的肤色差异很大,但是研究表明其主要的差异体现在灰度 域而不是彩度域。有多种肤色模型被提出用以进行人脸检测包括r g b 3 3 ,3 4 , 1 硕士学位论文 m a s i t c r st l 也s i s n r g b 3 5 ,3 6 ,3 7 ,f l s v 3 8 ,3 9 ,y c r c b 4 0 ,c i e x y z 4 1 ,c t e l u v 4 2 。虽然各 种模型的实际使用效果存在争议,但上述模型的建立却都采用了去掉灰度信息 的方法。t e r r i l o n 4 3 最近将各种模型进行了比较地出了t s l 模型使用效果最 佳。 肤色分割是通过肤色的统计模型 4 4 4 5 ,4 6 ,利用色度阀值对人脸进行分 割,更复杂的算法采用了用户自定义的色彩统计模板 4 7 ,4 8 ,4 9 ,5 0 。0 1 i v e r 4 9 与y a n g 5 0 采用了肤色高斯模型表达肤色的分布空间,首先从数千个人脸不同 种族的样本中生成高斯模型,然后将高斯模型表述为其均值向量和协方差距 阵,最后将每个输入象素的色度值与色度模型相减并计算m a h a l a n o b i s 距离, 依据其距离可以判断出该象素是否属于生成的高斯模型。 虽然肤色模型是一种有效的人脸检测工具,但是当光源发生剧烈变化时, 如当光源的色温改变时,肤色模型常常检测失败。并且视频采集设备的性能和 参数也常常影响接收的图像色度分布,这也会对检测的准确度产生影响。为了 解决这一问题,s t o r r i n g 建立了一个与反射、镜头参数、光源联合相关的肤色 模型,研究人员在给定的镜头参数下,对不同色温下人脸的肤色分布区域进行 了估计与校验,并给出了独立于镜头参数与光源条件的肤色模型。见图2 2 m o d e i 自dc n m m 舡b 时 圈2 2 不同色温与种族的n r g b 肤色分布模型 8 _6 c s 弓 硕士学位论文 m a s 珏r st h e s i s 2 i 2 1 3 基于运动信息的人脸检测 基于运动信息的检测算法在视频序列中常被用来检测移动的物体,在人脸 检测中应用运动信息可以减少人脸检测搜索的区域,从而降低了计算的时间复 杂度。最简单的检测方法是分析视频序列中的两帧差,累计帧误差经过实践检 验的有效算法。l u t h o n 利用运动信息检测除脸部区域如眼、鼻等脸部特征,并 且移动信息的边界也被用于精确确定人脸轮廓,因为估计移动信息的边界比简 单计算帧差更可靠特别是当移动很微小时。 2 i 2 。2 基于模板匹配的人脸检测 对于一幅给定的图像,将其预先知道的标准区域如脸部轮廓、眼、鼻、嘴 的相应灰度值计算出并与理想人脸进行对照是基于模板匹配人脸检测的常用 方法,该方法虽然简单,但是在人脸的肢势、形状、大小发生变化时容易检测 失败。因此多分辨率、多尺度、子模板、变形模板等方法分别被提出用以解决 尺度与形状发生变化时的模板匹配问题。 m i a o 等人提出了层次结构模板用于人脸检测。首先将图像旋转一2 0 。到 + 2 0 。以解决头部旋转问题,然后对每幅图像的各分辨率马赛克子图采用拉普 拉斯边界检测算子提取边界,用于匹配的人脸部模板有双眼、双眉、鼻子、嘴 六个部分、脸部后选区域通过模板匹配产生。最后采用假设方式确定人脸区域。 实验表明这种方法比较适合于单脸检测,对多脸检测效果并不理想。 k w o n 等人提出了主动模板用于人脸检测,首先对图像应用模糊滤波器产生 边界模糊图像,然后采用形态数学算法对图像的边界进行增强并应用一个n 象 素的聚点消除较小的连接线,最后将得到的结果采用变形人脸模板找到人脸的 各个特征点,如果特征点的数量达到一定的比例就认为候选区域为人脸。 l a n i t i s 等人采用了联合形状与灰度方式进行人脸检测。首先,将图像的边 界用样点标记,样点的向量被用于特征向量点的检测。然后采用联合主元分析 与点分布模式生成对应形状特征向量,采用脸部的点分布来预测人脸的位置与 形状参数,将形状参数转换为平均形状参数并且将灰度参数提取出。最后平均 形状与灰度参数用来计算与人脸主元的欧氏距离,并根据距离判断候选区域是 否为人脸。 2 1 2 3 基于通用规则的人脸检测 q 硕士学位论文 m a s t e r st h e s i s 在利用通用规则的人脸检测中,利用人脸的关键特征进行启发式搜索。虽 然从人脸描述中建立启发规则的方法比较简单,但是如何将启发规则转换为有 效的分类规则是一件困难的工作。如果规则过于复杂,将产生漏检,相反如果 规则过于简单将产生误检。尽管如此,还是产生了一些较好的基于通用规则的 人脸检测算法,y a n g 等人采用多层次结构的通用规则算法,在算法中包括了三 层从简单到复杂的规则并在实际应用中产生了良好的结果。 2 1 3 基于图像方式的人脸检测 与基于特征方式的人脸检测相反,图像方式人脸检测利用了图像的具体信 息而不是图像的抽象特征,图像方式常用的方法是机器学习与统计分析。人脸 检测的任务是从图像的分布特征中解决分类问题,即区分人脸非人脸。一幅 人脸的图像可以表达为一个随即变量x ,然后对x 用函数p ( x l f a c e ) 和 p ( x | n o n - f a c e ) 进行分类。如果x 的维数不高可以采用贝叶斯定律进行分类, 在实际中通常采用线性予空间或者学习方式解决x 的维数过高问题。大多数基 于图像方式的人脸检测采用窗口扫描方式,基本上是对图像区域的穷举搜索, 也有一些相应的改进搜索算法,比较典型的有多尺度窗口,子采样等,其主要 目的是降低计算的时间复杂度。 2 1 3 i 基于主元方式的人脸检测 8 0 年代末,s i r o v i c h 和k i r b y 提出了p c a ( 主元) 来表达人脸,即利用一组 人脸的图像提取其主元,并用特征向量表达人脸,然后单个人脸可以用最大特 征向量和最大特征值来表示。p e n t l a n d 等人提出了利用从多个人脸训练模板中 计算出的d f f s ( 人脸子空间距离) 完成检测的脸部特征检测器。因为在i j l l 练中采 用了多视角人脸样本,算法对多视角人脸检测取得了良好的效果。实验结果表 明在数据库7 6 5 2 幅简单背景,正视人脸中,9 4 的人脸被成功检测与定位。最 近m o g h a d d a m 与p e n t l a n d 在此算法基础上提出了概率模型,与常用的p c a 不 同的是,他们利用人脸空间的正交特点形成了统一的密度人脸子空间,即形成 了一个混合人脸空间正交空间。实验显示,从7 0 0 0 幅人脸图像中正确定位9 5 左右的人脸的左眼。p c a 利用了人脸的多种属性建立了人脸子空间表述人脸, 但是当人脸模板发生变化时,p c a 的性能迅速下降。为了解决这一问题,研究 1 0 人员将人脸子空间进一步细化分解为更小的子裳。并提出了几种利用多维高斯 簇进行人腧检测的方法。s u n g 与p o g g i o 将人脸与a # 人脸用六个高斯麟裳示( 见 酉2 。3 ) ,箕系统包括夫验裴入脸分蠢模型积多瑟感躲分类器嚣大部分。多屡 感翔器嗣麟4 7 3 1 6 个样本进行调练,为了减少i 入验模式酶调练翻。阕,翻瘸了 b o o t s t r a p 方法。实验结果为从2 3 幅图像中正确稔出1 4 9 处,错误梭测1 3 处a 图2 3 人簸砖非入脸的分布与捐瘫的商新簇 z 1 3 2 基于神经网络的人殷检测 由于人脸检测是一个分畿问题,神经网络就强人脸检测中得到了广泛韵应 用。除了多层感知的方法,r o w l e y ( 见图2 ,4 ) 利用向前神经网络在人脸检测中 取缮了良好魏羧采,瓣终豹输入淹一令2 0 x 2 0 象豢豹子藩豫,嚣终两蠢一令 含有2 6 个肇元的隐含层,4 个肇元连接l o x1 0 聚索子窗口,1 6 个攀元连接5 5 象索予窗口,6 个单元迤援2 0 x 5 象素子窗蹋。输入图像经过了凝度校验 和直方图平衡。由于采用了窗闪扫描技术,算法引起了重叠检测,为了克服这 缺点,r o w l e y 采用了阀值潞滤法。另外,l i n 利用灰度与边缘特征将其输入 磺士学位论文 m & s t e r s t h e s i s 具有层次结构的概率统计神经网络分类器,也取得了较好的检测效果。 2 1 。3 3 基于概率统计的人脸检测 基于绕诗戆入验检测主要灏羽了癌惑论,支持疑量襁窝受时鬏定理。 c l o m e n a r e z 秘h u a n g 裁瘸k u l l b a c k 信患,o s u n a 程藤s v m 支簿翔爨橇, s c h n e i d e r m a n 与k a n a d e 利用m 叶斯定理进行人脸检测,其检测结果见图2 5 所示。 圈2 。4r o w l e y 的基手神经隧络酶入簸检溅 掰2 ,5s c h n e i d e r m a na n dk a n a d e 辩基子统计瓣入验检测结采 2 2 数学形态学及算法介缡 数学形淼学表示以形态为蒸础对图像进行分析的数学工具。它的旗本思想 是用具有一定形态的结构元素去餐度和提取图像的对应形状以达到对图像分 1 2 析和识别的目的。数学形淼学的数学基础和所用的语言是集合论。数学形态学 的应用可以简化图像数据,像持它们基本的形状特征,并出去不棚予的结构。 数学形淼学戆算法具有天然憨著行实现结籀。数举彭态学鲍基本遥算骞4 个: 群驻 矗与d 差分鬻 鬻2 ,1 4 鬻襞燮捷竣爱霹差努黼瓣影翡 鞘2 , 1 5 璐素燮舞搔潮流糕鬻 硕士学位论文 m a s t e r sn 正s i s 动态检测要解决的另一个问题是静态图像的场景切换。通过监控系统采 集的静态图像信号在相同的光照条件下,产生的差分图像的和为零,但是在背 景不变而光照条件发生变化,如在白天与夜晚光照条件不同时,同样的背景采 集的图像检测出的差分图像会出现大量的非零点( 图2 1 4 a ,图2 1 4 b ,图2 1 4 c ) 这会使系统产生误动作,认为有物体进入镜头,并在镜头中搜索人脸。而且, 当背景发生永久性改变,如在背景中添加固定物体( 图2 1 4 d ) 时,也会产生这一 问题( 图2 1 4 d ) 。因此,实验中定义了时间过滤器,实现了场景变化的自动识 别和切换,其流程图见图2 1 5 。场景切换的原理是利用了镜头内物体运动将产 生大量差分点并且差分总量能连续达到阀值,而因光照变化或者永久背景变化 引起的动态检测长时间内总无法达到阀值,由此可以判断场景是否发生变化, 还是有物体进入镜头。 2 3 4 条件腐蚀 ( a ) 动态差分图像( b ) 闭运算后图像( c ) 2 0 次腐蚀运算结果 图2 1 6 差分图像的形态运算结果 从动态检测中求出的差分图( 图2 1 6 a ) 可以观察到除了需要的人体轮廓 部分,图像中还存在大量的干扰区域。为了除去这些区域,对差分图像采用了 形态学闭运算,采用的结构元素为边长为3 的正方形,其结果见图2 1 6 b 。经过 了闭运算后可以发现图像中较小的干扰区域已经滤除,但是在头部、衣服等区 域还存在大面积的干扰块,这些干扰块的存在不利于准确检测人脸区域。因此 我们采用了形态学腐蚀将其滤除,但是腐蚀的次数必须确定,否则会产生过度 腐蚀( 图2 ,1 6 c ) 。因此定义了能依据图像状态决定是否进行腐蚀的条件腐蚀算 法。条件腐蚀的基本思想是:如果图像中的白色区域个数大于1 ,则用结构元 素对图像进行腐蚀,如果图像的白色区域个数等于1 ,则停止腐蚀。为了确定 硕士学位论文 m a s t e r s t i 扼s i s 当前图像中自色区域的个数,我们定义了榭m a r k 算法,其流程图见图2 1 7 图2 1 8 为m a r k 算法的实例。 f 以行为单位 标记线段 0 从n 行同 1 朔n 1 行 士 l 纵向连通线 l 段标记融合 交界区域标 记进行融合 士 计算标记 最大值 图2 1 7m a r k 算法的流程图 ( c ) 级向连通线段标记融合( d ) 交界区域标记进行融合 图2 1 8m a r k 算法实例 硕士学位论文 a s l e r st i 【e s i s m a r k 算法以行为单位,将

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论