人脸算法RetinaFace论文精读_第1页
人脸算法RetinaFace论文精读_第2页
人脸算法RetinaFace论文精读_第3页
人脸算法RetinaFace论文精读_第4页
人脸算法RetinaFace论文精读_第5页
免费预览已结束,剩余9页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、RetinaFace的主要贡献摘要尽管在不受控制的人脸检测方面已取得了长足的进步,但是在wilder数据集进行准确有效的面部定位仍然是一个公开的挑战。本文提出了 一种 鲁棒的single stage人脸检测器,名为 RetinaFace ,它利用 额外监督(extra-supervised )和自监督(self-supervised )结合的多任务学习 (multi-task learning ),对不同尺寸的人脸进行像素级定位。具体来 说,我们在以下五个方面做出了贡献:(1)我们在 WILDER FAC嗷据集中手工标注了5个人脸关键点(Landmark),并在这个额外的监督信号的帮助下,观察

2、到在hard face检测的显著改善。(2)进一步添加自监督网络解码器( mesh decoder ) 分支,与已有的监督分支并行预测像素级的3D形状的人脸信息。(3)在WIDER FACE勺 hard 级别的测试集中,RetinaFace 超出 the state of theart 平均精度(AP) 1.1% (达至I AP=91.4%) 。 ( 4)在IJB-C测试集中, RetinaFace 使state of the art 方法(Arcface )在人脸识别中的结果 得到提升(FAR=1e6, TAR=85.59%) 。 ( 5)采用轻量级的 backbone 网 络,Retina

3、Face能在单个CPU上实时运行VGA分辨率的图像。FAR(False Accept Rate)表示错误接受的比例TAR(True Accept Rate) 表示正确接受的比例 VGA分辨率320*240 ,目前主要应用于手机及便携播放器上1、Introduction人脸自动定位对许多应用而言都是人脸图像分析的前提步骤,例如人 脸属性分析(比如表情,年龄)和人脸识别。人脸定位的狭义定义可以参 考传统的人脸检测,其目的在没有任何尺度和位置先验的条件估计人脸边 界框。然而,本文提出的人脸定位的广义定义包括人脸检测、人脸对齐、 像素化人脸解析(pixel-wise face parsing )和三维

4、密集对应回归( 3D dense correspondence regression )。 这种密集的人脸定位为所有不同的 尺度提供了精确的人脸位置信息。受到一般目标检测方法的启发,即融合了深度学习的最新进展,人脸检 测最近取得了显著进展。与一般的目标检测不同,人脸检测具有较小的比 例变化(从1:1到1:1.5),但更大的尺度变化(从几个像素到数千像素)。目前 most state-of-the-art的方法集中于 single-stage 设计,该设计餐'集采样人脸在特征金子塔上的位置和尺度,与two-stage方法相比,表现出良好的性能和更快的速度。在此基础上,我们改进了 sing

5、le-stage人脸检测框架,并利用强监督和自监督信号的多任务损失,提出了一种most state-of-the-art的密集人脸定位方法。我们的想法如图1所示。L ,力立I Mcial Id nd murk retrcsioni.J 一T 斌 *7X(jVr 1tLJirfinnSdvuprniiniFigure 1. The proposed single-stage pixel-wise face localisation method employs extrj-supervised and self-supervised inulli-lak learning in parallel

6、 wiili (he existing box classification and regression brunchesi Each positive anchor outputs (I) a face score, (2 】a face box, (3) five facial landmarks, and (4) dense 3D lace eriices projected on the imaee plane.通常,人脸检测训练过程包含分类和框回归损失。chen等人观察到对齐人脸能为人脸分类提供更好的特征,建议在联合级联框架中结合人脸检 测和对齐。由此启发,MTCN恃口 STN同时

7、检测人脸和五个人脸landmark 。由于训练数据的限制,JDA、MTCNN口 STN还没有验证微小的人脸检测是否可以从额外的五个人脸Landmark的监督中获益。我们在本文中所要回答的问题之一是,能否利用由5个人脸关键点构成的额外监督信号,在 JWIDER FACE勺hard测试集上推进目前最好的性能(90.3%)。在Mask R-CNN中,通过添加一个用于预测目标Mask的分支,与现有的用于边界框识别和回归的分支并行,显著提高了检测性能。这证实了密集 的像素级标注也有助于改进检测。遗憾的是,对于具有挑战性的人脸数据 集WIDER FACE无法进行密集的人脸标注(以更多的Landmark或语

8、义分割)。由于有监督的信号不易获得,问题是我们能否应用无监督的方法进 一步提高人脸检测。在FAN中,提出了一种 anchor-level注意力图(attention map )来改进遮挡人脸检测。然而,所提出的注意力图相当粗糙,不包含语义信息。近年来,自监督三维形态模型在wilder实现了很有前景的三维人脸建模。特别是Mesh decoder利用节点形状和纹理上的图卷积实现了超实时 速度。然而,应用 mesh decoder到single-stage 检测的主要挑战是: (1)相机参数难以准确去地估计,(2)联合潜在形状和纹理表示是从单个特征向量(特征金字塔上的1*1 Conv )而不是 Ro

9、I池化的特征预测,这意味着特征转换的风险。本文采与现有监督分支并行的用网格解码器(mesh decoder )通过自监督学习预测像素级的三维人脸形状。 综上所述,我们的主要贡献如下:?在single-stage设计的基础上,提出了一种新的基于像素级的人脸定位方法RetinaFace,该方法采用多任务学习策略,同时预测人脸评分、人脸 框、五个人脸关键点以及每个人脸像素的三维位置和对应关系。? 在 WILDER FACE hard 子集上,RetinaFace 的性能比目前 the state of the art 的 two-stage 方法(ISRN)的 AP高出 1.1% (AP 等于 91

10、.4%)。? 在IJB-C 数据集上,RetinaFace 有助于提高 ArcFace的验证精度(FAR=1e- 6时TAR等于89:59%)。这表明更好的人脸定位可以显著提高人脸识别。? 通过使用轻量级 backbone网络,RetinaFace可以在VGA分辨率的图片上 实时运行?已经发布了额外的注释和代码,以方便将来的研究2、Related Work图像金字塔vs .特征金字塔:滑动窗口范例,其中分类器应用于密集的图 像网格,可以追溯到过去的几十年。Viola-Jones是里程碑式工作,它探索了级联结构,实时有效地从图像金字塔中剔除假人脸区域,使得这种尺度不变的 人脸检测框架被广泛采用。

11、尽管图像金字塔上的滑动窗口是主要的检测范式, 随着特征金字塔的出现,多尺度特征图上的滑动anchor迅速主导了人脸检测。Two-stage vs single-stage :目前的人脸检测方法继承了一般目标检测方法 的一些成果,可分为两类:Two-stage方法(如Faster R-CNN)和single-stageTwo-stage(如 SS阴口 RetinaNet) 。 Two-stage 方法采用了一种具有高定位 精度的“ proposal与细化”机制。相比之下,single-stage 方法密集采样人脸 位置和尺度,导致训练过程中 positive 和negative样本极不平衡。为了

12、解决 这种不平衡,广泛采用了采样 ( Training region-based object detectors with online hard example mining ) 和重力口权(re-weighting) 方法。与 two- stage 方法相比,single-stage 方法效率更高,召回率更高,但存在假阳性率 更高和定位准确性降低的风险。Context Modelling :提升模型的上下文模块推理能力以捕获微小人脸,SSHff口 PyramidBox在特征金字塔上用context modules扩大欧几里彳惠网格的感 受野。为了提高CNNs勺非刚性变换建模能力,可变形卷

13、积网络(deformable convolution network, DCN)采用了一种新的可变形层对几何变换进行建模。WILDER FACE 201能军方案表明,对于提高人脸检测的性能而言,刚性 (expansion)和非刚性(deformation)上下文建模是互补和正交的(orthogonal )。C*THrigufc 2- AfigErvicvi aHhehk imh %mhit jippLuiL KtiiinajaKC 幅 deMjpncd Zged m iac feaiiwc 用vwuds嘱iih Mik国rdEiLFnicfi 11aHhIiiIe Folhwiiiit Bhc

14、 oiiicE rhiMkje%,喟ccMkiMniu -i Mullkkg£ Im,hv。寓ha* hot多任务学习:在目前广泛使用的方案是结合人脸检测和人脸对齐,对齐后的人脸形状为人脸分类提供了更好的特征。在 Mask R-CNN中,通过添加一个并行 分支来预测目标 Mask,显著提高了检测性能。Densepose采用Mask-RCNN勺结 构,在每个选定区域内获得密集的 part标签和坐标。然而,20,1中的dense 回归分支是通过监督学习训练的。止匕外,dense分支是一个小的FCNE用于每个 RoI预测像素到像素的密集映射。3、RetinaFace3.1. Multi-t

15、ask Loss对于任何训练的 anchor i ,我最小化下面的多任务的lossL Aoi *(?*+/;) + 入 ij? L 砧式 “+ 修)+ -3p;卜(1)人脸分类loss Lcls(pi,pi*) ,这里的pi是anchor 为人脸的预测概 率,对于 pi * 是 1 是 positive anchor , 0 代表为 negative anchor 。分类 loss Lcls 是softmax loss 在二分类的情况(人脸/非人脸)。(2)人脸框回归 loss , Lbox(ti,ti*) ,这里的 ti=tx,ty,tw,th , ti * =tx*,ty *,tw * ,

16、th *分另U代表 positive anchor(ground-truth box )的坐标。我们按照16 高)进行归一化,使用 Lbox(ti,ti *)=R(ti-ti *) function (smooth-L1)(参考文献 16 中定义)(3)人脸的 landmark 回归 loss Lpts(li,li *)x5,l y5,li *=l x1 *,l y1 *,l x5 *,l y5 *相关的预测框和真实框对回归框目标(中心坐标,宽和,这里 R 是 Robust loss,这里 li=l x1,l y1,l代表预测的五个人脸关键点和基准点(ground-truth )。五个人脸关键

17、点的回归也采用了基于anchor中心的目标归一化。(4) Dense回归loss Lpixel(参考方程3)。loss调节参数 入1-入3设置为0.25,0.1和0.01 ,这意味着在监督信号中,我们增加了边界框和关键点定 位的重要性。3.2. Dense Regression BranchMesh Decoder:我们直接使用70,40中的网格解码器(mesh convolution and mesh up-sampling),这是一种基于快速局部谱滤波的图卷积方法。为了 实现进一步的加速,我们还使用了类似于70中方法的联合形状和纹理解码 器,而不是只解码形状的。下面我们将简要解释图卷积的概

18、念,并概述为什么它们可以用于快速解 码。如图3(a)所示,二维卷积运算是欧几里德网格感受野内的“核加权邻域加 和”。同样,图卷积也采用了图 3(b)所示的相同概念。然而,邻域距离是通过计算连接两个顶点的最小边数来计算的。我们遵循70来定义一个着色的脸部网格(mesh) G=(v , e),其中vCR A(n*6)是一组包含联合形状和纹理信息的人脸顶点集合,£ 0,1«n * n)是一个稀疏邻接矩阵,它编码了顶点之间的连接状态。图拉普拉斯行列式定义为L = D -£ R A(n * n),D R A(n * n)其中是一一个对角矩阵。仙,2D Ct3ravH)lui

19、x)ih(bi flraph CcmoluLtcnFigure 3. 口J 3D Convolution h kernel-weighted neight>ftur 弘im w ilhi i the Encl idean 黑id rtuepiiyc field. Each cuim ulutional layer 汕,Ke x A'rr»phir x ( 'fin x ('htnt nt L uf pa- 3口iciafq. (b) Graph convolution & aim in rhe form of kernel - weighted

20、ncighbouj suni, bui the ux咯hbour diLaiKt is calculaied on rhe graph by cixinring the minimum numher of edgts coni屹ct- ingtwx) vertices_ Euuh ccoluhotm layer hus R x ('bannt !rti 乂 t,n:i piraineiers mid the <.'liebysliev oefJicienls 乩 ) 三R ' arc truncated at order i.遵循10,40,70 ,图卷积的内核版

21、可以表示为K项的递归切比雪夫(Chebyshev)多项式网 iy =阪(工)=£ 优 %£)/(2)k=a这里9 RAK是一个切比雪夫系数向量,TkC RA(n * n) 是在缩放的拉普拉斯中(L)中评估K项的切比雪夫多项式。女=Tk(L).r G Rn定义:循环计算 2/1:卜_.1一工 k-2其中。",1 一 £,'o整个滤波操作非常有效,包括 K个稀疏矩阵-向量乘法和一个密集矩阵 -向量乘注”=以(£)=方。L0何费的前染墨:花闹1 了器状和致理等歌PST e R128日 我们利用高姓可做三瓶琳S的 ma. 口空Dp .抄先刊 雄

22、阳代干而匕 相* »J JPcam =%,飞,.心,. fc卸相机位置、桁机鎏视ft®南耐。教Pill =df . !小二f.门,4加* /%f)a 1 ba 唧点光ift的近风 .色值及卦里尤的.色):Dense Regression Less: 口 役们用到泡染的2口人应 7?(。,,” .PCll m ,; );.我/使E A 卜南的逐像索的比较海染后的人敢与原始2口入龄的差异:1" J,£出" N _ .: 1四户十长”“打尸叫1.-|./|,* J 小其中W和H分别表示anchor crop I*i,j的宽度和高度。4、Experim

23、ents4.1. DatasetWIDER FACE据集包括32203幅图像和393703个人脸边界框,在尺度、 姿态、表情、遮挡和光照方面具有高度差异性。通过随机抽取61个场景类别,将WIDER FAC数据集分为训练(40%)、验证(10%)和测试(50%)子集。基于 EdgeBox的检测率,通过逐步合并困难样本来定义三个难度等级(Easy、Medium和 Hard)。额外的标注:见图4和表1,我们定义五个级别的脸图像质量(根据在人脸 上的难度去标注Landmark)并在WIDER FACE训练和验证子集上标注五个人脸 Landmark(即眼中心,鼻子和嘴角)。我们总共在训练集上标注了 84

24、.6k个人脸, 在验证集上标注了 18.5k个人脸。Fi$Lire 4. idJ <Aira jnuoLKiuns -of five labial kiiHknaik% on racesrtiat can be annotcitcil (we call them +bannoCUahle't frm itit WIDER FACE (mining and all J alien s<iis.LevelRtce NumberCriteiion1F4 J 27in<lih;puUiblc 68 lajjdumrks12,636annotatabk 68 landnuirk

25、s | |358,14<)indispniabLc 5 lundmarkg450giinnoriiiuble 5 landrmuks_5以 <用5dhlk里uish by coritcxtTjhle J. Five levekof face image quality In the indisputable category a human con.科 ilhoul a lot of effort, local e the Lndmarks. fn the aiinatLitLib le cace<nv iiiidin an approx i ma to loc&ti

26、un requires sonic eilon.4.2. Implementation details特征金字塔:RetinaFace采用从P2到P6的特征金字塔层,其中P2到P5 通过使用自顶向下和横向连接(如28,29)计算相应的ResNet残差阶段(C2 到C5)的输出。P6是在C5处通过一个步长2的3x3卷积计算彳#到到。C1-C5是 在ImageNet-11k数据集上预先训练好的 ResNet-15221分类网络,P6是用“Xavier ”方法17随机初始化的。上下文模块:受SSH 36和PyramidBox 49启发,我们还在五个特征 金字塔层应用单独的上下文模块来提高感受野并增加

27、刚性上下文建模的能力。从2018年WIDER Face冠军方案中受到的启发,我们也在横向连接和使用可变 形卷积网络(DCN的上下文模块中替换所有 3x3的卷积,进一步加强非刚性 的上下文建模能力。Loss Head: *对于 negative acnhors , 只应用分类损失。对于 positiveanchors ,计算了多任务损失。我们使用 一个跨越不同特征图,n2,6 的共享 loss head (1x1 conv);对于网格解码器(mesh decoder),我们采用了预训练模型,这是一个很小的计算开销,允许有效的推理。Anchor设置:如表2所示,我们在特性金字塔层(从P2到P6)上

28、使用特定于尺 度的anchor,类似56。在这里,P2被设计成通过平铺小anchor来捕捉微小 的人脸,这样做的代价是花费更多的计算时间和更多的误报风险。我们将 scale step 设置为2A(1/3) , aspect ratio 设置为1:1。输入图像大小为 640*640 , anchors 可以 覆盖 从16x16到406x406的特征金字塔层。总共有 102300 个 anchors ,其中 75豚 自 P2。Feature PgitddSit rideAnchor心 tim x 1G0 x 23ft)416, 20.16. 25.40ft (80 x80x 256)g32,40,

29、32, 50,80Pi (10 x Lfix 256)1664. 80.63t 101.59修2。x 20 256)32128, 161,26. 203.19(1() x IGx 256)64256, 322.54,40637Table 二 The details of leal uro pyranndT stride size. acicW in Keii- naFace. For a 640 x 640 input image, there are 102300anchors in 134. lliuI 75% 5 ihoe niiuhu& dre liled un3在训练过程中,

30、当IoU大于0.5时,anchors匹配到ground-truth box , 当IoU小于0.3时匹配到background 0不匹配的anchor在训练中被忽略。由 于大多数anchor(> 99%)在匹配步骤后为负,我们采用标准 OHE碌缓解正、负 训练样本之间的显著不平衡。更具体地说,我们根据损失值对负锚进行排序, 并选择损失最大的anchors ,这样负样本和正样本之间的比例至少为3:1。数据增强:由于 WIDER FACE”练集中大约 有20%的小人脸,我们 遵循68,49 )并从原始图像随机crop方形patches并调整这些patches到640*640产生更大的训练人脸

31、。更具体地说,在原始图像的短边0.3,1之间随机裁剪正方形patches。对于crop边界上的人脸,如果人脸框的中心在 crop patches内,则保持人脸框的重叠部分。除了随机裁剪,我们还通过 0.5概率的随机水平翻转和光度颜色蒸储来增加训练数据68。训练细节:我们早四个 NVIDIA Tesla P40 (24GB) GPUs上使用SGD优化 器(momentum为 0.9,权重衰减为 0.0005, batch size 为 8*4 )训练 RetinaFace 。学习速率从10e-3,在5个epoch后上升到10e-2,然后在第55 和第68个epochs时除以10。训练过程在第80

32、个epochs结束。测试细节:对于 WIDER FAC的测试,我们遵循36,68的标准做法,采用 flip 以及多尺度(图像的短边在500, 800, 1100, 1400, 1700) 策略。使用 IoU阈值为0.4 ,将Box voting15 应用于预测的人脸 boxes的并集。4.3. Ablation Study省略4.4. Face box AccuracyRetinaFace与其他24个stage-of-the-art的人脸检测算法对比。RetinaFace在所有的验证集和测试集都达到的最好的AP,在验证集上的AP是96.9% (easy) , 96.1% (Medium)和 9

33、1.8% (hard)。在测试集的 AP是 96.3%,95.6%,91.4%.相比与当前最好的方法(Improved selective refinement network for face detection)在困难的数据集(包含大量的小人脸)的 AP对比(91.4% vs 90.3% )fadlolfd) Use:制 *哂:M战Em巾 TfM:: llanl5, Pnziximrmll;ihr WIDER FAjCEJird id在图6中,我们展示了在一张密集人脸自拍的定性结果。RetinaFace在报告的1,151张面孔中成功找到约900张脸(阈值为0.5)。除了精确的边界框 外,在

34、姿势,遮挡和分辨率的变化下利用RetinaFace的预测五个人脸关键点也是非常强大。即使在遮挡严重的条件下出现密集面部定位失败的情况下,但在一些清晰 而大的面部上的密集回归结果还是不错的,甚至对表情变化大也能检测出来。4.5. Five Facial Landmark Accuracyfigure ft KeiindFicccwi hixl mmHind«(>J)<mh at me r卬oneMi J151 people.时 i2King 血弭umgoBM* pn甲med jotmcXTri-MJp<rvied ind ylf-.uKm”国 ui;idi:i加k k

35、ummii. Daectix etinftMne己 u K iIk colour W m ihr riht DtTiscmjhks ,即u ilnwn in hlur. P归,* 加rnn in hi cheb-L the dtlLileiJ tieltvcMp, iili'j'nriaeriC anti ilenere>si<-n rt-%ylMUi l:ny 1iK.eRetinaFace 与MTCNbfc五个人脸关键点定位上的定量比较。|1 it ,/, j|NMt noruliftd by 修第泌. b(u sift (a) NME on AFLW(b) C

36、ED on WIDER FACEFigure 7. Qualitative comparison between MTCNN and Red- iiaFace on five facial landinark l()calisation. (a) AFLW (b) WIDER FACE validation set.4.6. Dense Facial Landmark Accuracy我们评估了 AFLW2000-3嗽据集上密集人脸关键点定位的准确性75,该数据 集考虑(1)具有2D投影坐标的68个关键点和(2)具有3D坐标的所有关键 点。F 二&0EO=8£ZSM皿A

37、71;ti nufac* 5|= T.l 肆MUH1 3*。口 甲b:t:urnU-FAJN: 1471W: 6JH0» WdFA:t.n fliirtinBJF k b M £fita,h iL43C4 ZZm. hM>lpto|: M2SMJPR««t 4.40T4 UkDder.UME ncxmaizeby bQUV'dmg ba if | XMMEdby oundrig bcu size Ilai bK 2D Landmarks(bl All 3D Landmarks Result Analysis (Upper: Mesh Dec

38、ixler Lower: RetinaFace) igure 8 CED curves on AFLW2000-3D, Evaluation is performed on (a) 68 landmarks wiih the 2D coordinates and (b) all landmarks with 3D coordinates. In (c), we compare he dense regression results from RctinaFacc and Mesh Decoder . RetinaFacc can easily handle faces with pose va

39、riations but has difficulty to predict accurate dense correspondence under complex scenarios.4.7. Face Recognition Accuracy表4,我们对比了广泛使用的 MTCN和推荐的RetinaFace上人脸检测和对 齐对深度人脸识别(即ArcFace)的影响。LFW CFP-FP AgeDB-3。99.8398379815-99.8699.4998.60这表明了(1)人脸检测和对准会严重影响人脸识别性能,并且(2)对于 人脸识别应用,RetinaFace比MTCN限有更强的基准。Met

40、hodsM I'C NN+ArcFace | I RetinaFace+ArcFacefable 4. Verilicaiion performance1%) of ditlerenl melhods on LFW. CFP-FP and AgeDB-30.在图9中,我们在每个图例的末尾显示了 IJB-C数据集上的ROC®线以及FAR = 1e-6的TAR我们采用两种技巧(即翻转测试和人脸检测得分来权衡模板中的样本),以逐步提高人脸识别的准确性。100ROC on l15 C口白总-口。5口吐0.P2-0,90 0.H9 -0B6 0 B4 -0.02-IIQ.SO1010 -3RateFigure 9. ROC

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论