【《面向低分辨率图像三维人脸重建技术相关基础综述》9300字】

上传人：E*** IP属地：湖北上传时间：2026-04-08 格式：DOCX 页数：17 大小：971.57KB 积分：15 举报 版权申诉

已阅读5页，还剩12页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

面向低分辨率图像三维人脸重建技术相关基础综述目录TOC\o"1-3"\h\u936面向低分辨率图像三维人脸重建技术相关基础综述 [20]是一种在学术界比较基础的三维人脸统计模型，提出的目的是为了解决从二维人脸图像中重建出三维人脸形状的问题。其大致思路如图1.3所示，首先利用自己创建的三维扫描人脸数据库计算得到一个平均人脸形变模型，作为基向量，然后对于给定的人脸图像，将其与平均模型进行拟合，在重建过程种不断地修正参数使平均人脸模型发生形变，让其与目标人脸图像的差异达到最小，最后再对人脸的纹理进行微调完成重建。因此基于3DMM完成重建主要分为两个步骤：平均三维人脸模型的构建和三维人脸模型的拟合。首先，构建平均人脸时主要是利用人脸向量的线性组合来获取基向量建立形变模型；其次，模型拟合的任务则是将输入的人脸图像和3DMM模型进行拟合，来获得与基向量相对应的系数，完成三维人脸模型重建。图1.33D形变模型框架Fig.1.33DMorphableModelframework（1）三维人脸模型建立多边形网格（mesh）一种特殊的数据结构，其可以为不规则的物体建立三维模型。mesh是由顶点、边和面这三种元素的集合组成的。mesh中的面均是由三角形组成的称为三角形网格，在3DMM中，使用三角形网格的形式来表达人脸数据。3DMM建立的预设条件是人脸库中的三维人脸语义信息具有一致性，每张人脸的三角形mesh顶点数、网络拓扑以及索引都是一致的，同一索引所对应的顶点在每张三维人脸中具有相同的语义位置信息。根据以上条件，采用向量描述的方式对三维人脸进行统一表达，如式(1.13-1.14)所示。S(1.13)T(1.14)其中，S为人脸的形状向量，T为人脸的纹理向量，(xi,yi,zi)为mesh中第i个顶点，假定三维人脸均处于一个线性空间内，按照线性代数相关知识，其中任意的一个人脸向量都可以被线性子空间的其他向量的线性组合所表示，假设数据库中包含m张人脸，那么任意的三维人脸可以表示为式(1.15-1.16)所示。S(1.15)T(1.16)其中Si和Ti分别表示空间中第i个人脸所对应的形状向量和纹理向量，αi得到人脸表达式后，利用主成分分析方法（PCA）进行降维和去相关操作，其原理是协方差矩阵对角化，因为数据库中样本数量较大，计算效率较低，所以采用奇异值分解方法来提升计算效率。首先根据式(1.17)得到m个人脸数据的平均值：S(1.17)得到平均人脸数据后，将每个人脸向量都减去平均人脸，完成去中心化，其过程如式(1.18)所示。x(1.18)X(1.19)经过去中心化操作后的人脸数据如式(1.19)所示，然后进行奇异值分解，如式(1.20-1.22)所示。X=(1.20)U=(1.21)W=diag(1.22)随后对其计算主成分，如式(1.23-1.24)所示。s(1.23)λi2(1.24)其中si表示第i个主成分，i的值越小，其所包含的信息量也就越多，λi2表示第ii(1.25)其中t为阈值，主成分的个数为满足式(1.25)要求的最小k值，简化表示，k最小为m，则S=S1,S2,⋯,SmS(1.26)T(1.27)其中，S代表平均人脸形状，Si表示人脸形状主成分，αi是形状参数，T代表平均人脸纹理，Ti表示人脸纹理主成分，βi是纹理参数，且满足条件由以上论述可知，任意的三维人脸均可由3DMM中的形状参数α和纹理参数β来唯一确定。（2）三维人脸模型拟合三维人脸模型建立后，如果想要完成对输入的图像进行三维人脸重建，需要先得到式(1.26-1.27)中的两个参数信息，进而得到最终的三维人脸形状和纹理向量。通过将该模型生成的图像与输入图像进行迭代对比，不断缩小两者之间的差距，使重建的三维人脸经过投影后生成的二维人脸图像与输入的人脸图像最相似，就相当于完成了重建，这个步骤就是三维人脸模型的拟合。为了能够量化的计算生成的三维模型与输入人脸图像之间的差异，将重建后的三维人脸模型通过给定的光照参数渲染成二维图像，假设模型生成的二维图像为Imodel，输入人脸图像为Iinput，误差为式(1.28)所示，则需要优化的目标函数如式(E(1.28)I(1.29)三维人脸形变模型的拟合是一个不断优化的过程，三维人脸模型由人脸形状和纹理系数决定，在此基础上还需要渲染参数ρ，它包含了相机的位置参数、图像的旋转和平移以及环境光照的强度等。所以可以将目标问题简化为使参数α,β,ρ拥有最大的后验概率，让条件概率pIinputα,βp(1.30)可以将上述问题转换为如式(1.31)所示的最小化代价函数，通过牛顿法或者梯度下降法来计算，随机选取mesh中的一组面片，对任意的形状参数求一阶偏导，然后迭代的优化参数，不断计算得到最优的形变模型参数，然后利用形变参数来重建三维人脸模型。E=(1.31)传统的3DMM模型具有高保真、自动化等优势，但是也存在缺陷。第一，3DMM模型具有光照不确定性，同一人脸在不同光照下重建出的三维人脸模型不一致，纹理重建的效果也较差。第二，3DMM模型的计算复杂且耗时，效率低下，在需要实时性的应用场景应用比较困难。1.1.2透视投影方式投影变换是一个三维到二维的过程，其目的是选择一种合适的方式将三维模型投影到二维平面上。这个过程称为3D投影，可以使用数学模型描述这个过程。首先要做的就是构建成像模型，在建立模型时不考虑各种光学成像等复杂因素，采用简化的模型来近似的描述出这个成像的过程。常见的成像模型有透视投影模型、弱透视投影模型和正交投影模型，本文就这三种投影方式进行详细的讲解。（1）透视投影透视投影能够正确的呈现出现实世界中物体所应有的近大远小的视觉效果，但是计算过程比较复杂，其呈现效果如图1.4所示。在透视投影过程中不平行于成像平面的所有的平行关系和角度都将被破坏。如当人脸距离摄像头很近的时候，人脸的耳朵部分可能会被遮盖，这种现象能够很好的表现出近大远小的客观事实规律，但是计算会很繁琐。而且由于在现实生活中的使用的图像不一定是相机拍摄的完整图像，有可能图像已经被裁剪或者旋转过，那么相机原有的内参矩阵将会被破坏，我们恢复出的有关参数也将是错误的。如果图像没有经过任何处理，那么透视投影的方式将是最符合实际生活规律的。透视投影的计算方式如式(1.32-1.34)所示，物体经过旋转变换和平移变换后，再经过相似投影变换，最后根据相机内参矩阵得到最终的投影图像。v(1.32)v(1.33)p(1.34)其中v表示原始顶点，T代表平移向量，R为外部参数旋转角度，v''为经过投影变换后的顶点，fx，fy为相机的焦距，cx，c图1.4透视投影Fig.1.4Perspectiveprojection（2）弱透视投影弱透视投影是透视投影的一个简化形式，为了呈现出客观世界中近大远小的效果，同时又不引入过多的复杂计算量，弱透视投影引入一个scale的概念，即缩放系数，通过缩放系数来控制近大远小的效果，距离较近时，系数大，距离远时，系数小。在弱透视投影中，所有的平行关系被保留，虽然不符合客观事物规律，但是能够简化计算，其呈现效果如图1.5所示。如当我们距离相机很近时，人脸的耳朵部分不会被遮盖，会显示在投影图像中；当距离摄像机较远时，透视投影方式将退化成弱透视投影方式，在这种情况下两种投影方式是没有很大区别的，所以在工程中常用弱透视投影来代替透视投影避免进行复杂的计算。弱透视投影方式的计算方式如式(1.35)所示。p(1.35)其中v表示原始顶点，Txy代表平移向量，R为外部参数旋转角度，f为缩放系数，最后投影顶点p图1.5弱透视投影Fig.1.5Weakperspectiveprojection（3）正交投影假设焦距无限大时，在成像平面上会存在正交投影，正交投影可以保留平行关系，每一条投影线都是平行的，正交投影的尺度大小和原始图像是一致的，其呈现效果如图1.6所示。正交投影方式相较于弱透视投影方式不考虑正交尺寸缩放系数，只有坐标上的相对平移，其计算方式如式(1.36)所示。p(1.36)其中v表示原始顶点，Txy代表平移向量，R为外部参数旋转角度，最后投影顶点p。图1.6正交投影Fig.1.6Orthographicprojection1.1.3三维人脸模型质量评价指标（1）三维人脸重建准确度三维人脸重建准确度是由重建出的三维人脸点云与真实的三维人脸点云经过刚性迭代最邻近点（IterativeClosestPoint，ICP）方法对准后通过计算均方误差（MeanSquareError，NME）的方法得到。（2）三维人脸对准准确度三维人脸对准准确度是根据重建的三维点云和真实的三维点云中固定位置的人脸特征点在二维平面上投影的NME计算得出。1.3卷积网络相关理论深度学习技术发展迅速，在目标检测，语义分割，图像去噪，三维重建等领域都取得了不错的成绩，是当今学术界的研究热点方向，深度学习的核心的内容是神经网络。神经网络包含几个基本要素，下面将对神经网络的几个要素，包括卷积层、池化层、激活函数、损失函数、梯度更新方法以及目前流行的深度学习框架PyTorch分别进行详细的介绍。（1）卷积层卷积运算指的是将输入图像或者上一步骤得到的特征图与相应的卷积核进行内积运算得到输出特征图。如图1.7所示，6×6的特征图F和3×3的卷积核K，卷积核的尺寸小于特征图尺寸，不能直接相乘。在卷积操作中，需要按照从左至右，从上至下的顺序，每次移动步长s，在特征图中每次选取同卷积核大小一致的特征块进行一一相乘得到内积，得到输出特征图O上对应位置的值，设置步长s为1，前两步卷积操作如图1.7中的(a)和(b)所示。(a)卷积操作过程1(b)卷积操作过程2图1.7卷积操作过程Fig.1.7Convolutionprocedure当进行卷积操作时，输出特征图的尺寸一般会小于输入特征图尺寸，只有当卷积核的尺寸为1×1且步长s也为1时，输入与输出的特征图尺寸才会保持不变。在一些特定场景下，我们需要输入特征图和输出特征图大小保持一致，但是卷积核大小为1×1又满足不了我们的需求时，还可以进行padding操作，填充参数p，表示在图像边缘填充相应的行数和列数，填充数字一般为0。为了使图1.7中特征图的尺寸保持不变，卷积核K的大小设置为3×3.，步长设置为1，填充参数p设置为1。上述卷积操作只是基于二维的，是卷积操作的简化形式，在实际应用中，我们的输入特征图一般是三个维度的，除了特征图的长H和宽W外，还需要一个通道数C，可以通过设计卷积核的通道数与特征图通道数一致，输出特征图的通道数为卷积核所使用的通道数，其他操作与二维卷积操作一致。（2）池化层池化层用来降低特征图的尺寸，没有需要学习的参数，所以一般不会把池化层当作独立的一层来看待。池化操作一般会有一个池化窗口，按照从左至右，从上至下的顺序，以步长s对特征图中的数据块进行计算。池化操作一般不会设置padding，即p为0，同时将过滤器大小设置为2×2，s为2是最为常见的参数设置方式，刚方式会使特征图尺寸会缩小为原来的一半。根据池化方式的不同，一般有以下几种操作：平均池化：选择框内所有特征值的均值；最大池化：选择框内所有特征值的最大值；方差池化：选择框内所有特征值的方差。如图1.8所示，展示了窗口为2×2，步长设置为1的平均池化操作。(a)池化操作过程1(b)池化操作过程2图1.8平均池化操作过程Fig.1.8Averagepoolingprocedure（3）激活函数卷积操作是卷积神经网络中的核心操作，其实质上还是线性的，但是实际应用中我们的网络模型须有具有非线性的性质，为了拥有曲线性质，可以使用非线性激活函数的方法来达到效果。常用的激活函数有如下：①sigmoid激活函数sigmoid激活函数，曾经被广泛的应用，其计算公式如式(1.37)所示，他的输出映射范围为(0,1)，单调且连续，并且容易被求导。但是由于它的软饱和性，容易造成梯度消失问题，导致训练失败。σ(1.37)②tanh激活函数tanh函数计算方式如式(1.38)所示，和sigmoid函数一样，其也具有软饱和性这一弊端。其输出以0为中心，所以收敛的比sigmoid函数速度快。但是还是没有解决梯度消失的问题。tanh(1.38)③ReLu激活函数ReLu是目前最受欢迎的激活函数，计算方式如式(1.39)所示，从公式可以看出函数计算方式简单，不涉及指数运算；就算给定输入过大，也不会出现梯度消失的情况，因为输入值为正数时，梯度恒定为1，但是对于输入值为负数时，还是会出现梯度消失的情况。ReLu(1.39)（4）损失函数每一个神经网络都有其相对应的目标值，而损失函数就是用来度量模型的真实值和预测值之间的差异程度的运算函数，它的结果是一个非负的实数，损失函数的值越小，模型的效果越好。在不同的应用中，根据实际情况会设置多种多样的损失函数来应对不同的目标问题，本文就最简单的损失函数L1来进行示例描述，其计算方式如式((1.L(1.40)其中yi为真实值，f（5）梯度更新方法①随机梯度下降（StochasticGradientDescent，SGD）随机梯度下降直接使用参数的导数与学习率进行乘机来更新参数，随机梯度下降方法有计算简单的优势，但是缺点很明显，它容易发生抖动，其计算公式如式(1.41)所示。w(1.41)其中w表示学习的参数，η表示学习率，dw表示参数的导数。②动量更新（MomentumUpdate，MU）相较于随机梯度下降算法，动量更新多了一项mu∗v，这个思想来源于物理学的动量的概念，举例说明如：给定一个水平向右运动的物体，然后给予它一个水平向左的梯度更新值−η∗dw，该物体仍然包含一个水平向右的运动惯性(muv(1.42)w(1.43)其中v表示动量，mu表示超参数，w表示学习的参数，η表示学习率，dw表示参数的导数。③AdaGrad更新随机梯度下降和动量更新的方式，学习率都是恒定不变的，但是在实际应用中，由于每个参数其重要性不一样，所有我们要对不同的参数采用不同的学习率，AdaGrad更新方式就是将每一个参数在每一次迭代时的梯度取平方累加后在进行开方，然后用全局的学习率除以这个中间值，作为学习率的动态更新。其计算方式如式(1.44-1.45)所示，从式中可以看出，cache越大，那么w的变化越小，假设梯度较大时dw2较大，cache变化幅度大，那么w变化会变小，相反如果梯度较小，dw2较小，cache变化幅度小，那么w变化会变大，所以cache(1.44)w(1.45)其中cache为一个中间值，w表示学习的参数，η表示学习率，dw表示参数的导数。④RMSProp更新与AdaGrad更新相比，RMSProp更新增加了一个超参数decay，本质上是对cache和dw2的一个加权平均。是对AdaGrad更新终止参数更正的一种改善，其计算方式如式(1.46-1.cache(1.46)w(1.47)其中cache为一个中间值，decay表示超参数，w表示学习的参数，η表示学习率，dw表示参数的导数。⑤Adam更新Adam更新将动量更新和RMSProp

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【《面向低分辨率图像三维人脸重建技术相关基础综述》9300字】

文档简介

温馨提示

最新文档

评论

【《面向低分辨率图像三维人脸重建技术相关基础综述》9300字】

文档简介

温馨提示

最新文档

评论

相关文档