




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人脸表情动画与语音的典型相关性分析*Supported by the National Natural Science Foundation of China under Grant No.60970086, (体现性格特征的语音驱动人脸动画合成新方法); the National Natural Science Foundation of China under Grant No.U0935003, (三维戏曲动画合成技术研究)作者简介: 范懿文(1986-),女, 硕士研究生, 主要研究领域为计算机图形学, 虚拟现实; 柳学成(1981-),男,博士研究生, 主要研究领域为计算机图形学, 虚拟现实; 夏时洪(1974-),男, 博士, 副研究员, 博士生导师, 主要研究领域为人体动画、人体运动捕获、人体运动分析以及用户接口等. 范懿文1,2+, 柳学成1,2, 夏时洪1 1(中国科学院计算技术研究所 前瞻研究实验室 北京100190) 2(中国科学院研究生院 北京 100049)The Canonical Correlation Analysis of Facial Expression Animation and Speech FAN Yi-wen1,2+, LIU Xue-cheng1,2, XIA Shi-hong1 1(Advanced Computing Research Laboratory, Institute Of Computing Technology, Chinese Academy Of Sciences, Beijing 100190, China) 2(Graduate University of Chinese Academy of Sciences, Beijing 100049, China)+ Corresponding author: E-mail: Received 2004-00-00; Accepted 2004-00-00 Abstract: Speech driven facial animation technique is an approach to synthesize the corresponding facial animation according to the speech input. The lips motion, as a component of the speech driven facial animation, has already been developed to a relatively mature extent. The facial expression animation, as another component, which plays a very important role of enhancing the realism of facial animation, becomes increasingly valued by researchers recently. Some previous works proposed methods of speech driven facial motion which reached certain achievement, but they didnt quantitatively analyze the relationship between facial expression motion and speech, that resulted in the poor expansibility of these methods. In order to solve this problem, this article adopts Canonical Correlation Analysis (CCA) to quantitatively analyze the correlations between facial expression motion and speech, and reaches the intuitive and quantitative conclusions of them. The analysis result shows that the two are strongly correlated and reveals the specific internal relations between the components of facial expression motion and the acoustic features. This article can be used as theoretical reference and judging criterion for speech driven facial animation technique.Key words: Facial Expression Animation; Canonical Correlation Analysis (CCA) 摘 要: 语音驱动的人脸动画技术是以语音为输入,合成与之匹配的人脸动画的技术。唇形动画作为语音驱动人脸动画的一个组成部分,发展至今已较为成熟。而表情动画作为另外一个组成部分,在增加人脸动画逼真性方面起着重要的作用,在近来受到了越来越多的重视。一些工作提出了语音驱动人脸表情动画的方法,并取得了一定的成果。但它们没有定量分析人脸表情动画与语音之间的关系,导致这些方法的拓展性差。针对此问题,本文研究人脸表情动画与语音的相关性,采用典型相关性分析方法(Canonical Correlation Analysis, CCA)定量分析两者之间的内在联系,得出这些关系直观的量化的结论。分析结果表明两者具有强相关性,并揭示了人脸表情动画各成分与语音声学特征之间的具体内在联系。本文成果可为语音驱动人脸动画技术提供理论参考及结果评价依据。 关键词:人脸表情动画,典型相关性分析(CCA)中图法分类号:TP391.41文献标识码: A 1 介绍 语音驱动的人脸动画合成是计算机图形学研究的热点与难点之一,其成果可广泛应用于虚拟现实、影视特效、人机交互、电脑游戏等众多领域。随着计算机图形学的发展和市场需求的增大,语音驱动人脸动画技术因其应用价值和广阔前景而倍受重视。 鉴于语音和唇部动作之间存在直观的确定性的关系,语音驱动的唇形动画合成已较为成熟。而在现实的人际交流中,除了语音和唇形包含语言内容信息外,人脸表情也包含了丰富的交流信息。例如,它能够展现人的心理感受,有着表达情绪、暗示亲和或者抗拒态度的作用,甚至在一定程度上也传达了一定的语言内容信息。心理学家Albert Mehrabian通过实验得出结论:人们在交流中趋向于相信非语言信息,例如音调和表情,尤其是当语言表达和非语言表达不一致时1。人们可以通过说话人的表情猜测说话人是否在撒谎,而如果我们单纯根据唇部和语音做判断就十分困难了。因此人脸表情动画合成是语音驱动的人脸动画技术的重要组成部分。 一些研究语音驱动人脸表情动画的工作取得了较好的成果。这些工作定性分析了人脸表情动画与语音之间的关系,但这些关系往往隐含在它们的方法模型当中,没有被抽取出来并提炼成直观的量化的结论,从而导致这些方法的拓展性较差。 针对此问题,本文运用典型相关性分析方法,对采集的人脸表情动画数据及其同步语音音频进行定量分析。首先衡量出人脸表情动画与语音的相关程度,然后定量分析两者各分量之间的关系,通过实验数据总结得出两者内在联系直观的量化的结论。这些结论可为语音驱动的人脸表情动画合成技术提供理论参考及结果评价依据。2 相关工作 关于语音驱动人脸表情动画的研究,前人的工作有一定的结果。Carlos Busso等 2, 3 研究在特定情绪下语音和人脸表情的关系,然后用线性的方法由语音特征估计出对应的人脸表情动画。Zhigang Deng等 4 提出一种使用加权分解方法合成表情人脸动画的系统。Erika S. Chuang等 5 提出一种将视频数据分割为表现特征和对应台词的技术,可以使表现高兴情绪的原始视频修改成表现生气或者中性的表情,同时保持说话内容不变。Cao等 6 提出一种运动编辑技术,对录制的表情人脸运动捕获数据采用独立成分分析方法(ICA),分为表情和语音成分,提供了更多的编辑操作。Brand等 7 成功创造表情语音合成voice puppetry。它很大程度依靠音频特征的选择。正如Brand所说,表情语音最优的音频特征组合仍然是一个开放性的难题。 关于典型相关性分析CCA的工作,自1936年Hotelling 8 首创提出后发展起来至今,其理论已经比较完善,主要应用于相关性分析和预测分析。文献9中首次将典型相关分析用于特征融合中。另外CCA的非线性版本KCCA还被广泛地应用在模式识别的工作上,如10、11、12等。鉴于本文的求得直观联系的目标与以上工作不同,本文不使用非线性分析方法。3 典型相关性分析CCA是分析两组随机变量之间相关性的一种统计分析方法,其目的是寻找两组随机变量各自的线性组合,使线性组合后的两个随机变量的相关性达到最大。3.1 CCA模型 设有两组样本集,并设样本已经中心化,即,。CCA的目标是分别为X和Y寻找两组线性组合,和,使得随机变量和之间的相关性达到最大。(其中和称为典型系数(Canonical Coefficients),和称为典型变量(Canonical Variances)。)具体可表述为求如下相关系数的最大值问题: (1)这里表示数学期望,和表示集合内协方差(within-set covariance)矩阵,表示集合间协方差(between-set covariance)矩阵,且有。式(1)可总结为以下的优化问题: (2)求解这个优化问题,可以用拉格朗日乘子法,定义Lagrange函数,并最终简化为如下广义特征值问题: (3)设特征值按非递增顺序排列为,对应于非零特征值的特征向量为和,这里,则可利用任一对特征向量(即典型系数)和进行形如和的特征提取,代入式(1)得出第个典型相关系数。3.2 结果分析方法 在解释典型变量间的线性关系时,有三种方法可以使用:1 典型系数(Canonical Coefficients): 即CCA所求的两组高维随机变量各自的线性组合。线性组合是一个向量,其分量的大小反映原始随机变量对应分量对相关性的贡献。通常典型系数绝对值在0.3以上即称对应分量具有显著性。2 典型负荷(Canonical Loadings):即随机变量中每一个分量与自身典型变量的简单线性相关系数。与典型系数类似,其大小反映原始随机变量对应分量对相关性的贡献。另外,随机变量中所有分量的典型负荷的平方均值就是典型变量保持原始随机变量信息的比例。这个比例称自我解释能力。分别对X和Y所有的自我解释能力求和,可得总体自我解释能力,其意义为两组随机变量在通过CCA将相关性进行提取后,所有典型变量对原始随机变量的解释比例。典型负荷本身的意义可解释为典型变量与原始随机变量的相近程度。3 典型交叉负荷(Canonical Cross Loadings) :即一组随机变量中每一个分量与另一组典型变量的简单线性相关系数。与典型负荷类似,用同样的计算方法可以得到对应于典型负荷的“自我解释能力”,但在此称重叠指数。同样也有总体重叠指数。它们的意义也与典型负荷对应的概念类似。4 实验设计、结果及评价4.1 实验设计 首先,采用被动式光学运动捕获设备(如图一左)以及音频采集设备,采集模特的人脸表情动画及其同步语音音频数据。将可被摄像机捕获的标记maker点贴在模特的脸上(如图一右),然后请模特声情并茂地朗读一篇文章,捕获摄像机记录所有maker点在整个过程中的空间坐标,同时录音系统同步记录模特的朗读音频。这些人脸运动捕获数据和音频构成了人脸表情动画和语音的原始数据源。 图一 数据采集设备 然后,借助实验室已有技术13,将人脸运动捕获数据归一化为与人脸模型无关的人脸表情动画数据,并抽取出具有直观意义的人脸表情动画分量。具体形式为眉毛下降(BrowDown),眉毛向中间紧凑(BrowIn),眉毛上扬(BrowUp),闭眼(EyeClose),眯眼(EyeSquint),嘴角上扬(LipCornerUp),张嘴(MouthOpen)以及头部运动四元素(w,x,y,z)。对于语音音频数据,我们以100帧/秒的频率提取语音音频的特征,如基频、Mel倒谱系数(MFCC)、感知线性预测系数(PLP)。4.2 实验结果 初始,先分析原始11维人脸表情动画与1维的语音基频的相关性。根据原始录制文件的段目,各个文件的第一个典型相关性系数如表(1)。文件号帧数rand CCACCA110710.160790.56624213200.0735330.46463314810.0749750.46213418040.105610.5119758620.101010.66005617820.0679230.3645777600.158720.64805811460.0990820.60295whole102260.0405730.39337表(1) 人脸表情动画与基频的第一个典型相关性系数 表(1)中最后一行的“whole”是将所有文件进行简单拼接后的文件。rand CCA那一列是与对应文件具有相同数据规模的(0, 1)随机数的典型相关性系数,CCA那一列是我们需要关注的人脸表情动画与基频的典型相关性系数。对比CCA与rand CCA的结果可见,人脸表情动画与基频具有显著的线性相关关系。本文的目标是揭示人脸表情动画与语音之间的具体联系,希望可以得到一个较为通用的模型。因此,本文的实验一至七在以上分析结果的基础上,以不同的分析对象组合作为CCA分析的输入,计算whole文件的典型负荷,典型交叉负荷,自我解释能力和重叠指数。我们根据大量的分析结果寻找数值突出的维度,分层抽取出人脸表情动画与基频最突出的联系。下表展现所有实验中本文所关心的内容。实验序号分析对象(数据维数)CCA最大相关系数重叠指数第一层联系主体F2SS2F(1)Facial Animation(11)Pitch(1)0.393370.019780.15474BrowIn,HeadMotion(W),MouthOpen Pitch(2)Facial Animation,一阶导数(22)Pitch,一阶导数(2)0.401840.01080.0877BrowIn,HeadMotion(W),MouthOpenPitch(3)Facial Animation(11)Pitch,MFCC(14)0.426790.046960.0398BrowIn,HeadMotion(W),MouthOpen,BrowDownPitch,MFCC(1,4,7,5)(4)Facial Animation(11)Pitch,PLP(10)0.409770.032760.02636BrowIn,HeadMotion(W),MouthOpen,BrowDownPitch(5)Facial Animation(11)Pitch,MFCC,PLP(23)0.442850.063320.02896BrowIn,HeadMotion(W),MouthOpen,BrowDownPitch,MFCC(1,4,7,5)(6)Facial Animation(11)Pitch,MFCC*,PLP*(11)0.421770.038030.04168BrowIn,HeadMotion(W),MouthOpen,BrowDownPitch,MFCC(1,4,7,5)(7)Facial Animation*(5)Pitch,MFCC*(5)0.399230.054590.05435BrowIn,HeadMotion(W),MouthOpen,BrowDown,HeadMotion(Z)Pitch,MFCC(1,4,7,5)表(2) 实验一至七分析结果对比 表(2)中重叠指数栏目里,F2S表示人脸表情动画对语音的总体重叠指数,S2F表示语音对人脸表情动画的总体重叠指数。实验二对人脸表情动画和语音数据求一阶导数并加入分析对象中。实验三在语音数据中加入语音的MFCC系数。实验四在语音数据中加入语音的PLP系数。实验五在语音数据中加入语音的MFCC系数和PLP系数。实验六把实验五中的语音数据去除典型负荷小的维度,使语音数据维数与人脸表情动画的一致。实验七把实验五中人脸表情动画和语音数据都去除典型负荷小的维度,保留典型负荷大于0.3及接近0.3的维度,使两者维度相等。由于PLP系数的所有典型负荷都远小于0.3,故实验七的语音数据没有PLP系数。 实验一说明人脸表情动画与语音有显著的相关性,其中人脸表情动画中眉毛向中间紧凑、头部运动四元素中的w分量及张嘴与基频有着最突出的联系。实验二至七的CCA最大相关系数都较实验一有提高,其中实验五用了最大的分析数据规模,有最高的系数值。而两个重叠指数随着实验进展趋于均衡分布。S2F重叠指数在实验一和二都有较大的值,但同时F2S又很低,这与分析对象维数相差较大有关。这点可在表(2)中分析对象的数据维数看出来。其次,从表(2)中第一层联系主体一栏可见,CCA分析出来的结果十分稳定,各实验抽取出来的最重要联系都几乎相同。4.3 结果评价 本文的重点即找出人脸表情动画与语音最突出的具体联系,表(2)的结果已经展示出结果的高稳定性。为了验证这个结果是具有普遍意义的,我们设计了以下验证方法,框图如图二所示:图二 CCA结果验证方法框图 此验证方法的具体步骤可描述如下:(1) 先对whole文件进行分段,分成帧数相同的n段。(2) 对n段数据进行CCA分析,分别取出每段数据第一对典型变量对应的典型负荷和典型交叉负荷。(3) 把n个典型负荷或典型交叉负荷相同维度的数据提取出来作为一个样本,然后计算这个样本绝对值的均值和方差。(4) 这样我们将得到四个向量:典型负荷的均值向量和方差向量,典型交叉负荷的均值向量和方差向量。此时则可以验证均值向量是否和之前实验结果有相似的分布,并且从方差向量的数值抖动情况评价典型负荷或典型交叉负荷的稳定程度。 这种验证方法主要是评价典型负荷和典型交叉负荷在数据进行重新分段后是否保持稳定性。本题验证时把whole数据分成8段,每段1278帧,原因是原始8个文件的平均长度是1278帧。另外,语音信息选择用Pitch、MFCC、PLP集合,最大化了语音信息,试图将两者重要的维度都抽取出来。Mean(Loadings)Var(Loadings)Mean(CrossLoadings)Var(CrossLoadings)BrowDownX10.307460.0220250.233210.012743BrowInX20.427860.0608320.321540.033198BrowUpX30.22450.0153660.170470.009091EyeCloseX40.229130.0372610.173720.020761EyeSquintX50.300890.0379560.227330.021933LipCornerUpX60.23560.0453470.181140.028588MouthOpenX70.373750.0325060.285540.020488WX80.384690.0119190.292870.007587XX90.287490.0512320.21970.028983YX100.224520.0185630.16820.009697ZX110.297810.0490790.227810.028416PitchY10.449210.0473150.33760.025201MFCC(1)Y20.337990.0091180.253510.003954MFCC(2)Y30.333820.0315820.253170.019993MFCC(3)Y40.299350.0196460.228330.012091MFCC(4)Y50.390650.03980.297970.023256MFCC(5)Y60.197310.0188230.153490.012984MFCC(6)Y70.269140.0309360.205170.018414表(3)CCA典型负荷与典型交叉负荷验证结果 表(3)展示部分验证结果,其余数据如PLP系数等负荷值不够大,不在此展示。表(3)的第一列是典型负荷的绝对值均值,其中加粗并下划线的是大于0.3的值,只下划线但没有加粗的是大于0.25的值。 对人脸表情动画中划线的数据降序排列后,将是这样的结果:BrowIn, HeadMotion(W), MouthOpen, BrowDown, EyeSquint, HeadMotion(Z), HeadMotion(X)。而对照实验五的负荷表,第一对典型系数对应的人脸表情动画负荷,绝对值最大的前8个分量为按降序排列为:BrowIn, HeadMotion(W), MouthOpen, BrowDown, HeadMotion(Z), EyeClose, EyeSquint, HeadMotion(X)。对比这两个序列可发现两者的前4个分量是一模一样的,而后面的分量也只是有小幅度的波动。可见,人脸表情动画的实验结果是具有高稳定性的,并且能很好地符合新的训练集。同样,对语音中划线的数据降序排列后,将是这样的结果:Pitch, MFCC(4,1,2,3,6)。其中以上序列的最后两个为值大于0.25但小于0.3的分量。而对照实验五的负荷表,第一对典型系数对应的语音负荷,绝对值最大的前6个分量为按降序排列为:Pitch, MFCC(1,4,7,5,3)。对比这两个序列,出现的分量有三分之二是相同的,其波动的幅度也只有一位的距离。综上所述,语音的实验结果也能很好地符合新的训练集。 以上论述验证了CCA实验结果的正确性,现在我们通过典型负荷和典型交叉负荷的方差向量来进一步验证结果的稳定性。本文讨论的是两者的相关关系,则典型交叉负荷的意义更符合本题验证的需求。观察表(3)中第二和第四列数据,其值体现的是该维度相对均值的抖动程度。横向看,这些数据的数量级大都在0.01,有的甚至在0.001。纵向看,典型负荷各个维度的抖动程度都相近,而典型交叉负荷各个维度的抖动程度要比典型负荷的更相近一点。由此可见,CCA实验结果具有很高的稳定性,具有较高可信度。5 总结和讨论 运用典型相关性分析工具,本文完成了分析人脸表情动画与语音的相关性、挖掘两者内在的联系、得出直观的量化的结论及对分析结果进行评价的工作。结论可概括总结如下:(1) 人脸表情动画与语音具有强线性相关性,此相关性在段落和篇章层面上都有体现。(2) 人脸表情动画中“眉毛向中间紧凑”、“头部运动”、“张嘴”、“眉毛下沉”成分与语音中的基频有突出的相关关系。其中语音中表现声学特征的Mel倒谱系数MFCC和感知线性预测系数PLP对增大两者相关度有作用。 通过典型相关性分析的结果及其验证可说明,人脸表情动画与语音的内在联系具有稳定性。这些内在联系体现在无特定情绪的通常情况下,因此它具有普遍适用性。这些结论可为语音驱动的人脸动画合成技术、研究人脸表情与语音互动机制方面提供理论参考。例如,在定制或者调节模型参数时,这些结论可作为手工设定或者其他设定过程提供参考。另外在评价合成的人脸表情动画时,我们可通过分析合成的人脸表情动画与原始语音音频的相关性,得到量化的评价结果。如评价的结果表明两者相关性高并且两者的内在联系与本文结论相符,则可说明合成的人脸表情动画在统计分析层面上是合理的。这种客观的评价方法可与主观的用户评价组合,形成更全面的工作评价方式。 本文的工作还有如下尚未解决的问题。在对CCA的实验结果进行评价时,虽然本文提出的方法得到了较好的结果,但这种方法主要验证的是结果的稳定性,以及此结果在同一数据源上的正确性。若面对新的训练样本,CCA的回归模型不能得出具有时序特征的人脸表情动画数据,因此我们无法用交叉验证的方法对本文的结果进行验证。 本文在对CCA模型理解的基础上,经过多次实验验证后总结出进一步研究此问题的设想。若进一步增加人脸表情动画和语音的信息量,并且这些增加的信息是对相关性有重要作用的,那么两者的相关性将会更加突出,内在联系的连结将更加紧密,分析结果的可信度也将更高。与增加信息量对应,去噪也是提高分析结果质量的方法。References: 1 Mehrabian. A. Silent messages. Wadsworth, Belmont, California:1971.2 Busso. C, Narayanan. S. Interrelation between Speech and Facial Gestures in Emotional Utterances: A single subject study. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(8):233123473 Busso. C, Z. Deng, U. Neumann. Natural head motion synthesis driven by acoustic prosodic features. Computer Animation and Virtual Worlds, 2008, 16(3-4):832904 Z. Deng, U. Neumann,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 土方工程专项施工方案与风险防控
- 幼儿园教学总结与反思范文
- 民族学概论课件
- 企业数字营销创新案例分享
- 湖北城市建设职业技术学院《思想道德与法治》2024-2025学年第一学期期末试卷
- 软件开发项目验收标准流程详解
- 泰州职业技术学院《应用统计实践》2024-2025学年第一学期期末试卷
- 四川城市职业学院《信息感知与对抗技术》2024-2025学年第一学期期末试卷
- 宁波职业技术学院《现代光纤通信系统》2024-2025学年第一学期期末试卷
- 湖南信息学院《数学课程与教学改革研究》2024-2025学年第一学期期末试卷
- (完整版)小学四年级四则运算500道
- 电厂消防培训
- 教研组长和备课组长培训
- 基于谷歌云视觉自动图像标注技术的多模态语料库开发与分析
- 煤矿项目部管理制度
- GB/T 45089-20240~3岁婴幼儿居家照护服务规范
- 脑水肿的诊断与治疗
- 脓毒症抗炎治疗策略
- 财务岗位招聘笔试题与参考答案
- 电动汽车V2G技术
- 田忌赛马 同步分层作业(含答案)
评论
0/150
提交评论