语音转换翻译_第1页
语音转换翻译_第2页
语音转换翻译_第3页
语音转换翻译_第4页
语音转换翻译_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1. 介绍大量的身体或行为特征,这是鲜明的,可测量的特征来描述人类个体,已经研究了生物识别。说话人确认,也被称为语音生物识别RICS,是生物识别技术的智能手机1或电话应用中语音业务空间分为最流行之一。说话者检验的任务是自动接受或拒绝根据由用户提供的语音样本的身份,如权利要求。就像生物的任何其他方法,一个扬声器自动检定(ASV)系统不仅有望成为准确的普通用户,也可确保不会受到spoof- ING攻击。如所讨论的2,可能欺骗攻击发生在两点:传感器电平与感测到的信号的发送。在传感器级别,对手,我们称之为一个骗子,可能欺骗系统,通过模拟目标发言人麦克风,或通过合成产生的信号取代获取的语音信号或。一般来

2、说,欺骗传输时间模仿声音攻击。使用伪造的语音信号作为系统的输入进行特征提取和验证;因此,呈现给扬声器验证系统的威胁。在本文中,冒名顶替者是指零努力骗子欺骗谁的系统不依赖于任何技术,而我们所说的非零努力骗子的攻击,谁使用语音转换或其他技术来模仿目标说话。随着数码录音已经成为普及,重放攻击是欺骗扬声器验证系统的最简单方法。重放攻击涉及预记录话音样品或通过从一个给定的目标讲话者串联基础语音段创建的示例的重复。事实上,重放攻击已被证明是伪造文本的独立扬声器验证(TI-SV)系统,它没有对语言的内容限制的有效方法3,4 .How-以往,如果重放的内容是不同的由文本依赖扬声器verifica-灰所需的特定

3、密码短语(TD-SV)系统,它不构成威胁,除非攻击能够获取目标讲话者的声音进行特定的通行短语如假定在5 。除了重放攻击,人的声音模仿或模拟也得到相当大的关注6-8。作为模拟需要特殊的技能,因此很难判断其作为一般欺骗技术有效性。部分证据,然而,表明人类是最有效的模仿音箱采用“类似”的声音煤焦Cucumis Sativus查阅全文,以自己的,而扮演一个任意扬声器,将会出现挑战6。专业的语音模仿,往往配音演员,往往会模仿韵律,口音,发音,词汇,和其他高级别音箱的特征。而不是使用自动系统频谱线索。因此,人声模仿不考虑成本效益的对手来说话人确认系统。语音合成代表了更真实的威胁。由于单位选择9的快速发展,

4、统计学的参数10,并混合11的方法,语音合成系统现在能够产生语音以可接受的质量,以及一个给定的目标讲话者的语音特征,如频谱线索。在早期的研究12 - 14,漏洞oftext提示使用10个扬声器的小型数据库隐马尔可夫模型(HMM)为基础的说话人确认进行了检查。最近,15中使用的柔性适于基于HMM的语音合成系统,欺骗的TI-SV系统上的约300对扬声器,一个主体。虽然基于HMM的合成构成威胁埃斯佩cially到TD-SV系统中,通常需要训练语音小时培养的合理质量的语音合成系统。甚至一个适于基于HMM的语音合成系统需要显著量的发言者的数据来训练的平均语音模型目标讲话者适应16。因此,它并不像stra

5、ightforwardas人认为使用基于HMM的语音合成以模仿某人的声音。从重放攻击,人声mimick- ING和语音合成不同的是,声音的转换把一种扬声器(源)的声音听起来像另一只音箱(目标)不改变语言的内容。保持语言的内容不变,该转换技术的工作原理有两种方式,一种是改变源的声音听起来不同 - 伪装自己;另一种是改变源的声音听起来像一个目标的声音 - 模仿一些一.Asreal的语音转换不仅是可能的,而且还提供了语音质量和特色,即使是人耳无法轻易分辨,它提出了一个真正的威胁文字依赖性和TI-SV系统。总之,人声可以看出有三个属性,语言内容,光谱图案,和韵律。人声的个性是由光谱二尖瓣模式描述的,称

6、为语音质量或音色,并通过由语音。人类语音伊京携带的韵律模式通常修改韵律图案而音质转换修改都光谱和韵律模式。因为它是更可靠,受到他们的频谱线索的表征音箱17,大多数国家的最先进的扬声器核查系统是光谱模式的差异。在本文中,我们将专注于语音转换欺骗攻击,并查看最新的研究工作在语音转换,说话人确认,欺骗攻击,反欺骗攻击看法欺骗与反欺骗的说话人确认中可以找到18。本文的其余部分安排如下。在第二节,语音转换技术的观点上提出,并在第二节,我们将简要飞再次查看该语句的最先进的扬声器验证技术,并讨论发言的薄弱环节,如果我阳离子。欺骗攻击,防欺骗攻击的研究在第四和第五节,回顾分别。本文的结论在第六节。二。语音转换

7、技术人的声音传达不仅仅是语言的内容,而且音箱的个性。从言语感知的角度来看,音箱的个性特点是在三个不同的层次:段,超音段,和语言的信息。节段性信息涉及短期特征的表示,如频谱和瞬时基本频率(F0)。该超音信息介绍韵律特征,如持续时间,语调,重音,节奏上的讲话比语音单位更长的区段。它是更相关的信号,但跨越更长的时间比段信息。在语言信息进行编码,并通过在消息词汇词表示。由于每个扬声器具有他/她自己的词法偏好,字砂句子结构的选择,同样的语言信息可以由不同的人在不同的方式来传达。语音转换技术来处理段和超节段性为息,同时保持语言的内容不变。特别是,语音转换的目的是为了修改一个说话人的声音(源)听起来像另一位

8、发言者(目标)不改变语言的内容。 ,音质转换是一个过程来学习源语音Y和目标音频X之间的转换函数F(),并以生成变换的语音信号X.这将此转换函数将源语音信号Y在运行时过程配制为如下:X = F(Y)。 (1)图1表示一个典型的音质转换框架,它由离线训练和运行转化工艺的。在离线训练,特性,特征音箱的个性,在参数向量的形式被首先提取源和目标音频信号。然后,每个源功能配对与一种焦油得到的特征,这是所谓的帧对准,以建立源 - 目标的对应。帧定位是通过动态时间通常实现翘曲为paral- LEL数据19,或通过对非并行数据20一些先进帧对准技术。最后,一个转换功能,从源目标特征对估计。在运行时,转换函数被用

9、来从源语音中提取的特征,然后将转换后的特征矢量序列被传递到合成滤波器来重建可听语音信号。接下来,我们讨论的特征提取和转换功能的一个更详细的估计。A)特征提取在语音转换,我们考虑两个层次的特点,即短期频谱和韵律特征,对应于在短期光谱特征节段性和超音段是代表,涉及到语音音色的光谱二尖瓣属性。梅尔 - 倒谱语音转换与说话人确认3图。 1,图一个典型的语音转换系统。系数(MCC的),线性预测倒谱系数(LPCCs),和线谱频率(LSF)是弹出ular短期光谱特征来表示频谱包络的语音转换。动态特性,如三角形和delta-功能,也可以采用以捕获语音动力学,以产生更好的质量的转换话音。共振峰的特点是另一种短期

10、特征表达来描述声道,并已应用在一些语音转换系统。韵律特征还包括显著音箱的个性。语调,持续时间和强度是典型的韵律特征。语调表示的基频轮廓在更长的时间,并描述音节的音调以及一个扬声器的口音。B)转换功能光谱映射和韵律转换映射段的精神和超分行业资料,分别从一个扬声器到另一个。接下来我们讨论这两种形式的转换功能。1.频谱映射的频谱映射方法可大致分为三类:统计,频率翘曲,和单元选择方法。在统计方法,源和目标特征之间的关系,通过参数化模型成立。它们被用于实现转换函数来源要素映射到目标特征空间。矢量量化(VQ)是一种简单而直接的映射方法中,这是提出21。此方法实现从配对的源 - 目标操作上码本。码本是用于找

11、到对应的焦油获得向量为每个源特征矢量。一些统计模型已经提出了以提高矢量量化方法。高斯混合模型(GMM)22-24,偏最小二乘回归25,和轨迹HMM 26是假设在源与目标的功能之间的线性关系的好例子。假设在源和目标语音特征之间的非线性关系,研究人员研究了另一组的方法,如阿尔季ficialne尤勒尔网络27-31,支持向量回归32,和内核部分的LEA平方回归33。在统计方法,变换函数是用于从发送的频谱,而不以下物理原理。因此,统计平均化效果,这反映了语音特征的集中趋势,可以引入过度平滑24,34,35。频率翘曲方法的股权的物理原理考虑,目标是振幅频谱的频率轴上翘曲到源扬声器以匹配的目标说话者36-

12、41。通过这种方式,频率变形方法能够保留更多的频谱细节砂生产出高品质的转换讲话。其基本频率弯折方法只考虑没有考虑振幅考虑移动频率轴。为了弥补这一差距,提出了在39的除垢技术,以提升转换性能。虽然频率弯折方法能够生产出高品质的语音转换,频率翘曲方法转换和目标语音之间的相似性不如中所报告的40的生成的方法。一般来说,统计参数和频率翘曲的方法尝试修改扬声器特性。与这些方法,单元选择方法利用原来的目标讲话者的特征向量来构建各转换42-44。这种想法是通过单元选择用于语音合成9的启发。在音质转换,作为训练数据有限,基本单元通常仅跨酮42,43或几个帧44。2. 韵律变换韵律转换涉及的韵律特征,诸如基频,

13、语调,和持续时间。最简单常用的方法为正常化均值和源扬声器的(对数)F0分布的方差对于与目标讲话者的。这种方法操作瞬时F 0值和仅改变F0的全局级别,以及基频范围。然而,目标声音取相同的持续时间和语调图案作为源的声音。一些已经尝试延长均值方差归一化(MVN)的方式,诸如较高阶多项式45,片分段线性变换46,和基于GMM的映射47,48。这些方法也操作上瞬时F0和工作,如果源和目标音箱具有“类似”的语调模式。相反,瞬时F0经营,分别提出了更先进的方法45,47,49,50,在转化为国家的模式直接在音节级甚至更长的时间段。这些方法通常需要手动标注的语调边界。除了基频/语调转换,提出在51-54的持续

14、时间的转换。持续时间是相关于语音信号的节奏和速度,并且是描述扬声器个性的重要因素之一。在51,持续时间嵌入式双HMM模型,提出了同时转换的光谱属性和持续时间。双HMM模型的意思是平行的源 - 目标HMM模型捕捉源和目标功能。在52,提出了一种概率模型来处理两个不同长度的话语,其中源和目标特征之间的帧对准被下列国家代表通过隐藏.A相似的想法在54到转换持续时间和频谱。在53,该音节级的持续时间,通过最大似然线性回归(MLLR)转化,并放松了的并行数据的要求。3. 3.总结一般来讲,光谱/韵律映射技术是,以匹配给定的源说话人的频谱/韵律特征的目标说话者的频谱/韵律的属性。如上所讨论的,已经提出了大

15、量的方法旨在改善的音质转换的质量。在这里,我们更感兴趣的是为欺骗攻击的语音转换方法的有效性。从频谱映射的角度看,这两种统计学的频率和翘曲的方法是灵活的,当训练数据有限,而单元选择方法有望实现更好的性能时有足够的数据,例如30分钟讲话,是可用的。在统计学的方法中,最大似然高斯mix- TURE模型(ML-GMM)与动态特征约束的方法24以及动态核偏最小二乘法(DKPLS)33是两个受欢迎,实现的方法性能稳定,不同的训练数据。特别是,对ML-GMM方法是在音质转换研究行之有效的基线方法。在频率翘曲的方法中,加权频率翘曲4. 与幅度缩放(WFW-AS)已报道实现相当的性能的ML-GMM扬声器相似39

16、表示。因此,ML-GMM,DKPLS和WFW-AS可能是不错的选择,可模拟语音转换欺骗攻击时,训练数据是有限的,虽然不是所有的人都被应用到欺骗攻击。在韵律转换,语调模式的转换,需要手工语调边界和图案的标签,以及大量的训练数据。最实用的方法就是做F0值均值和方差归一化。5. 三。说话人确认技术6. 扬声器核查系统的目的是为了才会自动接受或拒绝一个扬声器的基础上只是语音样本声称的身份小号X = X1,X2,.,XT,.,XT 17 。这个验证过程ILLU strated图。 2,并配制为假设检验:7.  (X)=8. P(X |H)P(x |高)9. ,(2)10. 其中H是假设H的模型

17、参数,该话音样品X是选自扬声器S,和H是一种替代的假设,即话音样品是不脱离要求保护的身份S的似然比(或可能性得分)(X)用于其中假设,H或H,是真基于预先定义的阈值来决定。在本节中,我们将简要介绍先进国家的任何的扬声器核查制度,涉及到语音转换欺骗攻击技术。这些技术包括特征提取获得表述为语音样本X和扬声器模拟的模型H和H.对说话人确认更一般的概述或教程可以在17,55-60中找到。11. A)特征提取12. 在第二节中,我们考虑的信息,即节段性,同上节段,和语言的信息三个级别,描述扬声器的个性,相应多地,有三个级别的特征来表征扬声器的个性:光谱,韵律,和高层次的特点17。所有的三个层次的特征通常

18、用在ASV。图。 2.图说话者确认系统。13. 语音转换与说话人确认514. 语音信号不是静止的,移动的窗户通常施加到划分的语音信号转换成短期重叠片段与大约20-30ms。所述短期光谱特征,诸如梅尔倒谱频率系数(MFCC),LPCC,LSF,和感知线性预测和灰(PLP),通常提取从短期语音段。短期动态功能,如三角洲,这些短期特性所三角洲三角洲系数,通常计算采取演讲动态考虑。从短期光谱特征不同,时间调制特征是另一类型的光谱特征,从多个连续光谱段61,62萃取。韵律特征,诸如音调,强度和持续时间,将对应于该超音段的信息。韵律特征已经通过了说话人确认中63-66。尽管这些功能通常情况比在面的信道变化

19、的短时特征更加健壮,这些特征的提取也受噪声。例如,基波频率不能得到很好的估计的噪声环境,并且作为语调等图案的准确度将受影响。高级功能,如音素,发音,并在谈话字的选择上,更贴近词汇信息。这些功能对与功能其他级别相比噪音更稳健。然而,他们依赖于其他成熟的技术,例如自动输语音识别,因此他们更难以使用。认识到的短期光谱二尖瓣功能的高效益,大部分的讲话者校验系统的采用短期光谱特征中的实施。15. B)音箱造型16. 有两种类型的讲话者校验系统的:TI-SV和TD-SV系统。 TD-SV假定合作扬声器和要求扬声器说话固定或自发地提示话语,而TI-SV允许讲话者都登记和验证期间自由发言。两者的TI-SV和T

20、D-SV系统共享特征提取技术,同时在扬声器建模不同。17. 1.文本无关的造型建模技术为TI-SV可分为三类:生成,歧视性,并融合模型。生成模型集中于建模的目标说话者的特征的分布。在GMM 67,联合因素分析(JFA)68,69,以及判别分析(PLDA)70是典型的生成模型。 GMM已被用于紧锣密鼓地模拟功能分布,GMM与通用背景模型(UBM)是经典方法在建设扬声器可核实阳离子系统67。在GMM-UBM方法,从非目标扬声器的数量的语音采样首先用来建立一个与说话者无关的UBM,然后将目标讲话者的样品被采用来适应该UBM以估计说话者相关的GMM。在运行期间,所述目标GMM和UBM分别用作虚拟扬声器

21、模型H和替代者模型H,。 JFA和PLDA,潜变量模型,更先进的生成模型,明确地模拟通道和扬声器共同变率。该JFA GMM的内部工作原理的意思是超矢量空间,而PLDA型号通道和扬声器变异中的i-向量空间。的i载体是低维组因素来表象经由因子装入发送扬声器和信道的信息,也被称为总变性71。在这两种JFA和PLDA,需要进行估配合扬声器和信道变异,或总的变异性有大量的附加数据。不像生成模型,判别模型不试图建模特征分布,而是集中于虚拟扬声器模型和替代扬声器模型之间的差异。支持向量机(SVM)是一种类型的判别模型,可以连同GMM-UBM或者在i矢量框架使用。在72,GMM意味着超向量用作特征来估计SVM

22、分类,并且在73,SVM是结合的工作。其他SVM-基地DAPP蟑螂还提出,如SVM与得分空间的内核74。在SVM中建模,滋扰属性投影(NAP)75,76的范围内,并与在类方差归一化(WCCN)提出77的技术信道补偿。其他的判别模型如神经网络78-85也被用在说话人确认。融合的方法试图融合多个子系统于一体,从多个“专家”中受益。在生成和判别模型,他们试图建立一个单个系统,并在实践中是不够的建设只是一个单一的强大的系统。这样的融合模型假定个别系统能够捕获的语音信号的不同的方面,并且提供免费信息彼此。每个单独的系统可涉及各种不同的特征或不同的水平特性所,并且也可以采用不同的建模技术。尽管聚变通常发生

23、在比分级跨子系统86-88,也有方法来熔化特征或说话者模型88。2.文本相关模型从文本独立扬声器造型各异,文本依赖系统不仅可以模拟要素的分配,也建模语言信息,如语音和韵律模式。例如,文本的从属系统使用的HMM和正在开发的自动语音识别的捕捉的超音段和语言特征在通短语其他技术。在决策策略方面,文本有关系统共享与该文本无关系统的类似的系统架构(参见图2)。更多的文本依赖建模或分类器可以在60中找到。6至正武和海州丽说话人确认的三)语音转换漏洞如上所述,扬声器验证系统使得基于通过扬声器建模特征分布的决定。特征提取和扬声器模拟模块,因而是最重要的两个组成部分。因此,有两类薄弱环节,一个在特征提取中,另一

24、个在扬声器建模。从特征表示的角度来看,它是为公众所知的即说话人确认系统使用的频谱,韵律和语言特征。因此,说话人确认系统可能会受到可管理模仿这些功能的袭击者。另一方面,语音转换可以修改或模仿所有这三个层次的功能,也可用于在说话者确认。定从攻击者的序列的特征Y,语音转换技术可以通过映射函数X = F(Y)突出的攻击者的特征与目标讲话者的特征空间,并以这种方式,在说话者确认系统可以被欺骗由生成的目标特征十,光谱和韵律特征是说话人确认使用流行的操作上。特别是,由于简化和稳健的性能,光谱特征被广泛用于实际执行。如A部分所讨论的,MFCCs,LPCCs,andLSFsarethepopu-拉尔特征来描述的

25、光谱特性,而F0,强度,持续时间,和语调由一个大范围的说话者确认系统的共享来表示韵律属性。另一方面,那些光谱和韵律特征也参与语音转换。因此,明知光谱或韵律特征是如何在说话人确认系统中使用,一个是能够设计出一种光谱扫雷具韵律映射产生的光谱或韵律特征欺骗扬声器验证系统。也有来自语言或高级别功能方面的薄弱环节。在TD-SV的情况下,有可能的攻击者,以获得预先确切密码短语的信息,而对于对TI-SV的情况下,攻击者可以了解此字的目标讲话者的选择和扬声器样式预先或畅所欲言,为TI-SV系统不具备核查的语言内容的任何约束。从扬声器建模的角度看,多数系统都使用一个GMM作为基础来建模特征显示贡献。这样的实施忽

26、略讲话的时间结构,这也反映了扬声器个性。另一方面,音质转换系统擅长通过帧的转换值进行帧。通过这种方式,对时间结构建模损失调峰验证是欺骗攻击的薄弱环节。有研究表明,基于HMM的说话者确认系统捕获的时间结构比那些没有在语音转换欺骗攻击面89颞约束更有弹性。但我们需要注意的是,最近的音质转换系统,如持续时间嵌入的HMM 51和轨迹的HMM 26的系统上,被设计为从源传送语音的时间结构的目标的扬声器。因此,无论是时间如图3所示。我共探一个音质转换欺骗方法,其中攻击者的声音由声音转换系统修改,然后传递到说话者确认系统验证的。建模技术可以提供一些保护,以语音转换欺骗仍然是一个悬而未决的问题。四。欺骗攻击研

27、究语音转换成方程(2),我们修改源语音Y键听起来像的目标讲话者的X,和此呈现给讲话者校验系统的威胁。 Figure3 L音色转换欺骗攻击的过程。作为欺骗攻击的研究涉及到语音转换与说话人确认,我们期待为三个方面:(一)实用性和有效性,使用语音转换做一个欺骗攻击。 (二)说话人确认系统在语音转换攻击的漏洞。 (C)的真实数据进行语音转换攻击实验设置的设计。一)评价指标在说话人确认,测试样品的决定或审判属于四个类别之一,如表1。如果提交的发言者身份诺特测试样本相匹配的要求保护音箱,那么我们把它称为一个真正的考验;否则,冒名顶替者的考验。如果一个真正的测试被拒绝作为一个骗子,那么它是一个漏检或误拒绝的

28、决定;同样,如果impos-器测试被接受作为一个真正的音箱,那么它是虚惊一场还是假的验收。的相等错误率(EER)是一种常见的评价尺度,以平衡错误接受率(FAR)和错误拒绝率(FRR)。能效比是优化扬声器验证系统流行的搜索标准之一。在语音转换欺骗情形中,攻击者试图使用语音转换技术修改他/她的声音听起来像一个真正的目标说话者以欺骗扬声器验证系统。语音转换欺骗的目的是为了欺骗扬声器验证系统作为一个结果,增加容积率。因此,FAR是说话人确认系统下的语音转换攻击的一个很好的脆弱性指标。在实验中,如果真正试验是保持相同,增加的容积率将导致增加EERS。因此,它语音转换与说话人确认7图。 4.插图在过去的研

29、究中使用的脆弱性评估框架。图中涉及到三种试验:(1)真正的演讲; (二)冒名顶替讲话; (三)转变的讲话。 (c)是(b)的转换后的版本。 (a)及(b)作出一个标准的扬声器验证测试,而(一)和(c)进行欺骗的测试。表1.四类判决前扬声器验证。决策接受拒绝真正的测试正确接受小姐的检测冒名顶替测试误报正确甩很容易理解,大多数过去的研究中同时使用EER和FAR作为评价指标来衡量说话人确认系统对语音转换欺骗漏洞。B)数据库设计在thepast研究中,几种不同的数据集已被用来提供下音质转换攻击的系统性能的一个客观的评价。有在数据集的设计一些相似之处和它们之间的实验方案。在本文中,我们使用90的数据集作

30、为一个案例研究,显示了常用的协议在设计欺骗数据集。该数据集是基于美国国家标准与技术研究所的说话人识别评估(NIST SRE)2006的核心任务,即1conv4w- 1conv4w。在大多数过去的研究中所使用的共同框架是代表在图从astan-准的说话人确认实验4。不同的欺骗攻击实验,一般有3种试验:正品,零努力骗子,欺骗试验。如果是真正的和零努力冒名顶替试验是直接从原来的核心任务,1conv4w-1conv4w选择。对于每一个目标说话人模型的训练数据也是一个子集的核心任务。为了产生欺骗审判中,攻击者和它们对应的目标真正的扬声器上的第一选择。然后,从NIST SRE 2006年数据库3conv4w

31、和8conv4w培训段中的数据被用来估算转换函数每个冒名顶替目标扬声器对。最后,每个零努力冒名顶替试验是通过转换功能传递给产生其相应的伪造的审判。值得注意的是,伪造试验次数是完全一样的零努力冒名顶替试验,和真正的试验保持不变,因为在原来的测试。在欺骗攻击实验90(VC =语音转换)表2子集的NIST SRE 2006年核心任务。基准测试欺骗测试独特的扬声器504 504正版试验3978 3978冒名顶替试验2782 0欺骗性试验(通过VC冒名顶替试验)0 2782在实验中,真正的考验和零努力冒名顶替者的审判混合作为基准测试,而同真正的考验和欺骗性的审判混合作为欺骗的测试。以这种方式,在EERS

32、和容积率方面的基线结果与欺骗结果媲美;进一步更,具有这样的比较,根据语音转换攻击说话者检验的脆弱性可以进行评估和预测。在的情况下研究中使用试验的统计表示在表2,本设置可能不同于实际的现实世界的场景,现场关税或试验和欺骗试验混合在一起,但它使我们能够进行极端不利的条件下进行分析研究。C)试验许多研究已进行了评估讲话者校验系统的下音质转换攻击的脆弱性。早期的工作涉及GMM-UBM说话人确认系统。一个GMM-UBM说话人确认系统的脆弱性95首次进行了评估。在YOHO语料库包括138音箱采用了设计欺骗数据集。实验表明,从1.45 FAR增加到基线到86.1作为音质转换攻击的结果。在文献96中,GMM-

33、UBM的说话人确认系统的漏洞被利用的NIST SRE 2004年的数据集进行评估。实验结果表明,基线EER和FAR从两个16增加到26和超过40,分别作为音质转换欺骗的结果。文献97的工作评估下的语音转换攻击GMM-UBM系统的脆弱性,以及欺骗攻击进行了模拟高斯相关滤波语音转换方法,它转向攻击者的频谱形状朝,真正的目标音箱。报告了在NIST SRE 2005数据库的实验结果表明,基线能效比和FAR从两个8分别增加至超过60和100,。注意表3.语音转换欺骗攻击研究综述(TO,文本无关的识别; TD,文本有关)。例如特征提取的说话人确认系统和扬声器模拟,假设在实验中。使用相同的语音转换方法,在9

34、1,作者评价了GMM-UBM verifica-化系统上都NIST SRE 2005年和NIST SRE 2006年数据库。该EERS从8.54和6.612005年和2006年的数据库增加到35.41和28.07在NIST SRE,分别tively。从不同97,在91工作中不承担说话人确认系统的任何先验信息。除了theGMM-UBMsystems,文献93和90,国家的最先进的六喇叭verifica-化系统的弱点在相同的语音转换的攻击进行了评估。在欺骗攻击了模拟的拔节密度高斯混合模型(JD-GMM)的语音转换方法。实验结果表明,EERS增加多于两个时间sover那些对所有文本无关系统的基线线路

35、。能效比和JFA系统的FAR从两个3.24增加到7.61和17.33,分别和最健壮PLDA系统的能效比和FAR从两个2.99增加到11.18和41.25分别。在EER和FAR这种增加是由于分类器评分的移位作为音质转换攻击的结果,如在图呈现。 6,清楚地观察到,经过语音转换进攻,冒名顶替者的审判“的分数分布走向了真正的审判。不过在文本无关的ASV的背景下,其他工作相关的语音转换包括攻击被称为人工信号。有人指出,在92和98认为转换讲话一定很短的间隔取得了非常高的分数或可能性。这样的时间间隔并不代表理解的语言,但仍然是有效的缺乏任何形式的语音质量评估过未来ASV系统。优化与遗传算法的人工信号被证明

36、来自8.5to几乎80的GMM-UBM系统,并从4.8几乎65的因子分析(FA)系统惹的增加能效比。文献89的研究工作,国家的最先进的几个文本相关的系统,即I-载体,GMM-NAP和HMM-NAP系统的脆弱性。在这三个系统,HMM的NAP所采用的说话者无关隐马尔可夫模型,而不是一个GMM捕捉时间信息。结果表明,音质转换挑起增加在所有的三个系统的EERS和容积率。具体地说,HMM-NAP系统的FAR从两个1-36增加。表3给出上述欺骗研究的总结。即使有些方法语音转换产生演讲清晰可闻文物24,34,99,表3显示,所有挑起跨越各种不同的ASV系统显著增加在远东。 Figure5呈现谱图和冒名顶替者

37、的语音,语音转换后冒名顶替者的演讲,和真正的语音共振峰道的比较。它表明,作为音质转换结果,冒名顶替语音移向该真正扬声器。这样的言论或功能转移解释了分数转换和FAR增加的语音转换欺骗的结果。五,防欺骗攻击研究如图第四节,大多数说话人确认系统的能效比性能下降明显下语音转换欺骗攻击。所以这是必要开发防欺骗措施以加强说话者检验系统的安全性。制定了欺骗的证据说话人确认系统的关键是两个折叠。一是具有独特的功能和型号的语音转换技术不能轻易重现26音箱的特点,51。另一种是,以检测该很长的带语音转换100阿尔季事实,即设计一种对策为防欺骗。在本节中,我们回顾在转换后的语音检测的说话人确认系统的语音转换欺骗脸上

38、的形式设计对策过去的努力。我们已经看到,检测到语音转换或合成过程中引入ARTI事实,成功的技术语音转换与说话人确认9时间(s)频率(Hz)冒名顶替的讲话0 0.5 1 1.5 2 2.5 3 3.5 0100020003000400050000 0.5 1 1.5 2 2.5 3 3.5 010002000300040005000Time (s)Frequency (Hz)Impostor speechTime (s)Frequency (Hz)Impostor speech after voice conversion0 0.5 1 1.5 2 2.5 3 3.5 0100020003000

39、400050000 0.5 1 1.5 2 2.5 3 3.5 010002000300040005000Time (s)Frequency (Hz)Impostor speech after voice conversionTime (s)Frequency (Hz)Genuine speech0 0.5 1 1.5 2 2.5 3 3.5 0100020003000400050000 0.5 1 1.5 2 2.5 3 3.5 010002000300040005000Time (s)Frequency (Hz)Genuine speech图5。语音转换欺骗一个例证。攻击者试图使用语音转换

40、却将他/她的声音(上图),以抵御目标真正的说话人的声音(底部)和修改后的话音(中)。从谱图(左列)和共振峰轨迹(右列),它表明语音转换之后,该冒名顶替的讲话更接近目标真正讲话者的语音。这解释得分移位的现象作为音质转换欺骗的结果。 流程。在100,Cosinenormalized阶段(COS相)和修改后的群延迟阶段提出(MGD相)功能,以检测转换后的讲话。它们由事实,大多数声码器使用的最小相位,而不是原来的相位来重建语音信号激励。我们注意到,最声码器假定人的听觉并不森sitive到相位信息,和合成语音信号时,因而相位信息将被丢弃。作为MGD相功能不仅包含相位信息,而且幅度信息,它是对声

41、码器输出敏感。图7给出了MGD谱图的一个例子。它清楚地观察到原始和转换的语音信号之间的MGD分光克是不同的。上NIST SRE 2006数据库的实验报告,得到5.95和2.35利用余弦相和MGD相,分别确认了基于相位的检测器的有效性的检测能效比。的MGD-基于相位的检测器,用说话者确认系统,尤其GMM-JFA和i-矢量PLDA系统防欺骗集成,在90。图8给出一个结合转换的语音检测器作为对欺骗攻击的明确对策的一个例子。两个转基因微生物是从天然和经转换的语音训练的,分别和基于对数似然比被做了天然或转换后的语音判断。报告了在NIST SRE 2006的实验结果证实了MGD相系检测器的有效性。转换后的

42、语音探测器可以从17.36和19.29减少法尔斯既0.0对GMM-JFA和PLDA系统,分别在GMM的语音00.0050.010.0150.020.025Score归概率通过VC真正的冒名顶替冒名顶替图。 6.分数分布前后语音转换攻击。转换欺骗,从31.54和41.25减少容积率至1.64和1.71对于GMM-JFA和PLDA系统,分别在单元选择的语音CON-版本攻击面。有趣的是,这种检测器工作良好的欺骗攻击面,它也不会影响非零努力欺骗或正常真正测试面上的说话者确认性能。在98,一个长期动态特性,它提取在发声级,提出以捕获用于检测转换的语音发声级语音变化。实验结果的NISTSRE2005显示出

43、这样一个长期特征的效力在区分经转换或所谓的人工10至正武和海州丽原版的时间(s)频率(kHz)0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 280Time (s)Frequency (kHz)Converted0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 280Time (s)Frequency (kHz)Difference (Original Converted)0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 280图。 7. MGD谱图的一个例子。的MGD相位特征被从这样的谱图,而不是幅度谱图萃取。上图:原始语音

44、信号的频谱MGD。中东:相应的转换语音信号的频谱MGD。底部:原始和转换的MGD谱图之间的差异。图。 8.图说话者检验的用抗欺骗转换语音检测器90(MGD =改性群延迟)。讲话从自然的人类语言。更具体地讲,anEERof0.0was实现嚣转换的语音检测任务。这是事实,语音变化变小,如果语音转换系统遭受过度平滑。但是,全球变化(GV)增强为文献24是能够恢复的更好的语音quality.It讲话变化会很有意思toree计价的GV增强的语音这样的长期动态特性的影响iveness。目前,在分析合成技术extract- ING特征表示和重建可听语音信号上操作的短期特征的水平,例如5-15毫秒;因此,一些

45、文物的介绍 - duced在时间域中。在这种arti-事实,时间调制特性,幅度和相位调制的功能之后,提出了在101,以检测这是通过话音编码技术产生转换的语音。这项工作中假定没有特定的语音转换方法需要设计的检测,只利用拷贝合成语音。使用语音分析模块从一个自然语音信号中提取fea- TURE表示,然后通过在华尔街日报(进行匹配vocodertoreconstructanaudible讲话signal.Theexper- iments通过这些功能表现获得副本合成语音WSJ0 + WSJ1 )数据库显示,调制基于特征的探测器化,在合成语音检测任务完成的0.89的能效比,而基准MGD相特征给出了1.25

46、的能效比。图9示出的方式来提取调制特征。频谱图,它可以是一个功率频谱或一个语音转换与说话人确认11图。 9.插图的一种方式,从频谱图中提取调制功能。下图是从101通过。MGD谱图,首先被分成重叠短段,例如50帧段具有20帧偏移。然后,滤波器组被施加到频谱段,以获得滤波器组系数。此后,段级MVN被施加到滤波器组trajecto-里斯正常化的均值和方差为零和单元,分别。接下来,快速傅立叶变换(FFT)被采用来转换滤波器组轨迹成调制光谱。从每个滤波器组轨迹调制频谱堆叠成超向量,它经历主分量分析(PCA)的维数降低。最后,低维压缩功能被用作调制向量。同时,调制补偿被调查的语音合成质量更好102。因此,

47、如果调制补偿技术工作良好的调制特性为基础的检测器可能会被抵消。另外需要注意的是要充分理解的调制特性在更先进的合成技术的范围内的效率。在103,局部二进制模式(LBP)提出了反欺骗分析功能。该LBP分析已广泛应用于人脸识别纹理分析104,和存活检测105。该LBP特征是一种spectrotemporal特征,考虑到语音特征矢量的序列中的本地动力学。报告了在NIST SRE 2006数据库的阳子集的实验结果表明,该LBP特征实现在tegrating与FA说话者确认系统中的LBP基于计数器度量8在转换语音检测task.By一个能效比,对FAR减小从54to4.3in语音转换进攻面前。注意,基准性能是1。在103中提出的LBP-基于对策延长至1级分类器中106。在工作中,该LBP特征是从天然人类语音萃取,nusinga oneclassSVM totraina 1 classclassifier来区别天然和转换的语音。在NIST SRE 2006数据库进行的实验中显示,LBP-基于1级分类是能够实现的5的能效比在转换后的语音检测任务,而相应的二类别SVM分类给出0-5的能效比。一类对策降低了的i-矢量说话者检验系统的FAR从55中的语音转换spoofing.TheLBP-basedcoun- termeasure面对4.1假定在转换过程中的自然纹理失真;然而,如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论