




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一种基于高斯混合模型的说话人识别的有效评分算法摘要:这篇文章提出了一个新的算法,该算法用以降低识别一个用高斯混合说话人模型框架的识别方法的计算复杂度。应用于整个观察序列是已知的,我们举例说明了不可能的说话人模型的快速精简可以通过记录观测向量时间的序列来更新每个说话人模型的累积概率。整体的方法是集成到一个光束的搜索策略和用于减少识别说话人的时间,当需要识别的说话人语音信息是从138人的YOHO语料库中提取时,这种方式通过在标准的全搜索方法140的一个因素和标准的光束搜索方法的六倍的一个因素来实现,。一、介绍 通过语音识别说话人的能力在最近的文献中备受关注。说话人识别的应用和认证包括银行电话,计算
2、机安全,以及获得对因特网的安全文件。在基于GMM模型的说话人识别中,该模型被证明与现有的技术相比,能够提供优越的性能。比如说,低至0.7%的错误率已经被报道,该数据是从YOHO语料库采样的总共138个说话人的8千赫语音。然而,由于试验材料的数量和长度的增加,导致进行识别的计算成本也随之大幅增加。这篇文章通过提出的新方法用于降低说话人识别的计算复杂的问题,该方法用光束搜索修剪一新的观测序列重排来实现。二、基于高斯混合模型的说话人识别 在高斯混合模型的说话人识别中,语音用特征化的帧同步观测向量来表示:。典型的帧速率是以10毫秒,三维特征从以每个帧瞬间为中心的重叠分析窗口提取。在识别过程中,该系统由
3、一系列从S模型中提取的说话人的观测向量X来表示。说话人识别由说话人模型决定,该模型发现在说话人中后验概率最大化,设为(1)利用Bayes规则,(1)可以表示为(2)假设每个说话人模型同样是可能的,并指出对所有机型相同,识别任务可以概括为寻找 (3)其中被假定为模拟多变量高斯分布的混合物, ,其中和分别代表混合物质量,均值向量和协方差矩阵第个分布。在式(3)中,观测值被认为是统计独立的,因此时间信息不进行编码的模式。此外,为了避免数值稳定性问题,式(3)使用对数似然计,在一般情况下,使用对角线协方差矩阵产生模拟观测 (4)完整的评价(4)要求显著的计算资源,如果说话人模型的数目或者持续时间的实验
4、材料大,那么会比较准确。为减少计算开销的一种常见方法涉及到使用最近邻的一个近似的可能性,则式(4)变换为 (5)其中 (6)请注意,在混合物相关的常数是完全已知的现有算法运行时,可以预先计算。其他研究也考虑在可能性计算过程中应用波束搜索。在这里,部分和的(5)式在时间中可以用来更新修剪阈值。 (7)其中是一组当前的状态(即未修建时)模型,在时间和是用于定义用户控制的波束宽度的常量时。在处理过程中,对数得分低于的说话人模型将被从搜索中消除。三、算法配方典型的语音处理系统通过校准计算来自重叠窗口部分的数据(20至30ms的顺序)来分析言论,在这期间声道特性被假定固定。帧重叠的过程导致表现出高度相关
5、性的相邻观测结果。在说话人识别的情况下,相邻观测值之间的相关性违反原有的统计独立性假设,并且会导致光束搜索结果效率的下降。这是由于数量有限是信息是从观测向量相比所得,因为它们在说话人声学空间中有相似的位置。因此在加工过程中,许多观测前必须检查不可能说话模型,并将其修剪掉。事实上,我们可能会考虑使用可变帧频来处理这个问题(例如,采样语音观测值往往是在快速光谱变化期间,而很少在缓慢变化光谱期间),我们指出这种做法将会丢失掉在整体决定中有用的数据。同样,我们也考虑的方法是选择的观测值是基于频谱距离准则的(例如,当抽样光谱最后的观测值和当前的观测值之间的距离超过一定的阈值时,我们可以使用)。在此,节省
6、的速度可能会超过频谱距离计算的成本。此外,就像在可变帧速率处理策略的情况下一样可能会丢失信息。这篇文章提出的新方法提供了一个廉价的计算方法,来提高从每个观测值中获得的信息。为了实现这一目标,我们假定整个观测序列是已知,并且考虑重新排列观测的时间序列。正是出于这样的事实,参数序列的顺序不影响式(5)中给出的最终决定,重排序列是基于最大化用于更新式(5)中的连续观测值之间是时间间隔。这里提出的观测重排有两个优点:第一,由于观测序列是重新排序的,在可变帧速率处理情况下不会丢失数据;第二,几乎没有计算开销被要求在已提出的标准下重排观测序列。人们能够想到的最大时间间隔是采样来自不同因素的观测值,它们能够
7、被用来快速采样测试条件下的声学空间。该算法描述如下:第一步:初始化。可以形成一个子集,该子集包含一个选自均匀跨载体间隔向量集的向量。第二步:更新可能性得分中所有未修剪的说话人模型。在更新过程中,假设一个如式(7)中所述的阈值,以消除在说话人模型中低于该阈值的模型。第三步:更新整个观测集。第四步:形成一个由先前元素中找到的最接近中点的采样值构成的子集,比如说:如果两个元素同属于一个集合,那么将其中间元素放入新定义的集合。一次增加变量第五步:重复2-4的步骤,直到一个说话人模型仍未被修剪或者所有的观测向量已经被检查完,从中挑取最有可能的说话人。为了清楚起见,观测矢量重新排序过程的图形说明如图1所示
8、,初步统一采样帧数和总的观察计数()。在这里,是观测向量,首先被用于更新每个说话人模型的对数概率。接下来,剩余的说话人模型用于更新观测向量。最后,剩余模型均用于更新向量 图1 观察序列(A)是标准GMM模型的评分算法的一个例子,在该算法中观测向量根据抵达时间重新排序,(B)使用4)中提出的算法排列观测向量。在(C)中,说话人识别的可能性估分用每个重新排序的观察块来评估(与模型的可能性期间更新修剪) 图2 改善的速度与来自138人YOHO语音库的说话人识别精度的全方位搜索方法有关,(A)为波束搜索最邻近的邻居高斯混合密度评估,(B)为波束搜索最近的邻居高斯混合密度的评价和建议观察重排。在每一种情
9、况下,波束宽度逐步变窄以揭示说话人识别的准确性和算法速度提高之间的权衡。 四、算法评价A、评价语料库的语音特征GMM模型被用于估计YOHO语料库中138个说话人语音(106名男性,32名女性)。要与以前的研究一致,用于计算评价方法的训练与测试条件如2中描述。在这里,每个说话人的训练数据是由数据库中大约6分钟的语音构成。评价数据是由四个组合锁短语构成的10个验证会话(即10个测试,每段测试持续的时间大约是15s)。在模型训练中,语音需要使用一阶有限脉冲响应(FIR)滤波器的形式进行预加重。通过使用以语音活动检测算法为基础的能量来去除低能量帧,这样静音就会被消除。在模型训练中,从20ms重叠窗口中
10、获得每10ms的语音参数。每一帧的参量是由19个梅尔倒谱系数(MFCC)组成的向量5并且归一化帧能量。总体而言,64个高斯混合模型被用于每个说话人模型中。B、实验步骤将四种不同的算法SCE情况的运算速度进行了比较,包括:1)没有用光束搜索的完整的高斯混合密度评价。2)没有用光束搜索的最近邻高斯混合密度估计。3)最近邻的光束搜索。4)由最近邻近似,光束搜索,以及观察重新排序组成的算法。以4)为例,用于初始均匀采样的值被设置为10。对于每个方案,测试令牌的百分比正确地识别了每一秒(以秒为单位测量的CPU时钟)被正确地识别并被记录。CPU时间测量是从评分过程的开始到说话人识别被确定这段过程。使用3)
11、和4)进行模拟,将波束搜索宽度进行调整以揭示说话人识别的精度计算和计算成本之间的一个折衷。C、实验结果基线系统的说话人身份识别的精度是99.3,我们指出这是相同的报告2中是识别精度。在没有光束搜索的情况下,完整的密度评价(如案例1全搜索,该算法需要21465秒是CPU时间在Sun Ultra机上执行整个1380测试方案。对于情况2),利用(6)中所给出的最近邻的近似,ID率保持在99.3,同时提高了1.67倍的速度(12823s的CPU时间)。接下来,我们考虑最近邻密度评价光束搜索,调整光束的宽度以揭示算法速度的权衡与说话人识别精度。这种情况下3)评价结果示于图2中:其中a作为全搜索说话人正确
12、识别率中速度改善的系数,在这里我们可以看到,当搜索速度增长超过基线搜索条件23(933s的CPU时间)这一因素时,说话人ID表现开始迅速下降。然而,利用4)提出的重排序方法,我们在图2(b)中说话人识别率保持在99.3,然而提供的一个因素140(153s的CPU时间)超过全搜索条件改善的速度。超过140的因素,所提出的方法其说话人识别率会逐渐下降。该方法提出了一个可以提高6倍速度的因素(即),超过传统的序贯抽样光束搜索,几乎没有额外的资源需求。五、总结在这篇文章中,我们已经解决了减少一个以高斯混合模型为基础的说话人识别的计算复杂量,需要说明的是观测向量是从重叠分析框架中提取的,与高斯混合模型中
13、数据的假设性独立是相悖的。由于临近观测向量的高程度的相关性,许多观测向量在不可能候选人被剔除之前,必须使用光束搜索机制来更新每个说话人模型的对数似然比。因此,我们认为在时间序列观测向量中的数据是用来快速简化测试条件下的声学空间,这个从该算法中获得的观测向量的信息比传统的对数似然数据更重要。因此,不可能说话人模型从搜索空间中被快速清除掉了,大量地减少了说话人识别算法的计算量。本人提出的观测向量排序被证明可以用于减少搜索时间,利用光束搜索高于通过传统序列抽样六倍额外因素来实现的。该方法易于实现,能够被容易地组合到以高斯模型为基础的系统中,并且不需要额外的开销。参考文献1D.Reynolds and
14、 R.Rose,“Robust text-independent speaker identification using Gaussian mixture speaker models,”IEEE Trans.Speech Audio Processing,vol.3,pp.72-83,1995.2D. Reynolds, “Speaker identification and verfication using Gaussian mixture speaker models,”Speech Commum,vol.17,pp.91-108,1995.3F.Seide, “Fast likelihood computation for continuous-mmixture densities using a tree-based nearest neighbor search,”in Proc.Eurospeech95,Madrid, Spain,vol.2, pp.1079-1082.4J.Campbell, “Testing with the YOHO CD-ROM voice verfication corpus,” in Proc. IEEE ICASSP95,Detroit,MI, 19
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个人代持股的合同
- 房屋买卖合同买方
- 高级会计岗位素养要求试题及答案
- 巧解初级审计师试题及答案
- 建设工程管理要素总结试题及答案
- 建筑工程法律法规案例试题及答案
- 企业在财务整合中的路径选择试题及答案
- 护师考试站稳脚跟试题及答案
- 企业在转型中的财务处理难题试题及答案
- 中级会计考试重要夹心试题及答案归纳
- 医院培训课件:《走进康复》
- 2025届贵州省遵义第四中学高考全国统考预测密卷英语试卷含解析
- 2025年北京市丰台区九年级初三一模物理试卷(含答案)
- 中医内科学胸痹课件
- 2025广西广投临港工业有限公司社会招聘45人笔试参考题库附带答案详解
- 铜川易源电力实业有限责任公司招聘笔试真题2024
- 湖北省武汉市2025届高中毕业生四月调研考试数学试卷及答案(武汉四调)
- 2025年四川省自然资源投资集团有限责任公司招聘笔试参考题库附带答案详解
- 建筑工程中BIM技术应用论文
- 24春国家开放大学《建筑测量》形考任务实验1-6参考答案
- 石子检验报告(共5页)
评论
0/150
提交评论