




已阅读5页,还剩9页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一种具有在线自学习能力的语音端点检测方法文章编号:1002-8684(2009)07-005205一种具有在线自学习能力的语音端点检测方法.论文.王欢良1,29朱习军(1.青岛科技大学信息技术学院,山东青岛266061;2.哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150001)【摘要】传统的语音端点检测方法在低信噪比或不稳定噪声环境下可靠性会急剧下降.提出了一种具有在线自学习能力的语音端点检测方法.采用聚类和散度(divergence)相结合的无监督学习方法来获得初始模型.此方法的最大优点是初始模型的获取不需要任何先验知识,并且模型可在线自动更新以适应环境的变化.在Auraro2数据库上的检测实验显示,与基于能量门限判决的检测方法相比,提出的方法使噪声下的检测性能有了明显提高.【关键词】语音端点检测;高斯模型;聚类;散度【中图分类号】TN912【文献标识码】AASpeechEndpointDetectionMethodWithOnlineSerf-teamingAbfliWANGHuanliang一.ZHUXi-jun(1.SchoolofInformationScienceandTechnology,QingdaoUniversityofScienceandTechnology,QingdaoShandong266061,China;2.SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin150001,China)【Abstract】UnderlowerSNRornostionarynoiseenvironmentstheperformanceoftraditionalspeechendpointdetectionmethodswilldeclinesharply.Anewselflearningbasedendpointdetectionmethodisproposed.Theinitialmodelisobtmnedthroughanunsupervisedlearningmethodbasedoncombiningclusteranddivergencemeasure.Themainadvantageoftheproposedmethodisthatnopriorknowledgeisneededforgettinginitialmodelandthemodelcanautomaticallyupdatetoadaptthechangeoftheenvironmentonline.Intheory,thismethodisindependentonspecificapplicationenvironment.ThedetectionexpefimenonAurora2databaseshowthattheproposedmethodobtainsremarkableimprovementonthedeletionperformanceincomparedwithenergythresholddecisionbaseddetectionmethod.【Keywords】speechendpointdetection;Gaussianmodel;cluster;divergence1引言语音端点检测是指从连续输入的信号中检测出包含语音的信号段,即进行语音/非语音判决.语音检测算法可用于自动语音识别(AutomaticSpeechRecognition,ASR),话者识别(SpeakerIdentification,si),语音增强和语音编码及一些其他应用.在ASR和SI中.对各种环境背景进行准确建模是非常困难的,通过预先移除非语音段.将会最大限度地降低这种不准确建模带来的影响.当非语音在信号流中占有很大比重时,预先移除非语音段将会大大节省计算时间,提高系统效率.此外,对于开放式语音识别系统来说,在连续的音频输入中对语音按照句子进行分段识别很有必要.由此可见,准确的语音端点检测算法将会为语音识别和国妻丝篓生茎箜堂蔓塑话者识别等应用带来很多好处.已有的端点检测方法可分为两大类【?1:基于门限判决的方法和基于统计模型的方法.目前,基于门限判决的方法应用最广泛.其优点是简单直观.语音/非语音的判决只依赖于预先设置的门限21.但是,最佳门限值的获得需要很多的先验知识和数据.在低信噪比(SNR)或不稳定噪声环境下,门限决策方法的可靠性将急剧下降.如何根据环境自动确定最佳门限仍然是门限决策方法面临的一个难题3】.基于统计方法的好处是决策不依赖于预设的门限,而是根据模型的似然度来进行判决.但其性能受模型与环境的匹配程度影响很大.无论采用哪种端点检测方法,不受环境变化影响的最好方法就是在不依赖任何先验知识的情况下,能学得适合当前环境的最佳模型或最佳门限.笔者提出了一种新的具有在线自学习能力的语音端点检测方法.这种方法用2个高斯模型(GaussianModel,GM)分别对语音和背景建模,通过比较其对数似然度来进行语音/背景判决.这种方法可在没有任何先验知识的情况下,在线地学得语音/背景模型的参数.并在检测过程中不断进行自动更新,从而可更好地适应环境的变化.为了可靠地获得语音/背景的初始模型,笔者研究了2种模型初始化方法:基于初始背景假设的模型初始化,基于聚类和散度相结合的模型初始化.最后采用一个4状态迁移图来对检测结果进行平滑.2系统框架图1示出了整个系统的框架结构.系统主要由4个部分构成:模型初始化,模型自适应,决策和平滑.输入检测l咆图l系统框架模型自适应2.1语音,背景模型初始化首先对初始输入信号段进行分类,如果初始信号段既包含语音又包含背景,则根据聚类结果来训练初始模型.为了利用尽可能少的待检测数据.快速获得较可靠的初始模型,笔者提出了2种解决方法.2.1.1基于初始背景假设的初始化这种方法基于一个前提假设:待检测信号的起始部分至少有帧(在后面的实验中,设N=30)都是连续的背景.据此,可估计出一个较可靠的能量门限来检测语音的出现.具体的初始化算法为:Step1:把开始的帧信号存人背景缓存.并初始化背景模型.Step2:估计2个能量门限Thrd_L+bgell(1)en,一,Thrd_H枷(2)式中,jt-en和:分别为背景模型能量维的均值和方差;为预先给定的常数.Step3:获取下一帧信号.利用Thrd_L和Thrd_H进行基于能量门限判决的端点检测21.如果是语音,则6童墼(v)响响0/放人语音缓存:如果是背景,则放入背景缓存.Step4:如果语音缓存中的语音帧数达到预设的帧数(在后面的实验中,设M=20),则估计初始语音模型,并重新估计背景模型,初始化结束;否则,转到Step3.这种方法比较简单.但其性能完全依赖于前面的假设和2个预设参数和口.在满足前提假设的情况下,如果SNR较高,则该方法较可靠.但若前提假设不成立或在SNR较低和噪声不稳定的环境下,该方法会变得很不可靠.2.1.2基于聚类和散度相结合的无监督初始化散度是一种常用的距离测度,被用来衡量2个概率统计模型的相似性61.2个高斯分布模型的散度dg)=专trI()+一21I(3)式中和g为2个高斯概率密度函数,Hf-N,),g-N(It,乏).如果2个高斯分布很相近,则其散度值就很小;反之,很大.首先对一段信号进行2类聚类,根据聚类结果可以估计2类的高斯概率密度函数.然后计算这2个高斯分布之间的散度值.如果这段信号只包含背景,2个分布就很相近,散度值一定较小;如果既包含语音又包含背景.2个分布差异就较大.散度值一定较大.这是一种无监督的初始化.比基于初始背景假设的初始化方法更为适用.具体算法为:Stepl:接收初始输入信号,放入聚类缓存,直到缓存满.Step2:应用K-means聚类方法(或其他聚类方法),把聚类缓存中的数据聚为2类,并根据聚类结果估计2个高斯分布厂和g.Step3:根据式(3)计算2个高斯分布的散度值:d(f,g).Step4:如果dg)小于给定门限,则从聚类缓存中移出一半数据,转入Stepl;否则,认为这段信号同时包含语音和背景.把能量均值大的高斯分布作为语音模型,小的作为背景模型,初始化结束.在获得初始模型之后.重新从信号输入的起始时刻开始进行端点检测.由于错误的初始模型将会导致整个检测任务失败.因此在使用这2种初始化方法时应遵循如下原则:宁可遗漏少量语音帧.也决不能把初始背景段误识为语音背景混合段.所以,在设置散度值判决门限的时候,应尽可能设置得高一些.查篓童生蔓盟查蔓!塑匡语音技术6响响02.2模型在线自适应训练设置2个缓存队列分别来存放语音帧和背景帧,称为语音缓存和背景缓存.如果新放人的数据超过帧(在后面实验中设置N=5),则用缓存中的全部数据重新训练相应的模型.由于缓存足够大,并且模型参数相对较少,因此采用最大似然(MaximumLikelihood,ML)准则就可训练获得较为可靠的模型参数.从而不断自适应地更新模型.为减少异常检测结果的干扰,必须确保放人语音,背景缓存的数据就是语音和背景帧.因此规定只有那些在4状态迁移图中处于语音状态和背景状态的信号帧才可放入相应的数据缓存.2.3决策在检测阶段,使用对数似然度比来做决策.假定)和bg)分别表示特征矢量在语音模型和背景模型上的似然度,则其对数似然度比LR(x)=logL(x)l-logL)】(4)然后,用下面的准则进行语音/背景判决,f语音,)0EI背景.其他(5)2.4平滑如果用0代表背景.用1代表语音,则检测结果为0和1的序列.通常语音和背景都应该是连续的且至少持续一定的时间.检测结果中0或1的连续序列如果小于一定长度,通常属于错误的检测结果,被称为异常子序列.为了消除这些异常子序列,使检测结果更为准确,采用一个4状态迁移图来进行结果平滑,其拓扑结构如图2所示.团堕查蕉生蔓箜堂蔓塑图2中的圆圈表示状态.有向弧表示状态转移,弧上的表达式表示转移条件.4种状态,sp,Pt_St和Pt_Ed分别表示背景状态,语音状态,从背景转移到语音的过渡状态和从语音转移到背景的过渡状态.St_Cnt和Ed_Cnt是2个计数器,分别用来统计在状态Pt_St和状态PtEd上驻留的帧数.ThdStFrmNum和Thd_Ed_FrmNum是2个预先给定的阈值,分别用来控制在状态Pt_St和状态上驻留的最大帧数.Lk_Sp和Lk_Bg分别为待检测信号在语音和背景模型上的对数似然度.4状态迁移图平滑方法的优点为:(1)通过参数ThdStFrmNum和d_d_mNum可灵活控制语音和背景的最小持续时间.其中,语音段至少持续ThdStFrmNum帧,而背景段至少持续Thd.EdFrmNum帧.(2)语音的起始点和结束点通过延迟判决策略来确定.起始点为从进入Sp状态的时刻回退帧;结束点为从进入取状态的时刻回退帧.通过参数和可灵活控制检测性能.(默认r_d_一FrmNum,M=ThdEdFrmNum.)3实验评估3.1测试数据库和参数设置在Aurora2语料库的trainset上进行语音端点检测实验.在这个测试集中,共有20个子集,每个子集包含422句英文数字串71.共有4种噪声类型,5种不同的SNR.4种噪声分别是郊外火车噪声,交谈噪声,汽车噪声和展览厅噪声.5种SNR分别为20dB,15dB,10dB,5dB和干净情况(clean).采用12维MFCC的一阶差分,对数能量及其一阶差分共14维作为端点检测的特征81.语音缓存,背景缓存和聚类缓存大小都设置为200帧.设置ThdStFrmNum=l0,ThdEdFrmNum=20.由于每个句子的起始背景段都不超过100帧,为了测试笔者提出的模型初始化方法的性能,对语料作如下预处理:从每个子集中选取一半的句子,在每个句子的起始添加200帧的背景段.这些背景段由该句子起始的背景帧多次复制构成.-3.2评估标准首先在Aurora2的干净语料上,基于语音识别模型用强制对齐方法获得初始的参考分段,然后据此为语音和背景分别训练2个HMM,最后采用它们的识别结果作为标准参考标注.根据标准参考标注,总的信号帧数为2312958.其中语音帧数为1050832,背景帧数为1262126,总的端点数目为19070(以上数据包括了200帧背景帧).采用端点检测的准确率(AccuracyRateofdetection,AR)作为性能评测的标准.定义AR=堑豁糕藉堑旦塑旦(6)设给定误差参数e,和e2(帧数),且e,e:,则对于每个参考端点:如果它是语音起始点.s,则允许的误差范围为(.sel,S+e2);如果它是语音结束点E,则允许的误差范围为(Ee2,E+e1).3.3实验结果3.3.1信号初始段的分类文献31提出首先采用模糊聚类和贝叶斯信息准则(BayesInformationCriteria,BIC)相结合的方法对信号段进行分类,然后在线估计合适的能量门限,后面简称该方法为基于BIC的能量门限在线估计法.实验对用BIC方法和散度方法进行初始段分类的性能进行比较.基于散度的分类门限通过一个验证集(DevelopmentSet)获得,对相同的SNR设置相同的门限.图3给出了2种方法在不同s下的分类性能.分类正确率为4种噪声情况下的所有相同SNR数据的平均值.从图3中可以看出.聚类和散度相结合方法的分类性能在噪声情况下要明显优于聚类和BIC相结合的方法.而在干净情况下,2种方法的性能几乎一样.这表明.聚类和散度相结合的初始段分类方法具有更好的噪声鲁棒性.3.3.2各种SNR情况下的端点检测性能采用基于初始背景假设的初始化方法和基于聚类和散度相结合的初始化方法,进行语音端点检测实验,同时和基于BIC的能量门限在线估计法进行比较.把64种噪声下相同SNR数据的检测结果进行平均作为最终结果.实验结果如图4所示,其中性能评测时采用的误差参数为(10,l0).从图4中可以看到.在噪声情况下,笔者提出的自学习方法的性能要优于基于BIC的能量门限在线估计法.而基于聚类和散度相结合的初始化方法的性能又要优于基于初始背景假设的初始化方法.干净情况下,基于BIC的能量门限在线估计法超过了笔者提出的方法.这是因为在干净情况下,能量是最佳的端点检测特征.加入其他特征,反而会干扰最后的决策.图5示出了聚类和散度相结合的自学习检测方法在不同误差参数下的准确率变化情况.器露趔图5不同允许误差范围下的检测精度的变化从图5中可以看到.随着允许误差范围的变大,检测准确率在不断提高.这反映了这样2个问题:(1)参考端点标注不是非常准确;(2)检测算法难以做到没有误差.对于语音识别应用来说.10帧左右的偏差是可以忍受的.从图5还可看到,无论允许误差范围多大,SNR对检测性能的影响基本是一致的.也就是说.SNR越低.检测准确率就越低.3.3.3可视化检测结果从4种噪声数据中分别提取1个句子.分别为5dB郊外火车噪声下的发音56783,10dB交谈噪声查丝笪生蔓塑鲞蔓塑国卯如加n语音技术6响0下的发音632,5dB汽车噪声下的发音785和10dB展览厅噪声下的发音169.然后把这4句发音头尾连接,形成一个噪声类型变化,SNR也变化情况下的发音.图6示出了可视化检测结果.0-馨-0.0l23456采样点数/104(a)语音波形(发音内容和环境噪声)O1.Oo.s10o2o03O040O50060o70o8oo帧数(b)时域对数能量的变化01o020o3O040050o6o07008oo帧数(C)采用聚类和散度相结合的自学习检浏方法的端点检测结果1.O.一5O1oo20o3O040050060o70o80o帧数(d)采用4状态迁移图的平滑结果1.00.sl一Jl;f1fIIjo10o2o03oo40050060o700800帧数(e)采用基于BIC的能量门限在线估计法获得的检测结果图6对一段不稳定噪声下信号进行端点检测的可视化结果从图6可以看到.在噪声类型和SNR不断变化的情况下.笔者提出的方法仍可获得较为准确的检测结果,其准确性明显优于基于BIC的能量门限在线估计法.同时也可看到,在初始的检测结果中,存在很多的异常判决,直接作为语音端点是无法接受的.在通过一个4状态迁移图平滑之后.检测结果就变得较为规整和准确.4结论笔者提出了一种具有在线自学习能力的语音端点检测算法,可提高低SNR环境下的检测性能.在不需I56I?声接一2009年第33卷第07期要任何先验知识和数据的情况下,该方法可根据应用环境自动学习合适的模型参数,并在检测过程中可不断更新模型参数,因此具有较好的环境适应性.在Aurora2数据库上的端点检测实验显示.在噪声情况下,笔者提出的方法要明显优于基于BIC的能量门限在线估计法.基于聚类和散度相结合的模型初始化方法要优于基于初始背景假设的模型初始化方法.在不稳定噪声环境下,所提方法也表现出较好的检测性能.参考文献【l】GAZORS,ZHANGW.AsoftvoiceactivitydetectorbasedonaLaplacian-Gaussianmodel【J】.IEEETrans.onAcoustic,Voice,SignalProcessing,2003,l1(5):498505.【2】LAMELLF,RABINERAE,ROSENBERGAE,eta1.AnimprovedendpointdetectorforisolatedwordrecognitionJ.IEEETrans.OnAcoustic,Voice,SignalProcessing,1981,8:777-785.3】TIANY,WUJ,WANGZY,eta1.FuzzyclusteringandBayesianinformationcriterionbasedthresholdestimationforrobustvoiceactivitydetectionC/Proceedin
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 谈礼貌课件教学课件
- 诺贝尔瓷砖产品知识培训课件
- 2025年建筑工地保安兼职服务合同范本
- 2025版森林资源承包管理与利用合同
- 2025年度综合交通枢纽用地土地平整施工合同
- 2025年度居间合同范本:专业居间服务协议
- 2025版皮毛原料绿色采购与供应链管理合同
- 2025版消防水电工程消防安全检测服务合同
- 2025版托盘制造企业产品认证与质量管理体系合同
- 2025版挖掘机操作人员培训及考核合同范本
- 化学工程与工艺专业人才培养方案
- 《家庭营养配餐》课件
- 产后恢复-中级-1738220692478
- 二零二五版森林抚育项目苗木种植及管护合同2篇
- 药物作用机理创新-洞察分析
- 毕业设计(论文)-口腔助手微信小程序的设计与实现
- ICH《M10:生物分析方法验证及样品分析》
- 电力金具选型手册输电线路金具选型
- 初中开学第一课安全课件
- 2025年企业知识产权管理高效执行方案全面贯标体系实操模板集锦
- 鼻咽通气管日常护理
评论
0/150
提交评论