




已阅读5页,还剩66页未读, 继续免费阅读
(计算机软件与理论专业论文)对话语音中的目标说话人检测和定位.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中山大学硕士学位论文 对话语音中的目标说话人检测和定位 对话语音中的目标说话人检测和定位 计算机软件与理论 硕士生:吕兰兰 指导教师:欧贵文副教授 摘要 本文主要研究在对话语音中检测目标说话人,并定位目标说话人语音的问 题。目标说话人检测,是指在一段多个人连续说话的对话语音中判断目标说话 人是否出现;目标说话人定位,是指在目标说话人检测的基础上,当检测到目 标说话人在对话语音中出现时,对目标说话人在对话语音中出现的具体的时间 段进行估计。本文的研究基于事先已经知道目标说话人这样一个前提。 目前,对话语音中的目标说话人检测和定位问题,主要是采用以下方法来 解决。首先,检测出对话语音中的说话人跳变点,将不同说话人的语音分割开 来;然后,对分割后的语音段进行说话人聚类处理;最后,使用单个说话人识 别技术在对话语音中识别出目标说话人的语音,从而达到在对话语音中检测和 定位目标说话人的目的。我们将这种基于说话入的语音分割、聚类以及说话人 识别的方法称为硬分割。本文在研究和总结前人成果的基础上,针对硬分割的 缺陷,结合实际情况,提出了单帧对数似然比算法。相对于硬分割,本文将这 种基于单帧对数似然比算法进行对话语音中的目标说话人检测和定位的方法称 为软分割。 与硬分割相比,软分割主要有以下几个优点:第一,充分利用了已知目标 说话人这个先验知识,将目标说话人检测问题作为解决目标说话人定位问题的 前提和基础,只有在对话语音中检测到目标说话人的情况下才进行目标说话人 定位。因此,软分割方法更为简洁、高效。第二,在参与对话的说话人个数未 知的情况下,由于不需要对对话语音进行基于说话人跳变点的细致分割,因此 在这种情况下软分割仍然适用;而硬分割在这种情况下因无法进行准确的说话 人聚类而不再适用。 实验表明,从总体上来说,软分割的性能要好于硬分割。而且,软分割的 实用性、实时性以及鲁棒性均要好于硬分割。 关键词:说话人检测;说话人定位;多个说话人;高斯混合模型 中山大学硕士学位论文 对话语音中的目标说话人检测和定位 d e t e c t i o na n d 7 i y a c k i n go f1 a r j g e ts p e a k e ri nac o n v e i _ s a t i o n c o m p u t e rs o f t 协ea n d1 1 l e o r y n a m e :l vl a n l 粕 s u p e i s o r :o ug u i w e na s s o c i a t ep r o f c s s o r a b s t r a c t t h i sp a p e ff o c i l s e so nt h ep r o b l e mo fd e t c c t i o na l i dt r a c l 【i n go ft a r g e ts p e a k c ri l i a0 0 n v e r 鼢t i o n s p c a k e rd e t e c t i o nm 忙r st oj u d g cw h e t h e rt h et a r g e ts p e a k c fw 勰 p r e n t i nac o n v c r s a t i o ni w h i c h 枷y b c 咖l t i p l es p e a k e r ss p c a ks u c c e s s i v c l y ; s p e a k e rt r a c k i n gr e f e r st od c t e 咖m ct h cd e t a n e dt i m ei n t e r v a lo ft h et a r g e ts p e a k c r o nt h eb a s i so fs p e a l 【c rd c t e c t i o n t h er e s e a i c ho ft h i sp a p e fr e l i c so ns u c ha p r e r e q u i s i t et h a tw eh a v eo w n e dt l l es p e e c ho f t h ct a r g e ts p c a k e rb c f b r c h a n d a tp r e s e n t ,p e o p l cu 鲫a n ys e t t l ct h i sp r o b l e ma sf o l l o w s :f i r s to fa l l ,d e t e c tt h c s p e a k e rc h a n g cp o i n t si l it h cc o n v e r s a t i o n 卸ds c g m e n tt h ec o n v e f s a t i o na c r d 如gt o d i f i c r c ms p e a k c 塔;a r e r w a r d s ,c l u s t e rt h es p e ec ! h g m e n t sa c c o r d i i l gt od i 丘b r e m s p e a k e r s ;f i n a l l y ,u t b eu s u a js j l l g l e - s p e a k e fr e c 0 舯i l j o nl 幽l o g y t of c c 0 印_ i z e t b et a r g c ts p ea :k e ri nt h ec o n v e r s a t i o n i nt h i sp a p c r ,w e 栅ed b o v c 砒t h o dw h i c hi s b a s e d 蛐s p e a k e fc h a n g ed e t e c t i o n ,s p c a k c rc i u s t e f 如ga n ds p c a i 。c rr e c o 印i t i o n 船 h a r ds c g m e m a t i o n o nt h cb a s i s0 ft h el a t e s ta o c o m p l i s 协e m si nt l l i sf i c l d ,a i m i l l ga t t h ef h u no fh 缸ds e g m e n t a t i o n ,a dc o m b 如m gw i t ha c t u a l s i t u a t :i o l l ,t h 妞p a p e r a d d r e s san e wa l g o r i t h mo fp e r - 丘a m e1 0 9 l i k e l i h o o dr a t i 0i os c t 【l ct h ep r o b l c i i l r e l a t i v e l yw j t h h 盯ds c g m e n t a t j o n ,w en a m et h cm e t 王l o dw h i c hi sb a s e do nt h e p e r - 丘a m el o g - l 擅e l i h o o dr a t i 0a ss o f ts e g m c m a t i o n c c ) m p a r e dw i | h h a f d s e g m e n t a t j 0 1 l ,s o 矗s e g m e n 妇l j d m a i n l yh a ss e v e f a l a d v a m a g e sa sf o l l o w s :f i r s t l y f ts e g m e m a 曲nf i l yu t i l i st h cp r i o r ik n o w l e d g c o fl ( n o w 如gt h et a r g e ts p e a k c r ;s e c o n d l y ,w h e nt h c u l 玎b e fo fs p e a l e r sw h o p a n i c i p a t ei nt h ec o n v e r 髓t i o ni s 止n o w n ,s o f t g m e n t a t i o ns t mw o r l c sw e l l ,w h i l e h a f ds c g m e n t 砒i o nc a n tw o r ka n ym o f cb e c a u 0 fi l l a “m 砒es p e a k e rc l u s t e r i r 喀; f i n a l l y t h ea l g o r i t h i nc o m p l e x i t yo f f t 辩g m e m a t i o ni s1 0 w e rt 址mt h a to fh a r d s e g m e n t a t i o i l 蛐dt h ep m c c d u r eo fs o f is e g m e m a t i o ni ss i m p l c l t h er e s u l to fe x p e r i m e m si n d i c a t e st h a tt h ep e o r m n c eo fs o ns c g m e n t a t i o ni s m u c hb c t t c rt h 她t h a to fh 盯ds c g m e m a t i o n m 0 r e o v c r ,t h cp r a d i c a b i t y ,r e a l t i m c c h a r a c t e r 柚dm b u s t n c 稿o fs o f ts c g r 眦n t a t i o n 甜es t m n g c rt h 柚t h a t0 f h 盯d s c g m c n t a t i o n k e yw o r d s :s p e a 】【e td c t c c t i o n ;s p e a 】( e rt r a c k i n g ;m u n i s p c a k c r ;g m m 中山大学硕士学位论文对话语音中的目标说话人检测和定位 1 1 研究背景 第1 章引言 在世界范围内,声纹识别技术正广泛应用于诸多领域。截止到去年初,声 纹识别产品的市场占有率为1 5 8 ,仅次于指纹识别和掌形识别。目前,声纹 识别在我国市场尚属启动阶段,其发展空间非常广阔。随着多媒体数据同益广 泛传播,人们对于多媒体信息检索的需求也日益增加。对于音频数据库,除了 字、词和主题,还有一个非常重要的搜索关键字就是说话人的身份。因此提出 了在对话语音中检测和定位目标说话人的问题。 研究对话语音中的目标说话人检测和定位问题,具有广泛的应用意义。 第一,在金融、证券、社保、公安、军队及其他民用安全认证等行业和部 门有着广泛的需求。例如公安部门通过电话录音抓捕罪犯,而可采集到的电话 录音通常是包含多个说话人的对话语音,此时单个说话人识别技术已经不适用。 而对话语音中的目标说话人检测和定位技术则可以很好地解决这个问题。因此, 对话语音中的目标说话人检测和定位技术不仅可以应用于军队安全系统,而且 也可以为破案立功。对话语音中的目标说话人检测和定位技术可以检测出电话 交谈过程中是否有关键说话人出现,继而对交谈的内容进行处理。另外,在通 过电话发出军事指令时,可以对发出命令的人的身份进行确认。对于各种电话 勒索、绑架、电话人身攻击等案件,对话语音中的目标说话人检测和定位技术 可以在一段录音中检测出嫌疑人,从而帮助对嫌疑人的查证。 第二,随着现代信息技术特别是多媒体技术的发展,数据急剧增加,如何 在海量的数据中进行高效检索,方便地提取出某个目标说话人的语音信息对于 中山大学硕士学位论文对话语音中的目标说话人检测和定位 合理利用信息是很重要的。例如,针对广播电视新闻节目数据库中的音频信息, 利用对话语音中的目标说话人检测和定位技术,可以进行说话人自动标注,并 建立说话人索引,从而达到利用这个索引对已有的广播电视新闻节目数据库进 行高效检索的目的。 1 2 研究现状 对话语音中的目标说话人检测和定位问题,通常是通过统计学的方法来解 决的【1 】。为了在一段对话中检测目标说话人和定位目标说话人的语音,通常需 要建立两个模型:一个目标模型和一个背景模型,其中目标模型用来代表目标 说话人,背景模型用来代表不同于目标说话人的其他说话人。由于本文进行研 究的前提是已经知道目标说话人,因此就可以方便地为目标说话人建立目标模 型,并且为其它说话人建立一个通用背景模型。 目前,在单个说话人识别技术中,主要有基于隐马尔科夫模型( h i d d e n m a r k o vm o d e i ,缩写为捌哪) 和高斯混合模型( g 她s s i a nm 扭t u r em o d e l 缩 写为删两种说话人识别方法。相应地,目前国际上在对话语音中的目标说 话人检测和定位的研究上也有以下2 个方向:基于h m m ( 隐马尔科夫模型) 【2 ,3 , 4 】和基于g m m ( 高斯混合模型) 【5 ,6 ,7 8 1 。这两个方向的根本区别在于建立的说 话人概率模型不同。由于训练h m m 需要的较多的说话人语音数据,而且训练 模型所需的时间也较长,因此,本文采用基于g m m 的方法来解决对话语音中 的目标说话人检测和定位问题。 目前,解决对话语音中的目标说话人检测和定位问题,主要有以下几个具 体步骤【9 】。首先,检测出对话语音中的说话人跳变点【1 0 ,1 1 ,l2 ,1 3 】,将不同说 中山大学硕士学位论文对话语音中的目标说话人检测和定位 话人的语音分割开来;然后,对分割后的语音段进行说话人聚类处理【1 4 ,1 5 ,1 6 1 7 ,18 ,1 9 】;最后,使用单个说话人识别技术f 2 0 2 1 】在对话语音中识别出目标说 话人的语音,从而达到在对话语音中检测和定位目标说话人的目的。在本文中, 我们将这种基于说话人的语音分割、聚类以及说话人识别的方法称为硬分割。 硬分割主要存在以下几个缺点:第一,在对话语音中的说话人个数未知的 情况下,无法进行准确的基于说话人的聚类,从而导致这种情况下硬分割不再 适用;第二,在对话语音中包含较多短小语音段时,即说话人跳变比较频繁时, 基于说话人的语音分割算法的性能明显降低,从而导致硬分割的性能较差;第 三,算法复杂度较高,过程比较复杂。 1 3 研究内容 本文主要研究在对话语音中检测目标说话人,并定位目标说话人语音的问 题。对话语音,就是指包含多个说话人声音的语音,例如:会议录音、电话对 话语音、广播电视新闻语音等。目标说话人检测,是指在一段多个人连续说话 的对话语音中判断目标说话人是否出现;目标说话人定位,是指在目标说话人 检测的基础上,当检测到目标说话人在对话语音中出现时,对目标说话人在对 话语音中出现的具体的时间段进行估计。我们将目标说话人在对话语音中出现 的区域称为目标区域。那么,对话语音中的目标说话人定位显然就是要确定目 标区域的起点和终点。本文的研究基于事先已经知道目标说话人这样一个前提。 本文在研究和总结前人成果的基础上,针对硬分割的缺陷,结合实际情况, 提出了单帧对数似然比算法。该算法通过粗略估计目标区域,利用对话语音中 最有可能包含目标说话人的语音段为整个对话语音文件产生一个判决得分,从 中山大学硕士学位论文 对话语音中的目标说话人检洳和定位 而达到在对话语音中进行目标说话人检测的目的。然后,在检测到目标说话人 的情况下,进一步估计目标区域,达到在对话语音中进行目标说话入定位的目 的。相对于硬分割,本文将这种基于单帧对数似然比算法进行对话语音中的目 标说话人检测和定位的方法称为软分割。 与硬分割相比,当目标说话人未在对话语音中出现时,软分割只对目标区 域进行了粗略估计,不仅过程简单,而且算法复杂度要低。实验结果表明。无 论是对话语音中的目标说话人检测,还是对话语音中的目标l ;8 话人定位,软分 割的效果均要好于硬分割。 下文的大致内容如下:第2 章主要介绍了语音特征的提取方法和技术;第 3 章主要介绍了目标模型和背景模型的建立方法;第4 章主要从硬分割和软分 割两个方面介绍了对话语音中的目标说话人检测和定位方法;第5 章简要介绍 了作者所实现的对话语音中的目标说话人检测和定位系统的设计方案和实现细 节;第6 章给出了详细的实验结果,并对实验结果进行了分析和对比,得出结 论,最后对未来的工作进行了展望。 中山大学硕士学位论文对话语音中的目标说话人检测和定位 第2 章特征表示与提取 语音特征提取是指从语音信号波形获得一组能够描述语音信号特征的参数 的过程。特征参数的选择以及提取,对于对话语音中的目标说话人检测和定位 系统至关重要,是系统构建的基础。 一般将语音信号的特征参数分成两类:第一类为时域特征参数,第二类为 频谱特征参数【2 2 】。目前有很多种不同的特征参数,我们必须从中选择一种最 有效的特征参数应用到我们的对话语音中的目标说话人检测和定位系统中去。 语音信号的频谱特征,相对于时域特征,因其随外晃环境的变化较小,更易于 抽出信号的规律性,在语音分析和说话人识别中占重要地位。本章将以i j p c c 和m f c 两类特征的提取为例来具体说明特征提取的方法和过程。 2 1 预处理 一段语音信号转变为特征参数,要经过一系列处理,主要包括以下几个阶 段,如图2 1 所示。 图2 1 特征提取原理图 f i g2 - 1t h e o f y0 ff 髓t l 鹏e x 打a c t i 叩 其中,采样、量化、预加重和加窗均属于语音信号的预处理阶段【2 3 】。 中山大学硕士学位论文对话语音中的目标说话人检测和定位 2 1 1 采样与量化 为了获取一段语音信号的时域波形,首先将语音用麦克风转换为电信号, 再用a 变换器将其转换为离散的数字化采样信号后存入计算机的内存中,最 后将此信好取出并通过绘图程序绘制出来。也就是说,在采样和量化阶段,语 音从连续的模拟信号转换为离散的数字信号。这个转变的过程通常称为“录音”, 是由专门的语音信号处理芯片来完成的,比如在一般的个人电脑里,这个过程 是由声卡来完成的。计算机根据内部的时钟频率,以一定的采样周期t 对语音 信号s o ) 采样,将其离散化为s o ) ,采样周期的选取应根据模拟语音的带宽依 采样定理确定,以避免信号的频域混叠失真。 采样定理:模拟信号经过( a d ) 变换转换为数字信号的过程称之为采样, 信号采样后其频谱产生了周期延拓,每隔一个采样频率正,重复出现一次。为 保证采样后信号的频谱形状不失真,采样频率必须大于信号中最高频率成份的 两倍,这称之为采样定理。 2 1 2 预加重处理 在语音信号的频谱分析中发现,频率越高,谱值越小,当频率提高两倍时, 其功率谱的幅度约下降6 分贝。因此,一般在特征提取之前要对原始语音信号 进行高频预加重,使其高频部分的谱值与中频部分相当。软件实现时,数字滤 波器的z 传递函数为 h 0 ) t 1 一船。1 ( 2 1 ) 其中a 称为预加重系数,可取为1 或比1 稍小的值,本文在实验中a = 0 9 6 。 中山大学硕士学位论文 对话语音中的目标说话人检测和定位 2 1 3 加窗以及窗移 语音信号是一维的非平稳信号。但是,由于语音的形成过程是与发音器官 的运动密切相关的,这种物理运动比起声音振动速度来说要缓慢得多,因此语 音信号常常可以假定为是短时平稳的,即在1 0 2 0 m s 这样的时间段内,其频谱 特性和某些物理特征参量可近似地看作是不变的。这样,我们就可以采用平稳 过程的分析处理方法来处理了。这种时间依赖处理的基本手段,一般是用一个 长度有限的窗序列 w f 彤) 截取一段语音信号来进行分析,并让窗滑动以便分析 任一时刻附近的语音信号。 加窗,是指将语音信号划分为一个一个的短时段,每一短时段称为一帧。 为从语音信号中切取含有n 个样本的语音信号波形,需要用窗函数w ( n ) 乘以原 来的语音信号。最常用的两种窗函数分别是矩形窗和汉明( h a 咖i i l g ) 窗。 矩形窗州。$ 虬姑。 汉婚w 叫n 5 4 地4 6 露旷d 巾菇。1 ( 2 2 ) ( 2 3 ) 在矩形窗中,由于信号在窗边处急剧下降为0 ,使得语音信号的动态变化信 息失真,即所谓的边际突变。而汉明窗则克服了这个困难,信号在汉明窗边际 是缓慢下降的,实际应用中多使用汉明窗。另外,为尽可能不丢失语音信号动 态变化的信息,通常采用滑动窗,使得帧与帧之间存在一定的重叠,称之为窗 移。在实际应用中,窗移通常取为窗长的一半。 在本文的实验中,我们采用了1 6 m s 的窗长,8 m s 的窗移。 中山大学硕士学位论文对话语音中的甘标说话人检测和定位 2 2 端点检测 端点检测是指在一段语音当中检测出话音部分的起点和终点。在语音信号处 理中常常涉及到语音的端点检测问题。例如在移动通信系统的语音终端中,常常 要进行话音激活检测( w 山,v o i c e a c t i v i t yd e t e c l ) ,判断当前是否有语音,若无 语音输入时不编码,这样可以减少发射功率并节省信道资源。又如在语音识别中, 常常需要判断输入信号中哪些部分是语音,哪些部分不是语音,以供后续处理实 用,特别是在孤立词识别系统中,准确检测出每个词的起点和终点对于模板匹配 并提高识别率是相当重要的。 一般来说,要对高信噪比环境下录制的语音鉴别端点是很容易的事情,因为 此时背景噪声的能量远远低于语音能量,所以仅凭能量特征就可以很好地确定语 音的起点和终点。但是在实际应用中很难有这么高的信噪比,在发音开始时的语 音能量与背景噪声能量可比拟时,仅仅根据能量来判决是粗糙的。例如,当语音 的起点和终点都是弱摩擦音、弱爆破音或鼻音等情况时,由于此时的能量很弱, 极易与背景噪声混淆,造成端点检测不精确,其后果是检测出来的语音不完整, 有切音现象。像“三【翰n 】”,如果摩擦音的起点没有准确的检测出来,或者说 判决出来的起点是在的中后部,那么“三”就会变成“簪【瑚】,的发音1 2 4 】。 为了解决这个问题,常常采用多种特征参数综合判决的方法。 一般的端点检测算法常用的参数有短时能量、短时平均过零率、零能比、零 能积等简单的时域参数以及l p c 残差、基音信息等。在背景噪声干扰比较严重的 情况下,除零能比还能保持对元音和噪声较好的区分外,其他的参数已力不从心。 因此,j cj u n q u a l 【2 5 】在1 9 9 4 年提出了一种新的参数,即t f ( t i i i l e f r e q u c n c y , 巾山大学硕士学位论文 对话语音中的目标说话人检测和定位 t f ) 参数。 2 - 2 1 t f 参数 t f 参数的计算原理如图2 2 所示: 时地语音信号 t f 图2 2t f 参数的计算原理图 f i g2 - 2t h e o f y0 fc a l 删l a t i n gt f t f 参数仍然是一个能量参数,但是它不仅统计了语音信号在时域上的有效 能量,还统计了语音信号在频域上2 5 0 比一5 0 0 h z 频率范围内的能量,而且相 加。汉语语音的能量主要集中在元音上,而元音三个共振峰的频率范围主要集 中在2 5 0 k 3 5 0 0 h z 之间。根据t f 参数的计算原理,无论背景噪声的强度如何, 对含噪语音所计算的t f 的谱必然在汉语语音的元音部分形成一个强峰,而在 语音的其它部分和噪声段则很平滑。 图2 3 是针对发音“准备”所计算的t f 值。 中山大学硕士学位论文对话语音中的目标说话人检测和定位 图2 3 发音“准备”的时域波形及t f 曲线 f i 9 2 - 3 皿e o f y o fc a l c i i l a 血9 1 f 由此可见,t f 参数必然能在检测汉语语音的能量集中区时,起到十分显著 的作用。 2 2 2 端点检测算法 端点检测算法共用了4 个参数:短时能量、t f 参数、短时能量的均方根对 数h m s 和短时平均过零率。其中,短时能量用来粗略检测出包含完整话音部分 的信号段,t f 参数用来检测第一音节的能量集中区,短时能量的均方根对数 1 r m s 和短时平均过零率用来精确检测包含辅音的语音起始段。所以整个算法由 三部组成: 步骤1 :用简单的能量参数粗略检测出包含完整话音部分的信号段。在此 之前取噪声参考帧用来求噪声的能量参考值。算法参考了文献【2 0 】。在此过程 中还为后面的检测计算3 个参数:单帧能量的均方根对数值k m s ,单帧过零率 和频域的部分能量。 步骤2 :用t f 参数检测出语音第一音节的能量集中区( 元音部分) 。定义 阈值t h l : t h l 一( e 一一a v e r ) a v e r a ( 2 - 4 ) 中山大学硕士学位论文对话语音中的目标说话人检测和定位 式( 2 4 ) 中,e 一表示第一音节的短时能量的均方根对数l r m s 的最大值,a v c f 是 噪声参考帧的短时能量的均方根对数l f i 璐的平均值,a 是一个常数。将此阈值 应用于各帧的t f 参数,即可检测出第一音节的能量集中区。 步骤3 :从在步骤2 中检测到的能量集中区起点开始前推,按如下过程搜 索语音信号的起始点: ( 1 ) 以能量集中区的起点为起点; ( 2 ) 从原起点前推2 0 m s 作为新的起点; ( 3 ) 若新起点处l r 傩值大于l h 2 则转( 2 ) ,否则继续 ( 4 ) 若新起点前2 0 l i l s 的】r m s 的均值大于t h 3 则转( 2 ) ,否则继续; ( 5 ) 若新起点前2 0 m s 的短时过零率的均值大于如t 则转( 2 ) ,否则继续; ( 6 ) 确定该新起点为话音的起始点,结束。 算法中所用的三个阚值定义如下: t h 2 生 翌+ a v e r ( 2 5 ) b 、 t l l 3 一c a v e r ( 2 6 ) i z d d e 噪声参考帧的过零率( 2 7 ) 式中b 、c 、d 都是常数,e ) 表示取平均。 终点的检测不必遵循这个过程,可直接在步骤1 的检测结果的尾部去掉几 帧后直接作为话音的终点。 图2 4 给出了按以上的3 步端点检测算法对发音“准备”检测出的话音段 的起始点和终点。 中山大学硕士学位论文对话语音中的目标说话人检测和定位 2 3 特征提取 图2 4 对发音。准备”的端点检测结果 f j 9 2 4r e s l l l t o f e d 侧n t d e t c c t 特征提取阶段要完成的工作是对语音帧进行频谱分析,并用频谱特征参数 进行描述,整个语音信号的特征则用各帧语音的频谱特征参数所组成的参数序 列来描述。下面将以两种重要的特征参数为例来说明特征提取。 2 3 1 线性预测系数 2 3 1 1 基本原理 基于短时段内语音信号是准平稳的假设,可以利用过去p 个时刻的语音采 样值的线性组合以最小的预测误差预测下一个时刻的语音信号采样值,称为对 语音信号的p 阶线性预测。 设。k ;o ,1 ,1 为一帧的语音采样序列,将第疗个语音采样值用前p 个语音采样值进行预测,则s 。的预测值为 - - 静 其中口。( f 一1 ,2 ,p ) 称为p 阶线性预测系数( l p c _ _ i 抽e a r p r e d 自嘣i o n ( 2 8 ) 中山大学硕士学位论文对话语音中的目标说话人检测和定位 c o e 伍c i e m s ) 。预测误差为: 其中口。一1 。 2 3 1 2 计算方法 q t - 塞a ( 2 - 9 ) 一个语音窗的线性预测系数q ( f 一1 ,2 ,p ) 可由使这一帧的预测误差p o ) 的平方和 i 卦甜孙+ 弘一。】 降 最小得到a 使e 为最小的线性预测系数n ;满足 兰。of ,1 2 ,p d 口, 可得 , s 。:s 一。 s 。一t s 。一z s 。一:s 。一: s 一。s 一, s 一:s 一, 口1 4 2 叩一 ”。 善,t 罩已一,:军,| 【口,jl ;, ( 2 1 1 ) ( 2 - 1 2 ) 在短时段os ns 一1 内语音信号可视为一个平稳过程,s 。与s 。的自相关 函数只是时间差f 的函数,即 r 一芝蚺一 在这一短时段上,信号的协方差函数为 q ,一* 。薹s 一一t s 一一t ( 2 1 3 ) ( 2 1 4 ) 只要将( 2 1 3 ) 式或( 2 1 4 ) 式代入( 2 - 1 2 ) 式中,就可求出线性预测系数 中山大学硕士学位论文对话语音中的目标说话人检测和定位 巳( f 一1 ,2 ,p ) ,分别称为线性预测的自相关法和协方差法。这两种方法在大部 分的语音信号处理书籍中都有详细的讨论【2 0 ,2 6 】。 自相关法和协方差法都存在一些问题。首先是稳定性问题,由自相关法和 协方差法得到的预测系数的稳定性是不能保证的。其次,自相关法采用像汉明 窗这样的窗函数截取信号再求自相关,隐含了窗口以外的信号为零的假设,这 样就导致窗的位置和长度会对分析结果产生一定的影响。 下面介绍一种比较实用的方法格型算法( b u r g 法) ,这是一种递推的 算法,可以完全避开自相关或协方差计算的步骤,直接出信号样本递推计算线 性预澳9 系数。这种算法既不存在不稳定的问题,又不需要用窗函数截取信号, 虽然计算量大得多,但是适合于计算机实现,因此是一种很吸引人的算法。这 种算法已经很成熟,这里我们只给出递推方法,其原理和推导过程在【2 1 】中有 详细介绍。b u r g 递推算法的步骤如下: ( 1 ) 初始化 设定前向预测误差和后向预测误差的初始值分别为: ,( , ) 一6 ( o ( ,栉) 。5 ( , xm o 1 ,2 ,一1( 2 1 5 ) 并令f = 1 ; ( 2 ) 计算反射系数和f 阶预测器的预测系数n ,: 2 罗,弘1 b ) 6 0 。) 似一1 ) t2 萨面面2 。回 n ? 一口,1 一丘掣1 sjs f 一1 ( 2 - 1 7 ) ( 3 ) 计算前向和后向预测误差: 中山大学硕十学位论文对话语音中的目标说话人检测和定位 f 苫器蠕端等蚓卅川玑p t 砷16 妇) 一6 0 一1 b 一1 ) 一t ,“一1 b ) “。”“。“1 卜一7 ( 4 ) 令f 。f + 1 : ( 5 ) 如果f p ( z ,a ) , 因此q ( a ,a ) 与p ( z ,a ) 具有相同的递增性质,使p ( z ,a ) 递增的过程就是使 q q ,a ) 递增的过程,对p g ,a ) 的维一要求是它关于a 是对数凹函数。 取p 0 ,a ) 对a 的微分 v - p ( z 7 a ) _ v a 善p a ) 一v - p ( z ,f a ) 白。“。 。善p a ) v - 1 。g p 驯a ) 等式右边正好是( 3 - 8 ) 式对a 的微分取a7 一a 的结果v q ( a ,a ) k 。,即 v p 0 ,f ) 一v q ( a , ) i , 所以当a - a 时,函数q q ,a ) 的极值与p 0 ,a ) 的极值处于相同的a 点,从而 q 似,a ) 与p 0 ,a ) 不仅在递增性质上保持一致,而且极值点的最终位置也是一 中山大学硕士学位论文对话语音巾的目标说话人检测和定位 致的。这样就可以通过求q ( ,a ) 的局部极小值来得到p 0 ,a ) 的局部最大的优 化参数a :设置g m m 模型的初始参数为a ,使q ( a ,a ) 一m 缸得到新的模型 参数 7 ,这样不断迭代,直到迭代收敛为止。 下面简单说明迭代求q 似,a ) 的局部极小值的方法,将( 3 - 1 ) 式和( 3 - 7 ) 式代入 ( 3 8 ) 式,可得 其中 其中 r 姒a ) 荟善r | g 硝o ) ( 3 。9 ) ,r o ) 善酗姒i 七) p ) ( 3 御) 暑p ( z ,f a ) _ p ( z 。,a ) p ( tlf z 。,a ) 哪 叫。岳巍 分别使q ( a ,a ) 相对于a 中的各个参数最大即可得到a 中各个参数的估计值。 其中 肛;耄盹圳a ) 聪t = i f z t ,砷z t 卢净上i _ 一 善p 瓴刮孙a ) ( 3 1 1 ) ( 3 - 1 2 ) 盹= f z ,a 一j ) 7 亿一p ;) q 一旦下一 ( 3 1 3 ) 善p ( f t 刮a ) 中山大学硕士学位论文 对话语音中的目标说话人检测和定位 黔) - 锵 鼻峨( z 。) _ i i , 驴岛亿) ( 3 1 4 ) 因此,迭代估计g m m 参数的过程可分为以下两个步骤: ( 1 ) 用式( 3 1 4 ) 计算训练数据落在隐状态f 的概率盹t f z ,a ) ,这一步称为 e x p e c t a t i o n o ( 2 ) 以局部最大准则用式( 3 1 1 ) 、( 3 - 1 2 ) 、( 3 1 3 ) 估计g m m 的参数鼻、? 和 c 即a ,这一步称为m a 】【i m i z a t i o n 。 因此,上述求解g m m 模型参数的方法称为e m 算法。e m 即 e x p e c t a t 如n m a x i m i z a t i o n 。 3 2 1 2g m m 模型训练算法 有了前面的e m 算法作保证,我们现在可以实现整个基于g m m 模型训练 算法了。算法描述如下: ( 1 ) 随机产生后验概率p ( i f f z , ) 使其满足式( 3 1 4 ) a ( 2 ) 分别用式( 3 1 1 ) 、( 3 1 2 ) 、( 3 - 1 3 ) 计算高斯混合模型的混合权重和各隐 状态的均值向量、协方差矩阵。 ( 3 ) 用式( 3 1 4 ) 更新后验概率p ( f tt f ,z 。,a ) ,用式( 3 - 9 ) 和式( 3 1 0 ) 计算 q ( a ,a ) 。 ( 4 ) 如果当前q ( a ,a ) 值相对于上一次迭代时的值的增幅小于预先设定的 一个门限值,则算法结束,否则跳转到( 2 ) 继续执行。 实验证明【2 8 】,以上迭代算法得到的q ( ,a ) 值不断减小并趋于收敛。 中山大学硕十学位论文对话语音中的目标说话人检测和定位 3 2 3 迭代初始参数设置 在前面的算法中,第一步即g m m 初始参数的设置,使用的是随机设定的 方法。这种方法可以这样来实现,从训练语音的语音特征中随机地选m 个特征 作为g m m 模型均值矢量肫a 一1 ,2 ,肘) 的初始值,协方差矩阵 e ( f 一1 ,2 ,m ) 的初始矩阵选为单位矩阵l 。这种方法实现起来最简单,但因 为没有用到训练数据的任何先验知识,训练所需的迭代次数较多。 比较好的初始化方法是聚类选择法,即先把特征矢量按模式识别中的动态 聚类方法【2 9 】聚成若干个类,聚类数等于g m m 模型的混合数m ,每个聚类中 心矢量作为g m m 的初始均值矢量,聚类的协方差矩阵作为g m m 初始协方差 矩阵。 动态聚类中包括k - 均值算法、i s 0 d 加渔算法、基于样本和核的相似性度 量的动态聚类算法等等,其中最常用的是k - 均值算法,它的基础是误差平方和 准则。 若;是第f 聚类l 中的样本数目,地是这些样本的均值,即 击荟y 即s , 把e 中的各样本y 与均值胁间的误差平方和对所有类相加后为 小喜沙圳2 ( 3 _ 1 6 ) 其中j 。是误差平方和的聚类准则,它是样本集y 和类别集q 的函数。j 。度量 了用c 个聚类中心,肛:,p 。代表c 个样本子集r l ,r 2 ,r c 时所产生的总的 误差平方。对于不同的聚类,的值当然是不同的,使j ,极小的聚类是误差平 方和准则下的最优结果。这种类型的聚类通常称为最小方差划分。 中山大学硕士学位论文对话语音中的目标说话人检测和定位 为了要得到最优结果,首先要对样本集进行初始划分( 分类) ,一般的做法 是先选择一些代表点作为聚类的核心,然后把其余的点按某种方法分到各类中 去。关于代表点的选择,可以考虑以下几种基本方法: ( 1 ) 凭经验选择代表点。根据问题的性质,用经验的办法确定类别数,从 数据中找出从直观上看来是比较合适的代表点。 ( 2 ) 将全部数据随机地分成c 类,计算每类重心。将这些重心作为每类的 代表点。 ( 3 ) “密度法”选择代表点。这里的“密度”是具有统计性质的样本密度。 一种求法是,以每个样本为球心,用某个正数亭为半径作一个球形邻域,落在 该球内的样本数则称为该点的“密度”。在计算了全部样本的“密度”后,首先 选择“密度”最大的样本点作为第一个代表点。它对应于样本分布的第一个最 高的峰值点。在选第二个代表点时,可以人为地规定一个数值言) 0 ,在离开第 一个代表点距离言以外选择次大“密度”点作为第二个代表点,这样就可避免 代表点可能集中在一起的问题。其余代表点的选择可以类似地进行。 ( 4 ) 随机选用c 个样本点作为代表点。 选定代表点后,可以有不同的初始分类方法。此外,也可以直接用样本进 行初始分类。下面给出两种简单的确定初始分类的方法: ( 1 ) 选择一批代表点后,其余的点离哪个代表点最近就归入那一类。从而 得到初始分类。 ( 2 ) 选择一批代表点后,每个代表点自成一类,将样本依顺序归入与其距 离最近的代表点的那一类,并立即重新计算该类的重心以代替原来的代表点。 然后再计算下一个样本点的归类。直至所有的样本都归到相应的类中为止。 中山大学硕士
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水土保持施工方案收费
- 2025云南曲靖宣威市政务服务管理局招聘公益性岗位工作人员2人考试参考题库及答案解析
- 2025重庆綦江区石角镇招聘公益岗2人考试模拟试题及答案解析
- 2025云南省e类事业单位试题及答案
- 2025乡宁事业单位试题及答案
- 2025年执业护士《护理伦理》试题及答案
- 建筑实务二建考试题库(+答案)2025年
- 陪伴式疗愈咨询方案
- 酒店管理咨询策划方案模板
- 2025事业单位行政管理考试题及答案
- 隧道施工应急预案方案
- 植物鉴赏课件
- 安徽省华师联盟2026届高三上学期9月开学质量检测物理试卷(含答案)
- 航海船舶航线选择指南
- 如何与客户建立有效的沟通
- 薯片加工项目规划设计方案
- 部编版小学数学六年级上册分数乘法应用题解法一:找单位“1”解析同步练习
- 职业教育课题申报:产教融合背景下职业院校“四位一体”校企合作模式研究与实践
- 效益工资发放审批表
- 土壤的环境背景值与容量
- GB/T 26399-2011电力系统安全稳定控制技术导则
评论
0/150
提交评论