




已阅读5页,还剩49页未读, 继续免费阅读
(通信与信息系统专业论文)说话人检索系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 随着信息技术的发展,人们已经积累了大量的语音资料,如新闻录音、会议录音记 录和电话录音等。如何在这些语音资料中检索出用户需要的语音片段或内容信息,是语 音文档检索技术重点研究的内容。说话人检索是一项重要的语音文档检索技术,它在一 段有多人交替发言的语音中,搜索出目标人的语音片段,主要应用于语音材料的检索整 理和电话对话犯罪嫌疑人追踪等领域。 本文实现的说话人检索系统主要由特征提取、说话人分割和说话人确认3 个部分组 成。对于每部分,本文分别用2 种方案实现,最后,通过实验研究并比较各种方案的性 能。具体工作如下: ( 1 ) 分别提取了语音的线性预测倒谱系数( l p c c ) 和梅尔频率倒谱系数( m f c c ) 作为 说话人特征参数。 ( 2 ) 实现了基于k l 2 距离的说话人分割。实现了基于贝叶斯信息判据( b i c ) 的说话 人分割,并使用可变窗长的预分割方法,在保证性能的前提下降低了运算量。 ( 3 ) 实现了基于矢量量化( v q ) 的说话人确认。实现了基于高斯混合全局背景模型 ( g m m u b m ) 的说话人确认,并通过模型域信道补偿,提升系统鲁棒性。 ( 4 ) 实现了基于说话人分割与说话人确认的说话人检索系统。通过实验,研究并比 较了各种方案的性能。 ( 5 ) 实验发现,使用m f c c 作为说话入特征,基于b i c 说话人分割和g m m u b m 说话人确认的说话人检索系统性能较好。经7 0 0 分钟的新闻录音测试,其召回率和正确 率分别达到9 3 3 和8 7 5 关键词:说话人检索;说话人分割;说话人确认;贝叶斯信息判据;高斯混合一全 局背景模型 说话人检索系统的研究与实现 s t u d ya n di m p l e m e n t a t i o no fs p e a k e rt r a c k i n gs y s t e m a b s t r a c t w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y ,m o r ea n dm o r es p o k e nd o c u m e n t s , s u c h 嬲n e w sb r o a d c a s t sa n dt e l e p h o n ec o n v e m a t i o nr e c o r d s a r ea v a i l a b l e h o wt of i n do u t t h ea p p r o p r i a t ei n f o r m a t i o nt h a tp e o p l en e e di nt h e mi sw h a tt h es p o k e nd o c u m e n t r e t r i e v a l ( s d r ) t e c h n o l o g i e sf o c u so n s p e a k e rt r a c k i n gi so n eo fs d rt e c h n o l o g i e s ,w h i c h c a nf m do u tt h es p e e c hs p o k e nb yt h et a r g e ts p e a k e r ,i nac o n v e r s a t i o n s p e a k e rt r a c k i n g t e c h n o l o g yi sw i d e l yu s e di ns p o k e nd o c u m e n tp r o c e s s i n g i nt h i s t h e s i s ,as p e a k e rt r a c k i n gs y s t e mi si m p l e m e n t e d ,w h i c hc o n s i s t so ff e a t u r e e x t r a c t i o n ,s p e a k e rs e g m e n t a t i o na n ds p e a k e rv e r i f i c a t i o n e a c hp a r ti si m p l e m e n t e di nt w o d i f f e r e n tw a y s w h i c ha r ec o m p a r e dt h r o u g he x p e r i m e n t s r e s e a r c hw o r kc a nb ec o n c l u d e d2 l s f o l l o w s : ( 1 ) l i n e a rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t s ( l p c c ) a n dm e l f r e q u e n c yc e p s t r u m c o e f f i c i e n t s ( m f c c ) a r e e x t r a c t e ds e p a r a t e l ya ss p e a k e rf e a t u r e s ( 2 ) s p e a k e rs e g m e n t a t i o nb a s e do nk l 2d i s t a n c ei si m p l e m e n t e d s p e a k e rs e g m e n t a t i o n b a s e do i lb a y e s i a ni n f o r m a t i o nc r i t e r i o n ( b i c ) i sa l s oi m p l e m e n t e da n di m p r o v e db y v a r i a b l e l e n g t hw i n d o wp r e s e g m e n t a t i o nm e t h o dp r e s e n t e di nt h i st h e s i s ( 3 ) s p e a k e rv e r i f i c a t i o ns y s t e m sb a s e do nv e c t o rq u a n t i z a t i o n ( v q ) a n dg a u s s i a n m i x t u r em o d e l u n i v e r s a lb a c k g r o t m dm o d e l ( g m m u b m ) a r ei m p l e m e n t e ds e p a r a t e l y ( 4 ) s p e a k e rt r a c k i n gs y s t e m sa r ei m p l e m e n t e db a s e do ns p e a k e rs e g m e n t a t i o na n d s p e a k e rv e r i f i c a t i o n ( 5 ) e x p e r i m e n t ss h o wt h a t t h es p e a k e rt r a c k i n gs y s t e mb a s e do nm f c c ,b i ca n d g m m u b mh a st h eb e s tp e r f o r m a n c ei nt h et h e m e si m p l e m e n t e di nt h i st h e s i s k sr e c a l lr a t e c a l lr e a c h9 3 3 w i t hp r e c i s i o nr a t e8 7 5 k e yw o r d s :s p e a k e rt r a c k i n g ;s p e a k e rs e g m e n t a t i o n ;s p e a k e rv e r i f i c a t i o n ;b i c ; g m m u b m i i 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目: 作者签名:垂塑日期:盟年且月鱼日 大连理j 二大学硕士学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容缄入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位亲文题目:i 堑近厶整壹薹量杰蚤刍亚嗑。复鱼盟 作者签名:至丛日期:呈蛆年j 兰月三垒日 导师签名 :承褥钰一 大连理工大学硕士学位论文 1绪论 1 1 说话人检索概述 语音是人类最直接的沟通方式,也是人们日常生活中使用最多的信息传递方式。自 从发明了录音技术,人们已经积累了海量的语音资料,如新闻录音、访谈录音、会议录 音记录、电话对话录音等,而且,随着信息技术的高速发展,新的语音资料正以前所未 有的速度大量出现。然而,目前应用较广的搜索技术主要是基于文本的检索,对语音的 检索基本停留在对其标题和标注等文字信息的搜索这一层面,其本质仍然是对文本进行 检索,不能满足人们的需求,导致大量语音资料闲置,蕴含在录音资料里面的信息不能 高效利用,从而造成浪费。 语音文档检索技术借助现代语音信号处理方法,试图满足用户在语音检索方面的需 求。语音文档检索技术是针对以声音形式存在的文档进行的信息检索,准确地说,就是 在一定数量的语音文档中,检索出用户需求的语音片段或内容信息,用户需求主要有以 下两类: ( 1 j 按照语音内容进行检索。这种检索重点关注语音中的信息内容,例如语音语义 识别和哼唱检索。 ( 2 ) 在语音库中检索特定目标人的语音,即本文研究的说话人检索。 具体来讲,说话人检索指的是【1 。2 】,在一段有多人交替发言的语音中,搜索和定位 目标人出现的时间位置。图1 1 显示了一次说话人检索的过程,用户将目标人“z i j u n ” 的一段录音提供给说话人检索系统,希望在第三行的新闻广播录音中,找出所有出自这 个人的语音段。说话人检索的正确输出是图1 1 最后一行所示的一段标记,它记录了 “z i j u n ”说话的时间位置。 说话人检索是一项重要的语音文档检索技术,主要应用于以下方面: ( 1 ) 语音材料的检索与整理【jj 。 ( 2 ) 电话对话犯罪嫌疑人追踪。将偶然获得的犯罪嫌疑人语音作为训练序列,使用 说话人检索系统,可以在大量电话录音记录中快速找出属于目标嫌疑人的语段,从而为 破案提供线索1 2 l 。 ( 3 ) 语音识别时的说话人模型选择。为需要进行语义识别的语音段标记说话人,从 而在语音识别时实现快速说话人模型选择,提高语音识别效果。 说话人检索系统的研究与实现 目标 ”z i l u n ”的一段镕 要譬薷零露秀熏f 孑焉孺飘裹离程 广丽 【臀 目标目标人 目* 目标 语音镕音 * 语 圈11 说话人检索的目标 f i g l1 p u r p o s eo f s p c a k e r t r a c k i n gs y s t e m 1 2 说话人检索系统的一般结构 说话人抢索技术可以认为是说话人识别技术的一种具体应用 3 】,它建立在说话人分 割和文本无关的开集合说话人确认这两项技术的基础之上n 一般来说,说话人检索系 统结构如图1 2 所示哆 幽12 说话人检索系统的结构 f i g l2s t r u c t 山eo f s p e a k e r t r a c k i n gs y s t e m 需黟 大连理工大学硕士学位论文 预处理的任务主要是检测语音和静音的分割点,保留语音段,去除静音段。 特征提取是把语音按帧映射到多维特征空间,从而得到一组能代表说话人特点的参 数序列。对于说话人检索系统,特征值应尽量满足如下要求: ( 1 ) 对于不同人的语音,其特征向量尽量分布在特征空间的不同位置,如果有重叠, 重叠部分应尽可能少。 ( 2 ) 对于同_ 个人的不同语音,其特征向量在特征空间的分布应尽量集q b 4 1 。 目前,主流的说话人特征主要有线性预测倒谱系数( l p c c ) 和美尔频率倒谱系数 ( m f c c ) t 3 , 5 】。 说话人分割又称说话人转变点检测,它的任务是标记说话人发生变化的时间点,从 而将一段有多人交替发言的语音分割成多个子段,理想结果是每个子段只含有一个说话 人的语音,并且每子段尽量长。说话人分割模块的作用在于为随后的说话人确认模块提 供足够长的语音。现有的说话人确认技术要求测试语音只含有一个说话人,并且长度不 能过短( 一般最短l 2 s ) t 引。 说话人确认模块判断说话人分割输出的各个子段是否属于目标人。由于事先不知道 被检索语音的具体内容,也不能准确知道被检索语音来自哪些说话人,因此,用于说话 人检索的说话人确认技术必须是文本无关的开集合说话人确认。 1 3 说话人检索系统的评价标准 本文使用召回率r 和正确率( 或称为准确率) 尸来表示说话人检索系统的性能【7 1 , 尺:三( 1 1 ) f p :乓( 1 2 ) z 其中r 是被检索语音中目标人语音段的总时长,于是检索结果语音总时长,是检索结果 中目标人语音段的总时长。召回率表示被检索语音段中有多少目标人语音被成功检索 出;正确率表示检索结果中真正属于目标人的语音段占有多大比例。 说话人检索系统的性能评价需要根据实际情况综合考虑召回率和正确率。有时对召 回率要求更高,例如在电话对话犯罪嫌疑人追踪这一应用中,要求尽可能检索出犯罪嫌 疑人的所有语音,以免漏掉有价值的线索,因此对召回率的要求较高,而对正确率则没 说话人检索系统的研究与实现 有严格要求;而在语音文档的整理这一应用场合, 这时,衡量标准可以使用f 比 。 2 p r 一= 一 p + 尺 1 4 说话人检索的研究现状 对召回率和正确率的要求比较均衡, ( 1 3 ) 1 4 1 特征提取的研究现状 目前使用较多的说话人特征包括两类,第一是发声层面特征,主要反映每个人发声 器官的不同;第二是语言层面特征,主要反映每个人语言习惯的不同,包括词语选择偏 好、句子结构偏好、语调变化偏好等。对于发声层面特征,梅尔频率倒谱系数( m f c c ) 已经在说话人识别相关领域( 包括说话人辨认、说话人确认、说话人分割和说话人检索 等) 取得了不错的效果【3 ,5 1 ,但发声层面特征容易受到信道环境的干扰。语言层面特征由 于偏向语言的语义层面,因此噪声和信道对其影响较小,是目前说话人识别领域的一个 研究热点,但其技术还不够成熟,性能不如l p c c 和m f c c ,但可作为有效的补充手段峭j 。 目前,语言层面特征主要有韵律特征1 1 、音素统计规律特征 1 1 1 2 1 幂i 用词统计规律特征 【l l 1 3 】刍董 可o 1 4 2 说话人分割与说话人确认的研究现状 说话人检索的核心是说话人确认技术。常用的说话人确认方法有矢量量化( v q ) 方 法、统计概率模型方法、人工神经网络( a n n ) 方法和支持向量机( s v m ) 方法等。统计概 率模型方法中,高斯混合通用背景模型( g m m u b m ) 已经成为说话人确认的主要方法 f 1 4 】。r e y n o l d s 等人使用g m m u b m 实现的说话人确认系统,其错误接受率和错误拒绝 率已达到5 的水平( 5 1 。人工神经网络和支持向量机是说话人识别领域研究的热点,但 其计算量较大,对训练数据量依赖较强,而且性能相对g m m u b m 来说并没有明显优 势【1 5 】。 说话人分割在说话人检索系统中必不可少,它直接影响说话入检索的最终性能。 d u n n 等人发现,将g m m u b m 说话人确认系统直接用于说话人检索时,错误接受率和 错误拒绝率都接近2 0 ;如果在说话人确认系统前使用说话人分割模块,则错误接受率 和错误拒绝率都会明显下降【1 6 1 8 】。基于贝叶斯信息准则( b i c ) 的说话人分割实现简单且 十分有效【1 9 】。c h e n 等人首先提出了这种方法【2 0 】,但其多说话人转变点的检测方法计算 量很大。郑铁然等人在基本保证性能的前提下,通过引入预分割降低了运算量1 2 。 大连理工大学硕士学位论文 1 5 说话人检索的难点 说话人检索的实现存在以下难点: ( 1 ) 目前为止,还不能将说话人特征从语音中完全独立地提取出来。现在广泛使用 的特征参数既包含说话人相关的特性,也包含内容相关的特性。另外,这些特征参数普 遍存在鲁棒性不够的情况,信道的变化对其影响比较明显。 ( 2 ) 基于距离的说话人分割需要计算相邻加窗特征矢量的距离。为了提高精度,窗 必须很窄( 例如1 s ) ,因此,可用数据量少,导致结果不稳定,阈值设置比较困难。 ( 3 ) 基于b i c 的说话人分割在计算量和可用数据量上存在矛盾f 2 0 。2 1 1 。 ( 4 ) 说话人检索系统的输入语音可能来自各种信道,估计信道时,需要大量的训练 语音州。如果某些信道不在估计范围内,则系统的检索性能不够理想。 1 6 本文工作 本文以说话人检索系统为研究对象,完成了以下工作: ( 1 ) 分别提取了语音的线性预测倒谱系数( l p c c ) 和梅尔频率倒谱系数( m f c c ) 作为 说话人特征参数。 ( 2 ) 实现了基于k l 2 距离的说话人分割。实现了基于贝叶斯信息判据( b i c ) 的说话 人分割,并使用可变窗长的预分割方法,在保证性能的前提下降低了运算量。 ( 3 ) 实现了基于矢量量化( v q ) 的说话人确认。实现了基于高斯混合- 全局背景模型 ( g m m u b m ) 的说话人确认,并通过模型域信道补偿提升系统鲁棒性。 ( 4 ) 实现了基于说话人分割与说话人确认的说话人检索系统。 ( 5 ) 通过实验,对比并研究了l p c c 与m f c c 的性能差别、k l 2 距离说话人分割与 b i c 说话人分割的性能差别和v q 说话人确认与g m m u b m 说话人确认的性能差别。 ( 6 ) 通过实验,研究了本文说话人检索系统中,预分割可变窗的扩展步长、u b m 的 训练序列长度和u b m 阶数三个参数的取值。 1 7 本文内容安排 本文各章内容如下: ( 1 ) 第章概述了说话人检索系统的应用和研究现状,叙述了本文说话人检索系统 的结构。 ( 2 ) 第二章介绍了说话人特征l p c c 与m f c c 的提取。 ( 3 ) 第三章叙述了本文实现的两种说话人分割方案b i c 说话人分割和基于k l 2 距离的说话人分割。 说话人检索系统的研究与实现 ( 4 ) 第四章叙述了本文实现的两种说话人确认方案v q 说话人确认和 g m m u b m 说话人确认。 ( 5 ) 第五章叙述了本文说话人检索系统的检索过程与系统设计。通过实验,研究了 说话人检索系统各个模块的性能及相关参数的确定。 大连理工大学颤士学位论文 2 预处理与说话人特征提取 21 预处理 预处理的主要任务是检测语音和静音的分割点,保留语音段,去除静音段,从而消 除静音对说话人确认系统的影响。本文使用基于短时能量和短时平均过零率的双阈值法 去除静音如图2 l 所示。 曲 揣。 也 蒯 实际”割6 测。 1 。闻刖” 0 0 02 0 0 03 0 0 04 0 0 05 0 0 06 0 0 07 0 0 08 0 0 0 采样 图2i 基于短时能量和短时平均过零率的静音去除 f 1 92 1s i l e n c e f r a m e sr e m o v i n g b s e do ns h o r t - t e r me n e 盱a n d z e r oc r o s s i n gr 扯 静音去睬的具体过程如下 ( i ) 分帧。 说话人检索系统的研究与实现 ( 2 ) 计算各帧的短时能量e = x 2 ( 掰) ,其中n 是帧长。 ,l = h ( 3 ) 计算各帧短时平均门限过零率 h + ,一l 乙= l s g n x ( n ) - t - s g n x ( n - 1 ) - t i + js g n x ( n ) + t - s g n x ( n - 1 ) + t l ( 2 1 ) 其中r 是过零门限。 ( 4 ) 设定阈值瓦、互和l ,j 。1 瓦= 玄e 。 ( 2 2 ) 石2 否le m “ ( 2 3 ) 乙= 妻乏 ( 2 4 ) 其中瓦。是各帧能量最大值,乏是平均过零率。 ( 5 ) 搜索短时能量大于阈值瓦的帧,得到图2 1 中的点a l 和b l 。 ( 6 ) 从a i 开始向前搜索,找到短时能量达到阈值石的点a 2 ;从b l 开始向后搜索, 找到短时能量达到阈值互的点b 2 。 ( 7 ) 从a 2 开始向前搜索过零率大于阈值乙,的帧,得到点a 3 ;从b 2 开始向后搜索 过零率大于阈值乙,的帧,得到点b 3 判定a 3 8 3 是语音段。 ( 8 ) 将静音段去除。 2 2 说话人特征提取 不同人的语音信号存在差异,这些差异来自来两个方面,第一,每个人的发声器官 都有自己的特点;第二,每个人都有自己独特的语言习惯,包括遣词造句、感情色彩等。 说话人特征提取的目的,就是要在这些语音信号中,将那些反映说话人之间差异的特征 参数提取出来。说话人特征提取是说话人检索系统的基础,理想的说话人语音特征具有 如下特点: ( 1 ) 具有很高的区别不同说话人的能力。能够充分体现说话人个体间较大的语音差 异,而不受具体语音内容的影响。语音信号是内容特征和说话人特征的混和,理想的说 大连理工大学硕士学位论文 话入特征提取方法应该只提出反映说话人个性的参数,而对语音内容不敏感,做到这一 点比较困难,通常提取的特征既包含说话人特征也包含一定量的内容特征。但是,当训 练序列足够长时,特征参数就可以只含有很少量的内容特征,从而用来反映不同说话人 之间的差异。 ( 2 ) 稳定性好。当说话人的情绪状态或健康状态变化时,其语音也会有变化,另外, 环境对语音也有很大影响。理想的说话人特征对说话人自身的差异体现的不明显,受情 绪或环境变化的影响较小。 ( 3 ) 计算方便。 特征提取一般包括预加重、分帧、加窗和特征参数计算几个步骤。 预加重的目的是提升输入信号的高频分量。语音信号的功率谱随频率的增加而减 小,其大部分能量集中在低频范围内,为了使其高频部分所包含的特征也能被有效提取, 需要对信号进行预加重, s 。( 刀) = s ( ,? ) 一0 9 s ( n 一1 ) ( 2 5 ) 其中j ( 刀) 是输入信号,。( 疗) 是预加重后的信号。 预加重之后需要对信号进行分帧和加窗处理。每帧信号加汉明( h a m m i n g ) 窗,汉明 窗的窗函数为 w = 0 5 4 - 0 4 6 c o s ( 器j ( 怄胚n - 1 ) ( 2 6 ) 其中是帧长。 加窗后,需要对每帧信号进行特征参数的提取计算。本文分别提取了线性预测倒谱 系数( l p c c ) 和梅尔频率倒谱系数( m f c c ) 作为说话人特征,经比较,梅尔频率倒谱系数 性能较好。 2 2 1 线性预测倒谱系数( l p c o ) 语音信号可以看成是一个输入序列激励一个全极点系统产生的输出,如图2 2 所示。 语音分为清音和浊音两类,对于浊音信号,输入的激励是一个单位脉冲序列,其周期等 于语音的基音周期;对于清音信号,输入激励是一个高斯白噪声序列。系统的传输函数 日( z ) 为 说话人检索系统盼研究与实现 h ( z ) : ( 2 7 ) 卜口j z 。 j = l 其中系数口,是l p c 系数,可以通过自相关法求得,即求解式2 8 所示的y u l e w a l k e r 方 程【2 2 1 。 r ( 0 ) 疋( 1 ) r ( 2 ) r ( p i ) 足,( 1 ) b ( 0 ) b ( 1 ) r ( p 一2 ) r 。( 2 ) r ( 1 ) b ( 0 ) 疋( p 一3 ) r 。( p 一1 ) r ( p 一2 ) b ( p 一3 ) 疋( o ) 式2 8 中,r ( 七) 为 r l + n - k l 民( 七) = h ( 小) x 。( m + 七) n l = t l 其中x w ( n ) 为加汉明窗后的语音数据。 q 呸 口3 口d r ( 1 ) r ( 2 ) 兄( 3 ) 疋( 4 ) e ( 5 ) ( 2 8 ) ( 2 9 ) 图2 2 语音信号产生模型 f i g 2 2 m o d e lo fs p e e c hs i g n a l 大连理工大学硕士学位论文 设口? 为第f 阶预测器的第个预测系数,式2 8 所示的y u l e w a l k e r 方程可以使用 莱文逊杜宾递推算法求解,过程如下: ( 1 ) 由式2 9 计算自相关系数r ( ) ,= o ,1 ,2 ,p ; ( 2 ) e o = r ( 0 ) ; ( 3 ) i = l ; i - i r ( 旷口r 。( i - j ) ( 4 ) 毫= e ( 一1 ) ( 5 ) 西 = 砖 ( 6 ) a := 口p + 墨钙n ,j = l ,2 ,i - 1 ( 7 ) e “= ( 1 一砰) e 卜1 ( 8 ) 令i 取i + 1 。如果f p ,则结束;否则转到( 4 ) 。 ( 9 ) 系统日( z ) 的l p c 系数为a ,= o p ,j = l ,2 ,p ,l p c c 系数c ( 聆) 与l p c 系数之 间的关系【2 3 1 为 ( 1 ) = a l ( 班荟n l ( 1 一知咖吲饵l n p l p c c 系数易于计算,对元音的描述能力强,但是对辅音描述能力差。同时,l p c 在所有频率上都线性逼近语音,与人的听觉特性符合的不好,而且包含了语音高频部分 的大部分噪声,影响了l p c c 系数的性能。 2 2 2 梅尔频率倒谱系数( m f c c ) 梅尔( m e l ) 频率倒谱系数( m f c c ) 将入耳的听觉特性作为一个重要的考虑因素,它首 先将频谱转化为基于m e l 频标的非线性频谱,然后再转换到倒谱域上【2 3 1 。m e l 频率刻度 与赫兹线性频率刻度之间的关系为 , = b ( ) = 2 5 9 5 1 9 ( 去1 ) ( 2 1 1 ) 说话人检索系统的研究与实现 其中厂为赫兹线性频率,厶。为m e ! 频率,即m e l 频标下的频率。式2 1l 的转换关系如 图2 3 所示,在1 0 0 0 h z 以内,m e l 频标与赫兹频标近似成线性关系;而在1 0 0 0 h z 以上, 对数关系较为明显。这种对应关系模拟人耳的听觉特性,具有良好的识别性能和抗噪能 力。 瓣 爨 瑙1 5 0 0 憾 o : 1 0 0 0 0 7 j ? 一 , l j , 7 02 0 0 0 4 0 0 06 0 0 08 0 0 0 赫兹刻度频率 姆 爨 越 = , 登 。 暑 ? j 一 7 f f , 。 - | 02 0 04 0 06 0 08 0 0 1 0 0 0 赫兹刻度频率 图2 3m e l 频标与h z 线性频标的关系 f i g 2 3 r e l a t i o n s h i pb e t w e e nm e l - s c a l e df r e q u e n c ya n dl i n e a r - s c a l e df r e q u e n c y 求m f c c 参数的过程如图2 4 所示f 2 4 1 。本文使用5 1 2 点f f t 。 f f t 转化为m e l 频标 d c t 幽2 4m f c c 系数提取过程 f i g 2 4 p r o c e d u r eo fm f c ce x t r a c t i o n 0 0 o o o o 0 o o 0 o 砌 鲫 砌 扣 佃 大连理工大学硕士学位论文 f f t 的输出使用赫兹线性频标,将其转化为m e l 频标的方法是将f f t 输出的频域 信号通过m e l 滤波器组。m e l 滤波器频响为 风( 七) = 0 , k f ( m - 1 ) f ( m ) 一f ( m 一1 ) 。 f ( m + 1 、一k f ( m + 1 ) - f ( m ) 0 , k f ( m 一1 、 f ( m - 1 ) k f ( m ) ,0 m 0 ( 3 5 ) 成立,那么这段语音存在说话人转变点,转变位置就是使式( 3 5 ) 成立的f 。 图3 2 是使用b i c 进行单处说话人变化点检测时得到的a b i c 曲线,可以看出,在 说话人变化点处( 图3 2 中的红竖线) ,b i c 分差出现了大于零的峰值。 基于贝叶斯信息判据的说话人分割使用两个假设进行竞争,不用人为设定阈值,因 此鲁棒性较好。 使用b i c 实现单处说话人变化点检测时,其检测能力依赖于可用数据量。当语音段 短于l s 时,此方法基本上失去检测能力【2 0 j ,因此,基于b i c 的说话人分割最高分辨能 力为l s 左右。 说话 检索系统的研究与实现 语音序列 “i 鞲燃瓣 4 0 0 3 0 0 2 0 0 1 0 0 0 说话人变化点x 1 0 5 b i c 分差 05 01 0 01 5 0 2 0 02 5 03 0 0 3 5 0 图32 基于b i c 的堕处说话人变化点检测 f i g 3 2s i n g l ec h a n g ep o i n td e t e n l o nb “e d o i l b i c 3 22 基于b l c 的多处说话人转变点检测 基于b i c 的多处说话a 转变点检测以单处转变点检测为基础。对于可能含有多处说 话人转变点的语音特征序列,可以使用如图3 3 所示的步骤检测其所有转变点叫j 。 这种方法的主要优点有两个: ( 1 ) 通过扩展长度可变的窗h b 】,保证每一个| 兑话八转变点的检测都使用了尽可能 多的数据,这也是b i c 分割法的一个优势。 ( 2 ) 变长窗的每次扩展( 6 = 6 + 1 ) 都使用最小步长,可以使分辨能力尽可能高,保证 了较高的召回率。 州采2 大连理工大学硕士学位论文 图3 3 基于b i c 的多处说话人转变点检测 f i g 3 3s p e a k e rs e g m e n t a t i o nb a s e do nb i c 但是这种方法也有一个明显的缺点,就是计算量比较大。为此,郑铁然等人提出了 一种新的检测方法,首先进行预分割,找到潜在分割点,之后通过“单处说话人转变点 检测”方法确定各个潜在分割点是否是真正的分割点【z 。这种方法可以有效地降低计算 量,但是在预分割阶段采用了固定长度的窗,因此在估计潜在分割点时,每次b i c 得分 的计算只用到与窗长等量的数据,可用数据量,从而使其最终的分割性能有所下降。 针对这一问题,本文使用可变窗长的预分割方法,整个分割过程如下: 说话人检索系统的研究与实现 ( 1 ) 预分割。初始化窗陋,b ,其中口= l ,b = a + s t e p 。使用单处说话人变化点检测方法 检查 口,b 】。如果在,时刻存在说话人转变,则重新初始化窗 口,b 】,令a = r ,b = a + s t e p ; 如果不存在说话人转变,则扩展窗 口,b 】,令b = b + s t e p 。继续使用单处说话人变化点检 测方法检查 口,b 】。如此反复,直到序列末尾。预分割后得到一组潜在分割点 只,i = l ,2 ,) 。 ( 2 ) 使用单处说话人转变点检测方法,检查所有 p ,p 】段内是否存在说话人变化 点。如果存在,则将此点加入潜在分割点集合中。 ( 3 ) 使用单处说话人转变点检测方法,检查所有p + 。是否是 只,p m 】段的说话人变化 点。如果不是,则将此点从分割点集合中删除。 大连理工大学硕士学位论文 4 说话人确认 4 。1 基于矢量量化( v q ) 的说话人确认 4 1 1 矢量量化基本原理 矢量量化是一种信号压缩编码方法,可以认为是传统标量量化在多维空间的推广。 标量量化将一维空间分成若干“阶梯”,量化时,首先判断输入标量取值在哪个“阶梯” 范围之内,然后用这个范围内的一个值( 通常是中心值) 代替输入数据。矢量量化与之对 应,但每次量化的数据不是单个标量,而是一个矢量。图4 1 是一个二维矢量量化的示 意图,此空间被分为7 个区域。 图4 1 二维矢量量化示意图 f i g 4 1 2 - d i m e n s i o n a lv q 矢量量化系统的结构如图4 2 所示,对于序列 m ) ,其过程如下【2 9 l : ( 1 ) 确定空间维数k 。将这个k 维空间划分成m 个区域,每个区域称为一个胞腔。 在每一个胞腔内取一个矢量y 作为码字,m 个码字构成一个集合 k ,e ,瓦) ,称为码 书。这一过程称为训练,通常需要训练序列。 说话人检索系统的研究与实现 ( 2 ) 将输入序列的k 个值组合为k 维空间的一个矢量x 。确定x 所属胞腔,然后用 该胞腔对应的码字y 代替x ,输出z 在码书内的索引编号i 作为矢量量化结果。这个过 程称为矢量量化的编码。 ( 3 ) 解码时使用索引f ,在码书中找到对应的码字z ,即为解码输出矢量。 图4 2 矢量量化系统的结构 f i g 4 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 南京市2025江苏南京市城建中等专业学校南京市城建职业培训中心南京市建筑职工笔试历年参考题库附带答案详解
- 东莞市2025广东东莞市城建工程管理局招聘聘用人员10人笔试历年参考题库附带答案详解
- 2025河北新质科技有限公司招聘13人笔试参考题库附带答案详解
- 2025春季甘肃酒泉市敦煌文旅集团有限公司招聘26人笔试参考题库附带答案详解
- 2025年第2批次浙江宁波前湾产业集团有限公司招聘9人笔试参考题库附带答案详解
- 2025年合肥包河区人力资源开发有限公司招聘3人笔试参考题库附带答案详解
- 2025天津新誉资产管理有限公司所属运营类企业选聘干部人才6人笔试参考题库附带答案详解
- 2025四川长虹电源股份有限公司招聘试验技术主办岗位32人笔试参考题库附带答案详解
- 危险源安全管理培训课件
- 危险化学企业安全培训课件
- 医学装备质量管理分析报告
- Unit 3 Understanding ideas The Road to Success课件 2023-2024学年高中英语外研版选择性必修第一册
- 项目需求分析文档(模板)
- 国际机场飞机维修机库施工组织设计
- 液压泵站使用说明书
- E190飞机舱门开关
- 儿科学腹泻病
- GB/T 3871.9-2006农业拖拉机试验规程第9部分:牵引功率试验
- GB/T 3836.4-2021爆炸性环境第4部分:由本质安全型“i”保护的设备
- GB 17840-1999防弹玻璃
- 文学鉴赏-课件
评论
0/150
提交评论