![(电路与系统专业论文)基于分类特征映射和SVM的说话人确认方法研究[电路与系统专业优秀论文].pdf_第1页](http://file.renrendoc.com/FileRoot1/2019-12/13/5205049c-eb1d-496c-b125-e998937350f5/5205049c-eb1d-496c-b125-e998937350f51.gif)
![(电路与系统专业论文)基于分类特征映射和SVM的说话人确认方法研究[电路与系统专业优秀论文].pdf_第2页](http://file.renrendoc.com/FileRoot1/2019-12/13/5205049c-eb1d-496c-b125-e998937350f5/5205049c-eb1d-496c-b125-e998937350f52.gif)
![(电路与系统专业论文)基于分类特征映射和SVM的说话人确认方法研究[电路与系统专业优秀论文].pdf_第3页](http://file.renrendoc.com/FileRoot1/2019-12/13/5205049c-eb1d-496c-b125-e998937350f5/5205049c-eb1d-496c-b125-e998937350f53.gif)
![(电路与系统专业论文)基于分类特征映射和SVM的说话人确认方法研究[电路与系统专业优秀论文].pdf_第4页](http://file.renrendoc.com/FileRoot1/2019-12/13/5205049c-eb1d-496c-b125-e998937350f5/5205049c-eb1d-496c-b125-e998937350f54.gif)
![(电路与系统专业论文)基于分类特征映射和SVM的说话人确认方法研究[电路与系统专业优秀论文].pdf_第5页](http://file.renrendoc.com/FileRoot1/2019-12/13/5205049c-eb1d-496c-b125-e998937350f5/5205049c-eb1d-496c-b125-e998937350f55.gif)
已阅读5页,还剩58页未读, 继续免费阅读
(电路与系统专业论文)基于分类特征映射和SVM的说话人确认方法研究[电路与系统专业优秀论文].pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着通信与计算机技术的发展 使用电话 手机等工具进行交流的用户不断 增多 电话语音也在人们的生活中占有越来越重要的地位 使用电话语音来进行 说话人身份鉴别具有方便快捷等诸多优点 其技术在金融 商贸 公安 军事等 领域具有广阔的应用前景 其中 文本无关的说话人确认不需要说话人的语义配 合 其应用范围更加广阔 实用性更强 近年来 支持向量机 s v m 由于其具有强区分能力 尤其适合解决类似 于说话人确认这样的二元分类问题 因而成为模式识别领域的一个研究热点 然 而 将目前常用的短时倒谱参数m f c c 用于文本无关的说话人确认需要较多的 语音数据 将s v m 作为说话人模型时将会遇到大训练样本 两类数据混叠严重 等问题 使s v m 的建模面临着训练效率低下 本文主要针对s v m 用于文本无关说话人确认中存在的问题 对使用特征空 间分类和g m m 进行说话人特征映射的方法进行了研究 并且对s v m 的建模方 法进行了探讨 主要研究内容如下 1 针对采用s v m 建立说话人模型面临着大数据量样本的问题 研究了基 于g m m u b m 特征映射的s v m 说话人确认方法 采用g m m u b m 结 构进行特征映射能够实现数据压缩 并提取代表说话人个性信息的特征 矢量 本文对u b m 混合度对系统性能影响 以及在n i s t 长语音任务 中s v m 建模策略问题进行了分析 2 提出了一种基于分类g m m u b m 特征映射和s v m 的说话人确认方法 c g m m u b m 特征映射 使得原本混叠较为严重的数据变得更容易区 分 提升了s v m 分类界面的区分性能 同时 分类子空间中的g m m 能够更加精细地描述说话人参数统计特性 本文针对基于v q 的特征空 间划分方法和基于基因周期的特征空间划分方法 在不同子空间个数 不同g m m 混合度的情况下进行了分析 实验表明 通过分类特征映射 和子系统评分融合 c g m m u b m s v m 系统相对于g m m u b m 系统 e e r 降低了17 2 c g m m u b m s v m 系统相对于g m m u b m s v m 系统 e e r 降低了7 6 系统性能有了进一步提升 关键词 说话人确认分类特征映射支持向量机高斯混合模型 a b s t r a c t ab s t r a c t w i t ht h ed e v e l o p m e n to fc o m m u n i c a t i o na n dc o m p u t e rt e c h n o l o g y m o r ea n d m o r ep e o p l ec o m m u n i c a t ew i t he a c ho t h e rb yt e l e p h o n e c e l l u l a rp h o n ea n ds oo n a n d t e l e p h o n es p e e c hp l a y sa ni n c r e a s i n gi m p o r t a n tr o l ei np e o p l e sl i f e t h e r ea r em a n y a d v a n t a g e sf o ru s i n gt e l e p h o n es p e e c ht ov e r i f yt h ei d e n t i t yo ft h es p e a k e r a n dt h i s t e c h n i q u eh a saw i d ea p p l i c a t i o nf o r e g r o u n di nt h ef i e l d so ff i n a n c e b u s i n e s s p u b l i c s e c u r i t y a n dm i l i t a r ya f f a i r sa n ds oo n e s p e c i a l l y t h et e x t i n d e p e n d e n ts p e a k e r v e r i f i c a t i o nc a nw o r kw i t h o u tt h et e x ti n f o r m a t i o n w h i c hh a sab e u e ra p p l i c a t i o n s c o p ea n dp r a c t i c a b i l i t y t h es u p p o r tv e c t o rm a c h i n e s v m i sad i s c r i m i n a t i v ea p p r o a c ht h a ts e e m sw e l l s u i t e dt os p e a k e rv e r i f i c a t i o n a n da c ta sah o t s p o to fp a r e mr e c o g n i t i o n w h e n c e p s t r a lf e a t u r e s s u c ha sm f c c a r eu s e df o rt e x t i n d e p e n d e n ts p e a k e rv e r i f i c a t i o n l o t so fs p e e c hi sn e e d e d s o a sam o d e l i n gt e c h n i q u ei nt e x t i n d e p e n d e n ts p e a k e r v e r i f i c a t i o n s v mh a sm u c hd i f f i c u l t yi nh a n d l i n gal a r g eq u a n t i t yo ft r a i n i n gd a t a i nt h i st h e s i s i no r d e rt os o l v et h ep r o b l e me x i s t i n gi nt e x t i n d e p e n d e n ts p e a k e r v e r i f i c a t i o nw h i l eu s i n gs v m w ed e v e l o pt h ea p p r o a c ho ff e a t u r em a p p i n gw h i c h u t i l i z i n gt h ef e a t u r es p a c ec l a s s i f y i n ga n dg m m a n dw ea l s od i s c u s st h es v m m o d e l i n gm e t h o d t h em a i nc o n t e n t so fs t u d yi n v o l v e di nt h i st h e s i sa r ea sf o l l o w s 1 i no r d e rt os o l v et h ep r o b l e mo ft h el a r g eq u a n t i t yo ft r a i n i n gd a t a t h e a p p r o a c ho fe x t r a c t i n gt h es p e a k e rf e a t u r ev e c t o rb yt h ef e a t u r em a p p i n g m e t h o db a s e do ng m m u b ms t r u c t u r ef o rs v ms p e a k e rv e r i f i c a t i o ni s d i s c u s s e d t h eg m m u b mb a s e df e a t u r em a p p i n gc a nr e a l i z et h ed a t a c o n d e n s a t i o na n de x t r a c tt h es p e a k e rf e a t u r ev e c t o r i nt h i st h e s i s w ea l s o d i s c u s sh o wt h em i x t u r eo ft h eu b ma f f e c t st h es y s t e mp e r f o r m a n c ea n d a n a l y z e st h em o d e l i n gm e t h o di nn i s t ss r em u l t i s i d et a s k 2 a na p p r o a c ho fs p e a k e rv e r i f i c a t i o nb a s e do ng m m u b ms t r u c t u r ef e a t u r e m a p p i n ga n ds v mi sp r o p o s e d t h ec g m m u b mf e a t u r em a p p i n g t h e d a t ao fd i f f e r e n ts p e a k e r sb e c a m em o r es u i t a b l et oc l a s s i f ya n dt h eg m m s a r et r a i n e dm o r ee x a c t l y i nt h i st h e s i s w ew i l ls h o wt h ea n a l y s i sf o rv q b a s e dc l a s s i f i c a t i o nm e t h o da n dp i t c hb a s e dc l a s s i f i c a t i o nm e t h o d w h i l e d i f f e r e n ts u b s p a c en u m b e r sa n dd i f f e r e n tg m mm i x t u r e sa l eu s e d t h e i i i a b s t r a c t e x p e r i m e n t ss h o wt h a t b yt h ee f f e c t so fc l a s s i f i c a t i o nf e a t u r em a p p i n ga n d f u s i n gt h es u b s y s t e ms c o r e s t h ec g m m u b m s v ms y s t e me n h a n c e st h e e e rp e r f o r m a n c e17 2 r e l a t i v ec o m p a r e dt ot h eg m m u b m s y s t e m a n d 7 6 r e l a t i v ec o m p a r e dt ot h eg m m u b m s v ms y s t e m k e yw o r d s s p e a k e rv e r i f i c a t i o n c l a s s i f i c a t i o n f e a t u r em a p p i n g s u p p o r tv e c t o r m a c h i n e g a u s s i a nm i x t u r em a c h i n e i v 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文 足本人在导师指导下进行研究工作所取得的成 果 除已特别加以标注和致谢的地方外 论文中不包含任何他人已经发表或撰写 过的研究成果 与我一同工作的同志对本研究所做的贡献均已在论文中作了明确 的说明 作者签名 签宁日期 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一 学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权 即 学校有权按有关规定向国家有关部门或机构送交 论文的复e f j f t 和电子版 允许论文被查阅和借阅 可以将学位论文编入有关数据 库进行检索 可以采用影印 缩印或扫描等复制手段保存 汇编学位论文 本人 提交的电子文档的内容和纸质论文的内容相一致 保密的学位论文在解密后也遵守此规定 口公开口保密 年 作者签名 凇岔彩 导师签名 签字日期 三堑皿 签字日期 j 7 第一章绪论 1 1 说话人识别概述 第一章绪论 实现人和智能设备之间进行畅通的语音交流 是近几十年来人们不断追求的 一个目标 自动语音识别是实现这一目标的关键性技术 自动语音识别是从语音 信号中提取我们所感兴趣的各种信息或者语音的性质 如语义内容 传输通道特 征 语言种类以及说话人身份等等的一种技术 自动语音识别开始于2 0 世纪5 0 年代 l 至今已经有5 0 多年的历史 它在通信 国防等诸多领域有着广阔的应 用前景 世界上很多国家和地区的大学 研究机构以及一些著名的大公司长期以 来都投入了巨大的人力和财力来进行语音识别领域的各项研究 自动说话人识别技术是语音识别技术的一个重要分支 它是高效的人机交 互 身份认证以及信息检索手段 对终端设备要求简单 只需要性能良好的麦克 风即可工作 识别率非常高 在图像 语音识别等模仿人类机能中 唯有自动 说话人识别的性能在某些情况下与人类的能力相当 甚至于超过人类 2 3 因 此 自动说话人识别可以应用于计算机和计算机网络的使用 一些关键部门的出 入控制 电话语音交易的身份认证 公安司法 军事上的电话语音监听 网络资 源准入 金融证券安全 以及一些个人设施如手机 p d a 的个性化设置等等 随着互联网的蓬勃发展以及网络资源的 爆炸式 增长 自动说话人识别也可以广 泛地应用于 数字化图书馆 中的语音检索以及信息获取 i n f o r m a t i o nr e t r i e v a l 目前这方面的研究正在深入地进行 自动说话人识别技术的研究始于6 0 年代 近4 0 多年来 在这一领域的研究 取得了重大进展 商用系统已经在若干领域得到了一定应用 1 9 6 2 年 b e l l 实 验室的l gk e r s t a 提出了使用语图仪 s o n o g r a p h 绘出的语谱图 s o u n d s p e c t r o g r a p h 进行说话人识别的方法 4 语谱图直观明了 经过专f j i j i i 练的人 可以直接看出不同话者之间语谱图的差别 但是 语谱图难以量化描述 计算机 无法直接使用语谱图进行说话人识别 十九世纪六十年代 数字信号处理技术开 始用于语音识别领域 其意义在于可以直接用计算机进行语义和说话人的识别 而不是非要专业训练的人才能进行这项工作 1 9 6 9 年l u c kj e 首先将倒谱 c e p s t r u m 技术用于说话人的识别 得到了较好的结果 5 7 0 年代 b sa t a l 和i t a k u r a 等人提出将线性预测编码 l i n e a rp r e d i c t i v ec o d i n g l p c 理论用于 语音信号处理领域 6 7 这以后 b sa t a l 考察了线性预测倒谱系数 l i n e a r 第一章绪论 p r e d i c t i v ec e p s t r u mc o e f f i c i e n t s l p c c 用于说话人识别 提高了系统的精度 8 在6 0 年代 与当时的语义识别中的技术手段相同 主要采用基于模版匹配的方 法进行说话人识别 七十年代初期 大多数说话人识别系统都是基于频谱和模板匹配方法的 例 如1 9 7 4 年 a t t 的a t a l 用模板匹配法研究了1 0 人的与文本有关的说话人识别 特征矢量是倒谱 c e p s t r u m 系数 其说话人辨认 o 5 秒 的误识率和说话人 确认 1 秒 的等误识率都是2 到七十年代后期 动态时间规整 d y n a m i c t i m e w a r p i n g d t w 和矢量量化 v e c t o rq u a n t i z a t i o n v q 开始被 应用到说话人识别中 9 1 0 1 1 使得说话人识别的性能得到了大幅度的提高 如1 9 8 5 年 德州仪器公司的d o d d i n g t o n 研究了基于d t w 方法和临界带 f i l t e r b a n k 特征矢量的与文本有关的说话人确认系统 当人数为2 0 0 测试 语音长度为6 秒时的等误识率为o 8 而a t t 的s o o n g 等人则研究了利用6 4 个码本的v q 进行说话人辨认 在人数为1 0 0 测试语音为1 5 秒长度的孤立数 字情况下 系统误识率约为5 6 在8 0 年代后 s b d a v i s 提出了m e l 频率倒谱系数 m f c c 的概念 1 2 m e l 频率倒谱系数是将信号的短时频谱 首先在频域将频率轴变换为m e l 频率刻 度 再变换到倒谱域得到的 m f c c 由于考虑到了人耳的听觉感知机理 具有较 好的识别效果和噪声鲁棒性 成为了语音识别中使用的主流参数 此时 人工神 经网络 a r t i f i c i a ln e u r a ln e t w o r k a n n 和隐马尔可夫模型 h i d d e nm a r k o v m o d e l h m m 也在语音识别领域得到了成功和广泛的应用 成为说话人识别中 的核心技术 1 3 1 4 1 5 9 0 年代后 特别是r e y n o l d s 对高斯混合模型 g a u s s i a nm i x t u r em o d e l g m m 做了详尽的介绍后 1 6 1 7 g m m 以其简单灵活有效以及具有较好的鲁棒性 迅 速成为目前与文本无关的说话人识别中的主流技术 将说话人识别带入一个新的 阶段 g m m 可以看作是只有一个状态的h m m 由于没有状态之间的转移 因 而降低了语义相关的时序信息的影响 通过短时分帧提取特征矢量 忽略时序信 息 g m m 能够对说话人总体的发音特征分布进行拟合 从而代表了该说话人与 文本无关的统计特征分布 2 0 0 0 年以后 r e y n o l d s 在说话人确认 也称为说话 人确认 任务中提出了u b m m a p u n i v e r s a lb a c k g r o u n dm o d e l m a x i m u ma p o s t e r i o r 结构 1 8 为说话人识别从实验室走向实用做出了巨大贡献 u b m m a p 降低了统计模型g m m 对训练集的依赖 说话人模型训练只需较少量的自适应语 音 并且增强了对训练条件和测试条件失配的鲁棒性 目前 大规模连续语音识别 l a r g ev o c a b u l a r yc o n t i n u o u ss p e e c hr e c o g n i t i o n 2 第一章绪论 l v c s r 应用于与文本无关的说话人识别 1 9 支持向量机 s u p p o r tv e c t o r m a c h i n e s v m 和g m m 的结合 2 0 2 1 语音信号中高层信息的应用 2 2 以 及因子分析 l m e mf a c t o ra n a l y s i s l f a 2 5 2 6 技术等 然而 到目前为止 最优秀的文本无关的说话人识别系统仍然是基于g m m 的 特别是u b m m a p 结 构 近年来 说话人识别的研究重点已经从实验系统转到实用系统 如实用背景 环境下特别是基于手机电话语音的识别系统上来 自8 0 年代中期以来 已经有大 量商用的说话人识别系统产品问世 如1 9 9 9 年l o 月份苹果公司在m a co s9 中加入 了v o i c ep r i mp a s s w o r d 功能 利用语音进行个人计算机的使用控f l t j 2 7 a t t 等 公司在开发新一代的v o i c e m a i l 的集成管理系统 如a t t 的s c a nm a i l 2 8 利用连续语音识别和说话人识别技术将音频形式的语音邮件转换为文本 并自动 识别发送人的名字 以便于用户浏览 1 2 文本无关的说话人确认 1 2 1 说话人识别 针对所感兴趣的信息的不同 语音识别分为若干研究方向 主要有语义 说 话内容 识别 语言 语种 识别以及说话人识别等 说话人识别并不关注语语 义内容 而是希望从语音信号中提取出代表个人身份的特征 识别出说话人的身 份 因此说话人识别在处理方法上除了需要描述说话人个人特征外 还力图强调 不同人之间的差别 而语义识别和语言识别则力图对不同人说话的差别加以归一 化 简而言之 说话人识别就是从语音波形信号中提取出所包含的说话人特征的 信息 并利用提取的信息对说话人进行身份的辨认或确认 根据是否需要用户在说话内容上配合 说话人识别可以分为与文本有关 t e x t d e p e n d e n t 和与文本无关 t e x t i n d e p e n d e n t 两种 前者要求用户必须 按规定的文本发音 可以用在用户比较配合的场合 后者则不关心语音信号中具 体的语义内容 因此可以用使用在用户不配合的场合 比如电话语音监听 战场 监控等 一般来说 与文本无关的说话人识别的使用更为灵活和广泛 但是难度 较大 训练和测试都需要较长的语音和音素内容丰富的文本 而与文本有关的说 话人识别 由于有文本内容的指导 可以达到较高的识别率 而且其训练和识别 都可以采用较少的文本 本文主要研究的是与文本无关的说话人识别 根据任务不同 说话人识别 s p e a k e rr e c o g n i t i o n 又可以分为两个范畴 3 第一章绪论 分别是说话人辨识 s p e a k e ri d e n t i f i c a t i o n 和说话人确认 s p e a k e rv e r i f i c a t i o n 也称为说话人确认 前者将未经标记的输入语音归为已知的若干个说话人中的 一个 是个一对多的问题 后者则是根据说话人的语音来确定是否是其所声明的 身份 确认一般情况下只有两种结果 是 或 非 这是一个一对一的问题 两 者的主要区别在于一是判决选择的数目不同 二是说话人确认需要一个 或多个 确认阈值 来得到最后的确认结果 说话人辨认是在全部注册说话人的范围中进 行的 因此辨认性能将与注册说话人的人数有关 随着注册说话人数的增加 系 统的辨认性能将有所下降 说话人确认的性能则与注册说话人的个数多少没有太 大关系 说话人确认和说话人辨认各有其不同的应用场合 本文主要对说话人确 认都进行了讨论 1 2 2 说话人确认 说话人确认不同于说话人辨认 它是根据说话人所声明的 身份 说话人输 入语音根据其所声明的身份标示只与标示说话人的模型相匹配 经相似度计算后 的一个输出评分和阈值进行比较后做出接受或拒绝的判决 是个 一对一 的问 题 说话人确认主要由三个部分组成 分别是前端处理 说话人建模以及对输入 语音做出判决 其中前端处理以及说话人建模阶段和说话人辨认中的相同 说话 人确认和说话人辨认的不同之处在于判决阶段 在测试阶段 测试语音在给出的 同时会附加一个身份说明 此语音信号在经过前端处理提取出时序特征参数序列 后 将其与身份声明所指定的说话人模型进行匹配 给出一个相似度评分 然后 将这个评分与阈值进行比对 最终得到确认结果 1 2 3 说话人确认系统的主要评估手段 对于说话人确认而言 由于存在着两种错误类型 因此说话人确认系统的 评估就变得相对复杂 目前存在着多种评估方法 本节对论文中涉及到的评估方 法进行简单的介绍 进行说话人确认需要将待识别语音与说话人模型的测试评分 按照一定的判 决规则得到确认结果 一般为 f 三 d 丁 c h o o s e z o 1 1 f 三 d 假设o t 是多维特征空间的一个观察矢量 其和混合度为m 的高斯模型进行 匹配的概率输出是不同加权的高斯分量的线性组合 即 m p d i 五 w b d f 2 一l o i z l 公式 2 1 0 中 w 为各个高斯成分的权重 满足限定关系式 m w j 1 1 只 d f i 1 m 为g m m 中不同高斯成分的概率输出函数 2 1 1 一南e x 韭辱幽 像 这里 d 为特征参数矢量维数 为第f 个高斯分布的均值矢量 d 维 为第f 个高斯成分的协方差矩阵 是一个d x d 的矩阵 g m m 的矩阵 可以有多 种形式 一种是每个高斯概率密度函数都有一个训练得到的方差矩阵 n o d a l c o v a r i a n c e 也可以是某一个说话人的g m m 模型的所有高斯概率密度函数共享 同一个方差矩阵 g r a n dc o v a r i a n e e 还可以是所有的说话人的g m m 模型都共 享同一个方差矩阵 g l o b a lc o v a r i a n c e 另外 方差矩阵既可以是满阵 f u l l 也可以是对角阵 d i a g o n a l 第二章基于g m m 的说话人确认 从理论上而讲 g m m 模型具有满阵的 矩阵能够更为精确的刻画说话人特 征的分布 然而这时的 对模型参数数目的影响严重 以语音特征参数3 2 维为 例 一个 的模型参数个数为5 2 8 个 如果模型混合度为1 0 2 4 可以发现模型 中所含的协方差参数就共有5 4 0 6 7 2 个 这样过多的模型参数数目不仅仅是给模 型的存储 计算 模型的训练过程中需要用到方差矩阵 的逆 带来困难 更重 要的是 由于g m m 对训练数据集的依赖性 过多的模型参数数目将给模型参数 估计带来非常不利的影响 因此 一般取d i a g o n a l 的方差矩阵形式 有理论表 明 提高模型的混合度m 可以在一定程度上减少由于使用对角阵对模型性能的 不利影响 但提高m 同样带来了增加模型参数的问题 2 3 2g m m 模型的参数估计 在统计理论中 g m m 的模型训练是一个有监督的优化过程在最大似然准则 下 最大期望 e x c e p t i o nm a x i m u m e m 估计算法被用来估计g m m 模型参数 本质上 最大似然 m a x i m u ml i k e l i h o o d m l 是要求模型描述的分布能够最 大限度逼近训练数据集的分布 假定训练集为观察特征矢量集d d 0 2 l o g m m 混合度选为m 则m l 准则下最优的模型参数满足如下公式 筋 弩a x 协北 锄 了 rj 2 1 3 即最优模型参数能够使得训练集与模型匹配似然度达到最大 容易看出 m l 使 得模型所描述的分布最大可能的逼近训练集的分布形式 所以 训练集越大并且 越能反映说话人特征的真实分布 则训练得到的g m m 越能接近真实分布 从而 说话人识别系统性能也就越高 对于观察矢量d f 令其模型五的似然度为p 2d r 则估计五的参数就是要 使后验概率p 五id f 最大 根据贝叶斯准则可知 p 五id f 坐单掣 2 1 4 p r o j 这里p 名 为模型五的概率 p d f 为d f 可能出现的概率 一般p 2 为常量 并且由于p d f 与参数估计无关 所以最大化p 2iq 就等于最大化p d f1 名 即 1 6 第二章基于g m m 的说话人确认 已知模型为五 观察到矢量d f 的概率 然而 观察矢量d 是不完全数 i n c o m p l e t e d a t a 在这里就表现为不知道q 来自于g m m 中的哪一个高斯成分 所以要借 助e m 算法 通过不断的迭代 得到模型参数的估计值 假定g m m 混合度为m 训练参数矢量个数为丁 可以的得到 7 以 叫 音号一 2 1 5 r a t f l 1 7 r a t o 弓l 广 形 f f l t l 2 1 6 r 形 d r 一以 d f 一鸬 7 7 旦 r r 一 2 1 7 乃 f a l t i 彤 f 的含义是观察矢量d f 落在第f 个高斯分布的后验概率 w 在训练集上 第f 个高斯成分出现的概率 2 4 基于g m m u b m 的说话人确认 2 4 1g m m u b m 的基本结构 在基于g m m 结构的说话人确认系统里 在训练g m m u b m 模型时 首先 用大量说话人语音训练u b m 采用g m m 的m l 算法 而训练目标说话人模型 的策略 是根据目标说话人训练矢量与u b m 的匹配程度 将u b m 的各个高斯 向目标说话人的训练矢量 拉动 训练采用最大后验概率 m a p 自适应算 法 1 7 第二章基于g m m 的说话人确认 图2 2 基于g m m u b m 的说话人确认系统框图 其中 全局背景模型是用很多不同种类语音参数采用g m m 的e m 算法训练 得到的 u b m 描述受到通道和背景噪声污染的很多人的语音参数在特征空间中 平均分布 具有平均意义 u b m 不仅包含语音信号的各种发音类的平均信息 还包含有平均的通道和背景噪声的信息 训练目标说话人g m m 的策略 是根据目标说话人训练矢量与u b m 的相似 程度 将u b m 的各个高斯向训练矢量调整 对于目标说话人的训练数据 o 0 1 0 1 听 先计算d 与u b m 中每个高斯的匹配似然度 p m i o 鲁业 2 1 8 c a 6 d rj 以 圭p m l d 再计算修正模型的最优参数 包 寺 喜跏 d f o 邑 d 2 寺 喜删q d f 2 2 1 9 2 2 0 2 2 1 最后 根据甩 导出的修正因子 修正u b m 中各个高斯混合度的参数 a 3 陋 刀肼 7 1 a c o 7 力 口 既 d 1 一口 脚 彦 口 已 d 2 1 一口 仃 三 m 2 2 2 2 2 2 3 2 2 4 其中 为权重的规整因子 用来保证西 的和为1 口 口 口 分别为对 第m 个高斯的权重 均值 方差的修正因子 第二章基于g m m 的说话人确认 咖寿 p w m v 2 2 5 式中 p 为常数 用来约束修j 下因子的变化尺度 一般选为1 6 由一些说话人 确认的相关实验证实 相对于权重和方差矩阵 g m m 的均值对于性能的影响最 为重要 并且权重和方差矩阵本身对于算法比较敏感 难于调整 因此在用m a p 算法训练目标说话人的模型时 通常只对g m m 的均值进行调整 而权重和方差 不变 在一定长度的训练语音下 匹配输出概率大的混合度修j 下因子较大 这使得 与训练语音特征分布接近的高斯被 拉向 目标说话人的分布 而对匹配输出值很 小的高斯修正因子趋向于0 该部分模型几乎不作修改 这表明 m a p 训练只 改动u b m 中与目标说话人特征接近部分的分布描述 在输出评分的对数似然比 计算中 这些修正结果将被保留 u b m 中与目标说话人特征分布较远的部分几 乎保持不变 它们对应了其他可能的非目标说话人的特征 将在对数似然比计算 中被消去 在训练语音较长时 即t 较大 总体较大 这意味着使用越多的 训练语音 说话人特征分布的 可信度 越大 修正目标说话人g m m 也就越 远 离 u b m 而接近目标说话人的分布 从而具有更好的性能 进行说话人确认时 系统输出评分是测试语音分别与目标说话人g m m 和 u b m 匹配的输出似然度的比值 在评分取对数的情况下 表现为两路输出的差 值 17 1 s 专 p o l l o g 尸 d ri 2 2 6 1 t l 式中 q 是测试语音的一帧特征矢量 和五删分别代表目标说话人g m m 和 u b m s 即为输出的对数似然比评分 g m m u b m 作为目前文本无关说话人识别s t a t e o f a r t 的系统结构 有着普 通的g m m 结构一些无法比拟的优点 首先 u b m 是一个混合度非常高的g m m 它由很多人的大量各种背景条 件下的语音数据 用e m 算法训练而成 因此g m m 中每个高斯 隐式 对应的声 学特征得到了充分的描述 u b m 的训练数据的特点 因此可认为u b m 描述的 特征分布是所有说话人特征分布的并集 具有背景意义 其次 目标说话人的 g m m 是与u b m 混合度相同的g m m 它是通过m a p 自适应算法由u b m 中得 到的 通过m a p 在u b m 和目标说话人模型的高斯混合度之间建立了一一对 应的关系 u b m 中描述非限定人的语音分布的部分参数会得到修正 而u b m 中描述通道以及背景噪声的参数则不会被修正 从而对说话人特征的刻画更细 1 9 第二章基于g m m 的说话人确认 致 与u b m 之间的区分性也更强 对于只使用g m m 的系统 g m m 训练时只 对训练语音集建模 并且由于训练语音集较少 因此很容易在模型中隐含对训练 环境的描述 如果测试与训练环境失配 则识别性能会大幅下降 再次 在 g m m u b m 中 由于使用了m a p 算法 目标说话g m m 只需要较少的语音就可 以训练出较为精确的模型参数 而单独的g m m 结构 往往需要大量的训练语音 参数才能训练出高混合度的说话人g m m 模型 最后 在对特征矢量进行测试时 u b m m a p 的输出对测试语音中的背景影响具有较好的抵消作用 突显了目标说 话人的特征 因此拥有比单独使用g m m 更好的性能及噪声鲁棒性 同时也可以 对各个人的评分起到评分规整的作用 2 4 2 参数级规整方法 由于受到概率统计模型自身的约束 直接通过对概率统计模型进行改进来改 善说话人识别系统的性能往往是比较困难的 因而需要从新的方向来进行弥补 目前 经常采用的方法一般是参数级 模型级和评分级的 参数级的方法直观有 效 直接针对语音参数的具体问题进行分析 因此效果最好 接下来我们介绍两 种具体的方法 2 4 2 1 矩规整 我们已经知道 随机变量x 的一阶原点矩是数学期望e x 二阶中心矩 是方差d x k 阶原点矩定义为e x k 阶中心矩定义为e x e x 原 点矩和中心矩都反映了数据的统计特性 对于标准高斯分布而言 其一阶原点矩 为o 二阶中心矩为一常数 推广而言 其奇数阶次的中心矩均为0 偶数阶次 的中心矩均为常数 如果可以将语音参数的中心矩规整到类似于高斯分布 可以 在一定程度上达到规整其分布的目的 而说话人识别中的倒谱均值相减 c e p s t r a l m e a ns u b t r a c t i o n c m s 3 5 1 和倒谱方差 c e p s t r a lv a r i a n c en o r m a l i z a t i o n c v n 技术正是这一原理的体现 近年来 有学者又提出了更高阶矩的规整 也取得了 一定的效果 a 一阶矩规整 c m s 和二阶矩 方差 规整 c v n 语音信号的倒谱参数计算是一个盲解卷的过程 把卷积信号转换为加性信 号 因此在倒谱域里 卷积噪声的影响就变成了加性的影响 假设传输信道的性 质相对于语音信号而言在较长的时间内是稳定的 因此其倒谱参数也就不变 并 且假设卷积噪声同语音信号不相关 这样就可以在倒谱域上通过一个高通滤波器 第二章基于g m m 的说话人确认 将慢变的卷积噪声滤掉 倒谱均值相减便是基于这样一种想法 它将一段语音的 倒谱参数减去这段语音倒谱参数的均值 以消除传输信道的影响 c m s 同时还 产生了一些改进算法 例如c v n 进一步规整了通道的方差信息 c m s 和c v n 的缺点是它们需要较长时间的语音来计算倒谱均值 因此应用于实时系统时较为 困难 c m s 和c v n 的另一个缺点是在计算语音均值的时候并没有区分语音段和 静音段 这会噪声通道的倒谱估计不准确 又有学者提出了语音段和静音段分别 计算均值等改进c m s 方法 3 6 3 7 3 8 b 四阶矩规整及高阶矩规整 h o c m n c m s 和c v n 在语音信号的倒谱域去除了语音倒谱参数的均值和方差 在一 定程度上抵消了传输信道影响 然而为了使得参数规整更加的精细 更加接近于 标准高斯分布 还可以进一步规整语音参数其它物理量 如高阶矩 3 9 4 0 四 阶矩的规整便是高阶矩规整的一个特例 四阶矩e x 4 规整就是通过乘以一个系数从而类似于高斯分布的四阶矩 此 处的规整也是对语音信号的倒谱参数进行处理的 设经过c m s 的语音参数为 五 船 四阶矩规整后的参数为誓 j x t 问题的关键在于求出b 而 标准高斯分布的四阶矩为三 即规整之后e 一4 1 e 4 6 4 e k 3 故 62 瓦南 4 对于更普遍意义上的高阶矩的规整 h i 曲e r r d e r c e p s t r a lm o m e n tn o r m a l i z a t i o n h o c m n 假设经过n 阶矩规整后的语音参数 为五 则经过规整后 勰卜 m 戮 p 2 7 e 碟 n 为偶数 其中m 为方差为1 均值为0 的标准高斯分布的第n 阶矩 为一常数 这样 对 h o c m n 而言 当n 为偶数时 和四阶矩规整类似 通过乘以一个系数就可以得 到规整结果 即 6 2 币m 焉n 2 2 8 当n 为奇数时较为复杂 因为前一偶数阶次的矩规整会影响到这一奇数阶次 2 1 第二章基于g m m 的说话人确认 的规整 对n 为奇数时的h o c m n 定义为 誓 搿 五 1 c 其中c 一口e 蹦 a m 州 这样 口 誓n l i 一m 1 五州j 2 2 9 2 3 0 可以近似推出口 丙1 i 丢毒 n 使用递归算法得到最终的规整结 果 矩规整方法在低阶时效果明显 阶次高时规整更为精细 计算较为复杂 性 能相对提高已不是大 应用不是很广泛 2 4 2 2r a s l a r a s t a 是h e r m a n s k y 等人于1 9 9 4 年提出来的 是对c m s 方法进行推广 可 以得到对时间轨迹的r a s t a 处理 r a s t a 处理也被称作r e l a t i v es p e c t r a p r o c e s s i n g 主要是为了解决缓慢时变的线性信道带来的失真 4 1 而c m s 则用 于去除时不变的信道干扰 r a s t a 的本质是一个倒滤波器 它消除了较低和较 高的调制高频成分 除了受到推广c m s 的启示以外 r a s t a 方法还是基于某 种听觉原理的 听觉原理是指听觉系统对信号中的变化尤其敏感 有证据表明 听觉通道对4 h z 左右的调制频率最为敏感 这一调制频率有时也被称作音节速 率 它大致对应了我们正常说话时音节出现的频率 r a s t a 处理正是利用了听 觉上对这一调制频率的敏感性 由于人耳对于很低的调制频率成分布敏感 所以 对于慢变信道引起的失真 r a s t a 对每个通道都采用了一个滤波器 用于去除 滤波通道中的直流和邻近直流的频率成分 此外 r a s t a 滤波器也对较高的调 制频率进行了抑制 以此来突出人耳对以4 h z 频率变化的信号的敏感 一个典 型的r a s t a 滤波器的频响如式 2 3 1 所示 和c m s 一样 r a s t a 目前也是 参数规整中的基本方法 砷 0 1 2 4 等字 2 3 1 第二章基tg m m 的说话人确认 2 5 本章小结 本章主要探讨了在说话人确认中被广泛使用的概率统计模型g m m 的结构 及相应的算法 同时 还介绍了m f c c 特征参数的原理和提取方法 针对概率 统计模型自身的限制 本章还阐述了两种参数级的方法 使得参数在复杂环境下 具有较强的鲁棒性 g m m 基于模式识别中的贝叶斯判决理论 它将复杂的分类问题装换成对数 据的分布估计问题 将复杂的语音训练匹配问题转化成模型参数的选择和训练 概率的计算等等 解决了语音识别中的许多问题 促进了相关方面的研究 g m m 是一种概率统计模型 在与文本文无关的说话人识别任务中获得了广泛的应用 是目前最为成功的文本无关的说话人模型 m f c c 参数加统计模型已经成为目前 文本无关的说话人识别首选的识别方法 但是 概率统计模型参数估计的可靠性 要依赖于训练数据集 当训练数据量不足或者是训练和测试失配时 就无法对数 据的分布形式做出一个可靠的估计 因此也就无法得到g m m 模型参数的可靠估 计 g m m u b m 体系的确立更进一步提升了g m m 在文本无关的说话人确认方 面的地位 在近些年的n i s ts r e 任务中可以看到 表现优异的单位其系统大部 分基于g m m u b m 或者将g m m u b m 作为多系统融合中的重要子系统 第三章基于支持向鼍机的说话人确认 3 1引言 第三章基于支持向量机的说话人确认 在基于概率统计模型g m m 的文本无关的说话人确认系统中 说话人模型 只着重于对目标说话人的统计特征进行描述 它通过对目标说话人的特征数据集 的概率统计分布的描述来进行说话人识别 所以 g m m 的识别性能有赖于目标 说话人模型的描述精度以及训练数据的收集 具有较好的鲁棒性 而支持向量机 s u p p o r tv e c t o rm a c h i n e s v m 是区分性模型 只着眼于两类数据的边界描述 不注重某类数据内部的分布 具有良好的区分性 由于其良好的区分能力 我们 研究将s v m 用于说话人确认的说话人建模 支持向量机是建立在统计学习理论基础之上的机器学习方法 4 2 通过学习 算法 s v m 可以自动寻找出对分类有较好区分能力的支持向量 由此构造出类 间间隔最大化的分类器 目前 支持向量机算法在模式识别 回归估计 概率密 度函数估计等方面都有应用 在模式识别方面 对于手写数字识别 语音识别 人脸图像识别 文章分类等问题 s v m 算法在精度上已经超过传统的学习算法 或与之不相上下 4 3 近年来 作为一种区分性模型 支持向量机开始被应用说 话人确认这样的二元分类问题 并取得了一定了效果 作为一种针对小样本的机 器学习算法 s v m 对小样本情况下的自动分类具有很好的效果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 化学人教版选修5第三章 烃的含氧衍生物第四节 有机合成教学设计1
- 2024-2025学年高中语文 第4单元 12 飞向太空的航程说课稿 新人教版必修1
- 中医药技术培训考试题及答案
- 中医考试题及答案解析
- 2024年泉州2024年道路旅客运输从业资格证模拟试题
- 商务考察用车无偿租给企业使用合同范本
- 酒店式公寓店面产权转让与酒店式管理服务合同
- 人工智能商业数据分析资源授权与智能决策协议
- 个人旅游贷款合同展期与旅游服务保障协议
- 2025企业员工合同终止证明
- 蛋白质分离纯化及鉴定
- 2024年化粪池清理合同协议书范本
- 实用美术基础中职全套教学课件
- 债权债务法律知识讲座
- 南京财经大学《812西方经济学(宏观经济学、微观经济学)》历年考研真题及详解
- 基于教育培训行业的客户关系营销研究
- 肉制品工艺学-香肠类制品-课件
- 超全QC管理流程图
- 2广告实务课程标准
- 001 比较思想政治教育(第二版) 第一章
- GB/T 2992.1-2011耐火砖形状尺寸第1部分:通用砖
评论
0/150
提交评论