




已阅读5页,还剩68页未读, 继续免费阅读
基于韵律特征gmmubm说话人确认研究硕士论文.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
嘲 0 i i i i il l i iii i i i iiii i i i i ii il y 2 6 0 16 9 8 u n i v e r s i t yo fs c i e n c ea n dt e c h n o l o g yo fc h i n a adi s s e r t a t i o nf o rm a s t e r sd e gr e e r e s e a r c ho fs p e a k e rr e c o g n i t i o no n p r o s o d i cf e a t u r eo ng m m u b m a u t h o r sn a m e q i a n gt o n g s p e c i a l i t y c i r c u i t sa n ds y s t e m s s u p e r v i s o r f i n i s h e dt i m e a p r o f h u il i a p r i l2 3 r d 2 0 1 4 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文 是本人在导师指导下进行研究工作所取得的成果 除己特 别加以标注和致谢的地方外 论文中不包含任何他人已经发表或撰写过的研究成果 与我一 同工作的同志对本研究所做的贡献均己在论文中作了明确的说明 作者签名 毅 i i i i 字i i i i 立暨 轮色 靶 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一 学位论文著作权拥有者授权中国科学技术大学拥有学位论文 的部分使用权 即 学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版 允许论文被查阅和借阅 可以将学位论文编入有关数据库进行检索 可以采用影印 缩印或 扫描等复制手段保存 汇编学位论文 本人提交的电子文档的内容和纸质论文的内容相一致 保密的学位论文在解密后也遵守此规定 q 丞开口保密 年 作者签名 盔 主毫 导师签名 签字日期 壹皇l 堕 是 生 签字日期 矽 彩 舌 够 摘要 摘要 文本无关的说话人识别是目前语音信号处理的一个重要研究方向 其广泛的 应用于公安 军队 金融等领域的身份验证和信息检索 使得说话人识别技术在 全世界各研究机构的努力下不断发展和革新 为了考察语音技术的最新研究和发 展水平 美国国家标准技术委员会 n i s t 于1 9 9 6 年开始组织了说话人识别的 评测 n i s t 也代表了全世界说话人识别领域的最高水平 它设立了多个评测任 务 并为每个参赛单位提供了统一的多通道和多环境的电话和广播语音 测试规 则和标准 用于研究不同环境和条件下的语音技术的研究方法 在n i s ts r e 中 用长语音进行说话人识别是说话人识别任务的一个子任务 就是为了研究如何用 语音信号中的高层信息经行话者确认而设置的 除了我们常用的梅尔倒谱特征参数姗c c 语音中的高层特征参数也是一种 用于说话人识别的有效特征参数 但其往往是与文本内容有关的 因此如何从语 音信号中提取出文本无关的高层特征参数用于说话人识别是目前研究的焦点 本 文在如何提取韵律特征的参数及结合高斯混合模型用于说话人识别进行了探讨 针对上述问题 本文所做的工作主要有以下3 点 1 本文首先详细介绍了常用的基频提取方法 自相关函数法 循环幅值差分 函数法 倒谱法 通过实验 研究了基频提取的正确率对基于超音段韵律 特征参数的说话人识别系统性能有较大影响 并提出了改进的基于循环幅 值差函数法和倒谱法的方法 对这四种方法经行了实验对比 通过实验验 证 各项指标包括均方根误差 基频正确率和严重错误率表明 改进的基 于循环幅值差函数法和倒谱法的方法 也即是本文的方法比其他三种中任 何一种要好 2 本文通过实验说明了不同的说话人超音段韵律特征分布的差异 并根据这 种差异 构建了基于超音段韵律特征的高层说话人特征参数 结合经典的 g m m u b m m a p 的识别模型 搭建了基于超音段韵律特征参数的说话人 识别系统 通过实验 该系统单独用于说话人识别的等误识率e e r 达到 1 7 7 7 3 短时特征参数m f c c 反映了说话人的声道特征 而超音段韵律特征参数 以基频为主线 反映了说话人的音源特征 二者从不同角度反映了说话人 的特征信息 可以相互补充的提高说话人识别系统的性能 本文提出基于 怀疑距离的系统融合 实验结果表明 相比较于常用的输出评分等权值相 加方法和经验权值线性融合方法 从d e t 曲线和e e r 来观察 有一定的 提高 并研究了不同的融合区间 发现选取一定的怀疑区间 特别是一定 摘要 范围高于阈值的怀疑区间能使系统的性能有一定提高 e e r 从5 9 2 提高 到了4 9 5 相对有1 6 3 9 的提高 关键字 超音段韵律特征 文本无关说话人识别 基频 系统融合 融合区间 a b s t 旧c t a b s t r a c t t e x t i n d e p e n d e n ts p e a k e rr e c o g n i t i o ni s a ni m p o r t a n tr e s e a r c hd i r e c t i o no f s p e e c hs i g n a l sp r o c e s s i n g a si tw i d e l yu s e di np u b l i cs e c u r i t y a r m y f i n a n c ea n d o t h e rf i e l d so fa u t h e n t i c a t i o na n di n f o r m a t i o nr e t r i e v a l t h es p e a k e rr e c o g n i t i o n t e c h n o l o g yd e v e l o p sa n di n n o v a t e sd a yb yd a yu n d e rt h er e s e a r c hi n s t i t u t i o n sa r o u n d t h ew o r l dh a r dw o r k i n g i no r d e rt oi n v e s t i g a t et h el a t e s tr e s e a r c ha n dd e v e l o p m e n to f s p e e c ht e c h n o l o g yl e v e l t h en a t i o n a li n s t i t u t eo fs t a n d a r d sa n dt e c h n o l o g y n i s t b e g a nt oo r g a n i z et h ee v a l u a t i o no fs p e a k e rr e c o g n i t i o ni n19 9 6 n i s ta l s or e p r e s e n t s t h eh i g h e s tl e v e li nt h ef i e l do fs p e a k e rr e c o g n i t i o na r o u n dt h ew o r l d i th a ss e tu pa m u l t i p l ea s s e s s m e n tt a s k s a n dp r o v i d e d u n i f i e dm u l t i c h a n n e la n dk i n d so f e n v i r o n m e n to f t e l e p h o n ea n dr a d i ov o i c e u n i f i e dt e s tr u l e sa n d s t a n d a r d sf o re a c ho f p a r t i c i p a t i n gu n i t s t h e yu s e d t os t u d y s p e e c ht e c h n o l o g yr e s e a r c hm e t h o d si n d i f f e r e n te n v i r o n m e n ta n dc o n d i t i o n s i nn i s ts r e s p e a k e rr e c o g n i t i o nt a s kw i t h l o n gs p e e c hi so n eo ft h e m w h i c ha i m t os t u d yh o wt ou s et h eh i g h l e v e li n f o r m a t i o n i nt h es p e e c hs i g n a lt or e c o g n i z e i na d d i t i o nt ot h em e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t m r c c t h ev o i c eo ft h e b j g h l e v e lc h a r a c t e r i s t i cp a r a m e t e r si sa l s oak i n do fc h a r a c t e r i s t i cp a r a m e t e r su s e di n t h es p e a k e rr e c o g n i t i o n i ti so f t e na s s o c i a t e d i lt h et e x tc o n t e n t s oh o wt oe x t r a c t t e x t i n d e p e n d e n th i g h l e v e lc h a r a c t e r i s t i cp a r a m e t e r sf r o mt h es p e e c hs i g n a lu s e di n s p e a k e rr e c o g n i t i o ni st h ef o c u so fc u r r e n tr e s e a r c h t h i s t h e s i sm a k e sa ni n d e p t h s t u d yo nh o w t oe x t r a c tt h eh i g h l e v e lp a r a m e t e r so ft h ep r o s o d i cf e a t u r e sf r o mt h e s p e e c hs i g n a la n dc o m b i n et h eg a u s s i a n m i x t u r em o d e l g m m a c c o r d i n gt ot h ea b o v ep r o b l e m s t h i sm a i nw o r ko ft h ep a p e rc o n s i s t st h et h r e e p o i n t s 1 i nf i r s t t h i st h e s i si n t r o d u c e st h ec o m m o nm e t h o d st oe x t r a c tp i t c hf r o mt h e s p e e c hs i g n a l t h e a u t o c o r r e l a t i o nf u n c t i o n a c f t h ec i r c u l a ra v e r a g e m a g n i t u d ed i f f e r e n c ef u n c t i o n c a m d f t h ec e p s t r u mf u n c t i o n t h ea c c u r a c y o fp i t c he x t r a c t i o nh a sag r e a ti n f l u e n c eo np e r f o r m a n c eo ft h es y s t e m a n dp u t s f o r w a r dt h ei m p r o v e dm e t h o db a s e do nt h ec a m d fa n dt h ec e p s t r u mf u n c t i o n a n dt h ec o m p a r et h e s ef o u rm e t h o d si nt h ee x p e r i m e n t s b ye x p e r i m e n t s t h e i m p r o v e dm e t h o db a s e do nt h ec a m d f a n dt h ec e p s t r u mf u n c t i o nt h ei n d i c a t o r s i sb e t t e rt h a na n yo n eo ft h eo t h e rt h r e e si n t h er o o tm e a ns q u a r ee r r o r r m s e t h ea c c u r a c yo fp i t c he x t r a c t i o na n dt h eg r o s se r r o rr a t e g e r 2 t h i st h e s i si l l u s t r a t e st h ed i f f e r e n tp r o s o d i cf e a t u r e s f r o md i f f e r e ms p e a k e r s t h r o u 曲t h ee x p e r i m e n t s a n da c c o r d i n gt ot h e d i f f e r e n c e at e s t i n d e p e n d e n t s p e a k v e r i f i c a t i o nm e t h o dw a sp r o p o s e db a s e do n s u p e r s e g m e n tp r o s o d i c 埯a t l 鹏a n dg m m u b m m 姐e x p e r i m e n t ss h o w t h a tt h ee q u a le r r o a t e e e r o lt h es y s t e mb a s e do n s u p e r s e g m e n tp r o s o d i cf e a t u r ec a i lr e a c h17 7 7 s h o r t t e r mf e a t u r ep a r a m e t e r s m f c c r e f l e c t st h ec h a n n e lc h a r a c t e r i s t i c so f t h e s p e a k e r a n ds u p e r s e g m e n tp r o s o d i cf e a t u r ei sb a s e do nt h e p i t c h r e f l e c t st h e s p e a k e ra u d i os o u r c ec h a r a c t e r i s t i c s b o t ho ft h e mc a nr e f l e c t st h ec h a r a c t e r o fm e s p e a k e ri n f o r m a t i o nf r o md i f f e r e n ta n g l e s s ow ec a n i m p r o v et h ep e r f o 瑚a n c eo f s p e a k e rr e c o g n i t i o ns y s t e mw i t hc o m p l e m e n t a r yb yf u s i o n i nt i l i s t 1 1 e s i s t h e t h s i o nb a s e do ns u s p i c i o nd i s t a n c ei sp u tf o r w a r d t h ee x p e r i m e n t a lr e s u i t ss h o w t h a t c o m p a r e dw i t ht h ec o m m o ns a m ew e i g h ta d d i t i o nm e t h o da 1 1 d 廿1 ec o i l l m o n e x p e n e n c ew e i g h tl i n e a rf u s i o nm e t h o d t h e r ei sac e r t a i ni m p r o v e m e n t 舶m d e t c h iv ea n dt h ee e r s t u d i e dt h ed i f f e r e n tr a n g eo f p l u so rm i n u sf u s i o n w ef i n d t 上1 a t s e l e c t l n gc e r t a i ns u s p e c tr a n g e e s p e c i a l l yac e r t a i np l u sr a n g e c a nc e n a i l l l v l m p r o v e st h ep e r f o r m a n c eo ft h es y s t e m e x p e r i m e n t ss h o wm a tt h ee e r w a s m c r e a s e qf r o m5 9 2 t o4 9 5 a n dw a s i m p r o v e db y1 6 3 9 c o m p a r e d b yt l l e m a i ns y s t e m k e yw o r d s s u p e r s e g r n e n tp r o s o d i cf e a t u r e t e x t i n d e p e n d e n ts p e a k e rr e c o g n i t i n p i t c h s y s t e mf u s i o n s u s p i c i o nd i s t a n c e 目录 目录 摘要 工 a b s t r a c t i i 工 目录 v 第一章绪论 l 1 1 说话人识别概述 1 1 1 1 说话人识别的发展与背景 1 1 1 2 语音识别分类 2 1 2 文本无关的说话人确认系统 4 1 3n i s ts r e 说话人评测 4 1 4 系统评价标准 6 1 4 1 等误识率 6 1 4 2 检测代价函数 7 1 4 3d e t 曲线 8 1 5 本文研究的关键问题 9 1 6 本文的主要研究内容 9 第二章基于g m m u b m m a p 的文本无关的说话人确认 1 1 2 1 引言 1 1 2 2 特征参数提取 1 2 2 3g m m 的基本原理 1 6 2 4g m m 参数估计 1 8 2 5m 心压 u b m m a p 结构 2 0 2 5 1g m m u b m 结构框架 2 0 2 5 2 自适应算法 2 2 2 6 基于p u b m 的快速算法 2 4 2 7 实验与结果 2 6 2 8 本章小结 2 7 第三章基于超音段韵律特征的说话人确认系统 2 9 3 1 概述 2 9 3 2 基频 3 0 3 3 基频提取 3 0 3 3 1 自相关函数法 a c f 提取基频 3 1 3 3 2 循环短时幅度差分函数 c a m d f 提取基频 3 1 3 3 3 倒谱法提取基频 3 3 3 4 基频方法融合 3 6 3 5 均方根误差 基频正确率和严重错误率 3 7 3 6 超音段韵律特征参数的构成 3 8 3 7 基于韵律特征的说话人识别系统 3 9 3 8 实验及分析 4 0 v 目录 3 9 本章小结 4 5 第四章基于韵律特征参数的说话人识别系统的融合研究 4 7 4 1 概述 4 7 4 2 评分规整 4 7 4 3 常用的评分融合方法 4 9 4 4 系统融合 5 0 4 5 实验及结果分析 5 l 4 6 本章小结 5 5 第五章总结与展望 5 7 5 1 工作总结 5 7 5 2 未来工作展望 5 8 参考文献 5 9 致谢 6 5 攻读硕士学位期间发表的论文 6 7 第一章绪论 1 1 说话人识别概述 第一章绪论 说话人识别 s p e a k e rr e c o g n i t i o n s r 技术又称声纹鉴别 v o i c e a u t h e n t i c a t i o n 技术 1 它是一种从说话人的语音波形中提取出能反映说话人 生理特征和行为特征的参数 并用这个参数识别说话人身份的技术 说话人识别 技术是一种有效便捷的人机交互 身份认证以及信息检索手段 其对终端设备要 求较低 一般性能良好的麦克风即可达到较高的识别率 2 3 说话人识别与图 像识别 人脸识别 笔迹识别等模仿人类机能的其它模式识别相比较 识别率较 高 甚至能在某些情况下超越人类自身的识别率 4 说话人识别有其鲜明的特点 说话人识别系统使用的 密码 即为人们的声 音 无需记忆 获取方便 其次 每次使用的语料内容可以随机 不容易窃取和 伪造 第三 识别所依赖的的语音信号生活中大量存在 可以用在用户不配合得 场合 5 第四 识别所需的终端设备简易低廉 方便通信 一般电话 手机 麦克风皆可 基于以上特点 自动说话人识别技术有着广泛的社会应用需求 特 别是在公安 军队 银行等需要安全认证的行业 如特殊重要场合的进出控制 安全部门的电话鉴定等等 6 1 1 1 说话人识别的发展与背景 说话人识别的研究起始于2 0 世纪中叶 发展历程如图1 1 所示 1 9 4 5 年 b e l l 实验室的l g k e s t a 目视观察语谱图 s p e c t r o g r a mm a t c h i n g 提出了 声 纹 v o i c e p r i n t 的概念 1 9 6 2 年 l g k e s t a 构建了最初的自动说话人识别系 统 该系统以语音频谱为特征 通过匹配话者频谱确认是不是说话人 在1 2 人 的规模下 取得较好的识别率 7 以b e l l 实验室为代表的众多科研机构的不懈 努力下 7 0 年代说话人识别技术取得长足的进步 1 9 7 2 年a t a l 将在时域语音波 形中提取出的基频轮廓用来说话人识别 动态时间规整 d y n a m i ct i m e w a r p i n g d t w 技术 8 向量量化 v e c t o rq u a n t i z a t i o n v q 技术 9 隐马尔可夫模型 h i d d e nm a r k o vm o d e l h m l v l f10 1 人工神经网络 a r t i f i c i a ln e u r a ln e t w o r k a n n 1 1 技术等也在这段时间成为说话人识别的核心技术 2 0 世纪9 0 年代中 后期 r e y n o l d s 详细介绍了高斯混合模型 g a u s s i a nm i x t u r em o d e l g m m 1 2 g m m 简单灵活和较好鲁棒性等特点 迅速成为说话人识别技术的主流技术 2 1 世纪以来 r e y n o l d s 在说话人识别任务中 提出自适应的话者模型结构 u n i v e r s a l 第一章绪论 b a c k g r o u n dm o d e lm a x i m u map o s t e r i o r u b m m a p 结构 降低了统计模型 g m m 对训练集的依赖 增强了对训练和测试条件适配的鲁棒性 2 0 0 2 年 我们实验室的李霄寒师兄等在微软亚洲研究院访问学习期间 在 张益肇主任研究员的指导下 与清华大学的陈韬及研究院的马成员助理研究员合 作完成的 多通道的说话人识别系统 在美国国家标准技术署评选中荣获 金星 奖 该系统是基于g m m u b m 结构的 频谨 模板匹配d t w v q 图1 1 说话人识别发展框图 5 1 现在 g m m u b m m a p 仍然是说话人识别系统中话者建模的主流方法之一 在参数提取方面 主分量分析 p r i m a r yc o m p o n e n ta n a l y s i s p c a 技术和独立 分量分析 i n d e p e n d e n tc o m p o n e n ta n a l y s i s i c a 技术也被用于提取说话人特 征 以基频轨迹 p i t c ht r a c k 语速为代表的韵律特征信息等其他高层信息越来 越受到大家关注 1 1 2 语音识别分类 语音信号中包含了丰富的信息 根据在语音信号中关注的信息不同 语音识 别主要被分为语义识别 语种识别 说话人识别等 其中 语义识别关注语音信 号中的文本内容 希望提取出该段语音中的语义信息 不注重其中的说话人身份 信息等 语种识别关注语音文本内容的语言种类 通过测试语音识别出该说话人 所说的语种 而语音信号中的说话人特征信息是说话人识别关注的重点 希望通 过这段语音提取出说话人特征信息 识别出说话人的身份 在军队 公安 金融 等场合有广泛的应用前景 本文研究的正是语音识别中的说话人识别 说话人识别还可以根据对语音的要求上分为与文本无关的 t e x t i n d e p e n d e n t 说话人识别和与文本有关的 t e x t d e p e n d e n t 说话人识另j 1 s 前者是指对说话 人模型的训练与测试的语料内容没有特定的要求 而且训练与测试的语料也不要 求一致 有语音文本内容自由 所需语音较长 可用在用户不配合的场合等特点 文本有关的说话人识别是指模型训练测试语料内容必须是给定的文本 训练和测 试的语料完全一致 有语音文本内容受限 所需语音较短 用在用户较配合的场 合等特点 i 手 第一章绪论 根据说话人的识别系统的应用 还可以将说话人识别分为两个类别 分别是 说话人确认 s p e a k e rv e r i f i c a t i o n s v 和说话人辨认 s p e a k e ri d e n t i f i c a t i o n s i 1 4 二 a 说话人辨认 b 说话人确认 图1 2 说话人确认和说话人辩认的结构框图 2 0 新 果 j 判决 结果 是 否 如图1 2 中 a 图所示 说话人辨认是将一段语音中提取出的特征参数 与若干说话人模型匹配 找到匹配最好的话者模型并标记 是个一对多的问题 而说话人确认如图1 2 中 b 图所示 是根据输入语音判断说话人的身份是否 第一章绪论 为注册说话人 其结果只有 是 和 否 两个结果 是个一对一的问题 它们 的区别主要在于 说话人辨认是需要比较和确认的模型数目较多 而说话人确认 时需要一个阈值来经行最终的 是 和 否 的判断 前者是在一定说话人范围 中选择 也会随着说话人数目的增加和范围的扩大 系统分分辨性能和反映时间 下降 但会随着说话人数目的增加和范围的扩大说话人确认系统没有太大影响 本文研究的是文本无关的说话人确认系统 1 2 文本无关的说话人确认系统 图1 3 说话人确认系统框图 如图1 3 示 为说话人确认系统框图 一段语音进入系统后 提取出特征参 数 与申明话者的模型进行匹配 给出评分 与阈值比较 最终得到 是 与 否 的判决结果 1 5 1 3n i s ts r e 说话人评测 由美国国家标准技术署n i s t 举办 自1 9 9 6 年以来每年一次 2 0 0 6 年后改 为每2 年一次的说话识别评估测试平台 衡量目前世界上说话人识别技术的最新 成果 我们称它为n i s ts r e n a t i o n a li n s t i t u t eo fs t a n d a r da n dt e c h n o l o g ys p e a k e r r e c o g n i t i o ne v a l u a t i o n s 16 随着语音技术 特别是说话人确认技术的应用与发展 n i s ts r e 每次评测中 的人物数目和种类又会有相应的调整 吸引着全世界的科研单位参加该评测 4 第一章绪论 表1 1n i s t 2 0 0 8 说话人评测任务 任务 测试条件 l o s e cs h o r t 3 l o n g s u m m e d 1 0 s e c 训 s h o r t 2心 t 练 3 c o n v 条 8 c o n y 件 l o n g 3 s u m m e d 表l 一1 中 为必选条件 为可选条件 可以看出 n i s t2 0 0 8 的 评测任务包括6 种训练条件和4 种测试条件 并在这2 4 种对应关系中的1 3 种情 况作为测试任务 其中 训练条件为s h o r t 2 测试条件为s h o r t 3 的评测为核心任 务 也是所有参赛单位必选参加的项目 训练条件为s h o r t 2 表示的是每条近似 为5 分钟的双通道的电话语音和每条近似3 分钟的麦克风录制的采访对话语音 而测试条件为s h o r t 3 不仅有长度5 分钟的电话语音和3 分钟的电话语音 还有5 分钟麦克风录制的电话语音 其它的任务各参赛机构根据自己的情况选择参加项 目 到目前为止 来自全世界的4 0 多个著名的科研机构和大学参加了该评测 包括麻省理工学院 i b m 微软 斯坦福大学等等 我们实验室也从0 3 年参加 了该评测 取得了骄人的成绩 n i s ts r e 比赛中性能较好的系统代表了当前世 界上最先进的说话人识别技术 可以通过以下例子例句当前世界主流的说话人识 别技术 对于n i s t0 8 而言 比较成功的系统来自讯飞实验室 i f l y 实验室 1 参数上 短时特征参数仍然站住主导地位 如线性预测倒谱参数 l p c c l i n e a rp r e d i c t i o nc e p s t r a lc o e f f i c i e n t 等 2 匹配模型和结构框架上 目前主流的话者模型仍然是高斯混合模型 包括g m m u b m g m m s v m 框架 3 通道补偿补偿技术的应用上 包括j f a 技术等技术消除通道影响 适应了复杂背景环境 4 评分规整技术上 包括t n o r m 和z t n o r m 技术等的应用 特别的是 一些参赛单位利用韵律特征等高层信息特征 建立了相应的子系 第一章绪论 统的辅助提高了说话人系统性能 经过全世界的科研工作者的共同努力 说话人识别技术已经取得t大的发 展 但是相对于现实需求和实际环境的要求 目前的说话人技术仍然不能满足很 多实用条件 而本文研究的内容就是n i s t 评测中的一个子任务 就是电话语音 的评测 也是从单话者确认向多话者确认技术发展的必然趋势 说话人确认系统根据测试语音 最终得到 是 与 否 的判决结果 有以 下对应关系 1 测试语音不来自申明话者 系统判断正确 给出 否 的判决结果 2 测试语音来自申明话者 系统判断正确 给出 是 的判决结果 3 测试语音不来自申明话者 系统判断错误 给出 是 的判决结果 4 测试语音来自申明话者 系统判断错误 给出 否 的判决结果 1 2 种判决正确 是我们希望得到的结果 而 3 4 是错误的判决 结果 其错误情况有两种 一是测试语音不来自申明话者却被判断 是 我们 用定义变量f a f a l s ea c c e p t a n c e 表征冒认话者判断为申明话者的概率 如情 况 3 另一种是测试语音来自申明话者却被判断为 否 我们定义变量f r f a l s er e j e c t i o n 表征申明话者被判断为冒认话者的概率 如情况 4 1 7 错 误 室 图1 4f a 和f r 示意图 2 0 6 阈值 第一章绪论 如f a 和f r 示意图中所示 f a 和f r 的单调性相反 随着阈值的增大 是 错误拒绝率f r 也增大 而错误接受率f a 是下降的 相反 阈值越低 错误接 受率f a 是越高 而错误拒绝率越低 在实际应用中 往往选取f a 和f r 相等 时的阈值 此时不同系统可以根据错误接受率f a 或者错误拒绝率f r 之间的大 家来比较和均衡系统性能的优劣 我们把f a 等于f r 时的错误率称之为等误识 率 e q u a le r r o rr a t e e e r 如图1 4 中所示 m 点即为等误识率的取值点 1 4 2 检测代价函数 等误识率e e r 是错误拒绝率f r 和错误接受率f a 相时候的系统性能指标 但是在实际生活中 f a 和f r 的代价往往是不同的 所以在n i s t 评测中 定义 检测代价函数 d e t e c t i o nc o s tf u n c t i o n d c f 为一个重要的评价函数 1 8 其 公式表示为 d c t f r 屏缸 乞 f a 名印 2 1 其中 c f r 分别为错误拒绝的代价 c f a 分别为错误拒绝的代价 而p t a 表示目 标话者先验概率取值 p i m p 表示冒认话者先验概率取值 和冒认话者的在n i s t 评测中 以上4 个值都是事先取好的 在n i s t2 0 0 6 年的评测中 参数的设定值 如表1 2 表1 2d c f 参数的设定值 c c 如 1 0o 10 9 90 0 1 在实际的评估中 只要确定了阈值 就得到相应的f a 和f r 通过d c f 公 式计算就可以得到相应阈值下的检测代价 由于检测代价函数实际的考虑到f a 和f r 的代价 同时考虑到目标话者和冒认话者的出现概率 通常我们认为比e e r 更具有合理性 但在n i s t2 0 1 0 中 对于主任务和训练为8 段语音 测试为一段 语音的情况下 检测代价函数的参数做出一定调整 如表1 3 所示 7 第一章绪论 表1 3n i s t 2 0 1 0d c f 参数的设定值 c 痧 c f a 110 9 9 9 0 0 0 1 1 4 3d e t 曲线 d e t d e c t e c t i o ne r r o rt r a d e o f f 曲线目前是评说说话人确认系统性能的重要 指标 19 它是精神物理学中常用的r o c r e c e i v e ro p e r a t i n gc h a r a c t e r i s t i c s 曲 线的另一种形式 2 0 衡纵坐标分别为错误接受率f a 和错误拒绝率f r 如图1 5 所示 由d e t 曲线的物理意义可以知道 曲线越靠近坐标轴 f a 和f r 越低 系统的性能越好 该图中红色实线所代表的系统性能明显优于虚线代表的系统 图中的圆点表示了d e t 值 零 c d 舅 2 器 芝 s p e a k e rd e t e c t i o np e r f o r m a n c e f a l s ea l a r mp r o b a b i l i t y i n 图1 5d e t 曲线示意图 2 0 8 第一章绪论 语音的韵律 p r o s o d y 是指语音长时的变化规律 在日常生活中可以发现 长时的 连续的语音段较容易辨别说话人 而短时的 零星的语音片段则较难辨 别出说话人 但语句的内容对语音的韵律影响很大 朗读不同内容的文本表现出 来的韵律变化往往不同 所以对于文本无关的说话人识别 内容是文本有关的语 句无法直接应用 然而 语音的韵律看成不同的基本的韵律片段 多帧 超音段 的组合反映的语音变化的规律 即韵律片段组成韵律的基本单元 比短时帧 音 段 稍长 超音段韵律特征是指从基本的这些韵律片段中提取出的特征 再结合 主流的概率统计模型 实现文本有关的说话人确认 所以 如何从超音段中提取出可以代表说话人信息的特征参数 即如何利用 基频构建韵律特征参数并搭建完整的韵律识别系统 如何更好的提取出基频特征 以及结合经典的m f c c 系统更好的提高系统性能是本文的关键问题 本文通过 实验 寻找超音段中可以反映说话人信息的韵律特征参数 结合 g m m u b m m a p 模型 构建说话人韵律识别系统 本文所采用的的是来自n i s t 数据库中电话语音做实验数据 研究如何提取 说话人的韵律信息及模型应用 本文研究的主要内容和所做的工作是 第一部分 是研究基频提取方法 通过结合a m d f 和倒谱法进行基频提取方法的改进 第 二部分是研究韵律特征参数的构成 实现了超音段韵律特征参数的构建 结合 g m m u b m m a p 框架 构建韵律特征的说话人识别系统 第三部分是经典的基 于短时特征参数m f c c 的说话人识别系统与基于超音段韵律特征的说话人识别系 统做融合 提高了的单个的系统性能 论文主要由如下五章组成 第一章是绪论 介绍了说话人识别的定义 发展历程和背景 分类等 然后 介绍了n i s t 说话人评测竞赛 以及说话人评价的标准 包括等误识率 检测代 价函数 d e t 曲线的具体含义 最后介绍了本文的关键问题和主要研究内容和 内容安排 第二章是基于g m m u b m m a p 的文本无关的说话人确认系统 阐述了当前 主流的文本无关的说话人统计模型g m m u b m m a p 的基本原理 算法 系统 结构和快速算法等 并结合经典的短时特征参数m f c c 通过实验说明经典系统 9 第一章绪论 的性能 第三章是基于超音段韵律特征的说话人确认系统 研究更好的基频提取算法 对比本文基频提取算法和a c f 以及a m d f 算法提取基频 并己基频为主线 研 究超音段韵律特征参数构成 结合g m m u b m m a p 框架 实现基于韵律特征 的说话人识别系统 第四章是系统融合方法研究 实验数据表明 基于韵律特征的说话人识别系 统性能远不如经典的基于短时特征参数m f c c 的说话人识别系统 但前者为长 时特征参数 反映了音源特征 后者为短时特征参数 模拟的人耳听觉特征 二 者具有互补性 通过研究两系统的互补关系 对比不同融合策略 最终寻找较好 的融合区间和融合方法 使系统性能得到一定提高 第五章是总结与展望 介绍了本文的一些创新之处和工作 同时提出目前工 作的一些不足 并对将来的工作提出了展望 1 0 第二章基于g m m u b m m a p 的文本无关的说话人确认 第二章基于g m m i i b m m a p 的文本无关的说话人确认 2 1 引言 语音信号分析是说话人识别的前提和基础 只有较好的分析出能代表语音信 号中说话人信息的特征参数 才能有效的利用这些特征参数进行话者身份的确认 因此 说话人确认系统的好坏首先就要取决于在语音信号分析中 话者身份信息 提取的准确性 即特征参数提取对说话人确认系统的性能产生重要的影响 2 1 2 2 鼻腔 鼻疆 唇 牙齿 口腔 下艺 气管 肺 横膈膜 图2 1 人体发声器官生理学示意图 2 0 图2 1 是人体发声器官生理学示意图 人的声道主要包括口腔 鼻腔 咽 喉等部分 人发出声音的时候 首先气流从肺中流到器官 经过咽喉部位的时候 使声带产生震动 声带的震动使气流形成准周期性的激励 在准周期激励信号通 过口腔 鼻腔 咽 喉等形成的声道时 频谱也收到相应的影响 再经过人的口 唇 牙齿 舌头等器官的辐射 就形成了丰富多彩的语音 2 3 说话人确认系统的后端以特征参数与模型匹配为主要研究内容 目前在模式 识别领域 统计概率模型已经被普遍认可和采纳 2 4 在语音识别中 隐马尔柯 夫模型 h i d d e nm a r k o vm o d e l h m m 已经无可争议成为口令识别 音素建模 的首选 如剑桥大学的h t k h m mt o o l k i t 微软的w h i s p e r 以及m m 的 第二章基于g m m u b m m a p 的文本无关的说话人确认 t a n g o r a 等世界上很多著名的语音识别系统都是基于h m m 的 在上世纪九十年代 文本有关的说话人确认系统很多都是基于隐马尔柯夫模 型的 直到被r e y n o l d s 等人发展及运用高斯混合模型g m m 于文本无关的说话 人确认 2 5 1 今天 有很多方法被广泛用于说话人建模 比如人工神经网络a n n 支持向量积s v m 等 但g m m 仍然是文本无关的说话人识别的主流方法之一 本章主要介绍基于g m m u b m m a p 结构的文本无关的说话人确认系统 分 别介绍了特征参数m f c c 提取 g m m u b m m a p 结构的训练方法 自适应 实验分析等 2 2 特征参数提取 声音是一种复杂的语音信号 通过在不同层级的转化得到最终的语音信号 包括语言学层级的 语义层级的 声学层级的转化 2 6 正是这些不同层级上转 化的差别体现了语音的声学属性上的差别 说话人有关的差异主要是生理上声道 的差异和后天养成的说话习惯差异的综合结果 2 7 而在说话人识别系统中 正 是运用这些差异来构建特征参数 并用来区别不同说话人 在说话人识别中 首先要参数化语音信号 也就是从一段语音信号中 提取 出可以代表说话人信息的特征参数 我们称这个过程为特征参数提取 上世纪九十年代 倒谱类型的参数逐渐成为语音识别 特别是说话人识别的 首选参数 其相对于线性预测参数有两个明显的优势 一个是可以直接应用听觉 感知理论对语音进行处理 还有一个就是可以在倒谱域对语音信号进行加权和滤 波 对信号的频谱进行处理 2 8 m f c c 全称为梅尔频率倒谱参数 m e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t s 2 9 1 是当前最受欢
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 客户拜访工作总结
- 2025至2030中国移动数字X射线系统行业项目调研及市场前景预测评估报告
- 离婚协议中关于子女兴趣班费用分摊协议范本
- 企业竞业禁止协议赔偿及竞业限制期限规定
- 个人私有土地买卖合同中的土地权属证明与核实协议
- 2025至2030中国复合纸罐行业发展趋势分析与未来投资战略咨询研究报告
- 离婚协议书共同财产分割与子女监护权协议范本
- 离婚子女医疗保健及生活费用承担协议范本
- 国有企业员工待岗期间社会保障与再就业援助合同
- 婚姻终止协议书:财产分配、子女监护及赡养义务承诺
- 东芝电梯CV180故障诊断
- GB/T 31186.1-2014银行客户基本信息描述规范第1部分:描述模型
- 退伍军人职业规划课件
- 生物质资源及其开发利用课件
- 调查研究方法与调研报告写作讲义课件
- 卡西欧PROTREKPRW-6000使用手册
- 干燥综合症的中医治疗冯兴华公开课课件
- 关于开具无犯罪记录证明的函(模板)
- 初中综合实践课程
- 大金D型水冷螺杆机说明书
- JJG 700 -2016气相色谱仪检定规程-(高清现行)
评论
0/150
提交评论