【毕业学位论文】短语音说话人识别研究短语音说话人识别研究-计算机科学与技术系博士论文_第1页
【毕业学位论文】短语音说话人识别研究短语音说话人识别研究-计算机科学与技术系博士论文_第2页
【毕业学位论文】短语音说话人识别研究短语音说话人识别研究-计算机科学与技术系博士论文_第3页
【毕业学位论文】短语音说话人识别研究短语音说话人识别研究-计算机科学与技术系博士论文_第4页
【毕业学位论文】短语音说话人识别研究短语音说话人识别研究-计算机科学与技术系博士论文_第5页
已阅读5页,还剩100页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

短语音说话人识别研究 张 陈 昊 in of 2014 摘 要 I 摘 要 实际 应用中, 较短甚至超短的测试语音 条件下 的 说话人识别 是必须面对的难题 。 本文 针对 短语音 说话人识别 进行了一定 的研究,主要工作包括 以下几个方面 : 1. 提出了基于 发音 基元类的 多模型说话人 识别 框架 。 考虑到语音内容对改进说话人识别性能的作用以及语音内容的确认是说话人识别的辅助手段, 本文提出一种基于发音基元 类 的多模型 说话人 识别 方法 :该方法 在 说话人识别中 综合应用了语音识别技术,考虑到语音识别不是 本文 的最终目标 ,本文提出将语音基元进行分类,在说话人模型训练时建立基元类相关的说话人模型,在说话人识别时与基元类相关的说话人模型进行模型匹配。 本文 研究了基元类的划分方法以及基元类相关说话人模型的 训练 。在训练语音充分的前提下, 相比传统 的 基线 法 , 该方法取得了 相对 降。 2. 提出 了 缺失 数据 基元类 的说话人 模型合成方法 。 该方法在 说话人 模型的 训练语音 不充分和 不均衡 的情况下 , 利用一组精心设计并训练充分的参考说话人模型之间的映射关系,合成出缺失训练数据的基元类的说话人模型。本文研究了说话人基元类模型 之间映射关系的估计方法,以及缺失基元类说话人模型的参数合成方法。 相对 训练语音充分和均衡 的 情形 ,合成方法 最优情况 下的 对增加仅为 相比 基线 法 对下降为 3. 提出了 基于 语音底层声学特征融合 算法 。 本文借鉴 人 类对语音 的感知规律 ,挖掘语音中 不同的 声学特性 ,对 多种声学特征 向量拼接 后的 高维特征向量进行无监督和 有监督 的 综合学习,挑选最 具 区分性 分量,以解决单 一 特征 在 短语音下区分性不足的问题 。相比 短语音条件下 融合特征 的 对下降分别 为 4. 建立了一个语音内容均衡 的短语音 声纹数据库 此数据库上进行所提方法的验证 。 综合分析了本文 提出 短语音说话人识别 方法的需要 和 数据库 资源现状 , 提出了短语音声纹 数据库的 录制原则:“保证训练语音 中 发音基元 的充分性和均衡性 ”。基于此,设计录音提示文本 , 使用低频单元 加强算法挑选 声韵母基元 丰富并且 “ 组合 良好的汉语 文本 ,达到 声韵母基元覆盖 全面并且 数量充分 。在该 数据库上 将 本文 所 提出的 特征级 与 模型 级 方法 综合起来 , 对比 征 和 法 对下降 为 关键词: 短语音;说话人识别;语音识别 ; 多模型;特征融合I n it is an to or on as 1. A on of a is it to is is of On is a ER 2. A is is we a by a of in to a ER is it by a ER 3. A on of s to we a to be a ER II 4. A on of we a of “to on On a a ER 录 录 第 1 章 绪论 .说话人识别技术概述 . 2 说话人识别的分类 . 2 技术发展 . 3 说话人识别应用和挑战 . 4 应用情况 . 4 实际应用中的挑战 . 5 短语音说话人识别 . 6 短语音问题的研究意义 . 6 短语音问题的难点 . 8 短语音问题研究现状及分析 . 10 研究工作概述 . 13 研究目标和思路 . 13 系统 框架 . 18 论文的组织结构 . 20 第 2 章 基于发音基元类的多模型说话人识别框架 .基于 说话人识别框架 . 22 高斯混合模型 . 23 型训练 . 23 说话人识别打分 . 26 说话人确认系统性能指标 . 27 基于基元类的多模型说话人识别 . 28 发音基元类划分 . 28 语音基元 的判别 . 35 基于基元类的说话人多模型训练 . 38 基元类多模型打分融合 . 39 实验 . 40 实验数据和设置 . 40 实验结果和分析 . 42 目 录 V 小结 . 45 第 3 章 基于投影映射的说话人基元类模型合成 . .引论 . 47 说话人模型合成 . 48 最大似然线性回归算法 . 48 基于基元类通用背景模型关系的模型合成方法 . 49 通用背景模型关系的模型构建 . 49 缺失 数据 基元类 的 说话人 模型参数合成 . 50 基于 考说话人集合的基元类模型合成方法 . 51 说话人语音相似度定义 . 52 基于 考说话人模型构建 . 53 缺失 数据 基元类 的 说话人模型参数合成 . 54 实验 . 56 实验数据和设置 . 56 实验结果和分析 . 56 小结 . 59 第 4 章 基于 声学特征融合算法 .论 . 61 音底层声学特性特征介绍 . 62 梅尔频率倒谱系数 . 62 线性预测倒谱系数 . 66 感知对数面积比系数 . 67 基于 特征融合降维算法 . 70 征融合框架 . 70 去除多种特征相关性 . 71 选取 最大区分性 的 特征 . 73 实验 . 75 实验数据和设置 . 75 实验结果和分析 . 76 结论 . 80 第 5 章 总结与展望 .论文工作总结 . 82 目 录 下一步研究的展望 . 84 参考文献 . 谢 . . 明 . 95 个人简历、在学期间发表的学术论文与研究成果 . 1 章 绪论 1 第 1 章 绪论 人 类 在生活中 每时每刻 都 在从外界接受和向外界传达 着 各种有意义的信息 ,语音信息 则是 其中很重要的部分 。 在语音学 领域中, 人的语音 常常 被定义为人的发音器官所发出的 、 带有一定 实际含义 的 声音,也常常 被研究者 认为 是语言的发音符号 。 音频信号的处理 在 人工智能和机器学习领域 研究中 具有很重要的地位 。人类 语音中含有各类 丰富的信息,既有 丰富 的说话人 个性信息 和 发音的 内容信息 ,也有录制环境的噪声信息 , 通过 挖掘 这些信息, 研究者们 可以做很多 有意义的工作 。说话人识别 ( , 或者称为 声纹 识别 ( 是 基于这些信息 来 探索 人类身份 的一种生物特征识别技术 。 这种技术 基于 语音中所包含的说话人特有的 个性 信息 ,利 用计算机 以及 现在的信息识别技术 , 自动的 鉴定 当前语音 对应的 说话人身份 ( 1976; r, 1997) 。 与指纹识别、 面部识别 、 虹膜识别等 其他 生物特征认证技术 相比 ,说话人识别 在 实际应用中 有着独有的一些优势 : 1. 语音属于人类最直接使用的信息载体, 所以 利用语音 来进行生物识别应用对于用户来说 不具有心理 障碍 ; 2. 语音 作为 信息来源,其采集过程对于 用户 个人 隐私 信息涉及 更少, 用户 更易接受 ; 3. 在移动互联飞速发展的今天 , 语音 作为非接触性载体,可以很好的依靠各类移动终端完成采集和验证,不需要用户在特定的地点使用特定的采集设备 , 并且在某些特定的场景 , 用户 语音 是最简单 直接能获取到的生物特征。 在最近 的十年中,说话人识别 技术得到飞速发展 ,已经 开始在现实环境 中 广泛应用。短语音 说话人识别作为 最近 几年 实际应用中遇到的现实问题, 其主要 目标是 研究 说话人识别由 较短 的 测试语音 引发 的问题, 并且 提高相应 条件下 的说话人识别性能 。 本论文 主要针对这一领域进 行 了 分析和研究,并提出了 一些 改进方案。 本章由 以下几部分 组成 :首先对说话人识别 技术的 相关知识进行了一定的 概述 ; 然后介绍了 说话人识别 在现实应用中遇到的 问题和挑战, 从中引出 短语音说话人识别 的意义和 研究现状, 综述了 现有的一些改进方法, 并 针对短语音 说话人识别系统的问题给出自己的一些分析 ; 接着 主要介绍了 本文的 总体研究思路和相关的科研内容;最后一部分提出了本文总体的组织结构。 第 1 章 绪论 2 说话人识别技术 概述 说话人识别的 分类 说话人识别 是一种典型的 模式识别问题 ,包含 说话人 模型训练和测试语音识别两个阶段 ,下图 一个典型的说话人识别框架: 1. 训练阶段: 对使用 系统的 说话人 预留足够的语音,并对 不同说话人 的语音提取 声 学特征,然后 对 每个 目标说话 人 的 语音特征 训练得到对应的说话人模型, 最终 将 全体 模型集合 在 一起组成 当前系统的 说话人模型库 ; 2. 测试阶段 : 同样, 先 进行 特征提取, 将测试语音提取出来的声学特征在说话人模型库上进行比对, 根据 定义 好的 相似性准则, 对说话人模型上 进行打分判别 ,最后 根据判别结果得到测试语音 的 说话人 身份。 训 练张 光李 明训 练 语 音特 征 提 取 模 型 训 练模 型张 光李 明测 试 语 音测 试特 征 提 取 打 分 判 决该 说 话 人 是李 明图 一个 典型的说话人识别系统框架 说话人 识别根据 实际应用 中 的 不同 任务来分类的 话可以分为说话人辨认( 和 说话人确认( ( r, 1997) , 这两类任务的 识别 目标略有不同 : 对于说话人辨认 , 是将待 测试语音 判别为 目标 说话人集合 中最有可能 的 某一位 , 所以 是一个多选一的问题;对于说话人确认 , 是将 待 测试语音 在 某个目标说话人模型上进行验证,判别该段语音是否 由 这个目标说话人发出,是一个判别 “ 是 ” 或 “ 否 ” 为 当前说话人 的 二选一问题。 其中 对于 说话人辨认系统来说,根据测试语音来自说话人范围的不同,可以分为开集( 闭集( 类 ( r, 1997) 。对于开集识别, 待 识别语音的发音者可能不属于 当前 已知的目标说话人集合第 1 章 绪论 3 (目标说话人集合 也称为集内说话人, 而不属于这类 的说话人称为 集外说话人 或者假冒说话人) ; 对于闭集识别,则不存在 当前集合以外 的假冒 说话人,所有识别语音的话者全部属于 已知的目标说话人集合。 说话人识别的 另一类分类是根据 识别 语音的 文本内容 进行分类,具体的也分为两类:文本相关 ( 文本无关( r, 1997) 。 文本 相关 的说话人识别 开始会 建立一个文本集合,要求用户 在训练阶段预留语音时按照指定文本录制语音, 这样 能够精确的 建立 当前说话人关于该文本的说话人模型,在测试阶段用户也必须 按照 这个 指定 的 文本集合 发音;文本无关的说话人 识别 相对来说 在实际使用 中的 要求比较宽松,用户的发音内容 不会预先 被限定 ,在训练和识别阶段用户只需要随意的录制 达到 一定发音长度的语音即可。 对比这两类 说话人识别 ,文本相关的说话人识别的 语音 内容匹配性优于文本无关的说话人识别,所以一般来说其系统性能也会相对好 很多 ,但是对用户预留 和进行识别时 语音 的录制 要 求更高 ; 文本无关的说话人 识别 对于用户 相对比较 友好, 使用 更加方便灵活,对于实际的 应用 场合 具有 更好的 推广性 和 适应性。 基于 以上分类的讨论, 本文 研究的 说话人 识别 系统主要基于文本无关的说话人确认系统。 技术发展 对于说话人识别 这个领域的研究最早开始于 20 世纪 30 年代,最早 的研究者们主要研究 真实 人类对 语音 的 实际反映,考察 人耳听辨发音来识别说话人的可能性 , 探索初步进行听音识别的方法。进入 20 世纪 的 下半个世纪,随着 生物 信息研究 和计算机信息技术的飞速发展,通过计算机自动识别 语音来源成为可能。 20 世纪 70 年代以后 ,说话人识别进入飞速发展阶段 , 成为语音领域的一个重要分支 ,国内外 的各大科研机构和大学也针对 说话人识别 问题展开了多方面的研究 , 取得了很多有意义的研究成果 ,推动了说话人识别的发展 。研究者 在研究中 发现语音信号中 包含了很 多层次的信息,这些信息 既 有底层的声学信息特性,也有高层的 语言 韵律信息 ,分析 和利用这些 不同 的信息 能对说话人识别提供理论基础和识别 依据, 促进了说话人识别的进步。 在 说话人识别领域, 目前使用的 特征 绝大部分 是 研究 语音 信号频率 上短时 倒谱( 性得到 的声学特征 , 这些特征 主要模拟语第 1 章 绪论 4 音信号中的底层 声学特性 , 例如人耳的听觉特性 、 声道的发声机理等 , 主要包括 : 梅尔频率倒谱系数( 1980; 1981; et 2001) 、 线性预测 倒谱系数( ( 1976) 、 感知线性预测系数 ( ( 1990; et 2004) 等 ;此外, 基于 语音长时特性 的 特征也 常被使用,并与 上述的短时 声学特征进行结合 , 例如发音的 基音 周期 、 共振峰信息、韵律声调等( 2003; 段新 等 , 2003; et 2011) , 这些特征相对 短时 谱特征,其 稳定性会差一些,容易受到环境和发音的影响 。总的 来说 ,现实中 会 根据 实际 环境 和需求综合考虑特征的选择。 在 模型领域, 基于统计 的 机器学习方法 占据 了主流地位 , 其中 最经典 的建模 方 法 是 基于 高 斯 混 合 模 型 - 通 用 背 景 模 型 ( ( et 2000)的 方法 。 使用 这 种 建模 方式 可以统一的描述语音中的 整体 信息,为 说话人 识别提供 判别 依据; 随着对 语音中各种信息 研究 的 深入, 在模型 领域开始探索利用语音中的不同信息来进行 分别 建模,联合因子分析 ( ( 2005; et 2007) 和 模 方法 ( et 2011) 就是 基于这种思想从 统 上发展得到的 。 这两种方法 希望将 型中 统一的语音信息分解为 说话人信息 和 其他对说话人干扰的信息 , 分别 对其 建模 , 从而 描述了 语音中会话 变化 ( 的 信息 , 建立 更精细 的 模型 , 达到减少 其他信息 干扰的目的。在现实应用中, 这 些方法在 满足 限定条件 的 情况下可以取得 比较 满意的 性能 。 说话人识别 应 用 和 挑战 应用 情况 随着 说话人识别技术的发展, 说话人识别 在现实 生活中的各个领域得到了广泛的应用 ( 1997; et 2004) 。 在商业领域 的应用 中 , 使用 人的语音 来为 各种商业服务 进行身份 验证和访问控制 , 有 着 很 好 的 应用前景。 1995 年 在 用户 的智慧卡 ( 嵌入 用户的声纹信息 和 其他相关信息 , 开始了 说话人识别 在实际生活中的应用 ; 1998 年 欧洲电 信联盟 同时 推进了 个 计划,说话第 1 章 绪论 5 人识别开始在电信网通信 上 得到 应用 ; 2006 年 荷兰的一家银行使用美国司研发的说话人识别系统,在银行产业中率先使用了说话人识别技术 ; 2011 年中国建设银行 与 北京 得意音通 技术 有限公司合作, 基于说话人识别技术 构建了声纹电话银行系统,在 户 所需要更高安全级别的场合 提供 使用了声纹识别来验证用户身份 的 服务 , 加强了银行服务的安全性,目前 已经 开始提供服务并 推广使用。 除了 商业方面的应用,说话人识别在公共服务领域也开始发挥作用 。 美国 的 康保险 公司 于 上个世纪末 利用用户语音 ,生成了 相对应 的数字签名 并发挥了 作用。在国内 , 各个省份的社保局机构也 在 近几年开始准备使用用户语音来帮助社保方面 各类服务的顺利开展。此外 安全领域 和出入境控制也是说话人识别最直接的应用场合 ( 1990; 于哲舟 等 , 2004; 龚伟 , 汪鲁才 , 2006; 2011) ,通过各种 安全监控措施获取控制对象的语音并进行自动的身份识别,从而达到目标控制,缩小嫌疑人的 侦查 范围等目的 。 而 从海量的 语音数据中 自动 获取某个目标说话人的语音,可以 极大地 减 少安全监控方面的人力开销,并减少误差,为国防安全提供可靠的 相关信息 。 说话人识别 的推广应用与这种技术本身的成熟发展是 息息相关 的 ,随着说话人识别 研究 的不断 发展 和 说话人识别 系统的 性能 改进 , 该 技术 在 现实中的 使用 会 越来越方便 ,应用也会越来越广泛。 实际应用中 的挑战 近年来 限定 条件下的说话人识别 已经取得 较为成熟的应用,但是实际 环境的 复杂情况 会对 说话人识别 产生严重的干扰 。 声纹预留和 声纹 测试 会 受到具体 环境 的 影响而 导致 训练识别 匹配性 下降 , 说话人识别 性能 损失明显 , 这对说话人识别系统 在实际使用中的 鲁棒性 提出了更高 的要求 , 所以 针对 在 各领域 应用中 的 实际挑战 , 从事 说话人 识别 领域的研究者 在以下 方面 开展了科研工作: 1. 训练 与识别的信道不匹配 : 在实际应用中 ,用户可能会在 语音 预留和 测试时 使用不同的手机或者终端,这就会 带来 跨信道的 问题 。 这方面主要的解决 方法 是 从特征域 、模型域 和 分数上 对信道 进行补偿或消除,减少信道带来的影响 , 上文中介绍的 统就能在一定程度上解决这类问题 ( 2003; 2005) ; 2. 背景噪音 的影响 :在 对说话人 的 语音数据进行采集时,不可避免的 会受到第 1 章 绪论 6 现实环境 中 噪音 的 影响,噪音会 干扰 语音中的说话人信息 , 减少 说话人模型 的 分辨 特性,也会使训练识别 失配 。 这种情况下 需要 使用 对噪音 更 鲁棒的特征,并对语音信号进行去噪处理, 减少 噪音的 影响 ( et 1992; 2002; et 2007) ; 3. 多个 说话人的相互干扰:目前的说话人识别系统主要针对语音来自单 个 说话人的情况 , 但实际应用中往往会存在一段语音中录制了多 人 对话的现象, 这种情况下 不能直接使用这段语音,需要 分析 语音中的不同特性,寻找语音转换点, 将其转变为 不同说话人的语音,这种方法一般称为说话人分割聚类 ( 1999; 2004; et 2004; 2009) ; 4. 时间变化带来 的失配: 说话人 的个性信息 随着 年龄的增长 会产生一定的变化,这种变 化 会 降低声纹 的稳定性, 针对这个问题 一般会 对 这种变化特性进行描述,选取语音 特征 中随时间变化较小的部分 来进行说话人识别 ,增强系统鲁棒性 ( et 2012) 。 以上这些实际问题一直是说话人识别的 研究热点, 近年 来随着说话人识别的广泛应用,另一个实际问题也慢慢被研究者所注意 : 即短语音问题 。 说话人识别系统 应用 的 一个重要 前提是需要充足的测试语音来分辨当前语音的 目标说话人 ,但 现实应用 中由于各种各样的 原因 很有可能获取不到充足的测试语音,此时 说话人 识别系统性能 会如何变化 就是一个很值得 研究的问题 ,本文的 研究课题 即 从 这个实际应用的难题而来。 短语音说话人识别 短语音 问题的 研究意义 在当前 的技术 发展条件下, 研究较短 的测试语 音时长下的说话人识别具有很强的现实意义: 1. 对于 实际应用中的说话人识别 系统 , 其 用户体验 的 好坏已成为一项 重要的评价指标 , 显然 较短 的测试语音时长会带来更好的用户体验 ; 2. 在 很多说话人识别的 应用领域 中 ,其实际使用时无法获取到足够长度的测试语音( 如刑侦安防 等领域) 。 同时 , 说话人识别的系统性能会受到 测试语音长度 直接的影响 。 早在 1983 年 ,研究者就开始注意到进行说话人识别是需要一定的数据长度 来 保证的 ( Li r, 1983) 。 文章里面提到 ,对于文本第 1 章 绪论 7 无关的说话人识别,通常在训练和识别阶段都需要有充足的语音数据来 保证 建模和识别 算法的性能。 为了验证 这个观点

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论