




已阅读5页,还剩69页未读, 继续免费阅读
【毕业学位论文】基于感知对数面积比系数的说话人确认系统的研究-计算机应用技术.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分类号 密级 太原理工大学 硕 士 学 位 论 文 题 目 基于 感知对数面积比系数的说话人确认系统的研究 英文并列题目 研 究 生 姓 名: 尹 聪 学 号: 2010510353 专 业: 信息与通信工程 研 究 方 向: 语音信号处理 导 师 姓 名: 白 静 职 称: 副教授 学位授予单位: 太原理工大学 论文提交日期 地 址: 山西太原 声 明 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下,独立进行研究所取得的成 果。除文中已经注明引用的内容外,本论文不包含其他个人或集体己经发表或撰写过的科研成果。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本声明的法律责任由本人承担。 论文作者签名: 日期: 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定,其中包括: 学校有权保管、并向有关部门送交学位论文的原件与复印件; 学校可以采用影印、缩印或其它子复制手段复制并保存学位论文; 学校可允许学 位论文被查阅或借阅; 学校可以学术交流为目的,复制赠送和交换学位论文; 学校可以公布学位论文的全部或部分内容( 保密学位论文在解密后遵守此规定)。 签 名: 日期: 导师签名: 日期: 太原理工大学硕士生学位论文 I 基于感知对数面积比系数的说话人确认系统的研究 摘 要 说话人识别 , 属于生物识别的一种, 也被称为“声纹识别”, 是根据说话人所发语音对说话人身份进行判 定,实现对说话人身份的鉴别与认证 的技术 。由于语音具有通用性、独特性、高可采用性, 及 易收集性等特点,使得 说话人识别技术得到广泛的应用。近年来,随着科学技术 水平 的不断提高,说话人识别技术的应用获得了飞速的发展, 并 逐渐成为人们 工作和生活中最常用 的安全验证方式。 但是,随着人类科技的不断发展, 不同应用领域 对该技术 提出了更高的要求, 使得说话人识别技术的进一步发展更加举步维艰。 一方面, 说话人特征的不稳定性,特征会随着时间和年龄的变化而改变,同时也受到说话人的情绪及健康状况的影响;另一方面,背景噪声、训练数据与测试数据的时 长、通信信道对语音信号传输过程的失真、他人的模仿及方言的干扰等诸多外界因素的影响,这些问题都严重影响到说话人识别系统的实时性能。 本文对基于感知对数面积比系数的 说话人确认 系统进行了研究,包括说话人的特征提取及系统的噪音鲁棒性 。 首先, 针对 征的说话人确认系统在干 净语音环境下具有很高识别率,但在噪音环境下急剧下降的缺点, 本文提取 感知对数面积比系数(简称 为说话人特征, 并对 噪音鲁棒性进行了实验分析。该特征 运用人类听觉感知机理来表征说 话人的个性特征,能够很好的模拟人耳的听觉特性,具有良好的可分性 。 为了结合 自的优势, 提高说话人确认系统在噪音环境下的识别太原理工大学硕士生学位论文 能,根据各维特征在噪音环境下鉴别能力的不同,将其与 行融合 。 结果表明, 通过将 行特征域和分数域的融合,体现出两者之间存在着互补性, 有效提高了说话人确认系统的识别性能。 为提高 征在噪音环境下的鲁棒性,在语音的前端处理中,引入多窗频谱估计方法 (代替基线系统中传统的 信号进行频谱分析,提出 了一种改进的 特征 参数 窗频谱估计,采用多个窗函数的加权平均值来获得信号的频谱结构,具有更加稳定的频谱分析 性能,因此,可以获得鲁棒性更高的特征参数。实验结果证明,与传统 的 比,基于 说话人确认系统在识别率及鲁棒性方面均有明显提高。 关键词 : 说话人识别 , 说话人确认, 感知对数面积比系数 , 多窗频谱估计 ,特征提取 , 鲁棒性 ,融合 太原理工大学硕士生学位论文 N N to is a to s as of of of in s of on it of of On of as of it is by s of On as of of 原理工大学硕士生学位论文 IV of on in it in to to in to of in of in of in In to in is by to FT to in of or to by a on to 太原理工大学硕士生学位论文 V 原理工大学硕士生学位论文 原理工大学硕士生学位论文 录 第一章 绪论 . 1 话人识别研究的背景与意义 . 1 话人识别的发展概况与现状 . 2 话人识别的研究难点 . 3 特征的提取 . 3 鲁棒性研究 . 4 论文主要内容及结构 . 4 第二章 说话人识别系统概述 . 7 说话人识别系统的基本原理及分类 . 7 说话人识别的特征提取 . 8 率倒谱系数 . 9 线性预测系数 . 12 线性预测倒谱系数 . 13 说话人识别主要方法 . 14 模板匹配法 . 15 概率统计方法 . 15 人工神经网络方法 . 16 支持向量机方法 . 16 说话人识别系统的性能评价标准 . 17 说话人辨认 . 17 说话人确认 . 17 本章小结 . 19 第三章 基于感知对数面积比系数的说话人确认系统 . 21 征提取 . 21 高斯混合模型 . 25 高斯混合模型的定义 . 25 模型参数的估计 . 26 太原理工大学硕士生学位论文 法的初试化 . 28 实验条件描述 . 29 语音数据库 . 29 噪声数据库 . 29 系统构成 . 30 本章小结 . 30 第四章 基于有效融合方法的说话人确认系统 . 31 征的抗噪性能 . 31 噪音环境 下 维特征的 . 32 噪音环境下 征类间区分性能 . 36 特征域的融合 . 37 分数域的融合 . 42 本章小结 . 43 第五章 基于多窗频谱估计的 则提取 . 45 多窗频谱估计 . 45 基于 征提取 . 48 实验与分析 . 49 本章小结 . 51 第六章 总结与展望 . 53 工作总结 . 53 研究展望 . 54 参考文献 . 55 致 谢 . 61 攻读学位期间发表的学术论文目录 . 63 太原理工大学硕士生学位论文 1 第一章 绪论 说话人识别研究的背景与意义 说话人识别 ,被认为是最自然的生物特征识别身份鉴定方式 , 又被称“声纹”识别。生物识别 1通过人体最为明显的生物特征(如指纹、手形、耳廓 、 虹膜等)及 行为特征(如按键力度、 步态 、签字、 发音时 的口型等)来自动识别所测定人的身份的技术。 说话人识别是 一种综合性的认证技术,他交叉运用生理学、心理学、数字信号处理、模式识别等多个学科。其主要原理 根据说话人所发 出的语音来确定说话人的身份 ,因此,从语音中找到每个说话人的个性差异成为该技术的关键点,它包括不同说话人 发音通道 、 发音器官 及发音习惯等之间的不同级别的个性差异。 在众多的生物识别中,语音不仅具有生物识别 特征应该符合的性质(如通用性、独特性、可收集性、准确性、高可采用性和低欺骗性等),还具有许多独特的优势: (1) 用户易于接受。语音的内容比较随意,不涉及用户的隐私信息 ; (2) 经济、便捷的使用方式。由于人的语音可以自然的产生,语音的采集 可以采用电脑的话筒或电话等常用设备, 与其他生物识别技术相比,这些输入设备的 价格 相对较低 ; (3) 可进行远程身份确认。 在需要进行远程操作的情况下,可通过语音进行远程身份确认, 即 将语音作为特征输入,进行说话人识别, 例如可以利用麦克风或手机、电话等通信工具就可以进行基于语音的远程身份确认。 以上特性,使得语音成为人们 最为广泛认可 、易于接受的一种生物特征,进一步 促使 了 说话人识别技术逐渐成为 人们日常生活中最重要、最便捷的 身份 认证方式。近年来,信号处理技术及计算机的迅猛发展,促使说话人识别技术获得 了广泛的市场应用前景。下面给出一些说换人识别的典型应用: (1) 金融领域:电话网络的银行转账交易。 (2) 公安司法领域: 对于各种敲诈 勒索、 电话 骚扰 、及绑架 等案件,根据电话录音进行嫌疑罪犯的查 找,并提供法庭的身份确定。 (3) 军事领域:对战场环境的监听,了解作战情况,并对 敌 方指挥员的身份做出鉴别。 太原理工大学硕士生学位论文 2 (4) 医学领域:通过对语音的身份认证,确保病患可以通过 言语来实现对假肢的控制。 (5) 安全保卫领域:各种门禁系统的使用,使其只对合法者实施通行。 (6) 信息服务领域:如语音检索、语音拨号、语音控制台及电子商务等。 总之,说话人识别技术将日益成为安全认证的方式之一,对说话人识别系统的研究具有重要的现实意义。 说话人识别的发展概况与现状 说话人识别最开始被应用 在法庭上, 17 世纪 ,查尔斯一世致死一 案罪犯 的判定正是通过其语音给出了强有力的证明 。说话人识别的研究最早开始 于 20 世纪 30 年代, 当时人工的说话人识别 为研究的重点,主要工作包括人耳听辨实验和听音识别 。 20 世纪 60年代, 人工的识别方法得到进一步发展,由 验室的 出了“声纹(的概念。之后 , 出现了说话人识别研究的一个高潮,其源于 验室的S. 提出了基于模式匹配和概率统计方差分析的声纹识别方法, 引起 了 信号处理领域许多学 者的关注 。 1969 年 先将倒谱 (术应用到说话人识别6。 70 年代,主要 研究了模板匹配法(动态时间规整)及多种声学参数,如线性预测系数、声道冲击响应、声道面积函数、自相关系数等 7。 80 年代以来, 多种识别模型的不断涌现,使得说话人识别得到了快速发展 ,进入 90 年代后, 高斯混合模型 (8的出现 , 使得说话人识别技术在 文本无关的 领域中获得了比较突出的成就。近 年来, 为了解决有限样本的识别情况, 涌现出许多 新的 方法,如 9、 结合 10、 多模 态识别 11、图匹配方法 12等 模型匹配方法。同时特征提取的方法也获得新的进展,如韵律、词汇和因素等高层信息的应用 13 利用长时时域信息进行前段分析 16;采用多正交窗来代替汉明窗对 改进 17等。 从整个发展历史可以看出 , 说话人识别 所用语料库经历了从小到大、从干净和受限文本到各种类型及任意内容 文本的发展;核心技术 从仅 单一领域到 学科领域的发展。 说话人识别技术 最终完成了从 小 型化、理想条件化到 实用化 的转变 20。 同时,在很多国际会议,如 国际声学、语音和信号处理会议 ( 欧 洲的语音通信和技术会议(国际自然语音处理会议 (,不断涌现出新的方法和技术。 目前,说话人识别在实际的应用系统中,国外已有较好的发展,例如 研制出太原理工大学硕士生学位论文 3 了 智 能卡 (现已成功应用于自动提款机; 欧洲电信联盟将说话人识别技术应用在电信与金融的结合领域,与 1998 年完成了 划,实现了电信网上的说话人确认; 同时, 公司 成立了 盟,希望 实现自助化的电子交易,其中说话人识别是此项目的一个重要组成部分; 另 有一些公司包括: 司的 司的司的 Z 等 6。此外,还有很多科研院校及公司为研究者提供很多方便的 卡耐基梅隆大学 ( 统, 司的语音处理 ,剑桥大学的 具包等 18。 相对于国外而言,说话人识别研究工作在国内开展的 比 较晚,其中包含一些知名大学和研究 所,如 清华大学自动化系 、 中科院声学研究所 等 19。 随着国内说话人识别技术的不断成熟,许多公司研制开发了说话人识别的相关产品,例如: 北京得意音通技术有限责任公司、中国科技大学的科大讯飞信息科技有限公司 等 20,对国内的说话人识别的市场化应用做出了重要贡献。 说话人识别的研究难点 目前,说话人识别的研究主要集中在两个方面:一方面,说话人个性特征的分离提取、增强及声学参数的非线性处理,特征的可分性是保证识别系统性能的基础,但 仍未研究清楚 声学特征与说话人的个性信息 之间存在的 关系;另一方面,实际环境中识别系统的 鲁棒性研究, 如 信道失真、 说话人特征的多变性、 背景噪声等诸多因素对说话人识别系统产生了 严重影响 ,阻碍了 说话人识别系统的实际应用。因此,能够充分表征说话人个性信息的区分性特征的提取及鲁棒性识别技术的研究,仍然是说话人识别领域研究的热点与难点 。 特征的提取 提取能够充分表征说话人个性信息的特征参数,是决定说话人识别系统性能的关键因素之一。 这些特征应具有以下特点: 较强的可分性 、 好的稳定性、计算简便 、不易 被模仿 等 21。 有学者对特征领域进行了研究,包括对现有特征参数的改进,如基于平滑幅度谱包络的 改进 22、 鉴别性 率倒谱系数 23、 基于帧平均的频率调制 24;非声道 参 数的研究,如考虑 声门的振动对声道的潜在的影响,提出消除声门振动对说话太原理工大学硕士生学位论文 4 人的声道影响的倒谱特征 25;考虑语音频谱处理的影响,对 高频信息、发音机理以及听觉感知机理 进行研究,如 伽马通滤波器倒谱系数 26、小 波包变换的特征参数 27、研究不同子频带对说话人信息的贡献程度, 从生理学角度研究 了不同的发声器官 对 说话人个性信 息 的表征能力 28等。这些研究虽使得系统性能得到改善,但远达不到真正的无条件的实际应用。所以, 如何 从语音 特征中 将说话人个性特征 分离出来,找到算法简单、有效表征说话人特征的参数还需要继续研究。 鲁棒性研究 目前的说话人识别系统,在实际的使用中常受到各种条件的约束,且其系统的稳定性也会发生改变 ,从而影响了用户的使用质量,因此,提高说话人识别系统的鲁棒性成为需要迫切解决的问题之一。造成识别系统鲁棒性降低的原因主要有以下几个方面: (1) 语音信号的易 变性。 同一个 说话人的语音特征并非稳定不变, 会随着 年龄和时间 而 发生 变化, 同时 还 与说话人 的情绪及 健康 状况等自身因素 密切相关 29 (2) 复杂环境的 影响。周围背景中各种噪音的干扰;训练及测试语音的长度,如果语音过短,则不能有效的获得说话人的个性特征,从而降低系统的识别性能; 由于说话者使用的设备不同或传输信道的不同,导致录制的语音受到不同程度的影响,从而降低了 说话人识别系统的性能 ;此外,方言的混入也会严重降低系统的识别性能。 (3) 说话人容易被模仿。 说话人语音中既包含语义信息,又包含说话人的个性信息,当说话人被模仿时,由于很难从模仿者语音中分离出模仿者的个性特征,故常常将模仿者与被模仿者混淆,使得对 模仿者的语 音识 别变的十分困难 30 论文主要内容及结构 本论文共分为六章,具体结构 如下: 第一章是绪论, 简要 介绍 了说话人识别技术的研究背景及 意义 、 说话人识别的发展历史 与现状 ,分析 了 说话人识别 研究 的难点 ,并给出本文的章节安排。 第二章 概述了说话人识别系统,包括其基本原理、系统结构 、分类、常用的特征提取方法、模型匹配方法及系统性能的评价标准。 第三章 构建基于感知对数面积比系数的说话人确认系统,详细 分析 了感知对数面积比系数的提取 方法,并给出其具体的提取过程。 太原理工大学硕士生学位论文 5 第四章 首先研究了 征参数的鉴别性及噪音鲁棒性;然后根据各维特征在噪音环境下的鉴别 能力的不同,将 行特征域的融合 , 并对两种不同的融合算法,在噪音环境下 系统的鲁棒性 进行了实验分析 ; 最后将 行分数域的融合,验证了分数域的融合 可以有效 提高噪音环境下的说话人 确认 系统的识别性能。 第五章 首先介绍了多窗频谱估计法的基本原理,分析比较了三种多窗频谱估计对语音信号的频谱估计性能;然后给出基于多窗频谱估计的 征提取原理和具体流程;最后通过实验分析了窗个数对说话人确认系统性能的影响,并验证了改进方法在提高系统噪音鲁棒性 方面的有效性。 第六章总结与展望,对本文的 主要 工作 内容 进行 了总结,并对未来 的工作进行展望。 太原理工大学硕士生学位论文 6 太原理工大学硕士生学位论文 7 第二章 说话人识别系统概述 说话人识别系统的基本原理及分类 说话人识别是对说话人发出的声音进行处理,通过对语音信号的分析和特征提取,获取说话人个性信息, 进而识别说话人身份的过程。说话人识别是语音信号处理的一个应用 , 他不同于语音识别技术 , 前者侧重于 语音信号中 所包含的个性特征,而后者更倾向于对 语音信号中 的共性信息的提取。 说话人识别的基本原理如图 2示,主要包括训练和识别两个阶段 。 在训练阶段,系统根据 每个说话人的若干训练语音数据,提取相应的特征参数,并 为每个说话人 建立相应的模板或模型参数 ;而在识别阶段, 提取 测试的语 音中 相同的特征参数,然后与说话人的模型数据库进行相似度的 计算,由此来 确定说话人的身份 。 特 征 提 取输 入 语 音模 式 匹 配 判 决 策 略说 话 人模 型 库识 别 阶 段训 练 阶 段识 别 结 果图 2话人识别系统框图 2of 图 2示,说话人识别系统主要包含特征提取和模式匹配两大模块。 特征提取是为了减少语音信号 的冗余信息,减少系统的计算量,只提取能够表征说话人的个性特征参数,从而提高系统的运算效率。模式匹配,是将未知的说话人的语音所携带的个性信息,与说话人模型库进行比对,从而给出最终说话人身份的判决。 具体包括:语音信号预处理、特征提取、模式匹配和决策判定等。 按照任务的不同 说话人识别可以分为两大类 :即说话人确认 (和 说话人辨认 ( 说话人确认是确定 某一 个说话人 是否是 他所 声称的 说话人,只有拒绝和接受 两种结果 ,是“一对一”的问题 ; 说 话人辨认是指通过 对身份未知 语音 的分析, 从已知的说话人数据库 中识别出是哪一个说话人 的过程,是“多选一”的问题 。 图 2 2别为说话人辨认和确认的识别过程框图。 太原理工大学硕士生学位论文 8 说 话 人 I 匹 配 最 大 选 取输 入 语 音说 话 人 模 型 , 1 , ,iM i N特 征 提 取辨 认 结 果图 2话人辨认过程 2 征 提 取 模 型 匹 配 判 决输 入 语 音确 认 结 果接 收 / 拒 绝说 话 人 # 说 话 人 # 话人确认过程 2照 训练 语音 和测试语音文本 内容 ,说话人识别 可分为 与文 本相关(训练 和识别时 的语音内容相同 )与文本无关 (训练和识别时的语音内容无关 )。 此外, 说话人识别根据功能目标可以分为三类: (1) 说话人检测:对于一段识别 语音 ,判断出某个特定的说话人是否在 该语音中。 (2) 说话人跟踪:判断说话人的语音持续轨迹,包括停顿的位置。 (3) 说话人分割: 从一段语音中 检测 出不同说话人语音的起始和终止 位置。 说话人识别的特征提取 提取说话人特征的过程,实际上就是去除原来语音中的冗余信息,减小数据量的过程。 对于说话人识别, 特征 参数应 具有以下特征 : (1) 具 有很高的说话人区分能力, 其不同说话人之间的差异性远远大于说话人自身的变异,且具有很强的稳定性。 (2) 具有较好的鲁棒性, 当 训练和测试语音的 传输信道 不匹配时,及存在背景噪声太原理工大学硕士生学位论文 9 的干扰 时 ,能够保持较好的稳健性; (3) 易于提取、 计算 量少,且 特征参数 的各维之间能够相互独立 , 同时具有 较少的特征维数; (4) 不易被模仿。 在说话人识别系统中, 由于语音信号具有短时平稳性,故在提取语音特征 时,首先对语音信号进行预处理,包括:预加重、分帧和加窗处理。 利用高频预加重来提升 高频信息,压缩语音的动态范围;分帧可满足语音信号的短时平稳特性; 窗函数 的使用 减少了 由截断处理导致的 应 。再对每帧语音信号进行频谱处理,得到各种特征参数21,31。 多年来, 对于说话人识别系统的特征参数的研究,大体可以分为两类 : (1) 高层特征参数, 如韵律、词汇、因素、方言、语调等, 一方面是这些高层特征参数在声学环境变化时能够保持一定的稳定性 , 不易受信道及噪声的影响 , 另一方面是这些韵律特征还能反映说话者的说话风格、习惯等个性特征 32 (2) 底层声学特征参数, 这类特征是基于 声道进行时域 和频域的分析, 因而可以反映说话人生理上的差别。目前说话人识别系统主要依靠底层的声学特征进行识别,例如 率倒谱系数 ( 线性预测系数 ( 线性预测倒谱系数 (感知线性预测系数 (率倒谱系数 参数反映了听觉系统的临界带效应。它可以充分利用人耳 的感知特性, 即对不同频率的语音具有不同的感知能力。 率的提出,是 为了模拟人耳 听觉系统对不同频率语音的具有不同的感知特性 , 率 f 进行非线性变换后得到的一个新的物理量,两者之间的关系为: 2 5 9 5 lo g 1 7 0 0m (度描述了人类听觉系统的感知特性,即人耳 对频率感知呈现出非线性特
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- ××中学心理健康咨询办法
- 某中学学生社团活动审批制度
- 2025年北京师范大学事业单位招聘考试综合类面试真题试卷
- 新闻传媒社会责任与伦理试题
- 2025年雅思考试写作专项预测试卷:历史事件再解读题目集
- 2025年电子商务师(中级)职业技能鉴定试卷:电子商务平台用户行为分析
- 与书同行读后感之鲁滨逊漂流记读后感13篇
- IT行业技术研发工作经验证明(6篇)
- 2025年环境学基础试题
- 新能源汽车轻量化车身结构轻量化设计策略与2025年实施效果鉴定报告
- 四川省成都市郫都区2024届七年级数学第二学期期末综合测试试题含解析
- 行政培训学习课件
- 《电子门禁设计》课件
- 一平台机考《数据结构》复习资料3
- AI驱动测试优化
- 2023年10月自考00401学前比较教育试题及答案含评分标准
- 《二十四孝图》课件
- 国开《酒店前厅服务与管理》形考任务1-3答案
- 2023年四川省资阳市面向全国公开引进急需紧缺高层次人才(共500题)笔试必备质量检测、历年高频考点模拟试题含答案解析
- 国考云在线考试系统试题
- 红色文化学习通课后章节答案期末考试题库2023年
评论
0/150
提交评论