




已阅读5页,还剩52页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
指导 教师:日期:时 作者郑重声明:所呈交的学位论文,是本人在导币的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 基于深度学习的说话人识别系统研究锄猙鲥锄印班畁鲥醩卿血鹏觚一 祷叭耸侗鸹局J丁 基于深度学习的说话人识别系统研究大连理工大学学位论文版权使用授权书 图语音处理的分支说话人确认是指将待测输入音频样本的特征参数与已知说话人集合中某个认定身份模型进行匹配,来确认待测音频是否为该说话人说的,这是关于是与否的判断,是一对一问题。它有时也可以作为一个开集问题,因为该问题需要从大量的非系统中的输入语音样本中,区分出需认定身份说话人的语音。说话人确认是说话人识别应用的基础。例如,开集说话人辨识就是将闭集说话人辨识与开集说话人确认两者结合起来的问题。 基于深度学习的说话人识别系统研究说话人识别通常称为声纹识别,它与指纹识别、人脸识别、瞳孔识别等统称为生物说话人识别技术只需要音频输入设备,如机、手机、平板电脑、麦克风等,性价比较高。相比于其他生物识别技术而言,说话人识别所需的仪器,其价格较为便宜。随着银行业务的不断发展,远程炒股、电话银行已经被广大用户接受,以前不得不记住数字或者是手写的密码,这样容易导致密码泄露或丢失。如果与说话人识别技术相结合,其安全性能将会得到大幅度提升。目前,阿里巴巴公司开发的支付宝和腾讯控股公司开发的微信都有声音支付的功能,如果它们能与说话人识别技术相结合,则能够有效地防止身份被复制与盗用。 与动态时间规整相结合的方法,并应用于说话人识别中【。等于年提出了 基于深度学习的说话人识别系统研究语音波形信号语谱图,倒谱技术琇琇图说话人识别技术的研究历程年以来,说话人识别技术的研究进入新的阶段,即从实验室逐渐走向了商业应】,并将其应用于说话人识别中。联合因子分析技术主要从两为了能较好的评价广大学者有关说话人识别技术的研究成果,促进研究水平的提高,年,美国相关部门为学者们提供统一的语音测试平台,一些著名院校参与到其中,包括美国麻省理工学院、美国斯坦福大学、美国卡耐基梅隆大学等。同样,国内一些院校也很关注说话人识别技术,清华大学、北京大学、中国科技大学以及大连理工大学等单位也对说话人识别技术进行了研究,虽然国内开展工作的时间较晚,但也有一些院校为说话人识别研究做出了贡献,取得了较好的测评效果,如年,清华大学的马成远与陈韬,共同实现了多信道说话人识别系统,并获得了“金星奖”一最高奖项, 方法,将说话人的声道特征与语音的特征区分开来。本文研究了近几年比较热门的深度学习理论,并将其应用于说话人识别中,在分析究现状,以及亟待解决的问题。括语音信号产生与数学模型的抽象、语音信号预处理以及语音特征计算、说话人识别模 基于深度学习的说话人识别系统研究口音洲 辐射模型 基于深度学习的说话人识别系统研究口”嘴唇辐射的影响可以用辐射模型尺表示,它通常是一种高通滤波运算,可以表示 一般来说,语音的预加重处理是通过高通滤波来完成。本文采用的滤波器传输函数语音信号的预加重处理过程为:以应用平稳信号处理方法来分析语音信号。将语音信号进行逐段拆分,每一段称为一“帧”。在一帧语音中,用平稳信号理论方法来处理每一帧语音信号。可以对语音以交叠的方式进行分帧,也可以进行连续的语音划分,即相邻两帧之间没有重叠部分,如图所示。通常情况下,一帧语音的长度取,在采用交叠方式分帧时,前后两帧相交叠的部分叫做帧移,实际中,帧移通常是帧长度的一半。矩形窗函数的时域定义为 基于深度学习的说话人识别系统研究其频域表达式为以功万丙备,其中,为矩形窗函数的频域表达式。,麝仍瞰国一缶卜卜缶亿其中,为矩形窗函数频域表达式。语音端点检测 由于式爆是对信号册氪昂齱做相乘平方操作,所以使得信号之间的差距变大。所以通常情况下,人们采用短时平均幅度坛来替换短时能量。短时平均幅度函数为:语音信号的短时过零率为:刀穝兑縄这里,为窗函数,羀】是符号函数:兜亿基于过零率方法,可以检测语音的起始点和终止点。当语音信号中大多为清音时,过零率就相对较高,反之,当语音信号中浊音成分较多时,过零率就相对较低。但是,在实际应用中,仅仅单独凭借短时能量或者短时过零率进行语音信号端点检测,往往不能较好的确定语音起始和终止位置。在实际应用中,经常要把两种方法结合起来使用,即接下来要介绍的短时能量和短时过零率混合的双阈值端点检测方法。 基于深度学习的说话人识别系统研究图双阈值端点检测流程图 上述描述双阈值的端点检测处理流程图如图所示。 基于深度学习的说话人识别系统研究图梅尔倒谱系数提取框图 删滤波器组厂驰獭獭以慧删其中,咫为语音信号的采样频率,为信号进行浠坏牡闶隵分别表示一八仉一一一一 可生卜中输出的频谱能量做取对数操作,得到的如下躮 基于深度学习的说话人识别系统研究。玎,函数表达式为: 祝撼鲎嬖烈奁穸槌嬉不咩舞学咩茏学亿珿。详细的计算过程类似于上一节介绍的计算过程,图计算过程框图只,木蜀,木宰木,域表示动。 基于深度学习的说话人识别系统研究到各通道的频域信号能量谱。厂聊,琧蓝敢三亿蚴这里,三是滤波器阶数。下面对上述几种识别模型进行简单介绍。在说话人识别中,首先计算出说话人的特征向量,将其构成一个矢量,在训练模型时,将训练语音特征矢量进行聚类,在每一类中将所有矢量求均值,得到每一类的码失,这些码失就构成了一个非参数模型;在识别阶段,将测试语音的特征矢量与这些码失求最小距离并累加,作为该测试语音与该语音的相似程度,进行识别处理。该模型识别数据量小,但是识别结果不高。 支持向量机是通过如何能使得结构风险最小,来构造出的一种学习方法,但是支持向量机要解决两个问题,即要使得系统的学习能力好,同时还需要保证系统计算量尽量小。在说话人识别系统中,支持向量机正是通过解决以上两个问题,来进行训练、学习得到模型的最佳泛化能力,即在对某些特定语音样本之间的学习精度和系统能力,寻求对任意样本的最佳识别率。神经网络也称为人工神经网络,它是通过对人脑思维方式的模拟,从而被提出的一种适合于计算机处理的复杂网络模型,所以将其引入到说话人识别系统中是很自然的想法。该网络模型分为很多层,且同一层中又有很多神经元,不同层中的神经元之间有相互连接的关系。该模型进行训练时也是一个学习的过程,在层数以及层上神经元数设定好后,通过不断调节各神经元之间的关系,使得模型能够精确的完成某项任务。当神经网络应用于说话人识别系统,产生了一个问题。即在用神经网络训练好学习模型以后,再识别阶段,如果测试语音的人群改变后,神经网络的内部结构也要随之改变,例如输出神经元的个数就需要改变,所以说还需要对模型重新训练。而且,当鸾龃笫保窬缪盗匪枰5氖奔浠嵋灾甘男问皆龃螅砺凵系盢增大到一定程度后,神经网络的训练很难无法进行下去。高斯模型是将不同类别的事物用不同形式的高斯概率密度函数表示的过程,高斯混合模型是通过多个高斯模型来表示同一类别事物的过程。高斯混合模型在运动目标检测、图像分割、机器故障检测、语音识别等领域中多有着较为成功的应用。在说话人识别系统中,在高斯混合模型训练时,就是为每一个说话人建立一个高斯混合模型,训练的实质就是估计高斯混合模型的参数,当所有说话人都被训练完成后,将每个说话人的模型参数进行保存;在测试时,将待测语音同每个说话人的模型参数进行比较,计算出其与每个说话人的似然函数,把似然函数最大的说话人认定为最终的结果。 基于深度学习的说话人识别系统研究耐:丽辉衅鰋 动的完成语音识别、语音英中之间翻译以及语音合成等功能,并取得了良好效果。 基于深度学习的说话人识别系统研究锄,、深度如果不强制令输出必须和输入相等,同时将线性代数中基底引入到这里,即其中系数彤和基底岛可以通过求解优化问题得到,这些系数和基底就可以看成是深度信念网络 ,欤幻一,办;秒 基于深度学习的说话人识别系统研究由于受限玻尔兹曼机的这种特殊的二分结构,联合概率分布的边缘分布尸,;回。由于受限玻尔兹曼机的隐藏层单元之间、可视层单元之间是相互独立酌,在己知可尸霫豢詌其中,三忑为函数。模型参数的对数似然的偏导数可以从式中得到 鷓,其中螅为模型参数,即弧为有向舯拍钔纾琀办为第二层受限玻尔兹曼机的联合概率分布。尸形、曼机的联合概率分布,矿窍嗤摹保油胪锌梢钥闯觯珼 基于深度学习的说话人识别系统研究姘啤粮甙冗删。赢叫莓吲豃贪婪学习算法通过构造多层受限玻尔兹曼机来实现,如图所示。具体过程如下:燃一粼一撇 【】: 其中l睾莸撞縄出亩澹词瓒印 基于深度学习的说话人识别系统研究人的感知、人的思想意识以及人的言语等功能,深度学习能够自己通过学习、训练来识别语音、文字、图像等其他事物。进而通过电脑去完成一些人们通过感觉就能直接解决的事情,例如如何辨别人脸,理解文字、识别声音等。我们选择深度学习去解决说话人识别问题的动机主要是解决有浅层学习导致的深度不足问题、模拟人脑思维的深层架构以及人类认知的逐层抽象化过程。如果神经网络的深度不足,可能导致的结果是,原本可以由个数量级的参数 、厅叫岛粕祝肪 霫豪价酝乙焕家迹豀一壹巳哆吉布斯抽样是基于条件抽样分布代替全概率分布抽样。如,设祝为基于受限玻尔兹曼机模型具有对称结构,以及同层节点间的状态具有独立特性,所; 。如一吩。口。滓啪。一灰唬琁唬甀一从式锌梢缘玫剑筒问母鹿蹋缡所示。猣 基于深度学习的说话人识别系统研究基于深度学习的说话人识别行预处理、端点检测后,提取训练语音的特征参数,然后将提取的特征参数作为深度信 , 基于深度学习的说话人识别系统研究 位操作系统上完成,机的内誈。语音采集时,采用有源录入语音文件,编程环境为嗦氲膒格式语音文秒左右,朗读速度适中,录制环境为实验室的消音室。在训练阶段对应的训练标签相同,即鎛 基于深度学习的说话人识别系统研究段单位长度丁的测试语音认为识别正确,否则记为识别错误,这样以来,同样可以应用式统计出系统的识别率。鷇丽騃以下实验中,所有用到的语音信号的采样率都是模捎进行量化, 图三角形滤波器组示意图鷒表说话人识别实验的向量库 叮 基于深度学习的说话人识别系统研究每个隐含层选取个神经元,第一层隐含层难奥噬柚梦,训练次数危渌的学习率设置为,训练次数为次,训练数据的最小分批大小为馐杂镆舻牡怀壬瓒、。系统表测试语音不同单元长度的说话人识别率图测试语音不同单位长度的说话人识别率鲥了前后几帧的语音信息,这样用来识别的信息数量就会大大减少,导致识别效果较差。 图不同语音特征的说话人识别率毹 甧鬿 基于深度学习的说话人识别系统研究表模型不同层数与层节点数的系统识别结果虢 图模型不同层数与层节点数的系统识别结果 旋 时,通过增加隐含层的层数或者是增加每层的节点个数可以较为明显的提高系统的识别鷒匝 也 基于深度学习的说话人识别系统研究舶 镃 基于深度学习的说话人识别系统研究基于改进统计方法的说话人识别系统研究上面描述的系统识别率统计方法,对于两个说话人识别系统而言是适用的,但是当实验包括妒个说话人,即训练库中有个说话人,待测试的语音单位长度分为丁本文提出了一种改进的识别率统计方法,不同于传统统计识别方法中,通过直接统话人的统计值加一,即删緅】【敲唇馐杂镆舳际侗鸾崾螅冉蟦 表不同统计方法的说话人识别率印鰑图不同统计方法的说话人识别率鲥 基于深度学习的说话人识别系统研究 进行说话人识别实验;另一种是基于改进统计方法的说话人识别算法,本文引入了分帧概率打分的统计准则,进行说话人识别实验
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年教师招聘之《幼儿教师招聘》模拟题库带答案详解(考试直接用)
- 2025年教师招聘之《幼儿教师招聘》题库及答案详解【全优】
- 2025一建《水利水电工程管理与实务》押题卷A卷
- 乳品新产品平台创新创业项目商业计划书
- 押题宝典教师招聘之《小学教师招聘》通关考试题库及参考答案详解(模拟题)
- 教师招聘之《小学教师招聘》能力提升题库及参考答案详解【突破训练】
- 2025内蒙古呼伦贝尔农垦集团有限公司招聘笔试及答案详解(名校卷)
- 教师招聘之《小学教师招聘》模拟考试高能附参考答案详解【b卷】
- 教师招聘之《小学教师招聘》提分评估复习附参考答案详解(培优b卷)
- 教师招聘之《小学教师招聘》考前冲刺分析附答案详解【a卷】
- 劳动课种植教学方案
- 2024年全国职业院校技能大赛高职组(环境检测与监测赛项)考试题库(含答案)
- 实验-大肠杆菌感受态细胞的制备及转化
- 2025年中考语文阅读复习:理解词语含义(含练习题及答案)
- GB/T 44421-2024矫形器配置服务规范
- 磷酸哌嗪宝塔糖的毒理学研究
- 【课件】2025届高三生物一轮复习备考策略研讨
- 灵芝培训课件
- 环形开挖预留核心土法
- 妇科医生进修汇报课件
- 《科室管理方案》课件
评论
0/150
提交评论