版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
声纹识别中实验过程与实验结果分析案例目录TOC\o"1-3"\h\u20729声纹识别中实验过程与实验结果分析案例 120907(一)实验环境与配置 128688(二)人声分离与特征提取 23682(三)模型训练与实验结果 430231(四)人机交互界面设计 6完成理论方面的准备工作后,则需要进行编程与模型训练等实际操作。本文通过采集十个不同用户的语音特征,共采集到9000条语音数据作为数据集,其中6000条作为训练集,3000条作为测试集。完成模型的训练与验证后,再采集这十位用户的100条数据作为验证集。(一)实验环境与配置本文项目在实验时,处于Windows10Education操作系统下的Python编程环境,Python版本为Python3.7,通过Anaconda搭建虚拟编程环境,CUDA作为运算加速,主要应用的第三方编程包(Package)与其对应工作如表4-1所示。实验硬件环境为:中央处理器Intel(R)Core(TM)i7-9750HCPU@2.60GHz2.59GHz,CUDA运算处理器NVIDIAGeForceRTX20806G,系统运行内存64G。表4-1Python编程包以及应用详情编程包名实验工作版本xlrd表格文件读取2.0.1xlwt表格文件写入1.3.0numpy通用数学数据处理、矩阵运算、数据文件读写与储存1.20.1scipy高斯混合模型训练与运算1.6.2torch提供神经网络深度学习框架,完成梯度反向传播与参数优化1.8.1torchaudio声音文件读写、声音数据集建立、声音文件与张量转换0.8.1matplotlib数据可视化3.3.4(二)人声分离与特征提取完成实验环境的准备工作后,即要开始实验的第一步,人声分离与语音数据的特征提取。本文采用第二章第一节所介绍的卷积时域音频分离网络Conv-TasNet进行人声分离。由于在说话人识别任务中,人声分离只需将测试人的声音与环境噪音等分离开,因此Conv-TasNet模型中声源数量()参数仅需设置为2。卷积自动编码器的窗移采用50%的帧长,即连续帧之间有50%的重叠。其余参数模型参数如表4-2所示。表4-2Conv-TasNet模型参数参数名参数含义数据类型取值需要分离的声音源的数量整型(int)2编码器/解码器卷积核大小整型(int)16传递给掩码生成器的特征尺寸整型(int)512掩码生成器的卷积内核大小整型(int)3掩码生成器中卷积块的输入/输出特征尺寸整型(int)128掩码生成器的卷积块的内部特征尺寸整型(int)512掩码生成器的卷积块层数整型(int)8掩码生成器中卷积块的数量整型(int)3完成人声分离后,需对分离得到的语音信号进行分帧加窗等预处理,最后计算得到测试语音的短时能量和短时过零率,图4-1为随机选取的第一段测试语音的时域信号波形图,及其短时能量与短时过零率。图4-2则为完成端点检测后的检测结果。完成端点检测后,本文会将静音部分从语音序列截取删除,只留下测试用户发音的信号部分,然后将其进行拼接,最后截取2s时长的片段进行语音信号的特征提取与特征识别。(a)原始语音信号时域波形(b)语音信号短时能量(c)语音信号短时过零率图4-1一段测试语音的时域波形与短时能量、短时过零率图4-2语音信号端点检测结果完成语音片段的剪取任务后,即完成了语音信号的预处理工作。完成预处理工作后便可对处理后的语音信号进行特征提取,本文采用Mel倒谱系数的特征参数,由于特征系数提取结果矩阵形状过于庞大难以直接通过数值形式展示,因此本文通过光谱图的形式展示对应结果。本节进行端点检测的同一段测试语音的MFCC光谱图如图4-3所示。图4-3语音信号MFCC光谱图(三)模型训练与实验结果完成特征提取工作后,即可利用提取出的MFCC数据进行说话人辨识与说话人确认的工作。为弥补两种模型各自的不足并取其所长,本文采用的方法为:(1).将测试语音的特征数据通过由高斯混合模型组成的说话人辨识模块,但说话人辨识模块却直接输出辨识结果,而是直接输出测试语音所对应用户的概率数据。(2).将输出的概率数据及对应用户索引安装从高到低的顺序排序,组成验证序列。(3).按照序列顺序将测试特征与用户索引特征数据输入说话人确认模块,若确认成功则输出对应用户,若确认失败且确认次数少于门限次数(本文中设置为3)则输入下一个用户索引并重复步骤(3),若确认失败且确认次数大于门限次数则输出测试用户不属于注册用户集。高斯混合模型的训练工作通过Sci-kitLearn[11,12]工具箱中的scipy编程包完成,需要确定的超参数为模型中混合高斯的数量,该参数本文通过贝叶斯信息准则(BayesianInformationCriterion,BIC)进行评价。本文设定一个循环,使用不同的高斯混合数量对说话人辨识模型进行训练并输出其BIC数值如图4-4所示。图4-4混合高斯模型BIC变化图观察图4-4可知,当混合高斯数量达到10之后便再无明显下降,因此本文模型中取10作为混合高斯数量。说话人确认模块,本文通过卷积神经网络的方式进行实现。网络的输入为两个MFCC特征矩阵,分别为测试语音的MFCC矩阵与用户注册是存留的标签MFCC矩阵。卷积神经网络要完成的任务为,判断输入的两个MFCC矩阵是否来自同一个使用者。本文采用网络结构为:一个输入层,两个卷积层,一个池化层,一个全连接层。在模型训练过程中,初始学习率设置为0.001,若在3个连续的迭代过程中测试集的准确性都没有提高,则将学习率减半;优化器使用Adam优化器。训练完成后模型在训练集,测试集与验证集中的表现如表4-3所示。表4-3模型在不同数据集上的准确率训练集准确度测试集准确度验证集准确度99.72%98.49%98.63%(四)人机交互界面设计完成声纹识别的后端工作任务后,需要对系统的前端窗口进行设计,以方便进行人机交互和投入使用。由于本文中大量的工作都由Python语言完成,且程序接口均为Python接口,因此本文在设计人机交互界面时采用Python环境下的PyQt5代码集进行可视化窗口的设计,以达到直接调用声纹识别模型中所有函数与类的目的。可视化窗口运行的初始界面如图4-5所示。图4-5程序初始化界面打开可视化窗口后,单机“Select”按钮即可选择一个*.wav格式的录音文件,并将该文件的路径显示到窗口第二行的文本编辑框中,再点击其他工作按钮即可载入该录音文件;同时,将文件的路径直接写入或粘贴进文本编辑框中,也可实现相同的目的。选择录音文件后的窗口如图4-6所示。图4-6录音文件选定录音文件选定之后,即可进行三种不同的操作,即
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年人力资源投资物联网接入合同
- 2026年钢铁外包教育合作协议
- 2026新农人计划面试题及答案
- 2026宣威护理面试题及答案解析
- 2026巡检工作面试题及答案
- 2026医疗正科面试题及答案
- 2026医学岗位面试题及答案
- 2026医学检验生面试题及答案
- 《人教版高中综合实践活动必修原文精讲|重难点逐句 - 逐题拆解教学案》
- 2026年事业单位考试计算机基础知识真题卷及答案(十九)
- 建筑工地责任倒查工作制度
- 2026年香港插班小学试题及答案
- 2024-2025学年度中医执业医师真题附答案详解(精练)
- 闭店安全检查制度
- 2023-2024学年浙江省金华市十校高二下学期期末调研考试历史试题(解析版)
- 新课标小学语文培训课件
- 2026年苏州中考数学去试卷及答案
- GB/T 46550.2-2025天然气加臭剂的测定第2部分:用电化学传感器法测定四氢噻吩含量
- 中医常用养生保健方法
- 涉警舆情处置课件
- 70岁以上驾驶员换证三力测试题库(含答案)
评论
0/150
提交评论