版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
深度学习在异常声音识别分类中的应用案例分析目录TOC\o"1-3"\h\u20134深度学习在异常声音识别分类中的应用案例分析 1188361.1准备工作 1308081.2基于全连接DNN的异常声音识别分类系统 223481.2.1系统结构图 2171751.2.2实验结果分析 285951.3基于CNN的异常声音识别分类系统 4115381.3.1系统结构图 4293571.3.2实验结果分析 548031.4基于RNN的异常声音识别分类系统 692791.1.1系统结构图 633961.1.2实验结果分析 6250181.5基于CNN-RNN的异常声音识别分类系统 7158661.5.1系统结构图 8173451.5.2实验结果分析 81.1准备工作1.1.1数据集的使用本文研究的内容是对环境中的不同声音进行识别分类,并识别出该声音是否是异常声音。因此对于此任务,本文将使用UrbanSound8K数据集。该数据集作为一种使用较为广泛的对城市环境声音进行处理的数据集。它一共收录了十种合计8732个已标注的音频文件。这些音频的种类分别是空调声(air_conditioner)、汽车鸣笛声(car_horn)、儿童玩耍声(children_playing)、狗叫声(dog_bark)、钻孔声(drilling)、引擎空转声(engine_idling)、枪击声(gun_shot)、手提钻声(jackhammer)、警笛声(siren)和街头音乐声(street_music)。该数据集中各分类编号与分类名称对应关系如下表4-1所示。表4-1classID与className对应关系表classIDclassName0air_conditioner1car_horn2children_playing3dog_bark4drilling5engine_idling6gun_shot7jackhammer8siren9street_music1.2基于全连接DNN的异常声音识别分类系统首先使用全连接DNN来测试其对异常声音识别的能力,全连接DNN具有多个隐藏层,每个隐藏层都表现为全连接层。通过输入已经提取的数据集的梅尔倒谱系数参数,在经过全连接层的变换后,输出层输出结果,并使用softmax进行分类。1.2.1系统结构图该模型主要由全连接层构成,在输入层后接三个全连接层来完成训练数据集的目的。其中前两个全连接层使用激活函数relu,最后一个全连接层使用softmax进行分类并输出。该模型的主要结构图及各层参数如图4-1和表4-2所示。图4-1全连接DNN结构图表4-2DNN模型各层的参数Layer(type)OutputShapeParam#input_1(InputLayer)[(None,40)]0dense(Dense)(None,128)5248dense_1(Dense)(None,128)16512dense_2(Dense)(None,10)51301.2.2实验结果分析实验中全连接DNN采用学习率lr=0.001,样本训练数量batch_size=32,设置EarlyStopping当验证损失率不在下降时停止训练,此时的训练次数epochs=41。实验数据集正确率与损失率评估图像如下图4-2与4-3所示。图4-2全连接DNN正确率图4-3全连接DNN损失率从实验结果可以看出,当训练停止时该模型的正确率Accuracy=80.16%。由于进行训练和验证的数据集样本量较小,而全连接DNN具有很强的拟合能力,很容易造成过拟合情况。1.3基于CNN的异常声音识别分类系统为了解决全连接DNN的缺陷,下面选用卷积神经网络(CNN)来进行数据集的训练和验证。CNN使用卷积层和池化层对输入数据进行变换,并将最后的结果作为全连接层的输入,在最后使用softmax进行分类。1.3.1系统结构图该模型主要由输入层、两个卷积层、两个池化层、一个全连接层和softmax输出层共七层。其中,池化层采用最大池化(MaxPooling)计算方式,其中卷积层和全连接层使用激活函数relu,输出层使用softmax进行分类。该模型结构图和各层参数配置如下图4-4和表4-3所示。图4-4CNN结构图表4-3CNN模型各层的参数Layer(type)OutputShapeParam#input_1(InputLayer)[(None,40,173,1)]0conv2d(Conv2D)(None,38,171,32)320batch_normalization(None,38,171,32)128max_pooling2d(None,19,85,32)0dropout(None,19,85,32)0conv2d_1(Conv2D)None,17,83,64)18496batch_normalization_1(None,17,83,64)256max_pooling2d_1(None,8,41,64)0dropout_1(None,8,41,64)0Flatten(Flatten)(None,20992)0dense(Dense)(None,128)2687104batch_normalization_2(None,128)512dense_1(Dense)(None,10)12901.3.2实验结果分析实验中CNN的学习率lr=0.001,样本训练数量batch_size=32,卷积核大小为(3,3),池化层过滤器大小为(2,2)。同样设置EarlyStopping当验证损失率不再下降后停止训练,此时的训练次数epochs=8。实验数据正确率与损失率图像如下图4-5和4-6所示。图4-5CNN正确率图4-6CNN损失率从实验结果可以看出,CNN与全连接DNN相比,利用了卷积和池化技术从局部数据中提取出特征,大大降低了复杂度,其正确率Accuracy=97.26%。1.4基于RNN的异常声音识别分类系统考到声音文件在时间序列的变化上是有规律的,前一段时间的音频信号有可能与后一段时间的音频信号有联系。故本小节选用循环神经网络(RNN)来进行数据集的训练与验证。1.1.1系统结构图构建基于RNN模型的异常声音识别分类系统,在输入层后加入了LSTM单元。全连接层使用激活函数relu。该模型结构图和各层参数配置如下图4-7和表4-4所示。图4-7RNN结构图表4-4RNN模型各层的参数Layer(type)OutputShapeParam#input_1(InputLayer)[(None,173,40)]0lstm(LSTM)(None,100)56400续表4-4dropout(Dropout)(None,100)0dense(Dense)(None,128)12928dense_1(Dense)(None,128)16512dense_2(Dense)(None,10)12901.1.2实验结果分析实验种RNN采用的学习率lr=0.001,样本训练数量batch_size=32,设置EarlyStopping当验证损失率不再下降后停止训练,此时的训练次数epochs=21。实验数据正确率与损失率图像如下图4-8和4-9所示。图4-8RNN正确率图4-9RNN损失率根据实验结果可知,在处理具有时间序列特点的音频文件时,RNN也具有较高的性能。其正确率为Accuracy=61.06%1.5基于CNN-RNN的异常声音识别分类系统前三种网络模型在处理UrbanSound8K数据集的正确率如下表4-5所示。表4-5模型正确率ModelAccuracyDNN80.16%CNN97.26%RNN61.06%卷积神经网络(CNN)具有其独特的卷积层和池化层,能够对音频信号的处理发挥重要作用,而这些音频信号在某种程度上具有时间特性,循环神经网络(RNN)也就有一定的优势。本小节采用CNN来对输入数据进行卷积与池化处理,并将池化后的结果送入RNN,构建了一种CNN与RNN结合的异常声音识别系统。1.5.1系统结构图该模型主要有CNN与RNN结合而成,使用CNN的卷积层与池化层作为输入数据的处理,并将处理结果放入RNN中,最后采用全连接层来输出数据。卷积层采用激活函数relu,输出层采用softmax进行分类。该模型主要结构和各层参数如图4-10与表4-6所示。图4-10CNN-RNN结构图表4-6CNN-RNN各层参数Layer(type)OutputShapeParam#conv1d(Conv1D)(None,40,32)192conv1d_1(Conv1D)(None,40,64)10304max_pooling1d(None,5,64)0lstm(LSTM)(None,100)66000dense(Dense)(None,128)12928dense_1(None,10)12901.5.2实验结果分析实验中该模型采用学习率为lr=0.001,样本训练数量batch_size=32,卷积核大小为5,池化层过滤器大小为8,设置EarlyStopping当验证损失率不再下降后停止训练,此时的训练次数epochs=67。实验数据正确率与损失率图像如下图4-11和4-12所示。图4-11CNN-RNN正确率图4-12CNN-RNN损失率由实验结果可知,采取CNN与RNN结合的方式设计的模型,在处理具有一定时间序列特征的音频文件时,也可以发挥很好的效果,其正确率Accuracy=85.2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026中国科学院广州生物医药与健康研究院细胞命运研究组招聘博士后(神经发育类器官工程方向)备考题库(广东)带答案详解(夺分金卷)
- 农村环境卫生意识培训课程
- 趣味无穷的初中化学实验集
- 软件工程师面试全解析:技术难题与解决方案
- 旅游景区环境整治与提升计划
- 品牌推广与市场营销实战
- 水利工程中的大型起重机械操作要点
- 新材料产业发展规划与应用推广方案
- 平面设计中的插画与图形设计
- 铝镁合金的热处理技术探讨
- 2026山东出版集团有限公司山东出版传媒股份有限公司招聘193人备考题库及答案详解(基础+提升)
- 职业危害事故处置及报告全流程培训
- 2026年无锡工艺职业技术学院单招职业技能考试题库有答案详解
- 物业服务标准与质量管理手册(标准版)
- 第34届河北省青少年科技创新大赛青少年科技创新大赛查新报告(参考样)
- 脉冲整流器主电路及其控制(由于公式编辑器版本问题不能保存为PPT格式)课件
- GB/T 13462-2008电力变压器经济运行
- GB 7912-2010食品安全国家标准食品添加剂栀子黄
- 品质工程监理实施方案
- 2023年汉字听写大赛题库全部词语拼音解释
- GA/T 882-2014讯问同步录音录像系统技术要求
评论
0/150
提交评论