版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于BP神经网络语音识别技术汇报人:基于BP神经网络的语音识别技术专家讲座第1页目录一.语音识别概述二.语音识别流程三.语音信号预处理四.语音识别特征提取五.BP神经网络原理六.语音识别程序设计基于BP神经网络的语音识别技术专家讲座第2页一.语音识别概述
语音识别以语音为研究对象,包括到生理学、心理学、语言学、计算机科学,以及信号处理等很多领域,最终目标是实现人与机器进行自然语言通信,用语言操纵计算机。基于BP神经网络的语音识别技术专家讲座第3页
语音识别系统能够分为孤立字(词)语音识别系统、连接字语音识别系统以及连续语音识别系统。语音识别系统分为两个方向:一是依据对说话人依赖程度能够分为特定人和非特定人语音识别系统;二是依据词汇量大小,能够分为小词汇量、中等词汇量、大词汇量,以及无限词汇量语音识别系统。基于BP神经网络的语音识别技术专家讲座第4页二.语音识别流程从图系统整体架构能够看到,建立基于BP神经网络语音识别系统可分为两个阶段,即训练阶段和识别阶段。首先由用户经过麦克风输入语音形成原始语音,然后系统对其进行预处理。预处理包含预加重,加窗分帧和端点检测三个过程。系统前端采取了端点检测,目标是在一段语音信号中确定起点和终点。在特征提取部分,本系统采取了MFCC作为特征参数,用于有效地域分数字1-5.基于BP神经网络的语音识别技术专家讲座第5页三.语音信号预处理1.预加重语音从嘴唇辐射会有6dB/oct衰减,所以在对语音信号进行处理之前,希望能按6dB/oct百分比对信号加以提升(或加重),以使得输出信号电平相近似。可采取以下差分方程定义数字滤波器:式中,系数常在0.9至1之间选取。基于BP神经网络的语音识别技术专家讲座第6页2.语音信号分帧语音信号是一个经典非平稳信号,它均值函数u(x)和自相关函数R(xl,x2)都随时间而发生较大改变。但研究发觉,语音信号在短时间内频谱特征保持平稳,即含有短时平稳特征。所以,在实际处理时能够将语音信号分成很小时间段(约10~30ms),称之为“帧”。在语音信号数字处理中惯用窗函数是矩形窗、汉明窗等,它们表示式以下(其中N为帧长):矩形窗:汉明窗:基于BP神经网络的语音识别技术专家讲座第7页3.端点检测基于短时能量和短时过零率双门限检测法在该算法中,短时能量检测能够很好地域分出浊音和静音。对于清音,因为其能量较小,在短时能量检测中会因为低于能量门限而被误判为静音,短时过零率则能够从语音中区分出静音和清音。将两种检测结合起来,就能够检测出语音段及静音段。基于BP神经网络的语音识别技术专家讲座第8页下列图是我本科课程设计中一个关于端点检测程序GUI界面,其中语音是教材中示例语音“他去无锡市”,我经过cooledit在示例语音中加入了白噪音,能够看出清音段混杂在噪音中,假如短时能量门限值选取过高可能会屏蔽掉清音段,所以加入过零率能更加好识别出清音段。基于BP神经网络的语音识别技术专家讲座第9页由此图能够看出门限值选取合不合理很大程度上影响到端点识别效果基于BP神经网络的语音识别技术专家讲座第10页四.语音识别特征提取特征提取:即对不一样语音寻找其内在特征,由此来判别出未知语音,所以每个语音识别系统都必须进行特征提取。语音信号特征主要有时域和频域两种。
时域特征:短时平均能量、短时平均过零率、共振峰、基音周期等;
频域特征:线性预测系数(LPC)、LP倒谱系数(LPCC)、
Mel频率倒谱系数(MFCC)等。
本试验选取MEL频率倒谱系数(MFCC)进行提取特征参数。
经过阅读文件了解到基于DTW算法和MFCC就已经能够做到语音识别了,不过泛化性比较差,中间测试过一个相关程序只能识别特定语音片段,更换说话人后识别效果很差。基于BP神经网络的语音识别技术专家讲座第11页五.BP神经网络原理BP神经网络又称误差反向传递神经网络。提取了语音特征参数后,靠神经网络中大量连接权对输入模式进行非线性运算,产生最大兴奋输入点就代表了输入模式对应分类。神经网络连接权系数是在使用中依据识别结果正确是否不停进行自适应修正。单隐层网络整个体系结构如图所表示,分为输入层、隐藏层和输出层,其中隐藏层依据详细情况需要,能够是一层结构也可为多层结构。基于BP神经网络的语音识别技术专家讲座第12页六.语音识别程序设计数字语音识别试验目标:识别135三个数字(选择135是因为135三个数字识别率最高)训练样本:每个数字选取5个样本进行训练(均为同一个人样本)测试样本:每个数字选取3个样本进行识别测试(均为同一个人样本)T1=[100]‘%代表1T3=[010]‘%代表3T5=[001]‘%代表5基于BP神经网络的语音识别技术专家讲座第13页文件内容备注./pic该文件夹中保留有试验效果分析结果图片./S该文件夹中为全部训练样本夹内各个文件夹名字代表其内音频内容,比如名字为1文件夹中全部音频内容均为1发音./T该文件夹中为全部测试样本夹内格式同上./enframe.m该函数将输入向量分为固定长度固定重合量帧Matlab语音工具箱组件./melbankm该函数为Mel滤波器Matlab语音工具箱组件./mfcc.m该函数求出输入数据mfcc系数12维mfcc系数./MfccProcess.m将多组mfcc系数取平均对mfcc系数预处理./SampleCreate.m将取全部音频mfcc系数处理成神经网络函数所需输入格式./Main.c主程序函数,在这里设置参数,控制运行下表格为所用到matlab程序及其功效:基于BP神经网络的语音识别技术专家讲座第14页netBP=newff(PR,[30,10,3],{'tansig','tansig','tansig'},'trainbfg');%使用TRAINSIG,即共轭梯度法,其好处是当训练不收敛时,它会自动停顿训练,而且耗时较其它算法(TRAINLM,TRAINGD)少,也就是收敛很快netBP.trainParam.epochs=100;%设置训练步数
[nettr]=train(netBP,PS,T);%网络训练
神经网络训练:Y=sim(net,Test)%输入测试语音参数进行识别神经网络测试:神经网络相关部分程序:基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年留守儿童积极心理品质培育团体活动
- 2026年小学人民币(认识钱币)生活化购物模拟
- 2026年输电线路应急抢修工器具与材料配置
- 肠癌患者的造口康复与适应
- 2026年施工机具安全防护与操作规程
- 2026年设计类大学生暑期实习求职攻略
- 运动场健身器材租赁协议2026
- 建筑工程搬运设备委托合同2026年执行
- 内部沟通信息交流合作协议书
- 滑雪场门票销售代理协议2026年版本
- 微生物组数据隐私伦理
- 2026重庆水务环境集团所属重庆水务集团股份有限公司招聘42人笔试备考题库及答案解析
- 2026届河北省石家庄市新乐市重点名校中考英语仿真试卷含答案
- 2026安徽安庆市宿松县事业单位招聘84人笔试备考试题及答案解析
- 持续照料养老社区建设指南
- 《三才绝学》聂枭九部系列之一
- 保险行业系统生态图分析报告
- 2018劳动合同北京市劳动合同书样本劳动和社会保障局监制
- 《中华人民共和国标准设计施工总承包招标文件》(2020年版)
- GB/T 41715-2022定向刨花板
- GB/T 5786-2000六角头螺栓细牙全螺纹
评论
0/150
提交评论