声音识别基础知识_第1页
声音识别基础知识_第2页
声音识别基础知识_第3页
声音识别基础知识_第4页
声音识别基础知识_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、声音识别基础知识2015级电子与通信工程 董雪声音识别原理语音输入语音输入训练训练识别识别结果结果声音识别的过程 声音的预处理:振幅归一化、预加重、样本分割、加窗 特征提取:特征参数可以是能量、基音频率、共振峰值等,较常见的是线性预测倒谱系数LPCC、Mel倒谱系数MFCC。二者均为将声音信号变换到倒谱域上。幅值归一化 幅值归一化就是把每一个采样值除以本段信号的幅值。即: 其中, 是原始信号, 是归一化后的信号,n是信号长度。01( )( )/ max ( )i nX ix ix i ( )x i( )X i预加重处理 目的:对高频部分进行加重,增加语音的高频分辨率。 实现方式:一般通过传递函

2、数 的一阶FIR高通数字滤波器来实 现预加重,其中, 为预加重系 数,其值介于0.9到1.0之间。 11H zz 加窗处理 预加重处理后,进行加窗分帧处理。 原理:由于发声器官的惯性运动,可以认为在一小段时间内(一般为1030ms)语音信号近似不变,即语音信号具有平稳性。这样,可以把语音信号分为一些短段(分析帧)。语音信号的分帧是采用可移动的有限长度窗口进行加权的方法实现。一般每秒33100帧。加窗处理 虽采用连续分段,但一般采用交叠分段 的方法使帧与帧之间平滑过渡,保持连 续性。前帧与后帧的交叠部分称为帧移 ,帧移与帧长的比值一般取01/2。 常用窗: 一种是矩形窗: 另一种是汉明窗:1,0

3、10,( )n Nothersn 0.54 0.46cos2/(1),00,nNn Nothers 矢量量化 基本原理:先把信号序列的每K个连续样点分成一组,形成N维欧式空间中的一个矢量,然后对此矢量进行量化。矢量量化就是把一个K维模拟矢量X映射为另一个k维量化矢量,其数学表达式为:Y=Q(X)。 矢量量化系统通常可以分解为两个映射的乘积:Q=ab。a是编码器,将输入矢量X映射为信道符号集 中的一个元 ;b是译码器,它是将信道符号集 映射为码书中的一个码字Yi。NIjiji矢量量化 失真测度:要对落在二维空间的模拟矢量X=(a1,a2)进行量化,要先选择一个合适 的失真测度,而后利用最小失真原

4、则,分别计算用量化矢量Yi替代X所带来的失真。 其中最小失真值所对应的那个量化矢量Yi中某一个就是模拟矢量X的重构矢量。通常把所有N个量化矢量构成的集合称之为码书或码本。码书中的矢量称之为码字或码矢。矢量量化 常用的失真测度有如下几种: (1)平方失真测度: (2)绝对误差失真测度: (3)加权平方失真测度: 其中,W为正定加权矩阵,T为矩 阵转置符号。2(, )()iid X YXY1(, )|kiiid X YXY(, )()()Td X YXYW XY矢量量化 失真度必须具有如下特点: (1)在主观评价上具有意义,即小的失真对应好的主观质量评价。 (2)数学上易于处理,能导致实际的系统设计。 (3)可计算并保证平均失真 D=Ed(X, Q(X)存在。 (4)采用的失真测度应使系统容易用硬件实现。基于Mel和矢量量化的方法 声音预处理 取帧长,每帧作FFT变换。 用Mel带通滤波器进行滤波,得到一组系数。 将每个滤波器的输出取对数,得到相应频带的对数功率谱 利用反离散余弦变换得到MFCC 矢量量化 特征匹配基于MFCC和GMM的方法 声音预处理 取帧长,每帧作FFT变换 把上述功率谱映射到梅尔频标,再用M个梅尔带通滤波器滤波 将每个滤波器的输出取对数,得到相应频带的对数功率谱 利用离散余弦变换得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论