

已阅读5页,还剩6页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于matlab的语音信号分析摘要:当今语音信号分析技术主要可以分析语音信号的时域与频域方面的分析。在matlab的环境下,提取语音信号的特征参数(lpcc)分析,用于信号分析。将语音信号进行分析之后能够运用到人机交互的环境中,从而研究出智能的人机通信问题。关键字:语音信号;matlab;人机通信;the analysis of speech signal based on matlababstract: the speech signal analysis technology can analyze speech signal in time domain and frequency domain analysis of the. in the matlab environment, extraction of speech signal feature parameters ( lpcc ) analysis, used for signal analysis. speech signal analysis can use to human-computer interaction in the environment, in order to study the intelligent man-machine communication problems.keyword: speech signal;matlab;man-machine communication1. 前言语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。同时,语言也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为信息处理系统建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化程度。2. 语音信号基本分析2.1 matlab的语音信号时域特征分析1.窗口的选择通过对发声机理的认识,语音信号可以认为是短时平稳的。在550ms的范围内,语音频谱特性和一些物理特性参数基本保持不变。我们将每个短时的语音称为一个分析帧。一般帧长取1030ms。我们采用一个长度有限的窗函数来截取语音信号形成分析帧。通常会采用矩形窗和汉明窗。图1.1给出了这两种窗函数在帧长n=50时的时域波形。图1.1 矩形窗和hamming窗的时域波形矩形窗的定义:一个n点的矩形窗函数定义为如下 hamming窗的定义:一个n点的hamming窗函数定义为如下 这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性可以发现(如图1.2):矩形窗的主瓣宽度小(4*pi/n),具有较高的频率分辨率,旁瓣峰值大(-13.3db),会导致泄漏现象;汉明窗的主瓣宽8*pi/n,旁瓣峰值低(-42.7db),可以有效的克服泄漏现象,具有更平滑的低通特性。因此在语音频谱分析时常使用汉明窗,在计算短时能量和平均幅度时通常用矩形窗。表1.1对比了这两种窗函数的主瓣宽度和旁瓣峰值。 图1.2 矩形窗和hamming窗的频率响应表1.1 矩形窗和hamming窗的主瓣宽度和旁瓣峰值窗函数主瓣宽度旁瓣峰值矩形窗4*pi/n13.3dbhamming8*pi/n42.7db2.短时能量由于语音信号的能量随时间变化,清音和浊音之间的能量差别相当显著。因此对语音的短时能量进行分析,可以描述语音的这种特征变化情况。定义短时能量为:,其中n为窗长 特殊地,当采用矩形窗时,可简化为: 图1.3和图1.4给出了不同矩形窗和hamming窗长的短时能量函数,我们发现:在用短时能量反映语音信号的幅度变化时,不同的窗函数以及相应窗的长短均有影响。hamming窗的效果比矩形窗略好。但是,窗的长短影响起决定性作用。窗过大(n 很大),等效于很窄的低通滤波器,不能反映幅度en的变化;窗过小( n 很小),短时能量随时间急剧变化,不能得到平滑的能量函数。在11.025khz左右的采样频率下,n 选为100200比较合适。短时能量函数的应用:1)可用于区分清音段与浊音段。en值大对应于浊音段,en值小对应于清音段。2)可用于区分浊音变为清音或清音变为浊音的时间(根据en值的变化趋势)。3)对高信噪比的语音信号,也可以用来区分有无语音(语音信号的开始点或终止点)。无信号(或仅有噪声能量)时,en值很小,有语音信号时,能量显著增大。图1.3 不同矩形窗长的短时能量函数图1.4 不同hamming窗长的短时能量函数2.2 matlab的语音信号频域特征分析1、短时傅立叶变换由于语音信号是短时平稳的随机信号,某一语音信号帧的短时傅立叶变换的定义为: (2.1)其中w(n-m)是实窗口函数序列,n表示某一语音信号帧。令n-m=k,则得到 (2.2)于是可以得到 (2.3)假定 (4)则可以得到 (5)同样,不同的窗口函数,将得到不同的傅立叶变换式的结果。由上式可见,短时傅立叶变换有两个变量:n和,所以它既是时序n的离散函数,又是角频率的连续函数。与离散傅立叶变换逼近傅立叶变换一样,如令=2k/n,则得离散的短时傅立叶吧如下: (6)2、语谱图水平方向是时间轴,垂直方向是频率轴,图上的灰度条纹代表各个时刻的语音短时谱。语谱图反映了语音信号的动态频率特性,在语音分析中具有重要的实用价值。被成为可视语言。语谱图的时间分辨率和频率分辨率是由窗函数的特性决定的。时间分辨率高,可以看出时间波形的每个周期及共振峰随时间的变化,但频率分辨率低,不足以分辨由于激励所形成的细微结构,称为宽带语谱图;而窄带语谱图正好与之相反。宽带语谱图可以获得较高的时间分辨率,反映频谱的快速时变过程;窄带语谱图可以获得较高的频率分辨率,反映频谱的精细结构。两者相结合,可以提供带两与语音特性相关的信息。语谱图上因其不同的灰度,形成不同的纹路,称之为“声纹”。声纹因人而异,因此可以在司法、安全等场合得到应用。3、复倒谱和倒谱复倒谱是x(n)的z变换取对数后的逆z变换,其表达式如下: (7)倒谱c(n)定义为x(n)取z变换后的幅度对数的逆z变换,即 (8)在时域上,语音产生模型实际上是一个激励信号与声道冲激响应的卷积。对于浊音,激励信号可以由周期脉冲序列表示;对于清音,激励信号可以由随机噪声序列表示。声道系统相当于参数缓慢变化的零极点线性滤波器。这样经过同态处理后,语音信号的复倒谱,激励信号的复倒谱,声道系统的复倒谱之间满足下面的关系: (9)由于倒谱对应于复倒谱的偶部,因此倒谱与复倒谱具有同样的特点,很容易知道语音信号的倒谱,激励信号的倒谱以及声道系统的倒谱之间满足下面关系: (10)浊音信号的倒谱中存在着峰值,它的出现位置等于该语音段的基音周期,而清音的倒谱中则不存在峰值。利用这个特点我们可以进行清浊音的判断,并且可以估计浊音的基音周期。1 短时谱 图2.1 短时谱3 倒谱和复倒谱图2.3、2.4是加矩形窗和汉明窗的倒谱图和复倒谱图,图中横轴的单位是hz,纵轴的单位是db。图2.3 加矩形窗时的倒谱和复倒谱图图2.4加汉明窗时倒谱和复倒谱图图2.5 倒谱图2.3 matlab的语音信号lpcc如果声道特性h(z)用式(14)所示的全极点模型表示,有 (16)式中,s(z)和i(z)分别为语音信号和激励源的z变换。对人的听觉来说,浊音是最重要的语音信号。对于浊音,模型的激励信号源e(n)是以基音周期重复的单位脉冲,此时有。可得的z变换s(z)为 (17)式中,为p阶线性预测系数。根据倒谱的定义,对具有最小相位特征的语音信号,有 (18)式中,为语音信号的倒谱。将式(16)代入式(17),并对两边求导,得 (19)根据上式即可由线性预测系数通过递推得到倒谱系数,将这样得到的倒谱称为线性预测倒谱系数。3. 程序部分1) 短时能量 (1)加矩形窗 a=wavread(beifeng.wav);subplot(6,1,1),plot(a);n=32;for i=2:6h=linspace(1,1,2.(i-2)*n);%形成一个矩形窗,长度为2.(i-2)*n en=conv(h,a.*a);% 求短时能量函数en subplot(6,1,i),plot(en);if(i=2) legend(n=32);elseif(i=3) legend(n=64);elseif(i=4) legend(n=128);elseif(i=5) legend(n=256);elseif(i=6) legend(n=512);endend(2)加汉明窗 a=wavread(beifeng.wav);subplot(6,1,1),plot(a);n=32;for i=2:6h=hanning(2.(i-2)*n);%形成一个汉明窗,长度为2.(i-2)*n en=conv(h,a.*a);% 求短时能量函数en subplot(6,1,i),plot(en);if(i=2) legend(n=32);elseif(i=3) legend(n=64);elseif(i=4) legend(n=128);elseif(i=5) legend(n=256);elseif(i=6) legend(n=512);endend2)短时谱 cleara=wavread(beifeng.wav);subplot(2,1,1),plot(a);title(original signal);gridn=256;h=hamming(n);for m=1:n b(m)=a(m)*h(m)end y=20*log(abs(fft(b)subplot(2,1,2)plot(y);title(短时谱);grid3)倒谱和复倒谱(1)加矩形窗时的倒谱和复倒谱cleara=wavread(beifeng.wav,4000,4350);n=300;h=linspace(1,1,n);for m=1:nb(m)=a(m)*h(m);end c=cceps(b);c=fftshift(c);d=rceps(b);d=fftshift(d); subplot(2,1,1)plot(d);title(加矩形窗时的倒谱)subplot(2,1,2)plot(c);title(加矩形窗时的复倒谱)(2)加汉明窗时的倒谱和复倒谱cleara=wavread(beifeng.wav,4000,4350);n=300;h=hamming(n);for m=1:nb(m)=a(m)*h(m);end c=cceps(b);c=fftshift(c);d=rceps(b);d=fftshift(d); subplot(2,1,1)plot(d);title(加汉明窗时的倒谱)subplot(2,1,2)plot(c);title(加汉明窗时的复倒谱)4.总结本文从时域和频域上对语音信号进行了分析,根据语音信号的特殊性,着重分析了短时能量和短时傅里叶变换,运用了倒谱进行更深的分析。这些参数可以运用到人机交互上,特别是lpcc能够很好的提取出来运用到语音信号识别上,从而进行智能设计。参考文献 1 杨行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025福建三明市公路事业发展中心下属国有企业人员招聘1人笔试历年参考题库附带答案详解
- 2025牧原集团西北区域招聘2133人笔试历年参考题库附带答案详解
- 2025安徽华荣远诚人力资源服务集团有限公司派驻寿县楚晨城运公司保安经理及保安队长招聘及候选人笔试历年参考题库附带答案详解
- 2025四川巴中市恩阳区城乡建设投资集团有限公司子公司招聘7人笔试历年参考题库附带答案详解
- 2025内蒙古呼和浩特运营维管段招聘笔试历年参考题库附带答案详解
- 2025年延安通和电业有限责任公司招聘(5人)模拟试卷及参考答案详解一套
- 2025内蒙古首批事业单位“1+N”招聘2502名工作人员考前自测高频考点模拟试题附答案详解
- 2025广西农业科学院甘蔗研究所甘蔗生物固氮团队公开招聘1人考前自测高频考点模拟试题及答案详解(各地真题)
- 2025吉林省矿业集团有限责任公司遴选31人考前自测高频考点模拟试题及答案详解(历年真题)
- 2025吉林省地震局第二批次事业单位开招聘1人模拟试卷附答案详解(典型题)
- 2024-2025学年译林版八年级英语上学期期末复习 专题01 Unit1 ~Unit8重点词汇短语句子归纳【考点清单】
- 2023-2024届高考语文复习诗歌专题训练-主题“羁旅行役”
- 《系统工程与决策分析》全册配套课件
- DL∕T 2033-2019 火电厂用高压变频器功率单元试验方法
- 高中数学-斐波那契数列与黄金分割教学设计
- 数据驱动的教育决策
- 农作物植保员职业技能竞赛题库及答案
- T梁湿接缝及横隔梁施工方案
- (完整)易制毒化学品使用管理责任书
- 石群邱关源电路课件(第8至16单元)白底
- 个人增资入股合同
评论
0/150
提交评论