声音数字信号处理及频域分析.doc

上传人：x*** IP属地：河南上传时间：2020-01-13 格式：DOC 页数：23 大小：665.97KB 积分：20 举报 版权申诉

已阅读5页，还剩18页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

信号与系统课程设计报告题目：语音信号处理课程：信号与系统学院：英才实验学院班级： 29001010班学生：陈威（2901309029）唐浩月（2903101013）指导教师：许渤朱学勇二O一O年十二月目录CONTENTS摘要3一、引言3二、正文42.1设计要求42.2设计原理42.2.1傅里叶变换对语音信号的处理42.2.2语音信号模型42.3 设计内容和步骤42.3.1对语音信号进行频域分析62.3.2分析男声和女声的差别92.3.3语音与乐器音频的差别102.3.4对语音信号降采样112.3.5中文语音与外文语音进行比较132.4课程拓展-清音和浊音的分辨14三、结论16四、设计心得16参考文献16附录A-I 程序代码17【摘要】处在一个高速发展，日新月异的社会中，科学技术无疑扮演着重要的角色。众所周知，语音信号的处理分析已变得非常流行，基于语音处理分析技术的产品也开始流入市场，充满人们的生活。这也是本小组致力于该方面研究的原因。为了研究不同类型的声音信号性质，我们以数学知识为基础，通过快速傅里叶变换及其逆变换等一系列技术手段，从时域图，频域图，语谱图全方位多角度入手，经对大量语音信号素材的处理，分析，对比，类比，对各类语音信号性质有了一定的了解，的除了不少有意义的结论。【关键词】Matlab, 时域图，频域图，语谱图，快速傅里叶变换，激励模型,滤波【abstract】In a world that is growing more and more complex and competitive by the minutes, science and technology have never been more significant. As we all know that the technology of voice identifying and analyzing is turning into popular, no matter who you are, no matter where you are, these kinds of products must have been full of your life. Therefore, our group focuses on the handling as well as analyzing of voice, research the characters of different kinds of sound signals through the picture of time and frequency. Based on the knowledge of math, we use fft, fftshift to handle and compare them, and earn our conclusion.【key words】Matlab，Time-domaingraph，Frequency-domain graph, spectrogram, FFT, incentivemodels,filtering一、引言随着Matlab仿真技术的推广，科研工作者们已经可以在计算机上对声音信号进行处理，甚至是模拟。通过计算机作图，采样，我们可以更加直观的了解语音信号的性质。二、正文2.1 设计要求1、对语音信号进行频域分析，找语音信号的主要频谱成分所在的带宽，验证为何电话可以对语音信号采用8KHz的采样速率。2、分析男声和女声的差别。我们知道男声和女声在频域上是有些差别的，一般大家都会认为女声有更多高频的成分，验证这种差别。同时，提出一种方法，能够对一段音频信号是男声信号、还是女声信号进行自动的判断。3、语音与乐器音频的差别。比较语音信号与乐器音频信号的差别，尤其是在频域上的差别。4、 .wav文件的采样速率为44.1KHz，仍然远远高于我们通常说的语音信号需要的频谱宽度，例如在电话对语音信号的采样中，我们仅仅使用8KHz的采样速率。对读入的音频数据进行不同速率的降采样，使用wavplay()命令播放降采样后的序列，验证是否会对信号的质量产生影响。5、自己下载获得一段中文语音信号（可以使用诸如“千千静听”等工具将.mp3文件转换成.wav文件），对中文语音与英文语音进行比较。2.2 设计原理2.2.1 傅立叶变换对语音信号的处理我们主要的设计原理是离散时间的fourier变换，离散时间的fourier变换公式为：，其中。利用上述公式我们可以对语音信号进行fourier变换和反fourier变换。对语音信号进行fourier变换后，我们可以得到对应信号的频谱进而画出其频谱图，于是我们就可以很方便的在频域上对语音信号进行分析, 对语音信号进行反fourier变换后，我们又可以得到相应的语音信号，于是通过对频谱的改变，在进行反fourier变换，我们就能知道频域对时域的影响。 2.2.2 语音信号模型人体发声的系统包含三部分：有声门产生的激励函数，有色很难轨道产生的调制函数，有嘴唇产生的辐射函数。语音的生成系统传递函数有着三个函数及联而成，即 A 激励模型发浊音时，由于声门不断开启和关闭，产生间隙的脉冲，经仪器测试类似于三角新的脉冲。也就是说，这使得激励波是一个以基音周期为周期的血三角脉冲串。单个三角脉冲的数字表达式如下：式中，N表示三角波的上升时间和下降时间（由1,2区分），将其转换为Z变换的全极点形式：这里c是一个常数，T=N1+N2。显然上式是一个二级点模型。因此，作为激励的斜三角波串可以用一串加了权的单位脉冲序列去激励上述单位斜三角波模型实现。这个单位脉冲串的幅值因子可以表示成以下z变换形式：故，整个激励可表示为： B 声道模型典型的声道模型有两种，即无损声管模型和共振峰模型。当声波经过声道时，受到声腔共振的影响，在某些频率附近形成谐振。反映在频谱图上，称之为共振峰。清音无明显的共振峰，而浊音的共振峰明显。一般原音可有三到五个共振峰。对于成人的声道，约为17cm长，其共振频率计算为： i=1，2，32.3 设计内容和步骤2.3.1对语音信号进行频域分析，找到语音信号的主要频谱成分所在的带宽，验证为何电话可以对语音信号采用8KHz的采样速率。解决这个问题我们很快想到的是通过语音信号的频谱图来进行分析，通过观察频谱图，我们可以很直观的找到语音信号频谱中的主要频率成分所在的带宽（bandwidth），然后通过其带宽可以清楚的解释为何电话可以对语音信号采用8KHz的采样速率。为了验证我们的假设，我们用到了快速傅里叶变换（fft）。由于matlab使用技巧不纯熟，刚开始时我们只是简单的将信号做fft变换。而在后期的深入讨论中，我们意识到横轴的坐标点存在大的问题。直接做fft变换之后其横坐坐标只是比例值，并不是我们想象中的频率。于是我们将横坐标经过变换之后才最终得到了正确的频谱图。以下是我们的主要图形（代码见附录）：男声信号女声信号为了找到语音信号的主要频谱成分所在的带宽，我们将男声和女声的频谱画出来，如下图（代码见附录）：通过肉眼，从上面的两图我们可以大概的看出语音信号的主要频谱成分所在的带宽范围为200,4000左右，但是我们已经知道人说话的声音频率范围为300，,3400，为什么图中频率在4000Hz，甚至5000Hz之后还会有呢？我们认为主要是由于噪音影响的结果，为了验证这个猜想，于是我们就想如果我们把高频部分用滤波器滤掉，然后再将其做反傅里叶变换，观察其对声音的影响，如果将高频部分滤掉而语音几乎不变，那么则说明其是由于噪音的影响，反之则不是。当我们把高频率掉之后，再将语音信号做反傅里叶变换之后播放，发现语音信号基本上与以前一致，说明其确实是由于噪音的影响。由此我们可以认为语音信号的主要频谱成分所在的带宽范围为300,3500左右。当我们知道人的声音频谱范围大致在300,3500左右后，我们就能马上说明为何电话可以对语音信号采用8KHz的采样速率了。由乃奎斯特采样定理我们知道采样频率，即只需使采样频率大于7KHz即可，所以电话对语音信号的采样频率采用8KHz是完全合理的。2.3.2分析男声和女声的差别。我们知道男声和女声在频域上是有些差别的，一般大家都会认为女声有更多高频的成分，验证这种差别。同时，提出一种方法，能够对一段音频信号是男声信号、还是女声信号进行自动的判断。由上面的男声和女生频谱图我们可以看出，男声的主要频谱的范围在500，,1000左右，而女生的主要频谱范围集中在600,1300左右，也就是说女生的主要频谱的范围应该比男生要高一些。但是光看图像显然不能充分说明这个问题，于是我们从两方面来说明这个问题。第一个方面：我们取低频500,1000，然后分别计算男声和女声的频谱在此频谱范围内占总频谱的比例，用matlab计算（代码见附录）得到：n1 = 7.3251e-004， n2 =2.8545e-004显然n1n2,即男声在此频谱范围内占总频谱的比例比女生大。第二个方面：我们取高频3000,3500，再分别计算男声和女声的频谱在此频谱范围内占总频谱的比例，用matlab计算得到：m1 =0.0120，m2 = 0.0250。显然，m1 y1=wavread(纯男声.wav);/%y1=wavread( 铃声1女烛之武退秦师.wav);/ y1=wavread(带有乐器伴奏的男声歌声信号1.wav);/ y1=wavread( dizi.wav);/ y1=wavread( 铃声1gangqin.wav);/ y1=wavread( 铃声1sakesi.wav); y1=wavread( 铃声1xiaotiqing.wav);%Y1=y1(:,1);Fs=44100; %采样频率%yt1=fft(y1); %傅里叶变换%df=Fs/length(yt1);Fx=df*(0:length(yt1)-1); %将横轴变为频率轴%subplot(411); %subplot将图像画在一张图上%plot(y1);title(语音时域波形); %画语音信号的时域波形%subplot(412);plot(abs(yt1);ylabel(幅度); %错误的频谱图%subplot(413);plot(Fx,abs(yt1); axis(0 5000 0 2000);title(频谱图);xlabel(frequency/Hz); %正确的频谱图%subplot(414);plot(Fx,abs(fftshift(fft(y1);title(频谱图);xlabel(frequency/Hz);%搬移的频谱图%plot(Fx,abs(yt1); axis(0 5000 0 2000);title(频谱图);xlabel(frequency/Hz);%单独画男声的频谱图。y2= wavread( 铃声1女烛之武退秦师.wav);y2=y2(:,1);Fs=44100; %采样频率%yt2=fft(y2); %傅里叶变换%df=Fs/length(yt2);Fx=df*(0:length(yt2)-1); %将横轴变为频率轴%subplot(411); %subplot将图像画在一张图上%plot(y2);title(语音时域波形); %画语音信号的时域波形%subplot(412);plot(abs(yt2);ylabel(幅度); %错误的频谱图%subplot(413);plot(Fx,abs(yt2); axis(0 5000 0 2000);title(频谱图);xlabel(frequency/Hz); %正确的频谱图%subplot(414);plot(Fx,abs(fftshift(fft(y2);title(频谱图);xlabel(frequency/Hz);%搬移的频谱图%plot(Fx,abs(yt12); axis(0 5000 0 2000);title(频谱图);xlabel(frequency/Hz);%单独画女声的频谱图。%滤波%fdatool; %设计滤波器%h1 w=freqz(filter1,1,length(yt1),whole); %制造滤波器%yt11=yt1.*h1;figure(1);plot(Fx,abs(yt11);axis(0 5000 0 2000);xlabel(frequency/Hz);title(滤波后的波形);iy1=ifft(yt11); %反fourier变换wavplay(iy1,FS/2);%低频和高频比例%低频%y1 Fs=wavread(纯男声.wav);y1=y1(:,1); %读入单声道%yt1=fft(y1);y2 Fs=wavread(铃声1女烛之武退秦师.wav);y2=y2(:,1);yt2=fft(y2);sum1=0;for i=500:1000 %计算男声的低频比例%sum1=sum1+abs(yt1(i);end sum=0;for i=1:length(yt1)sum=sum+abs(yt1(i);endn1=sum1/sum;sum1sum1 = 1.1013e+004 sumsum = 1.5035e+007 n1n1 = 7.3251e-004 sum1=0;for i=500:1000 %计算女声的低频比例%sum1=sum1+abs(yt2(i);endsum=0;for i=1:length(yt2)sum=sum+abs(yt2(i);end n2=sum1/sum; sum1sum1 = 3.3280e+003 sumsum = 1.1659e+007 n2n2 = 2.8545e-004%高频%sum1=0;for i=3000:3500 %计算男声的高频比例%sum1=sum1+abs(yt1(i);end sum=0;for i=1:length(yt1)sum=sum+abs(yt1(i);endm1=sum1/sum; sum1sum1 = 1.8009e+005 sumsum = 1.5035e+007 m1m1 = 0.0120 sum1=0;for i=3000:3500 %计算女声的高频比例%sum1=sum1+abs(yt2(i);endsum=0;for i=1:length(yt2)sum=sum+abs(yt2(i);endm2=sum1/sum; sum1sum1 = 1.7482e+005 sumsum = 1.1659e+007 m2m2 = 0.0250%降采样%y Fs=wavread(纯男声.wav);y=y(:,1); wavplay(y,Fs); y1 = y(1:2:length(y);wavplay(y1,Fs/2); y1 = y(1:4:length(y);wavplay(y1,Fs/4); y1 = y(1:8:length(y);wavplay(y1,Fs/8); y1 = y(1:16:length(y);wavplay(y1,Fs/16);%语谱图%y1,Fs=wavread(纯男声.wav);if(size(y1,1)size(y1,2) %size(y1,1)为y1的行数 size(y1,2)为y1的列数%y1=y1;endlen=length(y1);w=round(44*Fs/1000); %窗长，round函数是向下取整n=w; %fft的点数ov=w/2;h=w-ov;%win=hanning(n);win=hamming(n); %汉明窗c=1; ncols=1+fix(len-n)/h); %fix函数是将（len-n）的小数舍去d=zeros(1+n/2),ncols);for b=0:h:(len-n)u=win.*

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

声音数字信号处理及频域分析.doc

文档简介

温馨提示

最新文档

评论

声音数字信号处理及频域分析.doc

文档简介

温馨提示

最新文档

评论

相关文档