已阅读5页,还剩8页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学科分类号(二级)520.2040本科学生毕业论文(设计)题 目: 基于STFT的特殊词汇的研究 姓 名: 学 号: 院 系 专 业: 网络工程 指导教师(职称/学历)2012年9月22日大学教务处制11基于STFT的特殊词汇识别的研究摘要:语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科,与心理、生理学、计算机科学、通信与信息科学以及模式识别和人工智能等学科都有着非常密切的关系。本文介绍了语音信号的基础知识,对语音信号“shop”进行了短时分析,并在MATLAB 平台上,对其进行仿真。短时傅里叶变换(STFT,short-time Fourier transform)是数字信号处理领域一种很重要的算法。是众多科学领域(特别是信号处理、图像处理、量子物理)里的重要的应用工具之一。关键词:词汇识别;短时傅里叶变换;MATLAB1 绪论1.1语音识别的背景语音识别(speech Recognition)于1952年由贝尔研究所davis等人首先应用于试验系统的开发,1960年Denes等人成功制作出第一个计算机语音识别系统。而在70年代开始,大量的语音识别研究应用于各个领域,在敏感词孤立词方面取得较大进展,而进入八九十年代之后语音识别的研究思路发生变化,由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM)的技术思路,这使得语音识别的技术愈发成熟,由简单的特殊词逐渐向大词汇量,非特定人连续语音识别发展。在我国,不同种类的语音识别系统也已研制成功并且投入使用,在大词汇量,孤立字,连续语音识别方面均取得了较大成就。1.2语音识别研究现状目前,语音识别已经部分应用于实践当中,我们可以对计算机发出命令,将文本转换成音频读出来,或者用PC机记录各类语言。但是,计算机的识别率却不尽如人意,要进行大规模的样本采集,不断地理论创新,才能完全的商业化。就语音现状而言,我们还有很长的一段路要走。中文识别领域,语音识别还未完善,目前的语音模型只是一种概率模型,所谓以语言为基础的文法模型还未取得进展。在硬件资源不断发展的大前提下,一些核心算法要有进一步改进。在适应性上,PC机大量的采集样本,增加了用户的繁琐性。男音、女音、童音、口音、方言,大量的声线样本如果不能被计算机准确的识别,那么系统便没有任何利用价值。在强健性上,语音识别系统也势必要进行完善,在嘈杂环境施工,或者在噪音环境中,计算机的识别会出现偏差,这种环境下必须要有特殊的抗噪设备才能完成任务。可是,这对大多数用户来说是不太可行的。在地下通信,高速公路等特殊环境下的作业,会因为带宽的延迟或者减损而出现偏差,因而在特殊特征的处理中,技术应该有进一步的突破。不仅如此,在多语言混合,无限词汇,算法特征方面,我们的技术仍然还未得到完善,要做到语音识别服务于人类,还有很长的一段路要走。1.3 语音识别的发展前景 语音识别经历了很长一段时间的渐变过程,之前在巨型机上才能实现的系统现在在小型计算机上也可以发挥其作用,软件技术的不断提高也使得语音识别技术逐渐走向实用,而核心算法,特征提取,声线模型等领域我们也取得了长足的进步,软硬件和理论的结合为我们提供了一个全新的全景。很显然,在不久的将来,它在不久的将来,很可能涉足我们生活的每一个领域,给我们的世界带来巨大的革新,前景是无法估量的。2 MATLAB软件介绍2.1 MATLAB概述 MATLAB是矩阵实验室(Maxtrix Laboratory)的缩写,是以线性代数软件包和特征值计算的子程序为基础发展起来的,用于科学计算和数据可视化的开放型高级编程语言。其优点主要有:高效的数值计算及符号计算功能、图形处理的完整性及可视化、功能丰富的工具箱等。MATLAB为一款不断扩展的成熟的软件。2.2 MATLAB功能介绍 MATLAB的基本数据为矩阵,指令形式与日常工程中的形式十分相似,因为解决问题的能力要比C等语言完成工作要简便。其功能主要有:数值分析、动态系统的建模和仿真、矩阵计算等,摆脱了传统的程序设计语言的模式,代表了计算机的先进水平。在MATLAB 2011a中,新增81种产品更新和缺陷修复程序。3 语音信号产生、感知及模型3.1语音信号的产生 人的发音器主要有气管、肺、喉、咽鼻以及口。语音的产生是气流由肺部呼出,在喉以及口腔、嘴唇的各种作用下而发出的。语音发出的能量来源于肺部呼出的稳定气流。声带每闭合一次的时间即为基音周期,其倒数为基音频率。基音频率取决于个人的声带大小、厚薄等,范围大致在64-450HZ之间。3.2语音信号模型语音有三种生成系统,声带以下为激励系统,声带到嘴唇是声道系统,嘴唇之外为辐射系统。激励模型分为浊音和清音,间歇的脉冲波为浊音的频谱图,斜三角波形为清音的频谱图,其频谱图形似低通滤波器,其Z 变换的全极模型是G(z)1/(1-g1z-1)(1-g2z-1)。相反地,U(z)G(z)E(z)AV/(1-z-1)1/(1-g1z-1)(1-g2z-1)为浊音的全极模型。模型一般采用均值为0,方差为1。4 信号分析方法比较介绍4.1短时傅里叶变换傅里叶变换是众多科学领域重要的应用工具之一,如:信号处理、量子物理等。傅里叶变换通常指的是傅里叶变换和傅里叶级数。短时傅里叶变换属于时频分析的一种,传统的傅里叶分析中,信号一般是在频域展开的,不包含任何时域信息。这对于某些应用是很重要的,因为信号的频域分析是信号分析中最为常见的一种手段。但是,在时域分析中,某些信息仍然十分重要,所以人们对傅里叶分析进行了推广,提出了很多能表征时域和频域的分析办法,如短时傅里叶变换、时域分析、小波变换、Gabor变换等。4.2小波变换小波理论一般分为两种,连续小波变换和二进小波变换,两者都存在信息冗余。在信息采样之后,需要的计算量还是很大的,尤其是连续小波变换,因为要对精度的尺寸和位移做大量的计算。而二进小波变换虽然在离散的尺度上进行伸缩以及平移,可是小波变换不存在正交性,往往在分析的时候掺杂了各个分量的信息,为分析带来了不便。MEYER在1986年提出的一组小波,二进制伸缩和平移构成了L(R)的标准化正交基,提出了多分辨率特性的概念,在空间的基础上说明了小波的多分辨率特性,将之前的所有构造方法统一起来,给出了小波变换的快速算法(mallat算法),发挥了独特的优势。5 语音信号短时分析的实现本文的音频研究对象为英文“shop”。在信号采集时,先调用wavrecord函数,完成信号采集之后,保存其为wav格式,然后进行信号运算。在信息采集时,用到的硬件为配有麦克风和声卡的PC机。5.1预处理通过麦克风采集来的音频文件以标准.wav 格式存储。虽然是在相对安静无其他干扰的室内环境中采集声音信号,但在这种非专业录音环境以及普通麦克风采集来的数据中仍有大量噪音。这些噪音会对特征提取工作产生重大影响甚至干扰提取工作,所以采集来的信号应该先滤波去噪。5.2信号分析语音信号一般是一种非平稳的随机过程,具有时变特性。但其在短时间内是平稳信号,成为语音的“短时平稳性”。本文基于短时傅里叶分析,故对信号采用分段分析,每段称为一“帧”,语音在10-30ms之内相对平稳,所以帧长取值也是10-30ms。短时傅里叶变换的分析流程图如下:设置帧长读入语音文件 读入语音文件高频预加重高频预加重加窗短时截取傅里叶变换短时平均幅度画波形短时能量画语谱图短时平均过零率结束结束对“shop”进行分帧加窗分析(即STFT),其三维图如下:图1 STFT三维图Figure 1 STFT three-dimensional figure5.3短时能量及短时平均幅度分析语音的短时能量能够直观的反映出语音信号的振幅随时间变化的规律。用E表示语音信号第i帧的短时能量,其表达式为:相应的,短时平均幅度也是反映信号幅值变化的函数(用M表示),其定义为:这两种函数主要用途是区分浊音和清音的音段分界。在MATLAB环境运行下,“shop”语音的短时能量以及短时平均幅度分别如下图:图2 短时能量Figure 2 short time energy图3 短时平均幅度 Figure 3 short time average magnitude由图可知:发shop的音时,可以区分清浊音的分界,发sh音时平均幅度要低,sh音比p音的能量低。5.2短时过零率的分析短时过零率表示单位时间内语音信号波形穿过横坐标的次数(本文用Z表示),其表达式为:语音信号中浊音的过零率相对较低,而清音则相反,利用短时平均过零率可以检测出语音信号的起点和终点,在MATLAB环境运行下,“shop”语音的短时过零率如下图:图4 短时过零率Figure 4 short-term zero rate由图可见,浊音的过零率较低,相反清音的过零率较高。6结束语本文以PC机上的声卡及麦克为主要硬件,运用MATLAB软件完成语音信号的采集与分析,并对语音的短时分析的参数进行学习研究,本论文主要是基于高级面向对象开发语言matlab的基本特征,以及matlab强大的工具箱功能,实现了基于短时傅里叶变换matlab语音识别系统对一个实际录音文件的特征提取与分析。系统的使用者现在可以在matlab软件的帮助下,运行使用整个系统,得到想要的语音相关信息。 语音信号属于非平稳信号,它的一个重要特点是语音信号随时间变化而随机变化的,又由于人的声道形状及其变化规律具有一定惯性,因此在一段时间间隔内语音信号保持相对稳定,所以对语音信号的分析和处理就必须建立在“短时”概念基础上。本文基于短时傅里叶变换方法,利用HR数字低通、带通和高通滤波器对原始语音信号在不同频率范围进行提取。处理后的清音、浊音音效明显,达到了敏感语音提取的目的。由于所处理的音频文件不受格式限制,灵活性和操作性好,因此这种方法可应用于动漫音效合成和特殊音效生成场合,具有实际应用价值。本文主要是基于STFT研究方法,并且提取平均能量、平均幅度、平均过零率等参数,分析各个参数在实际应用当中对于语音识别的用途及优点,提高相应的工作效率。参考文献1 孙祥.matlab 7.0基础教程M.北京:清华大学出版社,2005.5,34-128.2 思科技产品研发中心.matlab 7基础与提高M.北京:电子工业出版社,2005,21-37.3 罗宾纳著;阮平望译.语音识别基本原理M.北京:清华大学出版社,1999.9,78-91.4 刘幺和,宋庭新.语音识别与控制应用技术M.北京:科学出版社,2008.2,66-107.5 彭志科,何永勇,卢青,褚福磊等. 小波多重分行及其在振动信号分析中的研究J.机械工程学报(自然科学版),2002,09(20):3-21.6 王刚. 基于小波变换和多重分形分析的表面肌电信号分析D.上海:上海交通大学,2008. 7 何培民等.信息处理系统M.北京:北京科技出版社,1993.12,1-139.8 阎石.数字电子技术基础(第五版)M.北京:高等教育出版社,2006,1-88.9 Orlando.fla.fourier transform infrared spectroscopy,applications to chemical systems. v.4M academic pr.inc,1992.Based on short-time Fourier transform the recognitionAbstract: Speech signal processing is based on speech linguistics and digital signal processing (DSP) and a very wide range of comprehensive science, and psychology, physiology, computer science, communication and information science as well as the pattern recognition and artificial intelligence and other disciplines are have very close relationship.This paper introduces the basic knowledge of speech signal, speech signal shop for the short-term analysis, and on the MATLAB platform, carries on the simulation.Short-time Fourier transform (STFT, short - time Fourier transform) is a veryimportant field of digital signal processing algorithm. Many scientific areas (especially in signal processing, image processing, quantum physics) in one of the important application of the tool.Keywords: word recognition; Short-time Fourier Transform; MATLAB附件(源代码):1 滤波部分fs=22050;x1=wavread(wo.wav);t=0:1/22050:(size(x1)-1)/22050;Au=0.03;d=Au*cos(2*pi*5000*t);x2=x1+d;wp=0.25*pi;ws=0.3*pi;wdelta=ws-wp;N=ceil(6.6*pi/wdelta); %取整wn=(0.2+0.3)*pi/2;b=fir1(N,wn/pi,hamming(N+1); %选择窗函数,并归一化截止频率figure(1)freqz(b,1,512)f2=filter(bz,az,x2)figure(2)subplot(2,1,1)plot(t,x2)title(滤波前的时域波形);subplot(2,1,2)plot(t,f2);title(滤波后的时域波形);sound(f2,22050); %播放滤波后的语音信号F0=fft(f2,1024);f=fs*(0:511)/1024;figure(3)y2=fft(x2,1024);subplot(2,1,1);plot(f,abs(y2(1:512);title(滤波前的频谱)xlabel(Hz);ylabel(fuzhi);subplot(2,1,2)F2=plot(f,abs(F0(1:512);title(滤波后的频谱)xlabel(Hz);ylabel(fuzhi);2 分析部分(绘图):clear all;clc;figure(2)N=500; %length of the signal x.t=0:N-1;x=zeros(size(t);%Generate two sine signal with different frequencies.%x(50:150)=cos(pi*(t(50:150)-50)/10); %x(250:350)=cos(pi*(t(250:350)-250)/20);x=wavread(D:MATLAB7123XP_KaiShi.wav);subplot(221);plot(x);title(信号波形图); %图名xlabel(时间); %x轴ylabel(振幅); %y轴axis( 0 800 -0.11 0.1);grid;% 短时傅里叶变换 %Nw=20; %窗函数长 window lengthL=Nw/2; %窗函数每次移动的样点数Ts=round(N-Nw)/L)+1; %计算把数据x共分成多少段nfft=128; %FFT的长度TF=zeros(Ts,nfft); %将存放三维谱图,先清零for i=1:Ts xw=x(i-1)*L+1:i*L+L); %取一段数据 temp=fft(xw,nfft); %FFT变换 temp=fftshift(temp); %频谱以0频为中心 TF(i,:)=temp; %把谱图存放在TF中endsubplot(222);mesh(abs(TF); %三维绘图title(STFT); xlabel(时间); ylabel(频率);参数提取部分:close all; clear all; x,fs,bit=wavread(D:论文大.wav);%读语音数据,数据放入了X,fs代表采样率,bit代表采样位数 framelength=240;%设置帧长,%30ms under 8khz framenumber=fix(length(x)/(framelength);%总的数据帧数 totaltime=length(x)/fs;%该段语音总的时间长度 sp1=x(fix(1.1*fs):(fix(1.1*fs)+framelength+framelength-1);%1.1*fs=8.8秒处为浊音始点,取两帧 sp2=x(0.8*fs:(0.8*fs+framelength+framelength-1);%0.8*fs=6.4秒处为清音始点,取两帧 d=0;%初始化,浊音波峰判断 R1=0;%初始化,浊音一个基音周期内帧数 %计算每帧的能量 for i=1:framenumber; E(i)=0;%短时能量初始化 Z(i)=0;%短时过零率初始化 M(i)=0;%短时平均幅度初始化 K(i)=0;%短时零能比初始化 for j=(framelength*(i-1)+1):framelength*i; E(i)=E(i)+x(j)*x(j); %第i帧短时能量 end for j=(framelength*(i-1)+2):framelength*i; Z(i)=Z(i)+abs(sign(x(j)-0.2)-sign(x(j-1);%第i帧短时过零率 end for j=(framelength*(i-1)+1):framelength*i; M(i)=M(i)+abs(x(j); end M(i)=M(i)/framelength;%第i帧短时平均幅度 end for i=1:framelength; R(i)=0; for j=1:framelength; R(i)=R(i)+sp1(j)*sp1(i+j);%浊音的短时自相关函数 end if (R(i)=110.11) R(i)=110.11;%修正最高波峰最大值为110.11 d=d+1;%当波峰为110.11时,自加一 end if (d=1)%以第一个波峰110.11为起始点,下一个波峰110.11为终点 R1=R1+1;%计算一个基音周期内帧数 end end for i=1:framelength; r(i)=0; for j=1:framelength; r(i)=r(i)+sp2(j)*sp2(i+j);%清音的自相关函数 end end %思考为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年私募基金合同范本
- 陕西省渭南市合阳县2025-2026学年化学高一上期中考试试题含解析
- 重庆三峡医药高等专科学校《电信大数据分析与实践》2024-2025学年第一学期期末试卷
- 心理护理对患者身心康复的促进作用
- 2026年中考语文必考名著导读梳理及训练《昆虫记》全国
- 2026年中考语文一轮复习:古诗文对比阅读练习题(含答案)
- 护理慎独:职业素养的内在修行
- Unit 3 Same or Different?形容词、副词比较级和asas-人教版八年级英语上册单元核心语法专练
- 医学肾病综合征激素敏感分型案例教学课件
- 医学龋齿流行病学防控策略教学课件
- 江苏省2026年普通高中学业水平合格性考试英语仿真模拟卷01(春季高考适用)(全解全析)
- 2025年中铁党建考试试题及答案
- 管业制造安全应急预案范文
- 人工运动场草坪施工方案
- 专科会计职业生涯规划
- 2025届高三八省联考(四川)政治试题及答案
- 制药行业质量意识培训
- 2025贵州毕节织金县公安局面向社会招聘警务辅助人员140人考试笔试备考试题及答案解析
- 财政局岗位业务测试(会计、社保专管员)试题附答案
- 购物中心招商调整汇报
- 电焊作业专项施工方案
评论
0/150
提交评论