语音控制 语音技术.doc_第1页
语音控制 语音技术.doc_第2页
语音控制 语音技术.doc_第3页
语音控制 语音技术.doc_第4页
语音控制 语音技术.doc_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音控制语音控制摘要:本文主要简要介绍了语音控制的发展与用途,特别讲诉了语音识别的理论分析,包括语音信号的预处理,特征矢量的选择与提取等等。再由短时能量分析,线性预测等理论知识,进行了语音控制理论分析的相关改进。将此刻前面的信号进行短时能量分析,得到一个值,来判断其幅度的大概发展趋势。最后再用线性预测的原理,得到另一个值。由此得到的两个值,我们可以进行简单的对未来幅度的预测,进行另外一个信号的幅度控制。关键字:语音控制; 语音识别; 短时能量; 线性预测;Abstract:This paper briefly introduces the development of voice control with USES, especially telling about the speech recognition theory analysis.The analysis includs the speech signal pretreatment, the characteristic vector selection and extraction, and so on. Then by the short-term energy analysis and linear prediction theory knowledge, the theoretical analysis of voice controling improves. the signals now front short-time energy analysis, gets a value, to judge its amplitude is probably development trend. Finally by linear forecast of principle, gets another value. Thus gaining two value, we can conduct simple to predict future amplitude, controling another signal amplitude.Keyword:Voice control; Speech recognition; Short-term energy; Linear forecas目录第一章绪论4第二章语音控制理论知识5.1语音控制技术的发展5.语音识别原理62.1.1 语音信号的预处理62.1.2 特征矢量的选择与提取62.1.3 动态时间归整算法72.3语音合成技术8第三章语音控制的改进93.1短时能量及短时平均幅度分析93.1.1幅度分析的依据:93.1.2短时能量函数和短时平均幅度函数93.1.3短时平均幅度函数和能量函数的作用93.2 线性预测分析的基本原理103.2.1线性预测分析的基本思想:103.2.2求解线性预测系数ak113.2.3用e(n)和ak求x(n)(合成)153.3综合处理16第四章具体语音信号实现17结论20参考文献:21致谢语22第一章绪论语音技术相对其它计算机技术而言,是一门还很年轻的计算机技术。语音技术研究在很早就有了,在1995年后个人计算机的计算和处理功能更加强大后逐步开始有一些应用。而今天语音技术在不知不觉中开始逐步走入了我们的生活,比如我们今天使用的中国移动电话客户服务系统实际上就是一个语音系统在我们生活中的应用。本文主要分析了语音技术中语音控制的相关内容,即进行的相关改进。而在分析语音控制之前,说明了语音识别的理论原理。然后简要介绍了相关语音控制软件的应用。得出一般语音控制的应用都是发出语音命令,计算机等随着命令做出相应的操作。那么得出一个问题:是否可以进行语音对语音的控制?由此下文进行相关语音理论的分析,解决了这个问题。其中用到了语音的短时能量分析,线性预测等理论知识。第二章语音控制理论知识.1语音控制技术的发展人类作为唯一可以进行如此复杂语音交流的动物,得到了比别的动物更多的文化知识交流。可是人类的语言交流都是在人类间进行的,如何可以实现和别的动物,或者器械之间交流。比如控制计算机,控制机械,达到“君子动口不动手”的目的。这就是语音控制。而一般我们把这些相关的技术就叫语音技术。语音技术在计算机领域中的关键技术有自动语音识别技术和语音合成技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式,语音比其他的交互方式有更多的优势。 最早的语音技术因“自动翻译电话”计划而起,包含了语音识别、自然语言理解和语音合成三项非常主要的技术。语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,此后研究者们逐步突破了大词汇量、连续语音和非特定人这三大障碍。 让计算机说话需要用到语音合成技术,其核心是文语转换技术(Text to Speech),语音合成甚至已经应用到汽车的信息系统上,车主可以将下载到系统电脑中的文本文件、电子邮件、网络新闻或小说,转换成语音在车内收听。而在下面我们将分别对语音识别技术和语音合成技术进行简单的介绍:.语音识别原理语音识别分为训练阶段和识别阶段:第一步是系统“训练”阶段,任务是建立识别基本单元的声学模型。第二步是“识别”阶段。根据识别系统的类型选择 能 够满足要求的识别方法,采用语音分析方法分析出这种方法所要求的语音特征参数,按照一定的准则和测度与系统模型进行比较,通过判决得出识别结果。通常在识别小词汇量的场合下,常采用如图1所示的模板匹配法。2.1.1 语音信号的预处理系统采用麦克风将语音信号输入给计算机,声卡以一定频率进行数据采样,然后进行A/D转换,将转换后的语音原始数据储存起来。由于人的发声器官的固有特性,语音从嘴唇辐射将有6分贝/倍频的衰减,这种现象对语音的特征提取会造成不利的影响,因此必须对信号进行高频补偿工作,即预处理,使得信号频谱平坦化,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于进行频谱分析或声道参数分析。2.1.2 特征矢量的选择与提取特征提取是从短时语音帧中提取对语音识别有用的信息。在孤立词语音识别中(如机器人的语音命令),用线性预测倒谱系(LinearPredictionCepstrumCoefficient, LPCC)来表征短时语音信号可以得到很好的效果3。一般可由线性预测系数(LinearPrediction Coefficient, LPC)直接推导出LPCC系数,以下给出公式:当 LPCC阶数m不超过LPC阶数p时,用式(1)进行计算;如果LPCC阶数m大于p时,则用式(2)进行计算。2.1.3 动态时间归整算法对语音进行训练并建立特征模板库之后,在识别过程中,模板的匹配实际上就是对模板库进行提取和比较的过程。模板的匹配需要有一个标准,这就是失真测度的概念,常用欧氏距离测度。在模板匹配过程中,由于即使同一个人在不同的时间发出相同语音的时间长度也是不可能相同的,这就存在着不同个数的特征矢量之间进行比较的问题。因此,在匹配过程中一般采用图2所示的动态时间归整法(Dynamic TimeWarping)对参考语音模式和待测语音模式的时间轴进行非线性归一化变换,以使两种模式在时间轴上“对齐.动态时间规整算法即是要寻找一条通过各个交叉点的从起始点到终止点的最佳路径,使得该路径上所有交叉点的帧失真度总和达到最小。事实上,上述搜索路径的选择并不是任意的。首先,考虑到实际语音的发音情况,虽然语音的发音快慢会有所变化,但是各个部分的先后次序不可能颠倒,因此上述路径必须从左下角出发,终止于右上角;其次,为了防止盲目的搜索,一般不允许向横轴或纵轴过分倾斜的路径。经过时间“对齐”后,参考模板与待测模板的帧数便一样了,此时利用欧氏距离测度便可对两模板的每一帧求失真度,再求和得总失真度,且能达到最小值.2.3语音合成技术语音合成,又称文语转换(Text to Speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。我们所说的“让机器像人一样开口说话”与传统的声音回放设备(系统)有着本质的区别。传统的声音回放设备(系统),如磁带录音机,是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音,从而真正实现让机器“像人一样开口说话”。 文语转换系统实际上可以看作是一个人工智能系统。为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这也涉及到自然语言理解的问题。文语转换过程是先将文字序列转换成音韵序列,再由系统根据音韵序列生成语音波形。其中第一步涉及语言学处理,例如分词、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实时合成出高质量的语音流。因此一般说来,文语转换系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持。第三章语音控制的改进 我们所知的都是根据语音进行相关具体的操作,可是怎么进行语音对语音的控制。下面将利用语音信号分析中的短时能量,短时平均幅度分析和线性预测分析进行相关语音控制的改进,即达到以语音2控制语音1的目的。原理分析:3.1短时能量及短时平均幅度分析3.1.1幅度分析的依据:基于语音信号幅度随时间变化。清音段幅度小,其能量集中于高频段;浊音段幅度较大,其能量集中于低频段。3.1.2短时能量函数和短时平均幅度函数T为帧移长度N为帧长3.1.3短时平均幅度函数和能量函数的作用(1)区分清/浊音: En、Mn大,对应浊音; En、Mn小,对应清音。(2)在信噪比高的情况下,能进行有声/无声判决 无声时,背景噪声的En、Mn小; 有声时,En、Mn显著增大。判决时可设置一个门限。(3)大致能定出浊音变为清音的时刻,或反之。 女声汉语拼音a的一帧信号(在采样频率为22050Hz的情况下,取20ms作为一帧),浊音的短时能量78.61 男声汉语拼音s的一帧信号(在采样频率为22050Hz的情况下,取20ms作为一帧),清音的短时能量3.883.2 线性预测分析的基本原理3.2.1线性预测分析的基本思想: 由于语音样点之间存在相关性,所以可以用过去的样点值来预测现在或未来的样点值。线性预测: 通过使实际语音x(n)和线性预测结果x(n)之间的误差e(n)e(n)=x(n)- x(n) 在某个准则下达到最小值来决定唯一的一组预测系数。 这组系数就能反映语音信号的特性,可以作为语音信号特征参数来用于语音编码、语音合成和语音识别等应用中去。3.2.2求解线性预测系数每个采样值由前面的p个采样值线性组合。 在某个准则下e(n)达到最小值,来决定唯一的一组预测系数。要提高预测精度,即要求预测系数的取值使e(n)最小。 理论上通常采用预测系数的取值使均方误差Ee2(n)(是的函数)最小的准则。将(2)式代入(5)式,有:取遍所有的j,组成一个矩阵托普利兹矩阵 解出方程,可得p个线性预测系数。将代入(2)式,结合(5)式,由此得到的最小均方误差为:3.2.3用e(n)和求x(n)(合成)对(2)式e(n)进行Z变换,有:语音信号的线性预测模型线性预测滤波器e(n)x(n)3.3综合处理设信号1为Y,信号2为X,现在用以上思想来进行,信号1随信号2的声音大小来变化。已经求出x(n),Mn,且此刻为t时刻,下一刻为t+1,则有:|Y(t)|=(Mn(t)+Mn(t-1)+Mn(t-2)/3N+|x(t+1)|/2其中N为帧长度上式表示的是此刻Y的幅度大小有X上三帧幅度和预测分析的下一刻X的幅度第四章具体语音信号实现下面我们将在atlab中进行相应的程序实现:y,fs,Nbits=wavread( H:论文新建文件夹sq.wav);/打开某语音信号plot(y)N=512;/提取语音信号w=hamming(N);z1=y(27000:27511);/连续取相邻三段帧 为x1,x2,x3x1=z1.*w;plot(x1)m1=sum(abs(x1);/平均幅度分析z2=y(27512:28023);x2=z2.*w;m2=sum(abs(x2);z3=y(28024:28535);x3=z3.*w;m3=sum(abs(x3);z=y(1700:2211);/取一个幅度相差较大的帧t=z.*w;en=x3-x2;,g=lpc(en)/得到特性参数b=length()p=length(x3)b=512d=0for i=1:b;for j=1:p;d=a(i)*x3(N-j)+d/进行线性预测endendX=(abs(d)+(m1+m2+m3)/3)/2 /综合处理得到参数Xshuchu=X*t /对t帧进行处理plot(shuchu)plot(t)通过以上数据,我们可以看出输出数据在相应的时间段里已经做了相应的幅度变化,并且其形状并没有做过大的变动。即,我们实现了通过信号1对信号2的输出幅度控制。结论本文讲诉了语音控制技术的发展,语音识别技术和语音合成技术。据此通过自己的理论分析,运用语音的短时能量分析和线性预测原理的结合,基本实现了一个语音信号幅度随另一语音信号幅度变化的要求。但还有很多缺点要去解决:其一是形状还是发生了些许变化,所以我们今后还得想方法使其变化更小,达到输出不失真的效果。然后是此方法对实现平台要求太高,我们是否能够找到更好的方法来解决它。比如说根据我们人类的语音习惯,或者结合白噪声原理,得到一定的规律。初步看定应该可以在手机铃声随周围声音大小的变化,还有就是机器人和人交谈时,能够自己调节说话音量大小等。参考文献:1 罗志增,赵敬斌.机器人语音控制及其实现J.杭州电子工业学院学报,2004,2 4(1);3 0-34.2 赵力.语音信号处理叨.北京:机械工业出版社,2003.3 ZbanciocM ,Costin M. Using neuraln etworks and LPCC to improve speech recognition signalsJ Proceedings of the International Symposium on Circuits and S ystems,2003

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论