语音控制语音技术_第1页
语音控制语音技术_第2页
语音控制语音技术_第3页
语音控制语音技术_第4页
语音控制语音技术_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、语音控制摘要: 本文主要简要介绍了语音控制的发展与用途,特别讲诉了语音识别的理论分析,包括语音信号的预处理,特征矢量的选择与提取等等。再由短时能量分析,线性预测等理论知识,进行了语音控制理论分析的相关改进。将此刻前面的信号进行短时能量分析,得到一个值, 来判断其幅度的大概发展趋势。 最后再用线性预测的原理,得到另一个值。 由此得到的两个值,我们可以进行简单的 对未来幅度的预测,进行另外一个信号的幅度控制。关键字: 语音控制; 语音识别;短时能量; 线性预测;语音控制Abstract:This paper briefly introduces the development of voice c

2、ontrol with USES, especially telling about thespeech recognition theory analysis.The analysis includs the speech signal pretreatment, the characteristic vector selection and extraction, and so on. Then by the short-term energy analysis and linear prediction theory knowledge, the theoretical analysis

3、 of voice controling improves. the signals nowfront short-time energy analysis, gets a value, to judge its amplitude is probably development trend. Finally by linear forecast of principle, gets another value. Thus gaining two value, we can conduct simpleto predict future amplitude, controling anothe

4、r signal amplitude.Keyword:Voice control;Speech recognition; Short-term energy; Linearforecas21目录第章绪论4第二章语音控制理论知识 52 .1语音控制技术的发展 52 . 2语音识别原理 52.1.1语音信号的预处理 62.1.2特征矢量的选择与提取62.1.3动态时间归整算法 72.3语音合成技术8第三章.语音控制的改进 83.1短时能量及短时平均幅度分析93.1.1幅度分析的依据: 93.1.2短时能量函数和短时平均幅度函数 93.1.3短时平均幅度函数和能量函数的作用 93.2线性预测分析的基

5、本原理 103.2.1线性预测分析的基本思想: 103.2.2求解线性预测系数 ak 113.2.3 用 e(n)和 ak 求 x(n)(合成)153.3综合处理16第四章.具体语音信号实现 17结论20参考文献:21致谢语22第一章.绪论语音技术相对其它计算机技术而言, 是一门还很年轻的计算机技术。语音技 术研究在很早就有了,在1995年后个人计算机的计算和处理功能更加强大后逐 步开始有一些应用。而今天语音技术在不知不觉中开始逐步走入了我们的生活, 比如我们今天使用的中国移动电话客户服务系统实际上就是一个语音系统在我 们生活中的应用。本文主要分析了语音技术中语音控制的相关内容, 即进行的相关

6、改进。而在 分析语音控制之前,说明了语音识别的理论原理。然后简要介绍了相关语音控制 软件的应用。得出一般语音控制的应用都是发出语音命令, 计算机等随着命令做 出相应的操作。那么得出一个问题:是否可以进行语音对语音的控制?由此下文 进行相关语音理论的分析,解决了这个问题。其中用到了语音的短时能量分析, 线性预测等理论知识。第二章.语音控制理论知识2 .1语音控制技术的发展人类作为唯一可以进行如此复杂语音交流的动物, 得到了比别的动物更多的 文化知识交流。可是人类的语言交流都是在人类问进行的, 如何可以实现和别的 动物,或者器械之间交流。比如控制计算机,控制机械,达到“启子动口不动手” 的目的。这

7、就是语音控制。而一般我们把这些相关的技术就叫语音技术。语音技术在计算机领域中的关键技术有自动语音识别技术和语音合成技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语 音成为未来最被看好的人机交互方式,语音比其他的交互方式有更多的优势。最早的语音技术因“自动翻译电话”计划而起,包含了语音识别、自然语言理解和语音合成三项非常主要的技术。语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,此后研究者们逐步突破了大词汇量、连 续语音和非特定人这三大障碍。让计算机说话需要用到语音合成技术,其核心是文语转换技术(Text toSpeech),语音合

8、成甚至已经应用到汽车的信息系统上,车主可以将下载到系统 电脑中的文本文件、电子邮件、网络新闻或小说,转换成语音在车内收听。而在下面我们将分别对语音识别技术和语音合成技术进行简单的介绍:2 . 2语音识别原理语音识别分为训练阶段和识别阶段:第一步是系统“训练”阶段,任务是建 立识别基本单元的声学模型。第二步是“识别”阶段。根据识别系统的类型选择 能 够满足要求的识别方法,采用语音分析方法分析出这种方法所要求的语音特 征参数,按照一定的准则和测度与系统模型进行比较,通过判决得出识别结果。 通常在识别小词汇量的场合下,常采用如图 1所示的模板匹配法。图1 基于棋板匹配的语音识别原理框图2.1.1语音

9、信号的预处理系统采用麦克风将语音信号输入给计算机,声卡以一定频率进行数据采样, 然后进行A/D转换,将转换后的语音原始数据储存起来。由丁人的发声器官的固 有特性,语音从嘴唇辐射将有6分贝/倍频的衰减,这种现象对语音的特征提取会 造成不利的影响,因此必须对信号进行高频补偿工作,即预处理,使得信号频谱平坦化,保持在低频到高频的整个频带中, 能用同样的信噪比求频谱,以便丁进 行频谱分析或声道参数分析。2.1.2特征矢虽的选择与提取特征提取是从短时语音帧中提取对语音识别有用的信息。在孤立词语音识别 中(如机器人的语音命令),用线性预测倒谱系(Linear Prediction Cepstrum Coe

10、fficient, LPCC) 来表征短时语音信号可以得到很好的效果3。一般可由线 性预测系数(Linear Prediction Coefficient, LPC) 直接推导出 LPCCCi数,以 下给出公式:k% =编十 £ ckam_k( 1 <mp)< 1)m上=S claft,_)(m>p)(2)k* i m当LPCO数时超过LPO数p时,用式(1)进行计算;如果LPC跻数他丁 p 时,则用式(2)进行计算。2.1.3动态时间归整算法对语音进行训练并建立特征模板库之后, 在识别过程中,模板的匹配实际上 就是对模板库进行提取和比较的过程。模板的匹配需要有一个

11、标准,这就是失 真测度的概念,常用欧氏距离测度。 在模板匹配过程中,由丁即使同一个人在不 同的时间发出相同语音的时间长度也是不可能相同的,这就存在着不同个数的特征欠量之间进行比较的问题。因此,在匹配过程中一般采用图2所示的动态时间归整法(Dynamic TimeWarping)对参考语音模式和待测语音模式的时间轴进行非线性归一化变换,以使两种模式在时间轴上“对齐'动态时间规整算法即是要寻找一条通过各个交义点的从起始点到终止点的最佳路径,使得该路径上所有交义点的帧失真度总和达到最小。事实上,上述搜索路径的选择并不是任意的。首先, 考虑到实际语音的发音情况,虽然语音的发 音快慢会有所变化,

12、但是各个部分的先后次序不可能颠倒, 因此上述路径必须从 左下角出发,终止丁右上角;其次,为了防止盲目的搜索,一般不允许向横轴或 纵轴过分倾斜的路径。经过时间“对齐”后,参考模板与待测模板的帧数便一样 了,此时利用欧氏距离测度便可对两模板的每一帧求失真度,再求和得总失真度,且能达到最小值.2.3语音合成技术语音合成,乂称文语转换(Text to Speech)技术,能将任意文字信息实时 转化为标准流畅的语音朗读出来,相当丁给机器装上了人工嘴巴。它涉及声学、 语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一 项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也

13、即让机器像人一样开口说话。我们所说的“让机器像人一样开口说话”与传统的声 音回放设备(系统)有着本质的区别。传统的声音回放设备(系统),如磁带录音机,是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算 机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音,从而真正实现让机器“像人一样开口说话”。文语转换系统实际上可以看作是一个人工智能系统。为了合成出高质量的语言,除了依赖丁各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这也涉及到自然语言理解的问题。 文语转换过程是 先

14、将文字序列转换成音韵序列,再由系统根据音韵序列生成语音波形。其中第一 步涉及语言学处理,例如分词、字音转换等,以及一整套有效的韵律控制规则; 第二步需要先进的语音合成技术,能按要求实时合成出高质量的语音流。 因此一 般说来,文语转换系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术, 而且必须有大量的语言学知 识的支持。第三章.语音控制的改进我们所知的都是根据语音进行相关具体的操作,可是怎么进行语音对语音的 控制。下面将利用语音信号分析中的短时能量, 短时平均幅度分析和线性预测分 析进行相关语音控制的改进,即达到以语音 2控制语音1的目的。原理分

15、析:3.1短时能虽及短时平均幅度分析3.1.1幅度分析的依据:基丁语音信号幅度随时间变化。活音段幅度小,其能量集中丁高频段;浊音 段幅度较大,其能量集中丁低频段。3.1.2短时能虽函数和短时平均幅度函数xn (m) = w(m)x(n m)Q<m<N -1N为帧长"1w(m) = «othersn = 0,1T,2T,.,T为帧移长度N _1En2Xn (m)N -1M n = 'Xn (m )m =0m =03.1.3短时平均幅度函数和能虽函数的作用(1) 区分活/浊音:En、Mn大,对应浊音;En、Mn/、,对应活音。(2) 在信噪比高的情况下,能进

16、行有声/无声判决无声时,背景噪声的En、Mn小;有声时,En、Mn显著增大。判决时可设置一个门限(3) 大致能定出浊音变为活音的时刻,或反之。0.80.60.40.20-0.2-0.4-0.6-0.8-150100150200250300350400450女声汉语拼音a的一帧信号(在采样频率为22050Hz的情况下,取20ms作 为一帧),浊音的短时能量78.610.30.20.10-0.1-0.2-0.3-0.4050100150200250300350400450男声汉语拼音s的一帧信号(在采样频率为22050Hz的情况下,取20ms作 为一帧),活音的短时能量3.883.2线性预测分析的

17、基本原理3.2.1线性预测分析的基本思想:由丁语音样点之间存在相关性,所以可以用过去的样点值来预测现在或未来 的样点值。x (n-p), x(n-p+l), . x(n-l)X,(n)线性预测:px(n) =' akx(n - k )时间样点)通过使实际语音 x(n)和线性预测结果 xn)之间的误差e(n)e(n)=x(n)-x '(n)在某个准则下达到最小值来决定唯一的一组预测系数ak。这组系数就能反映语音信号的特性,可以作为语音信号特征参数来用丁语音 编码、语音合成和语音识别等应用中去。3.2.2求解线性预测系数a.k每个采样值由前面的p个采样值线性组合px(n) = &#

18、39;、 akx(n - k)k =1pe(n) = x(n)-x(n)= x(n)-' *x(n k) (2)在某个准则下e(n)达到最小值,来决定唯一的一组预测系数ak 。要提高预测 精度,即要求预测系数ak的取值使e(n)最小。理论上通常采用预测系数ak的取值使均方误差Ee2(n)(是a。的函数) 最小的准则。Ee2(«) = E(x(n) - £ akx(n - k)2 k=l。丘择2(刀)= 01 < < /?(4)dak= -2Ee(n)x(n - k) = 0<5)河将式中的k换成jEe(n)x(n - ;) = 0 < j &

19、lt; p预测误差与过去的样点不相关e(w) = x(ri) -xn) = x(n) 一 ax(n-k)Ee(n)x(n - j)= 0n £jx(w) - % akx(n - k) . x(n - j)jp=EUx(n)x(n- j)- Z"Q7-k),xQi-j)卜LK二i= R(j)-i%R(j-k) = OL=1将式代入(5)式,有:pE(x(n)x(n - j)八 akX(n - k)x(n - j)k日P=Rn(j) - ' akRn(j - k) = 0k =1取遍所有的j,组成一个矩阵Rn(1)Rn(0)Rn(1)Rn ( P - 1)a1I | I

20、 IRn(2)Rn(1)Rn (0)Rn( P - 2)a2I : I = I :!:INII I III IRn ( P) Rn( P - 1) Rn( P - 2) Rn(0)apk Ak Wppj=1Rn(1)='、. akRn(1 - k)j = 2Rn(2) = ' akRn(2-k)k Jk J依次类次类推,得到ppRn(j)-' akRn(j-k)=O= Rn(j)=' akRn(j-k)Fn (1) 1-Rn(O)Rn-1)RnJ2)Rn(2)Rn(1)Rn(O)Rn(1)1 Rn(3)Rn(2)aRn(1)aRn(O)a:Rn( ?) 一,Rn

21、3 -1)Rn3 -2)Rn3 - 3)Rn(1-p) aiRn(2 p) a2Rn(3- p) a3 =II?Rn(O)ap|II 1Rn(2)RnRn(O)Rn(1)Rn(p-2)a2lRn(3)<R(2)sRnaRn(O) a+Rn(p-3)a3I : | 1 -底(p) 一_Rn(p-1)Rn(p-2)RnA3)Rn(O) J!ap -Rn(p1) aiRn(1)RJO)Rn(1)Rn(2)托普利兹矩阵解出方程,可得p个线性预测系数ak。将ak代入(2)式,结合(5)式,由此得到的最小均方误差为:2/11Ee (n) min = E <e(n) |x(n) akX(n-k)

22、卜I - kTJp=E e(n)x(n) = E |x(n) x(n) - £ akx(n - k) x(n)-kT一p =Rn(O) - ' akRn(k) k T3.2.3 用 e(n)和 a 求 x(n)(合成)K对式e(n)进行Z变换,有:pe(n) - x(n)- x (n) - x(n) _' aKx(n _ K)K P.KE(z) = X(z)(" 3kZ )E(z)X(z) = p = E(z) H(z)1 一 akzK=11H&) = pe(n)" 3kZ-Kx(n)语音信号的线性预测模型e(n)x(n)1H i ( z

23、) = p1 - ' a k z -KK J线性预测滤波器e(n)=x(n)- aKx(n-k)p= x ( n ) = e ( n ) - M a K x ( n - K )K =13.3综合处理设信号1为丫,信号2为X,现在用以上思想来进行,信号1随信号2的声音大 小来变化。已经求出x(n),Mn,且此刻为t时刻,下一刻为t+1 ,则有:|Y (t) |=(Mn(t)+Mn(t-1)+Mn(t-2)/3N+|x(t+1)|/2其中N为帧长度上式表示的是此刻丫的幅度大小有X上三帧幅度和预测分析的下一刻 X的幅度第四章.具体语音信号实现下面我们将在M atlab中进行相应的程序实现:论

24、文 新建文件夹sq.wav');/打开某语音信号plot(y)0.4 1181101234 S S 7x1D4N=512;/提取语音信号w=hamming(N);z1=y(27000:27511);/ 连续取相邻三段帧 为 x1,x2,x3x1=z1.*w'plot(x1)m1=sum(abs(x1);/ 平均幅度分析 z2=y(27512:28023);x2=z2.*w'm2=sum(abs(x2);z3=y(28024:28535);x3=z3.*w'm3=sum(abs(x3);z=y(1700:2211);/ 取一个幅度相差较大的帧 t=z. *w

25、9; en=x3-x2;a,g=lpc(en)/得到特性参数akb=length( a')p=length(x3) b=512d=0for i=1:b;for j=1:p;d=a(i)*x3(N-j)+d/进行线性预测endendX=(abs(d)+(m1+m2+m3)/3)/2/综合处理得到参数 Xshuchu=X*t /对t帧进行处理plot(shuchu)plot(t)通过以上数据,我们可以看出输出数据在相应的时间段里已经做了相应的幅度变化,并且其形状并没有做过大的变动。即,我们实现了通过信号1对信号2的输出幅度控制。结论本文讲诉了语音控制技术的发展,语音识别技术和语音合成技术。

26、据此通过 自己的理论分析,运用语音的短时能量分析和线性预测原理的结合, 基本实现了 一个语音信号幅度随另一语音信号幅度变化的要求。但还有很多缺点要去解决:其一是形状还是发生了些许变化,所以我们今后还得想方法使其变化更小, 达到输出不失真的效果。然后是此方法对实现平台要求太高,我们是否能够找到更好的方法来解决 它。比如说根据我们人类的语音习惯,或者结合白噪声原理,得到一定的规律。初步看定应该可以在手机铃声随周围声音大小的变化, 还有就是机器人和人 交谈时,能够自己调节说话音量大小等。参考文献:1 罗志增,赵敬斌.机器人语音控制及其实现J.杭州电子工业学院学报,2004,2 4(1);3 0-34.2 赵力.语音信号处

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论