基于dsp的语音识别与合成技术_第1页
基于dsp的语音识别与合成技术_第2页
基于dsp的语音识别与合成技术_第3页
基于dsp的语音识别与合成技术_第4页
基于dsp的语音识别与合成技术_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于dsp的语音识别与合成技术 学 号:201116022106 班 级:电信111 姓 名:王红伟 2014年6月13日目录摘要iiabstractiii一概述11.语音识别12.语音合成13.国内研究历史及现状14.语音识别的流程15.语音信号分析方法分类时域特征16.基于mel频率的倒谱mfcc26.1 音框化(frame blocking)26.2 汉明窗(hamming window)26.3 快速傅利叶转换(fft)26.4 三角带通滤波器组(triangular bandpass filters)2二 芯片概况介绍3三系统总体设计53.1 语音识别系统结构示意图5系统结构示意图5

2、3.2 内部系统构成53.2.1 dsp63.2.2 mcu63.2.3 数据flash存储器63.3 系统内主要芯片的互联互控63.3.1 mcu与dsp63.3.2 dsp与数据flash锁存器73.3.3 dsp与数据flash存储器7四.结论7参考文献:8六课程总结:8第一章:离散时间信号与系统8第二章 离散傅里叶变换(dft)8第三章 快速傅里叶变换9第四章9第六、七章 iir 、fir数字滤波器的设计9第八章 硬件9摘要在如今信息社会,随着微电子的迅速发展,dsp芯片性能不断提高,用数字化的方法可以让语音的传送、储存识别、合成、增强成为整个数字化通信网中最重要、最基本的组成部分之一

3、,随着信息科学技术的飞速发展,语音信号处理的研究也日益显示出它的要性,并取得了重大进展。大体上说,语音信号处理技术可以分为以下四个面:即语音编码,语音合成、说话人识别和语音识别等。以dsp芯片tms320c5410为核心,制作了一个能实现语音识别的功能。本设计主要包括dsp(tms320c5410)、mcu(intel 8031)模块、flash intel 8031模块、液晶显示屏模块、蜂鸣器报警模块和供电模块等,系统由mcu实现总线控制,接收外界键盘输入,并在显示屏上显示信息。随着现代数字通讯、多媒体系统、信息高速公路等技术的应用和发展己经越来越深入地影响并改变着我们每个人地生活和工作方式

4、,这同时也对音信号处理的研究工作提出了更高的要求,它在各方面的进展也令人瞩目。所以用dsp开发语音识别与合成技术是很有优势的。关键词数字信号处理 语音识别 快速傅利叶转换 文语转换技术 tms320c5410 隐式马尔可夫链abstract in todays information society, with the rapid development of microelectronics, dsp chip to constantly improve the performance, the use of digital methods can make the transmission

5、 of voice recognition, synthesis, storage, enhancement has become one of the most important parts of the whole, the most basic digital communication network, along with the rapid development of information technology, research on speech signal processing is becoming more and more show it to, and mad

6、e significant progress. generally speaking, speech signal processing technology can be divided into the following four aspects: namely, speech coding, speech synthesis, speech recognition and speech recognition.using dsp chip tms320c5410 as the core, made a speech recognition function. this design m

7、ainly includes the dsp (tms320c5410), mcu (intel 8031) module, flash intel 8031 module, lcd module, buzzer alarm module and power supply module, the system is realized by mcu bus control, receiving external keyboard input, and display the information on the display screen.随着现代数字通讯、多媒体系统、信息高速公路等技术的应用

8、和发展己经越来越深入地影响并改变着我们每个人地生活和工作方式,这同时也对音信号处理的研究工作提出了更高的要求,它在各方面的进展也令人瞩目。所以用dsp开发语音识别与合成技术是很有优势的。with the application and development of modern digital communication, multimedia system has, highways and other information technology is more and more deeply affected and changed our each persons way of liv

9、ing and working, it also research on audio signal processing and put forward higher requirements, it is in all aspects of the progress is also attract peoples attention. so with the development of dsp speech recognition and synthesis technology is very advantageous.keywords:tms320c5410speech recogni

10、tion一概述1.语音识别语音识别是试图使机器能“听懂”人类语音的技术。语音识别的作用是将语音转换成等价的书面信息,也就是让计算机听懂人说话。作为一门交叉学科,语音识别又是以语音为研究对象,是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到计算机、信号处理、生理学、语言学、神经心理学、人工智能等诸多领域,还涉及到人的体态语言,其最终目标是实现人与机器进行自然语言通信。2.语音合成 语音合成是通过机械的、电子的方法产生人造语音的技术。tts技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。3.国内研究历史

11、及现状我国在语音识别研究上也投入了很大的精力,国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项,我国语音识别技术的研究水平已经基本上与国外同步。4.语音识别的流程根据对输出观测值概率的不同描述,hmm(隐式马尔可夫链)可分为离散hmm(dhmm)和连续hmm(chmm),在基于dhmm的非特定人语音识别过程中语音信号先被分成若干音框(帧),每个音框用一个特征向量参数表示,然后将语音特征参数向量的时间序列矢量化,此时每一个音框的语音信号变成vq码本,用码本训练hmm,最后测试识别率。5.语音信号分析方法

12、分类时域特征频域及倒谱域特征由时域信号进行频谱变换得到,反映语音信号的频域特性包括傅里叶频谱、倒谱以及利用了语音信号的时序信息的时频谱。听觉特征指不直接对声道模型进行研究,而是从人类听觉系统对语音的感知特性来刻画语音信号的特征。6.基于mel频率的倒谱mfcc在语音识别(speech recognition)和语者辨识(speaker recognition)方面,最常用到的语音特征就是梅尔倒频谱系数(mel-scale frequency cepstral coefficients,简称mfcc),此参数考虑到人耳对不同频率的感受程度,因此特别适合用在语音识别。6.1 音框化(frame b

13、locking)先将n个取样点集合成一个观测单位,称为音框(frame),通常n的值256或512,涵盖的时间约为2030ms 左右。为了避免相邻两音框的变化过大,所以我们会让两相邻因框之间有一段重迭区域,此重迭区域包含了m个取样点,通常m的值约是 n 的一半或 1/3。通常语音识别所用的音频的取样频率为8 khz或16 khz,8khz 来说,若音框长度为256 个取样点,则对应的时间长度是 256/8000*1000 = 32 ms。6.2 汉明窗(hamming window)将每一个音框乘上汉明窗,以增加音框左端和右端的连续性(请见下一个步骤的说明)。假设音框化的讯号为s(n),n =

14、 0,n-1。那么乘上汉明窗后为s(n) = s(n)*w(n),此w(n) 形式如下6.3 快速傅利叶转换(fft)由于讯号在时域(time domain)上的变化通常很难看出讯号的特性,所以通常将它转换成频域(frequency domain)上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每个音框还必需再经过 fft以得到在频谱上的能量分布。 6.4 三角带通滤波器组(triangular bandpass filters)将能量频谱能量乘以一组 20个三角带通滤波器,求得每一个滤波器输出的对数能量(log energy)。必须注意的是:这20个三角带通滤

15、波器在梅尔频率(mel frequency)上是平均分布的,而梅尔频率和一般频率 f 的关系式如下: mel(f)= 2595 * log梅尔频率代表一般人耳对于频率的感受度,由此也可以看出人耳对于频率 f 的感受是呈对数变化的: 在低频部分,人耳感受是比较敏锐 。在高频部分,人耳的感受就会越来越粗糙 。二 芯片概况介绍 tms320c54xx系列简介tms320c54x芯片采用先进的修正哈佛结构和8条4组总线结构使处理器的性能有极大的提高。它的独立的程序和数据总线允许同时访问程序存储器和数据存储器,实现高度并行操作,例如可以在一条指令中,同时执行3次读操作和1次写操作。还可以在数据总线和程序

16、总线之间相互传送数据,从而使处理器具有在单个周期内同时执行算术运算、逻辑运算、移位操作、乘法累加运算以及访问程序和数据存储器的强大功能。采用模块化设计现金的集成电路设计以及先进的集成电路技术,芯片的功耗小,成本低的强大好处。程序数据rom程序数据ramjtag测试仿真控制1717乘法器40bit加法器舍入饱和d(150)a(150) 程序数据总线通用 io cpumac alu 移位器 累加器寻址单元定时器dmach0ch1ch2ch3ch4ch5定时器40bit alu比较选择单元(viterbi)指数编码器主机接口(hpi)外设总线多通道缓冲串口 (mcbsp)40bit acc a40b

17、it acc b40 bit 桶形移位寄存器(1631)多通道缓冲串口 (mcbsp)pll时钟发生器8 个辅助寄存器2 个地址产生单元sw等待状态发生器 电源管理c54xx功能结构框图tms320c54xdsp内部硬件组成框图三系统总体设计3.1 语音识别系统结构示意图语音输入方式省去了大量的输入时间,降低了信息检索的复杂度,该芯片可存放数百张语音名片,每张名片包含四条信息:姓名、电话号码、工作单位、备注;声控查找语音名片信息,用户只需口述所要查找人的姓名,即可获得电话号码、工作单位、备注等信息,同时电话号码显示在液晶屏上。电源部分a/d、d/a转换器程序存储器扬声器话筒dsp(tms320

18、c5410)mcuintel 8031软件flash存储器液晶显示屏键盘 系统结构示意图3.2 内部系统构成用于 “录音”功能的acelp算法是该码率下性能优异的解码算法,虽然算法复杂度较高,但共重建语音素质的平均主观评测分数(mos分)达到如图1所示,系统由mcu实现总线控制,接收外部键盘输入,并在液晶屏上显示信息。在本系统中,语音充当大部分人机界面的角色,尽管省去复杂的键盘操作,而且用语音提示或语音操作回放代替一部分液晶文字提示。由于语音要经过dsp处理,所以mcu需要与dsp经常交换信息,一边实现友好的操作界面。系统由mcu实现总线控制,接收外部键盘输入,并在液晶屏上显示信息。本系统中,

19、语音充当大部分人机界面的角色,尽量减去复杂的键盘操作,而且用语音提示或语音回放代替一部分的液晶文字提示。由于语音要经过dsp处理,所以mcu需要与dsp经常交换信息,以便实现又友好的操作界面。3.2.1 dspdsp(tms320c5410)是整个硬件系统的信号处理中心,完成语音识别、训练、编解码,进行片内ram及外部flash存储芯片的数据管理与调度,并向主控芯片mcu提供简洁的命令与反馈信息。tms32054xx系列的产品。其主要性能指标如下:1 16位定点的dsp,采用改进的哈佛结构,供电呀3.3v;2 提供了64kbyte的片内rom;3 由一个时分复用串口tdm和2个带缓冲区的标准串

20、口bsp;4 具有hpi是实现dsp与mcu接口的应用;5 指令周期为10ns, 即运算速度高达100m ips;6 具有管理中断、循环运算和功能调用的控制结构。3.2.2 mcu mcu是intel生产的性价比较高的一种hmos类型的8位单片机,可以一次性编程,适于小批量生产,被广泛地应用于家用电器的控制,他具有强大的i/o功能。其主要指标如下:1 片内ram为128*8bit;片外为64k*8bit片外eprom64k*8bit;2 40个引脚,其中由32个i/o口,5个中断源,2个16位定时器/计数器;3 需求电压为5v这些性能保证了系统主控能力,而且能够提供灵活的外部接口,适于做进一步

21、的改进能力和改进。计算器等附加功能可以直接由mcu完成。3.2.3 数据flash存储器数据flash存储器km29u64000是samsung公司的产品,它可在3v电压下低功耗工作,存贮量大、价位低、速度快、存储数据掉电后可保持而不会丢失。3.3 系统内主要芯片的互联互控3.3.1 mcu与dspmcu与dsp采用串行口相连,通过hpi实现mcu与dsp的传送互联mcu对dsp的命令字与dsp对mcu的反锁字。dsp串口1用于语音输入和输出,串口2用于与mcu相连。由于dsp的串口收发方式和mcu的串口不一致,所以mcu用i/o口模拟串口与dsp相连。为了保证数据传送的稳定性,mcu采用中断

22、方式接收。每次数据传送一般不止一个人字节,所以采用打包方式传送。3.3.2 dsp与数据flash锁存器dsp的数据总线中的8位练到flash存储器的总线上,用dsp的读写控制线wr和rd控制flash控制的ce端,以保证dsp在进行其他总线操作时不会对该flash芯片的“闲/忙”信号线上,监视其股票那工作状态;分别把两个地址线a8和a9连到flash芯片的两个锁存控制cle和ale上,以便控制总线的状态。3.3.3 dsp与数据flash存储器tms320c5410的byte存储区就是一个8位宽的外部双向存储空间,可用于存储程序与数据。整个byte存储空间由256个16k*8的页面组成,by

23、te存储区只能通过bdma进行访问。在使用bdma方式工作时用a0-a13作为低端地址,用d16-d18作为扩展的高端地址,联合使用实现4mbyte的外部寻址能力。d8-d15作为数据总线,bms、rd、wr分别用于控制存储的片选以及读写操作信号。四.结论基于dsp的语音识别与合成技术的实验,是未来spda语音个人数字助理的前型。它集成了语音识别、语音压缩编码、语音信号处理器dsp和大容量flash在存储的数据管理等技术、该系统所应用的技术可应用于语音八号电话+语音录音电话机、电话机伴侣、pda、随身听、语音玩具、语音门户。经过这次数字信号处理基于dsp的语音识别与合成系统的研究,我知道了利用

24、dsp处理信号是很有优势的,处理方法多种多样,适合不同的信号,我了解了一般电子语音处理的方法,怎么样识别,并对识别到的语音信号合成,达到人机交流的目的,这样对研究机器人或是其他跟语音有关的东西,都可以采用dsp的处理方法,经过这次学习,我感到受益匪浅。参考文献:1王华奎编,数字信号处理与运用,高等教育出版社,2013.2吴大正编,信号与线性系统,高等教育出版社,2012.3王念旭等,dsp基础与应用系统设计,北京航空航天大学出版社. 4易克初,语音信号处理,国防工业出版社5关华,digital speech processing,黄河出版社. 6宋知用 ,matlab在语音信号分析与合成中的应

25、用,北京航空航天大学出版社; 第1版 (2013年11月1日)六课程总结:第一章:离散时间信号与系统主要介绍了模拟信号数字处理方法,时域离散信号的表示方法和典型信号、线性时不变的因果性和稳定性、系统的输入输出描述法。重点学习了离散时间福利叶变换和z 变换,在频域中的运用。通过学习,自己明白了什么是奈奎斯特采样定理,明白了a/d转换和d/a转换,这是在数字信号处理中不可或缺的关键转换。会根据不同的采样频率用傅里叶变换求采样后的频谱。知道了各种序列,会用matlab 写程序画出序列图来,会根据程序调用函数,感觉很实用。学了线性系统和时不变系统,因果关系,知道了级联、单位脉冲响应还有系统的差分方程。学了霸气的z变换,会求简单的收敛域,知道了z变换的许多性质,z变换注重零点与极点的分布,利用卷积积分使离散函数分析,求解过程变的简单而方便,最后终于知道了z变换、傅里叶变换、拉普拉斯变换之间的关系,了解了离散时间lti系统的线性差分方程,从而具有无限长的单位冲击响应(iir)、(fir)系统。总之学了第一章,把之间学的知识都加强巩固了一遍,知道数字信号处理的各种数学模型。第

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论