




已阅读5页,还剩103页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于凌阳SPCE061A单片机的语音控制小车的研究摘 要语音识别技术是使机器通过识别和理解把语音转变为相应的文本或命令的技术。语音识别是一门交叉学科,正逐步成为信息技术中人机接口的关键技术。目前语音识别系统按核心硬件来分主要有:以PC机为核心硬件的语音识别系统和以专用芯片为核心的语音识别系统。本课题主要阐述了一种非常适合语音处理的单片机凌阳SPCE061A的原理,并实现了基于凌阳SPCE061A单片机的语音遥控小车。本文主要工作包括,首先介绍了语音识别基础知识以及常用的语音识别算法,然后根据嵌入式系统的特点和本课题所要求实现的具体功能,给出了基于凌阳SPCE061A单片机的语音遥控小车系统硬件和软件设计的总体方案。论文同时介绍了凌阳公司提供的集成开发环境nSP IDE,利用该软件实现了程序下载和仿真调试,经调试正确的程序运行在单片机上,使用已有的语音识别算法,根据语音命令实现了小车运动方向的控制。此系统不仅具有体积小、耗电省、价格低、性能可靠的特点,还具有较快的运算速度、较高的识别率,可实现实时的语音识别。本系统的语音提示功能为人机交流提供了一个良好的界面。关键字:语音识别,SPCE061A单片机,61开发板,仿真THE RESEARCH OF SPEECH CONTROLING CARBASED ON SUNPLUS SCM SPCE061AABSTRACTThe speech recognition technology is a high technology, which make the machine change the speech into homologous text or order by recognition and comprehend. The speech recognition is a cross-subject, and it is becoming the key-technology of human-computer interface in information technology.At present, according to the difference of hardware core, the speech recognition system includes: the speech recognition system using PC as its hareware core and the speech recognition system using special chip. The article introduces a microcontroller which fits to processing speech-SUNPLUS SPCE061A microchip and its principle, achieve the speech controling car based on SPCE061A.The article main work includes: firstly, introduces the fundamental knowledge of speech recognition and several speech recognition algorithms, then give the hardware and software design of the speech controling car based on the SPCE061A system according to the characteristics of the embedded system and the particular requirements of the project. Then, the article also introduces the software tool called nSP IDE from SUNPLUS. By using the software we can download the program to the SPCE061A and debug programs. Finally, we use the SUNPLUS speech recognition algorithms, the car movement direction can be controlled according to the speech command.The Speech Recognition System not only has small size, economic power consumption, low cost and high reliability, but also has high operation speed, high recognition veracity and the realization of real-time speech recognition. Furthermore, in the system, the function of speech cue offers a favorable interface to human-computer interaction.KEY WORDS: Speech Recognition, SPCE061A Microcontroller, Motherboard Of SPCE061A, Simulation目 录摘 要IABSTRACTII第一章 绪论1第二章 语音处理与识别技术基础32.1 概述32.2 语音信号分析技术32.2.1 滤波与A/D转换32.2.2 预处理32.2.3 语音信号的时域分析42.2.4 语音信号的线性预测分析52.3 语音信号识别技术52.3.1 矢量量化技术72.3.2 隐马尔可夫模型72.4 语音识别的发展历史82.5 语音识别系统的分类92.6 语音识别的难点92.7 嵌入式语音识别系统硬件组成9第三章 凌阳SPCE061A单片机简介113.1 概述113.2 主要性能113.3 结构113.3.1 芯片的引脚排列和说明123.3.2 SPCE061A系统特性参数153.4 61板介绍153.4.1 61板的结构和功能153.4.2 SPCE061A最小系统173.4.3 SPCE061A开发方法193.4.3.1 PROBE方式193.4.3.2 EZ_PROBE方式21第四章 SPCE061A单片机的语音处理234.1 概述234.2 凌阳常用的音频形式和压缩方法234.2.1 音频形式和压缩算法234.2.2 语音压缩具体操作方法294.3 凌阳语音识别算法314.3.1 初始化314.3.2 训练部分324.3.3 辨识部分324.3.4 中断部分334.4 本章小结34第五章 语音遥控小车的设计365.1 概述365.2 语音遥控小车硬件设计365.2.1 系统设计方案365.2.2 系统控制方案375.2.3 具体硬件设计375.2.3.1 车体介绍375.2.3.2 控制板介绍415.2.3.3 硬件的连接445.3 语音遥控小车软件设计485.3.1 训练子程序505.3.2 语音识别子程序515.3.3 中断子程序535.3.4 动作子程序545.4 软件的下载与仿真调试及结果分析555.4.1 软件的下载555.4.2 软件的仿真调试585.4.3 仿真调试结果分析585.4.4 实物效果验证585.5 本章小结58第六章 总结与展望58参考文献58致 谢58附录1 语音遥控小车源代码58附录2 中英文对照参考文献58附录3 凌阳61A板电路原理图58第一章 绪 论语音识别是语音信号处理的重要研究方向之一,它是一门涉及面很广的交叉学科,与计算机、通信、语音语言学、数理统计、信号处理、神经生理学、神经心理学、模式识别、声学和人工智能等学科都有密切的联系。它还涉及到生理学、心理学以及人的体态语言。语音是语言信息的载体,语音识别的基本任务是将输入的语音转化为相应的语言代码。这样,不仅使存储或传输这样的语言代码时的数码率比起存储或传输原来有语音信号来大幅度降低,而且还在于它把一种连续的语音信号变成了一种有限符号,这样的符号容易被计算机(或专用信息处理单元)理解其含义,并且便于与人进行交流,因而语音识别得到十分广泛的应用1。随着计算机技术、模式识别和信号处理技术及声学技术等的发展,使得能满足各种需要的语音识别系统的实现成为可能。近二三十年来,语音识别在工业、军事、交通、医学、民用诸方面,特别是在计算机、信息处理、通信与电子系统、自动控制等领域中有着广泛的应用。当今,语音识别产品在人机交互应用中已经占到越来越大的比例。语音识别技术发展到今天,除了PC机的语音识别系统正趋于成熟外,随着语音算法的深入研究和集成电路技术的发展,出现了一些具有实用价值和市场前景的语音识别芯片。近年来,随着消费类电子产品对低成本、高稳健性的语音识别芯片的需求快速增加,使得语音识别系统大量地从实验室的PC平台转移到嵌入式设备中。通过研究者的不断努力,现在嵌入式非特定人语音识别系统识别精度已经达到98%以上,而对特定人语音识别系统的识别精度就更高了2。嵌入式语音识别系统与PC机的语音识别系统相比,虽然其运算速度和存储容量有限,但它具有自己的一些特点。首先,它是一个完整的语音识别系统。除语音识别功能外,为了有一个友好的人机界面和对识别正确与否的验证,该系统还具备语音提示(语音合成)及语音回放(语音编码记录)功能。其次,嵌入式语音识别系统多为实时系统。即当用户说完待识别的词条后,系统立即完成识别功能并有所回应。第三,嵌入式语音识别系统具有体积小,可靠性高、耗电省、投入少、价格低便携性好,可支持移动作业等优点。这是嵌入式语音识别系统与PC机的语音识别系统相比最大的优势。嵌入式语音识别系统的优点使得其应用的领域十分广泛3。语音识别技术目前在嵌入式系统中的应用主要为语音命令控制,它使得原本需要手工操作的工作用语音就可以方便地完成。语音命令控制可广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。使用语音作为人机交互的途径对于使用者来说是最自然的一种方式,同时设备的小型化也要求省略键盘以节省体积。语音识别技术是语音处理技术的一个分支。语音处理技术发展过程也就是语音识别技术的发展史。由此可以将语音识别分为三个阶段。第一个阶段是萌芽阶段,在这一阶段(20世纪30年代至50年代),人们对语音处理的研究主要是根据语音学知识,提取若干特征参数,并利用这些参数制作成模拟电路来模仿人的发音过程,实现简单的语音处理功能。语音识别的研究工作始于50年代,它开始的标志是AT& T Bell实验室实现了第一个可识别十个英文数字的语音识别系统Audry系统。第二个阶段是发展阶段,在这一阶段(20世纪60年代至80年代初),随着集成电路技术和计算机技术的发展,语音识别的理论和技术亦日趋完善和成熟。60年代,提出了用动态规划(DP)方法来解决语音识别中不等长的问题。70年代,出现了基于线性预测倒谱和动态时间规整技术(DTW)技术的特定人孤立语音识别系统。80年代,最显著的特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。第三个阶段是实用阶段,在这一阶段(20世纪90年代至今),随着遵循摩尔定律的超大规模集成电路技术的迅速发展,极大地促进了计算机多媒体技术和人工智能技术的迅猛发展,使人类社会进入到数字信息时代。在此社会背景下,人们对语音识别技术的实际需求愈发迫切,这极大地促进了语音识别技术的不断深入和发展,使语音识别系统从实验室走向实用,从而不断出现利用现语音识别技术的产品4。我国的语音识别系统的研究起步比较晚,但也取得了很好的成绩,研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国PC机语音识别技术的研究水平己经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,但独立开发的专用汉语语音识别芯片还是较少,多数都是与国外研究机构合作开发研制的3。本文的主要工作:(1)本文在阐述语音信号处理知识、语音识别原理及SPCE061A单片机主要特点的基础上,进行孤立词的嵌入式语音识别系统硬件和软件设计以及语音控制小车实物的设计。(2)依据设计任务的要求,硬件电路要包括核心部件的外围电路设计和小车控制电路的设计。基于嵌入式系统的特点,本系统的硬件电路具有体积小,性能稳定、价格低廉的优点。(3)对语音控制小车的硬、软件设计与装配后,采用凌阳公司的集成开发环境nSP IDE进行软件的编译、链接、下载与仿真调试,最终实现语音控制小车实物的语音控制功能。第二章 语音处理与识别技术基础2.1 概述语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段,也是人类进行思维的一种依托。人类进入信息时代以后,用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储和获取语言信息,这对于促进社会的发展具有十分重要的意义。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。2.2 语音信号分析技术语音信号分析是语音信号处理的前提和基础,只有分析出代表语音信号本质特征的参数,才有可能利用这些参数进行高效的语音识别处理。根据分析方法不同可将语音信号分析分为模型分析法和非模型分析法。对于嵌入式语音识别系统采用依据模型进行分析的线性预测分析是比较好的。在对语音信号分析之前应将语音信号进行前端处理,其中包括语音的数字化、滤波、预处理等,这为语音信号特征提取和语音识别打基础。2.2.1 滤波与A/D转换滤波的目的有两个:(1)抑制输入信号各分量中频率超出的所有分量(为采样频率),以防止混叠干扰。(2)抑制50Hz的电源工频干扰。滤波器必须是一个带通滤波器。为了减少硬件设备,可以采用数字滤波器。A/D转换器是将原始的模拟语音信号变为数字信号,从而得到时间和幅度上均为离散的数字语音信号。A/D转换时采样频率的选择很重要,它关系到采样过程中是否会丢失信息,在语音信号处理中,采样频率通常为7-l0kHz。由此可见,选择的A/D转换器性能的好坏对语音信号的处理也是很重要的1。2.2.2 预处理 预处理一般包括预加重、加窗、分帧和端点检测等。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便进行频谱分析或声道参数分析。加窗分帧的目的是为了利用有限容量的数据区依次处理数量极大的语音数据。根据语音信号在l0-20ms内语音信号特性不变的特点,一般取帧长为20ms,帧移为帧长的0-1/2倍。常用的函数窗为汉明窗、汉宁窗和矩形窗。经过加窗分帧处理后,语音信号就已经被分割成一帧一帧的加窗函数的短时信号,然后再把每一个短时语音帧看成平稳的随机信号,利用数字信号处理技术来提取语音特征参数。在进行处理时,按帧从数据区中取出数据,处理完成后再取下一帧。最后得到由每一帧参数组成的语音特征参数的时间序列。端点检测是将语音信号从背景噪声中提取出来,以确定语音信号的起止点5。2.2.3 语音信号的时域分析(1)短时平均能量分析 短时能量定义为设第n帧语音信号的短时能量表示为 (2.1)其中,N帧长 短时能量的用途有: 1)可以区分浊音段与清音段,因为浊音时值比清音时大的多。2)可以用来区分声母与韵母的分界是,无声与有声的分界,连字(指字之间无间隙)的分界等。3)作为一种超音段信息,用于语音识别中。(2)短时过零率分析短时过零率表示一帧语音信号波形穿过横轴(零电平)的次数。对于连续语音信号,过零即意味着时域波形通过时间轴;而对于离散信号,如果相邻取样值改变符号则称为过零。过零率就是样本改变符号的次数。短时过零率的定义语音信号的短时过零率为 (2.2)式中,为符号函数,即 (2.3)短时过零率的用途:1)可以用于区分浊音和清音。因为浊音具有较低的过零率,而清音具有较高的过零率。2)可以从背景噪声中找出语音信号,可用于判断寂静无声段和有声段的起点和终点位置1。2.2.4 语音信号的线性预测分析(1)线性预测分析的原理线性预测分析(Linear Prediction Coding简称LPC)是进行语音分析最有效、最流行的分析技术之一。它的基本原理是:由于语音样点之间存在相关性,所以可以用过去的样点值来预测现在或未来的样点值,即一个语音的抽样能够用过去若干个语音抽样或它们的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来决定唯一的一组预测系数。而这组预测系数就反映了语音信号的特性,可以作为语音信号特征参数用于语音识别等5。(2)线性预测倒谱系数已知线性预测系数,可用如下递推公式求出相应的倒谱系数。 (2.4)2.3 语音信号识别技术从图2.1中可以看出语音识别一般分两个步骤:第一步是系统“学习”或“训练”阶段。这一阶段的任务是建立识别基本单元的声学模型以及进行文法分析的语言模型,即构建参考模式库;第二是“识别”或“测试”阶段。根据识别系统的类型选择能够满足要求的一种识别方法,采用语音分析方法分析出这种识别方法所需求的语音特征参数,按照一定的准则和测度与参考模式库中的模型进行比较,通过判决得出结果1。语音输入预处理特征提取模式识别训练模式库语音识别结果图2.1 语音识别系统基本原理框图其中: 预处理包括预加重、加窗分帧、端点检测等处理过程,在预处理之前还有语音信号的数字化处理过程,其中包括反混叠滤波、模/数转换、自动增益等用以去除声门激励、口鼻辐射、高于1/2采样率高频和噪声信号的影响,实现语音信号的数字化。特征提取经过预处理后的语音信号,要对其进行特征提取,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息,即特征参数分析。该过程就是从原始语音信号中抽取能够反映语音本质的特征参数,形成特征矢量序列。目前语音识别所用的特征参数主要有两种类型:线性预测倒谱系数(LPCC)和美尔频标倒谱系数(MFCC)。LPCC系数主要模拟人的发声模型,未考虑人耳的听觉特性。它对元音有较好的描述能力,而对辅音描述能力差。其优点为计算量小,比较彻底地去掉了语音产生过程中的激励信息,易于实现。MFCC系数考虑到了人听觉特性,并具有很高的鲁棒性和抗噪声能力,但因为提取MFCC参数要在频域处理,计算傅立叶变换将耗费大量宝贵的计算资源。因此,嵌入式语音识别系统中一般都选用LPCC系数2。语音特征提取是分帧提取的,每帧特征参数一般构成一个矢量,因此,语音特征是一个矢量序列。该序列的数据率一般可能太高,不便于其后的进一步处理,为此,有必要采用很有效的数据压缩技术方法对数据进行压缩。矢量量化就是一种很好的数据压缩技术4。参考模式库参考模式库是将一个或多个说话者的多次重复的语音参数经过训练得到的。它是声学参数模板。建立参考模式库是在系统使用前获得并存贮起来的。参考模式库的建立的过程称为训练过程。模式匹配模式匹配是将输入的待识别的语音特征参数同训练得到的参考语音模式进行逐一比较分析,获得最佳匹配的参考模式形成识别结果。目前常用的语音识别算法主要有:动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特性要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够时,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不具有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒4。2.3.1 矢量量化技术(1)矢量量化的基本原理将若干个标量数据组成一个矢量(或者是从一帧语音数据中提取的特征矢量)在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。矢量量化有效地应用了矢量中各元素之间的相关性,因此可以比标量量化有更好的压缩效果。当给矢量量化器输入一个任意矢量进行矢量量化时,矢量量化器首先判断它属于哪个子空间,然后输出该子空间的代表矢量。也就是说,矢量量化过程就是用代表的过程,或者说把量化成了,即 (2.5)式中,量化器函数。 (2)矢量量化器和码书的设计方法矢量量化器和码书设计方法是采用递推算法,这个算法就是LBG算法。整个算法实际上就是最佳设计和最佳码书两个条件的反复迭代过程,即由初始码书寻找最佳码书的迭代过程。它从对初始码书进行迭代优化开始,一直到系统性能满足要求或不再有明显的改进为止2。2.3.2 隐马尔可夫模型 (1)隐马尔可夫模型的定义和基本概念 隐马尔可夫模型(Hidden Markov Model称HMM)是一种用参数表示的,用于描述随机过程统计特性的概率模型,它是由马尔可夫链演变来的,图2.2为HMM组成示意图。马尔可夫链(,A)随机过程(B)q1,q2,qt状态序列观察值序列图2.2 HHM组成示意图其中,为初始状态概率矢量,。A为状态转移概率矩阵,N为状态数。B为观察值概率矩阵,M为观察值数目。在语音处理中,可以这样来理解HMM:人的发音器官只有有限个状态,同时每个状态所产生的语音会有一定的变化;状态之间的转移按一定的转移概率进行,而每个状态上可能产生的语音特征,则由概率分布(离散HMM)或概率密度函数。(2)隐马尔可夫模型的三个基本算法用HMM构成语音识别系统必须进行三个基本算法,对于给定的一个观察序列和一个参数,1)如何有效地计算在给定条件下产生观察序列的概率;2)如何选择一个在某种意义下最佳的状态序列,以便最好地解释观察序列;3)如何调整模型参数,才能使达到最大。 (3)HMM的结构和类型 隐马尔可夫的结构主要有两种,一是各态历经的,一种是从左至右的,语音识别必须用从左至右的HMM。HMM的类型主要有连续HMM和离散HMM两大类。主要区别在于参数B。离散HMM的参数组B是一个概率矩阵。连续HMM的参数组B是每个状态对应于一个观察概率密度函数4。2.4 语音识别的发展历史语音识别的研究工作大约开始于50年代,Bell实验室的David等人研制成功了第一个可识别十个英文数字的语音识别系统Audry系统。这是语音识别研究工作的真正开端。60年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),对整个语音识别、语音合成、语音分析、语音编码的研究发展产生了深远影响。70年代,语音识别领域取得了突破。在理论上,LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。80年代,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。1988年美国卡内基-梅隆大学运用VQ和HMM技术研制出了非特定人、大词汇量、连续语音识别系统SPHINX系统,它可以理解由1000个单词构成的4200个句子,被认为是语音识别历史的一个里程碑。进入90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM、Apple、ATT、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。我国从70年代后开展研究,从引进国外理论技术入手,移植到汉语和结合汉语特点进行研究,取得了不少成果并逐步形成了“汉语语音识别”学科4。2.5 语音识别系统的分类语音识别系统的分类方式如下:根据对说话人说话方式的要求,可以分为孤立字语音识别系统,连接字语音识别系统以及连续语音识别系统。根据对说话人的依赖程度可以分为特定人语音识别(SD)和非特定人语音识别(SI)系统。根据词汇量大小,可以分为小词汇量(1-20个词)、中等词汇量(20-1000个词)、大词汇量(大于1000个词)以及无限词汇量语音识别系统。按照说话环境,可分为隔音间、计算机房、公共场所等。按照传输系统,可分为高质量话筒、听讲话筒或电话。按照语识别层次分,可分为语音识别、语义识别、语法识别。按照语音输入格式,可分为约束格式、自由格式识别系统。不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似7。2.6 语音识别的难点目前,语音识别的研究工作进展缓慢,主要表现在理论上一直没有突破。虽然各种新的修正方法不断涌现,但还缺乏普遍适用性。主要表现在:语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,如识别速度、拒识问题以及关键词(句)检测技术(即从连续语音中去除诸如“啊”、“唉”等语音,获得真正待识别的语音部分)等等技术细节要解决。为了解决这些问题,研究人员提出了各种各样的方法,如自适应训练,基于最大互信息准则(MMI)和最小区别信息准则(MDI)的区别训练和“矫正”训练;应用人耳对语音信号的处理特点,分析提取特征参数,应用人工神经元网络等,所有这些努力都取得了一定成绩。不过,如果要使语音识别系统性能有大的提高,就要综合应用语言学、心理学、生理学以及信号处理等各门学科有关知识,只用其中一种是不行的4。2.7 嵌入式语音识别系统硬件组成 嵌入式语音识别系统硬件框图如图2.3所示。在硬件系统中,前端滤波是为了消除干扰和可能造成混淆的成分。由于语音信号是较弱的信号,因此,要对输入的语音信号进行放大,为了使语音信号的放大值控制在一定的范围内在硬件中设有自动增益控制AGC。而A/D和D/A是进行语音信号数字化转换和语音播放不可缺少的部分。功放用于驱动扬声器进行语音的播放。RAM用于存储提取的语音特征参数,而语音提示部分可固化在ROM中或存储在FLASH内。语音识别程序也被存储ROM或FLASH中。控制对象是根据此系统所应用的领域不同而有所区别。在设计时,依据对控制对象的不同,还要考虑相应的驱动电路。 对于嵌入式系统而言,其硬件组成有许多其它因素需要考虑。首先是成本,由于成本的限制,一般使用定点DSP,有时甚至只能考虑使用MPU,这意味着算法的复杂度受到限制;其次,嵌入式系统对体积有严格的限制,这就需要一个高度集成的硬件平台。因此最理想的硬件组成是系统级的集成芯片。它不只是把功能复杂的若干个数字逻辑电路放入同一个芯片,做成一个完整的单片数字系统,而且在芯片中还应包括其它类型的电子功能器件,如模拟器件(如ADC/DAC)和存储器2。前端放大与滤波A/DD/A功放NGFANG微处理器控制对象AGCROMRAMFLASH图2.3 嵌入式语音识别系统硬件框图第三章 凌阳SPCE061A单片机简介3.1 概述SPCE061A是台湾凌阳科技公司研制的一个16位架构的微控制器。它的内核采用凌阳公司最新推出的Microcontroller and Signal Processor(简称nSP)16位微处理器芯片。SPCE061A既具有体积小、集成度高、可靠性好的特点,又具有较强的中断处理能力、高性价比和功能强、效率高的指令系统及低功耗、低电压的特点。因此,SPCE061A微控制器是适用于数字语音识别应用领域产品的一种最经济的选择。3.2 主要性能16位nSP微处理器;工作电压(CPU)VDD为2.4-3.6V(I/O)VDDH为2.4-5.5V;CPU时钟:0.32MHz-49.152MHz;内置2k SRAM;内置32k FLASH;可编程音频处理;晶体振荡器;系统处于备用状态下(时钟处于停止状态),耗电仅为2A3.6V;2个16位可编程定时器/计数器(可自动预置初始计数值);2个10位DAC(数-模转换)输出通道;32位通用可编程输入/输出端口;14个中断源可来自定时器A/B,时基,2个外部时钟源输入,键唤醒;具备触键唤醒的功能;使用凌阳音频编码SACM-S240方式(2.4kb/s),能容纳210秒的语音数据;锁相环PLL振荡器提供系统时钟信号;32768Hz实时时钟;7通道10位电压模-数转换器(ADC)和单通道声音模-数转换器;声音模-数转换器输入通道内置麦克风放大器和自动增益控制(AGC)功能;具备串行设备接口;具有低电压复位(LVR)功能和低电压监测(LVD)功能;内置在线仿真电路ICE(In- Circuit Emulator)接口;具有保密能力;具有WatchDog功能11。3.3 结构 SPCE061A的结构如图3.1所示:16位微控制器nSP+ICEFLASHRAM锁相环振荡器CPU时钟实时时钟低电压监测/低电压复位双16位定时器/计数器时基中断控制7通道10位ADC单通道ADC+AGC双通道10位ADC串行输入输出接口32管脚输入输出端口IOB0(SCK)IOB1(SDA)IOA15-0IOB15-0ICE_ENICE_SCKICE_SDAVcpXI/RXOMIC_INAUD1AUD2图3.1 SPCE061A结构图3.3.1 芯片的引脚排列和说明SPCE061A有两种封装片:一种为80个引脚,LQFP80封装,它的排列如图3.2所示;另一种为84个引脚,PLCC84封装形式,它的排列如图3.3所示。实物如图3.4所示。图3.2 SPCE061A LQFP80封装排列图图3.3 SPCE061A PLCC84封装排列图图3.4 SPCE061A PLCC84正反面实物图在PLCC84封装中,有15个空余脚,用户使用时这15个空余脚悬浮。在LQFP80封装中有9个空余脚,用户使用时这9个空余脚接地。表3.1以LQFP80封装管脚功能介绍。管脚名称管脚编号类型描述IOA15:846-39输入输出IOA15:8:双向IO端口IOA7:034-27输入输出IOA7:0:通过编程,可设置成唤醒脚IOA6:0:与ADC Line-in输入共用IOB15:11IOB10IOB9IOB8IOB7IOB6IOB5IOB4IOB3IOB2IOB1IOB050-545758596061626364656667输入输出输入输出输入输出输入输出输入输出输入输出输入输出输入输出输入输出输入输出输入输出IOB15:11:双向IO端口。IOB10-0除用做作普通的IO端口,还可作为:IOB10:通用异步串行数据发送管脚TxIOB9:TimerB 脉宽调制管脚BPWMOIOB8:TimerA 脉宽调制管脚APWMOIOB7:通用异步串行数据发送管脚RxIOB6:双向IO端口IOB5:外部中断源EXT2的反馈管脚IOB4:外部中断源EXT1的反馈管脚IOB3:外部中断源EXT2IOB2:外部中断源EXT1IOB1:串行接口的数据传送管脚IOB0:串行接口的时钟信号DAC112输出DAC1数据输出管脚DAC213输出DAC2数据输出管脚X3212输入32768Hz晶振输入管脚X3201输出32768Hz晶振输出管脚VCOIN70输入PLL的RC滤波器连接管脚AGC16输入AGC的控制管脚MICN19输入麦克风的负向输入管脚MICP21输入麦克风的正向输入管脚V2VREF14输出电压源2V产生5mA的驱动电流,可以做外部ADC的Line-in通道的最高参考输入电压,不可作为电压源使用MICOUT18输出麦克风1阶放大器输出管脚,管脚外接电阻决定AGC增益系数OPI17输入麦克风2阶放大器输入管脚VEXTREF23输入ADC Line-in通道的最高参考输入电压管脚VMIC25输出买克风电源VADREF22输出AD参考电压VDD5,69输入逻辑电源的正向电压VSS10,26,71输入逻辑电源和IO的参考地VDDIO37,38,56输入IO端口的正向电压管脚VSSIO35,36,48输入IO端口的参考地AVDD24输入模拟电路(A/D,D/A)正向电压AVSS15输入模拟电路(A/D,D/A)参考地-68输入低电平有效的复位管脚RESETSLEEP49输出睡眠模式(高电平激活)ICE7输入激活ICE(高电平激活)ICECLK8输入输出ICE串行接口时钟管脚ICESDA9输入ICE串行接口数据管脚TEST3输入测试模式时接高电平,正常模式接地ROMT47输入测试闪烁存储器,正常模式时悬浮N/C55输入正常使用时接地N/C4输入正常使用时接地N/C6输入正常使用时接地PFUSE,PVIN【1】20,11输入程序保密设定脚【1】可将PFUSE接5V, PVIN接GND并维持1s以上即可将内部保险丝熔化,此后就无法读取和向闪存加载数据。表3.1 LQFP80管脚描述表3.3.2 SPCE061A系统特性参数SPCE061A系统的特性参数如表3.2所示。特性参数说明工作电压(CPU)VDD为2.4-3.6V,(I/O)VDDH为2.4-5.5VCPU工作频率0.32-49.152MHz数据存储器(SRAM)2k Word SRAM程序存储器(ROM)32k Word FLASH RomI/O端口2组16位可编程输入/输出端口(IOA15-0,IOB15-0)中断14个中断源,FIQ和IRQ两个中断优先级,TimerA/B时基信号发生器,外部中断唤醒源IOA7-0,其他中断源定时器/计数器两组16位可编程定时器/计数器,双通道PWM输出模/数转换器7通道10位电压模/数转换器(ADC)和单通道10位声音模/数转换器(ADC)数/模转换器2个10位 DAC 输出通道UART1个全双工通用异步串行接口SIO1个同步串行设备接口节电功能具备弱振方式和睡眠方式WatchDog功能具备清除时间周期为0.75s的看门狗其它功能低电压复位、低电压监测、保密功能、上电复位、触键唤醒、中断控制、内置ICE接口等表3.2 系统特性参数表3.4 61板介绍SPCE061A精简开发板(简称61板),是以凌阳16位单片机SPCE061A为核心的精简开发-仿真实验板,作为单片机项目初期研发使用。3.4.1 61板的结构和功能61板除了具备单片机最小系统电路外,还包括电源电路、音频电路(含MIC输入部分和DAC音频输出部分)、复位电路等,采用电池供电,方便随身携带。61板上有调试器(PROBE)接口以及下载线(EZ_PROBE)接口,分别可接凌阳科技的在线调试器、简易下载线,配合nSP IDE,可方便地在板上实现程序的下载、在线仿真调试。图3.5是61板(V1.6版)的实物图。图3.5 61板实物图片61板的硬件结构框图如图3.6。图3.6 61板硬件结构框图上图中的各部分硬件说明如表3.3所示名称说明POWER5V和3.3V供电电路S4复位按键S5EZ_PROBE和PROBE切换的3pin排针EZ_PROBE下载线的5pin接口MIC麦克风输入电路VRTA/D转换外部参考电压输入接口K1-K3扩展的按键,接IOA0-IOA2PLL锁相环外部电路RESET复位电路PROBE在线调试器5pin接口J32pin喇叭插针OSC32768Hz晶振电路PORTA/B32个I/O口表3.3 61板各部分硬件说明61板的硬件电路大体上可分为SPCE061A最小系统、电源电路、音频电路、ICE 接口等模块,下面分别介绍61板的各部分电路。3.4.2 SPCE061A最小系统SPCE061A最小系统中,包括SPCE061A芯片及其外围的基本模块,其中外围的基本模块有:晶振输入模块(OSC)、锁相环外围电路(PLL)、复位电路(RESET)、指示灯(LED)等,如图3.7所示。图3.7 SPCE061A最小系统(1)电源电路图3.8是电源部分的电路,由电池盒提供的4.5V直流电压经过SPY0029后产生3.3V给整个系统供电。SPY0029是凌阳公司设计的电压调整IC,采用CMOS工艺,具有静态电流低、驱动能力强、线性调整出色等特点。图中的VDDH3为SPCE061A的I/O电平参考,如果该点接SPCE061A(PLCC84封装,下面的介绍中当出现SPCE061A的引脚描述时,均指此封装的芯片)的51脚,可使I/O输出高电平为3.3V;VDDP为PLL锁相环电源,接SPCE061A的7脚;VDD和VDDA分别为数字电源与模拟电源,分别接SPCE061A的15 脚和36脚;AVSS1是模拟地,接SPCE061A的24脚;VSS是数字地,接SPCE061A的38脚;AVSS2接音频输出电路的AVSS26。图3.8 电源电路图(2)音频电路音频电路由音频输出和音频输入两部分组成。图3.9是音频输出电路图。SPCE061A内置2路10位精度的DAC,只需要外接功放电路即可完成语音的播放。图中的SPY0030是凌阳的一款音频放大芯片,可以工作在2.4-6V范围内,最大输出功率可达700mW6。图3.9 音频输出电路SPCE061A芯片中已经集成了音频输入专用ADC以及AGC放大电路,因此芯片外部的电路比较简单,图3.10是61板的音频输入电路模块。图3.10 音频输入模块(3)ICE 接口电路SP
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 消防员工安全培训记录课件
- 消防后厨安全培训课件
- 消防冰面救援安全员培训课件
- 走进戏曲课件
- 走心的安全培训课件
- 资产管理安全培训内容课件
- 消毒柜安全使用培训课件
- 消毒供应室课件模板
- 质量安全培训记录评价表课件
- 质量体系运行课件
- 场景速写课件
- GPS的课件教学课件
- 2026年高考作文备考之抗日战争胜利80周年(九三阅兵)主题素材积累与运用
- 2025年运动员:体育与健康知识试题及答案
- 综合实践 探索年月日的秘密(教案)北师大版数学三年级上册
- 2025年医师三基考试试题及答案(上半年)
- 2025年调酒师职业资格考试模拟试题集锦及答案
- 2025年大学生信息素养大赛(校赛)培训考试题(附答案)
- 大连石化“3.14”亡人事故
- NFPA12-二氧化碳灭火系统标准(2005版)
- 单一分布聚乙二醇的合成及其应用-
评论
0/150
提交评论