一种嵌入式语音识别控制模块的设计与实现-图文

上传人：7*** IP属地：湖北上传时间：2022-12-19 格式：DOC 页数：11 大小：507.50KB 积分：20 举报 版权申诉

已阅读5页，还剩6页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第16卷第4期厦门理工学院学报Vo.l16No.42008年12月JournalofXiamenUniversityofTechnologyDec.2008[收稿日期]2008-10-04[修回日期]2008-11-19[基金项目]福建省教育厅科技项目(JA08219[(,男,,,.一种嵌入式语音识别控制模块的设计与实现徐敏1,邹莹2,魏洪兴2(1.厦门理工学院电子与电气工程系,福建厦门361024;2.北京航空航天大学机器人研究所,北京100191[摘要]在分析语音识别原理的基础上,结合机器人系统人机交互需求,提出了一种基于Linux应用平台、S3C2410X为处理器的低功耗、高性能的嵌入式语音识别控制模块,并分别从模块的硬件结构、软件流程进行分析和设计,通过硬件平台的搭建和软件程序的实现,达到了硬件设计简单、控制灵活、人机交互便捷的目的.[关键词]机器人;语音识别;嵌入式系统;隐式马尔可夫模式[中图分类号]TP391[文献标志码]A[文章编号]1008-3804(200804-0043-040引言随着计算机技术、模式识别等技术的发展,适应不同场合的语音识别系统相继被开发出来,语音识别及处理技术在计算机、信息处理、通信与电子系统、自动控制等领域的应用也越来越广泛.嵌入式语音识别技术已经发展到第二代,即以隐式马尔可夫模式识别方法为主要技术来实现对非特定语音的识别,这种技术的发展降低了识别计算复杂度,并提高了识别准确率[1].同时在语音识别技术的革新中,也带来了语音识别在机器人交互技术下一代的应用革新.在智能机器人功能中,语音识别是人机交互的重要组成部分之一,而在语音采样基础上的识别,是机器人传感器融合中的重要环节,它用以接收人声的控制命令和信息交互.在传统的语音识别应用中,多采用PC或DSP来实现,前者的目的是利用PC较强的处理速度来实现模拟定点运算,后者则是直接利用DSP的定点运算能力完成,但二者的功耗均较大,不适合应用于对功耗敏感的嵌入式计算场合.DSP处理器发展多年到今天已经品种繁多,如TI公司和ADI公司等几大阵营有多款优秀的DSP处理器芯片,但它们仍然没有能够有效降低功耗到消费电子的水平,使得使用高性能嵌入式处理器来模拟定点运算,成为了这类低功耗需求的主要实现策略.语音识别除要求高识别率外,还应考虑软硬件设计简单、价格低廉、可移植性好、外围控制灵活、人机交互便捷等特点.为此,本文利用高性能ARM处理器S3C2410X来运行语音识别引擎,设计了一种低功耗的嵌入式语音识别控制模块,并已在娱乐机器人、教育机器人中得到成功应用.1语音识别原理与功能分析11语音识别原理语音识别根据实际需要和应用场合的不同,可以分为孤立词识别和连续语音识别、特定人识别和非特定人识别.语音识别方法很多,如动态时间归整法(DynamicTimeWarping、隐式马尔可夫法(HiddenMarkovModels、人工神经网络法(ArtificialNervalNetwork等,隐式马尔可夫法对非特定人连续语音有很高的识别率,目前一般都采用基于隐式马尔可夫法的识别方法作为基本算法,采用模厦门理工学院学报2008年式匹配的原理来实现语音识别功能.语音识别原理如图1所示.预处理模块,对输入的原始语音信号进行处理,滤除掉其中不重要的信息以及背景噪声,并进行语音信号的端点检测、语音分帧以及预加重等处理.特征提取模块,负责计算语音的声学参数,并进行特征的计算,以便提取出反映信号特征的关键特征参数,以降低维数并便于后续处理.在训练阶段,用户输入若干次训练语音,系统经预处理和特征提取后得到特征矢量参数,建立或修改训练语音的参考模型库.在识别阶段,将输入的语音的特征矢量参数和参考模型库中的模型进行相似性度量比较,将相似度最高的模型所属的类别作为识别的中间候选结果输出.后处理模块,对候选识别结果继续处理,通过语言模型、词法、句法、和语义信息的约束,得到最终的识别结果[2-3].12功能分析机器人的语音识别功能模块作为一个可替换的独立单元,其功能较为静态、单一,人机交互的约束和逻辑确定,主要完成人与机器人模块之间的音频输入处理,音频数据采样,音频PCM数据处理,模式识别,进而推理出有限词条库中对应词条文本的过程.其中数据采样可以由专门的音频A/D来实现,音频PCM数据处理和模式识别及推理可以由高性能ARM处理器实现.另外,音频的播放则也可以使用音频D/A实现声音输出.为了实现上述处理和运算,这里使用了ARM处理器.S3C2410X是Samsung公司推出的一款低价位、低功耗、高性能的32位RISC嵌入式处理器,外围接口丰富,易于系统平台构建,具有内置4KSRAM,内置Flash控制器,LCD控制器,SD控制器,两个USBHOST,一个USBDEVICE,4个PWM定时器和一个内部定时器,看门狗定时器,117个通用I/O,56个中断源,24个外部中断,8通道10位ADC和触摸屏接口,4个带外部请求线的DMA等等,处理频率可以达到200MHz,而功耗极低,不需要散热片,适合低功耗的嵌入式语音识别控制[4].2模块硬件结构设计语音识别模块的硬件结构包括3个主要部分:核心系统部分,人机接口部分和调试接口部分如图2所示.4421核心系统部分这部分主要是实现了基本的系统核心功能,即ARM处理器所需要的最小系统.ARM系统的最小系统包括电源部分、处理器部分、复位电路、存储器部分等.由于S3C2410支持NandFlashBoo,t因此在核心系统设计中,模块采用了简洁的设计,使用32MSDRAM和64MNandFlash,利用NandFlash既充当启动存储介质又充当系统存储介质,其中SDRAM提供系统及应用程序运行的内存空间,NandFlash主要存放系统内核映像、系统库、文件系统和应用程序等.核心系统部分除了包含最小系统之外,还包含了音频编解码和放大部分.这里使用了集成芯片WM8731L和音频运算放大LMV358.其中WM8731L是Wolfson半导体公司生产的一款极高性价比的音频DA芯片,其音频接口使用标准IIS,并使用标准TTL的IIC接口进行采样控制,且带有AD输入采样保持和增益开关等,与各种处理器的接口非常方便.在设计中使用S3C2410的IIS接口和IIC接口直接连接WM8731L,保持了整个设计的简洁.另外,还使用了稳压芯片进行外部电源转换,以提供整个模块33V和18V电源的需要.22人机接口部分人机接口部分主要是与语音识别和基本交互密切相关的人机接口部分的电路和接插件等,如复位按钮,电源接口,电源开关等,是实现人机交互的必要部分.23调试接口部分调试接口部分主要是实现对系统进行调试的基本接口,该接口主要是对ARM系统的软件运行进行监视和交互,特别是在系统启动阶段,调试接口的使用较多.ARM系统运行的调试接口主要包含两部分,一部分是下载接口,用来下载系统Bootloader和内核映像,如JTAG、网络接口等,另一部分是监控接口,用于系统或应用程序运行加载的观测.调试接口部分只提供调试使用,而不保留在最终模块上.3模块实现与软件设计模块核心系统部分设计应用了Linux系统.在上述硬件系统上运行Linux2613系统内核,Linux2613包含了Alsa(AdvancedLinuxSoundArchitecture驱动工程,提供了音频AD/DAWM8731L的驱动程序.在音频数据输入输出采样的基础上编写应用程序,实现语音识别的实例:人与模块之间简单对话应答或命令操作.实现应答首先需要指定可选的答复词条以提供模式识别.在此基础上,应用包括3个部分:声卡初始化,语音识别引擎操作和识别结果功能处理.如图3所示.31声卡初始化调用voice_init(函数,初始化WM8731L并打开声音采集和增益,进行声卡初始化配置,之32语音引擎操作第二代语音识别技术可以实现非特定人无训练的识别,只需要提前预置要识别的词条,就可以得到模式识别匹配的结果,其识别准确率在90%以上.非特定人的连续语音识别引擎的工作流程如下:初始化引擎设置词条(开始识别返回识别结果停止,其中括号中内容为循环执行部分.程序的状态转换图如图3(a所示.初始化引擎:调用MSR_Init(void对语音识别引擎进行基本的初始化工作.设置词条:即向引擎状态机中加入词条组成的字符串,调用MSR_AddActiveWord(MSR_VOCABULARYHANDLEhVoc,char*word_inpu,tchar*word_name;其中参数hVoc为被识别词条对应的句柄,参数word_input注入预先需要识别的词条,word_name参数一般使用NULL.识别:在配置好上述词条后可以调用函数MSR_SetVocabularyToDecoder(MSR_VOCABULARYHANDLEhVoc使用该词条,运行MSR_Start(void启动识别引擎,在1s之内即可输出识别结果显示相应状态.停止:如需要停止运行识别引擎,调用MSR_Stop(void执行停止.按照上述流程把相应步骤封装为函数,其函数接口如表1所示.应用程序与识别引擎之间交互如图3(b.表1语音识别函数接口Tab1Functioninterfaceofthespeechrecognition接口功能通信模式intinitialize(初始化引擎请求/应答模式intsetItem(intid,Stringitem设置词条请求/应答模式voidstart(启动识别命令模式voidstop(停止识别命令模式SREvent返回识别结果id事件模式33识别结果功能处理在得到识别结果id后,执行相应的语音指令.若语音指令的行为效果为语音应答,则调用mplayer播放预先存储的wav文件,对应产生音频输出,实现人机对话.若语音指令为操作行为,则执行相应的控制命令.4结语通过对一种基于ARM处理器的高性能低功耗嵌入式语音识别控制模块的组成结构、硬件系统和软件流程进行分析和设计,达到了硬件设计简单、控制灵活、人机交互便捷的目的,而基于linux系统嵌入式应用平台和隐式马尔可夫模式识别方法,识别率高、可移植性好、扩展性强.控制模块在智能玩具、智能机器人等多个系统中得到应用(如图4所示,既可以单独使用,亦可作为模块嵌入到其它语音识别系统中应用.[参考文献][1]刘斌,杜利民.基于MPC5200的嵌入式非特定人连续语音识别系统[J].中国科学院研究生院学报,2006(3:174177.[2]邢东洋,杨明极.非特定人语音指令识别系统的研究与实现[J].哈尔滨理工大学学报,2008(4:7577.[3]赵力.语音信号处理[M].北京:机械工业出版社,2003.[4]王田苗,魏洪兴.嵌入式系统设计与实例开发[M].北京:清华大学出版社,2008.(第4期赵晶,等:基于DSP的光伏并网系统的设计33(6:6769.[7]华建军,沈艳霞,纪志成.基于PSIM断续导通模式的DC-DC变换器的建模和仿真研究[J].电机与控制学报,2007,11(5:522528.DesignofaGridconnectedPVSystemBasedonDSPZHAOJing1,LINGZhiqiang2(1.DepartmentofElectronicandElectricalEngineering,XiamenUniversityofTechnology,Xiamen361024,China;2.MywayLabsCo.Ltd.,Shanghai201203,ChinaAbstract:AphotovoltaicsystemintheplatformofDSPisintroducedinthispaperinwhichanewwayisappliedtotracethemaximumpowerpointbasedontheimprovedacceleratingsimplexmethodwithavoltagecontrolledfullbridgeinverter.Theonlinevariablestepcanalsoregulatethevoltageconvergencerate,andthephaselockedcontrolcircuitisdesignedtosynchronouslytracefrequencyandphaseofpowergridautomatically.TestdatashowthatthevariablestepMPPTalgorithmscombinedwiththeoptimizationtechnologycanquicklyandaccuratelytrackthemaximumpowerpointandthesmallerfluctuationsandthehigherstabilitycanthusbeachieved.Furthermore,theinvertercurrentandthepowervoltagefeedbacktothepowergridwiththesamefrequencyandthesamephasecaneffectivelyimprovetheefficiencyandreliabilityofinvertersystem.Keywords:DSP;gridconnectedPVsystem;modifiedacceleratingsimplexmethod;variablestep;phaselockedcontrol(上接第46页DesignandImplementationofanEmbeddedSpeechRecognitionControlModuleXUMin1,ZOUYing2,WEIHongxing2(1.DepartmentofElectronicandElectricalEngineering,XiamenUniversityofTechnology,Xiamen361024,China;2.R

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

一种嵌入式语音识别控制模块的设计与实现-图文

文档简介

温馨提示

最新文档

评论

一种嵌入式语音识别控制模块的设计与实现-图文

文档简介

温馨提示

最新文档

评论

相关文档