DSP的嵌入式语音识别-开题报告.doc_第1页
DSP的嵌入式语音识别-开题报告.doc_第2页
DSP的嵌入式语音识别-开题报告.doc_第3页
DSP的嵌入式语音识别-开题报告.doc_第4页
DSP的嵌入式语音识别-开题报告.doc_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海工程技术大学毕业设计(毕业论文)开题报告学 院电子电气工程学院专 业电子信息工程班级学号学 生指导教师 题 目 基于DSP的嵌入式语音识别系统设计 基于DSP的嵌入式语音识别系统设计 开题报告1、 选题背景语言是人类相互沟通信息的重要工具。随着现代科学技术的发展,特别是语音通信和各类相关产品的普及,语音信号的数字化处理在越来越多的领域中发挥着至关重要的作用。所谓的语音技术,无非是一种集合:一种涵盖了识别、合成、检出关键词、口语对话系统的集合,而这个集合的核心无可厚非便是语音识别技术,特别是连续识别这门最初为了解决机器如何能够准确地解析人的语音内容的学科,正以一种不可思议的态势飞速发展,给“死板”的机器添上了一份“人性”。算法运算量大,处理快速高效(无论是实时或准实时)这些都是一个语音系统的基本要求,而DSP凭借着本身强劲的数据处理能力和高运行速度挑起大梁,充当起整个系统的“心脏”。它是一种特殊的微处理器,一种以数字信号来处理大量信息的器件,其工作原理:首先将接收模拟信号进行转换,转换为0或者1的数字信号,再对数字信号进行修改、删除及强化并在其他系统芯片中把数字数据解译回模拟数据或实际环境格式。具有可编程性的它,以每秒千万条复杂的令程序的实时运行速度,让那些通用的微处理器望尘莫及。二、研究课题的意义 本文实现的语音识别系统主要由硬件设备和相应的软件算法组成。在Matlab7.8平台上验证和改进了算法(如:预处理、端点检测、特征提取和模式匹配),然后用 C汇编语言结合混编的方式移植到DSP的开发平台CCS,最终在ICETEK-VC5416AE-S60实验箱上实现孤立词(0-9)的识别,而随着库内容的丰富,本系统将会越发接近当下最为热门的语音助手siri。3、 语音识别的研究概况1.国外语音识别技术的研究现状从1952年Bell实验室的Audry到2012年iphone的Siri。60年来语音识别这项技术一直都是计算机研究领域内的“香饽饽”,倍受 IBM、微软等IT巨头器重,相关研究成果也层出不穷。IBM作为语音识别技术的先驱,以它的 ViaVoice 软件为例:可以帮助人们通过麦克风用语音向字处理软件输入文字,无论是英语、意大利语、德语、法语、日语还是汉语等都照单全收。而微软新版的 Windows 操作系统 Vista,也配置了先进的语音识别软件。用户动口而不动手来完成通过语音和计算机交流(比如通过口来“书写”信件或电子邮件)。而这个功能对于那些“特殊群体”,带来的便利是不言而喻的。目前世界上最先进的语音识别软件叫做 Naturally Speaking,出自于Nuance Communications公司。Naturally Speaking已经得到了大多数用户的认可。对着麦克风说话,屏幕上就显示出说话的内容,很容易识别和纠正错误。久而久之,该软件会摸索出用户的“秉性”。当然,用户如果在说话过程中发现软件无法识别的,也相应地作出调整,这样一来,语音识别的正确率就会逐渐提高。2.国内语音识别技术的研究现状尽管我国语音识别研究工作起步较晚,但目前在该领域中国已占有了自己的一席之地。这一切都要归功于1987年的863计划,它大大缩短了从实验室逐步迈向应用层面的周期。而最作为世界上最有韵味、最美丽的语言汉语我们也有着近水楼台先得月的优势。“天语”中文语音系列产品Pattek ASR就是其中的佼佼者,它结束了中文语音识别产品自 1998 年以来一直由国外公司垄断的历史。 清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和 96.8%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到 96.9%(不定长数字串和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到 98.73%;并且可以识别普通话与四川话两种语言,达到实用要求。也许过不了多久,面貌焕然一新、同时蕴藏巨大商机的语音识别应用热潮,将会彻底改变人们的思维定势。四、语音识别所面临的挑战人们在识别道路上的不断努力只是为了有一天能够实现机器像人类一样能“听懂语言,与人类自然地沟通。但在实际应用中,由于系统的鲁棒性、灵活性和适应能力远达不到市场需求,导致了目前你很难在市场见到成熟的语音识别的相关产品。若想提高应用率就必须从普遍性和实用性这两大方面入手,具体可以以下的切入点:1同一发音信号的随机性变化 语音信号是非平稳信号,不但不同发音者发音之间存在重大差异,即使同一人在不同时间、地点、不同生理状态情况下发音也存在很大差异。2噪声问题 由于环境噪声广泛存在,具体的语音识别工作环境千差万别,容易造成训练与测试环境不匹配致使系统性能严重下降,因此提高语音识别系统的鲁棒性是关系这项技术能否走向实用阶段的关键。现有的语音识别系统只能工作在安静环境下。在噪声环境下工作,受噪声的干扰,讲话人产生情绪或心理的变化,导致发音失真、发音速度和音调改变,即发生 Lombard 效应或 Loud 效应。从 90 年代初期到现在,抗噪声语音识别技术已经成为语音识别领域的一个重要研究课题。3连续语音方面: 相比数字和英文连续识别,汉语有着自己味道,如何品出汉语的内涵?如何解决各音节之间相似度极高,不容易区分的现象?就需要从汉语韵律中寻的突破:试着考虑语言中重音、语调、声母和韵母等因素。4可移植性:如今,应用系统的设计、开发周期都很短,所以会频繁地移植系统,这个时候系统的性能会有重大退化,为了返回到它的“黄金岁月,就必须依据新项目来的要求改善训练方式,这样即费时又费力。所以可移植性的研究也就显得刻不容缓5词与词的特征空间混叠 语音识别的常规方法是利用语音信号的短时平稳特性将语音时域采样信号分为若干帧,计算出每一帧的相应特征矢量,从而得到该帧语音的一个特征矢量序列。但从这些矢量的空间分布来看,很多不同词语的矢量序列在特定空间存在混叠现象。克服这个问题的主要思路是,首先应当基本准确地找到该发音者发音的大致短时周期,并尽量使用合理的特征,同时充分利用特征序列的时序特征。五、方案论证系统总体设计方案图3.1 系统设计流程图特定人的孤立词语音识别系统的总体设计方案是:通过 Matlab 来进行软件算法的模拟仿真,通过对DSP实验箱底层文件的查阅和修该,用C语言将算法移植至CCS上,通过麦克风对发音人的语音信号进行采集完成语音信号的二值化,然后再由实验箱对语音信号进行模板识别并做出判断 1硬件设计方案一个高性能的语音识别系统,必须确保在合理的系统成本下,体现出实用、可靠和稳定。经过查阅语音识别相关硬件资料,综合本系统的功能要求,得出有以下三种主流方案:1)SPCE061A+FLASH SPCE061A是凌阳科技最新推出的高性能16位单片机,该系统电压低、工作频率高,能够快速处理数字信号,片内集成麦克风输入和双通道10位DAC音频输出,是单片机中最为适合用作语音识别的。该系统结构简单,功能齐全,而且配有相当丰富的语音处理函数库,系统开发简便、周期短,实用性较高。不过作为语音识别系统的核心处理器,由于SPC疲软的运算速度和系统扩展能力,这能限制于一些运算量较小的识别系统,而对于运算量较大或者对后期扩展有很高要求的就有心无力了。 2)ARMS3C2410+UDAl341TS S3C2410是三星公司开发的基于ARM9的一款处理器,片内集成IS控制器,配以最新LINUX26内核的操作系统作为软件平台。而UDAl341TS是由Philips公司提供的一款IS编解码芯片,价格便宜、高频(达48KHz)、3线控制,是较常用的全双工音频芯片。本系统接口灵活,LINUX系统更是可以按照硬件需求制定内核,为系统大幅“瘦身”、显得越发精简。据了解,最小的LINUX系统仅有150KB,适合应用于内部资源有限的嵌入式系统。 3)TMS320VC5416+TIV320AIC23 C5416是TI公司推出的低功耗16bit定点DSP芯片,内部采用哈佛结构,优化的结构设计、使其支持流水线操作、能够单指令周期内完成乘累加( MAC)运算、单周期内执行3个操作数指令,其运算速度可达100 MI/s (兆指令/秒) , 指令周期为10ns;VC5416片内的16K双访问RAM可以保证系统算法程序在片内实时运行、1 M的程序扩展空间可以保存算法处理的中间数据。此外,C5416具有丰富的片内外设,主要包括通用I/O引脚XF和/BIO、硬件定时器、软件可编程等待状态产生器、可编程块开关模块、增强型并行主机接口(HPI8/16)、两个多通道缓冲串口(MCBSP);带锁相环PLL的时钟发生器,DMA控制器,JTAG接口。在消费类电子行业,C5416以其处理能力强、功耗低、功能丰富、性价比高等优点得到广泛地应用。AIC23是TI公司推出的一款高性能的立体声音频Codec芯片。支持MIC和LINE IN两种输入方式。无论是对输还是输出都有可编程增益调节,它都有不俗的表现。此外考虑到音频领域的应用,芯片还内置了耳机输出放大器。该芯片高度集成了模拟电路功能,使用灵活, 其配置接口更是同时支持SPI 总线和IC 总线,至于数据传输格式则有右判断模式、左判断模式、IS 模式和DSP 模式4 种方式, 其中DSP模式是为TIDSP量身定做的此外,这两款芯片的I/O 电压兼容,从而使得C5416 与AIC23 可以无缝连接,简化系统设计。综上所述,考虑到系统的实用性、稳定性、可靠性、投入成本以及后期的优化升级,本文采用第三种方案。2 软件件设计方案所谓的语音识别在我看来其实就是让机器通过某种方式准确地解析出人所说的信息。而从不同的角度出发的语音识别所针对的群体、场合也有所不同。常见的语音信号分类为以下几种:1)从识别的说话方式来讲 有孤立词识别、连接词识别、连续语音识别等。孤立词识别是之说话人每次只说一个词或短语,每个词或短语在词汇表中都算作一个独立的词条。因此常用来实现简单的家用电器控制。例如:一个用语音进行家电控制的孤立词识别系统,可以识别用户发出的诸如“开”、“关”、“升温”等词条。连接词识别一般特指十个数字(09)连接而成的多位数字识别或有少数指令构成的连接词条的识别。连接词识别在电话、数据库查询以及控制操作系统中运用甚广。连续语音识别是指对说话人以日常自然的方式发音,通常指用于语音录入的听写机。显然无论从复杂度还是成本,连续语音识别都高人一等,所以它并不是所有应用的首选方式,试想在一个利用语音进行命令控制的操作系统中,命令词组简单而又固定,连续词识别除了给人“杀鸡焉用牛刀”的感觉别无其他。2)从识别的词汇量来讲有小词汇量(120)、中词汇量(201000)、大词汇量(1000)。随着词汇量的增大,对于系统的方方面面的要求也会越来越高。3)从说话人的范围来讲有特定人识别系统和非特定人两大类。特定人指只针对一个用户的语音进行识别,结构较为简单,能得到较高的识别率,但在使用前必须有特定人的用户输入大量的发音数据对其进行训练。相较而言非特定人则显得有些包罗万象,这种识别系统的通用性好、应用面广,但难度也较大,不易得到高识别率,它的实用化会有着客观的经济价值和深远的社会意义。而建立一个非特定的语音识系统必须要从大量的样本中提炼出每个人的发音速度、语音强度、发音方式等特征,并加以归纳,寻找中出不同语音的中的“相似”。综上所述:由于考虑到C5416的计算速度、存储空间等因素,本文旨在针对于小词汇量特定人的孤立词的语音进行识别。六、基本原理1. 系统基本流程:语音识别系统的典型实现方案如图1所示。输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、断点检测、预加重等。语音信号经过预处理后,接下来重要的一环便是对于特征参数的提取,其目的是从语音波形中提取出随时间变化的语音特征序列。然后建立声学模型,在识别的时候将输入的语音特征同声学模型进行比较,从而获得最佳的识别结果。 2.预处理2.1自增益控制和预滤波自动增益控制 AGC(Auto Gain Control)是限幅输出的一种,它利用线性放大和压缩放大的有效组合对输入的语音信号进行调整。当弱信号输入时,线性放大电路工作,保证输出信号的强度。当输入信号达到一定强度时,启动压缩放大电路,使输出幅度降低。也就是说,AGC 功能可以通过改变输入输出压缩比例自动控制增益的幅度。AGC 还可以细分为 AGC(输入自动增益控制)和 AGC(输出自动增益控制)。预滤波又称之为反滤波,是语音前端处理必须的,它的目的有两个:1) 由于输入模拟声音信号频域内的带宽是无穷的,由乃奎斯特准则需要抑制输入信号的各频域分量中超出采样频率一半的所有分量,以防止混叠干扰。2) 避免 50Hz 的电源干扰。系统上电后,会有一个固定的 50Hz 的电源干扰,这对于系统来讲是不需要的输入信号,因此预滤波是一个带通滤波器,其下截止频率大于等于50Hz,上截止频率根据需要来定义。考虑到绝大多数语音编译码的上限频率不大于 3400Hz,系统使用的采样频率为8000Hz。这样,预滤波器的带宽为下截止频率 100Hz,上截止频率 8000Hz,语音信号经过预滤波和采样后,由 A/D 变换器变换为二进制数字码。2.2 预加重为什么采取预加重?预加重是为了提升高频的“质量”。由于语音信号的平均功率受到声门激励和口鼻辐射的影响,超过800Hz 的高频段会以 6dB/倍频的态势呈现跌落,也就是说:频率越高所包含的成分就越小。因此,高频部分的频谱比低频部分更加难以分辨,为此需要在预处理中通过预加重这样一个手段来提升高频部分,使信号的频谱总体趋于平坦。这样处理可以使低频到高频的整个频带中都能用相同的信噪比来求频谱。而且预加重零点与辐射零点将抵消声门波的影响,使语音信号中只包括声道部分,以便于频谱分析。2.3 分帧与加窗从整体的角度来看,具有时变的特性的语音信号的确是千变万化,但庆幸的是在一个短时间范围内(10ms-30ms),其特性基本保持不变即相对地稳定,因而能进行“短时分析”处理:将语音划分成一个一个这样的小时段,这就叫分帧,而划分的小时段称为1帧。加窗则是分帧的一种实现手段:从时域来看,分帧等效于离散语音信号与窗宽为帧长的矩形窗相乘;而在频域,这等效于将语音信号的频谱与矩形窗的傅立叶变换卷积。加窗时,不同的窗口选择将影响语音信号的分析结果。选择窗函数主要考虑以下三点:窗函数的形状、窗函数长度和帧移的引入。加窗时,不同的窗口选择将影响语音信号的分析结果。选择窗函数主要考虑以下三点:1)窗函数形状:常用的窗函数有矩形窗和汉明窗。矩形窗为: 汉明窗为:式中N为窗口长度。尽管这两种窗都具备着低通的功能。但不同的窗函数形状将影响分帧后短时特征的特性。窗类型旁瓣峰值主瓣宽度最小阻带衰减矩形窗-13-21汉明窗-41-53矩形窗的主瓣宽度最小,旁瓣高度最高,会导致泄漏现象,而汉明窗的主瓣最宽,旁瓣高度最低,可以有效地避免,具有更平滑的低通特性,应用更广泛。2)窗函数长度窗函数的长度决定了语音分帧后每一帧的帧长是多少。如果窗口长度N过大,将导致每帧中的数据量过多,而使后续计算量过大,使分帧失去意义;但如果N过小,又会得不到较为完整平滑的频谱信息信息。从而把握住其中的分寸也就显得尤为重要了,本系统N取256。3)帧移的引入当窗函数平滑的在语音信号上滑动时,语音信号被切割成帧。只要是切割就会存在丢失,为了尽可能减少丢失的信息,我们一般会采用交叠分段使帧与帧之间平滑过渡,保持语音的连续。前一帧和后一帧之间存在固定的交叠部分,称为帧移(通常为帧长的1/2或1/3,本设计取1/3)。综合1,2,3分析,本文的分帧函数采用汉明窗,每帧语音信号取32ms(256个点),帧移为10ms,长度为80个采样点。图4.5为一帧语音信号加窗前后的波形变化。3语音信号端点检测 端点检测,主要用来检测语音识别中样本信号的起点和终点,因此,又被称为起止点检测。在语音信号处理中,语音信号的数据量非常庞大,如果对全部语音信号都加以处理,不仅增加系统处理器的负荷,还会影响系统的识别率。为了将有用的语音信号从系统采集的原始语音信号中提取出来,就准确地检测出语音段的起点与终点,从而去除语音信号中的无声段,尽可能减少了数字信号处理器的运算量和处理时间,提高系统的性能和识别率。一般在端点检测部分我们常常将短时能量分布和短时过零率这两个参数结合(双门限检测法)来进行检测。1) 短时能量分布是指语音数据各帧之间的能量分布,方程为: 2)过零就是指时域波形穿过坐标轴,表现在离散语音序列上就是相邻的采样值异号。单位时间内过零发生的次数称作短时过零率,定义如下所示:其中sgn x 是取符号函数,它和窗长度函数 w(n)的定义如下:4语音信号特征参数提取 经过语音预处理中端点检测后,已经将语音信号中清音、噪音区别出来,这时就可以对所需语音信号进行特征参数提取,在分析语音信号的同时去掉无用信息,这些信息又比较占空间,最后获得对识别算法有用的重要参数。在提取过程中,并不是很广泛的提取,毕竟语音识别系统的内存有限,为了减少处理器的运算量,提高识别率,要求所提取的特征参数能充分代表说话者的语音特征,与其他的说话者有很好的区分性,各个特征参数之间能相互独立。此外,为保证语音识别便于实现,所提取的特征参数应该便于计算。 语音信号的特征参数分为两种:时域特征参数,在一帧短时信号中由各个时域采样而直接组成一个参数矢量,如基音周期、短时平均能量等;频域特征参数则是在一帧短时信号经过了些变化后再组成的参数矢量,如Mel频率倒谱系数、LPC倒谱系数、短时频谱等 线性预测倒谱系数(LPCC)是基于人的发声机理原理,使系统的传递函数的形式和全极点数字滤波器达到一致,由于语音信号采样点之间具有相关性,从而现在某个时刻或将来的某个时刻的语音信号的抽样能够用之前的若干语音抽样的线性组合来估计。得到语音信号的实际采样值和线性预测采样值间的均方误差(MSE),令MSE最小可得到线性预测系数(LPC),最后求出线性预测倒谱系数(LPCC)。 MFCC是基于入耳听觉特征,将语音的产生与之相结合的一种特征参数。该特征参数充分考虑了人耳的听觉特性,接着将频谱转化成基于Mel频率的非线性频谱,最后转换到倒谱域上。线性预测倒谱系数(LPCC)参数的优点是计算量小,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声性能较差。而MFCC因为模拟了人的听觉特性,且没有任何前提假设。由于汉语孤立词的识别过程中对辅音需要有很高的分辨力,同时MFCC参数具有识别性能和抗噪能力。实验证明在数码语音识别中 MFCC 参数的性能明显优于LPCC 参数,因此本技术方案最终采用 MFCC 参数为语音特征参数。5模型训练与识别 语音识别的过程实质上就是模式匹配的过程,在模型训练匹配的过程中,先从已知模板中获得模型参数,再按照相似度量法则,将未知模式与参考模式库匹配而获得最佳匹配。目前较为常用的语音识别算法有 DTW 算法、HMM 算法和基于人工神经网络的算法。 动态时间规整(DTW)是较早流行的语音识别算法,它应用动态规整方法(DP),将时间规整与距离测度计算揉合起来,有效的解决了孤立词识别时语速不均所造成的发音长短不一的难题,是一种经典的非线性时间规整模板匹配算法。由于DTW算法简洁,计算简单,对于孤立词识别率高,所以,DTW被广泛运用于孤立词语音识别系统中。尽管DTW应用广泛,但是仍然存在一些不足之处,比如模板运算量大,因此需要将DTW进行改进。首先可以改进端点检测算法和DTW算法中模板匹配过程中弯折的斜率,可以有效的减少语音识别的时间,降低语音数据的储存量,提高系统运算效率。 隐马尔可夫模型(HMM)是在20世纪80年代初引进的一种算法。它实质上是一个双重随机过程,即该信号的语音特征由两个彼此关联的随机过程来一起描述,其中一个是不可观测的有限状态马尔可夫链,另一个是观察矢量的可观测的随机过程。在HMM算法中统计了大量的语音数据,然后分别建立起相应识别条的统计模型,从待识别语音中提取相关特征,通过与语音数据库模型匹配而得到结果。由于其语音数据库含有大量统计的语音,因此整个统计模型相当稳定同时也具有较高的识别性与抗噪性能。HMM算法数据量大,但性能好,背后有着强大的语音库支持,因此被广泛运用于连续词的语音识别系统。 人工神经网络(ANN)是20世纪80年代后期发展的一种新型算法,是现在语音识别应用中的研究的一个新方向。ANN实质上是一个大规模的自适应非线性动力学系统,运用大量处理单元来模拟人类神经元活动,最后将处理单位连接成一种信息处理系统。该信息处理系统既具有连续时间非线性动力学,较高的稳定性和较强的自学联想能力,又具有相互吸引性、广泛联接性与自适应性等特征。但在语音识别模式匹配中,ANN在反映语音动态特征存在较大的缺点,从而导致ANN很少能够单独的应用在语音识别当中,现阶段,多是将ANN与HMM算法配合使用。 考虑到 DSP 系统存储资源的有限性,系统采用了计算相对简单有效的 DTW 算法。六、时间安排第1周第2周 资料收集和消化,课题调研第3周第4周 译文翻译,方案论证,写开题报告第5周第6周 方案确定,系统硬件设计,画原理图第7周第10周 系统软件设计和调试第11周第13周 系统综合调试第14周第15周 完善系统、准备撰写论文第16周第18周 撰写论文,准备答辩7、 提交形式论文+MATLAB仿真系统+基于ICETEK-VC5416AE-S60的语音识别系统 八、参考文献1 郭春霞,裘雪红.基于MFCC的说话人识别系统J.电子科技,2005(11):53-562 赵力.语音信号处理M.北京:机械工业出版社,20033 蔡莲红,黄德智等.现代语音技术基础M.北京:清华大学出版社,20034 李攀,杨玮龙.基于DTW/SVM的语音识别系统在DSP中的实现J.电声技术, 2006(9):40-445 邓琛等.DSP芯片原理及工程应用M. 北京:清华大学出版社,20106 余华.基于TMS320C54XDSP的语音识别装置的研究与实践J.电气电子教学学报,2004(1):44-467 庞雄昌,等.语音识别及其定点DSP实现J.现代电子技术,2003(19):78-79

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论