(信号与信息处理专业论文)基于tms320c5409的语音识别系统.pdf_第1页
(信号与信息处理专业论文)基于tms320c5409的语音识别系统.pdf_第2页
(信号与信息处理专业论文)基于tms320c5409的语音识别系统.pdf_第3页
(信号与信息处理专业论文)基于tms320c5409的语音识别系统.pdf_第4页
(信号与信息处理专业论文)基于tms320c5409的语音识别系统.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(信号与信息处理专业论文)基于tms320c5409的语音识别系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理i :人学硕十研究生学何论文 基于t m s 3 2 0 c 5 4 0 9 的语音识别系统 摘要 随着语音识别技术的深入发展,在语音识别领域已经有许多成熟算法 并且有了成功的应用实例。随着d s p 技术的飞速发展,其系统功能、数据 处理能力以及与外部设备通信功能地不断增强,采用d s p 实时实现语音识 别系统已经成为可能。本文介绍了以1 m s 3 2 0 c 5 4 0 9d s p 为核心的小词汇 量实时语音识别系统的设计与实现。 由于d s p 的运算速度和存储空间都是有限的,所以在d s p 上实现语音 识别系统,除了在硬件设计上,更多的工作在算法选择和软件编程上。文 中重点介绍了系统的软件设计过程,给出了程序流程图,并对编程时的注 意事项进行了说明。针对汉语数字语音及t m s 3 2 0 c 5 4 0 9d s p 的特点,系 统采用常用的能量和过零率相结合的方法进行端点检测,分别采用了三种 语音识别特征参数l p c 倒谱系数、m e l 频率倒谱系数( m f c c ) 和过零峰值 幅度( z c p a ) 。在语音识别的后端中选用r b f 神经网络进行识别。 模糊信息理论是一种基于模糊集理论的信息科学,是指导工程实践的一 个有普遍意义的强有力工具。本文将模糊理论引入r b f 神经网络对其进行 了改进。常规r b f 神经网络的隐层一般采用高斯函数,然而任意输入对于 中心点的隶属程度并不总是服从高斯分布,本文用任意输入模式与各类中 心的隶属度来替代原有的径向基函数的输出。实验结果表明识别率得到了 提高。 太原理j :人学硕十研究生学位论文 系统算法由c 和汇编语言编写,并在t m s 3 2 0 c 5 4 0 9 板上对语音识别算 法进行了调试和实验。系统选用汉语数字孤立词为识别对象,识别结果通 过异步通信串口送到p c 上实时显示。实验结果证明了系统的有效性。 关键词:d s p ,语音识别,r b f ,特征提取,模糊 i i 太原理i :人学硕十研究生学位论文 s p e e c hr e c o g n i t i o ns y s t e mb a s e do n t m $ 3 2 0 c 5 4 0 9 a b s t r a c t w i t ht h ed e v e l o p m e n to fs p e e c hr e c o g n i t i o nt e c h n o l o g y , t h e r ea r em a n y a l g o r i t h m si nt h ef i l e do fs p e e c hr e c o g n i t i o na n ds u c c e s s f u la p p l i e di ne x a m p l e s w i t ht h ed e v e l o p m e n to fd s p , i t ss y s t e mf u n c t i o n ,d a t ap r o c e s s i n ga b i l i t ya n d c o r r e s p o n dw i t ht h ee x t e r i o re q u i p m e n t st os t r e n g t h e nc o n t i n u o u s l y , r e a lt i m e s p e e c hr e c o g n i t i o ns y s t e mc a nb er e a l i z e db yd s et h i sp a p e ri n t r o d u c e s d e s i g n i n ga n dr e a l i z i n go fa r e a lt i m es p e e c hr e c o g n i t i o ns y s t e mb a s e do nt h e c o r eo f t m $ 3 2 0 c 5 4 0 9d s p b e c a u s et h ed s po p e r a t i o ns p e e da n dm e m o r ya r el i m i t e d ,s or e a l i z e s p e e c hr e c o g n i t i o ns y s t e mo nd s p , i na d d i t i o nt od e s i g n i n gt h eh a r d w a r e ,m o r e w o r k so nt h ec h o o s eo fa l g o r i t h ma n ds o f t w a r ep r o g r a m t h i st e x ti n t r o d u c e s t h es o f t w a r ed e s i g np r o c e s so ft h es y e t e m ,p r e s e n t sp r o g r a mf l o wd i a g r a m ,a n d e x p l a i n sp r o g r a mr e g u l a t i o n t h r o u g hs t u d y i n gt h ep e c u l i a r i t y o ft h ec h i n e s e a n dt m s 3 2 0 c 5 4 0 9 d s p , s p e e c he n d p o i n t d e t e c t i o no ft h e a v e r a g e i n s t a n t a n e o u se n e r g ya n dt h ea v e r a g ei n s t a n t a n e o u sz e r oc r o s s i n gr a t e ,l i n e a r p r e d i c t i o nc e p s t r u mc o e f f i c i e n t ,m e lf r e q u e n c yc e p s t r u mc o e f f i c i e n ta n d z e r o c r o s s i n g sw i t hp e a ka m p l i t u d e sa r eu s e di n t h es y s t e m r a d i a lb a s i s f u n c t i o nn e u r a ln e t w o r ki su s e di nt h eb a c k e n do f s y s t e m f u z z yi n f o r m a t i o nt h e o r i e si sak i n do fi n f o r m a t i o ns c i e n c eb a s e do nt h e i l l 太原理1 一大学硕十研究生学位论文 t h e o r i e so ff u z z ys e t i ti sap o w e rt o o lt ol e a de n g i n e e rp r a c t i c e f u z z yt h e o r i e s a r ei n t r o d u c e dt or a d i a lb a s i sf u n c t i o nn e u r a ln e t w o r ki nt h ep a p e r t h eh i d d e n l a y e ro f n o r m a lr b fa d o p t sg a u s sf u n c t i o ng e n e r a l l y , h o w e v e rt h es u b o r d i n a t e o fi n p u t st ot h ec e n t r a lp o i n ti sn o ta l w a y st h ed i s t r i b u t eo fg a u s sf u n c t i o n t h i s t e x tu s e st h es u b o r d i n a t eo fi n p u t st ot h ec e n t r a lp o i n tt op l a c et h eo u t p u to f r a d i a lb a s i sf u n c t i o n t h ee x p e r i m e n tr e s u l t ss h o wt h er a t e so fr e c o g n i t i o na r e i n c r e a s e d a l la l g o r i t h m sa r er e a l i z e do nt h es o f t w a r eca n da s s e m b l yl a n g u a g ei n t h e s y s t e m t h o s ea l g o r i t h m sa r e c a r r i e do nt h eb o a r do f t m s 3 2 0 c 5 4 0 9 v a l i d i t y i sp r o v e db yr e a lt i m er e c o g n i t i o ne x p e r i m e n to fc h i n e s ed i g i ti s o l a t e dw o r d s t h ee x p e r i m e n tr e s u l t sa r es e n tt op ct h r o u g ha s y n c h r o n o u sc o r r e s p o n ds e r i a l p o r t k e yw o r d s :d s p ,s p e e c hr e c o g n i t i o n ,r b f ,f e a t u r ee x t r a c t i o n ,f u z z y 声明 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体,均己在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名: 驾釜熊 日期:丝翌 :兰兰兰 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定,其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;学校可以学术交流为目的。 复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内 容( 保密学位论文在解密后遵守此规定) 。 签名: 圄兰毯 日期: ! 塑) :l :! i ,r i 、。4 一j ; 导师签名:主羔,型日期: 太原理i :人学硕十研究生学何论文 第一章绪论 语音t 别是目自口语音信号处理研究领域的热点问题,它的目的是让机器通过识别和 理解过程将语音信号转交成相应的模型参数。语音识别是门交叉学科,它与语音学、 语言学、数字信号处理、模式识别、计算机科学等众多学科紧密相连,是- 1 7 既有理论 价值又有实际意义的学科。语音识别f 逐步成为信息技术中人机接口的关键技术,语音 识别技术的应用已经成为一个具有竞争性的新型高技术产业。 随着信号处理技术、模式识别及计算机技术等的发展,使得满足各种需求的语音识 别系统的实现成为可能。近年来,语音识别在计算机、信息处理,通信、自动控制等领 域得到广泛的应用。相信未来语音识别将发挥着更大的作用,为人类带来便利。 1 1 语音识别概述 1 1 1 语音识别的发展现状 语音识别的研究工作可以追溯到2 d 世纪5 0 年代a t t 贝尔实验室的a u d r y 系统。 它是第一个可以识别十个英文数字的语音识别系统。主要方法是通过滤波器组提取语音 信号的谱信息,然后用模式匹配的方法进行识别】。 2 0 世纪6 0 年代,计算机的应用推动了语音识别的发展。这个时期的重要成果是提 出了动态规划( d p ) 和线性预测分析技术( l p ) ,其中后者较好地解决了语音信号产生模型 的问题,对语音识别的发展产生了深远影响。 2 0 世纪7 0 年代,语音识别领域取得了突破。在理论上,线性预测技术得到进一步 发展,动态时间规整技术( d t v ) 基本成熟,特别是提出了矢量量化( v q ) ;f t l 隐马尔可夫模 型( h m m ) y t 犟论。在实践上,实现了基于线性预测倒谱和d t w 技术的特定入孤立词语音 识别系统,有效解决了语音的特征提取和时间不等长匹配问题。 2 0 世纪8 0 年代末,随着实验室语音识别研究的巨大突破,计算机技术、软件技术 和存储技术突飞猛进地发展,语音技术的商业应用丌始掀起浪潮。很多专家都认为语音 太原理j :人学硕+ 研究生学位论文 识别技术是2 0 0 0 年至2 0 1 0 年问信息技术十大重要的科技发展技术之一。首先是声学建 模的方式由基于模板的方法全面向统计建模的转变,其次是h m m ( h i d d e nm a r k o v m o d e l ) 和人工神经元网络( a n n ,a a r t i f i c i a ln e u r a ln e t w o r k ) 在语音识别中得到了成功应 用。 语音识别技术在9 0 年代从实验室走向实用,许多发达国家如美国、日本、韩国以 及i b m ,a p p l e ,a t & t n t t 等著名公司都为语音识别系统的实用化丌发研究投以巨资。 虽然到目前为止语音产品尚不成熟,但还是有很多产品投入市场。特别是i b m 推出的 v i a v o i c e 语音系统。i b m 公司的汉语v i a v o i c e 语音识别系统,带有一个3 2 ,0 0 0 词的基 本词汇表,可以扩展到6 5 ,0 0 0 词,平均识别率可以达到9 5 ,其9 8 版本可以识别上海 话、广东话和四川话等地方口音,是目前具有代表性的汉语连续语音识别系统。 s p e e c h w o r k s 公司代表产品为s p e e c h w o r k 6 ,利用陔产品,用户可以通过电话用自然语 言与系统进行交互,进行旅游预约、股票交易、银行服务、订票服务、宾馆服务和寻呼 服务等,系统是自动的,无需服务人员的介入。i n f o p h o n e 是t i 基于o m a p 5 9 1 0 双核 嵌入式架构开发的专门用于无线领域一个应用程序。它提供了三种基于语音的信息服务 原型,如为用户提供股票报价、航班信息和天气预报。 国内在语音识别方面也获得了很快地发展。近十几年来,我国的语音识别研究也向 大词汇量、非特定人、连续语音方面发展,并把大词汇量语音识别的研究纳入“8 6 3 ” 计划。中科院声学所、自动化所及清华大学等单位研究丌发,已经取得了高水平的科研 成果,如中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统, 其字准确率或系统响应率可达9 0 以上:清华大学电子工程系语音技术与专用芯片设 计课题组,研发的5 0 0 0 词邮包校核非特定人连续语音识别系统的识别率达到9 8 7 3 , 前三选识别率达9 9 9 6 ;并且可以识别普通话与四川话两种语言,达到实用要求。 其结果和i b m 语音识别系统水平相当。中科信利丌发的语音手机通是基于中科信利嵌 入式语音识别引擎和嵌入式语音合成引擎,专门针对高端手机( 比如p d a 手机、 s m a r t p h o n e 等) ,使用该产品,只需直接说出要查询的人的名字,其资料将会自动显示 出来,然后可根据语音提示的指令进行拨号操作。在一般环境下,识别正确率9 5 以 太原理l 人学硕+ 乜玎究生学付论文 上。这些成果表明我国的语音以别研究己接近国际水平。 1 1 2 语音识别系统的分类 语音识别系统根掘不的分类准则可以有多种分类方式【2 】: 1 从说话人说话方式来分,可以分为孤立词语音识别系统、连接词字语音识别系统 以及连续语音识别系统。孤立词识别系统要求说话人每次只说一个字( 词) 、一个词组或 一条命令让识别系统识别,其中的词组或命令在词汇表中算是一个独立词条。连接词识 别一般特指是多个数字( o 9 ) 连接成的多位数字串识别或由少数指令构成的连接词条的 识别,其系统在电话、数据库查询以及控制操作系统中用途很广。连续语音识别技术是 语音识别研究及实用系统的主流。 2 根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语 音识别系统。一般小词汇量系统是指能识别l - - - 2 0 个词汇的系统;中等词汇量指2 0 1 0 0 0 个词汇:大词汇量指1 0 0 0 个以上的词汇。一般要识别的词汇量越多。所用的识别单元 应选的越来越小,才是可行的。 3 根据对说话人的依赖程度,可以分为特定人和非特定人语音识别系统。特定人的 语音识别较简单,识别率较高,但使用前必须由特定用户输入大量的发音数据进行训练。 非特定人识别通用性好、应用面广、有很高的经济价值,但难度也较大,不容易得到高 的识别率。 1 2 模糊技术在语音识别中的应用 自从1 9 6 5 年z a d e h 创建模糊集理论以来,模糊集理论获得了很大地发展。模糊集 将普通集合的特征函数灵活化,使元素对集合的从属程度由只能取 o ,l 中的值扩充到 【0 ,l 】中的任何值。一个元素和一个集合的关系,不一定是绝对的属于或不属于,两是 要考虑元素隶属于集合的程度是多少。所以模糊集合是经典集合的推广,把精确的数学 语言引入了模糊现象的禁区。 基于模糊集理论的模糊聚类分析,近年来研究较多,并且已经在语音识别、气象预 报、环境保护等领域得到应用。尤其是将模糊聚类分析与r b f 神经网络结合起来进行 太原理1 人学硕十研究生学何论文 语音识别越来越多的受到人们的关注。将模糊聚类对相近样本信息的聚类能力以及r b f 神经网络的局部逼近能力和泛化能力进行结合,不但使神经网络具有自学习和自适应能 力,而且能够处理带模糊性的信息,是一种更先进的方法。 1 3d s p 及其系统设计概述 1 3 1d s p 芯片概述 d s p ,也就是数字信号处理器,是一种具有特殊结构的微处理器。它强调运算处理 的实时性,因此除了具备普通微处理器的高速运算和控制功能外,d s p 芯片一般还具有 以下特点4 1 : ( 1 ) d s p 芯片采用了程序总线和数据总线分离的哈佛结构,因此比传统处理器的冯 诺依曼结构具有更高的指令执行速度。 ( 2 ) d s p 芯片采用流水技术,即每条指令都有片内多个功能单元分别完成取指、译 码、取数和执行等多个步骤,从而在不提高时钟频率的条件下减少指令的执行时间。 ( 3 ) 具有在单周期内操作的多个硬件地址产生器。 ( 4 ) d s p 芯片带有d m a 通道控制器和串行通信口等,配合片内总线结构,数据块 的传送速度会大大提高。 ( 5 ) 配有中断处理器和定时控制器,可以方便地构成一个小规模系统。 ( 6 ) 具有软、硬件等待功能,能与各种存取速度的存储器接口。 ( 7 ) 针对滤波、相关和矩阵运算需要大量乘法累加运算的特点,d s p 芯片配有独立 的乘法器和加法器,使得在同一时钟周期内可以完成乘、累加两个运算。 ( 8 ) 低功耗,d s p 芯片一般为0 5 4 w ,而采用低功耗的d s p 芯片只有o 1 w ,- - i n 电池供电。 正是基于d s p 芯片的这些优势,使其运算速度要比通用微处理器高。自1 9 8 5 年第 一片数字信号处理器t m s 3 2 0 c 1 0 产生以来,d s p 发展大致经历了多个阶段,形成了目 前d s p 产品的三个档次【5 】:最早是以t m s 3 2 0 c 1 0 c 2 x 为代表的1 6 b i t 定点d s p ,之后 4 太原理i 人学硕十研究生学付论文 推出的t m s 3 2 0 c 2 x c 5 4 x ,目d i 这类d s p 产品仍在广泛使用;2 0 世纪8 0 年代推出了 3 2 b i t 浮点d s p ,目 刖弋& 产【f 何a d s p 2 1 0 2 0 、t m s 3 2 0 c 3 x 等型号;最近儿年推出了 性能更高的并行d s p 和超高性能d s p ,如a d s p 2 1 0 6 x 、t m s 3 2 0 c 4 x 和t m s 3 2 0 c 6 7 x 、 a d s p 2 1 】6 0 等型号。 不同类型的d s p 适合于不同场合。定点d s p 可以胜任大多数数字信号处理场合, 但在某些场合,如雷达、声纳信号处理中,数据的动态范围很大,按定点处理会发生数 据的溢出,严重时处理无法运行。如果用移位定标或用定点模拟浮点算法,程序执行速 度将大大降低。浮点d s p 的出现解决了这些问题,大大拓展了数据的动态范围,常见 的1 6 b i t 定点d s p 动态范围仅9 6 d b ,每增加l b i t ,动态范围只增加6 d b ,而3 2 b i t 浮点 数据的动态范围为1 5 3 6 d b ,动态范围越大,则处理结果溢出的可能性减少,处理精度 也越高。 随着d s p 性能的迅速提高和成本价格的大幅度下降,侵其在信号处理、军事及民 用电子技术领域发挥着越来越重要的作用,其应用广度和深度正在不断地扩展和深化。 1 3 20 s p 系统概述 典型的d s p 系统如图1 - 1 所示。图中的输入信号可有多种形式,如语音信号、传 真信号、也可以是视频或传感器的输出信号。抗混叠滤波器主要将高于某一频率的分量 滤掉。平滑滤波滤去不需要的高频分量,得到平滑连续的模拟信号。用d s p 芯片和其 上运行的实时处理软件对a d 转换后的数字信号按照一定的算法进行处理,然后将处 理后的信号输出给d a 转换器,经d a 转换、内插和平滑滤波后得到连续的模拟信号。 喀曰母日酽 图1 - 1 典型的d s p 系统 f i g u r e l 一1t h ec l a s s i c a ld s ps y s t e m d s p 是整个处理系统的核心,所以设计d s p 系统首先应根据系统的性能指标,选 择合适的d s p 芯片。一般参照以下准则来选择【4 】【5 1 : 太原理i :人学硕十研究生学位论文 1 d s p 芯片的运算速度 运算速度是d s p 芯片的一个重要的性能指标,也是选择d s p 芯片时所要考虑的一 个主要因素。d s p 芯片的运算速度可以用四种性能指标来衡量:指令周期:即执行 条指令所需的时间;m a c 时间:即次乘法加上一次加法的时日j ;f f t 执行时 间:即运行一个n 点f f t 程序所需的时间;m i p s :即每秒执行百万条指令。 2 d s p 芯片的价格 根据实际系统的应用情况,选择价格适中的d s p 芯片。 3 d s p 芯片的硬件资源 不同的d s p 芯片所提供的硬件资源是不相同的,可以适应不同的需要。 4 d s p 芯片的运算精度 运算精度由d s p 的数字字宽和定点浮点数据格式决定。3 2 b i t 浮点d s p 基本上可 以满足所有运算精度要求,而定点d s p 就有局限性。 5 d s p 芯片的开发工具 在d s p 系统的开发工程中开发工具是必不可少的,在选择d s p 芯片的同时必须注 意其开发工具的支持情况,包括软件和硬件的开发工具。 6 d s p 芯片的功耗 在某些d s p 应用场合,功耗也是一个需要特别注意的问题。如便携式的d s p 设备、 手持设备等对功耗有特殊的要求。 7 其它 除了上述因素外,选择d s p 芯片还应考虑到封装的形式、质量标准、供货情况等。 1 3 3 软硬件设计 当d s p 型号选定后,就可以开始对d s p 系统进行设计了。一般d s p 的设计流程如 图1 2 所示。d s p 系统的设计包括软件和硬件两部分【6 1 。软件是将包括信号处理算法的 程序用d s p 的汇编语言或通用的高级语言( 一般是c 语言) 编写出来并进行调试。这些 程序要在d s p 片内或外部存储器中运行。在程序工作时,d s p 会执行与d s p 外围设备 传递数据或互相控制的指令,因此d s p 的软件和硬件设计调试是密切相关的。 6 太原理f 。人学硕十研究生学付论文 根据要求确定系统性能 r 标l t 确定d s p 芯片及外吲一匕片l ii 软件编程il 硬件设计j ll 软件调试jl 硬件调试l li 系统集成与调试 图1 2d s p 系统的设计流程图 f i g u r e1 2d e s i g nd i a g r a mo fd s ps y s t e m 1 软件设计 软件设计分以下三个阶段: ( 1 ) 用汇编语言或c 语言编写程序,再用d s p 软件包中的汇编器等生成可执行的代 码。 ( 2 ) 用p c 机上的d s p 软件模拟器( s i m u l a t o r ) 调试和验证程序及算法的功能。这时, d s p 不能从外部得到实际数据。模拟器可以观察到d s p 内部所有控制状态寄存器和片 内外存储器内容,也可以对这些内容进行修改,即可以单步运行每条指令,也可设置 断点,同时可以统计出各段程序的执行时间。 ( 3 ) 通过p c 机以及d s p 的仿真器和连接电缆在实际的电路板上在线运行。仿真器 ( e m u l a t o r ) 的软件界面及调试方法和模拟器一样,但由于它是直接对d s p 电路的调试, 因此d s p 的运行效果更加真实。使用仿真器时,同样可以单步调试或让d s p 全速运行。 2 硬件设计 硬件的设计一般包括下面几步【7 】= ( 1 ) 设计硬件实现方案 所谓设计硬件实现方案就是指根据性能指标、工期、成本等,确定最优硬件实现方 案,并画出其硬件系统框图。 7 太原理f 。人学硕十研究生学何论文 ( 2 ) 器件的选型 一般系统中常用e p r o m f l a s h 、r a m 、a d 、d a 、同步异步接口、电源模块、 总线等部件。上述部件的选择可能互相影响,同时,在选型时还必须考虑到技术支持、 供货能力、性价比等因素。 ( 3 ) 原理图设计 随着大规模集成芯片和可编程逻辑芯片的发展,使硬件原理设计难度下降,但它依 然是d s p 系统中关键的一步。原理图设计的成功与否是d s p 系统能否萨常工作的最重 要的一个因素。 ( 4 ) p c b 设计 p c b 图的设计要求d s p 系统的设计人员既要熟悉系统的工作原理,还要清楚布线 工艺和系统结构设计。 ( 5 ) 硬件调试 硬件调试一般采用硬件仿真器进行。 软硬件联调满足要求后,还需要将程序固化到系统中。即利用d s p 厂家提供的软 件包将程序写入到d s p 板上的e p r o m f l a s h 中。d s p 电路板即可以脱离仿真器独立运 行了。 1 4 研究内容与章节安排 l 在绪论中,主要介绍语音识别的应用、分类、发展现状和d s p 芯片及其系统设计 的概述。 2 第二章介绍语音识别系统的基本原理。从一个典型的语音识别系统出发,介绍语 音识别的基本原理,并简单介绍预处理、特征提取、模式匹配及模型训i 练技术各部分的 主要实现方法。 3 第三章介绍语音识别系统。详细介绍系统的硬件结构,对处理器模块、编解码模 块、存储器模块、异步通信模块、电源模块及其功能分别进行阐述。介绍了d s p 的软 件开发环境c c s 及编程语言,并给出系统的主流程图。 r 太原理i 。人学硕十研究生学付论文 4 第四章介绍系统的语音以别算法。分别介绍系统所用的端点检测、特征提取、识 别嘲络算法的原理及具体实现。系统算法由c 和 厂编语言编写,并在t m s 3 2 0 c 5 4 0 9 板 上对语音识别算法进行了调试和实验。 5 第五章总结与展望。总结论文,并提出了论文下一步的工作以及语音识别系统的 发展方向。 9 太原理:人学硕十研究生学位论文 2 1 引言 第二章语音识别系统的基本原理 型砸寸磷- 掣删躲 识别l _ 叫模式匹配r _ 斗 1 0 太原理1 :人学硕十研究生学何论文 考模式库中的模式进行相似度比较,将相似度最高的模式所属的类别作为语音识别结果 的输出。 语音识别系统主要包括预处理、特铀:提耿、模式匹配准则及模型训练三个方面。此 外,还涉及到语音识别单元的选取。而对于一个特定人、小词汇、孤立词语音识别系统, 主要考虑以下三项关键技术: 2 2 预处理 在信号处理系统罩,对原始信号进行预处理是必要的,这样可以保证系统获得一个 比较理想的处理对象。在语音识别系统中。语音信号的预处理包括预滤波、预加重、加 窗分帧和端点检测。 1 预滤波 预滤波的目的有两个:( 1 ) 抑制高频部分,以防止混叠干扰。( 2 ) 抑制5 0 h z 的电源干 扰。预滤波器是个带通滤波器,其上截频率为3 4 0 0 h z ,下截频率为6 0 h z 。 2 预加重 由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在8 0 0 h z 以 上按6 d b 倍频跌落,所以求语音信号频谱时,频率越高响应的成分越小,高频部分的 频谱比低频部分难求,为此要在预处理中迸行预加重。预加重的目的是提升高频部分, 使信号变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频 谱分析或声道参数分析【9 】。将数字化的语音信号s ( n ) 通过一个低阶数字系统( 一般是一个 一阶f i r 滤波器) 。本系统的预加重器采用应用最广的一阶系统,其传递函数如下: h ( z ) = l 一( 配_ 1 0 9 口l ( 2 一1 ) 3 加窗分帧 一般每秒的帧数约为3 3 1 0 0 帧,使实际情况而定。分帧可以采用连续分段的方法, 但一般采用交叠分段的方法,这是为了使帧与帧之徊j 平滑过渡,保持其连续性。前一帧 和后一帧的交叠部分称为帧移。帧移与帧长的比值一般为0 1 2 。分帧使用可移动的有 太原理r 人学硕十研究生学位论文 限长度窗口实现的。常用的窗函数有矩形窗,哈明窗等,它们的函数公式如下: 矩形窗: w = 托。嚣肛1 陋z , 哈明窗: w = r 。0 4 2 删一1。妻薯肛1 , 窗函数w ( n ) 的选择( 形状和长度) ,对于短时分析参数的特性影响很大,为此应选择 合适的窗口,使其短时参数更好地反映语音信号的特性变化。在实际的应用中,由于汉 明窗的频率特性更加适合语音信号的分析,所以一般采用哈明窗对语音信号进行加权。 4 端点检测 端点检测是进行语音识别系统重要而且关键的一步。端点检测的目的就是从复杂应 用环境下的信号流中分辨出语音信号和非语音信号,并确定语音信号的开始及结束点。 端点检测的好坏将直接影响系统的识别率。只有准确地判断出语音信号的端点,爿能正 确地进行语音识别。一般的信号流都存在一定的背景噪声,准确地从背景噪声中检测出 语音信号的起始点和终止点,可以减少采集的数据量,删除不含语音成分的背景噪声, 从而可以大大降低语音识别处理中的计算量和处理时问,提高识别的准确性,从而达到 节省系统资源,方便实时分析的效果。有效的端点检测不仅能使处理时间减到最小,而 且能排除无声段的噪声干扰,使语音识别系统具有良好的性能。 2 3 特征提取 原始语音信号不能直接用于模板训练和模式匹配,这是因为:原始语音信号数据量 太大,系统的运算和存储负担过重;原始语音信号包含太多的随机因素,极大的影响了 系统的识别率。特征提取就是对语音信号进行分析处理,去除对语音识别无关紧要的冗 余信息,提取出对语音识别有用的重要信息。从信息论角度讲,这是信息压缩的过程。 提取特征的意义是从语音信号中抽取有效的信号特征,同时还要尽量去除语音信号中的 2 太原理l 。人学硕十研究生学付论文 噪声信息,提高谚 别的精度。特征提取是语音识别自h 端处理的主要任务。特征如果具有 很好的区别性,模型的i 殳汁和训纷就会变得简甲高效。特征参数的好坏直接决定着系统 的识别性能。要想使以别系统有好的鲁棒性,必须要求提耿的特征参数有很强的抗噪性。 因此。语音识别所用特征需要满足以下条件【8 】: ( 1 ) 稳健性强。语音受周围环境、说话方式、采集条件等因素的影响较大,因此, 语音识别的特征必须具有很强的稳健性,使得语音特征在不同条件下可以保持相对 致,以保证识剐系统有较为稳定的识别性能。 ( 2 ) 区别性强。对于基于模式识别的语音识别模式而言,用于进行识别的特征必须 具有很强的区别性。换而言之,不同类型语音的特征在特征空日j 中的分布要有明显的区 别。具体表现在:同种模型的特征集中度应该高,不同模型的特征应陔相距较远。 由于语音具有短时特性,因此语音特征参数可以按帧进行信息提取,获得帧特征矢 量。这种矢量序列再按某种语音识别模型,进行训练后就形成了语音模板。当前。最常 用的特征参数是线性预测系数( l p c ) 、线性预测倒谱系数( l p c c ) 、过零峰值幅度( z c p a ) 和m e l 频率倒谱系数( m f c c ) 。下面分别做简单地介绍: 1 线性预测系数( l p c ) 线性预测,又称为线性预测分析。它首先由维纳提出,并于1 9 6 7 年被应用于语音信 号分析中。线性预测是基于全极点模型的假设。线性预测分析的基本思想是:每个语音 信号采样值,都可以用它过去的取样值的加权和来表示,各加权系数应使实际语音采样 值与线性预测采样值之间的误差的平方和达到最小,即进行最d 、均方误差( m s e ) 的逼 近。这里的加权系数就是线性预测系数l p c 。其求解算法可用格型算法、协方差、d u r b i n 算法等。 2 线性预测倒谱系数( l p c c ) 由于l p c 本身对于帧的持续期、帧的位置等很敏感,且预测器的多项式的根的物 理意义不明确( 钟。因此在语音识别系统中,很少直接使用线性预测系数l p c ,而是由 p c 推导出另一种参数;线性预测倒谱系数( l p c c ) 。倒谱实际上是一种同态信号处理 方法。具体而言,倒谱是对信号取其z 变换,再求其对数模函数,最后再求其反z 变 太原理t :人学硕十研究生学位论文 换得到的。其表达公式为: c ( n ) = z 。 1 0 9 l z x ( , 0 1 ( 2 - 4 ) 式中x ( n ) 是语音数据序列,c ( n ) 为信号的倒谱系数。由于线性预测分析也是一种频谱估 计方法,其系统函数的频率响应( p ,m ) 也反映了声道的频率响应以及信号的谱包络, 因此用l o g i h ( e ”) i 傅晕叶反变换也可以求出倒谱系数。倒谱系数是- - e e 描述语音信号 的良好参数,其优点在于:它比较彻底的去掉了语音信号产生过程中的激励信息,主要 反映了声道频响,而且计算量小、易于实现,只用十几个参数就能较好地描述语音的共 振峰特征【9 】因此广泛地应用于语音识别领域。 3 m e l 频率倒谱系数( m f c c ) 虽然l p c c 能获得一些好的效果,但l p c c 对辅音的描述能力较差,抗噪性能也较 差。l p c c 同时也继承了l p c 的缺陷,其中主要的一点就是l p c 在所有的频率上都是 线性逼近语音的,而这与人的听觉特性是不一致的:而且l p c 包含了语音高频部分的 大部分噪声细节,这些都会影响系统的性能。针对以上问题提出了m f c c 。m e l 频率倒 谱系数考虑了人耳的听觉特性,将频谱转化为基于m e l 坐标的非线性频谱,然后转化到 倒谱域上,由于充分考虑了人耳的听觉特性,而且没有任何前提假设,m f c c 参数具有 良好的识别性能和抗噪能力,但其计算量和计算精度要求高。 m f c c 建立在f o u r i e r 频谱分析的基础上,它的核心思想是利用人耳的感知特性, 在语音的频谱范围内设置若干个带通滤波器,每个滤波器具备三角或者f 弦的形滤波特 性,计算相应滤波器组的信号能量,再通过d c t 计算对应的倒谱系数,符合语音识别 中对特征参数的要求。 4 过零峰值幅度( z c p a ) 经典的特征参数如l p c c ,m f c c 在无噪音环境下都取得了相当好的效果,但在噪音 环境下,系统的识别率会显著下降。近年来,基于听觉模型的语音特征提取方法在语音 识别领域日益受到重视,这是因为听觉模型最接近人耳对声音信号的处理过程,提取的 特征最能反映声音的本质,具有很好的鲁棒性。m f c c 虽然也是基于人耳听觉特性,但 4 太原理f :人学硕十研究生学位论文 它并没有充分利用这种听觉特性,而l p c c 是基于声管模型的一种参数,在噪音环境下 性能更差。在噼声存在的f _ 占况下,随着门限值的提高,门限跨越的间隔扰动也变得越大, 此时过零率就显得史具有鲁棒性,因此它能够提供一种软好的用于噪声环境下的语音信 号表示方法。z c p a 模型的运作原理与传统的信号处理方案有显著的不同,它需要测量 信号在一个时间段内的瞬时频率和强度信息,并在随后需要进行一个时域信息的积累操 作以获取最终输出。 m f c c 与z c p a 是当前主要的两种特征参数提取法,它们在一定程度上反映了入耳 对声音的处理特性。研究结果表明,这两种方法都对语音识别的性能有所提高。也有研 究者将小波分析引入了特征提取中,虽然对识别的准确率有所改进,但是其所需的计算 量较大,在嵌入式语音识别系统中很难实现。 2 4 模式匹配及模型训练 模型训练是指按照一定准则,从大量己知模式中提取表示该模式特征的模型参数。 模式匹配是指根据一定准则,使未知模式与声学模型中某一模型获得最佳匹配。声学模 型( 参考模板) 是基于模式识别的语音识别算法中最重要的部分,合理反映语音的声学特 征,有效描述语音特征空间的概率分布决定了语音识别的性能。声学模型的目的是提供 一种有效的方法计算语音的特征矢量系列与每个发音模板的距离,因为发音在每个时刻 都受到其前后发音的影响,为了模仿自然连续语音中的协同发音的作用和鉴别这些协同 发音,通常要使用复杂的声学模型,声学模型单元的大小( 字发音模型、半发音模型或 音素模型) 对语音训练数据量大小、系统识别率、以及灵活性有较大的影响。 语音识别所应用的模式匹配和模型训练技术有:动态时间规整技术( d t w ) ,隐马尔 可夫模型( h m m ) 、人工神经网络( a n n ) 。 ( 1 ) 动态时间规整( d t w ) 技术 语音识别中,不能简单地将输入模板直接做比较,因为语音信号具有相当大的随机 性,即使同个人在不同时刻发同一个音,不仅其持续时间长度会随机地改变,而且各 个词的各音素或类音素的相对时长也是随机变化的。因此在匹配时如果只对特征矢量序 ls 太原理i :人学硕十研究生学位论文 列进行线性时间规整,其中的音素或类音素就可能对不准。而应该采用某种非线性时问 对准算法。动态时间规整( d y n a m i ct i m ew a r p i n g ,简称d t w ) 就是效果最好的一种非线 性时间规整模板匹配算法。动态时间规整算法于6 0 年代由同本学者板仓( i t a k u r a ) 提出。 算法的思想就是把未知量均匀地伸长或缩短,直到它与参考模式的长度一致时为止。在 时间规整过程中,未知单词的时间轴要不均匀地扭曲或弯折,以便使其特征与模型特征 对正。 d t w 是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语 音信号特征参数序列比较时时长不等的难题。d t w 比较适合小词汇量的特定人识别的 孤立词识别系统,一般采用多模板训练方法,即每一个词的每一遍语音形成一个模板。 在识别时待识别矢量序列用d t w 算法分别求得与每个模板得累计失真,然后判别它属 于哪一类。但是由于语音信号的偶然性很大,且训练时读音可能产生错误,所以这种方 法的鲁棒性不好。 ( 2 ) 隐马尔可夫模型( h m m ) 隐马尔可夫模型( h i d d e nm a r k o vm o d e l s ,简称h m m ) 是一种基于转移概率和输出概 率的随机模型,最早在c m u 和i b m 被用于语音识别。h m m 是对语音信号的时问系列 结构建立统计模型,将其看作一个数学上的双重随机过程,一个是用具有有限状态的 m a r k o v 链来模拟语言信号统计特征变化的隐含的随机过程,另一个是与m a r k o v 链的每 一状态相关联的观测系列的随机过程,前者通过后者表现出来,但| j 者的具体参数( 如 状态数) 是不可观测的。 h m m 用概率或统计的理论成功地解决了怎样识别具有不同参数的短时平稳的信 号、怎样跟踪它们之问的转化等问题。语音识别的最大困难之一就是如何对语音的发音 速率及声学变化建立模型。随着h m m 被引入到语音识别领域中,这一棘手的问题得到 了很好地解决。h m m 通过状态转移概率对基元发音速率建立模型;通过依赖状态的观 察输出概率对基元发音的声学变化建模。另外,出于语音的信息结构是多层次的,除了 语音特性外,它还涉及到:音长、声调、能量等超声段信息,以及语法、句法等高层次 语言结构的信息。而h m m 的特长还在于:它既可描述瞬念,又可描述动态的特性,所 6 太原理f 人学硕十研究生学位论文 以h m m 也能很好地利用这些超声段的和语言结构的信息。 在使用隐马尔可犬模堑! 谚伸f ,高婴以一个只具有有限不同状态的系统作为语音生 成模型。每个状态都可产生有限个输出。状态之问的转移是随机的,每状态f 的输出 也是随机的。通过i j 练得到状态转移概率矩阵和彳:l = 号输出概率矩阵。识别时计算未知语 音在状念转移过程中的最大概率,根据最大概率对应得模型进行判决。h m m 不需要时 刚规整,可大大节约判断时的计算时蚓和存储量,在目前被广泛应用,缺点是训练计算 量较大。 ( 3 ) 人工神经网络

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论