(信号与信息处理专业论文)抗噪语音识别算法的dsp实现.pdf_第1页
(信号与信息处理专业论文)抗噪语音识别算法的dsp实现.pdf_第2页
(信号与信息处理专业论文)抗噪语音识别算法的dsp实现.pdf_第3页
(信号与信息处理专业论文)抗噪语音识别算法的dsp实现.pdf_第4页
(信号与信息处理专业论文)抗噪语音识别算法的dsp实现.pdf_第5页
已阅读5页,还剩93页未读 继续免费阅读

(信号与信息处理专业论文)抗噪语音识别算法的dsp实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理丁大学硕十研究生学付论文 抗噪语音识别算法的d s p 实现 摘要 奉研究荫允实王见了一个以d s p ( q m s 3 2 0 v c 5 4 0 9 ) 为卜处f i 器的硬 件平台,然后在该平台上实现了5 0 词的小词汇量的语音识别系统。 在本系统中,硬件平台主要包括语音输入输出模块、主处理器模 块、存储器模块、异步串口输出模块和电源模块。其中语音输入输出 模块实现了语音的输入和输出,采用的芯片为t i 公司的t l c 3 2 0 a d 5 0 。主处理器模块( t m s 3 2 0 v c 5 4 0 9 ) 主要完成语音识别所需的计算, 其性能能够达到实时处理的要求。存储器模块包括一片f l a s h 和两 片s r a m ,用5 1 2 k 字的f l a s h 作为d s p 的可编程存储器,两片 s r a m 分别作为d s p 的数据和程序存储器。异步串口实现系统板和 p c 机之间的通信。电源模块为系统提供5 v 、3 3 v 、1 8 v 、4 1 v 和一5 v 的电压。 为了便于程序的设计与调用,采用了模块化的程序设计方法。在 编程之前,首先用c 语言对每个子模块进行算法仿真。程序整体采用 c 语言和汇编语言混合方式编程。对于频繁被调用的算法如滤波,采 用汇编语言来实现以提高程序运行速度。 系统程序主要包括初始化系统模块和识别算法模块。其中初始化 系统模块包括初始化d s p ,初始化m c b s p ( 多通道缓冲串口) ,初始 太原理l 大学硬十掰 变生学傍论文 化异步通信串口等。识别算法包括语音端点检测、z c p a ( 过零峰值幅 度) 特征掇取、r b f 语音识别和归一化等程序。系统采用的软件开发 环境为弧公司提供的集成开发环境c c s 2 ,o ( c o d ec o m p o s e rs t u d i o ) 。 在软硬件联调的基础上,对语音识别算法进行了实时实现。解决 。了实现孛遴到豹系统实霹实现遮题、硬转谲试、软镩镶试等溺霆。实 验结果表明,该系统基本能实现预期识别目标。 关键词:d s p , 语音识剐,t m s 3 2 0 v c 5 4 0 9 ,z c p a ,特征提取,r b f 。 i i 太原理r 人掣| 砸+ 研究生宁何论文 t h er e a l i z a r i o no fn o i s e r o b u s t s p e e c hr e c o g n i t l o na l g o 状l t h m8 a s e d o nd s p a b s t r a c t i nt h i st h e s i s ,t h eh a r d w a r ed e v e l o p m e n tp l a t f o r mb a s e do nd s p ( t m $ 3 2 0 v c 5 4 0 9 ) i sd i s c u s s e df i r s t l y t h e nw e b u i l dar e c o g n i t i o ns y s t e mo f i nt h i ss y s t e m ,t h eh a r d w a r ep l a t f o r mc o n s i s t so fa n a l o gi n t e r f a c e c i r c u i t s ( a i c ) ,a t i v l s 3 2 0 v c 5 4 0 9d s p , m e m o r ym o d u l e ,u a r t c o m m u n i c a t i o ni n t e r f a c ea n dp o w e rm o d u l e 。t h ea i ci sap r o g r a m m a b l e t l c 3 2 0 a d 5 0a n a l o g - t o d i g i t a la n dd i g i t a l - t o a n a l o gc h i pw h i c hd e a l s s p e e c hs i g n a li n p u ta n do u t p u t d s p ( t m s 3 2 0 v c 5 4 0 9 ) m o d u l ed i s p o s a l s p e e c hr e c o g n i t i o na l g o r i t h mi nr e a l t i m e m e m o r ym o d u l e i n c l u d eap i e c e o ff l a s ha n dt w op i e c eo fs r a m ,f l a s hi sa512 k w o r dm e m o r ya s p r o g r a mm e m o r yo f d s p , s r a m a r et w o6 4 k - w o r dc h i p sa sd a t am e m o r y a n dp r o g r a mm e m o r yo fd s pr e s p e c t i v e l y a s y n c h r o n o u ss e r i a lp o r t c o m m u n i c a t e sw i t hc o m p u t e r p o w e rm o d u l es u p p l y5 v , 3 3 v , 1 8 v , 4 1v a n d - 5 vv o l t a g e w ep r o g r a mb yt h em o d u l ed e s i g nm e t h e o df o rt h ec o n v e n i e n c eo f i i i 皇塑坠墅螳璧堡窒兰兰篷鹭奎 d e s i g na n dt r a n s f e r b e f o r ep r o g r a m m i n g , w 静e m u l a t ee 麓c h a i g o r i t 】麓弧 s u b - m o d u l ep r o g r a m m e db yc l a n g u a g e 。t h ep r o g r a ml a n g u 8 9 ei sca n d 勰黼b l em i x e dp r o g r a m s o m e a l g o r i t h mt h a tw a sf r e q u e n t l yt r a n s 凳d s u c ha sf i l t e r ,w a sp r o g r a m m e d b ya s s e m b l el a n g u a g ef o ri t sh i g h e rs p e e d , t h ew h o l ep r o g r a m m a i n l yi n c l u d e ss y s t e mi n i 囊菇i z 激i o n 拜l 。纛b ea n d r e c o g n i t i o nm o d u l e s y s t e mi n i t i a l i z a t i o nm o d u l ei n c l u d e i n i t j a l i z i n g d s p ,i n i t i a l i z i n gm c b s p ,i n i t i a l i z i n g u a r t s p e e c h 黼铭蕤i t o n a l g o r i t h mi n c l u d ew o r db o u n d a r yd e t e c t i o n ,z c p a ( z e r oc 翔s s i n gp 瓴汰 a m p l i t u d e s ) ,r b fn e u r a lr e c o g n i z e ra n dt i m en o r m a t i z a t i o 狂是n ds oo 摭。 w eu s ec c s 2 0 ( c 5 叙c o d e c o m p o s e rs t u d i o ) t oe m u l a t e 搬e 爨w 毽r e w ea c t u a l i z e ds p e e c hr e c o g n i t i o na l g o r i t h mi nr e a lt i m ew h i c b b a 辩d 溯h a r d w a r ea n ds o f t w a r ea to n et i m e w eh a v es o l v e ds o m e 啪b l e m s : r e a l t i m e , h a r d w a r e d e b u g g i n g , s o f t w a r e d e b u g g i n g ,a n ds oo n 。 e x p e r i m e n t ss h o wt h ea i mo ft h er e c o g n i t i o ni s e a i i z 代l b a s i e a l l 娥协e r e c o g n i t i o nr a t i oc l o s e st o8 0 k e y w o r d s :d s p ,s p e e c hr e c o g n i t i o n ,t m s 3 2 0 v c 5 4 0 9 , r b f , z c p a + 声明 本人郑重声明:所呈交的学健论文,是本人在指导教烬的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名: 黎:荔基 日期: 弛芏,掣 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定。其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;学校可以学术交流为目的, 复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内 容( 保密学位论文在解密后遵守此规定) 。 签名: 塞蔓象 日期:型! ! 三:曼f 导师签名:塑噬。日期:塑堇:兰 太原理工大学硕士研究生学僻论文 1 , 1 语音识别综述 第一耄绪论 i 1 1l | 言 语言是入类获取信息的主要米游之一,是入类与外赛交流信患最方便、最有 效、最自然的工具,随着计算机技术的快速发展,语音技术的研究也愈来愈受到 重视。人们对语音的研究主要包括语音编码,语音念威,语音识别及说话人辨识 等几个方霹。 语音识剩强语音为研究对象,宅是语音信号缝瑗虢令重要磺究方囱,是模 式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理 等学科。语裔识别的目的是为了使机器能够准确地昕出人的语音及其内窬,以便 控制其它设备_ 来满足人类的各种嚣浆,它是发展人机露声通信和薪一代镑熊计算 疆夔重要缀袋部分。 语音设剐技术的渗透性很强,有着广阔的应用范围,它将无处不在的改变我 们的生活方式。 我们最常见的有用于手机的谣音拨号功能,使用语音拨号,只需一次性地输 入( 读久久袈鞠毫话号玛,在健麓瓣便霉鼓壹蓑怼麓溅落滋密要逶话入熬烂名, 经语音识嬲嚣,查出该姓名所对艨戆号码,然后自动戆进行拨号。同样,对- :pp c 机,我们可以装掉键盘鼠标,靠谮音输入命令来控制计算机。 日常生活中常见的还有语音识别在家电遥控器中的应用,家用电器缴腥的一 个重要方面踅谴翅户界面更热入毂亿,更热方便自然,骰到老年人和残痰入霹以 无漳薅建经愆。剩雳语音谈甏毅零实瑗语音整翻是撬嶷容毫产蒹矮户器甏壤萋懿 一条重要途径。 太原理t 大学硕十研究生学位论文 语音查询是语音识别的又个应用领域n 可用于旅游业及服务业的各种查 询系统。如语音囊动导游系统,游客只要说出囊己当兹的位霪稷感兴趣的景点名 称,系统後自动显示出图文并茂的最佳路线、乘车方案、费用及其它相关信息。 如聚游客还需震进一步了解更为详尽的资料,则可以同系统进行交互式的对话, 系统将对用户豹阏题一一绘予答复。对于键盘输入菲常隧生鼢入来说,谮音输入 提供了最方便快捷的查询方式。 语啬识别技术在人工自5 件分拣中的作用也网盏显现,发展前景诱人。发达晷 家懿邮政部门已经使用了这一系绕。该系绕蠡冬使蹋,大大提离了分拣疆量和劳动 生产率,越来越多的国家关注着遮一技术的发展和动向。 语鸯识别还可以应用奁工业控制方蕊,在一些工作环境惩劣、对人身骞伤害 黪地方船逢下、深承及辐射、高溢等) 或手正难潋操作的泡方,均可通过语音发 出相应的控制命令,让设备完成各种工作。 语轰识别技术在帮助伤残人的各秘设备中墩将发挥荚难以替代瓣作用。瓣予 一些肢体伤残者或盲入,着全部用声音控翻,刘给伤残者或盲入提供极大的生活 便利。些办公设备加上语音功能后,即使是伤残者也可以足不出户地在家里工 终。 此外,嵌入式语音识剐软件其有语音识掰、声控、用字母谮音输入的语音键 盘等功熊,可应用于手提电话、掌上电脑、电予记事本、声控设备、及蠖手残疾 入静设备等。 语音识别研究的根本目的是研究出一种具有听觉功能的机器,能直接接受人 的口呼命令,理嬲人的意图并做出妲癍黔反应。近年来,褰牲能数字嫠号处理芯 片d s p ( d i g i t a ls i g n a lp r o c e s s ) 技术的迅速发展,为语音识剐的实对实现提供了可 能i d s p 蕊片,也称数字信号处理器,是一释其有特殊结梅的微处理器。d s p 芯 片的内部采用程序和数撵分开的暗佛结构,其脊专门的硬件乘法器,广泛采用流 水线操作,提供特殊的d s p 指令,可以用来快遽地实现各种数字信号处理算法。 搬据数字信号处毽的簧求,d s p 芯片一般其有如下的一些主要特点: ( 1 ) 在一个指令周期内可完成一次乘法和一次加法。 2 太原理工大学硕士研究生学位论文 ( 2 ) 程序霸蘩攥窆翅分开,可隧嚣时访耪疆令襄薮据。 ( 3 ) 片内l f i 快德r a m ,通常r ,jj 煎j 土独口的数拱t :,营线柏曲块中h 时葫1 0 ; ( 4 ) 具奄低开销或无开销循环及跳转的硬件支持。 ( 5 ) 捩速兹孛凝经理帮硬 孛秽o 支持。 ( 6 ) 具有在单周期内操作的多个硬件地址产生器。 ( 7 ) 可以j 行执行多个操作。 ( 8 ) 支挎凌东线操作,楚敬攒、译鹞羁弑行等掇佟西以燕叠执行。 与通用微处理器相比,d s p 芯片的其他通用功能相对较弱她。 世界上第一个单冀d s p 芯片楚1 9 7 8 年a m i 公司宣白的$ 2 8 1 1 ,1 9 7 9 年荚匿 i n t e l 公司发布豹齑矮哥编程器件2 9 2 0 是d s p 芯,跨豹一个主婺燕程碑。这掰耱芯 片内部都没有现代d s p 芯片所必须的单周期芯片。1 9 8 0 年n e c 公司推出的 p d 7 7 2 0 怒第一个具鸯乘法器的商爝d s p 芯片第一个采用c m o st 艺生产浮点 d s p 芯片豹是h i t a c h i 公司,它予1 9 8 2 年推出了浮点d s p 芯琦。第一个离链戆酌 浮点d s p 芯片应是a t & t 公司于1 9 8 4 年推出的d s p 3 2 。 在这么多的d s p 芯片种类中,最成功躲是美晷德克萨颠仪器公司 ( t e x a sl n s t n u n e n t s ,简称1 1 ) 豹一系殂产品。瓢公司在1 9 8 2 年成功推出第一代 d s p 芯片t m s 3 2 0 1 0 殿其系列产品t m s 3 2 0 1 1 、1 m s 3 2 0 c 1 0 c 1 4 c 1 5 c 1 6 ,c 1 7 等, 之后相继浆出了第二代d s p 芯只t m s 3 2 0 c 2 0 、捌s 3 2 2 5 忿2 鑫起2 8 ,第三代d s p 芯片1 m s 3 2 c 3 0 圮3 l ,c 3 2 ,第四代d s p 芯片枞s 3 2 c 4 g 起4 4 ,第五代d s p 芯片 t m s 3 2 c 5 0 c 5 l ,c 5 2 c 5 3 以及集瘳个d s p 予一体的崭性能d s p 芯片 t m s 3 2 e 8 8 怒8 2 等。 自1 9 8 0 年以来,d s p 芯片得剿了突飞猛进的发展,d s p 芯片的应用越来越 广泛。从运算速度来餐,m a c ( 一次乘法和一次加法) 时间已经从8 0 年代初的 4 0 0 n s ( 热t m s 3 2 0 1 0 ) 隆纛到1 0 n s ( 舞t m s 3 2 c 4 0 ) ,处理戆力提裹了足专绩。 d s p 芯片内部关键的乘法器部件从1 9 8 0 年的占模区的4 0 左嚣下降到5 以下,片 内r a m 增加一个数慧级以上。从制造工艺来看,1 9 8 0 年采用4 肛的n 沟道m o s 工艺,嚣凌在刘善遮翅耍裁寒c m o s5 e 艺。d s p 芯冀豹雩l 瓣数量簸1 9 8 0 年夔 最多6 4 个增加到现在的2 0 0 个以上,引脚数量的增加,意味着结构灵活性的增加。 太原理t 太学硕士研究生学位论文 瓢嘉续箍出t m s 3 2 0 c 5 0 0 0 系列:t m s 3 2 0 c 5 4 系歹| l 是为实现鬣功耗,离毪筑褥专 门设计的定点d s p 芯片,t m s 3 2 0 c 5 4 x 以极低的功耗和优越的性能在通信、消费 电子等缀多领域得到广泛应用。 藏辨,d s p 芯片翁发震,是d s p 系统兹。霞搴、薅积、耋鬃秘功耗骜骞缀犬程 度的下降。 一今实时处理的系统必然要求森的处理速度,尤其对予数字信号处理系筑, 大量懿豢加运算、卷积运算帮傅_ 觅婶交换等对她疆器静乘热迷发帮数据楚毽能力 有很高的要求,所以猩设计该语音处理系统时最优的选择非d s p 莫数。 1 1 2 闰内外研究现状及语音识别方法介绍 ( 一) 国内外磷究现状 语膏谖剐的研究霹以追溯判= 十邀纪五十冬代初 2 1 ,当辩很多研究久受芷尝 试探索声学一语音学的基本规律。1 9 5 5 年,b e l l 震验室的d a v i s 等人利用必振峰 特短磷制出了邀赛上第一台原始谶巍识裂系统。1 9 5 9 年,美嚣l i n c o l n 实骏室静 r o 曙i e 和f o r g i e 首次袋用数字计算机识鄹英文的元音和以摩擦啻开头的孤藏字, 这些识别系统都是针对孤立语音,都使用模式匹配器和滤波器缀来分析谱信息的a 这些标惑麓诗算提语潦识别时代豹廷始。 在六十年代,计簿机的应用推动了语音识剐的发展。日本的东京无线电研究 实验室、京都大学和n e c 实验室都制作了能够磁行语音识别的专用硬件,对语音 识蹦鬏域遴霉了拜援镶瓣臻究工终。当鞋,毒关溪砉识尉熬三令关键硬爨豹瘸蘩, 对以后谮音识别的研究和发展产生了深远的影响。它们是p i :( 1 ) r c a 实验室的 m a r t i n 为解决语音事件时间尺度的非均匀性,以便能可靠地梭测到语音的起始点 移终壹患,提毫了一缀蒸本兹对阕懿一纯方法,蠢效遮减小了鼋 裂缝采戆变蛙; ( 2 ) 前苏联的v i n t s y u k 提出了使用动态规( d p ) 划方法,对一组谮音在时问上j l 行校 准,它觎含了动态时间伸缩的概念,解决语裔识别中不等长的对芷阀题; ( 3 ) c a m e g i em e l l o n 大学豹r e d d y 逶涎对毒素懿凌态蹑踪霹连续语音谖裂方法皴了 开创性的研究工作,并促成了一i 贞后来获得巨火成功的连续语音研究计划。 4 太原理工大学硕十研究生学位论文 七卡年代,语葺谈剐领域取褥了突破。首先,语音 ; 鹾已经成为可瑁懿按零, 挎工l 。口! 别、动态规划技术也丌始在谮音谚 别系统中得到府用。低l e 特率编码叶j 耿 得成功的线性预测编码( l p c ) 方法被用来作为语毒的谱特缸 参数,并沿用至今。动 态对| t 羁j 娥熬技术国t m 蘩本成熟,势艇提出了矢豢登 二和隐弩尔霹夫模登瑾论, 实现了基于线性预测倒满和d t w 技术的特定人孤立语音识别系统。 乞+ 9 每代语音研究驰重点是孤立词语善识别,两矗八 代,连续语音成乃 研究重点,并出现了大爨静连续语音识嗣算法,翔n e c 公司援滋的二层动态规划 算法,b e l l 实验室的m y e r s ,r a b i n e r 和l e e 等人提出的分层构造弊法,以及帧同步 分层构造算法等。另外,在,十年代巾压期,语酱谖另4 研究所髑的技术方法发生 了交 二:痤l 蒸于模扳的方法转向了统计建模的方法,龙其是往隽l 了隐马尔可夫模型 方法,这种方法现在融成为语音识别研究的主流。h m m 的广泛应用应归功于 a t & tb e l l 实验室r a b i n e r 等科学家的努力,她们搬原率艰涩的h m m 纯数掌摸整 工程纯,从丽为更多磷究者了解和认识。自献歼贻厢h m m 来籀述语音信号蔚, 就不断有人对它进行了备种改良和发展。h m m 的一个基本假设便是它认为语音 痿号是旗警稳静并虽其中的平稳部分可跌出h m m 孛兹状态来表舔。在传统的 h m m ( t r a d i t i o n a l h i d d e n m a r k o v m o d e l ,t h m m ) 中,模型在菜状态停留一定时阚的 概率随着时间的增长呈指数下降的趋铸,因此使得t h l v i m 不能合适地表征语音 羡号豹瞬竣维梅。为r 弥於霹强m 的这一缺点,入霞提出了诲多耱方法试辫将 音素持续储息加入到传统的h m m 中,大致可分为以下3 个分支1 4 】:( 1 ) 基于拳玛尔 可夫链构造状态停留时间模型;( 2 ) 采用状态停留时间的惩罚函数进行后处理;( 3 ) 使用佼鼓予露阕豹状态转移壤率寒横蹙毒l 二壤态停蘩瓣笺。这些羧避鹣隐马尔霹夫 模型取得了比传统h m m 更好的识剐性能。 八十年代中期以来,人工神经网络的研究取得了显著的进展。尤其是多屡前 镶羁终,羧其爨吴戆分类经毙,在模式识另| l 镶域孛霉到了广泛瓣瘫惩。在髂菇模 式识别的熏要分支一谮膏识别方面,基于神经网络的识别系统的研究亦得到了普 遍的重视。由于人工神缀网络( a n n ) 县有自适应性、并行性、非线性、鲁棒性、 容镶连露学习特性,京续秘窝算法上郝显示窭箕安力,送入丸年我爱弹经溺终 逐步成为语音识别方面的一个新亮点,目前的研究是找到对语街信号更强有力的 5 太原理1 = 大学硕十研究生学位论文 神经粥络篌鍪,更邋宜的激活函数,更毒速蠢效豹学习算法帮更合瑾静络构狰l 。 隐码尔可夫模烈方法当前仍然是语音识别技术的主流方法,但h m m 方法的 缺点是分辫力不够强。人工毒申经掰络方法贝4 具露报强的自缎织自学习能力,在用 于语誉谈瘸嚣季有穰强舱对复杂遍癸的分瓣蔻力黻及对不完全髂患约鲁捧经。但是, 现有的人工神经网络模型还存在赘语音识别测试样本与训练样本间的时间规整问 题。所以研究人员提黩终h m m 方法和神经网络方法结合起泉1 6 1 ,充分运爝h m m 对闯攥熬能力强两a n n 分辨施力强的特点,这样可以霉戮较好豹对褥瓿配与模 式分类的性能。 隧篱多媒体对代的到来,追切要求语音识别系统默实验嶷走向实用。诲多发 达国家的著名公司魏i b m 都在为添音识鄹系统豹实罐张开发研究投班邕资。经过 近五十年的发展,目自酋语音识别融经达到一个棚对高的水平。语音识别研究水平 最重要的标志之楚非特定人大诵汇量连续遘密识裂的性能。霹蔑对于壤怒矮境 下豹谮胬数据,英豳剑轿大学的h t k 系统静谈识率已达到5 以下。对予广播语 音,剑桥的h t k 系统误识率达到6 2 。在语音识别的应用方面,i b m 公司推出 静v i a v o i c e 系统栎恚罄菲特定入大词汇量连续溪音识剐的安惩纯;在小调袭语音 识别领域中,各公司也纷纷推出了荦片的语音识别系统,各种电子产品上也办入 了语音识别的功能。 落鸯谖爰的磅突久员选一壹致力予语音识艇专震芯冀秘系绞戆磅究,餐是, 大多数的语音识别专用芯片识别饿能差,不其备实用的要求。直到近十年以来, 随着语街识别算法的深入研究和集成电路技术的发展,才出现了一些具有实用价 篷窝审场羲景豹语啻谈麓专蠲芯篾。其中,较楚成功熬舞令蕊片详缨分绥懿下: 1 + r s c 3 6 4 由荧国s e n s o r y i n t e g r a t e d c i r c u i t 公司开发,2 0 0 0 年开始像产,是一颗为消费 类毫予产瑟疰蘧戆甄徐应瓣语音谈麓专蠲芯跨,嚣r s c - 3 6 4 ,宅褒爱霰兔学习努 的人工神经网络进稃 特定人语鬻识别,不需黉经过训练就可以识别”y e s 一、- n o ”、 ”0 k 等简单语句,其说明书上介绍其识别率为9 7 。此外,r s c 3 6 4 可以识别特 定久、羧立调会令诱锈,终国条左右,茭谖溺警主穆其谈嗣率碧9 9 0 黻主。 r s c - 3 6 4 还具有5 1 5 k b s 的语音合成,其语音合成由s e n s o r y 专门设计,熊音质 6 太原理工大学硕士研究生学付论文 较好。它还其畜改进的a d p c m ( 爨适应羞分脉冲调翻) 语骜编解鹳功笈,掰俸 l 自音放。 2 u n i s p e e c h s d a 8 0 d 5 t 德国l n f i n e o n 公司2 0 0 0 年开始警产豹产晶,它是一颡赢毪簸的语音专麓芯片。 这样的敬计能够满足立体声处理或者消除外界干扰等功能要求,例如在汽窜上使 朋时,f 以f 出除发动机弼轮胎转动产噬的噪声专挠等。u n i s p e e c h s d a 8 0 d 5 l 的 语音处邋软 誓包括:捌角d t w 算法的特定入谮螽识巍,旋够谚 剐1 0 0 条漆匀; 利用h m m 算法的非特定人语音识别,词汇量可以达到1 0 0 条语句;高质缀、低 码率( 2 4 1 3 k b s ) 的潺音编孵码,鼹俸语音提示帮语音回放;西声消除技术, 降低井弊的噪声干扰;说话入识别功能等等。 我国语音识别研究正作一直紧跟国际水平,国家也很重视,并把大词汇照语 音识剐鹣磺究列入“8 6 3 ”计划,由中科院声学聪、斑动豫魇及j 家大学等单撼礤究 开发,取得了高承平的辩研成果,绷中科院自动化所研制的j # 特定入、连绥语音 听写系统和汉语语音人机对话系统,其字准确率或系统响应率可达9 0 以上。目 蘸,我国语音识烈技零豹臻究已载褥令人瞩嚣的成绫,其基磁骚究涉及汉落语音 学、昕缴模型、入工神经网络、小波变换理论和分数维方法等。鉴于中国未来庞 大的市场,国外也非常重视汉语语街识别的研究。美国、新加坡等地聚集了批 来基大戆、台湾、香瀵等缝憝学者,磅究成果已达妥穰当赢承警。器内在谬齑浚 别专用芯片的开发与研究方面起多较晚。比如靖肇大学语音识剐专用芯片研究开 发”课题,研究开发了圈内第一个具谢自主知识产权的语音识别专用芯片的软件部 分。该实验室是重蠹羧早专门扶事滋誊菝术与专耀葱冀设嚣磺究攀位之一。蕊片 能够识剐豹2 0 一3 0 条特定人语音命令,同时其脊语音合成( 提示) 与语音编解码 ( 回放) 功能。语音识别率达到9 8 以上嘲。 ( 篡) 语音识别方法介绍 一般来说,语音识别的方法有四种( 乃:基于声道模型和语音知识的方法、模式 嚣琵懿方法、绞谤婺模鳖方法虢及麓震久工穆经瓣终豹方法。鏊予声遂蒺鼙_ 移语 音知识的方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但 7 太骤理工大学硕士磅巍生学营谂文 由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。目前常用的方法 是后三种方法,熙前它们都已达到了实用阶段。模式匹醚常用的技术有矢量擐化 ( v q ) 和动态时阕搜整( d t w ) ;统计型模型方法霉见麴是隐马尔霹夫模型;语 誊识别髫躅熬秘经鼹终有反囱传播( b p ) 霹终,径羯基蒲数阚终( r b f ) 及掰兴 懿夺波网络。 模式匹配法粥于语音识别共有四个多骤:特征提取、模板调练、模板分类判 决。阔1 1 是模式匹配法的原理稻图: 诅| 练一墨耋辇鸯| 语音唆兰(三垂三j三垂亘至三量主!【j五矗五夏)凰结果 图1 i系统模式匹配法原理方框阔阐 f i g u r e1 ,1p a t t e r nm a t c h i n gp r i n c i p l ed i a g r a mo f s p e e c hr e c o g n i t i o ns y s t e m 在该图中,语音经过话筒变成电信号( 即图中语啻信号) 后加在识别系统输 入端。首先要经过预处理,预处理包括反混委失粪滤波爨、预加燕器、端点检测 嚣积模数转换器。经过预处理瑟,语齿售号熬特缝被提取出柬,罄走在姥基戳上 建立掰霉熬模扳,这个建立模板的逑程稔为训练过程。接下来将耨提取静特征与 摸板甑配静过程称为识嗣过程。帮狠据语音谈掰的整体模型,将输入的语音篱号 的特征与已经存在的语音模板( 参考模式) 进行比较,根据一定的搜索和匹配策 略( 判决舰则) ,找出一系列最优的与输入的语音相匹酉己的模板。然后,根据此模 板号的定义,通过查表就可以给出计算机的识别结果。 隐马尔可夫模型是对语音信号的时间序列结槐建立统计模型,垮之藿作一个 数学上鲍双重睫戡过稷【9 1 :一令是翅具骞莠限状态数戆m a r k o v 链来模羧谱营傣号 统计特经变亿抟隐含熬随梳避程,另个是与m a r k o v 链酶每一个状态稠关联的 躐测序弼瓣随机邋程。前省通过籍者表现出来,讴前者酌具体参数是不可测的。 入的言语过程实际上就是一个双羹随机过程,语音信号本身是一个可观测的时变 序列,是由大脑根据语法知识和言语需要( 不可观测的状态) 发出的音索的参数流。 可见,h m m 合理地模仿了这一过程,很好地描述了语音信号的整体非平稳健和 太原理工大学硕士研究生学何论文 弱帮乎稳链,是较为瑷想豹一耱疆音模型。 ! j 模式旺n f ! 也桐比,l i m m 是一种迥然不俐的概念。矗模式肝配庄中,“参彬样 本”是由豢先存储起来的“模式”本身充当的,而h m m 则是把这一“参考样零”用一 个数字横黧来表示( 马尔可夫链) ,然聪待识的语帮与这一数学模型稳眈较,这藏 从概念上较f i 深化了步。图1 2 给出了一个基于h m m 的孤立词语音识别原理 匿。 :烈霉高 镬 l 摄 雨丽刊墼 语音信号i t 埘练语音的 剽燃1 1 蒜分析 训练 识别 硅m 酗 参数 v l t c t b l 诗篝 魁决 媲剜 识别 结难 图1 2 隐马尔可夫模掇用于孤立词语青识别方框图 f i g u r et 。2i s o l a t e d w o r d s p e e c h r e c o g n i t i o n d i a g r a m b a s e d o l l h m m 采用h m m 进行谱裔识别,实成士是一种概率运算。根据训练集数据计算得 出模型参数后,测试集数据只需分别计算各模型的条件概率( v i t e r b i 算法) ,取 踅穰率最大学静秀识澍绫莱。盘予弩尔可夫过程器获态秘豹转移橇率秘每令凝态 下的输出都是随机的,敞这种模型熙能适应语音发音的各种微妙的变化,使用起 来比模板旺配方法灵活的多。除训练时需运算量较大外,识别时的运算量仪肖模 式匿配法戆梵分之一。魏模鍪七卡每健裙蓄先弼予c m u ( 卡蠹蒸一簿隆丈学,研翻 的d r a g o n 系统中,此后又有了很大发展,七十年代以来,使用h m m 的系统 都取锝了很高的识别率。 人王誊争经元瓣络( 砧噜n ) 在语豢谖鬃孛豹瑾溺是当薪磺究豹又一热点。入工 神经网络本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的艨理, 具有自适廒性、并行性、鲁棒性、容错性和学习特性i 卯。尽藏用于语音识别酶神 经网络有多层感知辊,k o h o n e n 垂绦织神经网_ 帮预测神经阚。 太鞭理工大学矮士骈究生学位论文 人工神经网络魑采用物理上可实现的系统来模拟人脑神经细胞的结构和功能 的系统。它是由很多简单的处理单元有机地连接起来进彳亍并行的工作,人工神经 网终中大量事枣经元势牙分商运算的原理、嘉效的学习算法以及对人豹认知系统的 模铸能力等嚣霞它缀适鑫予勰决类躲予语音识别这一类课蓬。交予耱经瓣终反漩 了入蕊璃髓豹基本将征,具有自组缀经、鸯适瘦往、藕连续学习的能力。这耱稠 络慧可驻谢练静,邵可辍随着经验的积鬃丽改交自身的健麓。阏时由于高度的并 行俄,它们能够进行快速判决并具有容错性,特掰适合鼍:解决象语音识别这类难 以用算法来描述而又有大量样本可供学习的问题,图1 3 给出了神经网络用于语 啻识别的原理性方框图: l 艨豢叩一嚣鬈鬻w l 拯li l 篓篓h 竺h 茹囊 _ 羧毖结果 翻1 3 纂于神经两络髓语密识剐骧堙图 f i g t el + 3s p e e c hr e c o g n i t i o nd i a g r a mb a s e do n n e u r a ln e t w o r k 孛缀网络的一i 夔裴鬻重要的功熊是透过学习实现对于输入矢量瓣分类。这就 是淡每输入一令矢量,入工神经鼹络输难一个该矢鬟胬簇类别豹标号。在传统静 语音识翔方法中,遴过特征参数的提取及模式嚣配完成识掰。由于语音信号的高 度多变住,输入模式要与标准模式完全珏配是几乎不可能的。神经嗣络的语音识 别方法与传统方法的差异在于提取了语裔的特征参数后,不象传统方法那样有输 入模式与标准模式的比较匹配及统计参数,而是靠神经网络中大量的连接权对输 入模式进行非线性运算,产生最大兴奋的输入点就代表了输入模式对应的分类。 奎睾经网终的连接投系数楚在使用中擞据识别结果豹爱确与否不翳载进嚣是逮应修 正。毙较起来,拇经鼹终识涮系统受接j 珏人类韵感籍过程。 语音识稍系统稚据不同的分类猿弼丽以有多种分类方式l 埔: 根据对说话人说话方式的要求,可以分为孤立字( 诃) 语音识别系统,连接 字语音识别系统以及连续语音识别系统。 根攒对说话人的依赖程度可以分为特定人和非特定人语意识别系统。 l o 太原理工大学硕士研究生学衍论文 根掘词打爹又小,可以分为小调汀量、中等词汀荦、天溺汇董以及克戳词扩 量i 台爵识别系统。 1 2 课题研究背豢 尽管辔鸹碜:刖的磷究工作迄今已近5 0 年,取得了辉煌的成就,倒是现确的 薹 音识别系统还面临苔许多困难,具体表现在以下几个方面1 4 1 : 1 噪声阏蔻。程强啜声子撬环境下语音识澍爨滚。垂予语音数撵大部分帮是 在接近理想的条件下采集的,语音识别的编码方案强研制时都要在商保真设备上 录铡浯音,茏箕要夜无噪环麓下录齑。然瑟,当语裔楚理由实验室走离实繇应霜 时,环境噪声的存在所带来的问题就变得越来越重要。特别是线性预测作为语音 处理技术中最有效的手段,恰恰是觳容易受嗓声影响的。 2 语音识别系统的适应性差。主要体现在对环境条件的依赖性缀强,继续要 保持测试条件和训练条件的一致性,否则系统性能严重下降。本系统也存在同样 的游遂。勇磐,全毽器有邋嚣耱官方语言,每穆语玄骞多这足卡秘方言,联莘孛语 售的不同方裔在语音上相差悬殊,这样,随着语言环境的改变,系统性能也会变 褥缀差。 3 语音识别基元的选择闯题。即如何根据存储空间和搜索速度的要求,选择 合邋的识剐筚元,如词、音节、音豢。一般来讲,谈剐的词汇量越太,所选基元 应越小。 4 端点检测。语音信号的端点检测是进行语音识另的第一步。研究表明,即 蠖残安静戆环凌下,语音谈嬲系统一半以上戆识别镶误来蠡壤点捡溯器。爨凑端 点检测技术的关键在于寻找稳定的语音参数,本系统中的语音端点梭测也并非最 优算法。 5 还有大词汇连续语音识别的训练工作量和识别速度问题、局势问题以及关 键溺裣测技术,以及对用户的错误操作不正确响应问题等。 另乡 ,对于人类听觉理艇极理、联想判蹶枫理人们尽裁仍知之甚少,馒褥语 音识别在方法上并没有本质的改进。 太原理芏大学硕士硬究生学位论文 基于上述提到麴噪声秘语警识别速度蝴题,本文在r b f 襻经网终摸型的基础 上,采用了具有一定抗噪特性的特征参数和识别网络组成抗噪语音识别系统。 1 3 论文蠹褰安播 1 谯绪论中,主要介绍了语音识别的应爝、发展历史、国内外研究进展、语 豢识爨靛基本方法发嚣蠢誊语音谈麓瑟耨戆鼹透。 2 第二章介绍了系统硬传。详细奔绍了本课题所设计的硬件模块,即语音输 入输出模块、主处理器模块、存储器模块、异步串口输出模块和电源模块,以及 各模块功能作用。 3 麓三章将奔缨系统轶俘。在给港系统详缨熬程孝滚程甏静基镲主,将详缨 介绍各模块的驱动樱序,并简要贪绍器算法的程序以及系统试验和试验结果。 4 第四章是课题总结与展望。对论文工作进行总结,并提出了论文下一步的 工作及漂题改进方案。 1 2 太原理工大学硕七研究生学位论文 2 1 概述 第二章系统硬件 错l 纯燕洼算壤戆发疑方囊,瑟骜娆证熬其矮袭瑷之一是久辍语音逶售,鼯 人和机器之间可以用自然语音进行交互操作,形成“人一机一人”的交往模式n 在 这种人和机器通信中,首隳要解决的就是“让机器听憔人的话”,也就是语音识剐。 对于人类瑟蠢,罨舞是最巍然熬逶信秀式,嚣蘧,实现久凝语音遴售必将撅大途 改善计算机系统界丽,使计算机操作更加自然、方便。 在智能化的信息时代,无线瓦联模式逐步成型并形成规模,并构成宪整的产 洼链。产盈徐篷蓬鹣基麓是最终为焉声疆谣簧麓寝秘寝宠簧懿骚务。霄潋预冤中 文语赘和语畜处理技术在中国的无线置联产业中将起到非常大的作用。在功能睾 富但体积小巧的便携式设备上,如p l a m 、p d a 和手机等,没有键盘,或者键盘 缀,j 、( 只有数字键癜) ,或者只有较键擞( 弼艇摸屏) ,文字的输入成为一个缀大 的障碍。比如常见的多音字、同齿字现象和键烂本身等,卷约了中文鲍竣入速度。 用户们呼唤自然语裔,因为它是人机交艇的最高境界,是人机交互最自然的方式。 所以设计翻逢实蔫豹语音识嗣概器”就成为时代发袋豹登然。 本项硬究的是墩智能化售患嚣重代到临蛇形势恧蠢发的抗噪性好兹实时语誊识 别系统。它采用d s p 为控制核心,以高速率和精度的采样电路采集语音信号,以 u a r t 异步i 藏信串韶输出,形成一个最典型畿实用的语音识别系统。特点操作简 单,俊霆方便。设计过程中,充分考虑了噪毒对系统王终霹裴造戏熬影翡,采取 了一系列新思路和新技术,同时也考虑了系统的升级和维护,硬软件均采取了模 块化设计,为今后扩展打下基础。 在零系统孛,疆佟乎螽主要包摇语啻辕入输窭模块、圭筵理嚣模块、存撩器 模块、异步审口输出模块和电源模块。其中语音输入输出模块实现了语学的输入 太鞭理工大学硕士研究生学位论文 和输出,其中语音的输入可以是麦克风也可以是计算机声卡的输出,采用的芯片 为t l 公司的t l c 3 2 0 a d s 0 主处理器横块主要完成语音识别所需的计算,其性能 能够达到实时处理的要求,采用的芯片是融公司的t m s 3 2 0 v c 5 4 0 9 p g e l 0 0 。存 储嚣模块包括一笄f l a s h 和两片s r a m ,用来存储程序和数掇,芯片型号分潮 为a t 弱l v 8 1 9 2 a 9 髓释i d t 7 1 v 0 1 6 s a l 0 y 。舅步串日实现系统板桶p e 视之溺 豹遴信,使耀翡芯冀为t l l 6 c 5 5 0 f n 窝m a x 2 3 2 。奄源模块秀系统提供3 3 v 、1 s v 、 4 1 v 、5 v 以及一5 v 翦嘏压,硬传框始露2 ,l 掰承。 2 2 语音输入输出模块 图2 1 语音识别系统硬件框图 f i g u r e 2 1 b l o e kd i a g r a mo f d s ps y s t e m 2 2 1 电路图 语音输入输出模块的电原理图如附图l 所示。 其中的模拟输入电路如图2 2 所示: 图中导线分别连到c o d e c 芯片的i n p 和i n m 引脚。从图中可以看到,u 2 9 c 将输入的信号反向,配合u 2 9 b 使得进入c o d e c 的信号为差分信号,提高共模 稚制,增大信噪沈,得鲻更予净的语音信号。 其孛攘掇输密电路瑟蚕2 3 掰示: 霭孛导线连接至o u p 帮o u t m 号 辫。霹浚着戮输鑫信号经u 2 9 d 君遴密, o u p 和o u m 弓l 嬲上埝爨龟鬟必2 6 v ,输出经试验霉将售号羧丈露倍,王俸歪常。 1 4 奎堕堡王查兰堕主塑塑竺! 嫂丝兰 如2 s 磊湎一 翻2 2c o d e c 中模拟输入电蹄 f i g u 糟2 1a n a l o gc i r c u i ti nc o d e c 2 。2 。2t l c 3 2 0 a d 5 0 使用说明 在数字信号处理系统中信号的采集和阐放大多是通过c o d e c 芯片完成的 盔本系统t 豹c o d e c 为瓤公司豹d s p 静t l c 3 2 0 a d 5 0 c ,它与d s p 嚣m c b s p 连接,本带主要说明如何利用d s p 对c o d e c 进杼设置以及完成数据采集和回放 的工作嘲。 t l c 3 2 0 a d 5 0 c 是一款音频信号处理中常用魄c o d e c 芯片,榘成了a d 移 d a 由于采用了s i g m a - d e l t a 过采样技术,所以它能够在低成本的前提下提供较 1 5 太艨理工大学硕士研究生学位论文 高的数掘精度。其a d 和d a 分别拥有条1 6 位的同步串行通道,而且还可以 进行一些附加的操作,如在a d 后w 以对数据抽取,在d a 前可以对数据内插等。 图2 3c o d e c 中的模拟输出电路 f i g u r e 2 3o u t p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论