




已阅读5页,还剩77页未读, 继续免费阅读
(机械制造及其自动化专业论文)用于激光扫描的语音控制系统的研究与开发.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 语音识别技术的研究和发展带动了许多产业的发展,它使人和机器的交流 变得更自 然、更方便、更灵活。 用于激光扫描语音控制系统的研究与开发,为 语音识别的应用又开辟了新的领域。 本论文在简述语音识别的发展状况和应用前景的基础上,着重研究了影响 语音识别的关键技术,即端点检测技术,并对基于能量和过零率的端点检测技 术和基于】 im 模型的端点检测技术进行了分析和比较;对特征矢量的提取技术 也做了研究;另外,为了使系统满足不同说话人的需要,又对语音识别中说话 人自 适应技术进行了研究,使系统在非特定人使用的情况下仍能达到较高的识 别正确率。 用于激光扫描语音控制系统的研究与开发,目的是将语音识别的字符最终 由激光扫描出来,也就是将所识别出来的英文字母扫描出来。因此,当用户用 麦克风输入英文字母时,计算机对语音输入的内容进行识别,并通过编程将所 识别出的字母的a s c 码由串行口 输送给单片机,而单片机接到指令后再利用软 件来驱动步进电机并带动负载平面镜偏转, 从而利用激光器扫描出相应的字母。 语音识别技术、s d k软件开发工具包、单片机及步进电机等为语音控制激 光扫描系统的研究与开发提供了软件和硬件支持。 本系统软件和硬件设计,努力寻求最佳方案,取得了令人满意的效果。该 系统最大特点就是将声、光、机、电有机地结合起来,结构简单,操作方便, 经济实用,在较安静的环境下可实现较高的识别正确率,扫描出的英文字母轮 廓清晰,线条流畅。 对本课题进行进一步研究和优化, 将对语音识别技术的应用开辟更广阔的 空间。 关键词: 语音识别说话人自 适应单片机步进电机激光扫描 abs tract r e s e a r c h o n a n d d e v e l o p m e n t o f s p e e c h r e c o g n i t i o n t e c h n o l o g y h a v e d r i v e n t h e d e v e l o p m e n t o f a g r e a t m a n y i n d u s t r i e s , w h i c h h e n c e m a k e s it m o r e n a t u r a l , c o n v e n i e n t , a n d fl e x i b l e f o r h u m a n b e i n g s t o c o m m u n i c a t e w i t h m a c h i n e s . r e s e a r c h o n a n d d e v e l o p m e n t o f v o i c e c o n t r o l s y s t e m u s e d i n l as e r - s c a n h a v e c r e a t e d a n e w f i e l d f o r t h e a p p l i c a t i o n o f s p e e c h r e c o g n i t i o n . t h i s a r t i c l e , o n t h e b a s i s o f a b r i e f i n t r o d u c t i o n t o t h e s t a t u s i n q u o a s w e l l as a p p l i c a t i o n p r o s p e c t o f s p e e c h r e c o g n i t i o n , m a i n l y s t u d i e s t h e k e y t e c h n o l o g y t h a t i n fl u e n c e s s p e e c h r e c o g n i t i o n , n a m e l y t e r m i n a l i n s p e c ti o n , a n d a n a l y z e s a n d c o m p a r e s t h e t e r m i n a l i n s p e c ti o n t e c h n o l o g y b as e d o n e n e r g y a n d o v e r z e r o r a t e a s w e l l a s t h e t e r m i n a l i n s p e c t i o n t e c h n o l o g y b a s e d o n h mm m o d e l , i n c l u d i n g t h e d i s t i l l i n g t e c h n o l o g y o f c h a r a c t e r i s t i c v e c t o r . i n a d d it i o n , th i s a r ti c l e , in o r d e r t o m e e t d i ff e r e n t r e q u i r e m e n t s f o r t h e s y s t e m , s t u d i e s s p e a k e r a d a p t a ti o n t e c h n o lo g y , s o t h a t t h e s y s t e m c o u l d r e a c h h ig h e r r a t e o f r e c o g n i t io n c o r r e c t n e s s e v e n u n d e r t h e c i r c u m s t a n c e s o f u s a g e b y u n s p e c i f i c p e r s o n n e l . r e s e a r c h o n a n d d e v e l o p m e n t o f v o i c e c o n t r o l s y s t e m u s e d i n l as e r - s c a n a i m s a t s c a n n i n g t h e c h a r a c t e r s , w h i c h c a n b e d i s ti n g u i s h e d b y v o i c e , b y l a s e r i n t h e e n d , t h a t i s t o s a y , s c a n n i n g t h e e n g l i s h a l p h a b e t s t h a t a r e r e c o g n i z e d . c o n s e q u e n t l y , w h i l e u s e r s i n p u t e n g l i s h a l p h a b e t s v i a m i c r o p h o n e , c o m p u t e r s m a y d i s t i n g u i s h t h e c o n t e n t s i n p u tt e d v i a v o i c e s , a n d t r a n s p o rt s t h e a lp h a b e t i c a s c c o d e t h a t i s r e c o g n i z e d b y p r o g r a m m i n g t o s i n g l e c h i p c o m p u t e r v i a c r o s s i n g li n e e x i t . t h e s in g l e c h i p c o m p u t e r , a f t e r r e c e i v i n g i n s t ru c t i o n s , m a k e s u s e o f s o f tw a r e t o d r iv e s t e p p i n g m o t o r , s p u r s o n t h e c a r r i e r p l a n e m i r r o r , a n d h e n c e t a k e s a d v a n t a g e o f l a s e r m a c h i n e t o s c a n c o r r e s p o n d i n g a l p h a b e t s . s p e e c h r e c o g n i t i o n t e c h n o l o g y , s d k s o ft w a r e d e v e l o p m e n t t o o l s , s i n g l e c h i p c o m p u t e r . a n d s t e p p i n g m o t o r o ff e r s u p p o r ts t o r e s e a r c h o n a n d d e v e l o p m e n t o f v o i c e c o n t r o l a n d l a s e r s c a n s y s t e m i n t e r m s o f h a r d w a r e a n d s o f tw a r e . d e s i g n o f h a r d w a r e a n d s o f tw a re o f t h e s y s t e m t r i e s t o s e e k o p t i m u m s o l u ti o n s , a n d re g i s t e r s s a t i s f a c t o ry r e s u l t s . t h e l a r g e s t f e a t u re o f t h e s y s t e m i s t o c o m b i n e s o u n d , l i g h t , ma c h i n e s , a n d e l e c t r ic i t y ,o r g a n i c a l l y . i t i s s i m p l e in s t r u c t u r e , c o n v e n i e n t i n o p e r a ti o n , as w e l l as e c o n o m i c a l a n d p r a c t i c a l . i n q u ie t e r 1 1 c i r c u m s t a n c e s , t h e r a t e o f r e c o g n i t i o n c o r r e c t n e s s c a n b e h i g h e r , a n d t h e s c a n n e d e n g l i s h a l p h a b e t s a r e c l e a r in f i g u r e , a n d fl u e n t i n l i n e . i t w i l l c r e a t e a w i d e r s p a c e f o r a p p l i c a t i o n o f t h e s p e e c h r e c o g n i t i o n s y s t e m t o f u r t h e r d e v e l o p a n d o p t i mi z e t h e s u b j e c t . k e y w o r d s : s p e e c h r e c o 娜 t i o n s p e a k e r a d a p t a t i o n s in g l e c h i p c o m p u t e r s t e p p i n g m o t o r l a s e r - s c a n i i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果, 除了文中特别加以标注和致谢之处外, 论文中不包含其他人己经发表 或 撰 写 过 的 研 究 成 果 , 也 不 包 含 为 获 得 达建人主,或 其 他 教 育 机 构 的 学 位 或 证 书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均己在论文中 作了明确的说明并表示了谢意。 学 位 论 文 储 签 “ : 4 年 签 字 日 ” : 分年 b 月 z z a 学位论文版权使用授权书 本 学 位 论 文 作 者 完 全了 解止 f- 生夕乞 有 关 保 留 、 使 用 学 位 论 文 的 规 定 。 特授 权 孟 目主全乞可以 将学 位 论 文的 全 部 或 部 分内 容 编 入 有关 数 据 库 进 行 检 索, 并采用影印、 缩印或扫描等复制手段保存、 汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学 位 论 文 作 者 签 名 : k i ft 签 字 日 期 : ij l 年 今 月, 日 导 ,币 签 名 : 3 -a ;fp i 签字日期:2 户 。 毕年b月 冲 日 第一章绪论 第一章绪 论 自 从工业革命以来,各种机械化设备大大提高了劳动生产率,创造了巨大 的物质财富,但是人们在面对它们时却不得不放弃最习惯、最自 然、最方便的 沟通方式自 然语言。因此,人类一直就有这样一个梦想:让机器与人之间 也能像人与人之间一样进行交流。而成就人类这种梦想的最关键技术之一就是 语音识别技术。 1 . 1语音识别技术概述 语音识别 ( s p e e c h r e c o g n i t i o n ) 是指利用计算机从人的 语音信号中自 动提 取最有意义的信息,从而确定语音信号的语言含义的过程。语音识别技术就是 让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语 音识别是以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式 识别的一个分支。它是随着计算机技术的进步而发展起来的新兴交叉学科,是 2 0 0 0年至2 0 1 0年间信息技术领域十大重要的科技发展技术之一。 语音识别的最终目的就是象人与人之间谈话交流信息一样,实现人机 自由对话。也就是赋予机器以听觉,使机器能听懂人的语言,辨明语音的内容 或说话人,将人的语音正确地转化为书面语言或有意义的符号,或者进一步使 机器能够按照人的意志进行操作,把人类从繁重或危险的劳动中解脱出来。 1 . 2语音识别技术的发展状况 自 动语音识别( a s r , a u t o m a t i c s p e e c h r e c o g n i t i o n ) 技术的 研究开始于上 个世纪5。 年代,它是随着计算机的出现而逐步发展起来的。经过半个多世纪 的发展,语音识别技术己 经取得了巨大的进展。一些语音识别技术已经开始得 到广泛的应用,具有语音识别功能的产品也不断出现,作为语音识别的标志性 技术,无限词汇量、非特定人、连续语音识别系统 ( 即听写机)在比较安静环 境下,对于比较正式的书面语言己经达到了相当高的实用程度,在限定环境下 还能达到更好的效果,这些都标志着语音识别技术距离人类的日常生活已经越 来越近了。但我们仍要进一步提高识别系统对不同环境、不同说话人和不同说 话内容的稳健性。 从二十世纪开始, 人们就不断探索语音识别技术。 六十年代, 数字计算机的 第一章绪论 第一章绪 论 自 从工业革命以来,各种机械化设备大大提高了劳动生产率,创造了巨大 的物质财富,但是人们在面对它们时却不得不放弃最习惯、最自 然、最方便的 沟通方式自 然语言。因此,人类一直就有这样一个梦想:让机器与人之间 也能像人与人之间一样进行交流。而成就人类这种梦想的最关键技术之一就是 语音识别技术。 1 . 1语音识别技术概述 语音识别 ( s p e e c h r e c o g n i t i o n ) 是指利用计算机从人的 语音信号中自 动提 取最有意义的信息,从而确定语音信号的语言含义的过程。语音识别技术就是 让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语 音识别是以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式 识别的一个分支。它是随着计算机技术的进步而发展起来的新兴交叉学科,是 2 0 0 0年至2 0 1 0年间信息技术领域十大重要的科技发展技术之一。 语音识别的最终目的就是象人与人之间谈话交流信息一样,实现人机 自由对话。也就是赋予机器以听觉,使机器能听懂人的语言,辨明语音的内容 或说话人,将人的语音正确地转化为书面语言或有意义的符号,或者进一步使 机器能够按照人的意志进行操作,把人类从繁重或危险的劳动中解脱出来。 1 . 2语音识别技术的发展状况 自 动语音识别( a s r , a u t o m a t i c s p e e c h r e c o g n i t i o n ) 技术的 研究开始于上 个世纪5。 年代,它是随着计算机的出现而逐步发展起来的。经过半个多世纪 的发展,语音识别技术己 经取得了巨大的进展。一些语音识别技术已经开始得 到广泛的应用,具有语音识别功能的产品也不断出现,作为语音识别的标志性 技术,无限词汇量、非特定人、连续语音识别系统 ( 即听写机)在比较安静环 境下,对于比较正式的书面语言己经达到了相当高的实用程度,在限定环境下 还能达到更好的效果,这些都标志着语音识别技术距离人类的日常生活已经越 来越近了。但我们仍要进一步提高识别系统对不同环境、不同说话人和不同说 话内容的稳健性。 从二十世纪开始, 人们就不断探索语音识别技术。 六十年代, 数字计算机的 第一章绪论 迅速发展使人们对语音信号的研究由对模拟信号的分析转向数字技术。在这一 时期,虽然人们对语音产生的机理有了一个较系统的了解,而且提出了临界频 带理论,但在语音识别的算法方面尚未找到适合计算机分析的模型和算法。与 此同时,自 然语言领域的一些基础性研究也在进行。六十年代多方面的基础性 研究为七十年代语音识别的迅速发展打下了基础。这一时期的重要成果是提出 了动态规划 ( d p ) 和线性预测分析技术 ( l p ) , 其中后者较好地解决了 语音信 号产生的模型问题,对语音识别的发展产生了深远的影响。 七十年代初,随着大规模集成电路的出现和硬件技术的不断创新和普 及,语音识别无论在理论上,还是在系统实现上,都有了迅速的发展。1 9 7 5 年i t a c u r a 发现基于线性预测编码( l p c , l i n e a r p r e d i c t i v e c o d i n g ) 的 谱系数 是识别器很好的特征,不但识别效果大有提高,计算复杂度也比较小。同一 时期,六十年代 v i n t s y u k所提出的动态时间规正 ( d t w, d y n a m i c t i m e w a r p i n g ) 算法也成功地应用于语音识别中。 从此, 基于l p c分析和d t w算 法的识别系统纷纷建立起来。七十年代另一个重大的里程碑,就是 c m u的 b a k e r 和 i b mr j e l i n e k 意识到可以将隐马尔可夫模型( h mm, h i d d e n ma r k o v mo d e l )应用于语音识别。七十年代出现了许多成功的孤立词识别系统,如 c m u的h e a r s a y - i i . i b m的大词汇量自 动语音听写系统、b e l l l a b s 用于通 信的与说话者无关的语音识别系统。 到了 八十年代, 语音识别技术有了 新的综合性的发展。 矢量化( v q , v e c t o r q u a n t iz a t io n ) 和隐马尔可夫模型 ( h m m, h id d e n m a r k o v m o d e l s ) 在 语音识别 中获得了广泛的应用,从而产生了象 c mu的 s p h i n x这样成功的非特定人连 续语音识别系统。 另外, 八十年代人工神经网络的研究热潮也波及到语音领域, 出现了基于人工神经网络 ( a n n, a r t i f i c a l n e u r a l n e lu o r k s ) 或者人工神经网络 和隐马尔可夫模型的混合模型的识别系统。 进入九十年代,随着信号处理、声学模型、语言模型、解码搜索算法等理 论日 益成熟,计算机软硬件系统性能不断提高,出现了一些大词汇量连续语音 识别系统, 如i b m的v i a v o i c e , m i c r o s o ft 的w h i s p e r , c m u的s p h i n x - i i 等 等。这些系统大体上采用了相似的技术,不仅有基于隐马尔可夫模型的声学 模型,而且包含了较复杂的语言模型以及先进的解码算法。有的系统还加入 了自然语言理解部分,使系统性能进一步提高。 我国语音识别研究工作起步于上个世纪五十年代,但近年来发展很快。研 究水平也从实验室逐步走向实用。目 前,我国语音识别技术的研究水平己 经基 本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际 第一章绪论 先进水平。其中具有代表性的研究单位为清华大学电子工程系与中科院自 动化 研究所模式识别国家重点实验室。 语音识别技术的发展勿庸置疑,但我们还必须清醒地看到,语音识别目前 仍然是一项很不完美的技术。同时,语音识别应用仍处于市场开拓阶段,普通 民众对语音识别技术认识程度和接受程度还很不够。这些都需要这个领域的研 究人员和产品设计人员不断努力,推出更好的语音产品和语音技术解决方案来 服务于人们的日常生活。 1 . 3语音识别研究的难点 语音识别系统经过了几十年的发展,已经取得了辉煌的成就。但是,现有 的语音识别系统还面临着许多困难, 远远达不到广泛实用化的要求, 具体来讲, 主要表现在: ( 1 )自 适应问题 语音识别系统的自 适应性差,主要体现在对环境的依赖性强,即需要保持 测试条件和训练条件的一致性。也就是在某种环境下采集到的语音训练系统只 能在这种环境下应用,否则系统性能将会严重下降;另外一个问题就是对用户 的错误输入不能正确响应,使用不方便。 ( 2 )噪声问题 目 前的语音识别系统大多只能工作在安静的环境下,一旦在噪声环境下使 用,受噪音干扰,讲话人产生情绪或心理上的变化,导致发音失真、发音速度 和音调改变,即产生l o m b a r d 效应,必须寻找新的信号处理方法。 常用的抑制 噪声的方法可以概括为四个方面:谱减法、环境规正技术、不修正语音信号而 是修正识别器模型使之适应噪声、建立噪声模型。 ( 3 ) 语音识别基元的选择问 题 即如何根据存储空间和搜索速度的要求,选择合适的识别单元,如:词、 音节、音素等。一般来讲,欲识别的词汇量越多,所用基元应越小越好。 ( 4 )端点检测问题 端点检测是从一段语音中确定语音的起点和终点。准确有效的端点检测可 以节省处理时间,并能排除无声段的噪声千扰。端点检测的困难在于无声段或 发音前后人为呼吸等产生的杂音,使得语音的端点比较模糊。另外,当端点处 是弱摩擦音或弱爆破音或终点处是鼻音时,端点检测也较困难。 语音信号的端点检测是进行语音识别的重要且关键的第一步。研究表明, 即使在安静的环境下,语音识别系统一半以上的识别错误来自 端点检测器。端 第一章绪论 先进水平。其中具有代表性的研究单位为清华大学电子工程系与中科院自 动化 研究所模式识别国家重点实验室。 语音识别技术的发展勿庸置疑,但我们还必须清醒地看到,语音识别目前 仍然是一项很不完美的技术。同时,语音识别应用仍处于市场开拓阶段,普通 民众对语音识别技术认识程度和接受程度还很不够。这些都需要这个领域的研 究人员和产品设计人员不断努力,推出更好的语音产品和语音技术解决方案来 服务于人们的日常生活。 1 . 3语音识别研究的难点 语音识别系统经过了几十年的发展,已经取得了辉煌的成就。但是,现有 的语音识别系统还面临着许多困难, 远远达不到广泛实用化的要求, 具体来讲, 主要表现在: ( 1 )自 适应问题 语音识别系统的自 适应性差,主要体现在对环境的依赖性强,即需要保持 测试条件和训练条件的一致性。也就是在某种环境下采集到的语音训练系统只 能在这种环境下应用,否则系统性能将会严重下降;另外一个问题就是对用户 的错误输入不能正确响应,使用不方便。 ( 2 )噪声问题 目 前的语音识别系统大多只能工作在安静的环境下,一旦在噪声环境下使 用,受噪音干扰,讲话人产生情绪或心理上的变化,导致发音失真、发音速度 和音调改变,即产生l o m b a r d 效应,必须寻找新的信号处理方法。 常用的抑制 噪声的方法可以概括为四个方面:谱减法、环境规正技术、不修正语音信号而 是修正识别器模型使之适应噪声、建立噪声模型。 ( 3 ) 语音识别基元的选择问 题 即如何根据存储空间和搜索速度的要求,选择合适的识别单元,如:词、 音节、音素等。一般来讲,欲识别的词汇量越多,所用基元应越小越好。 ( 4 )端点检测问题 端点检测是从一段语音中确定语音的起点和终点。准确有效的端点检测可 以节省处理时间,并能排除无声段的噪声千扰。端点检测的困难在于无声段或 发音前后人为呼吸等产生的杂音,使得语音的端点比较模糊。另外,当端点处 是弱摩擦音或弱爆破音或终点处是鼻音时,端点检测也较困难。 语音信号的端点检测是进行语音识别的重要且关键的第一步。研究表明, 即使在安静的环境下,语音识别系统一半以上的识别错误来自 端点检测器。端 第一章绪论 点检测技术的关键在于寻找稳定的语音参数。 目前,较有效的端点检测方法是语音信号的能量和过零率,实际实现时要 根据实验选择能量和过零率的阐值。 ( 5 ) 如何把语言学、 生理学、 心理学等方面的研究成果量化、 建模并用于 语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音 识别中是非常重要的。 6 ) 我们对人类的听觉理解、 知识积累和学习机制以及大脑神经系统的控 制机理等方面的认识还不很清楚;其次,把这方面的现有成果用于语音识别, 还有一个艰难的过程。 ( 7 ) 语音识别系统从实验室演示系统到商品的转化过程还有许多具体问题 需要解决,如:大词汇量连续语音识别的训练工作量和识别速度问题,拒识问 题以及关键词检测技术 ( 即从连续语音中去除诸如 “ 啊” 、 “ 唉”的语气助词, 获得真正待识别的语音部分)等等。 为了解决这些问题,研究人员提出了各种各样的方法,如语音识别自 适应 技术、稳健语音识别技术等,这些方法已取得了一定的成绩。 不过, 要使语音识别系统性能有大的提高, 就要综合应用语言学、 心理学、 生理学以及信号处理等各门学科有关知识,只用其中一种是不行的。 1 . 4语音识别系统的评价 一个语音识别系统性能的优劣,可以从不同的角度来衡量,但无论如何, 在评价语音识别系统时,至少应该考虑以下几个因素: ( 1 ) 正确识别率 识别率是一个随机变量,它与整个系统的许多因素有关,只能靠统计来近 似获得。对识别率要求的高低,要由识别系统的应用性质来决定。一般的听写 系统的正确识别率应该在9 0 % 以上, 用于一般控制功能的语音系统则应达到9 8 9 6 以上。 ( 2 ) 稳健性 稳健性是指系统抗干扰的能力。如果输入的语音信号伴有随机噪声,当信 噪比 达到一定的程度时,系统的识别能力将大大下降。现在的语音识别系统的 稳健性都不太好,对噪声的影响比较敏感。语音识别的稳健性问题仍是语音识 别研究的难点。 3 ) 识别速度 衡量识别速度快慢的指标就是系统响应的时间, 当然, 一个好的识别系统, 第一章绪论 点检测技术的关键在于寻找稳定的语音参数。 目前,较有效的端点检测方法是语音信号的能量和过零率,实际实现时要 根据实验选择能量和过零率的阐值。 ( 5 ) 如何把语言学、 生理学、 心理学等方面的研究成果量化、 建模并用于 语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音 识别中是非常重要的。 可以 用来区分声母与韵母的分界、 无声与有声的分界、连字 ( 指字之间无间隙)的分界等。 这是语音信号的一组最基本的短时参数, 在各种语音信号处理中广泛应用。 语音信号的短时能量用e n g 表示,其计算公式为: e n g = 艺 s 2 ( n ) 公式 ( 2 -4 ) 式中 s , ( n ) 为加窗后的语音样值;n 为一帧内的样点数。 语音信号的短时平均幅值用m 表示,其计算公式为: m = 艺 is . ( n ) l 公式 ( 2 -5 ) m与 e n g同样是一帧语音信号能量大小的表征,它与e n g的区别在于:使 用m 会使计算时取小取样值和大取样值不因取平方而造成较大的差异。这在某 些应用领域会带来一些好处。 第二章语音识别系统的研究与实现 利用短时平均过零率还可以从背景噪声中找出语音信号,可用于判断寂静 无声段和有声段的起点和终点位置。在孤立词的语音识别中,必须要在一连串 连续的语音信号中进行适当的分割,用以 确定一个一个单词的语音信号,即找 出每一个单词的开始和终止位置。 语音信号的短时平均过零率用z c r 表示,它表示一帧语音中语音波形穿过 横轴的次数,可以用相邻的两个取样值改变符号的次数来计算如下: 公式 ( 2 -6 ) 、翩川 艺 is g n s w ( n ) - s g n s w (n - 广!凡1 1一2 -一 d叭 c 7户 式中s g n 仁 为符号函数,即 之 2 x - i z c r 者。 若有此种帧 3 个以上则将起点定位退回到满足z c r 工 z c r 条件的最前帧,否则 即定起点为n 1 点。 三、基于h m m的端点检测方法 h mm 是语音识别技术中目 前应用最广泛的一种模型。在训练阶段,训练 语音对模型各状态的统计特性进行训练,得出模型参数。在测试阶段,待测语 音与训练模型进行匹配,选择得分最高的作为识别结果。 根据h mm的基本处理方法,尝试把h mm方法直接用于语音信号的端点 检测。因为所谓 “ 端点” ,无非就是把被测信号看作是由两部分组成:背景 ( b z c k g r o u n d或 s i l e n c e ) 和废料 ( g a r b a g e , 在语音处理中,习 惯上把 有用或 无用的发音统称为 “ 废料” ) , 而废料就是上述两部分的分界处。在训练阶段, 分别得出背景噪声和废料的模型参数。在测试阶段,用解码方法在训练模型基 础上对被测语音进行分解,求出语音的哪些帧与背景噪声匹配,哪些帧与废料 匹配,从而得出端点的所在处。 一个完整的基于h mm方法的端点检测系统如图2 - 2 所示。 1 、 为了能有效地采用ham方法进行处理, 须对每帧待测语音进行预处理。 ( 1 )预加重处理 按下式设计一个一阶高通滤波器: 第二章语音识别系统的研究与实现 待测语音 图2 - 2基于h mm方法的端点检测系统 h ( z ) = 1 - 。 z - 1公式 ( 2 -1 2 ) 其中, 预加重系数。 一般选择为0 .9 5 . 采用预加重的原因是它可以有效地压缩输入语音的动态范围,使后面的 l p c分析更稳定。同时,高通滤波器可以有效地滤除输入信号中的直流成分。 ( 2 )开窗处理 一 般采用汉明 窗( h a m m i n g ) 。 在 本实验中, 数 字 采 样率为8 k h z , 窗口 总 长 度设计成 3 0 m s ,即每个窗口有 2 4 0个采样点。窗口每次位移 l o m s ,有 2 0 m s 的重叠成分。窗口的重叠起到了平滑特征参数的作用。 ( 3 ) 倒谱计算 对每帧语音求出p 阶倒谱系数, 分析中 取p = 1 2 o ( 4 )倒谱加权处理 为了避免倒谱系数数值过小而对识别造成影响,一般均采用上升正弦函数 进行倒滤波处理。 ( 5 )倒谱系数的一阶和二阶导数处理 对每帧倒谱系数求出其一阶和二阶导数系数: c i ( m ) = c l g( m ) = i 一 k ( m ) , k c i 一 k ( m ) 公式 ( 2 -1 3 ) 公式 ( 2 -1 4 ) 其中,i 为第i 帧语音信号; m 为第m 个倒谱系数;c 为常数。 ( 6 ) 能量及其他特征处理。 对每帧语音求出其对数能量,及能量的一阶和二阶导数。这样,在本实验 中,通过预处理,对每帧待测语音共提出3 9 个特征值,构成一特征矢量。 第二章 语音识别系统的 研究与实现 2 . v i t e r b i 解码 经上述预处理后的语音送入 v it e r b i 解码器,采用 b a u m - we l c b算法,从 v i t e r b i 解码器的输出端即可得到待测信号的端点。 3 、光滑处理 由于基于h mm的端点检测方法是对待测语音逐帧进行处理, 对字间间隙 比较敏感,所以,必须用中值滤波进行平滑处理。 三、两种端点检测方法的比较 系统对同一组女生 ( 1 0 人)的语音信号 ( 在麦克风噪声环境下,信噪比小 于6 d b )分别采用基于能量的端点检测方法和基于h mm的端点检测方法进行 测试,并对照语音波形用人工检测方法进行测试。测试结果如表 2 - 1 所示。 表 2 - 1 序号 开始帧位置结束帧位置 能量方法h m 方法手工方法能量方法h mm 方法手工方法 11 7 71 8 61 8 9 2 4 52 3 72 3 8 21 8 51 9 81 9 62 3 6 2 3 02 3 1 31 5 61 5 51 6121 3 2 0 72 0 5 41 5 41 6 31 6 4 2 0 21 9 61 9 7 52 8 72 9 71 9 3 3 2 53 2 13 21 61 7 81 8 8 1 9 52 4 32 3 72 3 8 71 8 11 8 2 1 8 52 3 72 3 82 3 6 82 0 82 0 52 0 7 2 6 82 6 72 6 5 92 0 31 9 6 1 9 62 4 52 5 12 5 4 1 01 811 8 71 9 22 3 42 3 2 2 3 4 由此可见, 基于h mm 的端点检测方法检测的准确率明显高于基于能量的 方法。在信噪比逐渐降低的情况下,效果更加明显。 h mm 的训练环境与实际被测信号的语音环境会有很大差异。比如, 当训 练是在安静的环境下进行,而实际测试环境是在汽车噪声中进行时,由于背景 噪声模型与实际情况很不相符,其性能会显著下降。因此,还必须采用能自 适 应调节的背景噪声模型。 第二章语音识别系统的研究与实现 2 . 1 . 2 特征矢量的提取 语音识别的一个根本问题是合理的选用特征矢量。选择的标准应体现对于 异字音,相应特征间的距离应大,而对于同字音,彼此间距离应小。若以前者 距离与后者距离之比为优化准则用的 “ 目 标量, ,则应使此量最大。 一般将语言信号的特征向量分为两类:第一类为时域特征向量,通常将帧语 音信号的各个时域采样值直接构成一个向量。第二类为变化域特征向量,即对 一帧语音信号进行某种变换后产生的特征向量。前者的优点在于计算简单,缺 点是不能压缩维数且不适于表征幅度特性。与此对应,各种变换域特征向量的 计算比较复杂,但能从不同的角度反映幅度谱的特征。 特征提取完成从语音信号提取出对语音识别有用的信息,它对语音信号进 行分析处理, 去掉与语音识别无关的冗余信息, 获得影响语音识别的重要信息。 对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减 少说话人的个人信息 ( 对特定人语音识别来讲,则相反) 。 特征矢量的提取在语音识别中占有极其重要的地位,特征矢量提取得是否 得当直接影响着语音识别的正确率,因此必须给予足够的重视。特征矢量的提 取是对原始的语音信号运用一定的数字信号处理技术进行适当的处理,从而得 到一个矢量序列, 这个矢量序列可以 代表原始的语音信号所携带的信息,初步 实现数据压缩。提取特征矢量的原则是:要尽可能保留那些对识别率有重要意 义的特征信息,同时最大限度地摒弃那些对语音识别无用的冗余信息。 基本的特征参数主要有:能量、幅度、过零率、频谱、倒谱、功率谱,另 外考虑到其他因素的影响,还有许多基于基本参数的参数,如从听觉出发, 用 来表达语音的特征有: me l频率倒谱系数( me c c ) , 感知线性预测系数( p l p ) 等,这些参数相对于l p c或 f f t 等基本分析方法有许多优点。 线性预测 ( l p ) 分析技术是目 前应用广泛的特征参数提取技术, 许多成功 的应用系统都采用基于l p技术提取的倒谱参数。 语音信号的倒谱分析就是求取语音倒谱特征参数的过程。由 于语音每帧时 域特征中的各元实际上都同时受到该帧时段内的声道冲击响应和激励信号源二 者的影响,未予分离,而后者对某帧而言又具有随机性,所以会导致所发同一 音的一致性降低,影响识别率。为此,提出了倒谱特征。由 于语音信号是由声 道冲击响应和音源激励信号相卷积的结果,那么将信号作适当的同态处理,即 可分离其卷积的成分。从而建立起倒谱特征。 侄 谱特征有如下性质: 第二章语音识别系统的研究与实现 ( 1 ) 倒谱 c ( n ) 低时部分对应于语音信号的声道激励分量,且以1 / n的趋势 衰减,故用低时部分维数不多的倒谱矢量,即 c ( n ) ( n = 1 , 2 , 中只取前面的一 部分便足以表征语音的声道分量。 ( 2 ) 倒谱 c ( n ) 的高时部分对应于语音信号的音源激励分量。当激励源为周 期性脉冲时, 倒谱的对应分量仍为等间隔的冲击脉冲串。 由于冲击串间隔n p 较大, 故处于倒谱的高时段。 由上可见,对于声道及音源激励二分量所处的时段不同,故它们已经被分 离,彼此不相干扰,尤其是己经避免了声道分量受具有随机性变化的音源分量 的干扰。 本例采用的是 1 6 阶l p c倒谱特征矢量。具体过程如下: 对输入语音信号用帧长为2 0 毫秒、 帧移为1 0 毫秒的h a m m i n g 窗 进行分帧 处理, 然后对每帧3 2 0 点( 1 6 k h z 采样频率) 的数据采用自 相关法处理得到1 4 阶l p c 线形预测系数a , 再递推得到1 6 阶倒谱系数。 其中用到的递推公式为: 公式( 2 - 1 5 ) ( 1 - k / n ) a k - c ( n 一 +a公式( 2 - 1 6 ) al叫刃 一- (l)(n) ,1.之1、 川2()加40匆tl070 一一- 口沈.u长-弓泣的乌rl琶叭一口仙u价 遥 卜p i e q u a l + 1 卜 衬 忍 卜8 k h , n d l v id r d i m o 2 ;冈. m ) 图2 - 3信号谱、 l p c谱和倒谱图 倒谱阶数取得大些,可以保存更多的信息。但是随着阶数的增大,c 。 将变 得很小, 实际上没有什么作用, 反而使运算量增大。 一般取 8 - 3 2 阶时就可以较 好的表征声道特征。 图2 - 3 是一段短时语音信号的三种频谱: f o u r i e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 污水处理与排放标准提升方案
- 注射相关感染预防与控制考核试题及答案
- 小鱼喂养知识培训总结课件
- 实验教学培训课件
- 2025至2030中国商用门禁机行业发展研究与产业战略规划分析评估报告
- 渗沥液安全知识培训课件
- 渔业工作基础知识培训课件
- 小说结尾意蕴探究
- 物流公司仓库管理流程标准操作手册
- 机器人车门密封条检测创新创业项目商业计划书
- 4S店员工职业卫生培训
- 地下通道水泵房管理制度
- 溺水患者急救培训
- 2026版步步高大一轮高考数学复习讲义第十章 §10.1 计数原理与排列组合含答案
- 人力公司营销策划方案
- 医院医疗用房管理制度
- 股权代持协议终止协议书
- 捡土豆装车合同协议书
- 国际压力性损伤溃疡预防和治疗临床指南(2025年版)解读
- 海天对客户分级管理
- 薪资抵扣协议书模板
评论
0/150
提交评论