




已阅读5页,还剩62页未读, 继续免费阅读
(通信与信息系统专业论文)非特定人汉语连续数字语音识别系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 本文在对语音识别相关理论研究的基础上,应用v c + + 编程技术构建了实时语 音识别软件系统,并在该软件系统上对汉语非特定人连续数字语音识别进行了一 系列实验,取得了较好的效果。 本文首先介绍语音识别技术国内外发展状况,分析了汉语连续数字语音识别 中面临的困难,在此基础上阐明本课题的研究背景和意义。 其次,讨论了语音识别系统的基本原理及构成模型。详细介绍了语音信号分 析技术以及隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 等相关理论,为语音识 别软件系统的实现和语音识别实验的开展奠定了相关的理论基础。 再次,应用v c + + 软件编程技术构建了实时语音识别软件系统。在软件系统构 建过程中充分考虑了软件的适应性和易用性,通过多线程多缓冲技术实现了声卡 实时采集与回放,网络实时接收与发送等功能;友好的人机界面可以对语音信号 进行实时观察与分析,对识别结果进行直观显示等;在识别处理方面,深入研究 并借鉴了英国剑桥大学的语音识别系统h t k 的开源代码,保证了识别系统的先进 性。 最后,在本文编制的软件系统上对汉语非特定人连续数字语音进行了相关的 识别实验并对识别结果进行了分析,取得良好的效果。同时对语音识别系统进行 了全面的总结,并对今后的工作进行了展望。 关键词:连续数字语音识别端点检测隐马尔科夫模型( h m m ) v i s u a lc 抖 h t k 摘耍 a b s t r a c t a b s t r a c t a r e rt h es t u d yo fs p e e c hr e c o g n i t i o nm e o r i e s, u s i n gt h e v i s u a lc + + p r o g r 猢i n gt e c h n o l o g y ,t h i sa n i c l eb u i l d ar e a l - t i m es p e e c hr e c o g n i t i o ns o 盘w a r eo n w h i c hw em d k eas e r i e so fe x p e r i m e n t sa n dg e tg o o dr e s u l t s f i r s t l y ,t h i sa n i c l ei n t r o d u c e st h es t a t eo ft h es p e e c hr e c o g n i t i o nt e c l l l l i q u e sa n d s o m ed i 衔c u l t i c e si nt h ei m p l e m e n t a t i o no fc h i n e s ec o n t i n u o u sd i g i ts p e e c hr e c o g n i t i o n s y s t e m ,向r t h e rg i v e sr e l a t e db a c k g r o u n dm a t e r i a l sa 1 1 dt h ep u 印o s eo f t h i sr e s e a r c h s e c o n d l y t h ep r i n c i p l e sf o rt h em o d e l i n ga n dc o n s t n l c t i o no fs p e e c hr e c o g n i t i o n s y s t e ma r ee x p l a i n e d ,t h es p e e c hs i g n a la n a l y s i st e c h n i q u e sa n dt h et h e o r yo fh i d d e n m a r k o vm o d e l ( h m m ) a r ed e t a i l e d l yi n t r o d u c e d t h e s el a i dt h et h et h e o r e t i c a l f o u n d a t i o nf o ri m p l e m e n t a t i o no fs p e e c hr e c o g n i t i o ns o 胁a r ea n dc a r r y i n go u tt h e e x p e r i m e n t s t h i r d l y ,、v eb u i l dar e a l - t i m es p e e c hr e c o g n i t i o n s o f t w a r e s y s t e mw i t h t h e a p p l i c a t i o no fv c + + s o r w a r ep r o g r a m m i n gt e c h n o l o g y i nt h ep r o c e s so fb u i l d i n gt h e s o n w a r es y s t e m s ,、v ct a k ea 如ua c c o u n to ft h es o r w a r en e x i b i l i t ya n de a s eo fu s e i n r e c o g n i t i o np r o c e s s i n g ,i n d e p t l ls t u d ya i l dl e a mf 如mt h ec 锄b r i d g eu n i v e r s i t yh t k s p e e c hr e c o g n i t i o ns y s t e m ss o u r c ec o d e ,t oe n s u r e t h a tt h ea d v a n c e dn a t u r eo ft h e r e c o g n i t i o ns y s t e m f i n a n y ;、em a k eas e r i e so fe x p e r i m e n t so fc h i n e s ei n d e p e n d e n tc o n t i n u o u sd i g i t a l s p e e c hr e c o g n i t i o n0 nt h es o f b a r e t h er e l a t e dr e s u l t sw e r ea n a l y z e da i l di d e n t i f i e d ,w e a c h i e v e dg o o dr e s u l t s a tt h ee n do ft m sa r t i c l e ,t h ec o m p r e h e n s i v es u m m a r ) ,a n dt h e p r o s p e c to f 如t u r ew o r ka r ea l s og i v e n k e y w o r d : c o n t i n u o u s d i g i ts p e e c hr e c o g n i t i o n e n d p o i n t d e t e c t i o n h i d d e nm a r k o vm o d e l ( h m m )v s 岫lc + +h t k a b s t r a c t 第一章绪论 第一章绪论 1 1 语音识别的基本概念 语言作为人类最重要最自然的交流工具,是人类获得信息的重要来源之一, 让计算机能“听懂”人类的语言,也是人与计算机之间进行沟通的最方便的形式 之一。用语音来实现人与计算机之间的交互,主要包括语音识别、自然语言理解 和语音合成三项技术。语音识别技术就是让机器能够听懂人类的语音并执行相关 动作,其主要任务是完成语音到文字的转变,是集声学、语音学、语言学、计算 机、信息处理和人工智能等诸多领域的一项综合技术【。 语音识别系统根据不同的准则有不同的分类方式。根据对语者说话方式的要 求,可以分为孤立词语音识别系统、连接词语音识别系统以及连续语音识别系统; 根据对语者依赖程度不同可以分为特定人和非特定人语音识别系统;根据词汇量 的大小,可以分为小词汇量,中等词汇量和大词汇量以及无限词汇量语音识别系 统。 1 2 语音识别基本原理和方法 1 2 1 语音识别的基本原理 语音识别系统本质上是一种模式识别系统,它主要包括前端处理、声学比对、 语言解码等模块,如图1 1 所示。 语音信号 _ 挎嗍+ 一 图1 1 语音信号识别原理图 待识别语音经话筒转换成语音信号并加载到识别系统的输入端,识别系统首 先对语音信号进行预处理,包括去直流、滤波、分帧、预加重、加窗、端点检测 等处理;然后提取信号帧的特征参数;在识别之前先进行识别所需模型的训练; 识别过程就是根据提取的语音特征和训练好的识别模型比对并搜索出给定的最匹 2 非特定人汉语连续数字语音识别系统的研究与实现 配的模型结果,然后解码获取承载的语言信息。 1 2 2 语音识别的几种基本方法 一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹 配法以及基于人工神经网络的方法i z j 。 ( 1 ) 基于声道模型和语音知识的方法。该方法起步较早,在语音识别技术初 始阶段,就有了这方面的研究,该方法由于其模型及语音知识过于复杂,现阶段 没有达到实用的阶段。通常认为常用语言中有有限个不同的语音基元,而且可以 通过其语音信号的频域或时域特性来区分。该方法分为两步实现:第一步,分段 和标号。把语音信号按时间分成离散的段,每段对应一个或几个语音基元的声学 特性。然后根据相应声学特性对每个分段给出相近的语音标号。第二步,得到词 序列。根据第一步所得语音标号序列得到一个语音基元网格,从词典得到有效的 词序列,也可结合句子的文法和语义同时进行。 ( 2 ) 基于模板匹配的方法,该方法发展比较成熟,目前已达到了实用阶段。 常用的技术有三种:动态时间规整( d t w ) 技术、隐马尔可夫( h m m ) 技术、矢量 量化( v q ) 技术。在采用模板匹配的语音识别方法中,一般要经过四个步骤:特 征提取、模板训练、模板分类、判决输出。这里重点介绍隐马尔可夫法( h m m ) ,该 方法在7 0 年代引入语音识别领域,它的出现使得自然语音识别系统取得了实质性 突破。h m m 方法现己成为语音识别的主流技术,目前大多数大词汇量连续语音 非特定人语音识别系统都是基于h m m 模型的。h m m 是对语音信号的时间序列结 构建立统计模型,该统计模型被看作数学上的双重随机过程:一个是用具有有限 状态数的m a r k o v 链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与 m a r k o v 链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来, 但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程,语 音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要( 不可观 测的状态1 发出的音素的参数流。可见h m m 合理地模仿了这一过程,很好地描述 了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。 经典h m m 语音识别的一般过程是:用前向后向算法( f o 刑a r d b a c k w a r d ) 通 过递推方法计算已知模型输出o 及模型入= f ( ,a ,b ) 时的输出序列的概率p ( 0 i 入) ,然后用b a u m w e l c h 算法,基于最大似然准则( m l ) 对模型参数入( 丌,a ,b ) 进 行修正,最优参数入宰的求解可表示为入掌= a r g m a x p ( 0 l 九) 。最后用v i t e r b i 算法 解出产生输出序列的最佳状态转移序列x 。所谓最佳是以x 的最大条件后验概 率为准则,即x = a 唱m a x p ( x io ,入) ) 。 ( 3 ) 利用人工神经网络的方法。该方法是8 0 年代末期提出的一种新的语音 第一章绪论 识别方法。人工神经网络( 砧州) 本质上是一个自适应非线性动力学系统,模拟了人 类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强 的分类能力和输入输出映射能力在语音识别中都很有吸引力。但由于存在训练、 识别时间太长的缺点,目前仍处于实验探索阶段。 1 3 语音识别发展历史及现状 1 3 1 国外研究历史及现状 语音识别的研究工作可以追溯到2 0 世纪5 0 年代a t & t 贝尔实验室的a u d r y 系统,它是第一个可以识别十个英文数字的语音识别系统【4 1 。 但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在6 0 年代 末7 0 年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软 件的支持,更重要的是语音信号线性预测编码( l p c ) 技术和动态时间规整( d t w ) 技术的提出【5 】,有效的解决了语音信号的特征提取和不等长匹配问题。这一时期语 音识别主要基于模板匹配原理,研究领域局限在特定人,小词汇表的孤立词语音 识别领域,实现了基于线性预测倒谱和d t w 技术的特定人孤立词语音识别系统; 同时提出了矢量量化( v q ) 和隐马尔可夫模型( h m m ) 理论。 随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束 条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板 的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明 显的边界,各个发音单位存在受上下文强烈影响的协同发音( c o a n i c u l a t i o n ) 现 象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异, 即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的 差异;第四,识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已 不再适用。 实验室语音识别研究的巨大突破产生于2 0 世纪8 0 年代末:人们终于在实验 室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集 成在一个系统中,比较典型的是卡耐基梅隆大学( c 锄e g i em e l l o nu n i v e r s i t y ) 的 s p h i n x 系统【6 】,它是第一个高性能的非特定人、大词汇量连续语音识别系统。 这一时期,语音识别研究进一步走向深入,其显著特征是h m m 模型和人工 神经元网络( a n n ) 在语音识别中的成功应用。h m m 模型的广泛应用应归功于 a t & tb e u 实验室r a b i n e r 等科学家的努力,他们把原本艰涩的h m m 纯数学模型 工程化,从而为更多的研究者更好的了解和认识改模型,从而使统计方法成为了语 音识别技术的主流。 统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化, 4 非特定人汉语连续数字语音识别系统的研究与实现 而是更多地从整体平均( 统计) 的角度来建立最佳语音识别系统。在声学模型方 面,以m a r k o v 链为基础的语音序列建模方法h m m ( 隐式m a r k o v 链) 【7 】匕匕较有效 地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构 造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。在语言层面 上,通过统计真实大规模语料的词之间同现概率即n 元统计模型来区分识别带来 的模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言处理机制等 也在语音识别中得到了应用【8 】【9 】。 2 0 世纪9 0 年代前期,许多著名的大公司如i b m 、苹果、a t t 和n t t 都对 语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那 就是识别的准确率,而这项指标在2 0 世纪9 0 年代中后期实验室研究中得到了不 断的提高。比较有代表性的系统有:i b m 公司推出的v i av o i c e 和d r a g o ns y s t e m 公司的n a t u r a l l ys p e a k i n g ,n u 锄c e 公司的n u a n c e 、b i c ep l a t i 0 m l 语音平台, m i c r o s o 矗的w h i s p e r ,s u n 的v o i c e t o n e 等。 其中i b m 公司于1 9 9 7 年开发出汉语a v o i c e 语音识别系统,次年又开发出 可以识别上海话、广东话和四川话等地方口音的语音识别系统a v o i c e 9 8 。它 带有一个3 2 ,0 0 0 词的基本词汇表,可以扩展到6 5 ,0 0 0 词,还包括办公常用词条, 具有“纠错机制”,其平均识别率可以达到9 5 l lo 。该系统对新闻语音识别具有 较高的精度,是目前具有代表性的汉语连续语音识别系统。 1 3 2 国内研究历史及现状 我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从 实验室逐步走向实用。从1 9 8 7 年开始执行国家8 6 3 计划后,国家8 6 3 智能计算机 专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研 究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势, 并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨 工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研 机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华 大学电子工程系与中科院自动化研究所模式识别国家重点实验室。清华大学电子 工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识 别系统的识别精度,达到9 4 8 ( 不定长数字串) 和9 6 8 ( 定长数字串) 。 在有5 的拒识率情况下,系统识别率可以达到9 6 9 ( 不定长数字串) 和9 8 7 ( 定长数字串) ,这是目前国际最好的识别结果之一,其性能已经接近实用水平。 研发的5 0 0 0 词邮包校核非特定人连续语音识别系统的识别率达到9 8 7 3 ,前三 选识别率达9 9 9 6 ;并且可以识别普通话与四川话两种语言,达到实用要求。 第一章绪论 中科院自动化所及其所属模式科技( p 甜e k ) 公司2 0 0 2 年发布了他们共同推出的 面向不同计算平台和应用的“天语 中文语音系列产品p a n e k a s r ,结束了中 文语音识别产品自1 9 9 8 年以来一直由国外公司垄断的历史。 1 4 论文研究的目的和意义 1 4 1 汉语数字语音识别所面临的问题 在语音识别领域,孤立数字和连续数字语音识别的研究一直是非常重要的课 题。英语的连续数字语音识别已经取得了非常好的成果,对于非特定人的孤立数 字语音的识别和数字串的识别已经达到了9 9 7 和9 8 1 l 以上。国内对于汉语连 续数字的识别也进行了广泛的研究,然而,由于汉语自身的特点使得孤立数字和 连续数字串的识别率仍与英语有着一定的差别。造成汉语的数字语音识别率低于 英语语音识别率的主要原因有: 1 汉语连续数字发音连续程度高于英语连续数字; 2 汉语的数字发音是半音节,而英语是多音节的,由于音节越少,所能提取 的特征相似程度就越大,语音间比较容易混淆,因此识别难度就越高; 3 汉语连续数字中数字间的协同发音现缘比较多,比较难于区分协同音。 1 4 2 汉语连续数字语音识别的研究意义 首先,对汉语数字语音识别,尤其是连续数字语音识别的研究具有很强的应 用价值。在众多场合的实用化都会给人们带来极大的便利: 1 语音拨号电话。在很多场合下,如司机开车、黑夜或盲人拨打电话时,用 手指拨电话号码是很不方便或不安全的,因此最自然的方式就是采用语音拨号, 这就需要高性能低成本的数字语音识别系统。 2 家电遥控。语音控制是以后家电遥控的一个必然发展方向,而家电遥控中 不可避免地会用到数字的识别,如电视机的频道、空调设定的温度、洗衣机的定 时等,所以数字语音识别将成为语音遥控家电的重要环节。 3 工业控制。利用语音进行工业控制可以避免复杂的控制面板,而工业控制 中需要大量的对数字的识别。 4 军事国防。在军事指挥,国防技术等方面数字语音识别也具有重要的实际 应用价值。 其次,对汉语数字语音识别的研究具有重要的理论意义,这是因为汉语数字 语音具有高度的混淆性,采用普通的识别方法很难达到很好的识别性能,而语音 中的数字往往具有重要的意义,其识别错误的代价可能会高于其他语音识别的错 6 非特定人汉语连续数字语音识别系统的研究与实现 误,这就需要专门对数字语音的识别采用特殊的方法以提高其识别率。 另外,对汉语数字语音识别的研究具有重要的实践意义:一方面,完成对汉 语数字语音识别可以促进其他词表的连续语音识别的研究,其声学模型,搜索算 法等都可以照搬到其他系统中去:另一方面,研究如何消除汉语数字语音的混淆 性也可以对其他易混语音识别任务起到借鉴作用。 基于理论研究和实际应用的需要,本文开展了汉语连续数字语音识别课题的 研究,在理论学习研究的基础上,通过s u a lc + + 编程实践,实现了集声卡采集、 网络通信、信号分析、人机交互等功能于一体的实时语音识别软件系统,并在软 件系统上进行了一系列相关实验,收到良好的效果。 1 5 论文研究内容 论文本文共分五章,内容概要如下: 第一章绪论。简要介绍了语音识别的基本概念、原理和方法,结合国内外语 音识别技术研究情况,提出了本文的研究内容、目的和意义。 第二章语音信号分析。分别介绍语音信号的预处理,端点检测、语音信号特 征参数提取的相关理论和算法,其中在特征参数提取方面详细介绍了线性预测倒 谱系数( l p c c ) 和基于听觉模型的m e l 倒谱系数( m f c c ) 等。 第三章隐马尔可夫模型( h m m ) 及其在语音识别中的应用。详细介绍了隐 马尔可夫模型的定义、基本原理和结构类型等,对h 删的评价问题、解码问题和 学习问题进行了深入探讨;同时对h m m 应用于语音识别过程中需要解决的模型的 建立、训练和识别等相关问题进行了分析说明。 第四章基于v c + + 的语音识别实时软件系统的构建。全面介绍了在软件系统编 制过程中各功能模块的设计思路和编程中的技术细节和相关处理技巧。重点对软 件的声卡采集回放技术,网络通信技术和信号处理技术等进行了详细分析。 第五章语音识别实验及结果分析。基于自行构建的语音识别软件系统,进行 了多组实验,同时对实验进行了对比分析与总结。 第六章总结与展望。对论文工作进行了全面总结,同时对论文后续研究进行 了展望。 第二章语音信号分析 第二章语音信号分析 2 1 概述 语音信号分析是语音识别的前提和基础,只有分析出可以表示语音信号本质 特征的参数,才有可能利用这些参数进行高效的语音信号识别处理。况且,语音 识别率的高低,取决于对语音信号分析的准确性和精确性,因此,语音信号分析 在语音识别过程中具有举足轻重的地位。 贯穿于语音分析全过程的是“短时分析技术”。因为从整体来看,语音信号的 特性及表征本质特征的参数均是随时间变化的,它是一个非平稳随机过程,不能 用处理平稳信号的数字信号处理技术对其分析处理。但是由于不同的语音是由人 的口腔肌肉运动构成声道某种形状而产生的响应,而这种口腔肌肉运动相对于语 音频率来说是非常缓慢的,所以从另一个方面看,虽然语音信号具有时变特性, 但是在一个短时间范围内( 一般认为l o 3 0 m s 时间内【3 】) ,其基本特性保持不变, 即相对稳定,因而可以将其看做一个准稳态过程,即语音信号具有短时平稳性, 所以语音信号的分析和处理必须建立在“短时”的基础上,即进行短时分析,将 语音信号分为一段一段来分析特征参数,其中每一段称为一“帧 ;帧长一般取为 1 0 3 0 m s 。这样,对于整体的语音信号来讲,分析出的是由一帧一帧的特征参数组 成的特征参数时间序列。语音识别就是以特征参数帧序列为对象进行识别处理。 根据分析参数性质的不同,可以将语音信号分析分为时域分析、频域分析和 倒谱域分析等,根据分析方法的不同,又可将语音信号分析分为模型分析方法和 非模型分析方法两种。时域分析方法具有简单、计算量少、物理意义明确等优点, 但是由于语音信号最重要的感知特性反映在功率谱上,而相位变化只起着很小的 作用,所以相对时域分析来说,频域分析更为重要。但是无论分析怎样的参数以 及采用什么分析方法,在按帧进行语音分析,提取语音参数之前,必须对信号进 行一系列处理,包括语音信号的a d 采样量化、滤波、分帧、预加重、加窗、端 点检测等,这些都是语音信号分析的不可忽视的关键技术。 2 2 语音信号预处理 2 2 1 语音信号的预加重 由于语音信号的平均功率谱受到声门激励和口鼻辐射的影响,高频端大约在 8 0 0 h z 以上按6 d b 倍频程跌落,即6 d b o c t ( 2 倍频) 或2 0 d b d e c ( 1 0 倍频) ,所以在求 语音信号频谱时,频率越高相应的频谱成分越少,高频部分比低频部分求取困难, 8 非特定人汉语连续数字语音识别系统的研究与实现 为此需要在语音信号预处理时进行预加重处理,从而提升高频部分,使信号的频 谱变得平坦,保持在低频到高频的整个频带中能用同样的信噪比求频谱,以便于 信号的频谱分析和声道参数分析。 预加重处理方法是用具有6 d b 倍频程的提升高频特性的预加重数字滤波器来 实现,该数字滤波器的传输函数为: h ( z ) = 1 一z - 。 ( 2 1 ) 式中p 值接近l ,在论文中取0 9 7 2 2 2 语音信号的分帧与加窗 如前所述,语音信号是一种时变的非平稳信号,但是一般认为在1 0 3 0 m s 的 短时间内具有平稳性。在语音信号分析时,首先要将其进行分帧,然后再以帧为 单位进行特征提取。如图2 1 所示,为了避免相邻两帧的变化度过大,分帧采用交 叠分段的方法,一般是每次位移0 1 2 帧长后再取下一帧数据,这样可以使帧与帧 之间平滑过渡,保持其连续性。分帧是用可移动的有限长度窗口进行加权的方法 来实现的,这就是用一定的窗函数w ( n ) 来乘s ( n ) ,从而形成加窗语音信号 ( 珂) = s ( 刀) 丰w ( 刀) 窗长( 帧长) 八尸八抄飞m 八抄飞卜 帧周期 卜- | 第n 帧 l 丫 第n + 1i 侦 、 、 参 l数 l 向 广量 7 嫠 、。 语音特征向量帧序列 图2 1 语音分帧处理示意图 加窗时,需要对窗函数的形状和窗的长度加以考虑。不同的窗函数形状会影 响分帧后短时特征的特性,在选择窗函数形状时应该遵循的标准是:在时域因为 是语音波形乘以窗函数,所以要减小时间窗两端的坡度,使窗口边缘两端不引起 第二章语音信号分析 9 急剧变化而平滑过渡到零,这样可以使截取出的语音波形缓慢降为零,减小语音 帧的截断效应;在频域要有较宽的3 d b 带宽以及较小的边带最小值。在对窗长度的 选择方面,应该选择合适的窗长。如果窗长选得过长,则时间分辨率较差,分帧 不能充分的反映波形变化的细节,如果窗长过小,则频率分辨率较差,分帧不能 得到较为平滑的短时信息。 常用的窗函数有矩形窗、汉明窗和汉宁窗等,根据窗函数的频域特性,常采用 汉明窗,定义如下: m ) = 0 5 4 - o 4 6 :c o s ( 器) j = 2 3 1 端点检测的目的 2 3 语音信号端点检测 ( 2 2 ) 窗长取2 5 m s 即4 0 0 个 端点检测作为语音识别的前端处理部分,对系统识别的性能有很大的影响。 端点检测的目的是在复杂的应用环境下从信号流中分辨出语音信号和非语音信 号,并确定语音信号的开始及结束位置。目前,小词汇量孤立词语音识别系统多 采用d t w 算法,而大词汇量连续词语音识别系统则多采用h m m 算法,对于d t w 算法,要求有比较精确的端点检测进行前端处理,而h m m 算法对端点检测的要求 相对宽松一些,即便如此,端点检测算法对h m m 识别性能仍有很大的影响。例如, 在本文实验中发现,如果数字和数字之间有较长的自然停顿,虽然有静音模型, 这种较长的自然停顿也会被误认为是含有语音而引起插入错误,即使改变h m m 的 语音持续时问模型也无法消除这种错误,而使用良好的语音端点检测算法进行前 端处理后,系统可以只将检测出来的语音信号进行识别处理,同时将噪声信号丢 弃,可以大量减少信号识别模块的运算量,提高语音识别效率,同时在语音实时 识别过程中我们根据端点检测情况对语音信号进行有效切分,及时准确的对语音 单元进行识别处理并获取承载信息,满足实时识别的要求。 2 3 2 端点检测指标量选择 语音端点检测指标量有多种选择,比较常见的是利用帧能量或帧过零率来进 行判定,也有利用两者的综合结果进行判定的。在选择过程中主要遵循如下原则: 一是尽量准确,二是简便易行。本文采用帧能量与帧过零率的乘积( 称为能零值) l o 非特定人汉语连续数字语音识别系统的研究与实现 作为端点检测的指标量。有的音节,帧过零率很小但帧能量却较大;有的音节, 帧能量很小,但帧过零率却很大。但不管怎样,二者的乘积与无语音段的相比 却大得多。图2 2 和图2 3 中分别给出了数字“9 ”和数字串“9 8 1 7 5 ”的帧能量、 帧过零率和能零积的对比图,图2 2 中数字“9 ”的结尾还有一段噪音,从图中可 以看出能零积可以使波形在语音结尾处快速下降,能更准确的判断出语音的起至 位置。从图2 3 中可以看出,对无语音段的噪声信号,可能其帧能量或者帧过零率 很大,但帧能零积却很小,有效的将语音信号与噪声区分开。 图2 2 数字“9 ”的波形、能量、过零率和能零积图 “曲0 i 油呲一 | ! 皿m i i _ h m 。 j i i - i j i - 。l 。k 。叫。 j i 枷岫山h l 一- - 1 。- _ 伊_ ” _ 哪咿 n 几 能量 1 p 、 广、 肛、厂、 一 j 。、 肌 过零:誊 吐榔 。九h 门 一、 、, 1 一 j n j 、r、l 、n m l 能零j只k 、 、 图2 3 数字“9 8 1 7 5 ”的波形、能量、过零率和能零积图 第二章语音信号分析 2 3 3 端点检测原理 在语音开始前,一旦有某一帧的能零值超过门限值,就认为有效语音已经开 始。这样做的目的在于能使某些能零值较小的辅音易于进入有效语音段。当然一 个短时的噪音也有可能被当作有效语音,这种情况将由一次端点检测到的有效语 音的长度去除,当一次检测到的有效语音段小于某一时间长度认为不是语音数据。 在有效语音开始后,只有当连续的几帧语音的能零值低于门限值时,才认为有效 语音结束。这样保证了当一个字刚刚结束而另一个字尚未开始时,不会将后面的 语音截断。多余的无效语音样值由语音识别的首尾细判和识别结果分析处理去除。 门限值的大小由噪音统计部分给出。 2 3 4 噪音统计及端点检测指标量计算 噪音统计所要完成的任务是噪音方差( n e a 、,r ) 以及门限值( t s h ) 。噪音方差相 当于一个门限,在进行统计计算时,只有当样点值的绝对值超过这一门限,才进 行能量的计算和过零率的统计。门限值用来判定有效语音的开始与结束。需要说 明的是在进行噪音统计和指标量计算之前,需要先去除相关信号样点的直流分量。 首先进行噪音方差和门限值的计算。设噪声信号为s 。 f 】,f = 0 ,1 ”,其中 n 为供统计的噪声样点总数。计算过程如下:, 红e y = 寺s 。【f 】 ( 2 3 ) e 矧眦2 亩丢l s 一【f 】l ( 2 4 ) 删眦= 音峰 刁一e 删豫i + 删豫i ( 2 5 ) 1n 1n 一1 俺h 2 亩枷j s i 景删,w l s 一 捌矧j s l 舞乙,霄七 石 其中s , 力为去直流后噪声样点,e 砍诩凇为噪声样本的平均能量,m 掰职为噪声 方差,z 跗为门限,七为常量系数,根据实验确定。 其次进行帧能零积的计算,设去直流后的帧信号为s f ,f = 0 ,1 一一l ,其中n 为帧长,具体过程如下: 帧能量的计算,帧能量是指一帧语音样值的语音短时幅度和。其计算公式为: 胱= 亡l s 咧 ( 2 7 ) j n ,= o ,i s 【i l | m 捌职 帧过零率的计算,帧过零率是指一帧语音的短时过零数。其计算公式为: 1 2 非特定人汉语连续数字语音识别系统的研究与实现 胁d :土罗1 ( 2 8 )f z 歙d = 二 1 ( 2 8 ) n ,= 1 ,s i ,】l 心r s i ,】x s 【卜l 】 n l - 上s t a j t p o i n t= f a l s e ; p g o b s v 一 m e n d p o i n t= f a l s e ; m _ f z e r o = o ;过0 率 m j ? e n e r g y = 0 ;帧能量 mf e z = 0 ;能零积 n o a t a b s v a l u e = a b s ( p g o b s v - m j w i n f r a m e 1 】) ; i f ( a b s v a l u e = m j 、i e a v r ) m f e n e r g y + = a b s v a l u e ; f o r ( i = 2 ;i m f r a m e s i z e ;i + + ) a b s v a l u e = a b s ( p g o b s v - m _ w i n f r a m e 【i 】) ; i f ( a b s ( p g 0 b s v 一 m j v w i n f r a m e 【i 】) = m j n e a v r ) 第二章语音信号分析 1 3 i f ( ( ( p g o b s v - m _ v w i l l f 跏n e 【i l 】 o ) & & ( p g o b s v m - v w i n f r a m e i 】 m - v w i n f r a m e i - 1 】 m - v w i l l f r 锄e i 】 o ) ) ) i n _ f z e r o h ; ) r n - f e n e r g y + = a b s v a l u e ; m - - f z e r 0 = i n _ f z e r o p g o b s v - m _ f r a m e s i z e ; m i - f e n e r g y2m _ f e n e r g y p g o b s v - m - f r 锄e s i z e ; m f e z 2 m _ f e n e r g y 平m - f z e r o ; i f ( r n _ b s t a n e d ) 处于开始状态 i f ( m _ _ f e z 2 ) 。 p g o b s v 一 m _ b e n d p o i n t = t n l e ; m e n d e d 2t 1 1 j e ; m _ b s t a n e d = f a l s e ; ) e l s e n l - c o u n 户0 ; ) e l s e i f ( m _ f e z = 1 0 ) 能量超过门限 p g o b s v 一 m - b s t 砒p o i n t 2 t 1 1 l e ; m - b s t a r t e d = t m e ; n l b e n d e d = f - a l s e ; 1 4 非特定人汉语连续数字语音识别系统的研究与实现 l a s t 2 f e z = l a s t f e z ; l a s t f e z 2 l t l _ e z ; 2 4 特征参数的提取 特征参数的提取过程主要完成从语音信号波形数据中提取出对语音识别有用 的特征信息。在语音识别中,不能直接将原始的波形数据直接用于识别,必须通 过一定的变换,提取数据的有效参数后再进行识别处理。提取的语音特征参数需 要满足以下条件: 1 特征参数必须反映语音的本质特征,即特征参数必须是语音所包括的一般 特性,对于非特定人的语音识别,特征参数要尽可能多的反映语义信息,尽量减 少说话人的个人信息。 2 特征参数各个分量之间的耦合要尽可能的小,以起到压缩数据的作用。从 信息论角度讲,这是信息压缩的过程。 当前较为常见的特征参数包括f f t 频谱、线性预测编码频谱( l p c ) 特征参 数、由l p c 导出的倒频谱( l p c c ) 特征参数、美尔倒频谱( m f c c ) 特征参数、 对数倒频谱特征参数等。通常情况下,由于倒频谱( c e p s t r u m ) 有着能将频谱上的 高低频分开的优点,因此l p c c 和m f c c 特征参数是较好的语音特征参数,被广 泛应用在语音识别研究与实践中。从目前使用的情况来看,m f c c 特征参数由于 利用了人类的听觉原理和倒谱的解相关特性,同时具有对卷积性信道失真进行补 偿的能力】,因而具有更好的鲁棒性。本文将对这两种特征参数及其提取过程做 详细的介绍。 2 4 1 线性预测分析及l p c c 参数提取过程 线性预测( l i n e a rp r e d i c t i o n ,l p ) 分析是最有效和最广泛的语音分析技术之 一,在语音编码、语音合成、语音识别和说话人识别等语音处理领域得到了广泛 应用。线性预测分析不仅能够提供语音信号的预测波形,而且能够提供一个好的 声道模型。语音线性预测系数作为语音信号的一种特征参数,已被广泛应用于语 音处理的各个领域。线性预测分析的基本思想是:语音信号样点之间存在相关性, 可以用过去的若干个样点或它们的线性组合预测现在和将来的样点值。可以通过 使实际语音采样值和线性预测采样值之间的均方误差最小,得到一组唯一的线性 预测系数( l p c ) 。具体过程如下: 第二章语音信号分析 口,;例= 口,s 似一砂 ,= l 其中,p 为l p c 预测阶数,q 为加权系数, 值s 伽一砂来预测s 俐,预测的误差为: ( 2 1 0 ) 即l p c 系数,由过去p 个过去的样 p ( 刀) = s ( 刀) 一萝例= s ( 刀) 一口f s 伽一砂( 2 1 1 ) ,= l 在上式中可以求得唯一的口f 使得e ( n ) 的均方差最小,以上就是整个l p c 的分析过 程。由于语音信号等于激励源与线性时不变系统冲激响应的卷积,为了将激励与 声道特征两者分开研究,并分析与系统本身特性有关的冲击响应,要对语音信号 进行倒谱分析。倒谱是语音在频域内对频谱的傅立叶逆变换。线性预测倒谱参数 ( l i n e a rp r e d i c t i o nc e p s 饥吼c o e 衢c i e n t ,l p c c ) 是线性预测系数( l p c ) 在倒谱域中的 表示。该特征是基于语音信号为自回归信号的假设,利用线性预测分析得到的。 语音信号的倒谱c ( n ) 与l p c 系数之间的递推关系为: c f ,1 夕= 翻 c 例= 善仆和扯j i ;) l p 或是直接由l p c 得到 打一1r 尸c c 。= 三尸c 。+r l 一三夕p c 女尸c c 。一女 ( 2 1 3 ) 七= l 刀 l p c 阶数p 一般取1 4 ,倒谱分析阶数取得大一些,可以保存更多信息,但是随着 阶数的增加,叫圳将变得很小,实际上没有更多的作用,反而使运算量增大,一般 取8 3 2 阶时就可以较好的表征声道特征,实验发现,取1 6 阶时能较好的表征语 音特征【1 2 】。 l p c c 参数的优点是计算量小,易于实现,对元音有较好的描述能力。l p c c 的缺点在于对辅音的描述能力较差,抗噪声能力较差。同时l p c c 继承了l p c 的 缺点,其中主要的一项就是l p c 在所有的频率上都是线性逼近语音的,而这与人 的听觉特性不一致;而且l p c 包含了语音高频部分的大部分噪声细节,同时对采 样率的变化有敏感的反应,这些都会影响到系统的性能。 2 4 2m f c c 参数 美尔频率倒谱系数( m e lf r e q u e n c yc e p s t m mc o e 所c i e n t ,m f c c ) 考虑了人耳的 1 6 非特定人汉语连续数字语音识别系统的研究与实现 听觉特性,将频谱转化为基于m e l 频标的非线性对数化频谱,然后转换到倒谱域 上。由于在没有任何前提假设的条件下充分考虑了人的听觉特性,m f c c 参数具 有良好的识别性能和抗噪能力,但其计算量和计算精度要求高。m f c c 不同于 l p c c 。实验证明,在汉语数字语音识别中m f c c 参数的性能明显优于l p c c 参数。 m f c c 是采用滤波器组的方法计算出来的,这组滤波器在频率的美尔坐标上是等 带宽的。人类在对约1 0 0 0 h z 以上声音频率范围的感知不遵循线性关系,而是遵循 在对数频率坐标上的近似线性关系,如图2 4 所示。 蜊 斛 骚 a ) 乏 线性频率尺度 图2 4m e l 频率与线性频率的关系图 美尔频率刻度与线性频率刻度问的转化关系为: ,= 2 5 9 5 l g ( 1 + 丘7 0 0 ) ( 2 1 4 ) 基于m e l 频率弯折的m f c c 在语音识别领域中得到了成功应用。m f c c 参数的提 取的步骤如下: 1 以一定帧长和帧移把语音切分成相互重叠的帧序列,本文实验
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新解读《GB-T 31155-2014太阳能资源等级 总辐射》
- 食堂厨师服务合同范本
- 租赁私人车辆合同范本
- 土方挖运输合同范本
- 房屋购销合同范本
- 租房合同范本怎么制作
- 工地包工合同范本
- 帐篷营地营运合同范本
- 喷粉合同范本
- 店铺共享出租合同范本
- 输煤系统维护方案
- 2023年高速公路收费员招聘考试试题
- 无配重悬挑装置吊篮施工方案
- 腹横肌平面阻滞课件
- 《建筑环境与能源应用工程毕业实习》课程教学大纲
- 《空乘服务语言艺术与播音技巧》第一单元
- 甘肃省普惠性民办幼儿园认定和管理办法
- 筷子兄弟小苹果电声乐队总谱
- 妊娠合并心脏病及课件
- 私募股权投资基金激励制度(包含募资奖励、投成奖励、退出奖励等)
- 双溪课程评量表
评论
0/150
提交评论