(模式识别与智能系统专业论文)基于动态词表的孤立词语音识别系统.pdf_第1页
(模式识别与智能系统专业论文)基于动态词表的孤立词语音识别系统.pdf_第2页
(模式识别与智能系统专业论文)基于动态词表的孤立词语音识别系统.pdf_第3页
(模式识别与智能系统专业论文)基于动态词表的孤立词语音识别系统.pdf_第4页
(模式识别与智能系统专业论文)基于动态词表的孤立词语音识别系统.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(模式识别与智能系统专业论文)基于动态词表的孤立词语音识别系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于动态词表的孤立词语音识别系统 摘要 语音是人类交流的基本手段,也是人机交互最自然的方式,是通 信的必要手段。目前,语音技术是世界上最热门和最具有发展前景的 技术之一。从某种意义上说,语音识别是将计算机变成真正的“智能 化”设备的最佳途径之一。 本文的主要研究内容是电话转接系统中的语音识别引擎。语音识 别技术是电话转接系统能否实现智能化服务的关键。目前,孤立词识 别技术已趋于成熟,并出现了大量的应用。但是特定内容的孤立词语 音识别系统豹可扩展性差,它的识别任务是固定的,即在开发系统时 训练出词模型,而应用时不能修改或生成新模型。在很多情况下,即 使是针对每个用户的需求设计和制定了特定的词表,使用中还是会存 在需要改变词表的情况。本文就是针对这样的问题提出了一套解决方 案。 这个解决方案是使声学模型的生成过程和词表分离开。用h t k 和 大量连续语音训练出较稳定的基本声学单元模型,而不是实际词表里 的词模型。一个词由若干个基本声学单元构成,而词模型是通过这些 基本声学单元的模型动态拼接生成的。这样的设计方案使系统能够很 好的适应需要修改词表内容的情况。用户可以通过简单操作从界面编 辑词典,就可以方便地修改待识别任务。 本文将提出“基于动态词表的孤立词语音识别系统”的设计方案。 包括基本声学单元的选择、词典标注和词模型生成等关键处理过程, 以及语音信号处理和模式判决等语音识别的基本处理过程。 本文还将对“基于语音识别技术的电话自动转接系统”的整体结 构、各模块间的工作过程及“p d a 命令词语音识别系统”的设计进 行论述。 关键词语音识别h m m 动态词表孤立词识别电话转接系统嵌 入式系统 i i i s l a t e d w o r d ss p e e c hr e c o g n i t i o ns y s t e m b a s e do nd y n a m l cw o r d st a b l e a b s t r a c t s p e e c h i st h eb a s i cc o m m u n i c a t i o nt o o lb e t w e e nh u m a n b e i n g s ,a n d a l s ot h ei d e a lc o m m u n i c a t i o nm e t h o db e t w e e nh u m a n sa n dc o m p u t e r s n o w , s p e e c hr e c o g n i t i o nt e c h n o l o g y i so n eo ft h em o s t p o p u l a r t e c h n o l o g i e s i ns o m es e n s e ,s p e e c hr e c o g n i t i o ni so n eo f t h e b e s tw a y st o m a k e c o m p u t e r sr e a l l y i n t e l l i g e n t ” s p e e c hr e c o g n i t i o ne n g i n e f o rt h ea u t o m a t i ct e l e p h o n eo p e r a t i n g s y s t e mw i l lb ed e e p l yd i s c u s s e di nt h i sd i s c o u r s e s p e e c hr e c o g n i t i o ni s t h e k e yt e c h n o l o g y t om a k ea u t o m a t i c t e l e p h o n eo p e r a t i n gs y s t e m i n t e l l i g e n t b yn o w , i s o l a t e d w o r d ss p e e c hr e c o g n i t i o nh a sa l r e a d yb e e n a m a t u r et e c h n o l o g yw i t hm a n y i m p l e m e n t a t i o n s ,b u tt h ec o n t e n t - s p e c i f i c s p e e c hr e c o g n i t i o ns y s t e mh a st h ed i s a d v a n t a g eo fp o o re x p a n s i b i l i t y r s w o r d sm o d e l sa r et r a i n e di nt h es y s t e md e v e l o p i n gp e r i o da n dc a n tb e c h a n g e dl a t e r i t sn e c e s s a r yf o rt h es p e e c hr e c o g n i t i o ns y s t e mt oh a v e w a y s t oc o n v e n i e n t l yc h a n g et h ew o r d st a b l ed u r i n gi m p l e m e n t a t i o n s i n t h ed i s c o u r s eas o l u t i o ni sb r o u g h tf o r w a r da n dd i s c u s s e di nd e t a i l t h ef e a t u r eo ft h i ss o l u t i o ni st o s e p a r a t et h ep r o c e s s o fc r e a t i n g a c o u s t i cm o d e lf r o mw o r dt a b l e ,i n s t e a do ft r a i n i n gt h ef a c t u a lw o r d m o d e li nw o r dt a b l ew eu s et h et o o lo fh t ka n da b u n d a n ts p e e c hv o i c e d a t at ot r a i nt h eb a s i ca c o u s t i cu n i tm o d e l e v e r yw o r dc o n s i s t so fs e v e r a l b a s i ca c o u s t i cu n i t s ,o u rs o l u t i o ni st ou s et h e s eb a s i cu n i t st oc o m p o s eo f i i i w o r dm o d e l t h i ss o l u t i o nc o u l d e a s i l ya d a p t t ot h ec o n d i t i o no f c h a n g i n g t h ec o m e n to ft h ew o r dt a b l e w i t he d i t i n gt h ew o r dl i s tf r o mg u it h e u s e rc o u l d e a s i l ym o d i f y t h et a s kt h a tt ob er e c o g n i z e d t h i s p a p e r w o u l d p r e s e n t t h es o l u t i o nf o rt h e s y s t e m o f i s o l a t e d - w o r d ss p e e c hr e c o g n i t i o nb a s e do nd y n a m i cw o r d st a b l e t h e s o l u t i o nw o u l di n c l u d et h ec h o s e no fb a s i ca c o u s t i cu n i t 、l a b e l i n gt h e w o r dl i s t 、t h ec o m p o s i t i o no fw o r dm o d e l 、t h es i g n a lp r o c e s s i n go f s p e e c h u n i ta n dt h e p r o c e s s i n go f p a t t e r nr e c o g n i t i o n t h e p a p e r w o u l d i n t e r p r e tt h ew h o l e s t r u c t u r e 、t h ew o r k i n g p r o c e s s b e t w e e nt h ee a c hm o d u l eo ft h e s p e e c hr e c o g n i t i o ns y s t e m f o rt h e a u t o m a t i ct e l e p h o n eo p e r a t o r t h el a s tp a r ti st h ec l e a rd e s c r i p t i o no ft h e d e s i g n f o rt h ei s o l a t e dw o r d s p e e c hr e c o g n i t i o nw o r k i n g i np d a , k e yw o r d s :s p e e c hr e c o g n i t i o n ,h m m ,d y n a m i cw o r d s t a b l e , a u t o m a t i c t e l e p h o n eo p e r a t i n gs y s t e m ,e m b e d d e ds y s t e m i v 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均己在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:壹去i 妻日期: 立! ! :笙j 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释;本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:壁塞垒日期: 盘! ! :笙= j 导师签名:盈q 象 日期: ! 上! 生:z 基于动态词表的孤立词语音识别系统 1 1 引言 第一章绪论 随着信息技术飞跃发展,人们越来越多地感受到信息、网络技术所带来的便 利,而各种高新基础技术的发展也带动了服务质量的提高。为人们提供更方便、 更优质、更人性化的服务,成了科学技术发展的最根本的动力。社会需求不断地 激励着探索者,给他们带来了止不尽的灵感。 本文以有效性、便利性和人性化使用为目标,提供一种非特定内容、非特定 人的孤立词识别系统的解决方案,即基于动态词表的孤立词语音识别系统。 在语音识别系统中,通常计算量最大、数据准备最多的是训练,例如每增加 一个新的类,就要采集足够多的样本来训练这个类。所以训练一般是在系统开发 时完成。这就要求系统交到用户之前,开发者要对用户的需求考虑非常周到,才 能延长系统的有效寿命。但是对特定内容的孤立词识别系统来说,事先训练好所 有可能用到的词模型是不太现实。所以必须要寻求更可行的方案来解决这样的问 题。 本研究以开发“基于语音识别技术的电话转接系统”和“p d a 命令词语音 识别系统”为目标,对基于动态词表的孤立词语音识别模块进行研究和开发,使 其具有训练步骤简化、增加识别内容方便等特点,改变逐个内容训练的传统方式, 使应用更方便、更人性化。 1 2 语音识别研究历史和现状 语音识别的历史可以追溯到2 0 世纪5 0 年代。1 9 5 2 年a t & tb e l l 实验室的 k h d a v i s 等人利用带通滤波器进行语音频谱的分析和匹配,并成功用于对1 0 个英文数字的识别,识别率达到9 8 。1 9 6 0 年p d e n e s 等研制成功第一个计算 机语音识别系统,同年gf a n t 提出了语音产生的声源滤波器模型,对语音 识别工作起到了巨大的推动作用。 基于动态词表的孤立词语音识别系统 2 0 世纪6 0 年代末、7 0 年代初线性预测( l i n e a rp r e d i c t i o n ,l p ) 技术和动态 时间归整算法( d y n a m i c t i m ew a r p i n g ,d t w ) 被成功引入到语音信号处理中, 有效地解决了语音的特征提取和不定长匹配的动态时间对准问题。此时期的研究 以孤立字语音识别为主。 2 0 世纪8 0 年代语音识别研究进一步走向深入,其研究重点是连接词语音识 别,用于连接词识别的分层构筑技术( 1 e v e lb u i l d i n g ) 得到发展。另一个重要的 发展是语音识别算法从模式匹配技术发展到基于统计模型的技术。其间,美国 c m u 大学的j k b a k e r 等人将隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 应用到语音识别领域,在语音识别中获得极大的成功,成为语音识别的主要方法。 h m v l 模型的研究使大词汇量连续语音识别系统的开发成为可能。1 9 8 8 年, 美国c m u 大学用v q ( v e c t o rq u a n f i z m i o n ) h m m 方法实现了9 9 7 个词的非特 定人连续语音识别系统,其后,连续语音识别技术获得长足的发展。 近年来,人工神经网络( a r t i t i c i a ln e u r a ln e t w o r k ,a n n ) 以及支持向量机 ( s u p p o r t v e c t o rm a c h i n e ,s v m ) 由于其较强的自适应性和自学习能力而获得了 普遍的重视,并在语音识别中获得了成功的应用。 随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多发 达国家如美国、日本、韩国以及m m 、a p p l e 、a t t 、n t t 等著名公司都为语 音识别系统的实用化开发研究投以巨资。 汉语语音识别起步虽晚,但发展很快。目前,国内从事语音识别研究的单位 超过了几十个:如清华大学、中科院自动化所、声学所、哈尔滨工业大学、北京 邮电大学等。它们结合汉语语音学和语言学的特点,在基础理论、模型和实用系 统等方面作了大量的工作,并取得了较好的成果。台湾在汉语语音识别方面的研 究也具有较高水平,其中以l i n s h a h l e e 教授主持的研究小组最为出色,它们研 制成功了一个实时汉语语音昕写机- - g o l d e n m a n d a r i n 。在我国的“八五”计划和 “8 6 3 ”计划中,汉语语音识别的研究得到了大力支持,强有力地推动了汉语语 音识别研究的发展。特别值得一提的是i b m 公司开发的v i a v o i c e 汉语语音识别 软件,它代表了汉语语音识别较高水平。系统具有如下优点:1 、非特定人、大 词汇量、连续语音识别系统,每分钟可以输入1 5 0 字以上。2 、高识别率,最高 识别率达9 5 ,平均识别率达8 5 。3 、强大的词组学习功能,系统自定词组3 2 0 0 0 个,根据用户需要可添加2 8 0 0 0 个词组或短语。4 、强大的用户口音学习功能, 只需让用户训练5 0 句话,就能完全适应带口音的用户。5 、自适应功能,只要把 基于动态诃袁的孤立词语音识剐系统 识别错误修改过来,便可以自动学习,不断适应用户的口音和词语。 1 3 语音识别技术的应用领域及前景 语音识别技术的应用从大的方面来分可分为三个方面;桌面应用、网络电话 系统应用和w e b 应用。桌面应用是指集成于桌面的应用软件,例如市场上现已 出现的一些用于p c 机的语音输入、语音识别的软件。网络电话系统应用是指把 语音技术与远程信息查询、处理、生成等相结合的软件。w e b 应用是把语音技术 与w e b 应用结合起来的软件,例如可运用语音技术开发语音浏览器、网上交谈 室等。语音识别技术与各个领域结合为开发商提供了自由发展广阔的天地,高速 增长的市场又为开发商带来了无数商机和优势。在这里,仅列举一些典型的应用 领域以供参考。 语音听写机:可以用口述代替键盘,实现文字输入并且打印输出,这是人们 长久以来的一个迫切愿望。这对于办公自动化将带来革命性的变化( 用机器秘 书代替人类秘书) 。由于汉语计算机输入的特殊性,汉语语音听写机的重要性 尤其突出。一方面,它使人机接口更加友好和自然;但更重要的是,它可以 促进计算机应用在中国的普及。 在通信工程中的应用:世界各大通信公司如美国a t & t 公司,日本n n 、公 司都一直长期致力于语音识别的研究,因为它在通信的各个领域都有着广泛 的应用。例如手机语音拨号、股市查询、信用卡认证等问题。在通信方面, 一项更加雄心勃的计划是实现两种语言之间的直接交流,即通过“语音识别 机器翻译一语音合成”技术将种语言直接转换成为另外一种语言。目前 有一些欧美及日本的研究组织正在开发这个领域的产品。 数据库检索:政府部门、银行、金融机构、军事指挥所和工业管理部门无不 需要对庞大的数据库进行频繁的检索和查询,其中很多是通过电话来进行 的。通过自然语言直接检索数据库可以免除大量揉作人员的重复劳动,既经 济又快速。 语音命令控制:在很多场合下,由于手脚己被占用进行其它动作或照明不足 无法进行操作时,必须用语音发出指令,例如驾驶员在高速行驶的汽车中拨 打电话。另一方面,随着第三代移动通信技术的发展,个人智能终端体积越 来越小,通过按键进行控制越来越不方便,语音命令控制是十分理想、便利 的人机接口方式。 基于动态词表的孤立词语音识别系统 此外语音识别显然还会给失明者带来很大的方便。近几十年来语音识别的研 究开发工作逐渐开展,并取得初步成果。尤其最近一二十年,各国都进行了大量 研究,并且美国、日本、欧洲居领先地位。国内研究相对起步较晚,但是也取得 不少成果。 语音技术是目前世界上最热门和最具有发展前景的技术之一。从某种意义上 说,语音识别是将计算机变成真正的“智能化”设备的最佳途径。最近几年来, 语音识别技术得到了突飞猛进的发展,在某些领域已经进入了实用化的阶段,特 别在c t i 领域、在呼叫中心中得到了应用。语音识别技术要迎来更广阔的应用 和长远的发展。就必须要很好的解决下面的关键问题。 语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采 集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另 外一个问题是对用户的错误输入不能正确响应,使用不方便。 高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高, 语速变慢,音调及共振峰变化等等,这就是所谓l o m b a r d 效应,必须寻找新 的信号分析处理方法。 语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、 建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词 汇量连续语音识别中是非常重要的。 我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理 等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有 一个艰难的过程。 语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需 要解决,识别速度、拒识问题以及关键词( 旬) 检测技术( 即从连续语音中 去除诸如“啊”、“唉”等语音,获得真正待识别的语音部分) 等等技术细节要 解决。为了解决这些问题,研究人员提出了各种各样的方法,如自适应训练, 基于最大互信息准则( m m i ) 和最小区别信息准则( m d i ) 的区另j j i ) l i 练和“矫 正”训练:应用人耳对语音信号的处理特点,分析提取特征参数,应用人工 神经元网络所有这些努力都取得了一定成绩。 不过,如果要使语音识别系统性能有大的提高,就要综合应用语言学、心理 学、生理学以及信号处理等各门学科有关知识,只用其中一种是不行的。 4 基于动态词表的孤立词语音识别系统 1 4 课题的主要内容和研究成果 首先,制定了基于动态词表的孤立词语音识别系统的设计方案,并基本实现 了系统功能。 系统包括对大量连续语音的训练、词典编辑、自动标注和多音字处理、词模 型的动态生成,以及语音信号处理和模式判决等模块。语音信号处理又包括端点 检测和特征提取等主要处理过程,模式判决是采用了逐条比较最大输出概率的方 法。本文中,基本声学单元分别采用了上下文无关的声韵母和上下文无关的音节, 而且用不同训练集和测试集做了系统性能评估,并分析结果。 第二,实现了基于语音识别技术的电话转接系统。 用户交换机结合d i a l o g i c 语音卡和语音识别程序完成电话语音自动转接功 能。即d i a l o g i c 语音卡采集的语音数据送到计算机,由语音识别程序完成语音检 测和识别任务。语音识别程序再向语音卡返回识别结果,而语音卡把识别结果转 换为用户交换机可以识别的电路信号,发送给用户交换机,最后由用户交换机来 完成电话转接。 第三,实现了p d a 上的命令词识别系统。 根据2 0 0 4 年度的8 6 3 评测之一的f 嵌入式设备命令词语音识别j 的大纲要 求,搭建了语音识别系统,并做性能评估和分析。使用的是联想天玑2 1 0p d a , 操作系统为w i n d o w sc e3 0 ,硬件配置为4 0 0 m h zc p u 和6 4 m 内存。词典容量 为6 0 0 个词汇,每个词有2 5 个汉字,包括人名、地名和p d a 操作命令等。命 令词中的汉字不超出g b 一2 3 1 2 二级字库的范围,命令词集合中不包含完全同 音的命令词。词典是测试的时候给出。系统的开发环境是w i nc e 平台下的 e m b e d d e dv is u a lc + + 3 0 。 1 5 论文结构和内容 第一章为绪论。首先引出课题背景,回顾语音识别技术的发展历史和现状, 介绍语音识别技术的应用领域和前景,最后概述了本课题的主要内容和研究成 果。 第二章为语音识别理论基础。介绍了语音识别的基本原理、语音信号特性和 特征提取等。 基于动态词表的孤立词语音识别系统 第三章为隐马尔可夫模型( h m m ) 及其在语音识别中的应用。包括h 咖的基 本概念与原理、h m m 模型的三个基本问题及关键算法,以及h m m 在语音识别系 统中的应用等。 第四章论述基于动态词表的孤立词语音识别引擎设计。首先提出系统功能要 求,然后论述系统的设计方案及其实现。在此基础上,描述电话语音转接系统的 系统框架和工作原理,以及构建p d a 命令词语音识别系统时要考虑的若干问题。 第五章对桌面语音识别系统、嵌入式语音识别系统和电话转接系统的性能进 行测试。首先描述实验条件,然后介绍各种实验结果,并对测试结果进行深入分 析。 第六章为总结与展望。 6 基于动态词表的孤立词语音识别系统 第二章语音识别理论基础 语音识别是指利用计算机自动识别语音的技术,是语音信号处理学科的一个 分支。语音识别所涉及的学科领域相当广泛,如:信号处理、物理学( 声学) 、 模式识别、通信及信息理论、语言语音学、生理学、计算机科学( 研究软硬件算 法以便有效地实现用于识别系统中的各种方法) 、心理学等。 本章将先简单介绍语音识别系统的通用结构、语音信号的特性和处理方法, 在最后部分详细说明语音信号的特征( m f c c ) 提取过程。这章是本课题的语音信 号处理理论基础部分。 2 1 语音识别基本原理 2 1 ,1 语音识别系统模型 研究语音识别主要有三种方法:声学语音学方法、人工智能方法、模式识别 方法。经过大量研究和实践,基于模式识别的方法占据了主流,其性能也最好 2 】。 就像大多数模式识别系统一样,基于模式识别的语音识别系统有两个步骤语 音模式的训练和通过模式匹配来识别。“训练”阶段的任务是建立识别基本单元 的声学模型以及进行文法分析的语言模型等。“识别”阶段选择能够满足要求的 一种识别方法,采用语音分析方法提取出这种识别方法所要求的语音特征参数, 按照一定的准则和测度与系统模型进行比较,通过判决逻辑得出识别结果。 基于模式识别的方法有一个很大的优点:语音所携带的“信息”通过训练阶 段而储存在系统之中了,它几乎是“盲”的。因为我们不需要语音学家来标定哪 一段语音是什么,起始边界在哪罩,发音特征是什么样的。而完全是由系统通过 大量的实际语音数据训练而“学习”获得的。 本课题中的语音识别都是基于模式识别的方法,后面不再强调这一点。语音 识别系统的通用结构见图2 1 【3 。它主要包括预处理、特征提取、建立参考模式 库、相似性度量和后处理等模块。 7 基于动态词表的孤立词语音识别系统 图2 - 1语音识别基本原理结构图 ( 1 ) 预处理 对输入的原始语音信号进行处理,滤除跟识别无关的信息,包括背景噪声和 前后静音段,即通过对语音信号的端点检测判断语音有效范围的开始和结束位 置,并进行语音分帧以及预加重等处理。 ( 2 ) 特征提取 提取反映信号特征的关键特征参数。语音识别系统常用的特征参数有幅度、 能量、过零率、线性预测系数( l p c ) 、线性预测倒谱系数( l p c c ) 、线谱对参 数( l s p ) 、短时频谱、共振峰频率、m e l 频率倒谱系数( m f c c ) 等。特征的选 择和提取是系统构建的关键。 ( 3 ) 建立参考模式库 在训练阶段,用训练集中的语音建立参考模式库( 可能为参考模板或者模型 等) ,或者对已在模式库中的参考模式做适应性修正。 ( 4 ) 相似性度量 在识别阶段,将输入语音的特征矢量参数( 序列) 和参考模式库中的模式进 行相似性度量比较,将相似度最高的模式所属的类别作为识别的候选结果输出 ( 可以是多个最优结果) 。 ( 5 ) 后处理 对多个候选结果做处理,通过更多的知识( 例如语言模型、词法、句法和语 义信息等) 的约束,得到最终的识别结果。此模块为可选项。 2 1 2 语音识别系统分类 根据不同的标准,语音识别系统有多种分类方式。 根据说话人说话方式的不同,可以分为孤立词语音识别系统,连接词语音识 别系统和连续语音识别系统; 根据对浼话人的依赖程度可以分为特定人和非特定人语音 : 别系统; 根据词汇量大小,可以分为小词汇量,中等词汇量和大词汇量语音识别系统。 基于动态词表的孤立词语音识别系统 2 2 语音信号特性分析 语音识别根本上是要模拟人的听觉的过程,所以了解语音信号和人的听觉特 性都是非常重要和必不可少的。不管是对人的发声原理还是听觉过程,人类虽然 己经有了对其特性的一定的了解。但目前掌握的知识还远远不够,只是能做到工 程上粗糙的逼进它而已。 2 2 1 语音信号特性 语音信号的频谱分量主要集中在3 0 0 3 4 0 0 h z 范围内,根据采样定律按8 k h z 采样率对语音信号进行采样,就可以得到离散肘域的语音信号。但是为了实现更 高质量的语音识别系统,有时也常把语音频率的高端扩展到7 - 9 k h z ,相应的采 样率也提高至41 5 2 0 k h z 。 语音信号的特征是随时间而变化的,只有在一短段时间间隔中t 语音信号爿 保持相对稳定一致的特性,这短段时蒯一般可取为5 5 0 m s 。因此语音信号的分 析和处理必须建立在“短时”的基础上。短时特性和短时参数包括短时能量、 短时过零率、短时相关函数、短时频谱等。 语音信号的最基本组成单位是音素( p h o n e ) ,音素可分成“无声”,“浊音” 和“清音”。在短时分析的基础上可判断一短段语音属于哪一类。如果是浊音段, 还可测定它的另一些重要参数,如基音和共振峰等。 语音波形跟发音器官( 喉、声道和嘴) 的形状、移动形式以及气流的通过程 度有关,并且当前声音受前后声音的影响。人的声道是时变、非线性且由多个激 励源组合而形成的复杂滤波器。工程上为了模拟它的功能做了一些近似的处理: 可认为人的发声器官对单个输入是线性时不变滤波器。 激励源按声音类别分为周期性脉冲或噪声。 滤波器和激励源的特性在1 0 m s ( 周期) 内是不变的。 下面是简化的模型: 捧十z 力态例衰的孤矗涮语音识别系统 2 2 2 听觉特性 f i l t e r p a r a m e t e r s 图2 2语音信号产生的时域模酗 正常人可听声音的范围为0 2 1 6 1 6 k h z ,年轻人可听到2 0 k h z 的声音,而老 年人可听到的高频声音要减少到1 0 k h z 左右。正常人可听声音的强度范围为 0 1 2 0 d bs p l ( 声压级) 。 人耳有掩蔽效应。当两个响度不等的声音作用于人耳时,则响度较高的频率 成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现 象称为掩蔽效应 1 】。分别考虑两种情况:纯音对纯音的掩蔽通常低音容 易掩蔽高音。噪声对纯音的掩蔽。一个纯音可以被以它为中心频率、并且具 有一定频率带宽的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功 率,这是该纯音处于刚能被听到的临界状念,即称这一带宽为i 临界带宽。 人的言语听觉是一个复杂的感知过程,它包含自下而上( 数据驱动) 和从上 而下( 知识驱动) 两方面的综合处理 1 。语言不能仅通过对语音信号的分析进 行理解,语言知识和环境知识对语言的感知起着重要的作用。在这里只阐述对语 言清晰度有影响的一些因素。 ( 1 ) 语音强度对清晰度的影响 语音的清晰度随语音强度变大而提高,而且跟语音性质( 例如辅音和元音) 有关。 ( 2 ) 对语音的掩蔽作用 对于纯音掩蔽而言,低频纯音对语音的掩蔽要大于高频纯音。如果用白噪声 来掩蔽语音信号,则对语音的觉察阂值以及清晰度阈值均随噪声强度的增大而提 高。 0 基于动态词表的孤直词语音识别系统 ( 3 ) 频率选择性 实验表明,虽然语音信号的大部分功率包含在低频分量之中,但是它们对清 晰度的贡献并不是很大。如果用高通滤波器滤出1 0 0 0 h z 以下的部分,则语音信 号的功率可能损失了约8 0 ,但清晰度却仅下降了1 0 。此外,滤去语音中的 高频成分,对辅音的清晰度影响大;滤去语音中的低频成分,对元音的清晰度影 响大。 ( 4 ) 削波 对语音信号进行两种振幅削减的处理,一种称为峰值削波,一种称为中心削 波。中心削波对语音清晰度的影响甚大,峰值削波对语音清晰度影响不大,也就 是说语音信号中的大部分信息保存在其低幅值部分,即辅音对清晰度影响大。 人的耳朵就像对数滤波器组。人耳对不同频率的语音具有不同的感知能力, 实验发现在1 0 0 0 h z 以下,感知能力与频率成线性关系,而在1 0 0 0 h z 以上,感知 能力则与频率成对数关系。m e l 频率就是模拟人耳对不同频率语音的感知特性 的。 2 3 语音声学特征提取 声学特征的提取与选择是语音识别的一个重要环节。语音信号中含有丰富的 信息,能否提取其有效信息,而去除对语音识别无关紧要的冗余信息,不管是剥 语音识别效果,还是对计算量和建模的复杂度都非常重要。 声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程, 目的是使模式划分器能更好地划分。从信号提取的特征( 有效语音参数集) 参数 集既要简洁紧凑,又要保留与识别有关的所有的信息,例如在非特定人的语音识 别系统中,要保留与词的共性有关的信息,同时要去除特定人的信息( 例如英语 中的基音频率和音量的强度等信息) 。从语音信号帧提取特征时一般从以下三个 方面建模: 基于语音信号产生原理 基于语音感知原理 基于声道的特性 所有的这些处理都是非线性的,其中基于语音产生和语音感知的模型只是对 局部特性的逼近。但建模有助于理解和模拟源滤波器模型、非线性频率弯曲和线 性信道滤波等相关的过程。 基于动态词表的孤立词语音识别系统 由于语音信号的时变特性,特征提取必须在一小段语音信号上进行。这一小 段被认为是平稳的分析区间,称之为帧。帧与帧之间的偏移通常取帧长的1 3 到 1 2 。通过对信号的预加重提升高频,通过对信号的加窗处理消除短时语音段边 缘的影响。 2 4 1 时域特征分析 语音信号的时域特征参数主要有短时平均能量、短时平均幅度和短时平均过 零率等。这些参数不仅可以被当作特征参数使用,而且可以使用它们进行有效的 端点检钡1 j 4 】。 1 ,第厅帧语音信号的短时平均能量: e = 专塾( f ) 2 沼t , 其中是帧长,即一帧中采样点的个数。在比较安静的环境下静音段能量 要比语音段的能量小得多,而且计算和实现都比较方便,所以对语音信号进行端 点检测时常采用求信号的短时平均能量的方法。另外,短时平均能量也经常作为 特征参数使用。常被使用的是归一化的对数能量和其一阶( 或更高阶) 差分能量。 2 第n 帧语音信号的短时平均幅度: = 寺i 鼠( i ) j ( 2 - 2 ) m 。也是一帧语音信号能量大小的表征,它和短时能量的区别在于小采样值 和大采样值不会因为平方而造成较大差异,在某些应用领域中会带来一些方便。 3 第n 帧语音信号的短时平均过零率: z o = f s g n i s , ,( f ) 】一s g n s o ( i i ) | ( 2 - 3 ) 其中符号函数定义如下:s s n c x ,= :_ i ,薹:;: 这个变量表示一帧语音信号中波形穿过横轴( 零电平) 的次数。它可以用相邻 两个采样值改交符号的次数来计算。白噪声的过零率般比语音信号的过零率 大,所以在语音信号的端点检测中,短时过零率也是经常使用的一个参数。 语音信号的时域特征参数虽然时域分析具有简单、运算量小、物理意义明确 基于动态词表的孤立词语音识别系统 等优点,但是不能很好的处理复杂的背景噪声,所以目前,语音的时域特征参数 大多用在预处理上,可以提高后处理的精确度和减少计算量。 2 4 2 频域特征分析 常用的声学特征有线性预测系数l p c 、m e l 倒谱系数m f c c 、感知线性预测 p l p 等。 ( 1 ) 线性预测系数l p c : 线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认 为系统的传递函数符合全极点数字滤波器的形式,从而丌时刻的信号可以用前若 干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之 间达到均方差最小l m s ,即可得到线性预测系数l p c 。对l p c 的计算方法有自 相关法( 德宾d u r b i n 法) 、协方差法、格型法等等。计算上的快速有效保证了这 一声学特征的广泛使用。与l p c 这种预测参数模型类似的声学特征还有线谱对 l s p 、反射系数等等。 ( 2 ) 倒谱系数c e p : 很多基于h m m 的语音识别系统中都使用倒谱系数。倒谱系数是利用同态处 理方法,对语音信号求离散傅立叶变换d f t 后取对数,再求反变换i d f t 就可得 到倒谱系数【5 。处理过程用公式表示为: c ( t ) :i d f t 1 n l d f t ( j ( f ) ) 1 ( 2 - 4 ) 由于倒谱分析进行了同态处理,因此只需要很少的前几阶就可以包含语音信 号的大部分信息,起到了数据压缩的效果。 倒谱分析一般有两种方法:基于线性预测的倒谱( l p c c ) 分析和基于镁尔 频率的倒谱( m f c c ) 分析。 实验表明,使用倒谱可以提高特征参数的稳定性。通常使用的h m m 参数是基 于倒谱的,而不是基于谱或对数谱的,这是因为倒谱系数与谱或对数谱系数相比 更为紧凑。同样的信息被包括在较少的参数中,高阶倒谱能去除对数谱中的 高频变化特性。 各参数近似独立( 或不相关) 。 增益不相关。只有第0 个倒谱参数( 能量) 依赖于信号的能量。 另外,谱能量矢量没有被直接使用的原因是 基于动态词表的孤立词语音识别系统 语音的功率谱不是高斯或类高斯分布。 所有的系数对声音的响度敏感。 邻近的系数有高相关型。 ( 3 ) m e l 倒谱系数m f c c : 不同于l p c 等通过对人的发声机理的研究而得到的声学特征,m e l 倒谱系 数m f c c 和感知线性预测p l p 是受人的听觉系统研究成果推动而导出的声学特 征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听 到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界, 当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为掩 蔽效应。m e l 刻度是对这一临界带宽的度量方法之- 6 。 求m e l 倒谱系数的方法是将时域信号做时频变换后,对其对数能量谱用依 照m e l 刻度分布的三角滤波器组做卷积,再对滤波器组的输出向量做离散余弦 变换( d c t ) 。这样得到的前维向量称为m f c c 。p l p 仍用德宾法去计算l p c 参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行d c t 的方 法。 本文中采用了m f c c ,将在这里详细介绍求m f c c 的过程。其过程如图2 3 所示。 j ( 心)工( 门)工( t )s )c ( n ) 图2 3m e l 频率倒谱系数( m f c c ) 提取过程 原始语音信号s ( 砖经过分帧、预力重、加窗等处理,得到每个语音帧的时域 信号茹( 门) 。对输入的原始信号进行预加重,其目的是为了对语音的高频部分进行 加重,增加语音的高频分辨率,一般通过一个传递函数e ( z ) = 1 一t t z 。的滤波器对 其加以滤波,其中为预加重系数,一般取值为o 9 5 ,o 9 7 或o 9 8 。假设在行时 刻的语音采样值为x ( 以) ,则经过预加重处理后的结果为 y ( 疗) = x ( 行) 一l t x ( n 一1 ) ( 2 - 5 ) 语音具有短时平稳的特点,通过对语音进行分帧操作后,可以提取其短时特 性,从而便于模型的建立。 然后将每帧信号用h a m m i n g 窑相乘,以减小帧起始和结束处的信号不连续 基于动态词表的孤立词语音识别系统 性,采用的h a m m i n g 窗函数为 f 0 5 4 04 6 c o s f 堡 ,0 n - 1 w h ( n ) = l n 一1 ( 2 6 ) l o ,o t h e r w i s e 将时域信号x ( n ) 后补若干0 以形成长为的序列 ( d f t ) 后得到线性频谱x ( ) ,转换公式为 z ( 后) = d f z l 【z ( ”) ;( 0 k ,, n 1 ) 然后经过离散傅立叶变换 ( 2 7 ) 在实际应用中,常常通过快速傅立叶变换( f f t ) 计算出x ( 女) 。 将线性频谱( 女) 通过m e l 频率滤波器组得到m e l 频谱,并通过对数能量的处 理,得到对数频谱s ( m ) 。 s i g n a l s p e c t r u m f i l t e r b a n k r r 盯 t 广广i 薹, f 匝匿 三互 强二= 三二圈器默墨 图2 4 通过m e l 频率滤波器组得到m e l 频率 每个滤波器具有三角形滤波特性,其中心频率为f ( m ) ,当m 值小时相邻 f ( m ) 之间的间隔也小,随着m 的增加相邻f ( m ) 的间隔逐渐变大,如图2 - 4 所示。 m e l 频率函数和其逆函数分别为 m e l ( f ) :2 5 9 5 1 0 9 譬靠:1 1 2 7 1 n “+ 上7 0 0 ( 2 - 8 ) 6 m e l 1 ( b ) = 7 0 0 ( e 7 1 ) ( 2 9 ) 每个带通滤波器的中心频率为 基于动态词表的孤立词语音识别系统 加) - ( 等删( 删伊棚。燮紫掣) 协 其中m 为三角滤波器的个数,0 m m ,五、彳为滤波器的频率应用范围 的最高频率和最低频率,| v 为d f t ( 或f f t ) 窗宽,f 为采样频率。 每个带通滤波器的传递函数为 h 。( k ) = ( ,( _ ,2 1 ) k 厂( ) ) ( ,( 掰) f ( m + 1 ) ) ( o m m ) ( 2 - 1 1 ) 为了使结果对噪声和谱估计误差有更好的鲁棒性,一般将上诉经过m e l 滤 波器组得到的m e l 频谱取对数能量。则由线性频谱x ( k ) 到对数频谱s ( m ) 的总传 递函数为 - i s ( ) = l n ( :x ( k ) 1 2 乩,( ) ) ;( o 研 m ) ( 2 - 1 2 ) k = 0 将对数频谱s ( m ) 经过离散余弦变换( d c t ) 变换到倒频谱域,即可得到m e l 频率倒谱系数( m f c c 参数) c ( n j : 嘶,= 箬 m-iy柚性+;)s( 。嘲c o s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论