已阅读5页,还剩55页未读, 继续免费阅读
(通信与信息系统专业论文)基于最佳状态数的汉语数字语音识别系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电大学硕士学位论文 基于最佳状态数的汉语数字语音识别系统的研究与实现 摘要 近年来汉语数字语音识别系统越来越广泛的应用于各个领域。在 实际生活中,由于噪声等因素的影响,常常造成汉语数字较低的识别 率。本文对汉语数字语音识别系统的训练数据、评测数据及声学模型 进行了研究。完成了对两个新语音库中评测讲话者的选择。并对系统 识别精确度进行分析,通过对单音子模型及双音子模型的状态数的调 整,提高了语音识别系统的识别精确度。本文主要研究了以下三方面 的内容: 1 研究了汉语语音识别系统中声学模型的构造。并了解语音识 别系统中相关声学模型参数估计、识别过程的算法及步骤。这个过程 有利于对语音库中训练数据和评测数据的区分,并为提高系统识别精 确度提供了依据。 2 提出了一种为语音库选择评测讲话者的方法。对于目前已拥 有的几组不同的评测讲话者,通过分别比较各组评测讲话者识别精确 度曲线与语音库所有讲话者识别精确度曲线之间的最小均方差值,选 择出该值最小的一组评测讲话者,作为此语音库的评测讲话者,用于 客观衡量语音识别系统中模型的训练好坏。 3 在提高识别系统精确度的研究中,对数字l 和数字5 的识别 错误率进行了分析并找出相应的问题,通过逐步调整单音子模型及双 音子模型的状态数,进而对模型进行改进。 最后,在实验中逐步修改数字1 、数字5 的单音子模型及双音子 模型的状态数,对修改后的模型进行训练、参数重估,并对系统进行 评测,得到新的识别精确度。结果表明,通过对模型状态数的修改, 系统的识别精确度得到提高。 关键词:隐马尔可夫模型单音子模型双音子模型 评测讲话者评测数据 北京邮电大学硕士学位论文 t h ei 之e s e a r c ha n di 也a l i z a t i o n0 f m a n 门d a r i nd i g i ts p e e c hr e c o g n l t l o l ns y s t e m b a s e do no p t i 蚤小ms 丑虹en u n 住;e r a bs t r a c t m a n d a r i nd i g i ts p e e c hr e c o g n i t i o ns y s t e mh a sb e e nw i d e l yu s e di n d i f f e r e n tr e g i o n si nt h ep a s td e c a d e s h o w e v e r , i nr e a lc o n d i t i o n ,m a n d a r i n d i g i ts p e e c hr e c o g n i t i o ns y s t e ma l w a y sh a sq u i t el o wa c c u r a c yf o rs o m e d i g i t sd u et ot h ee n v i r o n m e n tf a c t o r ss u c ha sn o s e t h et h e s i sh a sm a d ea s e r i e so fr e s e a r c ho nt r a i n i n g d a t a ,e v a l u a t i o nd a t aa n da c o u s t i c m o d e l s n e we v a l u a t i o ns p e a k e r sa r es e l e c t e df o rt w on e wc a t e g o r i e s a l s o , t h r o u g ht h ea n a l y s i so ft h es y s t e mr e c o g n i t i o na c c u r a c y , w ea d j u s tt h e s t a t en u m b e ro ft h em o n o p h o n ea n db i p h o n em o d e l so fs p e c i f i c d i g i t s r e c o g n i t i o na c c u r a c yh a sb e e ni m p r o v e dt os o m ee x t e n t t h em a i n r e s e a r c hi n c l u d e st h ef o l l o w i n g : i w es t u d yt h es t r u c t u r eo fm a n d a r i nd i g i ts p e e c hr e c o g n i t i o na n d l e a r nt h ea l g o r i t h mf o rt r a i n i n ga n de v a l u a t i n gt h ep a r a m e t e r s ,a l s ot h e r e c o g n i t i o np r o c e s s t h e s eh e l pu st ok n o wm o r ea b o u tt h er e l a t i o n b e t w e e nt r a i n i n gd a t aa n de v a l u a t i o nd a t ai nac a t e g o r y , a n de n l i g h t e nu s t h ew a yt oi m p r o v et h em o d e l s 2 t h et h e s i sf i n d san e wm e t h o dt os e l e c tab e s tg r o u po fe v a l u a t i o n s p e a k e r sf o ras p e c i f i cc a t e g o r y f o re a c hs e t so fe v a l u a t i o ns p e a k e r s ,f i t s ac u r v et ot h e m w ea l s of i tac u r v et oa l lt h es p e a k e r si nac a t e g o r y b y m e a s u r i n gt h er o o tm e a ns q u a r ee r r o r ( r m s e ) t h a tt h ee v a l u a t i o n s p e a k e r s c u r v ec o m p a r e d t ot h ea l ls p e a k e rc u r v e ,w ec a l lf i n dag r o u po f e v a l u a t i o n s p e a k e r s t h a tb e s t r e p r e s e n t t h i s c a t e g o r y u s i n g t h e s e e v a l u a t i o ns p e a k e r s ,w ec a ne v a l u a t i o nh o ww e l lw e v et r a i no u rm o d e l s 3 i nt h er e s e a r c ho fi m p r o v i n gt h ea c c u r a c yo ft h es y s t e m ,w ea n a l y s e t h ee r r o r so fd i g i t1a n d5 ,h e n s e ,w ei m p r o v et h em o d e l sb ya d j u s ts t a t e g u m b e r so fm o n o p h o n ea n db i p h o n em o d e l sf o rt h e s et w od i g i t s a f t e rt h et r a i n i n ga n de v a l u a t i o no ft h en e wm o d e l sb ya d j u s t i n gs t a t e n u m b e r s ,w eo b t a i nn e wr e c o g n i t i o na c c u r a c yw i t ha ni n c r e a s e m e n to f 北京邮电大学硕+ 学位论文 o 6 0 k e yw o r d s :h i d d e nm a r k o vm o d e l m o n o p h o n em o d e l b i p h o n em o d e l e v a l u a t i o ns p e a k e re v a l u a t i o nd a t a 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机 构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:日期:型:蔓:! 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 日期:鲨! :! :! 日期:型里星! :笙 北京邮电大学硕士学位论文 第一章绪论弟一旱 三百v 匕 本章从总体上概括语音识别技术的基本知识。首先介绍国内外语音识别的发 展史及目前语音识别技术的研究现状及难点。进一步指出数字语音识别,特别是 中文数字语音识别技术的发展前景及意义。最后,介绍整篇论文的章节布局及研 究内容。 1 1 语音识别概述 让计算机能听懂人类的语言,是人类自计算机诞生以来就一直拥有的想法。 尽管这个想法存在着这样那样的难度和困难,在世界各地的计算机工作者及研究 者,依然在不停的为之努力和奋斗。随着计算机越来越向便携化发展,也随着计 算环境的日趋复杂化,人们越来越迫切地要求希望能找到一种技术,可以使人们 从键盘输入的束缚中摆脱出来,使用更自然,更人性化的舒服方式。于是,对于 语音识别技术的研究便由此产生。 1 1 1 语音识别的发展过程 追溯语音识别的研究工作,大约开始于上世纪5 0 年代。1 9 5 2 年,贝尔( b e l l ) 实验室的d a v i s 等人,首次研制成功能识别1 0 个英语数字的语音识别系统一 a u d r y 系统,这是语音识别的真正开端。1 9 5 6 年o l s o n 和b r i a r 等人采用8 个带 通滤波器组提取频谱参数作为语音的特征,研制成功一台简单的语音打字机。 1 9 5 9 年,j ,w r o r g i e 和c d 。f o r g i e 采用数字计算机识别英文元音及孤立字,从此 开始了计算机语音识别。 2 0 世纪6 0 年代中期形成的一系列数字信号处理方法和技术,如数字滤波器、 快速傅里叶变换( f f t ) 等成为语音信号数字处理的理论和技术基础。在方法上, 随着计算机的演进和发展,以往的科研将重点和研究中心放在硬件上,也开始逐 渐转化为以软件为主的处理研究。这一时期的重要成果是,提出了动态规划( d p ) 和线性预测分析技术( l p ) ,其中后者比较好地解决了语音信号产生模型的问题, 对整个语音识别、语音合成、语音分析、语音编码等方面的研究,产生了巨大的 推动作用,也为后来语音技术的深入研究和反展,奠定了基础。 2 0 世纪7 0 年代,单词识别装置开始了实用化阶段。社会上所宣传的声纹 北京邮电大学硕士学位论文 ( v o i c ep r i m ) 识别,即讲话者识别的研究也陆续开展起来,并很快达到了实用 化的阶段。1 9 7 1 年,美国a r p a ( a m e r i c a l lr e s e a r c hp r o j e c t s a g e n c y ) 为主导的“语 音理解系统 的研究计划也开始起步。这个研究计划,不仅在美国国内,对世界 上其他国家都产生了较大的影响,不仅如此,它也促进了连续语音识别研究的兴 起。历时五年的a r p a 研究计划,虽然在语音理解,语音统计模型等方面的研究 积累了一些经验,取得了许多成果,但与其前期巨大的投资相比,并没有取得预 期希望的应得的结果。因此在1 9 7 6 年研究计划停了下来,进入了深刻的反省阶 段。即使如此,整个2 0 世纪7 0 年代还是有几项研究成果对语音信号处理技术的 进步和发展产生了重大的影响。如7 0 年代初由板仓( i t a k u r a ) 提出的动态时间 归整( d t w ) 技术,使语音识别研究在匹配算法方面开辟了新思路;2 0 世纪7 0 年代中期线性预测技术( l p c ) 被用于语音信号处理。此后,隐马尔可夫模型法 ( h m m ,h i d d e nm a r k o vm o d e l ) 也取得了初步的成功,此项技术在后来的语音 信号处理的多个方面获得巨大的成功;2 0 世纪7 0 年代末,l i n d a 、b u z o 、g r a y 和m a r k e l 等人首次解决了矢量量化( v q ) 码生成的方法,并将矢量量化技术用 于语音编码并取得成功。由此,矢量量化技术在语音识别、语音编码和讲话者识 别等方面发挥了重要作用,不仅如此,此项技术还迅速推广到其他许多领域。 2 0 世纪8 0 年代,语音识别研究进一步走向深入,尤其是隐马尔可夫模型 ( h m m ) 和人工神经网络( 朋州) 在语音识别中得到了成功的应用。隐马尔可 夫模型作为语音信号的一种统计模型,在语音信号处理的各个领域中获得了广泛 的应用。其理论基础是1 9 7 0 年前后,由b a u m 等人建立起来的,之后,美国卡 内基梅隆大学( c m u ) 的b a k e r 和美国i b m 公司的j e l i n e k 等人将其应用到语音 识别中去。到2 0 世纪8 0 年代中期,美国贝尔实验室的r a b i n e r 等人对隐马尔可 夫模型做了深入浅出的介绍,使世界各国从事语音信号处理的研究人员对此理论 了解和熟悉,进而成为一个公认的研究热点,也是目前语音识别等的主流研究途 径。八十年代末,卡内基梅隆大学运用矢量量化和隐马尔可夫技术研制出了非特 定人、大词汇量、连续语音识别系统- - s p h i n x 系统,它可以理解由1 0 0 0 个单词 构成的4 2 0 0 个句子,被认为是语音识别史上的一个里程碑。 进入2 0 世纪9 0 年代,语音识别在实用化方面取得了许多实质性的研究进展。 一方面,对声学语言学统计模型的研究逐渐深入,鲁棒的语音识别、基于语音段 的建模方法及隐马尔可夫的模型与人工神经网络的结合成为研究的热点。另一方 面,为了语音识别实用化的需要,说话者自适应、听觉模型、快速搜索识别算法 及进一步的语言模型的研究课题成为人们关注的重点。在这期间,r e y n o l d s 对高 斯混和模型( g m m ,g a u s s i a nm i x t u r em o d e l ) 作出了较为详细的介绍和应用, 由于其简单灵活有效,并且具有较好的鲁棒性( r o b b u s t ) ,得到迅速的发展。在 2 北京邮电大学硕士学位论文 语音识别特征参数方面,b s a t a l 研究了l p c 系数、声道的冲击响应、自相关系 数、声道面积函数以及倒谱系数等不同的特征参数在自动语音识别系统中的有效 性,并指出倒谱系数是较为有效的语音特征。2 0 世纪末,随着多媒体时代的来临, 迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国和 著名企业i b m 、a p p l e 、a t & t 、n t t 等都为语音识别系统的实用化开发研究投以 巨资。m m 公司于1 9 9 7 年开发出汉语v i a v o i c e ,次年又开发出可以识别上海话、 广东话、四川话等地方口音的语音识别系统v i av o i c e 9 8 。它带有一个3 2 ,0 0 0 词 的基本词汇表,可以扩展至1 j 6 5 ,0 0 0 词,还包括办公常用词条,具有纠错机制。 其平均识别率可以达到9 5 ,该系统对新闻语音识别具有较高的精度,是目前具 有代表性的汉语连续语音识别系统啦! 。 进入2 1 世纪,语音识别技术将使计算机丢掉键盘和鼠标。这无疑将改变许 多人的工作和生活方式。 国内的语音识别开始于7 0 年代。从7 0 年代到8 0 年代中期,通过大量吸收 国外的理论技术进行识别实验研究和改进算法。8 0 年代以来,在理论研究和实 现技术上有较大的进展,缩小了与国际水平的差距。主要体现在以下几个方面: 1 ) 开展了汉语连接词、连续语音、中大词汇表、非特定人的语音识别研究。2 ) 与汉语语音学密切结合,开展了汉语普通话音节识别、四声识别、声母韵母识别。 3 ) 对t m s 高速专用芯片系列进行了开发利用,发展了应用科学开发产品。国内 开展语音识别研究比较早的机构有北京大学、中科院声学所、中科院自动化所、 清华大学等,先后被列为国家自然科学基金重点项目、8 6 3 智能处理项目,并得 到基金和社会的支持,取得了丰硕的研究成果。 1 1 2 语音识别研究现状及难点 语音识别技术发展至今已有5 0 多年的历史,目前语音识别已经达到一个相 对高的水平。小词汇表语音识别也具有广泛的应用价值。同时为实现语音识别系 统实用化的其他课题,如稳健语音识别口1 、自适应语音识别“1 、语音确认晦1 等也 在9 0 年代以来获得一定成果。 但目前的语音识别研究中,仍面临着许多问题呻8 1 首先,语音识别系统适应性差。全世界有近百种官方语言,每种语言又多达 几十种方言,不仅如此,同种语言的不同方言在语音上相差悬殊,这样,随着语 言环境的改变,系统性能会变得很差。 其次,在强噪声干扰环境下,语音识别变得困难。由于语音数据大部分都是 在接近理想的条件下采集,语音识别的编码方案在研制时都要在高保真设备上录 3 北京邮电大学硕士学位论文 制语音,尤其要在无噪声环境下录音。然而当语音处理由实验室走向实际应用时, 环境噪声的存在所带来的问题就变得越来越重要。 再次,体态语言难以识别。有人在讲话时习惯用眼神、手势、面部表情等动 作协助表达自己的思想。由于这种体态语言的含义与个人习惯、文化背景、宗教 信仰及生存地域等因素有关,其信息提取非常困难。 对于汉语数字语音识别技术来说,虽然在移动通信、电话话务员、电话证券 交易等领域有着较大的应用价值,但发展却比较缓慢。这主要是因为汉语数字语 音识别存在着一些困难:语音间存在着高混淆的问题。汉语数字存在的语音音节 数比较少,很容易发生混淆;此外,汉语是一种多方言语种,各地人群在普通话 中都会或多或少夹杂着一些方言,这给数字语音识别系统带来很大的难度。更进 一步,在实际的应用当中,噪声源较多并且不固定;连续语音的问题及汉语数字 连续语音的连续程度高b 1 使数字的识别的难度加大。 1 2 数字语音识别的研究价值 语音识别是一门涉及面很广的交叉学科,它是目前发展最为迅速的信息研究 诸领域中的一个,它与语音学、语言学、数理统计学和神经生理学等学科有非常 密切的关系,语音识别的目标是让机器能听懂人类口述的语言,语音识别中的汉 语数字语音识别,具有更为重要的意义。 语音识别技术主要包括特征提取、模型训练技术及模式匹配准则三个方面 n 们。此外,还涉及到语音识别单元的选取。语音识别系统根据不同的准则,可以 分为孤立字连接字连续词,小词汇量大词汇量,特定人非特定人识别系统。 汉语数字语音识别,无论在大词表语音识别系统,还是在小词表语音识别系统中 都具有重要的意义。 汉语数字语音识别的任务是识别“0 到“9 等1 0 个非特定人汉语数字语 音。信用卡号码、电话语音拨号、个人身份证号码、电子密码等都具有数字化特 征,因此,连续语音识别成为语音识别中极其重要的一项任务。一方面,连续数 字语音识别可以识别用户说出的数字串,向用户提供最自然、最灵活和最经济的 人机接口界面,从而能有效解决军用和民用领域中遇到大量数据录入问题;另一 方面由于电话网络的日益普及,连续数字语音识别可用于电话人口统计、远程股 票交易及各种号码的远程认证等。因此,汉语数字语音识别( m d s rm a n d a r i nd i g i t s p e e c hr e c o g n i t i o n ) 是语音识别领域中一个具有广泛应用背景的分支n 。 4 北京邮电大学硕士学位论文 1 3 本文主要内容及论文安排 目前,汉语数字语音识别率与实际应用中的要求还存在着一定的差距。如上 文中所提到的一样,汉语数字很多都是单音节字,在日常应用中,如果讲话者稍 微不注意或语速过快,就可能出现数字间的混淆。如,在念5 5 时,根据个人的 习惯,有的人发音较长,有的人发音较短,使系统识别起来比较困难,有时候将 一个“5 ”识别成两个“5 ”,有的时候则将两个“5 识别成一个“5 。此外,在 真正的应用环境中,存在着大量噪音。噪音对数字“5 ”的影响也比较大。还有 “l ,“7 等数字的识别,都存在着一定的难度。 此外,模型训练之后,需要使用评测讲话者( e v a l u a t i o ns p e a k e r ) 的数据对 模型进行评估,用来判断系统对这些数据的识别率。评测讲话者的选取,即如何 选择有代表性的讲话者,成为能否准确评估系统的一个要素。本文针对声学模型 中子词( s u b w o r d ) 的状态转移作一些讨论和研究,并对普通话数字模型中单音 子( m o n o p h o n e ) 模型、双音子( b i p h o n e ) 模型状态数的选取进行讨论。 论文主要完成了以下工作: ( 1 ) 通过阅读大量文献资料,了解语音识别的基本结构与知识。掌握隐马 尔可夫模型在语音识别系统中的运用,学习维特比算法,前向一后向算法等相关 算法,并了解其在声学模型训练及语音识别中的运用。 ( 2 ) 了解并学习m f c c 倒谱系数在语音识别中的运用。 ( 3 ) 对评测讲话者的选取进行一定的研究,并尝试提出为一个语音库选取 较好的一组评测讲话者的思路。 ( 4 ) 学习单音子模型及双音子模型的概念,通过研究分析系统对数字的误 识别率,调整数字模型的状态数,尝试提高识别系统的识别精确度。 ( 5 ) 简单学习h t k 软件包的相关知识,通过实验比较模型状态数改变对语 音识别系统识别精确度的影响。 本文共分为六章。研究思路如图i - i 所示: 5 北京邮电大学硕士学位论文 图卜1 本文主要工作与研究思路 第一章为绪论。从整体上介绍语音识别的基本概念,概括语音识别在国内外 的发展历史,并介绍目前语音识别的现状和难点,阐述数字语音识别的研究价值 和意义。第二章介绍语音信号的基本理论。对语音信号产生的数字模型、语音信 号的时域频域分析作详细的介绍。对语音识别中较为重要的参数m f c c 倒谱系 数及l p c c 特征参数做必要的介绍。第三章详细介绍隐马尔可夫模型( h m m ) 的定义及分类,较为详细的介绍隐马尔可夫模型中的主要算法。对隐马尔可夫模 型在语音识别中的应用作出详细的说明,包括对模型的训练、模型的评估以及整 个语音识别系统的结构进行较为系统的分析。对于评测讲话者的选取进行一定的 研究,并提出在语音库中如何较好的选取评测讲话者的方法。第四章对单音子模 型及双音子模型的概念进行介绍,并讨论通过模型状态数的改变进而提高数字语 音识别系统识别精确度的可能性。第五章介绍h t k 软件包的作用,通过实验逐 步调整状态数并对模型重新进行训练,分析该识别系统对语音数据识别精确度的 变化。第六章对论文进行总结,并对未来的工作及研究提出建议和展望。 6 北京邮电大学硕士学位论文 第二章语音信号基本理论 语音识别技术的研究,离不开对语音信号基本理论的学习。语音信号处理, 是进行语音识别的前提。语音信号的处理主要包含三个方面的内容:语音信号的 数字表示方法,语音信号数字处理的各种方法和技术以及数字语音处理理论和技 术在各个领域中的应用n 封。 语音信号的数字表示方法,可以分为两类:波形表示和参数表示。波形表示 是大家比较熟悉的表示方法,较为直观,它强调的是尽可能精确地保存语音信号 的波形,但是显然并不能满足人们对语音信号处理的需求。参数表示,则是把语 音信号看成是某个模型在一定的激励作用下产生的输出,而激励源和模型的参数 便用来作为语音信号的表示。参数表示法,并不要求完全保留语音信号的波形, 它的目标是能够尽可能好地提供听起来和原来的语音具有相同效果的信号。f a n t 在1 9 6 0 年提出了一种线性模型,是模拟语音主要特征的较成功的参数表示的模 型。 本章将介绍语音信号产生的数字模型,接着将简要介绍对语音信号的时域分 析及频域分析。对语音识别中有重要作用的语音信号参数m f c c 倒谱系数及 l p c c 参数,也将作一定的介绍。 2 1 语音信号产生的数学模型 语音信号可以看作是激励信号激励一个线性系统而产生的输出。浊音信号是 由一个周期性的万脉冲串激励一个线性系统而产生的输出。这个线性系统由声门 脉冲模型、声道模型和辐射型级联而成。而清音信号是由白噪声序列激励一个线 性系统而产生的输出,这个线性系统仅由声道模型和辐射模型级联而成n 3 1 。 4 2 1 语音信号产生的数学模型 7 北京邮电大学硕士学位论文 浊音信号产生过程受声门脉冲形状g ( n ) 、声道响应v ( n ) 和口唇辐射影响r ( n ) 的共同作用,可等效为一个线性系统,称为声道系统,即 五,( 咒) = g ( 刀) ,( 刀) 拳厂( 刀)式( 2 - 1 ) 相应的z 变换为 h ( z ) = g ( z ) 幸v ( z ) 木r ( z ) 式( 2 - 2 ) 类似的清音产生过程中的声道响应v ( n ) 和口唇辐射影响“n ) 也可以等效为 一个线性系统 j j l ,( 刀) = v ( n ) ,( ,1 ) 相应的z 变换为 式( 2 3 ) h ( z ) = v ( z ) 事r ( z ) 式( 2 - 4 ) 从语音信号的数学模型可以看出语音信号是声道系统特性的j i l ,( 以) 与激励信 号的卷积。 2 2 语音信号的分析 语音信号的分析方法,根据参数的不同分为时域、频域、倒谱域n 钔等方法。 短时处理技术是语音信号的一个基本技术,在时域内就是各种短时时域分析方 法,在频域内就是短时傅立叶分析方法。时域分析相对于频域分析,具有简单, 运算量小、物理意义明确等优点,但是在工程运用上,对于频域进行的分析往往 更有效。在本节中,将对语音信号的频域分析理论、倒谱分析做简明的介绍。 2 2 1 语音信号的频域分析 短时傅立叶分析是分析缓慢时变频谱的一种简便方法,即将语音信号分成短 段后再将各短段进行傅立叶变换,短时傅立叶变换定义为 以( p 如) = 乏:x ( m ) w ( n - m ) e 吖椭 式( 2 - 5 ) f t t = - - - - o d w ( n m ) 是移动窗函数,加不同的窗得到不同的傅立叶变换。通常w ( n r a ) 的宽度是有限的,即使用无限冲激响应的窗,其有效宽度也是有限的。其中有两 个变量:x 、缈。以取不同值时,窗w ( n m ) 沿时间轴滑到不同位置,取出不同的 语音短段。把表明窗位置的参数l , t 看成是一个参变量,当以值给定时x 。( e i a ) 就 是连续变量缈的函数,它是语音段勘) w ( ,l 卅) 的标准傅立叶变换。从线性滤波 的角度来解释短时傅立叶变换,把0 9 看成是参变量,缈给定时,x 。( p 归) 就只是刀 北京邮电大学硕士学位论文 的函数,是信号序列和窗函数序列的卷积,相当于是序列x ( n ) e 一砌作用于冲激响 应为w ( n ) 的线性滤波器后所产生的输出。所以短时频域分析可以解释为短时傅 立叶变换和滤波器。 2 2 2 语音信号的倒谱分析 对信号进行分析得到它的倒谱参数的过程,称为同态处理。利用同态处理方 法,对语音信号求离散傅立叶变换d f t 后取对数,再求反变换i d f t 就可以得 到倒谱系数n 5 1 。使用倒谱系数,可以提高特征参数的稳定性。 对于语音信号的某一帧,可以分析出它的短时倒谱参数,这些参数中含有丰 富的语音信息。根据语音信号的数学模型可知,它不能用线性系统来处理,而使 用非线性系统分析,则需要很麻烦的数学运算,同态信号处理就是将非线性问题 转换为线性问题来进行处理的一种方法。 设有一卷积同态系统h ( ) ,其输入输出都是卷积信号。同态系统可分为两 个特征系统和一个特征系统。 输入信号为 工( 以) = x , i ( 刀) x 2 ( ,1 ) 式( 2 6 ) 其中而( 刀) 和屯( 行) 分别是声门激励信号和声道响应序列。 特征系统d 。的运算是将卷积信号转化为加性信号,具体步骤如下: 首先,进行z 变换,将卷积信号转变为乘积信号,它就是输入信号的频谱 z 【z ( 咒) 】= 石( z ) = x i ( z ) x 2 ( z ) 式( 2 - 7 ) 其次,进行对数运算,将乘积信号转变为加性信号 l o g x ( z ) = l o g x l ( z ) + l o g x 2 ( z ) = x i ( z ) + x 2 ( z ) = x ( z ) 式( 2 - 8 ) 再次,进行z 反变换,得到的即为输入信号的倒谱: z 1 x ( z ) 】= z 。1 x i ( z ) + 五( z ) 】= 毫( 刀) + 主2 ( 捍) = 主( ) 式( 2 9 ) 加性信号的z 变换结果仍是加性信号,所以倒谱这种时域信号可以用线性系 统来加以处理。经线性处理之后,如果希望再恢复为语音信号( 卷积信号) y ( n ) , 可以用逆特征系统来运算。这种逆特征系统运算是特征系统的反运算。将线性系 统输出的加性的倒谱信号 夕( 以) = 夕i ( n ) + 夕2 ( 刀) 式( 2 - 1 0 ) 先进行z 变换,得到线性的对数频谱 z 【夕( 力) 】= y ( z ) = ( z ) + 砭( z ) 然后进行指数运算变为输出频谱,这是一个乘积性信号 9 北京邮电大学硕士学位论文 e x p y ( z ) = y ( z ) = x ( z ) k ( z ) 最后再通过z 反变换,得到卷积性的语音恢复信号: y ( 疗) = y 1 ( 疗) o y 2 ( 以) 2 3 语音信号相关参数的提取 式( 2 1 2 ) 式( 2 1 3 ) 对数字语音的每一帧进行声学参数分析,提取特征参数。语音信号是短时准 平稳的随机过程,具有很强的时变特性。时域特征主要有语音的短时平均能量、 短时平均过零率及基音周期。特征提取,通常忽略同一个连续数字由不同说话者 所发出的音调和响度的不同,把重点放在了语音的频率特征中n 引。 特征提取数字分帧后,检测每帧的频率特征。语音的频率特征有多种,常见 的有f f t 频率系数,l p c 系数、l p c 倒谱系数( l p c c ) 、m e l 倒谱系数( m f c c ) 等等。经过多年的实验得到证明,l p c c 特征参数和m f c c 特征参数是较好的表 征语音特征的参数。它们的共同特征是,将语音从时域变换到倒谱频域上,前者 利用线性预测编码( l p c ) 技术求倒谱系数,后者则直接通过离散傅立叶变换 ( d f t ) 进行变换。通常m f c c 参数比l p c c 参数更符合人耳的听觉特性。由 于语音的信息大部分集中在低频部分,而高频部分容易受到环境的干扰,m f c c 参数将线性频标转化为m e l 频标,它的特点是强调语音的低频部分的信息,从 而突出了有利于识别的信息,屏蔽了噪声的干扰。而l p c c 参数是基于线性频标 的,所以在有信道噪声和频谱失真的情况下,m f c c 参数能产生更高的识别精度。 此外,m f c c 参数无任何前提假设,在各种情况下均可被使用。 2 3 1l p c c 特征参数的提取 线性预测分析( l p c ) 是较为常用的语音特征分析方法。由于l p c 方法有效的 解决了短时平稳信号的模型化问题,可把语音信号看成是由全极点产生的,很好 的逼近共振峰,提供谱估计,算法简洁准确,计算量小,便于实时处理。仅用 1 2 个l p c 系数就能很好的表示复杂语音信号的特征,大大的降低了信号的冗余 度,有效的减少了计算量和存储量,使之成为语音识别和压缩的基础。下面将对 l p c 方法做一简单介绍。 首先介绍l p c 基本原理。语音的每个样值可由过去若干个样值的线性组合 来逼近,同时可采用使实际语音抽样与线性预测抽样之间的均方差最小的方式, 解出一组预测系数。 l o 北京邮电大学硕士学位论文 ;( 以) = q s ( n - i ) 语音信号s ( n ) 可由p 个过去的样值s ( n i ) 来预测, l p c 系数,p 为l p c 预测阶数,预测误差为 p ( 以) = j ( 刀) 一;( ,1 ) = s ( n ) - q s ( n - i ) 式( 2 1 4 ) 其中a 。为加权系数即 式( 2 1 5 ) 使p ( 刀) 在均方差最小的条件下,可求得唯一的a 。,以上即为l p c 分析过程。 l p c 系数的计算本文采用d u r b i n 算法,d u r b i n 算法为经典递推算法,此处不再 详述。由于一帧的语音信号等于激励源与线性时不变系统冲激响应的卷积,为了 将激励与声道特征两者分开研究,并着重分析与系统本身特性有关的冲激响应, 需对语音信号进行倒谱分析。倒谱是频域内语音对数谱的傅立叶逆变换。 图2 2 倒谱分析系统 由图2 - 2 可见,倒谱实际是将频域相乘变为频域相加,方便系统的实现。基 于l p c 分析的倒谱存在一种非常简单有效的递推求解方法。这就是,如果已知 线性预测系数,可用下述递推公式求相应的倒谱系数 q 2口f + k c k a h i 七童l i - i 口j + k c k a 卜i i 理论上,p 值越大谱估计越好,但计算量和存储量也随之增大,因此在选择 p 值时,首先应保证有足够的极点来模拟声道响应的谐振结构。一般l o k h z 采 样的语音信号取1 2 - 1 4 ,但是尸增加到一定程度后,匹配误差减小甚小,而且p 值大小还控制着信号谱的平滑度,所以取p 为1 2 。 2 3 2m f c c 在语音识别中的应用 l p c 模型是基于发音模型建立的,这种参数没有充分利用人耳的听觉特性。 在实际生活中,入耳的听觉特性是一个特殊的非线性系统,它对不同频率信号的 响应的灵敏度是不同的,基本上符合对数关系。近年来,一种能够比较充分利用 人耳特殊感知特性的参数得到较为广泛的应用,即为m e l 倒谱参数( m e l s c a l e d c c p s t m mc o e f f i c i e n t s ) ,简称m f c c 。 m f c c 可以比l p c c 更好的提高系统的识别特性。m f c c 参数将语音的频域 d 式 +御 川 v i 当 当 北京邮电大学硕士学位论文 从线性频标变换为m e l 频标,以符合人耳的听觉特性。m f c c 和线性频率的转 换关系是 m e l = 2 5 9 5 l g ( 1 + f 7 0 0 ) m f c c 参数也是按帧计算。首先通过f f t 变换得到该帧信号的幅度谱 i e ( 尼) | ,转换为m e l 频率下的幅度谱,并在语音的频谱范围内设置l 个带通滤 波器: 形( w = o ,l , - - - , l - 1 ,露= 0 ,l ,一,i n 一1 l 为滤波器的个数,由信号的截止频率决定,通常取2 4 ;n 为一帧语音信号 的点数,为了计算f f t 变换的方便,通常取2 5 6 。滤波器在频域上为简单的三角 形,设其中心频率为c ,它们在m e l 轴上均匀分布。在线性频率上,当,较小时, 相邻的c ,间隔很小,随着,的增加,相邻的间隔逐渐拉开。此外,在频率较低的 区域,c ,和厂之间有一段是线性的。带通滤波器的参数事先算好,在计算m f c c 参数时直接使用。 标准m f c c 特征参数提取过程如图2 3 所示: 图2 3 标准m f c c 特征提取示意图 首先对语音信号进行f 兀i 变换,将信号从时域变换到频域,通过m e l 尺度 的滤波器阵列后,将滤波器输出进行离散余弦变换( d c t ) 。 m f c c 参数的计算过程如下: ( 1 ) 假定已有一帧采样语音k ,f = 1 , 2 ,n ,n 为帧长,确定每一帧语音采 样序列的点数,一般取n = 2 5 6 ,对k f = 1 , 2 ,n 经过预加重处理,加h a m m i n g 窗后作n 点f f t ,取模得到信号幅度谱i x 。( 后) i 。 ( 2 ) 将实际频率尺度转换为m e l 频率尺度 m e l = 2 5 9 5 l g ( 1 + f 7 0 0 ) 式( 2 1 9 ) ( 3 ) 在整个m e l 轴配置l 个三角形滤波器,每个三角形滤波器的中心频率 q 在m e l 频率轴上等间隔分配。设d ( ,) 、c ( ,) 、j i l ( ,) 分别是第,个三角形滤波器 的下限、中心和上限频率,则相邻滤波器之间的下限、中心和上限频率如图所示, 有如下关系: c ( ,) = h ( t 1 ) = o ( t + 1 ) 1 2 式( 2 - 2 0 ) 北京邮电大学硕士学位论文 扣1 z+ i :二么二 - c ( t - o h ( - 1 ) h ( ,) o ( 0 c ( o c ( 1 + d o ( ,+ 1 ) 图2 4m e l 频率轴上相邻三角形滤波器的关系 ( 4 ) 根据语音信号幅度谱f 以( 岔) i 求每一个三角形滤波器的输出 ( ,) r e ( t ) = 形( 七) 阮( 砩,= 1 ,2 ,l t = o ( ,) 彬( 七) = k d ( ,) c ( t ) 一d ( ,) j i l ( ,) 一k “) 一c ( ,) o ( t ) ks c ( ,) c ( t ) k 矗( ,) 式( 2 2 2 ) ( 5 ) 对所有滤波器输出作对数运算,再进一步作离散余弦变换( d c t ) 即可 得到m f c c 甜) = 扉l o g 聊仰删1 1d r r t _ 1 2 ,q 其中q 为m f c c 参数的阶数。 1 3 北京邮电大学硕士学位论文 第三章隐马尔可夫模型在语音识别系统中的应用 语音识别主要有三种主流技术,分别是基于动态时间规整d t w ( d y n a m i e t i m ew a r p i n g ) 的识别算法,基于隐马尔可夫模型h m m ( h i d d e nm a r k o vm o d e l ) 的识别算法和基于人工神经网络a n n ( a r t i f i c i a ln e u r a ln e t w o r k ) 的识别算法 1 9 - z 1 o d t w 和模板匹配技术直接利用提取的语音特征作为模板,此算法从2 0 世纪 9 0 年代就进入成熟期,其应用动态规划方法成功解决了语音信号特征参数序列 比较时长不等的难题,在孤立词语语音识别啪1 中获得了良好的性能。但因其不适 合连续语音大词汇量语音识别系统,目前已被h m m 模型所取代。 h m m 方法现在已成为语音识别的主流技术,目前大多数大词汇量、连续语 音的非特定人语音识别系统都是基于h m m 的。h m m 算法很好地描述了语音信 号的整体非平稳性和局部平稳性,是较为理想的一种语音识别模型。但是h m m 方法中最大的一个不足之处在于,统计模型的建立需要依赖一个较大的语音库, 这在实际工作中占有很大的工作量,且模型所需要的存储量和匹配计算( 包括特 征矢量的输出概率计算) 的运算量相对较大。 神经网络的概念也已经被应用于语音识别中,其中最有效的一种方法是使用 多层神经网络,不同层之间的神经元通过一定的加权系数相互连接,这些加权系 数可以在训练中进行学习,每一个神经元对所有输入进行读取,然后把结果传给 下一层的神经网节点上。神经网络的主要缺点是不容易解决时间轴动态归一化问 题,目前主要用于小词汇量的语音识别系统中。 在本章中,首先将介绍隐马尔可夫模型( h m m ) 的定义及分类,然后进一 步介绍隐马尔可夫模型的主要算法。在第二节中将主要介绍汉语数字语音识别系 统的结构以及隐马尔可夫模型在语音识别中的具体应用,对模型的训练、评估作 出介绍。在第三节中将分析训练讲话者和评测讲话者之间的关系,并提出在语音 库中更加均匀的选取评测讲话者的方法。 3 1h m m 模型的基本概念 隐马尔可夫模型曲儿2 4 1 作为语音信号的一种统计模型,在语音处理各个领域中 获得了广泛的应用。大约在1 0 0 年前,数学家即已知道马尔可夫链了。在近几十 年中,马尔可夫模型被应用到语音信号处理中来,当时缺乏一种能使该模型参数 1 4 北京邮电大学硕士学位论文 与语音信号达到最佳匹配的有效方法。到了2 0 世纪6 0 年代后期,才有人提出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 社区团购标品品类规划
- 重症医学科心肺复苏基础知识要点
- 老旧小区改造工程施工组织设计
- 《清远市市场监管领域实施执法“观察期”制度工作指引(试行)》
- 2025别墅的精装修合同
- 2025年合同履行担保书模板
- 2025代理邮政业务合同
- 血液科再生障碍性贫血输血管理护理规范培训
- 医疗耗材使用管理
- 物业管理安全管理培训
- 党建知识考试题库及答案
- 2025年公务员多省联考《申论》真题(安徽B卷)及答案解析
- GB/T 46203-2025科研用生物试剂分类及代码
- 高压蒸汽管道焊接及热处理施工方案
- 中层管理职位竞聘面试题及答案
- 神经松解术护理知识培训课件
- GB/T 28727-2025气体分析气体中微量硫化合物含量的测定火焰光度气相色谱法
- 企业招聘渠道优化与效果分析
- 2025年国家开放大学《文化艺术概论》期末考试备考试题及答案解析
- 林权证更正申请书
- 企业研究开发的组织管理制度
评论
0/150
提交评论