(模式识别与智能系统专业论文)多语言语音识别技术研究.pdf_第1页
(模式识别与智能系统专业论文)多语言语音识别技术研究.pdf_第2页
(模式识别与智能系统专业论文)多语言语音识别技术研究.pdf_第3页
(模式识别与智能系统专业论文)多语言语音识别技术研究.pdf_第4页
(模式识别与智能系统专业论文)多语言语音识别技术研究.pdf_第5页
已阅读5页,还剩118页未读 继续免费阅读

(模式识别与智能系统专业论文)多语言语音识别技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 多语言语音识别研究是语音识别技术不断发展、不断进步的结果,是语音 技术发展的一个必然趋势。本文以我们成熟的汉语识别技术为基础,在深入掌 握、分析汉语识别系统的基础上,先后开发了英语、日语和英汉双语识别系统, 同时使得我们的语音识别系统具有语言无关的特点,可以很方便的扩展到其它 语言的识别。 论文工作的主要内容和贡献如下: 深入分析了汉语语音识别的各项实现技术,如特征提取,决策树建模和 识别器的搜索框架等。从语境相关建模和声学特征两个方面详细研究了 声调信息对汉语识别系统的影响。此外还以音素为建模单元,重新搭建 了一个汉语识别系统,从反面验证了声韵母建模的优势。 _ 深入分析了英语的语言特点,详细考察了主流的英语语音识别技术,开 发出英语识别系统,包括初始模型的生成、问题集的设计、基于决策树 的三音子模型训练和识别搜索过程。在方差建模技术中引入了贝叶斯准 则用于确定方差变换类别的个数。采用对数谱域的特征补偿算法,在不 影响纯净语音识别效果的情况下提高了系统的抗噪性能。此外,还采用 数据驱动的m l l r 算法对非母语发音的口音自适应问题进行了研究。 一深入分析了日语的发音和语言特征,定义了日语的声学基本建模单元, 采用基于决策树的三音子建模方法,快速开发出我们的日语语音识别系 统。提出了基于统计方法的端点检测算法,从统计学的观点出发估计端 点的门限,具有较为鲁棒的抗噪性能。此外,还针对跨语言识别的方法, 考察了从汉语、英语和汉英双语到日语的跨语言识别,给出了一些初步 的实验结果。 _ 多语言语音识别的一个难点就是如何有效控制识别单元扩大带来的建 模单元急剧增加的问题。我们以汉语和英语为研究对象,详细研究了汉 英双语的混合声学建模问题。从直接合并汉英双语的建模单元到i p a 映 射,再到基于不同距离度量( b h a t t a c h a d ,y a 距离,似然度距离和最大互 信息距离) 的自动聚类算法,考察了各种方法的优缺点。探索出一条双 语建模的有效途径。引入语言有关的问题,进一步改进了普通的决策树 建模算法,使得问题的分裂更容易进行下去,对声学建模的糖确性有一 定的提高。 关键词:语音识别,汉语识别,英语识别,日语识别,多语言识别,决策 树建模,基于统计的端点检测,跨语言识别 a b s t r a c t m l l l 枷i n g u a ls p e e c hr e c o g n j t i o n ( m s r ) ,a s 恤c o n s e q u c n c eo fd e v e l o p m e mo f a u t o m a t i cs p e e c hr e c o g n i t i o n ( a s r ) ,i sg o i r l ga l o n gw i t l lm o d e mc o m p u t c rh a r d w a r e 锄ds o f h 憎e i nt l l i sp a p e f ,0 1 1 rt a r g e tw a st os m d eo v e rt l l ef e n c e 锄o n gd i 丑e r e n t l a i l g u a g e si nt l 地w o r l d f o rt h i sp u 巾o s e ,c h i n e s ea 1 1 de n g l i s ha n dj 印a i l e s ea n d c 1 1 i n e s e - e n 百i s hb i l i n g u a ls p c e c hr e c o 嘶t i o ns y s t c m sw e r ed e v e l 叩e di nt l l i sw o r k , b a s e do no l l re 茄c i e n tc h i i l e s er e c o g i l i t i o nt e c l m o l o g i e s t h e m a i n w o r k s o f t h i s p 印e ra r e 够f o l l o w s - d e v e l o p e dc h i n e s es p e e c hr e c o g n j t i o n ( c s r ) s y s t e m 、i mp h o n e m ea st h e b a s em o d e l ,b a s e do nd e t a i l e ds t u d yo fo l l rc s r t e c l l n o l o g i e s i m p o r t a l l c eo f c h i n e s et o n e si n f 0 珊a t i o n 、硼ss h o 、v e d 丘o mt w oa s p e c t so fs p e e c h r e c o g 晡t i o n ,s u c ha sf e 抛r e 跹dm o d e l -c h a r a c t e r i s t i c so f e n g l i s hw e r ei n t e n s i v es t l l d i e d6 r s t ,a n dt 1 1 e no u re 心i s h s p e e c hr 七c o g m t i o n ( e s r ) s y s t e mw a sd e v e l 叩e d ,i n c l u d i n gi n m a im o d e l 砌n i n ga 1 1 dd e s i 印o fq u e s t i o ns e ta n dd e c i s i o nt r e eb a s e d 埘曲o n em o d e l t r a l 血n g 锄ds e a r c hp r o c e s so f 也er e c o g l l i z e r t h e ns e m i - t i e dc o v 翻a n c e m o d e l i n gt e c h n j q u e sa r ei i n p f o v e du s i n gm o r er o b u s tb a y e si n f o m a t i o na s t h ec r i t e r i o r0 fd e c i d i n gm en u m b e ro fc o v 撕a n c e 乜m s f o 皿a t i o nm 砌x t h ec o m p e n s a t i o ni nm el o g - s p e c t r a ld o m a i ni sa l s oi i e s d g a t e dt og a i n m o r er o b u s ta c o u s t i cm o d e l a tl a s 七,n o n n a t i v es p e a k e ra d 印诅t i o n 、v a st e s t e d b y d a t ad r i v e nm a x i m u ml 龇l i h o o dl i i l e a r r e g r e s s i o n ( m l l r ) f a s t a d 印t a t i o na l g o r i t h i n 一 j a p a i l e s es p e e c hr e c o g i l i t i o n ( j s r ) s y s t e m 、】l d e v e l o p e dr 印i d l yw i mf a s t i i i b o o t s t r a p p i n gm e 山o do fm s r t h e ne n d p o i n td e t e c t i o na l g o r i 曲nb a s e do n s t a t i s t i c si ss u g g e s t e d t l l i sa l g o d t l l mi si n o r er o b u s tf o rn o i s ys p e e c hm a l l o m c r s a tl a s t ,s i m p l et e s t so fc m s s l a n g u a g es p e e c hr c c 0 9 1 1 i t i o nf 如m c l l i n e s ea i l de n 百i s ha n dc m n e s e e n g l i s hb i l i n g u a is y s t e mt oj 印a n e s ew e r e c a 盯i e do u t 1 1 1 er e s m t ss h o w e d 也a tb i l i n g u a la c o u s t i cm o d e lp e r f 0 n e d b e t t e r 血a 1 1l a l l g u a g e _ d e p e n d e n tm o d e l s s e v e m lc h i n e s e e n 9 1 i s h b m n g l l a la c o u s t i cm o d e l i n gt e c h n i q u e sw e r e e x p l o r e di n t e n s i v e l y s u c ha sd i r e c tc o m b i n a t i o no ft w os e t so fb a s em o d d a 1 1 di i am a p p i n ga n da u t o m a t i ca g 舀o m e r a t i v e c l u s t e r i n gb yd i 矗b r e n t d i s t a l l c e i n e a s i l r e s ,e - g ,b h a t h a r y y ad i s t a n c e ,l o 争1 i k e l m o o da i l d m 捌m u mm u t u a li n f 0 咖a t i o n ( m m i ) l a n g u a g er e l 砷。d q u e s t i o n sw e r e a d o p t e di nt l l ed e c i s i o nt r e e 廿a i n i i l gp r o c e s sa n da c h j e v e d h i g h e r p e r f o m a n c e 山a nt l l e 乜a d i t i o n a lm e m o d k e y w o r d s :s p e e c hr e c o g n i t i o n ,c s re s r ,j s r ,m u l t i l i n g u a l ,b i l i n g l l a l , d e c i s i o n 廿e ea l g o r i 吐h n ,s 伽s t i c a le n d - p o i n td e c t i o n ,c r o s s l a l l g l l a g e i v 独创性声明 本人声明所提交的论文是我个人在导师指导下进行的研究j := 作及取得的研究成果。尽 我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确地说明 并表示了谢意。 毖j 脚日期 矿,nr “ 关于论文使用授权的说明 本人完全了解中国科学院自动化研究所有关保留、使硝学位论文的规定,即:中国科 学院自动化研究所有权保留送交论文的复印件,允许论文被查阅和借阅;可以公布论文的 全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:j 匹叁师签名: j 日期 沙y 。j 一、,厂 第一章绪论 1 1 引言 第一章绪论 在上个世纪术,曾经有专家预言说:“二十一世纪将是信息技术的世纪。” 随着互联网的飞速发展和计算机软硬件技术的日新月异,生活在现代社会的人 们切身感受到了信息技术的神奇和威力,计算机也逐渐步入普通家庭并渗入到 了日常生活当中。然而,计算机毕竟是高科技产品,其产生的最初目的是为了 满足科学研究的需要,而不是为普通人设计的,所以尽管现在很多计算机公司 已经有所谓的“家用机型”,但是人们与计算机之问的交流仍然不是一件很容易 的事情。如果不进行专门的操作学习,普通人使用计算机仍然是一件非常困难 的事情。早就有人猜想如果可以通过和计算机进行“对话”交流并控制计算机 的运行,岂不就解决了普通人使用计算机的“瓶颈问题”了吗? 简而言之,现 在研究语音识别技术的目的,很大一部分的原因就是为了让人们与计算机的交 流更加自然、流畅、和谐。一旦语音识别技术足够成熟,计算机将真正成为普 通的“家用电器”,成为我们生活当中不可或缺的一部分。 简单而言,语音识别系统般由三个部分构成,即特征提取、声学匹配和 基于语言模型的后处理( 如图1 1 所示) 。特征提取就是从语音信号中提取具有 “听觉意义”的特征参数f 1 ,2 】:声学匹配是根据声学模型和语言模型对特征向 量进行解码,找出最佳的候选词序列;后处理主要是根据语言模型来处理声学 层识别结果的同音字( 词) 以及模糊、歧义等问题 1 】。语音识别技术向前推进 的每一步都是以上三个部分不断创新、进步的结果。 狭义地说,语音识别识别过程就是将语音音频信号转换为一系列词的过程 多语言语音识别技术研究 1 ,3 】,也就是对采集到的语音信号进行还原的过程。作为一个专门的研究领域, 语音识别又是一门交叉学科,与声学、语音学、语言学、人工智能、数字信号 处理、信息论、模式识别、最优化理论以及计算机科学等众多学科紧密相连5 , 6 1 。所以,语音识别技术的进步,离不开相关学科的有力支持。近十年来,特别 是随着计算机技术的突飞猛进,语音识别在实验室环境下的准确率获得了大幅 度的提高。可以说,语音识别的技术水平已经非常接近实际的应用,市场前景 十分广阔。目前面临的主要问题是尽可能提高系统的鲁棒性,并尽快进入市场, 让普通用户感受到语音技术的优势,提高技术知名度和用户对产品的认可度。 图1 1 语音识别框架图 1 2 语音识另i j 发展简史 早在1 9 5 2 年,贝尔实验室的d a v i s 等人就利用每个数字在元音区谱的共振 第一章绪论 开发了一个针对单个人的孤立数字识别系统【7 ,8 】。这是世界上第一个语音识别 系统,也标志着语音识别研究的正式开端。1 9 5 6 年,r c a 实验室的o l s o n 和b e l a r 曾经尝试识别单个说话人的十个音节【7 ,9 】。1 9 5 9 年,m i t 林肯实验室的j w f o 嗜e 和c d f o r g e 基于对声道共振的时变估计方法,设计了个可以识别十个 元音的识别器 7 ,l o 】。在2 0 世纪6 0 年代,同本的几个实验室也相继开展了语 音识别方面的研究工作,如东京r a d i or e s e a r c hl a b 的n a k a d a ,东京大学的s a k a i 和d o s h i t a 以及n e c 实验室等【7 】。以上的工作,都是在语音识别领域的初步探 索,虽然技术比较简陋,但却开创了语音识别研究的先河。 可以说,在二十世纪七十年代以前,人们对语音识别只是进行了最原始、 最简单同时也是最直观的研究。这时的研究重点是基于语谱图的,人们企图从 语音信号的波形上面找到一个区分不同语音的叫寺征”,从而进行语音的识别。 但是,由于语音信号的复杂性和多变性,这些简单的语音特征也只能对最简单 的语音音节进行区分和识别,根本不能让人与机器之间的交流有明显的简化。 二十世纪六十年代,语音识别技术曾经一度陷入停顿状态,这是因为当时的信 号处理技术也在发展的初始阶段,还没有人意识到把信号处理技术应用于语音 识别当中。于是,科学家们把目光投向了语音信号的更深层次,试图运用新的 语音特征,找到语音识别技术的突破口。 功夫不负有心人。到了2 0 世纪7 0 年代,语音识别迎来了两项重大进展。 首先是在语音压缩领域取得了巨大成功的线性预测编码( l i n e a rp r e d i c t i o nc o d e , 简称l p c ) 技术被引入到语音识别领域,使语音识别的特征提取产生了一次质 的飞跃【6 】。其次是基于动念规划的时间规整( d y n 踟i ct i m ew a 删n g ,简称d t w ) 技术在语音识剐领域得到全面的应用,彻底解决了困扰人们多年的非线性时间 对准问题【4 ,在语音识别研究历史上写下了里程碑式的一页。这两项重大进展 使得语音识别技术的研究曙光初现,给科学家们以巨大的鼓舞,为以后更大的 发展奠定了基石。 与此同时,在语音识别领域的两个非常有代表性的研究方向分别在i b m 和 b e l j 实验室逐渐形成。l b m 在j e l i n e k 的领导下,以特定人语音昕写机为研究目 多语言语音识别技术研究 标,技术焦点集中于语言的结构方面。这种方法使用概率模型代表可能的语言 序列,试图从大规模真实语料中提取统计知识作为引导语音识别搜索算法的语 言学依据,后人称之为n 元文法【4 ,7 。b e l l 实验室的研究则是以向公众提供便 利的远程通讯服务为目的,如语音拨号、命令控制等技术。由于通讯服务是面 向大众的,使用者的说话方式多种多样,而且对于不同地区的人,其口音也不 样,所以b e i j 实验室的语音识男研究以非特定人为主。b e i j 实验室先后丌展 了谱距离度量、聚类分析以及关键词检测等方面的研究工作,取得了很大的突 破。这两种不同的研究方向在过去的2 0 年里对人机语音通讯技术产生了深远的 影响。尽管它们之间的不同之处显而易见,但却有个共同点,那就是数学分 析和推导在语音研究领域越来越重要 7 1 。 这一时期的语音识别技术已经大大前进了一步,脱离了五六十年代的技术 限制,对于单个词的识别技术已经比较成熟,走向了识别连续语音的阶段。然 而,由于整个识别系统的框架仍然不够合理,连续语音的识别仍旧困难重重, 识别率之低令人望而却步。 前文已经提到,语音议别技术的进步是随着其它学科的不断前进而前进的。 进入8 0 年代后,由于数学上对隐马尔可夫统计模型( h i d d e nm a r k o v m o d e l ,简 称h m m ) 的研究已经比较深入和成熟,这一技术被成功的应用到语音识别当中。 从此以后,语音识别算法从简单的模板匹配技术转变为以统计建模为主;人们 对语音信号的研究也从微观转向宏观,不再刻意追求语音的细微特征,而是更 多地从统计的角度来搭建语音识别系统【5 】,语音技术研究进入了一个崭新的发 展阶段。8 0 年代后期,人们终于在实验室突破了大词汇量、连续语音和非特定 入这三大障碍,第一次把这三个特性成功集成到一个系统中,并因此一举确立 了统计方法在语音识别和语言处理中的主流地位【4 。这方面的工作以c m u 的 s p h i n x 系统最有代表性【4 】。 从8 0 年代末到现在,从事语音识别研究的许多专家、学者充分挖掘了h m m 技术在语音识别领域的潜力,使得h m m 无论是在理论上还是在技术上,都取 得了巨大的成功,把语音识别推到了工业化的台阶上。如x d h u a l l g 提出了半 第一章绪论 连续h m m 模型( s c h m m ) 【1 ,1 1 ,在保证识别率的情况下有效提高了计算速 度;b h j u a n g 在保证训练过程收敛的条件下,将连续密度h m m 中密度函数的 约束由对数凹( l o g 硎t h m i cc o n c a v i t y ) 扩展到椭圆对称( e l l i p t i c a ls ) ,m m e t r y ) 。 并提出了基于高斯混合密度的h m m 模型【1 ,1 2 1 ,扩充了密度函数选择的自由 度:lr b a h l 等在深入分析了基于最大似然准则( m a x i m u ml i k e l m o o d ) 训练 h m m 模型理论上的不足后,提出了基于最大互信息准则( m a x i m u mm u t u a l i n f o r m a t i o n ) 的新算法 1 ,1 3 】。此外,些新算法也相继出现,如最小错误率准 则( m e e ) 【1 4 1 ,最大后验概率准则( m a ) ( i m u map o s t e r i o r ) 1 5 1 等。同时,搜 索算法也有了突破性的进展,先后出现了基于帧同步的v i t e r b i b e a m 搜索算法 1 6 ,17 】,时问不同步a + 搜索算法 1 8 】,利用启发性信息的搜索算法 1 9 ,2 0 , 2 1 】等。 人工神经网络在语音识别领域的应用也越来越受到重视,得到了蓬勃发展。 1 9 8 6 年,j l m c c 】e j l a n d 和j le l m a n 等在t r a c e 系统中率先利用a n n ( a r t i 乱i a ln e u r a ln e t w o r k ) 来对相邻语音段的相关信息进行描述【2 2 。1 9 8 7 年, “p p m a i l n 等人对六种不同结构的a n n 在语音识别中的应用进行了分析,探索 了用触啭进行语音模板分类的方法【:渤。为了解决语音识澍中的时长问题, w a i b e l 等人提出了时延神经网络t d n n ( t i m e d e l a yn e u r a ln e t w o r k ) ,r o b i n s o n 提出了循环网络鼢州( r e c u r r e n t n e u r a l n e t w o r k ) ,l e v i n 提出了h c n n ( h i d d e n c o n t r o ln e u m ln e t w o r k ) 。不过,由于在描述时间信息方面不如h m m 精确,单 独使用神经网络并没有达到比h m m 更好的识别效果,所以现阶段还没有在语 音识别领域获得足够的重视。 早在凡十年前,人们曾经预测语音识别技术的实用化将比人类的登月计划 提前实现。然而人类的登月壮举已经过去三十余年,语音识别技术却仍然没有 达到预期的目标。这也从一个侧面反映了语音技术的复杂性和艰巨性。 在过去的二十多年罩,语音识别技术获得了巨大的发展,特别是最近的十 余年,随着计算机软硬件技术的飞速发展,语音识别技术迅速进入产业应用领 域。但是,由于语音识别的关键技术之一鲁棒性问题一直没有取得突破性 多语言语音识别技术研究 的进展,所以语音识别技术的大规模应用时代迟迟没有到来。基于此,许多跨 国公司( 如m i c r o s o n 、i b m 、n o k i a 、t o s h i b a 等) 和欧美的研究机构都把目 光投向了有限领域的、可用于嵌入式系统的语音识别技术研究,借以在局部范 围打开语音技术应用的突破口,以期在未来的巨大市场里占据有利的地位。 图1 2 语音识别发展历程示意图 随着语音识别研究的进一步深入,语音识别技术将有望更加成熟。现在, 语音识别在特征参数提取、声学模型建模、搜索算法以及声学环境自适应等方 面都取得了关键性的进展。在有限领域的语音识别产品相继问世,如火车或飞 机订票系统、旅馆查询及预定系统、语音听写机等,其中以i b m 公司的v i a v o i c e 语音听写机系统最具代表性【2 4 。令人遗憾的是这些系统对噪声很敏感,很容易 受应用环境的影响,难以进行大规模应用。但是,我们有理由相信,在不久的 将来,语音识别技术必将更加成熟,语音识别技术也将大大加速人类进入信息 时代的步伐,简化入和计算机之间的交互手段,使得人机交互方式更加和谐、 自然! 第一章绪论 1 3 多语言语音识别概述 多语言识别最初的形式就是语种识剐( l a n g u a g ei d e n t m c a t i o n ,简称l i d ) 。 最早开展这项研究的是德州仪器公司( t e x a s1 n s t r u m e m ) ,他们从1 9 7 3 年开始, 进行了系列的研究工作,到1 9 8 0 年时基本告一段落,识别的准确率在没有拒 识时为6 2 ,加上拒识则可以达到1 0 0 ,但是拒识率高达6 8 2 5 ,2 6 ,2 7 , 2 8 。1 9 8 0 年,有学者- 丌始使用m a r k o v 模型进行语种识别研究,准确率达到了 8 0 2 9 。随着研究工作的深入,各种算法也纷纷涌现,如基于声学特征和多 项式决策函数的算法 3 0 ,基频和能谱图方法 3 1 ,专家系统 3 2 ,v o 算 法 3 3 ,人工神经网络 3 4 等,识别率也不断上升。在1 9 8 6 年时,8 种主要 语言的识别准确率就达到了9 2 3 2 。但是由于没有一个公共的测试集和测试 平台,而且有的研究没有给出识别的是什么语种,所以这些研究之阳j 不具有可 比性。虽然识别率各有千秋,但是很难说哪一个算法更好。 进入九十年代后,先后有一些公共的多语言测试集和评测项目出现,如o g i 关于电话语音识别的多语言测试集o g i - 1 3 3 5 ,包括1 1 种语言,既可以进行 语种识别,又可以进行多语言的语音识别,是第一个比较完备的测试平台;德 国的针对三国语言( 德语、英语和日语) v e r b m o b i i e 项目 3 6 ;欧盟的基于多 语言识别器的评测项目s o a l e ,主要目的是解决多语言识别器中特定语言的一 些问题 3 7 ,3 8 ;d a 砌狐的h u b 5 评测,则是侧重于对话语音识别和基于电话 的多种语言大词汇量连续语音识别 3 9 ,4 0 ;欧洲的s p e e c h d a t 项目,现在 已经涵盖了超过2 0 种的欧洲语言,此项目的最初目的是研究基于电话的语音识 别,参加者多为大公司和一些研究所;i d e a l 也是研究电话语音的,主要是语 种识别,包括法语、英语、德语和西班牙语,共四种语言;g l o b a l p h o n e 是 德国的u n i v c r s 岭o fk a r l s r u h e 主持的多语言语音识别项目,旨桎建立个多语 言语音识别数据库,以促进多语言语音识别研究。他们录制了1 3 种语言的2 3 0 个小时的语音数据 4 1 。 语种识别采用的特征最初是不同语占音素( p h o n e m e ) 的谱信息之间的差异 多语言语音识别技术研究 3 0 ,3 l ,3 3 。后来韵律特征也被应用到语种识别中来 4 2 ,4 3 ,4 4 。由于 不同语言包含不同的p h o n ei n v e n t o r i e s 。其排列顺序也是不一样的。基于此,l a m e l 构建了一个基于统计的p h o n e 识别器 4 5 :z i s s m a i l 则把多个不同语言的p h o n e 识别器放在一块儿,然后把具有最高似然得分的那个输出作为最终的识别结果 4 6 。此外,还有一些系统把不同语言中具有最大似然度的p h o n c 共事,定义 了一个非特定语言的p h o n el n v e n t o r y ,只使用一个p h o n e 识别器就实现了语种识 别 4 7 ,4 8 ,4 9 。另外还有学者提出以词为建模单元搭建l i d 系统 5 0 。语 种识别准确性的提高,很大的原因要归功于更多深层次语言信息的充分利用 5 1 。 在二十世纪九十年代中期以前,多语言谈别的重点仅是简单的语种t 鳗别; 后来研究重点慢慢转移到多语言连续语音识别,但是语种识别并没有停止,而 是和连续语音识别结合在了一起。如今有的多语言语音识别系统,就是把语种 识别作为整个系统的一部分,识别出是哪种语言后,再调用相应的识别器进行 语音识别,其系统框图如图】3 所示 5 2 。在此类系统中,不同语言的识别器 并行排列,分别使用各自的声学模型和语言模型 5 3 ,5 4 ,5 5 。这种方法的优 点是当语种识别很准确时,后端的识别器具有很高的识别率。缺点是严重依赖 语种识别的精度,而且需要大量标注好的数据用于声学模型和语言模型的训练, 系统的负担很重。不易向新语种扩展,局限性较大。 另外一种更普遍的多语言识别方法,是定义一个多语言共享的p h o n e i n v e n c o i y ,在这个p h o n ei n v e n t o r y 的基础上训练出多种语言共享的声学模型和语 言模型。这样只使用一个识别器,就可以识别不同语言的语音信号。在此框架 之下,声学模型的参数是基于非特定语言的。共享的p h o n ei n v e n t o r y 可以根据 不同语言之间p h o n e 的声学相似性度量柬定义,如s a m p a 5 6 和w o r l d b e t 5 7 ,也可以根据语音学知识定义,如i p a 5 8 。其系统框架如图1 4 所示 5 2 。 这种方法的优点是不同语占之间可以实现数据共享,和上面的框架相比,p h o n e 的个数也大大减少,扩展性好,易于加入新的语种 4 l ,5 9 ,6 0 。缺点是识别 率有所下降。这是目前多语占识别的研究重点,很多研究单位都有专门的研究 第一章绪论 组从事这项工作,如m i t 的计算机科学实验室( l a b o r a t o r yf o rc o m p u t e r s c i e n c e ) ,j h u 的语言与语音处理中心( t h ec e n t e rf o rl a n g u a g ea n ds p e e c h p r o c e s s i n g ) ,德国k a r l s r u h e 大学的交互系统实验室( i n t e r a c t i v es y s t e m s 图1 3 并行的多语言语音识别系统示意图 图1 4 非特定语言语音识别系统框图 l a b o r a t o r i e s ) 等。此时声学模型的训练算法也分为两大类,即自顶向下( t o p d o w n ) 多语言语音识别技术研究 算法和自底向上( b o t t o m u p ) 算法。自顶向下算法的代表是决策树( d e c i s i o nt r e e ) 算法,最初是由y o u n g 应用到语音识别领域 6 1 ,s c h u l t z 和w a i b e l 5 9 ,6 0 , 6 2 ,6 3 把这个算法应用于多语言领域,做了很多这方面的研究工作。自底向 上算法的代表是根据p h o n e 或者p h o n e 之间的相似性距离( 如似然度,最大 互信息等) 进行自动合并聚类( a g g l o m e r a t i v ec l u s t e r i n g ) 。这种算法的优点是充 分考虑了声学上的相似性,但是如果没有先验知识的引导,得到的聚类结果和 基于知识的i p a 映射不太一致,缺乏直观性。 从多语言系统向新语种( 目标语言) 扩展,也是多语言研究的一个方向。 s c h u h z 和w a i b e l 已经在这方面做了很多有益的工作 4 l ,6 2 。6 3 ,6 4 。依据 可甩数据的多少,可分为跨语言( c r 。s s 1 鳃g u a g e ) 识别、快速识剐系统搭建( f a g t b o o t s t r a p p i n g ) 和语苦自适应( l a n g u a g ea d a p t a l i o n ) 三种方法 6 4 。跨语言识 别指的是用对语言识别器直接识别目标语言的语音,不使用任何目标语占的训 练数据。这种情况下,多语言+ 系统定义的p h o n es e t 对目标语言的识别率有很大 影响。它们之间的声学相似性程度直接决定了系统的性能,相似性越大,识别 率越高,反之则低。语言自适应则是指在有很少训练数据时先进行语言自适应, 然后再进行目标语言的识别。这时,可用自适应数据的多寡直接影响着系统的 性能。对于没有训练数据或者只有很少训练数据的小语种来说,这两种方法显 得特;j l j 有意义。当可用的训练数据很多时,就应当采用快速识别系统搭建的方 法了。其中心思想是用多语言的声学模型作为种子模型进行初始化,然后利用 目标语言的数据重新训练声学模型。这种方法最初是z u e 提出来的,已经被多 人验证过 4 1 ,4 9 ,6 5 ,6 6 。 实验表明,只要有足够多的训练数据,多语言系统的语音识别率基本可以 达到和特定语言的语音识别系统相当的性能 6 7 。g l o b a l p h o n e 的结果还 表明,多语苦系统的非特定语言声学模型更加适合于对新的目标语言进行识别 5 9 。因此,我们对大量的标注好的训练数据的需求得到有效缓解。但是,声 学模型的问题远未得到完美解决,因为语音识别系统对对话语音以及非母语语 音的识别率还不够高 6 7 ,小语种的语音识别系统还没有得到很好解决 5 2 。 第一章绪论 1 4 多语言语音识别系统技术综述与评测结果 下面简要介绍一下d a r p a 关于多语言评测( 包括语种评测) 的数据集、主 流技术及相应的评测结果,以便读者对多语言识别技术及现状有一个较为清楚 的了解。 1 4 1 语种识别使用的主要技术、数据集及评测结果 图1 5l i d 系统的n i s t 评测结果( 0 g i t s 为测试集) 表1 1 语种识别的主流技术 是最早使用的语种识别技术。利用不同语种涵盖 s p e c t r a i - s i m i l a r i t y 不同的p h o n e m e s 和p h o n e s ,计算出其短时谱,训 a p p r o a c h e s 练出p h o n em o d e l s ,测试时似然得分最高的p h o n e 所属的语种即为识别结果。 p m s o d y b a s e d 使用不同语言之间韵律的差异进行语种识别。有 实验证明这种方法的抗噪性能较好,但是有的实 a p p m a c h e s 验结果却相反。 多语肓语音识别技术研究 这种方法和谱相似方法类似,改进的地方在于把 p h o n e _ r e c o g n i “o n p h o n e 出现的顺序也作为区分性信息使用,性能有 较大提高,鲁棒性增强。对于只有两种语言的l l d a p p r o a c h e s 系统,测试没有训练数据的语言时,也可以取得 很好的结果。 w o r dl e v e i 此方法使用了更复杂的序列模型,利用了语言学 a p p r 0 叠c h e s 知识,使用了n - g r 啦语言模型。 c o n t i n u o u ss p e e c h 其实这是多语言语音识别系统的副产品。由于利 r e c o g n i t i o n 用了更多的语言学知识,效果最好。 表1 2 语种和多语言系统的主要数据集 o g l t s 包括1 1 种语言,共9 0 0 个c a l l s ,每种语言9 0 个 c “l s 。其中5 0 个用于训练,2 0 个用于 ( 1 9 9 2 ) d e v e l o p m e n t ,2 0 个用于测试。 c a l l f r i e n d 对话形式的语音,最初包括1 2 种语言,其中1 1 种语言与o g i t s 相同。每种语言有6 0 个对话, ( l d c ,1 9 9 6 ) 每个对话持续5 3 0 分钟。 c a l l h o m e 对话形式的语音,包括6 种语言,每种语言有1 2 0 个对话,其中1 0 0 个对话用来训练声学模型,2 0 ( 1 9 9 6 ) 个对话用作测试集。 g l o b a l p h o n e 朗读语音,录制了1 3 种语言的语音,录音总长 度达2 3 0 小时,每种语言的录音长度不一,介于 ( 1 9 9 6 ) 1 8 4 1 小时之问。 图1 ,5 中包括1 9 9 3 、1 9 9 4 和1 9 9 5 三年的评测结果。每年的评测都根据测试 语音的长度分为两种测试方法,即4 5 秒测试和1 0 秒测试。其中l a n g u a g ep a i r s 是二选测试,每个二选一里都包含英语,另外一种语言则是o g i t s 数据库里 的任一种非英语语言。n w a y 指大于双语的l i d 系统,具体就是1 9 9 3 年的十 选一,1 9 9 4 年的十一选一和1 9 9 5 年的九选一。s f 代表以音节为识别单元的系 统,p r 代表包括p h o n e 识别和语言模型( 其实是以音节为单位的“语言模型”) 的系统。 第一章绪论 1 4 2 多语言语音识别使用的主要技术、数据集及评测结果 表1 3 多语言语音识别的主要技术 l 队( k n o w l e d g eb a s e d ) d i r e c tm a p p i n g s a m p a ( s i m i l a r i t i c so f s o u n d s ) w o r l d b e t ( s i m i l a r i t i e so fs o u n d s ) b o t t o m u p 方法,计算量较大,阈值的选 a u t o m a t i cp h o n e择要由实验确定。 m u l t i l i g u a l c i u s t e r i n g 优点:使用了和识别过程一样的统计方 p h o n es e t法;缺点:难以向其他语种扩展。 第一步先用直接映射的i p a 方法把不同 语言的p h o n es e t 映射到一个基于语音学 d e n s i t yc i u s t e r i n g 知识的多语言共享的p h o n es e t 里,然后 在高斯密度层面进行自动聚类,更新 p h o n es e t 。 首先设计一个多语吉的问题集,切分时根 据问题集回答所提问题,然后对切分好的 d e c i s i o nt r e e数据样本进行决策树聚类,训练 a i g o r i t h 啪m o n o p h o n e 或t r i p h o n e 模型。此方法的 ( r r o p - d o w nm e t h o d )优点是在训练数据较少时也可以取得较 好的识剐率。问题集的好坏直接影响声学 模型的区分性能。 合并聚类是基于数据驱动的算法。首先定 a c o u s t i c a g g l o m e r a t i v e 义一个距离度量( t r i p h o n eo t m o d e l c l u s t e r i n g m o n o p h o n e ) ,选择好跨语言的p h o n es e t , a t g o r “h m 计算两两之蚓的距离,依据定义好的合并 ( b o t t o m - u pm e t h o d ) 准则( 距离最近的两类进行合并) 进行合 并聚类,直至达到所定阂值。 其基本思想是利用区分性模型组合方法, m u l t i l i n g u a i 使得已有的声学模型( 也可以用于语言模 d i s c r i m i n a t i v e 型) 组合后得到的对数线性后验概率最 m o d e lc o m b i n a t i o n 大,也就是达到最优组合的目的 b y m e , 1 9 9 9 。 多语言系统既可以把独立的单语言的 l a n g u a g em u i t i i i n g u a l l a l l g u a g em o d e l 合并在一起使用,也可以 训练一个统一的涵盖多种语言的 m o d e i l a n g u a g em o d e l l a n g u a g em o d e l ,其训练算法和特定语言 情况的训练算法基本相同。 多语言语音识别技术研究 目前关于多语言连续语音识别系统还没有非常标准的评测平台。大部分研 究工作和结果对比都是各个研究组独自进行的,使用的测试集也不尽相同,所 以很难进行客观的评价。下面是k a r l s m h e 大学g l o b a l p h o n e 项目1 9 9 7 年的 部分结果 4 1 。 表1 4 几种单语识别系统的测试结果 w b r de r r o r l a n g u a g e v i c a b u i a r i e sp h o n e m e s r a t e s g e r m 馥n5 4 3 86 51 4 e n 毋i s h 2 6 0 15 3 2 3 j a p a n e s e 1 8 7 93 99 3 s p a n i s h 3 9 3 94 7 1 7 m u i j i2 0 0 8 2 2 0 4 十s i l 表1 5单语识别系统和多语言识别系统性能对比 w e r ( l a n g u a g e - i a n g u a g e i n d e p e n d e n t l a n g u a g e d e p e n d e n t )w e r l i d r a t e g e r m a n1 3 2 3 5 5 1 0 0 e n g i i s h 3 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论