已阅读5页,还剩74页未读, 继续免费阅读
(信号与信息处理专业论文)基于支持向量机的语种识别方法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着全球化趋势的加剧,国际间交流越来越密切,各国家和地区的人们因为 经济、政治、文化、旅游的需要而频繁往来,使得人们迫切地需要能够突破语言 的限制,自由地进行交往。因此自动语种识另x j ( l a n g u a g ei d e n t i f i c a t i o n ,l i d ) 显得 越来越重要。l i d 能自动地识别出一段语音所属的语言种类,这在语音识别、自 动机器翻译、国防和日常生活中体现出较强的应用价值,逐渐引起了相关研究和 应用领域的广泛关注。 广义上说,自动语种识别可分成基于声学模型和基于音素搭配关系模型两 类。另外,根据建模方法的不同,又可以分成产生性模型( g e n e r a t i v em o d e l ) ,如 音素识别语言模型( p r l m ) 、高斯混合模型( g m m ) 和区分性模型( d i s c r i m i n a t i v e m o d e l ) 的方法,如支持向量机s v m 。近年来将音素识别p r 、g m m 和s v m 结 合起来成为语种识别研究的一个主要方向。本文从声学空间的区分性建模方法出 发,着重研究了基于支持向量机s v m 的语种识别系统。首先介绍了其常用的声 学特征及其鲁棒性方法,然后分析了不同核函数的构成,即广义线性区分性序列 核g l d s 和高斯混合模型超矢量核g s v ,在此基础上提出了相应的改进,具体 工作包括以下几个方面: 第一:从原理上对比了l p c c 和m f c c 在语种识别中的优劣,由此启发, 将他们融合起可以获得较好的效果。另外对各种基于特征域上的鲁棒性方法在语 种识别上的应用进行试验,最终给出了一个合适的提高特征鲁棒性的策略。 第二:针对原有的g l d s 核函数存在训练、测试语句之间时长不匹配的问 题,采取了层次化的结构,一方面将训练样本切分到和测试样本相近的长度,另 一方面又通过样本选择,在控制样本数目的前提下保留了最具区分性的样本。这 样在一定程度上减少了训练和测试之间的不匹配问题,又保留了其计算量小的优 点。再结合多种特征之间的互补性,使系统性能提升3 0 。 第三:在g s v 系统中,通过结合扰动属性投影n a p 、因子分析f a 等去噪 方法和v t l n 等手段,识别性能得到很大提高。另外,针对g s v 系统的特征维 数随g m m 高斯数呈倍数的增长,且各维间存在冗余的现象,本文采用核主成分 分析k p c a 和关键特征选择( k e ys e l e c t i o n ) 的方法,既起到了降维的作用,又 突出了剩余特征维数之间的区分性,减少了运算量,提升了系统性能。 关键词:语种识别,支持向量机,层次化,高斯混合模型,扰动属性投影,关键 选择 a b s t r a c t a b s t r a c t a st h e r a p i dd e v e l o p m e n to fg l o b a l i z a t i o na n dt h e c l o s e ri n t e m a t i o n a l c o m m u n i c a t i o n ,p e o p l ea l la r o u n dt h ew o r l dg oa b r o a df r e q u e n t l ya n du r g e n t l ye x p e c t f r e ec o m m u n i c a t i o nt oo t h e r ss p e a k i n go t h e rm o t h e rl a n g u a g e s ,b e c a u s eo ft h e e c o n o m y ,p o l i t i c s ,a n dc u l t u r ee x c h a n g e sa n dt o u r i s m s ol a n g u a g ei d e n t i f i c a t i o n , w h i c hi d e n t i f yt h eg i v e ns p e e c hu t t e r a n c et oc e r t a i nt a r g e tl a n g u a g e ,i sm o r ea n dm o r e v a l u a b l ei ns p e e c hr e c o g n i t i o n ,a u t om a c h i n et r a n s l a t i o n ,d e f e n s ea n dd a i l yl i f e , a n dh a sa t t r a c t e dw i d e l ya t t e n t i o no fm a n yr e s e a r c hi n s t i t u t i o n s g e n e r a l l ys p e a k i n g ,l i dc a l lb ec a t e g o r i z e dt o a c o u s t i c b a s e dm o d e la n d p h o n o t a c t i c - b a s e dm o d e l ,a l s o ,f r o ma n o t h e rp o i n to fv i e w , t og e n e r a t i v em o d e la n d d i s c r i m i n a t i v em o d e lb yt r a i n i n gm e t h o d t o d a y ,t h ef u s i o no ft h ep r , g m ma n d s v mi sap o p u l a ra p p r o a c h t i l i st h e s i sf o c u s e so nt h ea p p l i c a t i o no fs v m b a s e d s y s t e mt ol a n g u a g ei d e n t i f i c a t i o n ,i n c l u d i n gt h er o b u s tf r o n t - e n df e a t u r ee x t r a c t i o n m e t h o d sa n de s p e c i a l l yt h eg l d sa n dg s vk e r n e lf u n c t i o n b a s e do nt h ea b o v e , i m p r o v e m e n t so nt h e ma r ee x p l o r e d ,a n dt h ee x p e r i m e n ts h o w st h eg r e a tg r a i n t h e d e t a i l so fm yw o r ki n c l u d ei n c l u d e : f i r s t l y ,w ec o m p a r et h ec o m m o n l yu s e dm f c ca n dl p c cf e a t u r ei np r i n c i p l e , a n dr e s u l ti nf u s i n gt h es y s t e m sb a s e do nd i f f e r e n tf e a t u r e s f u r t h e r m o r e ,w ep a y m u c ha t t e n t i o nt ot h et e c h n i q u e sa b o u tr o b u s tf e a t u r e ,w h i c hr e d u c et h en o i s ei n f e a t u r ed o m a i n s e c o n d l y ,b a s e do nt h ea n a l y s i s ,t h e r ei sat r a d e o f fi nt h eo r i g i n a lg l d s s v m s y s t e m :t h em i s m a t c hb e t w e e nt h ed u r a t i o no ft r a i n i n ga n dt e s t i n gd a t aa n dt h es i z eo f t h et r a i n i n gs e t t 0a d d r e s st h i sp r o b l e m ,ah i e r a r c h i c a ls v m t r a i n i n gf r a m e w o r ki s p r o p o s e d i nt h i sf r a m e w o r k ,t h et r a i n i n gu t t e r a n c e sa r es p l i t t e di n t od i f f e r e n td u r a t i o n s e t s ,t h eu t t e r a n c e sf r o mt h es h o r t t i m ed u r a t i o ns e ta r es e l e c t e da c c o r d i n gt ot h es v m m o d e l st r a i n e do nl o n g - t i m ed u r a t i o ns e t i nt h i sw a y ,t h em i s m a t c hb e t w e e nt r a i n i n g a n dt e s t i n gd e c r e a s e st os o m ed e g r e e f u r t h e r m o r e ,w ee x p l o r et w oc o m p l e m e n t a r y f e a t u r es e t si nac o - t r a i n i n gs t y l e b yf u s i n gt h e s ec o m p l e m e n t a r ys y s t e m s ,t h ee e ro f r e c o g n i t i o nc a nb er e l a t i v e l yr e d u c e db ya b o u t3 0 t h eg s v ,c o m b i n i n gg m m u b ma n ds v m ,h a sp r o m o t i n gp e r f o r m a n c ew i t h v o c a lt r a c tl e n g t hn o r m a l i z a t i o na n dt h er o b u s tc h a n n e lm e t h o d 。s u c ha st h e n u i s a n c ea t t r i b u t ep r o j e c t i o n ( n a p ) ,f a c t o ra n a l y s i s ( f a ) ,a n di ti st h eo n eo f s t a t e o f - t h e a r ts y s t e m b u tt h ef e a t u r ed i m e n s i o ni n c r e a s e sb y2t i m e sw i t ht h e i t t a b s t r a c t m i x t u r eo fg a u s s ,a n dw i t ht h eh i g hr e d u n d a n c y ,h e a v yc o m p u t a t i o n i no r d e rt or e s o l v e i t ,b e s i d e st h eh i e r a r c h i c a lf r a m e w o r ki ng l d s s v m ,k e r n e lp r i n c i p a lc o m p o n e n t a n a l y s i sa n dk e ys e l e c t i o na r ei n t r o d u c e di nt or e d u c ed i m e n s i o n sf r o mb i gm i x t u r e a n de n h a n c et h ed i s c r i m i n a t i o n ,w h i c ha r ev e r yu s e f u l k e yw o r d s :l a n g u a g ei d e n t i f i c a t i o n ,s u p p o r tv e c t o rm a c h i n e ,h i e r a r c h i c a lf r a m e w o r k , g a u s s i a nm i x t u r em o d e l ,n u i s a n c ea t t r i b u t ep r o je c t i o n ,k e ys e l e c t i o n i v 中国科学技术大学学位论文相关声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:盘墨堑 伽1 年g 月午 第1 章绪论 第1 章绪论 随着现代科技的飞速发展,人类对本身的语音有了越来越多的认识,从发音 原理、声道信息到频谱量化分析,都有了深刻的理解,同时也希望能从语音波形 中抽取出更多有用的信息,揭示其内在本质,从而加以更好的利用,使得第三方 ( 现在主要指计算机等机器设备) 做到“能听会说 。尽管现代语音学的发展已 经经历了近一个世纪,它的大量研究成果运用于语音合成等实际工程中,在信息 时代正发挥着日益重要的作用,也有几次出现“语音的春天马上到来 这样振奋 人心的呼喊,然而,目前除了语音合成、语音评测已经比较成熟外,其他的研究 领域,如:大词汇连续语音识别、说话人识别和语种识别等离市场还有不少距离。 语种识别( l a n g u a g ei d e n t i f i c a t i o n ,l i d ) i l l 2 1 ,亦称为语种辨识,它是通过分 析处理一个语音片段以判断其属于某个语言种类的过程,其本质是语音识别的一 个方面。语种识别利用到机器学习和模式分类的知识,一般分为训练和测试两个 过程:首先从原始的训练语音文件中获取一些能够表示该语种的基本信息,我们 称之为特征,然后用这些特征对每个语种模型进行建模,每个模型代表了该语种 固有的和其它语种独立的信息;测试时,同样对测试语句进行提取特征,然后对 每个语种模型计算他们之间的得分似然度( 1 i k e l i h o o d ) ,一般而言,如果某 模型的训练语句和和测试语句来自同一个语种,那么它的得分最大,以此判断这 个测试语句属于哪个语种。 1 1 语种识别的发展 语种识别的研究可以追溯到上个世纪七十年代。最初的语种识别研究是从语 言中的词汇开始的。虽然任何一种语言都可以单纯地通过自己的词汇就能区别于 其它的语言,但是利用每种语言的词汇知识还需要有句法和语义的知识和所发音 的主要连接词来做帮助。很明显,如果能将这些信息成功地合并入一个系统中, 那它将变成一个完美无缺的语种识别系统。但是,如果单纯地利用这种方法是不 现实的,这主要有两个原因:第一,要把多语种的庞大语言学专业知识进行搜集、 组织,并合并入语种识别系统中是很困难的;第二,即使这些庞大的语言学专业 知识可以获得并合并入语种识别系统中,但通过对这些信息进行计算从而来识别 所说的语言也是不现实的。因此,人们把语种识别研究的目光转向主要利用语言 间不同的语音特征上来。下面列举了一些使用这些特征的语种识别的方法例。 1 、1 9 7 4 1 9 8 0 年间,德州仪器( t e x a si n s t r u m e n t ) 的研究是基于统计某些特 定的参考音( c e r t a i nr e f e r e n c es o u n d s ) 在不同语种中出现的频率,在七个语种的 1 第1 章绪论 测试任务中取得了6 4 的正确率,进一步的,在针对特定语种时采用人为指定的 某些参考音,在五个语种时,最好的识别性能能达到8 0 ,但当在原有的语种集 上加入新的语种后,这种人为的选取干预也成了主要缺点。他们研究已经带有了 基于音素的色彩。 2 、1 9 7 7 年,h o u s e 和n e u b e r g 的基于人工标注的音素层数据,他们用宽音 素层( b r o a dp h o n e t i c ) 的有标号数据训练h m m 模型,并没有采用声学特征 ( a c o u s t i cf e a t u r e s ) ,研究成果表明通过挖掘音素层的信息能够达到非常好的识 别性能。1 9 8 0 年“和e d w a r s 在h o u s e 两人的基础上,引入马尔科夫( m a r k o v ) 技术,采用大量的音素层数据训练得到两个统计模型,一个基于音段( s e g m e n t ) 的另一个居于音节( s y l l a b e l s ) 的,在五个语种时能够达到8 0 的正确率。 3 、在1 9 8 2 年c i m a r u s t i 和i v e s 设计了一个1 0 0 阶的基于线性预测系数( l p c ) 的衍生参数( 包括自相关系数、倒谱系数( c e p s t r a lc o e f f i c i e n t s ) 、滤波器系数和 共振峰频率( f o r m a n tf r e q u e n c i e s ) 等) 的多项式分类器,在8 个语种上精度为 8 4 ,这也说明语种识别同样可以采用声学特征,而不单单局限于音素层特征。 4 、19 8 6 年,f o i l 研究了两种类型的语种识别系统,第一种是基于基音和能 量轮廓( p i t c ha n de n e r g yc o n t o u r ) 的节奏和语调( r h y t h ma n di n t o n a t i o n ) 的韵律学 ( p r o s o d i c ) 特征;第二种是采用共振峰来代表语言中标志性声音。使用k - m e a n 聚类算法和矢量量化( v e c t o rq u a n t i z a t i o n ,v q ) 技术在信噪比s n r 为5 d b 的三 个语种上获得6 4 的正确率和1 11 的拒识( r e j e c t i o n ) 率。1 9 8 9 年g o o d m a n 在 f o i l 的基础上,修改并添加了特征矢量的参数,提升了系统性能。 5 、1 9 9 1 年,s u g i y a m a 对l p c 的衍生特征采用矢量量化技术,并且探索了 一个语种一个矢量量化码本( v qc o d e b o o k ) 和所有语种一个公用码本的区别。 对于长度为6 4 s 的未知语音能够达到8 0 的精度。 6 、1 9 9 2 年,n a k a g a w a 比较了v q 、离散h m m ( d i s c r e t eh i d d e nm a r k o vm o d e l , h m m ) 、连续h m m ( c o n t i n u o u s d e n s i t y h m m ) 和高斯混合模型( o a u s s i a n m i x t u r e m o d e l ,g m m ) i 四种方法,在四个语种上的性能是连续h m m 和g m m ( 8 1 1 ) 好于v q ( 7 7 4 ) 和离散h m m ( 4 7 6 ) 。 7 、1 9 9 3 年,m u t h u s a m y 的博士论文研究了基于语音段的语种识别,采用了 声学、宽音素层和韵律学特征。首先在4 个语种上试验,然后扩展到1 0 个语种 上。融合了宽音素层特征、频谱特征( p l p ) 、基于基音的特征以及后面扩展的 频率出现的次数、语音段长度和比列等各种特征,在短时上( 平均1 3 4 s ) 获得 了4 8 5 的识别率。 7 、1 9 9 5 年,y a n 的博士论文通过研究声学、音素层和韵律学信息给出一些 部分的结论,并且介绍了两项新技术:后向语言模型( b a c k w a r dl m ) 和文本相 2 第1 章绪论 关的时长模型( c o n t e x t - d e p e n d e n td u r a t i o nm o d e l ) ,他使用了四个音素识别器和 基于音素序列的语种模型的方法,九个语种的4 5 s 测试集上最好的识别率达到了 9 l ,1 0 s 上为7 7 。 8 、1 9 9 6 年,s c h u l t z 等人使用大词汇联系语音识别( 1 a r g ev o c a b u l a r y c o n t i n u o u ss p e e c hr e c o g n i t i o n ,l v c s r ) 系统,比较了基于音素层和词( w o r d ) 级的采用二阶( b i g r a m ) 和三阶( t r i g r a m ) 的使用和不用语言模型( 1 a n g u a g em o d e l , l m ) 的语种识别系统,给出如下结论:如果在词级别中包括更多的知识,那么性 能越好。 9 、1 9 9 9 年,b e r k l i n g 进行了l i d 的各种置信度( c o n f i d e n c em e a s u r e s ) 的研 究,提出了三种形式,并且在n i s t1 9 9 6e v a l u a t i o n 的p r l m 系统上进行了验证, 同时他还研究了新的特征对置信度的影响。 1 0 、2 0 0 1 年,n a v r i t i l 提出一个基于音素声学特征的特别有用的方法,它的 结构包括多路的解码( m u l t i - p a t hd e c o d i n g ) ,使用二叉树后改进的音素模型和声 学发音( a c o u s t i cp r o n u n c i a t i o n ) 模型。 1 1 、2 0 0 2 年,j a y r a m 等人提出了一种并行子词识别器( p a r a l l e ls u b w o r d r e c o g n i t i o n e r ,p s w r ) 的语种识别系统,它类似于传统的并行音素识别器( p a r a l l e l p h o n er e c o g n i t i o n ,p p r ) 系统。子词识别器( s u b - w o r dr e c o g n i z e r ,s w r ) 基于 自动的语音段聚类和h m m 建模,其性能和p p r l m 系统相当。 1 2 、2 0 0 3 年,m i t 小组从三个音素识别器、g m m 和支持向量机( s u p p o r t v e c t o rm a c h i n e ,s v m ) 方向入手并且将他们融合起来,给出了这些技术在n i s t l r e1 9 6 6 到2 0 0 3 的测试数据上的不同表现和各项技术逐年的进步。同时在2 0 0 3 年,首次在g m m 模型上引入了性别相关模型( g e n d e r d e p e n d e n t ) 和特征映射 ( f e a t u r em a p p i n g ) 技术来获得信道无关的特征空间。在基于音素识别上,采用 了新的音素集( p h o n e m es e t s ) 和三阶分布( t r i g r a md i s t r i b u t i o n s ) 来训练语种模 型,并且对三阶、二阶( b i g r a m s ) 和一阶( u n i g r a m s ) 的语种模型使用和语种相 关的权重来融合。 现在,n i s t 提供的标准数据库便于比较各家单位的研究成果并且通过交流 支持在这一领域新的发现。 1 2 语种识别的应用 最早的语种识别问题起源于在智能设备中的应用。智能设备只有听懂人的语 言,了解人的意愿,才能更好地为人服务。要听懂人的语台,首先要让机器辨别 3 第1 章绪论 出所说语言的语种,语种识别问题也由此应运而生。后来,随着对多语种的语音 识另, w j 理解系统研究活动的增加,语种识别问题也受到各种领域的广泛关注。到 现在,语种识别已在信息检索及军事领域都有很重要的应用: 首先,可以作为自动语音识别的前端。例如在机器自动翻译系统中,需要语 种识别系统作为前端处理器,这是因为在直接将一种语言转换为另一种语言的通 信系统中,先确定使用者的语一言,或者对大量录音资料进行翻译分配时,也需 要预先判定该翻译的语音的语种。 其次,语种识别在军事上对说话人身份和国籍进行判别或监听等方面都有重 要应用。 此外,在多语种信息服务中,语种识别系统可作为一个前端处理,预先区分 用户的语种,以提供不同语种的服务。这类服务典型的例子包括旅游信息、应急 服务、电话信息和转接以及购物和银行、股票交易。 随着信息时代的到来以及国际因特网的发展,语种识别将越显示其在日常生 活中的应用价值。如果一个人掌握了多门外语,那么对他工作、学习和日常交流 都是很大的帮助,比如做翻译的相关工作,从目前找到的资料来看,从事同声翻 译的待遇非常高,如表1 1 1 所示。但在国际性的交流中,参与人员肯定来自世 界各地,想找到一个精通两门外语的翻译员比较难,而如果想找到精通更多外语 的人几乎是不现实的,特别是像n i s t 举办的比赛,有二十多个语种,不可能有 人全部精通的,我们退而求其次,只需找到二十多个翻译员各自精通一门语种, 然后采用一个语种识别系统作为前端,先判定是哪个语种,然后再传给相应的翻 译员。 表1 1 1 同声传译的待遇 级别精通语种数待遇( ¥元,j 、时) 普通 14 0 0 0 8 0 0 0 高级 2 估计1 5 倍以上 特级3肯定不止3 倍 1 3 基于支持向量机的语种识别 当前主流的语种识别方法包括 4 1 :并行音素识别器结合语言模型( p a r a l l e l p h o n er e c o g n i t i o nl a n g u a g em o d e l ,p p r l m ) ,基于高斯混合模型g m m 和基于 支持向量机s v m 等方法。总体而言上述方法可以根据使用的特征分成两类:1 4 第1 章绪论 基于音素特征的模型方法,如p p r l m :2 基于声学特征的模型的方法,如g m m 和s v m 。基于音素特征的方法采用语音识别的策略将语音离散化成为音素序列, 并利用音素间搭配关系的统计差别来进行语种识别,但是它需要用音素识别器 ( p h o n er e c o g n i z e r ,p r ) 的对训练和测试语音进行识别,获得其包含的音素序 列,所以运算量比后者要大的多,但是其性能一直表现最好。基于声学特征的模 型的方法无需对语音进行识别,而只是将从语音中提取的特征作为该语音的代 表,然后对这些特征进行建模,估计其概率分布模型,或者找到各语种之间的差 异,从而刻画出各语种之间的边界。其中,基于g m m 模型的语种识别算法利用底 层的声学信息,根据特征向量空间的概率统计分布特征构建语种相关的模型。特 别是随着移位差分倒谱( s d c ) 【5 】的广泛应用,高阶g m m 模型以及模型自适应技 术的发展,其性能得到很大的改进。由于本身不需要标注,算法复杂度小,基于 g m m 模型的语种识别系统得到广泛的应用。 基于支持向量机的方法不是估计各语种的概率密度分布,而是找到各语种之 间的边界,寻求一个最优分类面,使得代表目标语种语句的样本点和非目标语种 样本点之间的间隔最大。s v m 由于其良好的模型区分能力和理论基础,并且在 处理小样本、非线性、维数灾难和局部最优值等以往困扰机器学习的问题上有很 大程度的解决,因此在图像识别、文本、视频处理等领域得到了广泛的应用,近 年来自然而然的引入到了语种识别中,由于s v m 只能处理固定长度的特征向量, 故在语音处理中应用该方法的关键是对不同时长的语音段构造合适的序列核。本 文详细分析和讨论了支持向量机在语种识别中的应用,重点分析了广义线性区分 性序列核( g l d s ) 以及高斯混合模型超矢量核( g s v ) 两种核函数的性能,并 且对他们进行了改进,提出了自己的新的方法,取得了明显的增益。 1 4n i s tl r e 介绍 n i s t 举办语种识别比赛( l a n g u a g er e c o g n i t i o ne v a l u a t i o n ,l r e ) t 6 】的最初 目的是评估当时已有的技术在电话对话录音上的识别性能,并且探讨该领域日后 的研究方向。 1 9 9 6 年最初的计划是衡量当时最好的语种识别的性能,而且并没有计划举 办经常的比赛,随后在2 0 0 1 年和2 0 0 3 年,随着人们的关注和参与的程度提高, 比赛框架和测试数据都逐渐规范。不过随着参赛单位的越来越多,现在都是每两 年举办一次比赛。 1 4 1 数据介绍 1 9 9 6 和2 0 0 3 年n i s t 采用的是c a l l f r i e n d 的电话对话录音数据【7 1 【8 1 ,包括汉 s 第1 章绪论 语( m a n d a r i n ) 、英语( e n g l i s h ) 、日语( j a p a n e s e ) 、朝鲜语( k o r e a n ) 、阿 拉伯语( a r a b i c ) 、法语( f r e n c h ) 、德语( g e r m a n ) 、印地语( h i n d i ) 、西班 牙语( s p a n i s h ) ,泰米尔语( t a m i l ) 、波斯语( f a r s i ) 和越南语( v i e t n a m e s e ) 在内的1 2 个语种,其中每个语种包含2 0 段时长约3 0 分钟的双声道的电话录音。 而测试数据由3 秒,1 0 秒和3 0 秒三种不同时长的语音段组成,每种时长有1 0 0 0 多句待测语句,其中除上述1 2 个语种外,还会包含一些集外的语种供开集测试 使用。2 0 0 5 年的比赛的目标语种减少为七个【9 j :汉语、英语、日语、朝鲜语、印 地语、西班牙语和泰米尔语。并且测试数据来自o h s u 数据库,带来了信道的 差异。n i s t 在2 0 0 7 年举办的比赛,除了c a l l f r i e n d 和o h s u 的数据外,n i s t 还提供了开发数据集【l o l ,语种数有了较大上升,加上方言的话有2 1 个语种:阿 拉伯语、孟加拉语( b e n g a l i ) 、波斯语、德语、日语、朝鲜语、俄语( r u s s i a n ) 、 泰米尔语、泰语( t h a i l a n d ) 、越南语、中国广东话( c a n t o n e s e ) 、大陆普通话 语( m a i n l a n dm a n d a r i n ) 、台湾普通话语( t a i w a nm a n d a r i n ) 、中国闽南语( m i n ) 、 中国吴语( w u ) 、美国英语( a m e r i c a ne n g l i s h ) 、印度英语( i n d i a ne n g l i s h ) 、 印地语、乌尔都语( u r d u ) 、加勒比班牙语( c a r i b b e a ns p a n i s h ) 和非加勒比班牙 语( n o n c a r i b b e a ns p a n i s h ) 。 最新一次的语种识别大赛就是n i s t2 0 0 9l r e i li j ,包括2 3 个目标语种( 方 言) :阿姆哈拉语( a m h a r i c ) 、波斯尼亚语( b o s n i a n ) 、中国广东话、克里奥 语( c r e o l e ) 、克罗地亚语( c r o a t i a n ) 、达利语( d a d ) 、美国英语、印度英语、 波斯语、法语、格鲁吉亚语( g e o r g i a n ) 、豪斯语( h a u s a ) 、印地语、朝鲜语、 普通话、普什图语( p a s h t o ) 、葡萄牙语( p o r t u g u e s e ) 、俄语、西班牙语、土耳其 语( t u r k i s h ) 、乌克兰语( u k r a i n i a n ) 、乌尔都语和越南语。在以往的电话信道数 据( c t s ) 上还增加了来自美国之音( v o i c eo f a m e r i c a ,v o a ) 的录音。信道变复 杂了,而且包括了方言对的测试,虽然在以往的比赛中也有方言对,但不要求将其 区分出来,今年明确的将方言作为一个目标语种。根据以往的经验,这是最影响识 别性能的障碍,特别是h i n d i 和u r d u ,说这两种语言的人本身就可以无障碍沟通, 难以区分。 自从2 0 0 3 年起,n i s t 每隔两年举办一次语种识别大赛,而且一年比一年要 难,逐渐接近实际环境,这也说明了我们的技术在一步一步前进。以前的测试集 中在几个广泛应用的语种上,这样能找到充足的语料,而且训练和测试数据信道 和匹配。后面语种数目越来越多,信道也越来越复杂,并且加入了方言的测试, 测试语句的数目也逐渐增多。 1 4 2 性能评测 语种识别是一个典型的模式识别的问题,因此也具有模式识别中最典型特 6 第1 章绪论 点,下面介绍下常用的几个评价指标。 表征语种识别性能的最重要的两个参数是错误拒绝率( 也称为漏警,m i s s a l a r m ) 和错误接受率( 也称为虚警,f a l s ea l a r m ) ,前者是将真实标号的目标 语种判决为非目标语种带来的错误,后者则是将非目标语种判为目标语种带来的 错误,虚警概率和漏警概率e ,蛔分别为: e 向:旦,瓯汹:鳖 n n n 噼 其中以砌是非目标语种的个数;拧归是n 胁中被判为目标语种的个数:是 所有的目标语种个数,胁是中判为非目标语种的个数。在统计一个有m 个 模型的语种识别系统的整体性能时,简单起见,假设待测试语句中每个语种都为 n 个,则= m n ,= ( m 1 ) n 。 虚警错误率和漏警错误率虽然可以较好的表示系统的性能,但是我们不能只 提供一个单一的数字来表示性能,等概率错误( e q u a le r r o rr a t e ,e e r ) 将漏警 率和虚警率结合起来,通过寻找两者相等的点的判决阈值( 门限) 的方法 e e r = e m i n - e 盘,不过这个指标口n 台f j 孽f = ) 在判决阈值可调的情况下使用。 另外还常用的是检测代价函数【7 j ( d e t e c t i o nc o s tf u n c t i o n ,d c f ) ,它不像 e e r 那样通过遍历门限,获得虚警和漏警相等的判决,而是考虑实际使用情况, 因为实际工作中,有时对于漏判一个带来的影响远大于将一个非目标点判为目标 点,此时需要放宽虚警,减少漏警。所以为了模拟这种情况,对不同的错误给你 不同的惩罚系数,这样更加具有直接意义,定义为: c 船= c 。协水e 所蛔木+ c 向* e f o ,i c ( 1 2 ) 这里c 。船和c 庙分别是漏警代价和虚警代价,不同的应用情况下c 。栅和 是设置不同的,语种识别中他们都为1 ,而和p 删为目标语种和非目标语种的 先验概率,并且= 1 - - 在n i s t 的比赛中,无论是计算单个模型还是整体的 性能,他们都为0 5 ,在n s i t 比赛中,没有测试语句的标号( k e y ) 的情况下, 需要各参赛单位,自己划定一个门限,对给定的某句待测语句给出“是”和“否” 的判决,然后再根据真实的k e y 来计算,这个值称为实际d c f ( a c t u a ld c f ) , 如果在有k e y 的情况下,可以通过遍历门限,使得这个值最小( m i n _ d c f ) 。 此外为了形象的用图的方式描述系统性能,n i s t 引入了平衡刚l j ( d e t e c t i o n 7 第1 章绪论 e r r o rt r a d e o f f , d e t ) 来表示e 向和e 帼之间的相互对应关系,将如和e 小船表 示二维坐标中的一个点,通过改变门限,列出所有可能的取值范围。从中可以非 常明显的看出不同系统整体的性能差异。 从2 0 0 7 年起,n i s t 引入了一个新的评价指标【1 0 l :平均代价c 甜g ,从上面介 绍可知,在计算整体e e r 时,如果某个待测的目标语种中有一个语种的个数占 绝大多数,而且其区分性很好时,那么整体的e e r 会明显好,即使其它某些语 种几乎都无法正确分类也不会有多大影响。为了避免这种情况,定义平均性能指 标: ,1 1f 乙口曙2 可己 v 工l r q 船乞既时( 岛) + ( 岛,“) “ + 匕,( 0 ,l o ) ( 1 - 3 ) 其中n l 是闭集测试的语种数,l o 表示开集测试时的集外语种,并且: 。1 0 0f o rt h ec l o s e d - s e tc o n d i t i o n s 0 w lo 2f o r t h e o p e n s e t c o n d i t i o n s ( 1 4 ) 册= ( 1 一一e o 埘) ( m 一1 ) 在本文中,主要采用e e r 、m i nd c f 函数和d e t 曲线来实现对系统性能的 评价,一般情况下为简单起见,采用e e r 作为评价。 1 5 论文的结构 在对语种识别的研究背景和现状,以及s v m 系统中存在的问题进行分析的 基础上,本文针对语种识别中涉及到的特征参数选取、得分规整、噪声去除、s v m 的原理、g m m 模型等方面进行了深入研究,特别是在基于s v m 的两种常用的 核函数g l d s 和g s v 部分做了大量工作,提出了自己的新的观点,取得了 预期的效果。本文的组织结构如下: 第一章:简明扼要的介绍了语种识别的基础知识,阐述了基于区分性方法的 s v m 在语种识别上的应用。另外,针对论文中试验用到的数据库和性能评价指 标,简单介绍了n i s t 组织的语种识别大赛。 第二章:主要是介绍各种语种识别的特征参数,重点分析了各种提高系统识 别性能的方法,这些包括增强特征鲁棒性,去除说话人影响以及在得分域上的处 理。并且比较了几种增强特征鲁棒性的方法,为后面的各种建立模型的方法打下 基础。 8 第1 章绪论 第三章:首先介绍了支持向量机的原理、构建s v m 核函数必须满足的条件 以及s v m 在语种识别中的应用问题。然后,在基于广义线性得分的基础上,引 入了g l d s 核函数,避免了大规模的运算,又获得了和g m m u b m 系统相当的 识别效果。最后在分析原有的g l d s s v m 基础上,提出了自己的层次化多特征 的观点,并加以验证。 第四章:从g m m u b m 方法出发,通过m a p 自适应,并采用k l 距离,从 而引入g s v 核函数,并且介绍和比较了n a p 、f a 、p c a 在去除信道影响上的 作用。另外,除去基于均值的g s v 的核函数外,还研究了最新的基于均值方差 的核函数以及将g s v 反退到g m m = u b m 的方法。最后提出了一种对训练样本大 小和特征维数进行选取的k e ys e l e c t i o n 的方法。 第五章:对本论文进行总结和和未来一些值得进行的工作展望。 9 第2 章语种识别的前端处理 第2 章语种识别的前端处理 2 1 语种识别所用的参数 语种识别是语音识别中的一种,要想识别出语音信号中携带的语种信息,就 需要获取其中能够代表该语种的特征。而语音信号又是十分复杂的非平稳随机信 号,一般只能认为在1 5 3 0 m s 内是短时平稳的,它不但含有语义的信息,还有说 话人本身的信息:声道、音高以及情感等因素。在进行语种识别前,必须对所用 特征进行充分研究,以期获得语音信号中所携带的能够充分代表语种的信息。 本节研究了语种识别所用的声学特征参数及增强其鲁棒性的各种方法。从原 理上分析了常用的各特征和他们各自的特性。主要包括线性预测倒谱系数 ( l i n e a rp r e d i c t i o nc e p s t r a lc o e f f i c i e n t , l p c c ) ,梅尔刻度式倒谱参数( m e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t ,m f c c ) ,以及他们的移位差分倒谱( s h i f td e l t a c e p s t r a , s d c ) 。另外,着重对各种特征鲁棒性的方法进行比较和排序,从他们 的工作原理出发,详细讨论、分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年石墨烯材料应用研发项目可行性研究报告及总结分析
- 基于人工智能的核电控制器自适应优化
- 《 C-C++程序设计教程-面向过程分册(第5版)》全套教学课件
- 2025年试验检测师之道路工程综合练习试卷B卷附答案
- 2025年区块链技术应用可行性研究报告及总结分析
- 在建工程承包合同范本(3篇)
- 2025年数字化智能家居平台可行性研究报告及总结分析
- 2025年农产品电商直播带货合同协议
- 2025年山东省青岛市即墨市保安员招聘考试题库附答案解析
- 2025年气象预报精准化服务项目可行性研究报告及总结分析
- 2025年国家税务总局遴选笔试试题及答案
- 重要环境因素控制情况检查表
- 2024年黑龙江商业职业学院单招《语文》真题及参考答案详解【新】
- 检验检测管理办法
- 20以内的加法口算练习题5000题每页100题
- 《三借芭蕉扇》课件
- 国网公司薪酬与管理制度
- 文物古建筑单位消防课件
- 心电监护操作常见并发症预防及处理
- 观赏之礼班会课件
- 国家级高技能人才培训基地建设项目实施方案实施计划书
评论
0/150
提交评论