(计算机应用技术专业论文)基于支持向量机的语种识别研究.pdf_第1页
(计算机应用技术专业论文)基于支持向量机的语种识别研究.pdf_第2页
(计算机应用技术专业论文)基于支持向量机的语种识别研究.pdf_第3页
(计算机应用技术专业论文)基于支持向量机的语种识别研究.pdf_第4页
(计算机应用技术专业论文)基于支持向量机的语种识别研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)基于支持向量机的语种识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨工程大学硕士学位论文 摘要 随着语音识别技术的不断发展,语种识别作为语音识别的一个方面和它 具有的重要意义,也越来越受到人们的广泛重视。语种识别就是用计算机来 自动识别一段发音所属语种的一项技术,它是在语音识别基础上发展起来的。 从上个世纪七十年代到现在,语种识别虽然只经历了短短几十年的发展,但 识别方法已有多种。这些方法虽然各有特点,但比较成熟的方法还不是很多。 目前,我国对语种识别的研究较少,尚处于起步阶段。 语种识别强调在与文本无关和与说话人无关的条件下进行,因而语种识 别需要尽量消除语音信号中个体发音的差异,并且尽量找到不同语种的语音 间不同的声学特征,从而达到更好的识别效果。 本文首先从语种语音特征方面进行分析,找出不同语种之间的差异,提 取语种语音特征参数,特征参数以矢量形式表现。 然后提出利用加权的k 近邻法对训练矢量进行野点排除。对于每两个语 种间的每个训练矢量,分别找出与其欧氏距离最小的前k 个矢量,判断其类 标与它的k 近邻中多数类标的符号是否一致。在k 近邻的特征矢量中各个矢 量对于判断是否剔除对象特征的贡献不同。最近邻的贡献为最大,第k 近邻 的特征的贡献为最小,可以分配不同的权值给k 近邻矢量。对k 近邻矢量符 号加权求和后,判断是否与对象矢量符号相同,若相同则保留,否则该对象 矢量属于异类将该特征矢量删除。最后利用剔除完野点的训练矢量来训练 o n e a g a i n s t - o n e 支持向量机( s ) ,利用o n e - a g a i n s t - o n e 支持向量机对 测试矢量集进行分类投票,获得投票数最多的语种被判定为未知语音的语种。 实验结果表明,在较小规模训练矢量集下,k n n s 的平均识别率为 7 8 6 6 ,s 的平均识别率为7 6 1 5 。在相同训练矢量个数下,k n n s w 的 支持向量个数要低于s w ,导致所需分类时间也低于s v m 。k n n - s 的性能要 优于s 1 i l i 。 关键词:语种识别;声学特征;支持向量机;k 近邻 哈尔滨工程大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to ft h et e c h n i q u eo fs p e e c hr e c o g n i t i o n , l a n g u a g e i d e n t i f i c a t i o ni sp a i dm o r ea n dm o r ea t t e n t i o nf o ri t ss i g n i f i c a n c ea so n eo ft h e a s p e c t so fs p e e c hr e c o g n i t i o n l a n g u a g ei d e n t i f i c a t i o ni sa k i n do ft e c h n o l o g yo f i d e n t i e y i n gt h el a n g u a g eo f 趾u r e r a n c ea u t o m a t i c a l l yb yu s i n gac o m p u t e r , w h o s ed e v e l o p m e n ti sb a s e do ns p e e c hr e c o g n i t i o n f r o mt h es e v e n t i e so f t h el a s t c e n t u r yl 巾t on o w , t h o u g hi ti sj u s ts e v e r a ld e c a d e s ,m a n yk i n d so fw a y so f l a n g u a g ei d e n t i f i c a t i o nw i t ht h e i ro w nc h a r a c t e r i s t i c sh a v ea l r e a d yc o m ei n t o b e i n g ,m o s to fw h i c ha r en o tm a t u r e a tp r e s e n t , t h er e s e a r c ho fl a n g u a g e i d e n t i f i c a t i o ni no u rc o u n t r yi ss t i l li ni t sb e g i n n i n gs t a g ea n di sl e s se x t e n s i v e l a n g u a g e i d e n t i f i c a t i o ni s a c c o m p l i s h e d u n d e rt h ec o n d i t i o no f t e x t - i n d e p e n d e n c ea n ds p e a k e r - i n d e p e n d e n c e , t h u si ti sn a c e s s a r yf o rl a n g u a g e i d e n t i f i c a t i o nt oe l i m i n a t et h ei n d i v i d u a li n f o r m a t i o no f t h es i g n a lo fs p e e c hs o u n d o fd i f f e r e n tl a n g u a g e sa sf a ra sp o s s i b l es oa st oa c h i e v eab e t t e re f f e c to f r e c o g n i t i o n f i r s to fa l l ,t h es p e e c hc h a r a c t e r i s t i c so ft h el a n g u a g e sa l ea n a l y z e dt of i n d t h ed i f f e r e n c e sa m o n gv a r i o u sl a n g u a g e s t h ec h a r a c t e r i s t i cc o e f f i c i e n t so ft h e s p e e c ha r ep i c k e du pa n dt h e ya r cr e p r e s e n t e db yt h ev e c t o r t h e nt h i sp a p e r p u t sf o r w a r dt h a tt h eo u t l i e r so f t h et r a i n i n gv e c t o rs h o u l db e t r i m e db ym a k i n gu s eo ft h ew e i g h t e dkn e a r e s tn e i g h b o r f o re a c ht r a i n i n g v e c t o rb c t w p 粥ne v e r yt w ol a n g a a g e s ) t h ev e c t o rw h o s ee u c l i d e a nd i s t a n c et oi ti s o n eo ft h eks m a l l e s ts h o u l db ef o u n d n es o r to ft h et r a i n i n gv e c t o rs h o u l db e j u d g e di fi d e n t i c a lt ot h em a j o r i t yo ft h ek n e a r e s tn e i g h b o r s e a c hc h a r a c t e r i s t i c v e c t o ro ft h ekn e a r e s tn e i g h b o r sm a k e sad i f f e r e n te f f e c to nt r i m m i n gt h e o b j e c t i v ec 艘a c t e r j s t i c s 1 1 他n e a r e s to n ec o n t r i b u t e sm o s ta n dt h ekn e a r e s to n e c o n t r i b u t e sl e a s t d i f f e r e n tw e i g h tv a l u ec mb eg i v e nt ot h ekn e a r e s tn e i g h b o r s a f t e rs u m m i n gl | pt h ew e i g h t e ds o r ts y m b o l s , j u d g ei fi t i si d e n t i c a lt ot h e o b j e c t i v ev e c t o r , k e 印i ti fi d e n t i c a l ,a n dd e l e t ei ti fn o ti d e n t i c a l a ti a s t , t h e o n e a g a i n s t - o n es u p p o r tv e c t o rm a c h i n e ( s v m ) i st r a i n e db yt h et r a i n i n gv e c t o r s 哈尔滨工程大学硕士学位论文 w h i c hh a v eb e e nt r i m e d n 圮t e s tv e c t o r sa l cv o t e dt ob ec l a s s i f l e db yt h e o n c - a g a i n s t - o n es v m n el a n g u a g ew h i c hg e t st h em o s tv o t e si sc o n s i d e r e da s t h el a n g u a g eo f t h et m k n o w n s p e e c h t b ee x p e r i m e n tr e s u l ts h o w st h a tw i t ht h es m a l ln u m b e ro f t r a i n i n gv e c t o r s , t h ea v e r a g er e c o g n i t i o nr a t eo fk n n s v mi s7 8 6 6 a n dt h ea v e r a g er e c o g n i t i o n r a t eo fs v mi s7 6 1 5 w i t l lt h es a m en u m b e ro f t r a i n i n gv e c t o r s , t h en u m b e ro f k n n - s v m ss u p p o r tv e c t o r si ss m a l l e rt h a nt h a to fs v m i tr e s u l t si nt h e c l a s s i f i c a t i o nt i m eo fk n n s v ml e s st h a nt h a to fs v m 1 1 坞p e r f o r m a n c eo f l o i n s v mi sb e t t e rt h a nt h a to fs v m k e y w o r d s :l a n g u a g ei d e n t i f i c a t i o n ;a c o u s t i cc h a r a c t e r i s t i c s ;s u p p o r tv e c t o r m a c h i n e ;kn e a r e s tn e i g h b o r 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 丝嘶 茎一 : 惫翠 年 、- , 钧 以 哈尔滨工程大学硕士学位论文 1 1 语种识别的定义 第1 章绪论 语种识别( 1 a n g u a g ei d e n t i f i c a t i o n ,简称l i d ) ,顾名思义,就是通 过某种方式或方法将不同种的语言分辨出来。一般来说,它是通过分析处理 一个语言片断来判别其所属语言的语种,本质上来说,语种识别是语音识别 领域的一个方面“,。 语种识别技术是伴随着语音识别的发展而发展起来的。 i 2 语种识别的意义 最早的语种识别问题起源于在智能设备中的应用m 。智能设备只有听懂 人的语言,了解人的意愿,才能更好地为人服务。要听懂人的语言首先要让 机器辨别出所说语言的语种,语种识别问题也由此应运而生。后来,随着对 多语种的语音识别理解系统研究活动的增加,语种识别问题也受到各种领域 的广泛关注。到现在,语种识别己在信息检索及军事领域都有很重要的应用。 主要包括以下几个方面: ( 1 ) 多语种信息服务:很多信息查询中可提供多语种的服务,但一开始 必须用多种语言提示用户选择用户所需语言。语种识别系统可作为一个前端 处理,预先区分用户的语种,以提供不同语种的服务。这类典型服务的例子 包括旅游信息、应急服务、电话信息和转接以及购物和银行、股票交易。 ( 2 ) 机器或人翻译的前端处理:在直接将一种语言转换为另一种语言的 通信系统,必须先确定使用者的语言,或者对大量录音资料进行翻译分配时, 需预先判定每一段的语种。 ( 3 ) 军事上对说话人身份和国籍进行判别或监听。 哈尔滨工程大学硕士学位论文 1 3 前人所做的工作 解决语种识别问题最普遍的方法是应用基于帧的统计方法。这些方法是 通过统计发音的声学特征帧流所建立的声学模型来识别口语发音的语种。像 c i m a r u s t i ”、i v e s m 、f o i l ”、g o o d m a n ”等、s u g i y a m a ”、s a v i c “等和z i s s m a n ” 所进行的研究都是采用相似的方法,即都是利用语音信号的声学特征进行训 练的基于帧的语种识别算法,只是每个实验中的分类算法不同。 在语种识别领域中最早发表文章的是l e o n a r d 和d o d d i n g t o n “。他们的 方法是识别特定语言的一般的或特定的声音片段或序列。当一个声音片段被 选中后,则通过测试所选声音段在一段语音中的概率分布来进行语种识别。 这种方法是基于以下假设,假设某些语言事件在某一语言中出现的频率很高, 并且对这些事件的统计可以用来进行准确的语种识别。 h o u s e 和n e u b u r g 提出了一种类似的语种识别方法。像l e o n a r d 和 d o d d i n g t o n - - 样,他们认为语种识别可以通过统计某些语言事件在一段语音 中所出现的概率来进行。进一步来讲,他们认为语种识别可以通过语言自身 的语音元素的顺序约束来进行。根据这一观点,他们提出了语种识别方法的 两个步骤:第一步是把一段发音转化成一串语音元素;第二步是通过测试语 音序列的统计来对此段发音的进行语种识别。但他们认为从未知语言的口语 发音中提取的详细语音序列并具有充分可靠性是很难办到的,其实也是不需 要的。因此,他们提出了一种方法,就是把输入的语音转化成一个主要语音 类的序列。他们认为针对一段口语发音的主要语音类来进行提取并具有高度 可靠性是可以实现的。并且他们证实了当所给的语音序列足够长时,用主要 语音类的序列统计可以进行足够可靠的语种识别。他们用实验证实了以上的 观点,即把八种不同语言转换为五种主要语音类的串( 塞辅音、摩擦音、浊辅 音、无音和哑音) ,把转换的结果建立成b i g r a m 和t r i g r a m 模型,并对这些模 型进行评价。h o u s e 和n e u b u r g 得出的结果表明了非常简单语音语言模型是可 以作为语种识别强有力的工具的。他们的研究表明当一段发音的主要语音类 串被准确地得到时。则利用简单语音语言模型的方法就具有很好的优越性。 l i 和e d w a r d s , ”j 尝试了用h o u s e 和n e u b u r g 提出的框架来测试实际语音数 据的工作。他们设计一个基于帧的分类器,这个分类器是把一段发音的每一 2 哈尔滨工程大学硕士学位论文 帧进行主要语音类的标号。他们把基于帧的语音标序列转化成带有主要语类 标号的段序列。然后对主要语音类序列建立有限状态的多种统计模型来进行 语种识别。遗憾的是,他们的研究证明了h o u s e 和n e u b u r g 的方法虽然有效但 也不是确实可靠的。他们的研究结果表明用一个不完善的语音分类器来决定 主要语音类的串对语言模型的语种识别能力有明显的影响。 l a m e l 和6 a n v a i ne m 分别对每种语言训练一个语音识别系统。每种语言通 过训练产生与此语言相关的音素和语言模型。把任意一段测试发音分别通过 与每种语言相关的语音识别器,把产生最高似然分数的识别器所对应的语言 作为测试发音的语言。l a m e l 和g a n v a i n 只用两种语言英语和法语来测试他们 的方法。但对于巨大的语言集来说,这种方法可能产生难于计算的负担。 m u t h u s a m y 和c o l e 的研究“”m 也利用了把输入的语音转化成一个主要语音 类序列的思想。但是,他们不是简单地把语音类序列建立成语言模型来做为 语种识别的过程。反过来,他们从发音片段中提取各种语音的特征和韵律的 特征。利用这些特征来训练一个神经网络并用来进行语种识别。 以上语种识别的方法中,要判定哪种方法最有效是很困难的。因为上面 提到的每种方法被提出时所用的语音数据库是不同的,不同的语音数据库具 有多方面不同的条件,包括对语音数据库采集时所涉及到的语言集、带宽、 信道特性、词汇的限制和测试发音的长度等。如果没有一组共同的测试条件, 则对不同的研究结果进行有意义的比较是不可能的。1 9 9 2 年,随着o g i t s 多 语种数据库的出现,这一领域的研究逐步走向系统化、科学化,为进一步研 究语种识别各种方法的优劣提供了标准的依据。 目前,虽然经过了几十年的研究,但语种识别技术还不十分成熟。尽管 如此,由于语种识别的重大意义,人们还是在这一领域不断地进行新的探索 和研究。 1 4 对当前语种识别研究工作的讨论 当前语种识别研究主要有三种方法。其优缺点综合如下: 第一类方法,基于声学的方法,它的适应性最强。这类方法不需要先验 信息,但是从识别结果来看,它是三类方法中性能最差的。这类方法可能存 在的一个问题是:在使用长语音信息时,对信息的利用率不如音位结构方法 3 哈尔滨工程大学硕士学位论文 好,因为声学方法依赖的是由帧级信息得到的信息而不是由帧的组合得到的 信息。 第二类方法,基于音位结构的方法,是现有的语种识别中最流行的方法。 在以上所提及的三类方法中,音位结构方法在先验信息和计算量需求之间找 到了最好的平衡点。其主要的缺点是需要已分类数据,依赖于音素标记,在 新环境下的应用得到了限制。 第三类方法基于l v c s r ( 1 a r g ev o c a b u l a r yc o n t i n u o u ss p e e c h r e c o g n i t i o n ,大词汇量连续语音识别) ,利用词汇信息增强了音位结构方法。 l v c s r 在解决分辨问题中被公认为是最好的方法。但这种方法和音位结构方 法一样存在适应性问题,而且它需要的训练数据要更多。 表1 1 对当前用于语种识别任务的各种方法所需信息做了简要总结。本 文讨论的方法主要是基于声学的。声学方法的适应性允许匹配运行环境的声 音条件。而这种适应性对音位结构方法来说是不可能有的,因为它对语音学 和音素标记具有特殊的需求。 表1 1 不同的语种识别方法所需信息的比较 类别系统训练所需信息 基于声学处理和韵律学的方法语种特征 语音学方法和音位结构方法语种特征、语音学或音素标记 大词汇量连续语音识别方法语种特征、语音学或音素标记、词汇信息 1 5 支持向量机 现有的高斯混合模型“”、音素识别语种模型w 、隐马尔可夫模型”等等大 都是基于声学、语音学、韵律学、词汇学角度m 进行设计的,它们在很大程 度上推动了语种识别的发展。然而建立这些模型却极其费时费力。例如,建 立较高性能的并行p r l m 模型一所需的训练数据必须是已标注好的各种语言 的音素,而实际中不易获得,并且模型建立的训练时间难以忍受,因而限制 了这些模型的应用。 从统计学习理论的角度看,上述传统模型普遍采用经验风险最小化原则, 因此需要极大的训练样本才能得到较为真实的模型。现有的研究结论表明m , 4 哈尔滨工程大学硕士学位论文 结构风险最小化原则为我们提供了一种不同于经验风险最小化的更科学的学 习机器设计原则,它有利于在样本较少的情况下得到更为合理的结果。支持 向量机就是一种比较好的解决结构风险最小化问题的方法;由于它不考虑样 本的具体分布,所以我们可以采用规模较小的简单的特征参数用于训练。 支持向量机s v l 4 ( s u p p o r tv e c t o rm a c h i n e s ) 是由v a n p i k 领导的 a t & t b e l l 实验室研究小组在1 9 6 3 年提出的一种新的非常有潜力的分类技术, s w 是一种基于统计学习理论的模式识别方法,主要应用于模式识别领域由 于当时这些研究尚不十分完善,在解决模式识别问题中往往趋于保守,且数学 上比较艰涩,因此这些研究一直没有得到充的重视直到9 0 年代,一个较完善 的理论体系统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y ,简称s l t ) 的 实现和由于神经网络等较新兴的机器学习方法的研究遇到一些重要的困难, 比如如何确定网络结构的问题、过学习与欠学习问题、局部极小点问题等, 使得s v m 迅速发展和完善,在解决小样本、非线性及高维模式识别问题中表现 出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中从此 迅速的发展起来,现在已经在许多领域( 生物信息学,文本和手写识别等) 都取得了成功的应用。 s v m 的关键在于核函数。低维空间向量集通常难于划分,解决的方法是 将它们映射到高维空间。但这个办法带来的困难就是计算复杂度的增加,而 核函数正好巧妙地解决了这个问题。也就是说,只要选用适当的核函数,我 们就可以得到高维空间的分类函数。在s v m 理论中,采用不同的核函数将导 致不同的s 算法。 1 6 本文所做的工作及内容安排 论文的工作主要是对语种识别技术加以研究,主要是针对基于支持向量 机的语种识别方法进行讨论。 论文的内容安排如下: 第1 章简要介绍了语种识别的背景和意义,以及前人的一些工作。 第2 章深入分析各语种不同的语音特征,以及在语种识别中的应用。 第3 章给出了进行语种识别之前对所输入的语音信号的分析和处理方法 哈尔滨工程大学硕士学位论文 及过程,最终获得语音信号的线性预测倒谱系数( l p c c ) 作为特征矢量。 第4 章重点讨论了支持向量机的原理和k n n 优化方法,以及k n n 与s v m 的综合运用。 第5 章介绍了本文采用的识别方法及实验的结果和分析。 6 哈尔滨工程大学硕士学位论文 第2 章语种语音的特征 语音就是人们讲话时发出的声音。它是一种特殊的声音,是人们进行信 息交流的声音,是组成语言的声音。因此,语音( s p e e c h ) 是声音( a c o u s t i c ) 和语言( l a n g u a g e ) 的组合体m 。所以对语音的研究应该包括两个方面:一个 是语音中各音的排列被一些规则所控制,对这些规则及其含义的研究称为语 言学;另一个是对语音中各个音的物理特征和分类的研究,称为语音学。从 以上两个方面来分析,我们可以找到世界上不同语种间的多种区别特征,如 声学特征、词法特征、语法特征等。其中,声学特征是语种识别系统中所利 用的最主要的特征信息,它是语种识别的基础。 2 1 语音的声学特征 语音是人们讲话时发出的声音。它是人们进行信息交流的、组成语音的 一种特殊的声音。因此,语音是声音和语言的结合体。所以对语音的研究应 该包括两个方面:一方面是对语音中各个音元的排列规则的研究,称之为语 言学;另一方面是对语音中各个音元的物理特征和分类的研究,称之为语音 学。从以上两个方面来分析,我们可以找到世界上不同语种间的多种区别特 征,如声学特征、词法特征、语法特征等。其中,声学特征是语种识别系统 中所利用的最主要的特征信息,它是语种识别的基础。 语音是人的发声器官发出的一种声波,它具有一定的音色、音调、音强 和音长。其中,音色也叫音质,是一种声音区别于另一种声音的基本特征。 音调是指声音的高低,它取决于声波的频率。音强是指声音的强弱,它由声 波的振动幅度确定。声音的长短叫音长,它取决于发音时间的长短。 人在说话时一次发出的具有一个响亮的中心并被明显感觉到的语音片段 叫音节。一个音节可以由一个音素构成,也可以由几个音素构成。音素是语 音发音的最小单位m 。任何语言的语音都有元音和辅音两种音素。 当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些 声腔完全开放,气流顺利通过,这种音素称为元音。决定元音音色的主要因 7 哈尔滨工程大学硕士学位论文 素是舌头的形状及其在口腔中的位置( 舌位) 、嘴唇的形状( 口形) 等。由口 腔中的舌位高度和舌位前后位置的改变,可以发出不同的音素。如果将舌位 高度分为高、中、低,舌位前后分为前、中、后,则可以有九种基本的组合, 再加上口唇开放程度、咽宽度,就可发出十多个不同的单元音。元音的另一 个重要声学特征是共振峰。声道可以看成是一根具有非均匀截面的声管,在 发音时起共鸣器的作用。当元音激励进入声道时会引起共振特性,产生一组 共振频率,称为共振峰频率或简称共振峰。它一般包括共振峰频率的位置和 频带宽度。由于不同的元音对应于一组不同的共振峰参数,因而共振峰参数 是区别不同元音的重要参数。 当呼出的声流由于通路的某一部分封闭起来或受到阻碍,气流被阻不能 畅通,而克服发音器官的这种阻碍而产生的音素称为辅音。辅音没有明确的 共振峰结构。辅音发音时的阻碍位置叫调音点,阻碍的方法叫调音方式。根 据调音方式等的不同可以把辅音分成如下几类:塞音( 爆破音) 、摩擦音、塞 擦音、鼻音、边音、颤音、通音( 半元音) 。另外,根据发辅音时声带是否振 动,可以把辅音分类成浊辅音和清辅音,声带振动的是浊辅音,声带不振动 的是清辅音。 元音构成一个音节的主干,无论从长度还是从能量看,元音在音节中都 占主要部分。辅音则只出现在音节的前端或后端或前后两端,它们的时长和 能量与元音相比都很小。 在连续语音流中,各音节的响亮程度并不完全相同,有的音节听起来比 其它音节重,这就是重音。重音一般可从词和句子去考虑而分为词重音和语 句重音。重音的声学特征主要表现在时长、音高与音强三个方面,但往往是 三者的结合。不同语言的重音特点是不一样的,对于汉语来说,现代语音学 家认为汉语重音主要表现在时长的增加( 或者说是基音周期数的增加) ;其次 是调域的扩大和音高的提升。这或许可以作为区分汉语和其它语言的一个特 征。重音、语调和声调也是构成语音学的一部分,它们或者用来表示一句话 中的重要的单词,或者用来表示疑问句,或者用来表示说话人的感情。重音 和语调是一种附加的信息,其中词的重音是西方语言如英语的一个重要特点, 而语调实际上是讲话声音的调节,它由诸多因素决定,如语气、语言环境、 讨论的话题等。在语音流中由音高、音长和强度等方面的变化所表现出来的 哈尔滨工程大学硕士学位论文 特征叫超音段特征,它是表现说话人情感的重要特征。 当今,语种识别所应用的数据库0 g 1 1 s 语音数据库正是考虑了上述 各方面的因素而进行语音资料的搜集的。它包括不同的说话人,不同的语言 环境,不同的讨论话题,以及疑问句、陈述句等各个方面的语音资料,具有 广泛的代表性。0 g i j s 语音数据库将在第5 章进行介绍。 2 2 语音的声学特征信息 语音的声学特征信息是进行语种识别时非常重要的判别信息”1 从上一 节的讨论可知:语音的声学特征与高等级的语言规则( 如词法、句法等) 可 以认为是相互独立的。因此,可以对不同语种分别建立独立的声学模型和语 言模型。在语种识别中,所应用的声学特征信息大致可以分为两个方面:音 位信息和韵律信息。连续的说话声音( 音素) 包括音位信息,一段口语发音 的基频、强度、节奏、时长变化则包含了韵律信息。 2 2 1 音位信息 这里所说的音位和音素其实是不同的。一个音位是听觉的最小单位,而 一个音素是一个特殊的语音发音单位。一个音素可以看作是一个音位的声学 实现。因此,音位个数是有限的,而音素个数可以是无限的。 美国a d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ( a r p a ) 收录定义了世界上 常用的音素。不同的语言有不同的音素集合,而且也有不同的音素出现频率。 此外,不同的语言规定各音素出现的顺序也有所不同。 不同语言的口语发音的音位特性可能有很大的变化。有各种各样的音位 特性能帮助决定一种语言的个性,这些特性在一种语言中包括音素集、音位 结构约束和特定音素的声学实现等。 由于每种语言用到的音素只是所有可能存在的音素中的一个很小的子 集,并且交织在不同语言间的音素集的变化是可以被观察到的,因此,特定 语言的音素知识可以帮助这种语言区分于其它的语言。即使不同语言中包含 有近似等同的音素集,但每种语言也可以通过交织在不同语言问音素的概率 分布区分出来。也就是说,如果一个音素在一种语言中的使用是很常见的, 那么它在另一种语言中则可能是不常见的。 9 哈尔滨工程大学硕士学位论文 不同种语言对如何建立音位序列有不同的主导规则,从而形成高等级的 语言学元素,如音节、词等。这些音位结构约束可以使某些语音序列在一些 语言间是相近的,而在另一些语言间却有很大的不同。例如,日语有严格的 音位结构约束,禁止辅音后面跟辅音,而英语则有宽松的约束,允许多种辅 音连续出现。 不同种语言间特定音素的声学实现也有明显的不同,这些不同可以通过 不同语言间不同的发音方法表现出来。例如,音素t 可以通过一个大的音 位变体集来实现,它可以用或不用发送气体来实现,可以用牙齿关闭来实现, 可以把嘴唇张成圆形或不是圆形来实现。交织在不同语言间的这些音位变体 在应用时将会产生变化。由于在每种语言中存在特定的音位结构约束,所以 交织在不同语言问的特定音素的声学实现也有所不同。不同语言中的音位结 构约束可能在一种语言中产生协同发音结果,而在其它语言中不产生。因此, 在音素的声学实现中这种不同性的增加对语言的区分也有所帮助。 2 2 2 韵律信息 语言的韵律特征变化也是很大的w 。在i i i 语发音的韵律结构中,基频尼、 音段时长和话音强度是重要元素。在不同语言中,这些元素被结合到发音的 韵律结构中的方式将会有所变化。语言中的这些变化可以在韵律特征的实现 中观察到,这些变化决定了一段发音中包括的节奏、音调和重音等特征。 在声调语言中,如汉语,e 轮廓和音素持续时间被用来决定一个音调所 依赖的特定音素,用特定音素来改变音调可能使音素所属词的词义完全改变。 因此,在声调语言中,最和音段时长对音调类型具有很强的依赖性,并且具 有相关的概率分布。 在语言中,把词的重音、强度、音段时长和一个音节的只轮廓合并起来 与把内在的重音赋予到特定音节上是相互关联的。不同语言所用的重音方式 不同,对于自由重音语言,如英语,词的重音模式可以在具有相同音节数量 的词中发生变化;但在固定重音语言中,如波兰语,重音模式只依赖于在每 个词中存在的音节数目,因此,具有相同音节数目的两个词,其重音模式总 是相同的。r 、音段时长和强度对音节的重音的贡献方式在不同语言中是不 同的,例如,e 轮廓定时的上升或下降关系到音节重音位置的改变,一些语 l o 哈尔滨工程大学硕士学位论文 种在音节重音开始时利用上升的r 轮廓,而一些则在音节重音结束时用上升 的矗轮廓。 可以看到,一些语种用只轮廓代替更高等级的语言学信息。在许多语言 中,如英语、法语、意大利语和日语中,观察发音结尾的r 轮廓线可以区分 是陈述状态还是提问状态。在一些语言中,如英语,陈述状态时发音结尾的昂 轮廓线是下降的,而在提问状态的轮廓线是上升的;但有些其它的语言观察 到的情况正好相反,陈述时轮廓线上升,提问时轮廓线下降。 元音的预停顿的延长是另一个韵律结果,它可以在不同的语言中观察到。 在英语、法语、德语和意大利语中,用一个句子末尾元音的延长可以很快观 察到口语的发音特征;但在其它一些语言如芬兰语、爱沙尼亚语和日语中, 很少在句末观察到元音的延长。 2 3 语音的其它特征信息 除了声学特征信息之外,语音信号中还包含一些其它的特征信息,如高 等级的语言规则信息。在某些语音识别系统中,例如在大词汇量的连续语音 识别系统中,可以用c f g ( c o n t e x tf r e eg r a m m a r ) 、二元词法( b i - g r a m ) 和三元词法( t r i - g r a m ) 等w 来建立高等级的语言模型,如词汇模型等。但 是,语种识别系统不同于其它语音识别系统,无需对每个字词、每个句子的 内容做出精确的翻译。对于语种识别系统来说,虽然每种语言都有各自不同 的语言规则,可以用来作为区分于其它语言的特征信息,但要想对所识别的 每种语言都建立相应的语言模型,则需要对各语种的庞大语言学专业知识进 行搜集和组织,然后加入到语种识别系统中,这是非常困难的;此外,对这 些信息进行计算的工作量是非常巨大的。因此,这项工作需要在已有的大词 汇量连续语音识别系统基础上进行研究。 虽然在连续语音识别系统中,整合利用统计语法对系统的有效性是至关 重要的,但对于与文本无关的语种识别来说,一般不适宜为每种待识别的语 言构造词汇模型。然而,我们可以较容易地创建模拟每一种语言中像音素或 音素类这样较基本的单元的相随出现统计规律的模型。如果这时用一种统计 语法来计算这些基本单元联合出现的似然值,我们就能有得到一些称之为该 哈尔滨工程大学硕士学位论文 1 i r j _ 目i i ;e j i 一 语言的音位配列的规则。例如,在英语中音素w 最有可能跟随音素s ,而 很少跟随音素r “,。 这样,训练被分成两个阶段。首先,按照前面叙述的方法训练每一基元 的统计模型。这些经过训练的模型接着用于估计各自的语言的统计语法,一 般常常运用等价于一种二元词法的统计语法,即获得一个音素跟另一个音素 出现的似然值的模型。判断一个未知语音段的语种时,通过相继将该语音段 与每一种语言的基元模型和语法模型进行解码比较,具有最高似然值的模型 对应的语种即作为该语音段的语种。 2 4 语音产生过程及在语种识别中的应用 语音信号的产生是与人的发音器官密切相关的。我们可以将语音生成系 统分成三个部分,在声门( 声带) 以下的称为“声门子系统”,它负责产生激 励振动,是“激励系统”;从声门到嘴唇的呼气通道是声道,是“声道系统”; 语音从嘴唇辐射出去,所以嘴唇以外是“辐射系统”。图2 1 显示了语音信号 产生的过程。 基因频率最 激励模型 图2 1 语音信号产生过程模型 语音信号可看作是声门激励信号和声道冲激响应信号的卷积嘲。声门激 励信号的不同来自于每个人的声带长短粗细和弹性的不同,一般介于4 0 4 0 0 _ i z 之间。这个振动频率决定了声音的音高,通常女性比男性高,老年人 比小孩低。 哈尔滨工程大学硕士学位论文 i i j 自目i | | 在与说话人无关的语种识别中,我们关心的是语音信号中所发的音本身 的信息,即发声时声道的形状。因而要尽量消除不同发声者的个体间差异。 为了把声门激励信号从语音信号中去掉,应首先把它与声道冲激响应信 号分离。我们可以求取语音倒谱特征参数,它可以通过同态处理来实现。同 态信号处理也称为同态滤波,它实现了将卷积关系变换为求和关系的分离处 理,即解卷。 图2 2 显示的系统对语音信号进行解卷,可将语音信号中的声门激励信 号与声道冲激响应分离开来。 图2 2 对信号解卷的过程 图2 2 中的系统完成了将卷积性信号转化为加性信号的运算,假如语音 信号为工,声门激励信号为而( 功,声道冲激响应为恐( 帕,则对 如) = 而o ) 而o ) ( 2 1 ) 进行了如下运算: ( 1 ) z x c n ) 】= x ( z ) = 五( :) 五( :) ( 2 ) l n x ( z ) = i n ( z ) + l n x 2 ( z ) = x 1 ( 力+ x 2 ( 2 ) = x ( 力 ( 2 2 ) ( 3 )z - 1 【z ( z ) 】= z q 【x l ( z ) + x 2 ( 彳) 】= 而( 栉) + 砭( 玎) 这时,如果而( h ) 和x :o ) 处于不同的位置并且互不交替,那么设计适当 的线性系统,便可将五( 帕与吃( 行) 分离出来。 2 5 本章小结 本章从语音的特征入手,详细叙述了能够用于语种识别的语言特征及其 在语种识别中的作用。从对般语种识别系统的推导中表明,音位结构信息、 韵律信息和声学信息等各种特征都可能对识别结果产生重要的影响。 哈尔滨工程大学硕士学位论文 第3 章语音特征参数的提取 3 1 前言 由上面的介绍可以知道,我们对所输入的语音进行语种识别,主要是通 过语音的声学特征来进行的。想要得到语音的声学特征,就必须对语音信号 进行分析和处理,从而进行语音信号的声学特征参数的提取。这是语种识别 的关键步骤。由于倒频谱( c e p s t r u m ) 具有将频谱上的高低频分开的优点, 所以只要取前面几项参数,就能代表语音信号的特性,使得识别率提高,例 如线性预测倒谱参数( l p c c ) 属于倒频域上的语音特征。如今,l p c c 已被广 泛地应用在语音识别上m ,。所以在本文中,我们对语音信号进行分析和处理 后,做语音信号的线性预测分析,最后求取语音信号的线性预测倒谱系数 ( l p c c ) 来作为语音信号的特征参数。具体的处理过程如图3 1 所示。 图3 1 特征矢量提取过程 3 2 语音信号的数字化 在自然界中,人们所听到的声音为模拟信号,而在计算机中所处理的是 数字化的信号,所以,在对语音信号进行分析之前,必须先将输入的声音进 行数字化处理。 对语音信号的数字化一般包括预滤波、采样和a d 变换。预滤波有两个 目的:一是抑制输入信号各频域分量中频率超出z 2 的所有分量( z 为采样 频率) ,以防混叠干扰:二是抑制5 0 h z 的电源工频干扰。接下来对语音信号 进行采样,根据著名的采样定理得知,采样频率不能小于原始语音信号频率 1 4 哈尔滨工程大学硕士学位论文 的两倍,若小于这个值的话会造成失真,由于人的语音的最高频率不会超过 4 k h z ,所以将采样频率定在8 k h z 就可以保证语音不失真了。语音信号经过预 滤波和采样后,由a d 变换将其变换为二进制数字码。 3 3 语音数字信号的加窗分帧 贯穿于语音分析全过程的是:“短时分析技术”w 。因为,语音信号从整 体来看其特性及表征其本质特征的参数均是随时间而变化的,所以它是一个 非平稳态过程,不能用处理平稳信号的数字信号处理技术对其进行分析处理。 但是,由于不同的语音是由人的1 3 腔肌肉运动构成声道某种形状而产生的响 应,而这种口腔肌肉运动相对于语音频率来说是非常缓慢的,所以从另一方 面来看,虽然语音信号具有时变特性,但是在一个短时间范围内( 一般认为 在l o 3 0 m s 的短时间内) ,其特性基本保持不变即相对稳定,因而可以将其 看作是一个准稳态过程,即语音信号具有短时平稳性。所以任何语音信号的 分析和处理必须建立在“短时”的基础上,即进行“短时分析”,将语音信号 分为一段一段来分析其特征参数,其中每一段称为一“帧”,帧长一般取为 l o 3 0 m s 。这样,对于整体的语音信号来讲,分析出的是由每一帧特征参数 组成的特征参数时间序列。 一般每秒的帧数约为3 3 1 0 0 帧。分帧虽然可以采用连续分段的方法, 但为了使帧与帧之间能够平滑过渡,保持其连续性,一般采用交叠分段的方 法,前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为o 1 2 ,分帧用可移动的有限长度窗口进行加权的方法来实现。加窗的目的是为 了让各帧的频谱的能量更集中。一个好的窗函数应该是:在时域,减小时间 窗两端的坡度时窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以使 截取出的语音波形缓慢降为零,减少语音帧的截断效应;在频域,要有较宽 的3 d b 带宽以及较小的边带最大值。以矩形窗和汉明窗进行比较看,汉明窗 的主瓣宽度比矩形窗大一倍,其带宽约增加一倍,同时其带外衰减也比矩形 窗大一倍多。矩形窗的谱平滑性能较好,但损失了高频成分,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论