




已阅读5页,还剩112页未读, 继续免费阅读
(计算机应用技术专业论文)支持向量机及在语音处理中几个问题的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
r e s e a r c h i n g o ns u p p o r tv e c t o rm a c h i n e s a n dt h e i ra p p l i c a t i o n si ns p e e c hp r o c e s s i n g m a j o r :c o m p u t e ra p p l i e dt e c h n o l o g i e s 一_ _ _ _ _ _ _ _ _ _ _ _ _ - _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ - _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ - _ _ - - - - _ i _ _ 一 a d v i s o r : 里! q 鱼墨苎q ! 圣塾垒塾g 坠 a u t h o r : y a n gc h e n g f u 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 ,签名日期:矽f ,年o5 月e l 论文使用授权 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:翩签础 日期:细幻年驴幺月日 摘要 摘要 传统的支持向量机( s v m :s u p p o r tv e c t o rm a c h i n e s ) 算法基于统计学理论和 结构风险最小化原则,在最小化经验风险的同时提高算法的泛化能力。全局优化 性、推广能力好、非线性核函数的使用等特性使其在解决有限样本、非线性、高维 模式识别方面取得了比传统模式识别算法更好的效果。坚实的理论基础和良好的 应用前景吸引了一大批学者投入该算法的研究。 语音是人机交互最直接的方式,语音相关处理技术的发展使其在语音查询、 语音控制、基于语音的模式识别等方面取得了长足的进步。语音有可能成为以后 计算机操作系统和一些应用软件的用户默认操作界面。说话人识别( s p r :s p e a k e r r e c o g n i t i o n ) 、语音内容识别( s c r :s p e e c hr e c o g n i t i o n ) 、语音情感识别( s e r : s p e e c he m o t i o nr e c o g n i t i o n ) 及算法的稳健性、有效性、实用性是现在研究的热 点。 本文系统分析了支持向量机算法及其相关改进算法,着力于这些算法在语音 处理相关技术中的应用分析;同时对语音的特征空间、应用模型进行了深入地探 索。算法的可行性、有效性和实用性是本文分析和强调的重点。 1 提出分析了基于模糊最t 、- - 乘支持向量机( f l s s v m :f u z z yl e a s ts q u a r e s s u p p o r tv e c t o rm a c h i n e s ) 的说话人识别算法。最小二乘支持向量机( l s s v m : l e a s ts q u a r e ss u p p o r tv e c t o rm a c h i n e s ) 利用等式约束取代传统支持向量机的不 等式约束,训练优化时用一系列的线性等式求解代替s v m 的二次规划迭代算法, 节约了大量的训练时间;模糊算法用于解决多分类问题中存在分类盲区的问题。 本算法力求探索更适应于说话人识别算法的语音特征空间;在较高维的特征空间 中运用模糊最小二乘支持向量机算法的优点提高说话人识别算法的准确度、训练 识别速度,从而达到实用的目的。 2 提出多类最t 、- - 乘孪生面支持向量机( m t l s s v m :m u l t i - c l a s st w i n sl e a s t s q u a r e ss u p p o r tv e c t o rm a c h i n e s ) 算法并将其应用于说话人识别、语音情感的识 别和函数估计算法( f a :f u n c t i o na p p r o x i m a t i o n ) 中。本算法综合运用了最t j 、- - 乘支持向量机算法中的等式约束原理、孪生面支持向量机( t s v m :t w i n ss u p p o r t v e c t o rm a c h i n e s ) 算法为每类样本数据点找到反映其分布的超分界面的时候只用 非本类样本数据点作为约束条件的机制。这些机制使训练时间大大缩短的同时很 容易将算法推广到多分类的问题中。本算法用于说话人识别、语音情感识别和函 数估计算法中均取得了实用性的效果。 i 摘要 3 对比分析了相关向量机( r v m :r e l e v a n c ev e c t o rm a c h i n e s ) 和s v m ,以及 在说话人识别算法中的应用。r v m 具有和s v m 相同决策函数形式、是基于概率统 计的一种学习机。r v m 具有比s v m 更稀疏的支持向量表示,同时具有概率预测和 不用人为确定参数的优点。r v m 在函数拟合及分类应用中的准确度上与s v m 不相 上下,在测试阶段因其稀疏性比s v m 更快:同时具有自动考虑噪声影响的功能,从 而具有更好的稳健性能。利用相关向量机的这些特点,将其运用到说话人识别算 法中取得了较好的效果。 4 分析了基于多面最邻近支持向量机( m p s v m :m u l t i s u r f a c ep r o x i m a l s u p p o r tv e c t o rm a c h i n e ) 的语音情感识别算法。m p s v m 通过解决某类样本数据 点相对于非本类样本数据点的特征值问题而得到每一类样本的超分界面,该分界 面尽可能代表本类样本分布的同时尽可能远离非本类样本数据点。该算法不用优 化迭代,训练时间相对较快。将相应的核函数运用于该算法,在语音情感识别算法 中取得了很好的分类效果。 5 结合局部保留索引( l p i :l o c a l i t yp r e s e r v i n gi n d e x i n g ) 和支持向量聚 类( s v c :s u p p o r tv e c t o rc l u s t e r i n g ) 算法,探索其在文本聚类( d c :d o c u m e n t s c l u s t e r i n g ) 中的应用。l p i 算法能够发现高维样本数据点分布的局部结构,在降维 的同时保留了样本数据点间的类属结构关系,从而能够在低维空间进行分类或聚 类操作;s v c 算法利用s v m 中的非线性核函数进行球形投影,在投影空间优化找 到支持向量映射回原空间形成聚类所需的样本数据点边界,通过规定的类内和类 间标识方法达到聚类的目的。本文将s v c 算法与l p i 算法结合并将其运用于高维空 间中的文本聚类取得了很好的效果。 关键词:支持向量机,最小二乘支持向量机,孪生面支持向量机,多面最邻近支持 向量机,相关向量机,多分类最t j 、- - 乘孪生面支持向量机,说话人识别,语音情感 识别,函数估计,局部保留索引,支持向量聚类,文本聚类 i i a b s t r a c t a b s t r a c t s u p p o r tv e c t o rm a c h i n e ( s v m ) i sb a s e do i lt h es t a t i s t i c a ll e a r n i n gt h e o r i e s ( s l t ) a n dt h ep r i n c i p l e so fs t r u c t u r a lr i s km i n i m i z a t i o n ( s r m ) w h i c hi m p r o v e st h e g e n e r a l i z a t i o ne f f e c t i v e l yw i t hm i n i m i z i n ge m p i r i c a lr i s k i nc o n t r a s tt ot h ec o n v e n t i o n a lp a t t e r nr e c o g n i t i o nm e t h o d s ,s v mo w n st h ea d v a n t a g e so ns m a l ls a m p l e s , n o n l i n e a r i t ya n dh i g hd i m e n s i o ns p a c e sp r o c e s s i n gb yg l o b a lo p t i m i z a t i o n ,b e t t e r g e n e r a l i z a t i o na b i l i t i e sa n dn o n l i n e a rk e r n e lf u n c t i o n su t i l i z a t i o n r o o t e di nf i r m m a t h e m a t i ct h e o r i e sa n dg o o dd e v e l o p m e n tp r o s p e c t s ,s v mi sb e c o m i n gah o t s p o t f o rm o r ea n dm o r er e s e a r c h e r s s p e e c hm a yb et h em o s td i r e c t l yi n t e r a c t i v ew a yb e t w e e nh u m a na n dc o i n - p u t e r s w i t ht h ed e v e l o p m e n t so ft h et e c h n o l o g i e so fs p e e c hp r o c e s s i n g ,g r e a tp r o - g r e s s e sw e r eg a i n e di ns e a r c h i n g ,c o n t r o l l i n ga n dp a t t e r nr e c o g n i t i o nb a s e do ns p e e c h s p e e c hw i l lp r o b a b l yb e c o m et h ed e f a u l ti n t e r f a c e so ft h en e x tg e n e r a t i o no p e r - a t i l l gs y s t e ma n ds o m ea p p l i c a t i o ns o f t w a r e s s p e a k e rr e c o g n i t i o n ,s p e e c hr e c o g n i - t i o n ,s p e e c he m o t i o nr e c o g n i t i o na n dt h e i rr o b u s t n e s s ,e f f i c i e n c y , p r a c t i c a b i l i t ya r e h o t s p o t si nr e s e a r c h i n gf i e l d s i nt h i st h e s i s ,s o m es v ma l g o r i t h m sa n dt h e i ra m e n da l g o r i t h m s ,s p e c i a l l y t h e i ra p p l i c a t i o n si ns p e e c hp r o c e s s i n gw e r ea n a l y z e ds y s t e m a t i c a l l y a tt h es a m e t i m e ,t h ef e a t u r es p a c e sa n dt h em o d e l so fs p e e c hp r o c e s s i n gw e r ed e e p l ye x p l o r e d t h et h e s i sf o c u s e do i lt h ef e a s i b i l i t y , e f f i c i e n c ya n dp r a c t i c a b i l i t yo ft h e s em e t h o d s 1 s p e a k e rr e c o g n i t i o nb a s e do nf u z z yl e a s ts q u a r e ss u p p o r tv e c t o rm a c h i n e s ( f l s s v m ) w a sp r o p o s e di nt h i st h e s i s d u et oe q u a l i t yc o n s t r a i n t si n s t e a do f q u a d r a t i cp r o g r a m m i n gi ns v m ,l e a s ts q u a r e ss u p p o r tv e c t o rm a c h i n e s ( l s s v m ) n e e dl e s st r a i n i n gt i m e t h ef u z z ym e t h o dw a su s e dt oa v o i dt h eu n c l a s s i f i e da r e a s i nm u l t i - c l a s sp r o b l e m s t h ep r o p o s e da l g o r i t h mw e n tf o rt h eb e t t e rf e a t u r es p a c e s f o rs p e a k e rr e c o g n i t i o n a tt h es a n l et i m e ,h i g h e rc o r r e c t n e s s ,f a s t e rt r a i n i n gs p e e d a n dt h ep r a c t i c a lr e s u l t sw e r eg a i n e di nh i g hd i m e n s i o ns p a c e sw i t ht h ea d v a n t a g e s o ft h ef l s s v m 2 am e n d e da l g o r i t h mn a m e dm u l t i c l a s sl e a s ts q u a r e st w i n ss u p p o r tv e c t o r ( m t l s s v m ) w a sp r o p o s e da n da p p l i e di ns p e a k e rr e c o g n i t i o n ,s p e e c he m o t i o n s r e c o g n i t i o na n df u n c t i o na p p r o x i m a t i o n t h ea d v a n t a g e so fl s s v ma n dt w i n ss u p - i i i ! ! 里! ! ! 堕! ;! 一一 _ _ _ - _ - _ - i _ - _ _ - _ _ - _ _ - _ - - - _ - - _ _ - _ 。- _ - - - _ _ _ - i _ - _ _ _ _ 。_ 。_ _ 。_ _ 。- 。1 。_ 。”1 。一 p o r tv e c t o rm a c h i n e s ( t s v m ) w e r ei n t e g r a t e di nt h ea l g o r i t h m ,s u c ha st h ee q u a - t i o n a lc o n s t r a i n si nl s s v m t h es u p e r - p l a n ef o re v e r yc l a s ss a m p l e sa n dc o n s t r a i n s o n l yf r o mo u t c l a s ss a m p l e si nt s v m w h i c h d e n o t e st h ed i s t r i b u t i o no ft h ei n - c l a s s s a m p l e sa n d i sa sf a ra sp o s s i b l et ot h eo u t - c l a s ss a m p l e s t h eo b t a i n e da d v a n t a g e s m a k et h ea l g o r i t h me x t e n d e dt om u l t i - c l a s sp r o b l e me a s i l ya n dw i t hl e s st r a i n i n g t i m e t h ep r a c t i c a lr e s u l t sw e r eg o t t e nw h e nt h ea l g o r i t h mw a sa d o p t e di ns p e a k e r r e c o g n i t i o n ,s p e e c he m o t i o nr e c o g n i t i o na n df u n c t i o na p p r o x i m a t i o na p p l i c a t i o n s 3 t 1 1 ec o m p a r a t i v ea n a l y s i so fs p e a k e rr e c o g n i t i o nb a s e do i lr e l e v a n c ev e c t o r m a c h i n e ( r v m ) a n ds v mw a se x p l o r e di nt h et h e s i s r v mi sal e a r n i n gm a c h i n e b a s e do np r o b a b i l i t ys t a t i s t i c sw i t ht h es i m i l a rd e c i s i o nf u n c t i o n sa ss v mi nt h e a d - v a n t a g eo fm o r es p a r s e n e s s ,p r o b a b i l i t yf o r e s tr e s u l t sa n dw i t h o u tp e r s o n - i n t e r p o s a l p a r a m e t e r s t h eb e t t e rg e n e r a l i z a t i o nc a n b eo b t a i n e dw i t ht h es i m i l a rc o r r e c t n e s s , m o r es p a r s er e s u l t sa n da u t o - n o i s e - e l i m i n a t i o ni nc o m p a r i s o nw i t hs v m t h eb e t t e r s i m u l a t i o nr e s u l t sw e r eg o t t e nw h e nt h er 、,mw a su s e di ns p e a k e rr e c o g n i t i o n 4 s p e e c he m o t i o nr e c o g n i t i o nb a s e do i lm u l t i s u r f a c ep r o x i m a ls u p p o r tv e c t o r m a c h i n e ( m p s v m ) w a se x p l o r e d m p s v mc a l lg e tt h es u p e r - p l a n e f o re v e r yc l a s s w h i c hs h o w st h ed i s t r i b u t i o no ft h ei n - c l a s ss a m p l e sa n di sf a rf r o mt h eo t h e rc l a s s s a m p l e sa sm u c h a sp o s s i b l ev i as o l v i n gg e n e r a l i z e de i g e n v a l u e s t h em p s v mn e e d n oo p t i m i z a t i o ni t e r a t i v ep r o c e s s i n g ,a n do w n st h ef a s t e rt r a i n i n gs p e e d t h es i m u - l a t i o nr e s u l t sp r o v e dt h ef e a s i b i l i t yo fm p s v mu s e di ns p e e c he m o t i o nr e c o g n i t i o n 5 d o c u m e n tc l u s t e r i n gb a s e do nl o c a lp r e s e r v i n gi n d e x i n g ( l p i ) a n ds u p p o r t v e c t o rc l u s t e r i n g ( s v c ) w a se x p l o r e di nt h et h e s i s l p ic a nf i n dt h el o c a ls t r u c t u r e i nh i g hd i m e n s i o ns a m p l e sa n dp r e s e r v et h ed i s c r i m i n a t i v ea b i l i t i e si nt h eg a i n e d l o c a ls t r u c t u r e s p h e r ep r o j e c t i o nb yn o n l i n e a rk e r n e li su s e di ns v ct og e ts u p p o r t v e c t o r si nf e a t u r es p a c e ,a n dc l u s t e r i n gb o u n d a r i e sa r ef o r m e dw i t ho b t a i n e ds u p p o r t v e c t o r si no r i g i n a ls p a c e t h e n ,t h ec l u s t e r i n gc a l lb ep e r f o r m e db a s e do nl a b e l l i n g p r i n c i p l e s c o m b i n i n gt h el p ia n dt h es v c ,t h eb e t t e rr e s u l t sw e r eo b t a i n e di n d o c u m e n tc l u s t e r i n g k e y w o r d s :s u p p o r tv e c t o rm a c h i n e s ,l e a s ts q u a r es u p p o r tv e c t o rm a c h i n e s ,t w i n s s u p p o r tv e c t o rm a c h i n e s ,m u l t i s u r f a c ep r o x i m a ls u p p o r tv e c t o rm a c h i n e s ,r e l e v a n c e v e c t o rm a c h i n e s ,m u l t i - c l a s sl e a s ts q u a r e st w i n ss u p p o r tv e c t o rm a c h i n e ,s p e a k e r r e c o g n i t i o n ,s p e e c he m o t i o nr e c o g n i t i o n ,f u n c t i o na p p r o x i m a t i o n ,l o c a l i t yp r e s e r v i n g i n d e x i n g ,s u p p o r tv e c t o rc l u s t e r i n g ,d o c u m e n tc l u s t e r i n g i v 目录 第一章 1 1 1 2 目录 绪论 课题的背景及研究意义 1 1 1 说话人识别技术及其发展 1 1 2 语音情感识别技术及其发展 1 1 3 支持向量机理论及其发展 本文的主要研究内容和体系结构 第二章模糊最小二乘支持向量机及在说话人识别中的应用 2 1 引言 2 2 模糊最小二乘支持向量机 2 2 1 两分类最小二乘支持向量机 2 2 2 模糊多分类最小二乘支持向量机 2 3 基于模糊最小二乘支持向量机的说话人识别算法 2 3 1 说话人识别算法特征空间 2 3 2 基于f l s s v m 的说话人识别算法流程 2 4 实验结果 2 4 1 数据集简介 2 4 2 实验结果比较 2 5 本章小结 第三章多分类最小二乘孪生面支持向量机及其应用 3 1引言 3 2 多分类最小二乘孪生面支持向量机 3 2 1 线性m t l s s v m 3 2 2 非线性m t l s s 订 3 3 基于m t l s s v m 的说话人识别算法及实验结果 3 3 1 算法数据集简介 3 3 2 算法流程 v 1 l 3 5 8 3 5 5 6 6 7 9 9 2 3 3 3 4 5 5 5 5 8 1 1 2 1 l 3 5 8 坞 坫 墙 埔 璩”均 均 毖 船昭 船丝 弱 弱 巧巧勰缸 乩 :; 目录 3 3 3 实验结果3 2 3 4 基于m t l s s v m 的语音情感识别算法及实验结果 3 4 3 4 1 情感数据库简介 3 4 3 4 2 基于m t l s s v m 的语音情感识别算法流程 3 4 3 4 3 实验结果 3 5 3 5 基于m t l s s v m 的函数估计算法及仿真结果 3 8 3 5 1 函数估计算法概述 3 8 3 5 2 基于m t l s s v m 的函数估计算法流程 3 8 3 5 3 实验仿真结果3 9 3 6 本章小结4 0 第四章 4 1 4 2 4 3 4 4 第五章 5 1 5 2 5 3 5 4 相关向量机及在说话人识别中的应用 5 1 引言5 1 相关向量机算法5 2 基于相关向量机的说话人识别算法 5 4 4 3 1 实验数据库简介5 4 4 3 2 语音特征空间5 4 4 3 3 基于r v m 的说话人识别算法流程5 5 4 3 4 实验结果5 5 本章小结5 6 多面最邻近支持向量机及其在语音情感识别中的应用 6 1 引言 6 l 多面最邻近支持向量机 6 2 基于多面最邻近支持向量机的语音情感识别算法6 4 5 3 1 算法数据库简介6 4 5 3 2 语音情感特征空间6 5 5 3 3 实验结果6 5 本章小结6 8 目录 第六章基于局部保留索引和支持向量机的文本聚类算法7 5 6 1 引言。 7 5 6 2 局部保留索引算法和支持向量聚类算法 7 6 6 2 1 局部保留索引算法 7 6 6 2 2 支持向量聚类算法7 7 6 3 基于局部保留索引和支持向量聚类的文本聚类算法 7 9 6 3 1 实验数据集简介7 9 6 3 2 算法流程 7 9 6 3 3实验结果8 1 6 4 本章小结 8 1 第七章 7 1 7 2 致谢 总结与展望87 本文总结 8 7 未来研究展望。8 9 参考文献 读博期间取得的研究成果 i 9 1 9 3 1 0 3 第一章绪论 第一章绪论 1 1 课题的背景及研究意义 本节对语音信号处理中与本文相关的内容进行概述,特别对说话人识别技术, 语音情感识别技术、支持向量机模型的相关内容进行了详细的论述。 语音信号处理是指利用数字信号处理技术对语音信号进行处理,综合了语音 学、语言学、生理学及认知科学、模式识别和人工智能等学科的内容,其处理的对 象是由人类发出的在一定频率范围内的不稳定语音信号。语音信号的不稳定性使 语音处理技术复杂化。语音处理技术主要解决语音信号的编码、合成、特征提取、 分离、说话人识别、说话内容的识别和语音情感的识别等。 语音信号处理的历史可以追溯到1 9 4 0 年d u d l e y 的声码器( v o c o d e r ) 和p o t t e r 等 人提出的可见语音( v i s i b l es p e e c h ) 。2 0 世纪5 0 年代n 6 0 年代中期是语音处理的 起步阶段。这个时期语音处理的主要工作集中在语音分离和语音合成等语音的 理解研究上,从人耳对语音的处理的机制和心理角度去研究语音分离和合成的 方法。比较著名的有c h e r r y 等人提出的“鸡尾酒会”问题;b r o a d b e n t 等人对语音 中基音频率( f 0 ) 的研究:s u m b y 等人对听觉与视觉结合有助于对语音的理解的 研究;k i m u r a 等人从大脑皮层神经的活动与语音的理解的关系上研究语音在人 脑中的处理机制:m i l l e r 等人从人的记忆、语音内容的上下文与语音理解之间的 关系上研究语音处理的过程;d e l a t t r e 等人用语音的共振峰频率( f 1 一f 3 ) 去研 究语音的处理。2 0 世纪6 0 年代初f a u t 和s t e v e n s 等人为语音合成的研究奠定了扎 实的基础;6 0 年代中期成熟的数字滤波器和快速傅里叶变换( f f t :f a s tf o u r i e r t r a n s f o r m a t i o n ) 为语音信号处理提供了很好的理论和技术基础;同时,随着计算 机技术的成熟和普及,语音处理技术由原来的硬件为主转变为计算机软件仿真为 主,为一系列的语音处理算法的出现奠定了基础。这个时期的实用语音处理可以 追溯到1 9 5 2 年贝尔实验室( b e l l ) 的d a v i s 等人研制成功的能识别十个英语数字的 实验装置a u d r y 系统;1 9 5 6 年o l s o n 和b e l a r 等人采用8 个带通滤波器组提取频谱参 数作为语音的特征,从而实现的一台简单的语音打字机1 1 1 。 2 0 世纪6 0 年代中后期一直至l j 2 0 世纪9 0 年代是语音处理的发展阶段。很多研 究学者从发声器官的肌肉运动与发声内容及声音的品质问的关系上去研究语 音的处理,如l i b e m a n 等人的研究一直持续n 8 0 年代中期还不断有这方面的研 究成果发表。2 0 世纪7 0 年代s t e v e n s 等人从声道的变化与声音变化之间的参数关 电子科技大学博士学位论文 系上去研究语音的处理。这个时期的语音处理研究结合了物理学中的动力学原 理,理论上想从发声的根源上去找声音的本质。美国的a r p a ( a m e r i c a n r e s e a r c h p r o j e c t sa g e n c y ) 计划促使了动态时间规整( d t w :d y n a m i ct i m ew a r p i n g ) 技 术、线性预测( l p c :l i n e a rp r e d i c t i o nc o e i i i c i e n t ) 技术、隐马尔可夫模型( h m m : h i d d e nm a r k o vm o d e l ) 、矢量量化( v q :v e c t o rq u a n t i z a t i o n ) 技术等在语音处理 领域的成功应用。2 0 世纪8 0 年代很多学者从心理语言学的角度去研究语音的理 解,得到一系列的语音模型和成果,如m c c l e u a n d 等人的t r a c e 模型和m a r s l e n - w i l s o n 等人的c o h o r t m o d e l 应该说这个时期的代表。2 0 世纪8 0 年代美国贝尔实验 室的r a b i n e r 等人对隐马尔可夫模型的系统介绍使之在语音处理技术中得到最 普遍地使用;同时,重新得到研究人员关注的神经网络( a n n :a r t i f i c i a ln e u r a l n e t w o r k s ) 技术成功地引入语音处理领域,使语音处理迈入统计模型阶段,并逐 渐由实验室走向真正的实用阶段。2 0 世纪7 0 年代、8 0 年代初、中期,语音识别的研 究主要集中在小词汇表、特定人、孤立词的识别。到8 0 年代末,在实验室突破了大 词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系 统中,比较典型的是卡耐基梅隆大学( c a r n e g i em e l l o nu n i v e r s i t y ) 的s p h i n x 系统, 它是第一个高性能的非特定人、大词汇量连续语音识别系统。 2 0 世纪9 0 年代研究学者更注重对语言学中的相对独立的单位( 如单词等) 进 行语音理解上的分析。从语言学结构、人的记忆( 知识) 、动力学等方面去研究 语音的处理。这个时期的具体研究主要集中在寻找更为有效的参数量化技术、 非线性预测技术、小波分析理论的多分辨率分析技术、高阶统计量的使用、对 人耳生理感知特性的研究。许多著名的大公司如i b m 、苹果、a t t 和n t t 都 对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机 制,那就是识别的准确率,而这项指标在2 0 世纪9 0 年代中后期实验室研究中得到 了不断的提高。比较有代表性的语音系统有:i b m 公司推出的v i av o i c e 、d r a g o n s y s t e m 公司的n a t u r a l l ys p e a k i n g 、n u a n c e 公司的n u a n c ev o i c ep l a t f o r m 语音平 台、m i c r o s o f t 的w h i s p e r 、s u n 的v o i c e t o n e 等。 2 1 世纪语音处理技术仍然是研究的热点,2 0 0 0 年至2 0 1 0 年语音识别技术被许 多专家认为是信息技术领域非常重要的科学技术之一。这一时期的研究工作主要 集中在对特征空间、模型的选择和优化上。 在中国,从1 9 8 7 年开始执行国家8 6 3 计划后,国家8 6 3 智能计算机专家组为语音 识别技术研究专门立项,每两年滚动一次。国内的语音识别技术的研究水平已经 基本上与国外同步,特别是在汉语语音识别技术上还有自己的特点与优势,并达 到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大 2 第一章绪论 学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都 有实验室进行过语音识别方面的研究。其中具有代表性的研究单位为清华大学电 子工程系与中科院自动化研究所模式识别国家重点实验室。清华大学电子工程系 语音技术与专用芯片设计课题组研发的非特定人汉语数码串连续语音识别系统的 识别精度达到o 9 4 8 ( 不定长数字串) 和0 9 6 8 ( 定长数字串) 。在有0 0 5 的拒识率情 况下,系统识别率可以达t u o 9 6 9 ( 不定长数字串) 和0 9 8 7 ( 定长数字串) ,并且可 以识别普通话与四川话两种语言,达到实用要求。中科院自动化所及其所属模式 科技( p a t t e k ) 公司2 0 0 2 年发布了他们共同推出的面向不同计算平台和应用的“天 语”中文语音系列产品p a t t e ka s r ,结束了中文语音识别产品自1 9 9 8 年以来一直 由国外公司垄断的历史。 现在常用的语音信号的分析方法一般可以分为时域处理方法【2 】、时频处理方 法【3 】和倒谱同态处理方法【4 】;从另一个角度也可以分为基于模型的分析方法和非 模型的分析方法。语音处理的一般步骤如图1 一l 所示。 1 1 1说话人识别技术及其发展 人类通过学习逐渐熟悉说话人的音色、音质;通过说话人声道差异、发音器官 的使用差异和说话的习惯等去识别不同的人。说话人识别( s p r ) 就是让计算机通 过学习不同人在不同场合所发的声音,将语音信号中的语义信息平均化,提取语 音中与说话人相关的特征,进而具备识别谁在说话的能力。与其它生物特征识别 信号( 诸如指纹识别、虹膜和人脸识别) 相似,人类的语音信号具有通用性、独特 性、恒定性、准确性、高可采用性和高可采信性【5 】:同时语音信号是人类交流最自 然的方式,语音信号的采集所需的输入设备相对较容易获得等特征使语音作为近 年来最容易被人们接受的生物信号而在生物识别领域具有很大的优势。 说话人识别问题涉及人的发音器官、发音习惯、声学原理、语言学知识、自然 语言理解等方面的内容,交叉运用了心理学、生理学、数字信号处理、模式识别、 人工智能等方面的知识【6 】【7 】【8 】。相同的人在不同的场境、不同的心境、不同的年龄 情况下发音均有所不同,这
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 家庭房子验收合同范本
- 学校团委会议记录内容范文
- 众筹买车合同范本
- 农资平台入住合同范本
- 工地规划设计合同范本
- 窗帘售卖合同范本
- 房租打扫改造合同范本
- 2025年电气自动化控制基础综合应用考核试题及答案
- 2025年安全员知识考试题附含答案
- 2025年石井乡传染病防治法培训试题及答案
- 肾动脉狭窄的超声诊断课件整理
- 金丝键合工艺培训汇编课件
- 奥维互动地图使用介绍课件
- 小学语文新课程标准最新版2022
- 室外雨污水、消防管网施工方案
- 传染病学总论-人卫最新版课件
- (中职)计算机组装与维修电子课件(完整版)
- (高职)旅游景区服务与管理电子课件完整版PPT全书电子教案
- 部编版七年级语文上册教案(全册)
- 《汉服》PPT课件(完整版)
- 某国有企业精细管理降本增效经验交流汇报材料企业降本增效.doc
评论
0/150
提交评论