(计算机应用技术专业论文)基于支持向量机的说话人识别研究.pdf_第1页
(计算机应用技术专业论文)基于支持向量机的说话人识别研究.pdf_第2页
(计算机应用技术专业论文)基于支持向量机的说话人识别研究.pdf_第3页
(计算机应用技术专业论文)基于支持向量机的说话人识别研究.pdf_第4页
(计算机应用技术专业论文)基于支持向量机的说话人识别研究.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(计算机应用技术专业论文)基于支持向量机的说话人识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 在说话人识别领域,基于支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 的识别方法是当今的研究热点。同其他模式识别方法相比该方法主要 有两个不同点:一是它采用一个非线性核函数来表示特征空间的内积, 另外一方面它采用分类间隔最大的最优分类超平面实现结构风险最小 化。而这些特征使得支持向量机方法能得到广泛的应用。 论文详细阐述了说话人识别的基本原理和实现过程。首先对特征 参数的提取做了较深入的研究,对当今最常用的线性预测倒谱系数和 美尔倒谱系数的理论基础和实现过程做了阐述,并将这些参数和其差 分参数相组合,测试它们提取说话人个性特征的准确程度。用不同的 特征参数构造说话人识别系统并考察它们对系统识别率和抗噪性能的 影响。 核函数是支持向量机模型的核心机制,函数类型的选择和参数的 整定对于分类的准确度至关重要。论文阐述了核函数的基本理论,对 目前常用的多项式核函数、径向基核函数及多层感知器核函数进行了 仿真和分析,测试了它们在干净语音和加噪语音环境下的系统识别率 和稳健度。 为缩短说话人识别系统的训练时间,在对样本进行基于支持向量 机的训练之前,需要对样本进行约简。论文总结了该领域的理论成果 并给予归纳,提出了一种新的约简方法支持聚类区提取法( s u p p o r t c l u s t e ra b s t r a c t i n g ,s c a ) ,阐述了该方法的理论基础并给出了具体实 现步骤,并对s c a 方法和传统的方法进行了实验和分析,用实验演示 了算法对线性可分样本边界的描述准确度。考察了算法对线性不可分 样本即语音样本在约简率和识别率方面的性能。 s c a 方法的参数的合适度决定了约简集是否能包含所有的支持向 量同时尽可能减轻s v m 训练的负担。论文通过试凑的方法对扇出系 数、聚类数目及接近度因子等相关参数进行了整定,实验证明,和其 他的约简方法相比,经过参数整定后的s c a 方法能以较高的约简率获 得较高的识别率,符合理论上预计的结果。通过实验考察了s c a s v m 模型与s v m 模型以及其他说话人模型在性能上的差异。 关键字说话人识别,支持向量机,核函数,样本约简,支持聚类区提 取 a b s t r a c t i ns p e a k e rr e c o g n i t i o nf i e l d ,r e c o g n i t i o nm e t h o db a s e do ns u p p o r t v e c t o rm a c h i n e ( s v m ) t e c h n i q u ei sah o ts p o t u n l i k eo t h e rc o n v e n t i o n a l p a r e r nr e c o g n i t i o nt e c h n i q u e s ,t h i sm e t h o dh a st w o p e r c u l i a r c h a r a c t e r i s t i c s f i r s t l y , t h ep r o p o s e ds v mt e c h n i q u e e x p r e s s e s i n n e r p r o d u c to ff e a t u r es p a c eu s i n gan o n - l i n e a rk e r n e lf u n c t i o n s e c o n d l y ,t h e s v mm e t h o dc a r r i e so u ts t r u c t u r a lr i s km i n i m i z a t i o n p r i n c i p l eu s i n g o p t i m a l c l a s s i f i c a t i o n s u p e r s u r f a c e t h i sm a d et h e p r o p o s e ds v m t e c h n i q u ew i d e l ya p p l i c a b l e i nt h i st h e s i s ,w ei n v e s t i g a t et h ef u n d a m e n t a lt h e o r ya n dr e a l i z a t i o n p r o c e d u r ef o rs p e a k e rr e c o g n i t i o n w eb e g a nw i t hat h o r o u g hr e v i e wo n f e a t u r ep a r a m e t e r t h i si sf o l l o w e db ya ni n v e s t i g a t i o no ft h el i n e a r p r e d i c t i o nc e p s t r u mc o e f f i c i e n t ( l p c c ) a n dm e l - f r e q u e n c yc e p s t r u m c o e f f i c i e n t ( m f c c ) t h et h e s i sc o m b i n e df e a t u r e sf r o ml p c ca n dm f c c i n t os e v e r a l f e a t u r ev e c t o r sa n dt e s t e dt h e i r d e g r e e o fa c c u r a c yi n a b s t r a c t i n gp e r s o n a lc h a r a c t e r i s t i c s t h et h e s i sa l s oi n v e s t i g a t e dt h ei m p a c t o fv ir o u sf e a t u r ep a r a m e t e ro nr a t eo f r e c o g n i t i o na n dn o i s ea b a t e m e n t si n c ek e r n e lf u n c t i o ni sa ne s s e n t i a lt e c h n i q u ei ns v m t h e o r ya n dt h e a c c u r a c yo ff e a t u r ec l a s s i f i c a t i o ni sg r e a t l yi n f l u e n c e db yt h es e l e c t i o no f f u n c t i o na n dp a r a m e t e r , w ec o n d u c t e dar e v i e wo ft h eb a s i ct h e o r yo f k e r n e lf u n c t i o n s as i m u l a t i o na n da n a l y s i so fk e m e lf u n c t i o ns u c ha s p o l y n o m i a lf u n c t i o n ,r a d i a lb a s i sf u n c t i o n ,s i g m o i df u n c t i o ni sp r e s e n t e d t h e n ,t h er a t eo fr e c o g n i t i o na n ds t e a d i n e s so fp u r es p e e c hs i g n a la n dn o i s y s i g n a lc o n d i t i o ni sa l s op r e s e n t e d b e f o r es v mt r a i n i n g ,t h es i z eo fs a m p l es e ti sc r i t i c a lt oa c h i e v i n g h i g hr a t eo fr e c o g n i t i o na n dt i m ee f f i c i e n c y , t h e r e f o r e ,w ep r o p o s er e d u c i n g t h es i z eo ft h es a m p l es e t w ea l s op r e s e n t e dan e wa l g o r i t h mf o rr e d u c i n g t h es o c a l l e ds u p p o r tc l u s t e ra b s t r a c t i n g ( s c a ) w ec o n d u c t e dar e v i e wo f t h es c a sf u n d a m e n t a l sa n dp r o v i d ei t sr e a l i s t i cs t e p s a tl a s t t h et h e s i s p r e s e n t e das i m u l a t i o na n da n a l y s i sc o m p a r i n gs c a a n do t h e rm e t h o d s o n o n eh a n d ,w et e s t e dl i n e a rd i v i s i b l es a m p l e sa n dt h e i rp e r f o r m a n c ea t b o u n d a r yd e s c r i p t i o n o nt h eo t h e rh a n d w et e s t e d l i n e a rn o n d i v e s i b l e s a m p l e sa n dm e a s u r e dt h e i rr a t eo fr e d u c t i o na n dr e c o g n i t i o n u t h eo b t a i n e ds c a p a r a m e t e r sd e t e r m i n ew h e t h e rr e d u c i n gs a m p l es e t c a nc o n t a i na l lt h es u p p o r t i n gv e c t o r sa n dr e li e v et h eb u r d e no fs v m t r a i n i n ga sf a ra sp o s s i b l e i nt h i st h e s i s ,w es e tu ps c ap a r a m e t e r s e x p e r i m e n t a l l y t h ep a r a m e t e r si n c l u d ef a n - o u tc o e f f i c i e n t 屯c l u s t e r i n g n u m b e r sca n da p p r o x i m a t i o nd e g r e ef a c t o ra t h es i m u l a t i o nr e s u l t s r e v e a lt h a t ,c o m p a r e dt oo t h e rr e d u c i n ga l g o r i t h m s ,s c ar e a c h e st h eh i g h e r r a t eo fr e c o g n i t i o na th i g h e rr a t eo fr e d u c i n ga f t e rc o e f f i c i e n ts e t - u p t h e r e s u l t so fo u re x p e r i m e n t sj u s t i f yt h ep r e d i c t i o no ft h e o r y t h i st h e s i s i n v e s t i g a t e dt h e d i f f e r e n c eo fc a p a b i l i t yo fv i r o u ss p e a k e rr e c o g n i t i o n m o d e l k e yw o r d s s u p p o r tv e c t o rm a c h i n e ,k e r n e lf u n c t i o n ,s a m p l er e d u c i n g , s u p p o r tc l u s t e ra b s t r a c t i o n 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共 同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:嵫 日期:俎年月l 日 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校有 权保留学位论文并根据国家或湖南省有关部门规定送交学位论文,允 许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容, 可以采用复印、缩印或其它手段保存学位论文。同时授权中国科学技 术信息研究所将本学位论文收录到中国学位论文全文数据库,并通 过网络向社会公众提供信息服务。 作者签名:蚪 导师签名 日期:塑l 年月_ l 日 硕十学位论文第一章绪论 1 1 说话人识别概述 第一章绪论 语音是人的自然属性之一,由于说话人发音器官的生理差异以及后天形成的 行为差异,每个人的语音都带有强烈的个人色彩,这使得通过分析语音信号来识 别说话人成为可能。说话人识别是从说话人所发语音中提取出说话人是谁的信息 的过程【l 】。说话人识别和人脸识别、指纹识别、虹膜识别等一样,属于生物识别 的一种,又称为声纹识别1 2 j l 。生物识别也称为生物特征识别,是指通过人体显 著的生物或行为特征来自动识别所测定人的身份的方法。 说话人识别与我们通常所说的语音识别有很大的区别,语音识别的目的在于 想知道蜕话人所说的内容,而不注意是谁在说话,而说话人识别的结果是想知道 是谁在说话,而并不关心说话人所说的内容。因此,语音识别强调的是所说的内 容,而淡化说话人的音色音质等特色因素,说话人识别则涉及到说话人发音器官 上的个体差异、发音声道之问的个性差异、发音习惯之间的个性差异等等。说话 人识别是交叉运用心理学、生理学、语音信号处理、模式识别、统计学习理论和 人工智能的一门综合性研究课题。 说话人识别包括两方面的内容:说话人确认( s p e a k e rv e r i f i c a t i o n ) 1 4j 和说话人 辨认( s p e a k e ri d e n t i f i c a t i o n ) i5 。在说话人确认中,通常要求使用人提供个人姓名 或编号,系统要完成的任务是验证说话人与声称的某说话人是否为同一个人。这 时系统把说话人信号特征与计算机中预留下的声称的某说话人的特征相比较,从 而做出判别。另一类是说话人辨认,在这种应用中不要求使用人提供个人姓名或 个人编号,系统要完成的任务是把说话人的信号特征与计算机中预留下的众多说 话人的特征相比较,从而确定是谁在说话。 在说话人辨认中,根据说话人训练目的不同,又可以分为开集说话人辨认和 闭集说话人辨认。闭集说话人辨认是基于系统认为测试语句的说话人一定是训练 集中的某个说话人;开集则认为测试语句的说话人还有可能不在训练集中出现。 开集说话人辨认和说话人确认通常都通过一个阈值来判断测试的说话人是不是 在训练集中。 说话人识别按照说话内容的类型不同可以分为文本有关( t e x td e p e n e d e n t ) 和 文本无关( t e x ti n d e p e n d e n t ) 1 6 j 两种。“文本有关”指说话人按照规定的文本发音或 按提示发音;“文本无关“指无论说什么话都可以进行说话人识别。在某些领域, 硕十学位论文第一章绪论 人们不可能知道说话人的文本内容,如法庭鉴别和说话人语音跟踪等,因此文本 无关的说话人识别更加受人们重视,应用也更为广泛与灵活。 1 2 说话人识别的应用领域 与其他生物特征识别相比,说话人识别除具有不会遗失和忘记、不需记忆、 使用方便等优点外,还具有以下独特的优点:用户接受程度高,由于不涉及隐私 问题,用户无任何心理障碍;语音是个人所固有的特征,人的语音可以非常自然 的产生,训练和识别时并不需要特别的输入设备,诸如个人电脑普遍配置的话筒 和随处可见电话都可以作为输入设备,因此利用语音进行身份识别可能是最自然 和最经济的方法之一,而其他生物识别技术的输入设备往往造价昂贵,这些因素 都促使说话人识别技术得到了广泛的应用。说话人识别的主要应用领域如下: ( 1 ) 同常生活中的应用 包括电话预约业务中的声音确认转账、汇款、余额通知、股票行情咨询。比 如在自动总机系统中,可以在姓名自动拨号的同时,向受话方提供主叫方的身份 信息。前者用于身份认证,后者用于内容认证。同样,说话人识别技术可以在呼 叫中心应用中,为注册的常用客户提供友好的个性化服务。 ( 2 ) 保密安全中的应用 如机密场所的门禁系统。又如说话人识别及确认可用于信用卡、银行自动取 款机、门、车的钥匙卡、授权使用的电脑、声纹锁以及特殊通道口的身份卡,把 声纹存在卡上,在需要时,持卡者只要将卡插入专用机的插口上,通过一个传声 器读出事先己储存的暗码,同时仪器接收持卡者发出的声音,然后进行分析比较, 从而完成身份确认。同样可以把含有某人声纹特征的芯片嵌入到证件之中,通过 上面所述的过程完成证件防伪。 ( 3 ) 军事领域中的应用 声纹辨认技术可以察觉电话交谈过程中是否有关键说话人出现,继而对交谈 的内容进行跟踪( 战场环境监听) :在通过电话发出军事指令时,可以对发出命令 的人的身份进行确认( 敌我指战员鉴别) 。目前该技术在国外军事方面已经有所应 用,据报道,迫降在我国海南机场的美军e p 3 侦察机中就载有类似的声纹识别 侦听模块。 ( 4 ) 司法鉴定中的应用 根据现场记录的声音,可以帮助司法系统判断并确认嫌疑犯中真实罪犯的身 份,帮助对嫌疑人的查证。从犯罪时所记录的声音确定罪犯。有时嫌疑犯中可能 不包含真j 下的罪犯,此时常常需要将说话人辨认与确认结合起来。 2 硕十学位论文第一章绪论 ( 5 ) 生物医学中的应用 如使说话人识别系统响应患者的命令,从而实现对机器假肢的控制等。 ( 6 ) 网络安全中的应用 说话人识别可有效地防止复制和剽窃,可以为同益发展的电子购物、电子商 务、国际贸易保驾护航,且操作方便、简洁,很容易为广大计算机使用者接受。 1 3 说话人识别的研究现状 对说话人识别的研究始于2 0 世纪3 0 年代1 7 j 。早期的工作主要集中在人耳听 辨实验和探讨听音识别的可能性方面。随着研究手段和工具的改进,研究工作逐 渐脱离了单纯的人耳听辨。2 0 世纪4 0 年代,b e l l 实验室的p o t t e r 发明了语谱图 ( s p e c t r o g r a m ) ,使得描绘可视的声音成为可能。1 9 6 2 年,b e l l 实验室的l g k e s t a 目视观察语谱图进行识别,提出了“声纹( v o i c e p r i n t ) ”的概念。之后,电子技术和 计算机技术的发展,使通过机器自动识别人的声音成为可能。b e l l 实验室的 s p r u z a n s k y 提出了基于模式匹配和概率统计方差分析的说话人识别方法,而引 起信号处理领域许多学者的注意,掀起了说话人识别研究的一个高潮,其问的工 作主要集中在各种识别参数的提取、选择和实验上,并将倒谱和线性预测分析等 方法应用于说话人识别。 7 0 年代,i b m 、t i 、贝尔实验室等最早投入说话人识别技术的研究,当时的 说话人识别算法以动态时间规整( d y n a m i ct i m ew r a p p i n g ,d t w ) 为核心,并且在 说话人确认方面取得了显著的成果。7 0 年代中期,a t a l 研究了线性预测系数、: 声道的冲激响应、自相关系数、声道面积函数等。 8 0 年代以来,a t & t 公司、t i 与美国著名的s p f i m 公司致力于说话人识别 技术的研究。当时具有很好分类特性的矢量量化开始应用到说话人识别当中,同 时利用人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) 的说话人识别技术也逐渐 发展起来。国际上法国南巴黎大学的信息学研究实验室是开展人工神经网络应用 研究的最早单位之一。8 0 年代后期,基于概率统计模型法的隐马尔可夫模型 ( h i d d e nm a r k o vm o d e l ,h m m ) 、主成分分析、多特征组合等技术开始应用到语 音信号处理当中。这些新方法的出现及应用,使说话人识别算法得以不断改进。 进入9 0 年代后,高斯混合模型( g a u s s i a nm i x t u r em o d e l ,g m m ) 以其简单灵 活以及较好的鲁棒性,迅速成为当今与文本无关的说话人识别中的主流技术,将 说话人识别带到了一个新的阶段。随着有限样本情况下的机器学习理论研究的逐 渐成熟,一种新的模式识别方法支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 被应用于说话人辨认和确认中,并得到了较好的识别结果。 硕士学位论文第一章绪论 从上世纪6 0 年代到现在,说话人识别所处理的语音从小语料库( 较少的说话 人) ,干净语音和受限文本发展到今天的大规模语料库,各种类型语音以及任意 内容的文本。 目前世界上很多著名的大学、研究机构以及很多大公司的实验室都在进行说 话人识别方面的研究。例如麻省理工学院林肯实验室( l i n c o l nl a b o r a t o r y ) 鲁棒语 音识别组( r o b u s ts p e e c hr e c o g n i t i o ng r o u p ) ,n t t 的f u m i 研究所,俄勒冈研究 生院( o g i ) 的h e r m a n s k y 教授及其领导的人类信号处理小组,s r i 公司的语音技 术与研究实验室( s t a r ) ,瑞士的d a l l em o l l e 感知人智能研究院( i d i a p ) 等等。国 际声学、语音与信号处理会议( i n t e r n a t i o n a lc o n f e r e n c eo na c o u s t i c s ,s p e e c ha n d s i g n a lp r o c e s s i n g ,i c a s s p ) 也专门设有说话人识别的专题。 经过研究人员几十年的努力,说话人识别技术也从小型的、实验室条件下、 受控的系统向实用化发展【8 j 。如今,说话人识别技术已经逐渐走入实际应用,如 a t & t 、欧洲电信联盟、节果公司、m o t o r o l a 和v i s a 等公司成立的v - c o m m e r c e 联盟、i t t 公司、k e y w a r e 公司、t - n e t i x 公司等相继丌展了相关实用化研究, 并丌发了相应的产品。对于汉语的说话人识别技术,国内外众多科研机构及公司 都投入了很大的力量。诸如,微软亚洲中国研究院语音组、i b m 中文语音研究 中心、i n t e l 中文语音研究中心、d i a l o g i c 公司、a t & t 公司以及同本松下等。北 京大学视觉与听觉信息处理国家重点实验室,受到国家自然科学基金,及“8 6 3 ” 计划的支持,其说话人识别技术的研究代表着国内的先进水平。 国内丌展说话人识别研究工作相对较晚,但也已经引起了广泛的关注,许多 大学和研究机构都在进行这一领域的研究。其中比较有代表性的有北京大学视觉 与听觉信息处理国家重点实验室、中国科学院自动化研究所模式识别国家重点实 验室、中科院声学所、清华人学、上海交通人学、国防科技人学、北京邮电大学 等。 1 4 说话人识别的难点 半个多世纪以来,虽然说话人识别技术已经取得了长足的发展,在理论上己 获得众多的突破,各个研究机构也都成功的开发出了自己的说话人识别系统,但 是要将说话人识别技术真j 下完美地应用到实际的生活中去,却还面临着诸多的困 难和不足。主要面临的问题可以概括如下: ( 1 ) 尚未找到简单可靠的说话人语音特征参数1 9 j 。识别的信息来源是说话人 所说的话,其语音信号中既包含说话人语音内容的信息,也包含了说话人的个性 信息,是语音特征和说话人个性特征的混合体。到目前为止,还没有找到简单的 4 硕十学位论文第一章绪论 声学参数能够可靠地识别说话人。 ( 2 ) 语音信号的变异性。语音信号具有时变特性,并常常与说话人所处的环 境、情绪、健康状况有密切关系,会随着时间的推移和年龄的变化而变化【1 0 1 。 而且不同的环境噪声也增加了说话人识别的难度;人在患感冒等疾病时,发音与 正常情况下有较大变化,这也增加了说话人识别的难度。因此,如何寻找能够不 依赖上述因素而更准确地反映不同说话人的特征的语音特征参数仍是一个需要 进一步解决的问题【l 。 ( 3 ) 在理论上存在将有限特征空间进行无穷划分的问题。对于语音识别来 说,汉字的音节是有限的,只有几千个音节。而对于说话人识别来说,全体汉 语说话人却有近1 5 亿话人,识别时要将其划分为1 5 亿个子空间,存在无穷划分 的问题。 ( 4 ) 说话人识别的应用还受到伪装发音等问题的困扰【l2 1 。我们可在电视节目 上听到很多口技演员模仿其他人的声音的情况,非常逼真,这给识别带来了极大 的困难。 综合上述原因,在实验室罩具有很高的性能的说话人识别系统,在实际的应 用环境下也会变的非常不稳定,没法达到实际应用的标准。而且这些都是从说话 人识别系统本身出发讨论的影响因素。如果再加以外界的不同要求,则系统将会 变得更加的复杂,而且系统的反应时间也将是一个很大考验。因此,外界的空问 和时间复杂度也都是我们所不得不面对的问题。 1 5 说话人识别的主要方法 随着技术的发展,说话人识别的新方法不断出现,说话人识别方法主要包括 矢量量化方法,概率统计方法,判别分类器方法,混合方法。 ( 1 ) 矢量量化方法【1 3 】 矢量量化( v e c t o rq u a n t i z a t i o n ,v q ) 技术是七十年代后期发展起来的一种数 据压缩和编码技术,广泛应用于语音编码、语音合成、语音识别和说话人识别等 领域,它在语音信号的处理中占有十分重要的地位。由于每个说话人的语音特征 序列在特征空间中都形成了它特定的特征聚类中心,在矢量量化中称这些聚类中 心为说话人码本,所以用这些聚类中一t l 、作为说话人个性特征的描述模型,识别时 求出待测语音特征与每个说话人特征聚类中心的距离,以最小距离作为识别说话 人的准则i j 。 ( 2 ) 概率统计方法 包括隐马尔可夫模型( h m m ) 【1 5 1 和高斯混合模型【1 6 i ( g m m ) 。隐马尔可夫模型 硕士学位论文第一章绪论 是一种基于转移概率和传输概率的随机模型。在使用h m m 识别时,为每个说话 人建立发声模型,通过训练得到状态转移概率矩阵和输出概率矩阵。识别时计算 未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。 h m m 不需要时间规整,可以节约判决时的计算时间和存储量,目前仍被广泛应 用,缺点是训练时计算量较大。经研究证明,h m m 对特定文本的说话人识别效 果较好。高斯混合模型是近年来说话人识别采用的最主流的技术,它是在h m m 模型的基础上发展起来的。高斯混合模型本质上是一种多维概率密度函数,可以 看作是混合高斯密度的隐马尔可夫模型,这种模型用多个高斯分和的概率密度函 数的组合来描述特征矢量在概率空间的分布状况。用在说话人识别中时,每个说 话人对应一个g m m 。经研究证明,g m m 对非特定文本说话人识别效果较好。 ( 3 ) 判别分类器方法 在这类识别系统中,比较成熟的方法包括人工神经网络( a n n ) i l7 j 识别方法和 支持向量机识别( s v m ) l l8 】方法。近年来,神经网络技术得到了飞速发展,神经网 络在说话人识别中的应用也得到了良好的效果。人工神经网络模仿人脑的信息处 理机制,把大量结构非常简单的计算单元互相连接起来,实现高度并行和分散的 信息处理,它可以通过从示例中学习,实现网络的自我组织和调整。神经网络有 很多种,目前应用在说话人识别上面最普遍的是多层感知器网络。用多层感知器 结构的人工神经网络进行说话人识别,就是将说话人的个性特征作为网络的输 入,通过对网络的训练,用网络的强有力的分类能力,在网络输出端得到说话人 识别结果。 机器学习是人工智能应用的重要研究领域,研究如何从观测数据中寻找规 律,并利用这些规律对未来数据或无法观测的数据进行预测。现有机器学习方法 的重要理论基础之一是统计学。传统统计学的诸多结论,是在样本数目足够多的 日i 提下进行研究的。所提出的各种方法和结论只有在样本数目趋向无穷大时其性 能彳有理论上的保证。但在实际问题中,样本数目常常有限,导致一些理论上优 秀的学习方法在实际应用中不能达到预期效果。 与传统统计模式识别的方法不同,统计学习理论p g l ( s t a t i s t i c a ll e a r n i n g t h e o r y , s l t ) 是一种专门的小样本统计理论。v v a p n i k 早在2 0 世纪6 0 年代就丌始 了统计学习理论的研究,作为一种针对有限样本的函数预测问题的纯理论分析工 具,并相继提出v c 维理论、结构风险最小化原理( s t r u c t u r a lr i s k m i n i m i z a t i o n s r m ) ,有效克服了传统经验风险最小化方法的缺点。1 9 9 5 年v a p n i k 和c h e r v o n e n k i s 等人以统计学习理论为基础发展了一种新的通用学习方法一支 持向量机。该方法能较好地解决小样本、非线性、高维数和局部极小点等实际问 题,已成为机器学习界的研究热点之一,并成功地应用于分类、函数逼近和时间 6 硕+ 学位论文 第一章绪论 序列预测等方面。本文将重点对s v m 的一些关键技术进行研究,包括约简机制、 多分类问题、核函数选取和参数整定问题。 1 6 说话人识别的系统结构 说话人识别系统一般由预处理、特征提取、建立模型、模式匹配、判决等部 分组成,其系统组成框图如图1 1 所示。 语 结果 图1 1 说话人识别系统结构框图 ( 1 ) 预处理 在进行语音信号特征提取之前,必须将原始的信号做一系列的处理使其符合 系统的需要。这些过程包括对连续的语音信号做采样和量化以转换成离散的数字 信号;去除噪音来得到纯净的语音信号;预加重处理用来增强高频分量;给长时 信号进行加窗分帧以体现信号的短时平稳特征。 ( 2 ) 特征提取 说话人识别系统的特征提取是将语义内容舍去而保留个人特征信息。在理想 情况下,选取的参数应当满足以下准则:能够有效地区分不同的说话人,但又能 在同一说话人的语音发生变化时保持相对稳定;易于从语音信号中提取;不易被 模仿;尽量不随时间和空间变化。当今比较成熟的特征参数有线性预测倒谱系数 l p c c 、m e l 倒谱系数m f c c 等。本文将对这些方法做详细的介绍。 ( 3 ) 说话人模型的建立 说话人的模型结构对应于说话人识别的不同方法,随着科学技术的发展,说 话人识别的方法不断出现,包括动态时间规整、矢量量化、隐马尔可夫模型、混 合高斯模型、人工神经网络等方法、支持向量机等。 ( 4 ) 模式匹配 在模式匹配阶段,先将测试语音的特征与说话人模型进行匹配,计算匹配距 硕士学位论文第一章绪论 离。说话人确认时,只与所声称的某说话人模型进行匹配和计算匹配距离,说话 人辨认时,与所有说话人的参考模型进行匹配和计算匹配距离,最后再进行比较, 做出判决。 1 7 本论文的研究内容 本文详细阐述了说话人识别系统的基本理论和实现方法,主要内容包括:分 析和研究语音信号特征参数的提取过程,对l p c c 和m f c c 参数及其差分参数 的识别性能进行了实验和分析;介绍了支持向量机和核函数的基本理论,对核函 数的选择进行了实验和分析;对支持向量机模型的样本约简机制进行了分析和总 结,以此为基础提出了一种新的约简方法一支持聚类区提取法( s c a ) 。本文对这 些约简方法进行了实验和分析,从约简率和识别率两方面来衡量他们的系统性 能,实验证明,通过选择最优的参数,s c a 方法较其他约简方法具有更优越的 性能。各章内容安排如下: 第一章主要讲述说话人识别技术的背景、研究现状、难点、识别方法、系 统结构等。 第二章介绍了语音信号的预处理过程,并用相关的仿真对这些过程做了演 示。接着对语音信号的特征参数的提取做了详细的介绍和研究,重点阐述了 l p c c 和m f c c 参数的基本理论并给出了提取这些参数的方法和步骤。 第三章主要讲述统计学习理论和支持向量机的相关理论。分析了实现多说 话人识别的方法和各种方法的优缺点。阐述了特征空间和核函数的相关理论以及 支持向量机模型中的核函数选择。建立了基于s v m 的说话人识别系统。 第四章主要讲述支持向量机的样本约简机制,总结了样本约简研究领域的 理论成果并给予归纳,将样本约简方法分为三大类别:聚类中心提取法、边界样 本提取法、冗余样本提取法。通过对这些方法的继承和发展,本文提出了一种新 的约简方法支持聚类区提取法,分析了这种方法的理论基础并给出了实现支 持聚类区提取的步骤。建立了基于s c a s v m 的说话人识别系统。 第五章介绍了说话人识别系统的实验环境以及基于支持向量机的说话人识 别系统的建立过程。基于s c a 方法和传统的算法进行实验和分析。一方面针对 线性可分样本进行测试,用实验来演示这些算法对样本边界的描述准确度。另一 方面针对线性不可分样本即语音样本进行测试,考察不同的约简方法在约简率和 识别率方面的性能。通过考察不同约简方法的约简率、识别率以及有效度,对 s c a 方法的扇出系数、聚类数目及接近度因子等相关参数进行整定。对经过参 数整定的基于s c a s v m 的说话人识别系统和基于s v m 的说话人识别系统进行 硕十学位论文第一章绪论 性能上的比较。将不同的说话人识别模型的识别率相比较,分析它们在性能上的 差异。 第六章对论文的主要工作进行总结,并且对本文未尽的研究作了进一步的 分析和展望。 9 硕十学位论文第二章说话人识别的特征参数提取 第二章说话人识别的特征参数提取 2 1 特征参数提取概述 特征参数提取是指从语音信号获得一组能够描述语音信号特征参数的过程。 此特征应能有效地区分不同的说话人,且对同一说话人的变化保持相对稳定。在 说话人识别中,说话人样本模型的训练和对说话人身份的识别都是基于所选取的 语音特征参数进行的1 2 0 】。 由于说话人的语音特征和说话人的个性特征总是交织在一起,目前还没有找 到将二者很好分离的方法。尽管如此,语音信号的特征参数仍从不同侧面反映出 说话人的个性,仍是说话人特征的重要来源。虽然人们在判断说话人时可以利用 一些高层特征,如说话人的习惯风格、情感状态、遣词造句的特点等,但到目f j i 为止没有好的方法将其定量化或找到它们与语音信号特征参数之i b j 的关系,故不 能在自动说话人识别中得到良好的应用效果【2 1 】。考虑到特征的可量化性、训练 样本的数量和系统性能的评价问题,目前的说话人识别系统主要依靠较低层次的 声学特征进行识别。要使系统得到很好的识别性能,特征参数要具备的特点是: 可分性强;稳定性好:易于提取;不易被模仿。满足上述特征的参数至今还没找 的,但是一些语音特征在语音信号处理领域确实有着非常重要的作用。研究表明, 基音周期、共振峰、语音谱、倒谱等特征是说话人识别中比较有效的特征参划2 引。 判断特征参数有效性的最直接的方法是在给定识别方法后,考察它对识别率 的影响。但这种方法受到识别方法的影响,使用不同识别方法的两参数不能通过 识别率来比较它们的有效性,因而采用f 比来直接衡量一种参数的有效性【l 】。f 比的基本思想是:对于某一维特征x ,若同一说话人的不同次发音,这一特征的 均值变化较小,而对于不同说话人的发音,这一特征的变化却较大,则较为适合 作为描述说话人的个性特征,因此可以定义,比为: 。 不同说话人特征各自的均值的方差 同一说话人各次特征的方差的均值 ,、 均值的方差( 全部说话人之间) pv 方差的均值( 同一说话人之内) 多年来,人们对于特征参数在说话人识别系统中的有效性进行了大量验证和 研究,得到许多有意义的结果,在这里我们进行一下归纳,说话人特征大体可归 为下述几类。 1 0 硕+ 学位论文第二章说话人识别的特征参数提取 ( 1 ) 线性预测系数及其派生参数 线性预测系数( l i n e a rp r e d i c t i o nc o e f f i c i e n t s ,l p c ) t m 是能够有效地表征语音 的全极点模型的参数。以线性预测导出的各种参数,如线性预测系数、自相关系 数、部分相关系数、反射系数、声道面积比函数、对数面积比、线谱对系数、线 性预测残差、l p c 倒谱系数及其组合等参数,作为识别特征,可以得到较好地效 果。其主要原因是线性预测与声道参数模型是相符合的。 ( 2 ) 基于发声机理的特征参数 语音的短时谱中包含有激励源和声道的特征,因而可以反映说话人生理上的 差别,而短时谱随时间的变化,又在一定程度上反映了说话人的发音习惯,因此 由语音短时谱导出的参数可以有效的用于说话人识别中。已经使用过的参数有功 率谱、共振峰及其变化轨迹等。谱包络参数语音信息通过滤波器组输出,以合适 的速率对滤波器输出抽样,并将它们作为说话人识别特征。 基音轮廓、共振峰频率带宽及其轨迹,这类特征是基于发声器官如声门、声 道和鼻腔的生理结构而提取的参数1 2 4 。基音较容易模仿,且不够稳定,一般与 其他参数组合后使用。 ( 3 ) 基于听觉感知特性的特征参数 为反映听觉特性,模拟人耳对声音频率感知的特性提出了多种参数,如美尔 倒谱系数,感知线性频率等。包括b a r k 频率倒谱系数,以及经过信道谱减或噪 声谱减的倒谱等,其中美尔倒谱系数( m e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t s m f c c ) 应用得最广【2 5 j 。 ( 4 ) 混合参数 为了提高系统的识别率,部分原因是对于究竟哪些参数是关键因素的把握不 够充分,相当多的系统采用了混合参数构成的特征向量【2 6 。如果组成特征向量 的各参数之间相关性不大,则会更有效一些,因为它们分别反映了语音信号的不 同特征。 人们对各种参数进行过比较,得到一些有意义的结果。将线性预测系数、自 相关函数、声道面积比系数、倒频谱等作为说话人的个性特征参数的比较结果表 明,倒频谱的性能最好,其次是l p c 系数,声道面积比系数最差。 2 2 特征参数提取的预处理 2 2 1 采样和量化 现实世界中的信号都为连续变化的模拟信号,而说话人识别系统的实现依靠 的是数字信号处理器或通用的c p u ,它们只能处理离散的数字信号,所以在提 硕士学位论文第二章说话人识别的特征参数提取 取特征参数之前,需要将模拟信号转变为数字信号t 2 7 1 。这个转变过程分为两个 阶段:采样和量化。根据采样定理,当采样频率大于信号的两倍带宽时采样过程 不会丢失信息,利用理想滤波器可从采样信号中不失真地重构原始信号波形。语 音信号是随时间而变的一维信号,它所占据的频率范围可达1 0 k h z ,但是对语音 清晰度和可懂度有明显影响的成分,最高频率约为5 7 k h z 。c c i t t ( 国际电报电 话咨询委员会) 提出的数字电话c l 7 1 1 建议,采样率为8 k h z ,只利用了3 4 k h z 以内的信号分量。照理说,这样的采样率对语音清晰度是有损害的,但受损失的 只有少数辅音,而语音信号本身的冗余度是比较大的,少数辅音清晰度下降并不 明显影响语句的可懂度,就像人们打电话时所体验到的那样。通常模拟电话带宽 就只有3 , - 4 k h z ,因此这一标准已为世界所公认。其他应用的带宽和采样率可以 取得高一些。采样后须将每个采样点进行量化,量化的位数越多精度则越高,一 般取8 位或1 6 位的数字量。以后各章语音信号都是以这种数字化的语音信号为 基础进行处理的。图2 1 所示为使用w i n d o wx p 系统集成的录音软件录制一段 w a v 格式的语音信号,该信号已经由模拟信号转变成为数字信号,采样频率为 8 0 0 0 h z ,量化位数为1 6 位。该段语音信号的时长为3 0 m s ,按采样频率计算为 2 4 0 个采样点,量化值为0 0 1 o 0 1 。 测 甚 嘲 图2 1 语音信号时域波形图 硕士学位论文第二章说话入识别的特征参数提取 2 2 2 预加重 因为语音发声过程中声带和嘴唇的效应,使得高频共振峰的振幅低于低频共 振峰的振幅,频率越高,谱值越d , - t 2 8 1 。当语音信号的频率提高两倍时,其功率 的幅度约下降6 d b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论