(生物医学工程专业论文)非线性动力学方法在声纹分析中的应用.pdf_第1页
(生物医学工程专业论文)非线性动力学方法在声纹分析中的应用.pdf_第2页
(生物医学工程专业论文)非线性动力学方法在声纹分析中的应用.pdf_第3页
(生物医学工程专业论文)非线性动力学方法在声纹分析中的应用.pdf_第4页
(生物医学工程专业论文)非线性动力学方法在声纹分析中的应用.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(生物医学工程专业论文)非线性动力学方法在声纹分析中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文 a b s t r a c t a l o n g w i t l lt h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g ya n dn e t w o r kc o m m u n i c a t i o n s i n f o r m a t i o n s e c u r i t y w h i c hb e c o m ean e wp r o b l e mo ft h ei n f o r m a t i o na g ei sc a r e d i n c r e a s i n g l yb yp e o p l e l i k ed a c t y l o g r a m ,s p e e c hc h a r a c t e rc a nb eu s e dt oi d e n t i f y d i f f e r e n t s p e a k e r s t o d a ys p e e c hr e c o g n i t i o nt e c h n o l o g yh a v e b e e no b t a i n e d g r e a t d e v e l o p m e n tb u ti t i sn o ti d e a ls t i l l t h em a i nr e a s o ni st h a ts p e e c hs i g n a li san o n l i n e a r t i m es e r i a la n dl a c k sau s e f u lt h e o r e t i ct o o lt oa n a l y z ei t i nr e c e n ty e a r s t h ec o n c e p to f c o m p l e x i t yp r o v o k e di n t e r e s t ;a n da p p l y i n gc o m p l e x i t yt on o n l i n e a rs y s t e ma n a l y s i sh a s b e e n m a k i n gg r a t i l y i n ga c h i e v e m e n t s u s u a l l yl i n e a rt e c h n i q u e ss u c ha ss p e c t r u ma n a l y s i sw e r eu s e dt oa n a l y z et h es p e e c h s i g n a l a st h e s et r a d i t i o n a ll i n e a rt e c h n i q u e sa r em e r e l ya p p l i c a b l et ot h es t e a d y , c o h e r e n t a n db a l a n c e dl i n e a rt i m es e r i e s ,t h e yg e n e r a l l yi g n o r e dt h em o s ti m p o r t a n ti n f o r m a t i o n , w h i c hc o n t a i n e dt h ee s s e n c eo ft h eu n s t e a d y , i n c o h e r e n ta n du n b a l a n c e dn o n l i n e a rt i m e s e r i e so f s p e e c h s ow et r yt oa n a l y z et h es p e e c hc h a r a c t e ru s i n gc o m p l e x i t y , w ef i n dt h e c o m p l e x i t yf o rs p e e c hc h a r a c t e r o fi n d i v i d u a lt e s t e ed i f f e r sw i t ho t h e r se v e ni ft e s t e e ss p e a k t h es a r o es e n t e n c e s w eh a v ea p p l i e dm a n y c o m p l e x i t ym e a s u r e sa n dt h e o r yo f s t a t i s t i c st oa n a l y z i n gm a n y s p e e c hs i g n a l h a da n a l y z e dt h e s ea l g o r i t h m s ,w eb r i n g f o r w a r dan e wc o m p l e x i t y m e a s u r e :p a r t i t i o n m e a s u r e c o m p l e x i t y t oo v e r c o m et h e d i s a d v a n t a g e o ft h o s eo l d e r m e t h o d s w eh a dt e s t e di t s a d v a n t a g et h r o u g ht h et e s t w ec o n c l u d et h a tt h i sa n a l y s i s m e t h o df o rt o n et e x t u r ec a nb ea p p l i e dt oa n a l y z es p e e c hc h a r a c t e ra n dt h i st e c h n i q u eh a s w i d e a p p l i c a t i o np r o s p e c t k e y w o r d s :n o n l i n e a r s y s t e m ,c o m p l e x i t ya l g o r i t h m s ,p a r t i t i o nm e g u r ec o m p l e x i t y , s p e e c ha n a l y s e s 第4 页共“页 浙江大学硕士学位论文 第一章非线性时间序列分析 1 1 时间序列简介 时间序列是指随着时间的推移而随机变动的数值记录。例如,气压、气温、及雨 量等气象记录;地震波的记录:股票记录及外汇汇率等经济现象的记录;脑电波及心 电图等医学数据:汽车、船舶及飞机的驾驶记录等等。时间序列可以分为线性时间序 列和非线性时间序列,能以线性模型加以表达的时间序列称为线性( 1 i n e a r ) 时间序 列,线性时间序列来源于线性系统,即这样一个系统:在该系统中初始状态的变化将 导致任何后继状态成比例的变化。与此相对,必须以非线性模型表达的时间序列称为 非线性( n o n l i n e a r ) 时间序列。对于平稳的线性系统,我们可以采用线性方法,例如, 相关函数分析,平均统计叠加分析,功率谱分析等等,这些构成了经典的时间序列分析 方法。 1 2 非线性时间序列分析 非线性科学的一个重要现象就是混沌,非线性科学的应用之一就是时间序列的分 析和处理。过去人们用传统的信号处理方法,虽然取得大量的研究成果,但还存在 大批难以解决的问题”,对于非线性时间序列,它的非规则性来源于系统的非线性, 它使原来邻近轨道在相空间的边界区域产生指数分离,要精确测量这些系统是不可能 的,必须用非线性科学的方法来研究,2 0 世纪6 0 年代初,人们利用“反散射”方法 求解一大类非线性方程”1 ,到了8 0 年代,反散射方法推广到量子问题,发现了可积 问题与统计物理中严格的可解模型的联系,6 0 年代初,还证明了关于弱不可积保守系 统的普遍性质的k a m 定理,同时,计算机技术特别是图形技术也应用于非线性科学的 研究,另外,标度变换下的不变性,分形几何学和重正化群技术也起着十分重要的作 用。目前研究非线性时间序列的非线性方法主要有:非线性重构、分维数、李雅普诺 第5 页麸6 4 页 浙江大学硕士学位论文 夫指数、复杂性等等,它们构成了另一类的时间序列分析方法。 1 3 非线性时间序列分析方法应用于声纹分析 随着信息技术和网络通信的发展,信息安全成为一个信息时代的新课题日益被人 们所关注,近年来,在生物识别技术领域中,声纹识别技术以其独特的方便性、经济 性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安 全验证方式。声纹识别属于生物识别技术的一种,是一项根据语音波形中反映说话人 生理和行为特征的语音参数,自动识别说话人身份的技术。对声纹识别的研究始于2 0 世纪3 0 年代,如今,声纹识别技术研究虽然取得了飞速的发展,但是声纹识别技术还 是不成熟,识别率不理想,归根结底实没有找到像指纹那样可靠的区别特征。声纹识 别中最根本的问题是如何从语音信号中提取出说话人的特征。特征提取是模型建立和 模型匹配的基础。目前的语音分析的研究报告较多地集中在将非特定人的语音转换为 文本文件或命令范围,对于特定人的语音特征提取的研究报告比较少。其原因,根据 我们的分析,常规的语音分析手段,往往采用分段线性的处理方法,如频谱分析,相 关分析,小波变换等”1 。线性方法对于平稳过程较为适合,采用这些线性的分析方法 来提取特征参量已经把某些语音信号的非线性和非平稳的特征已经丢失了,故不论在 特征提取之后的模型建立和模式匹配如何优化,对系统性能的改善都是徒劳的,不可 能有突破性的进展。理论研究与实验的结果,认为语音信号时间序列不是严格的线性 的和平稳的,故对语音适合以非线性的方法进行处理。 本文提出一种新的非线性特征提取的方法,将语音信号的复杂性特征作为说话人 识别特征,并进行的一些大胆的尝试,发现即使相同的一段话,不同受试者的语音特 征遽然不同,证明这个思路是正确的,复杂性计算是一种全新的非线性方法,完全不 同于现有的分析处理方法。我们认为将非线性的方法应用于说话人识别有可能在不久 的将来给这一领域带来革命性的进展。每个人所特有的语音可以作为鉴别身份的一种 重要手段。 本文以声纹为例,利用复杂性分析方法进行处理。首先介绍声纹识别技术。 第6 页共“页 浙江大学硕士学位论文 第二章声纹识别 与人类指纹一样,每一个人的讲话声音都有其不同的特征,这就是声纹。我们能 否把不同人的讲话特征分别开来,这就是声纹分析的主要任务。随着信息技术和网络 通信的发展,信息安全成为一个信息时代的新课题日益被人们所关注,每个人所特有 的语音可以作为鉴别身份的一种重要手段。因此我们可以说,随着信息时代的到来, 声纹分析也将越来越显得重要。近年来,在生物识别技术领域中,声纹识别技术以其 独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工 作中重要且普及的安全验证方式。 声纹识别属于生物识别技术的一种,是一项根据语音波形中反映说话人生理和行 为特征的语音参数,自动识别说话人身份的技术。与语音识别不同的是,声纹识别利 用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性; 而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共 性。 2 1 历史与现状 对声纹识别的研究始于2 0 世纪3 0 年代。早期的工作主要集中在人耳昕辨实验和 探讨听音识别的可能性方面。随着研究手段和工具的改进,研究工作逐渐脱离了单纯 的人耳听辨。b e l l 实验室的l _ g k e s t a 目视观察语谱图进行识别,提出了“声纹 ( v o i c e p r i n t ) ”的概念。之后,电子技术和计算机技术的发展,使通过机器自动识别 人的声音成为可能。b e l l 实验室的s p r u z a n s k y 提出了基于模式匹配和概率统计方 差分析的声纹识别方法,而引起信号处理领域许多学者的注意,形成了声纹识别研究 的一个高潮,其间的工作主要集中在各种识别参数的提取、选择和实验上,并将倒谱 和线性预测分析等方法应用于声纹识别。 7 0 年代末至今,声纹识别的研究重点转向对各种声学参数的线性或非线性处理以 及新的模式匹配方法上,如动态时间规整、主成分分析、隐马尔可夫模型、神经网络 箱7 页共6 4 页 浙江大学硕士学位论文 和多特征组合等技术。如今,声纹识别技术已逐渐走入实际应用,a t & t 应用声纹识别 技术研制出了智慧卡( s m a r tc a r d ) ,已应用于自动提款机。欧洲电信联盟在电信与金 融结合领域应用声纹识别技术,于1 9 9 8 年完成了c a v e ( c a l l e rv e r i f i c a t i o ni n b a n k i n ga n dt e l e c o m m u n i c a t i o n ) 计划,并于同年又启动了p i c a s s o ( p i o n e e r i n gc a l l a u t h e n t i c a t i o nf o rs e c u r es e r v i c eo p e r a t i o n ) 计划,在电信网上完成了声纹识别。 同时,m o t o r o l a 和v i s a 等公司成立了v - c o m m e r c e 联盟,希望实现电子交易的自助化, 其中通过声音确定人的身份是此项目的重要组成部分。其他的一些商用系统还包括: i t t 公司的s p e a k e r k e y 、k e y w a r e 公司的v o i c e g u a r d i a n 、t n e t i x 公司的s p e a k e z 等。 国内开展声纹识别研究比较早的机构有北京大学、中科院声学所、中科院自动 化所、清华大学等,并先后得到了国家自然科学基金重大和重点项目、攀登计划等基 金的支持,取得了丰硕的研究成果。 说话人识别系统的典型结构图 2 2 物理基础 醇i 跏 姑粜 语音是由发声器官运动产生的。发声器官包括喉、声道和嘴。气流通过喉中的 声门,引起声带的周期性振动,形成周期性的脉冲串并进入声道,周期性脉冲的 周期称为基音周期。气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射,其间 的传输通道称为声道。声道是具有某种谐振特性的腔体,当气流通过时,输出的 气流频率特性,即声门脉冲串的特性,取决于声道的特性。嘴的作用是完成气流 的向外辐射,嘴张开时的形状对语音频谱有影响,但较声道次之。 第8 页共6 4 页 浙江大学硕士学位论文 发声的器官和过程确定了语音中特定说话人信息的形式,其中声道的形状是最 重要的生理因素。另外,发声的习惯,包括发声速度、韵律和口音构成了语音中 特定说话人信息的后天行为因素。语音中的特定说话人信息构成了声纹识别的物 理基础。 2 3 技术原理 基于不同的应用环境,声纹识别分为说话人辨识和说话人确认。说话人辨识是指 识别说话人是否已经注册,是哪一个注册人;说话人确认是指识别说话人的身份与其 声明的是否一致。 用户在使用声纹识别系统时,需要向系统提供一段语音,根据发音材料,可分为 文本有关( t e x t d e p e n d e n t ) 和文本无关( t e x t i n d e p e n d e n t ) 两种。与文本有关的识别 系统要求用户按照规定的内容发音,并根据特定的发音内容建立精确的模型,从而达 到较好的识别效果,但系统需要用户配合,如果用户的发音与规定的内容不符合,则 无法正确识别该用户。而与文本无关的识别系统则不规定说话人的发音内容,因而要 建立精确的模型较为困难,识别效果较差。另外,与其他生物识别技术类似,若考虑 待识别的说话人是否在注册的说话人集合内,则说话人辨识分为开集( o p e n - s e t ) 辨识 和闭集( c l o s e - s e t ) 辨识,显而易见,闭集辨识的结果要好于开集辨识。但开集辨识与 实际情况更为一致。 无论是与文本有关还是无关,系统都面临一个共同的问题,即无法区分一个发音 是现场发音还是录音回放。但文本提示的说话人识别系统可以有效地防止这种情况发 生。具体实现时,可采用随机或其他方法来生成提示文本,如随机的数字串,以使假 冒者无法事先录音。 文本有关声纹识别系统的一种典型结构如图所示,它包括训练和识别两个阶段。 训练时,每个说话人重复一定次数的发音,然后检测并分析每次发声的语音段,以提 第9 页共6 4 页 浙江大学硕士学位论文 取特征,并利用动态时间规整技术,在时间上对齐特征序列且多次平均,形成每个说 话人的参考模板。识别时,对语音信号进行特征分析,然后计算与参考模板的距离, 选取其中的最小值作为结果输出。说话人确认系统则是计算待识特征与声明说话人模 板的距离,并与设定的闽值比较,若高于阈值则拒绝判决,低于阈值则接受判决。 声纹识别系统主要包括两部分,即特征检测和模式匹配。特征检测的任务是选取 唯一表现说话人身份的有效且稳定可靠的特征,模式匹配的任务是对训练和识别时的 特征模式做相似性匹配。 声纹识别系统中的特征检测即提取语音信号中表征人的基本特征,此特征应能有 效地区分不同的说话人,且对同一说话人的变化保持相对稳定。考虑到特征的可量化 性、训练样本的数量和系统性能的评价问题,目前的声纹识别系统主要依靠较低层次 的声学特征进行识别。 2 3 1 1 说话人特征大体可归为下述几类: 1 语音帧能量。 2 基音周期。现已证实,基音周期及其派生参数携带有较多的个人特征信息。 尤其是对汉语这种“有调”语种,一个字的基音周期的变化即声调,就是 一种重要的相当稳定的个人特征参数。 3 帧短时谱或b p f g ( 附听觉特征处理) 特征( 包括1 4 1 6 b p f ) 。许多情况下 采用滤波器组获得频谱信息。历史上,滤波器组曾是频谱信息的首要来源。 4 线性预测系数l p c 。如1 2 阶l p c 线性预测导出的各种参数目前是识别特征 的非常重要的来源。 5 共振峰频率及带宽。 6 鼻音联合特征。对于连续语音,由于发音时声道形状等随时间变动存在惯 第1 0 页共“页 浙江大学硕士学位论文 性,任一时刻的声道形状不但与该时刻所发的音素有关,也与邻近时刻的 音素有关。此现象称为发音的联合性现象。经实验分析得知,此联合性体 现在帧特征上随着讲话者的不同差异较大,因而可以利用它来区别说话人。 尤其对于鼻音此性质较为突出。 7 谱相关特征。短时谱中同频率谱线随时间的相关特征随说话人不同区别较 大。 8 相对发音速率特征。对于同一语音,对于不同说话人,发音过程中某些部 分的相对发音速率间的差异很大。 9 l p c ( 线性预测编码) 倒谱。如由1 2 阶l p c 用迭代法得到的1 2 阶l p c 倒谱。 对于高阶元的差别大,故应采用适当的加权。 1 0 音调轮廓特征。音调特征在讲话者识别中占有重要地位。不同讲话者的平 均音调特征往往差别不大,但是音调轮廓,即约在一个句子的时段内音调 随时间变化的曲线形状( 音调一时间函数) 的变化却非常明显。应用这一 特征的优点是它在传输( 如经过电话线传输) 及记录的过程中不产生失真。 1 1 通常讲话者的区别体现于不同的特征类型及特征向量的某些元,因而可以 使用很长的复合的特征向量( 如向量含3 7 元) ,其中包括各种有一定区别 效应的特征( 此类特征多用于讲话者确认) 。为了适当压缩特征向量的维数, 可对不同的“说话人群”对象,通过实验,根据所得的效果决定取用向量 中的一部分元组成的低维向量来作为特征;也就是以原特征空间的一些子 空间来作为现用的特征空间。 1 2 k l 特征。求某个特征向量的协方差阵,再求此阵的相似对角阵,以某 对单元( 即各特征值) 组成的向量为现用的特征向量。可以除去其中值较 小的元以压缩向量维数。可以看出,k l 特征为将其他特征加工后的二 次特征。 第l l 页共“页 浙江大学硕士学位论文 此外,人们还通过对不同特征参量的组合来提高实际系统的性能,当各组合参量 间相关性不大时,会有较好的效果,因为它们分别反映了语音信号的不同特征。 2 3 1 2 特征类型的优选准则 讲话者识别最根本的问题是如何从语音信号中提取讲话者的特征。与一般用语模 式识别的特征一样,这些特征应该具有区分性、稳定性和独立性。此外,还要求不易 模仿的性质及容易测量等。 特征参数的选择应较好的反映讲话者的个人特征:即要求对于同个人,这些特 征参数最好能集中在特征空间的某一区域,或者说方差很小;而对于不同的人则要求 方差很大。 特征类型的有效性可以用“f 比”来表征,它代表对某规定的语音而言不同说话 人的该语音特征的均值的方差与同一说话人各次语音该特征的方差的均值之比,即 一 不同说话人特征各自的均值的方差 ,= = - - - - - - - - - _ - - - - - - - - - _ - - - - - - - - - - - 。- - 。- - - - - 。- 一 同一说话人各次特征的方差的均值 ( 山,一万玲 喊 1 式中,( l i 指对说话人做平均,( ) 。指对某说话人各次的某语音特征做平均 i lj x a 为第i 个说话人的第d 次语音特征。 f= ( x 跣 是第i 个说话人的各次特征的估计均值,而 万= ( a ( 2 - 2 ) ( 2 3 ) 是将所有说话人的j 平均所得的均值。 在f 比定义的过程中假设差别分布是正台的,经证实这基本与事实相符。可以看 出,虽然,比不能直接得到误差概率,但显然,比越大则误差概率越小,故可以用来 表征特征类型的优劣。 第1 2 页共6 4 页 浙江大学硕士学位论文 目前针对各种特征而提出的模式匹配方法的研究越来越深入。这些方法大体可归 为下述几类: 概率统计方法 语音中说话人信息在短时内较为平稳,通过对稳态特征如基音、声门增益、低阶 反射系数的统计分析,可以利用均值、方差等统计量和概率密度函数进行分类判 决。其优点是不用对特征参量在时域上进行规整,比较适合文本无关的说话人识 别。 动态时间规整方法 说话人信息不仅有稳定因素( 发声器官的结构和发声习惯) ,而且有时变因素( 语 速、语调、重音和韵律) 。将识别模板与参考模板进行时间对比,按照某种距离 测定得出两模板间的相似程度。常用的方法是基于最近邻原则的动态时间规整 d t w 。 矢量量化方法 矢量量化最早是基于聚类分析的数据压缩编码技术。 e l m s 首次将其用于声纹 识别,把每个人的特定文本编成码本,识别时将测试文本按此码本进行编码, 以量化产生的失真度作为判决标准。b e l l 实验室的r o s e n b e r g 和s o o n g 用v q 进行了孤立数字文本的声纹识别研究。这种方法的识别精度较高,且判断速度 快。 隐马尔可夫模型方法 隐马尔可夫模型是一种基于转移概率和传输概率的随机模型,最早在c m u 和i b m 被用于语音识别。它把语音看成由可观察到的符号序列组成的随机过程,符号 序列则是发声系统状态序列的输出。在使用h 删识别时,为每个说话人建立发 第1 3 页共6 4 页 浙江大学硕士学位论文 声模型,通过训练得到状态转移概率矩阵和符号输出概率矩阵。识别时计算未 知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。h m m 不需要时间规整,可节约判决时的计算时间和存储量,在目前被广泛应用。缺 点是训练时计算量较大。 人工神经网络方法 人工神经网络在某种程度上模拟了生物的感知特性,它是一种分布式并行处理 结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以 及对不完全信息的鲁棒性,其性能近似理想的分类器。其缺点是训练时间长, 动态时间规整能力弱,网络规模随说话人数目增加时可能大到难以训练的程度。 把以上分类方法与不同特征进行有机组合可显著提高声纹识别的性能,如n t t 实 验室的t m a t s u i 和s f u r u i 使用倒谱、差分倒谱、基音和差分基音,采用v q 与h 混和的方法得到9 9 3 的说话人确认率。 对于说话人确认系统,表征其性能的最重要的两个参量是错误拒绝率和错误接受 率。前者是拒绝真实的说话人而造成的错误,后者是接受假冒者而造成的错误,二者 与阈值的设定相关。说话人确认系统的错误率与用户数目无关,而说话人辨认系统的 性能与用户数目有关,并随着用户数目的增加,系统的性能会不断下降。 总的说来,一个成功的说话人识别系统应该做到以下几点: 能够有效地区分不同的说话人,但又能在同一说话人语音发生变化时 保持相对的稳定,如感冒等情况。 不易被他人模仿或能够较好地解决被他人模仿问题。 在声学环境变化时能够保持一定的稳定性,即抗噪声性能要好 第1 4 页共“页 浙江大学硕士学位论文 2 4 声纹识别应用前景 与其他生物识别技术,诸如指纹识别、掌形识别、虹膜识别等相比较,声纹识别 除具有不会遗失和忘记、不需记忆、使用方便等优点外,还具有以下特性: 用户接受程度高,由于不涉及隐私问题,用户无任何心理障碍。 利用语音进行身份识别可能是最自然和最经济的方法之一。声音输入 设备造价低廉,甚至无费用( 电话) ,而其他生物识别技术的输入设备往往造 价昂贵。 在基于电信网络的身份识别应用中,如电话银行、电话炒股、电子购 物等,与其他生物识别技术相比,声纹识别更为擅长,得天独厚。 由于与其他生物识别技术相比,声纹识别具有更为简便、准确、经济及可扩展性 良好等众多优势,可广泛应用于安全验证、控制等各方砸,特别是基于电信网络的身 份识别。 比尔盖茨认为:“以人类生物特征( 指纹、语音、脸像等) 进行身份验证的生物 识别技术,在今后数年内将成为i t 产业最为重要的技术革命。” 在世界范围内,声纹识别技术正广泛应用于诸多领域。截止到去年初,声纹识别 产品的市场占有率为1 5 8 ,仅次于指纹识别和掌形识别。目前,我国市场尚属启动 阶段,其发展空间更为广阔,在金融、证券、社保、公安、军队及其他民用安全认证 等行业和部门有着广泛的需求。 1 用于银行、证券系统 随着电话银行、远程炒股等业务的不断增加,这些业务对用户所做的身份认 证只是采用密码方式,其安全性令人担忧。如果采用说话人确认技术并结合原来 的密码,可安全有效地实现用户身份的确认,这对用户来说并没有增加任何负担。 2 为网络安全出力 第1 5 页共6 4 页 浙江大学硕士学位论文 现在人们越来越多地依赖于口令和密码,随着不同场合的频繁应用其缺陷越 发明显。在声纹识别过程中,每次发音都由随机产生的提示文本来控制,可有效 地防止复制和剽窃,可以说,声纹识别技术与其他生物识别技术相比有着明显的 优势,可以为日益发展的电子购物、电子商务、国际贸易保驾护航,且操作方便、 简洁,很容易为广大计算机使用者接受。 3 为破案立功 对于各种电话勒索、绑架、电话人身攻击等案件,声纹识别技术可以在一段 录音中查找出嫌疑人,帮助对嫌疑人的查证。在美国,有关机构还利用这一技术 来判断监外执行人员是否在其寓所中。 4 在军队安全系统中的应用 声纹识别技术可以辨认出电话交谈过程中是否有关键说话人出现,继而对交 谈的内容进行处理。另外,在通过电话发出军事指令时,可以对发出命令的人的 身份进行确认 2 5 语音的非平稳、无序和非平衡性 时间序列可以分为平稳时间序列和非平稳时间序列。表面上看其变动似乎是无规 律的,但实质上去是受某种规律所制约的结果,称这种时间序列为平稳时间序列。如 果其均值是相对平稳的,但其围绕均值的变动方式是随时间而变化的,这种时间序列 为非平稳时间序列。 人讲话内容可以任意变化,因此其记录的声音波形也是随意变化的,其频谱也是 任意变化的,我们很难从中找到其规律。作为语音特征的声纹在语音中的出现不会在 整个过程中出现,也就说它是非平稳过程,因此,声音被采样后的时间序列也不是平稳 过程线性的时间序列其主要特征表现为稳定、平稳、有序、确定性和一致性,而非线 性时间序列则以不稳定、非平衡、无序、不确定性和非一致性为其特征,因此,据上 分析语音应该是非线性时间序列,非线性序列必须用非线性方法才能分析。 对于平稳的线性系统,可以采用线性方法来分析。例如,相关函数分析、平均统 第1 6 页共6 4 页 浙江大学硕士学位论文 计叠加分析、功率谱分析等,已取得重大的成果。这些线性分析方法,只适用于平稳 的、有序的、平衡的、一致的线性时间序列。而对于非平稳的、无序的、非平衡的、 不一致的非线性时间序列( 声纹、脑电) 则显得无能为力。以脑电为例,脑电变化无常, 表现为复杂的非线性时间序列。对脑电的研究,现在常用的方法如谱分析( 功率谱、 互谱、相干函数等) 、波形分析( 波形形态、过零次数、幅度直方图等) 、模型建立( 包 括a r 、a r m a 、卡尔曼滤波等) ,这些方法对脑电这样的非线性时间序列进行线性处理, 往往丢掉了许多蕴涵本质的重要信息。所以一直到现在,人们用线性的方法还不能从 脑电中有效的提取出有用的信息。 语音这样的非线性系统中,初始状态的变化,并不一定导致后继状态成比例的变 化,也就是说,必须用非线性的模型来表达这一类的时间序列。语音信号具有动态的 特性,它和讲话者所处的环境、情绪、健康状况都有密切的关系。每个人说同一句话, 甚至每个人重复同一旬话,在时间序列上都表现出确定性系统中内在的随机性,也就 是说语音时间序列是非平稳的、无序的、不一致的时间序列,表现出混沌行为。因此, 本文尝试用非线性动力学中的复杂性方法分析声纹。 2 6 存在问题和解决思路 星区z 髓埕蕴丛边蕴踢蕴望踅丛趣 ( 1 ) 声音是一个非线性时间序列,而现有的说话人识别技术都是从信号处理角度出 发来提取特征参数,如l p c 倒谱“、l p c 差分倒谱”、m e l 倒谱1 0 l s p 参数”、基 音周期“等是基于短时分析提出的,这些方法都属于线性范畴。而语音信号是一种典 型的非平稳信号,它的频谱特征性随时间而改变,短时分析法假定语音信号在一小段 时间内平稳,这样就人为地将语音信号分割成l o - 2 0 m s 的小帧来满足短时平稳的要求, 一旦确定分析窗后,短时分析不能够随着信号变化调整其时频分辨率,短时平稳的方 法仅对说话人的静态特征进行了描述,忽略了说话人的动态特征,而各种式样已经证 明,语音中的动态信息是说话人的重要特征之一”“。而非线性具有非平稳特征。 第1 7 页共6 4 页 浙江大学硕士学位论文 ( 2 ) 现有的说话人识别方法都受样本数量的限制,随着样本数的增加其分辨率会降 低,如l p c 倒谱,当说话人集合的参数增多时,识别率就会降低。 ( 3 ) 目前最常用的两种方法h 埘法和人工神经网络法,尽管各有其优势和潜力,但 也存在不足。删不能准确描述特征参数空间变化的轨迹,其区别能力差。而人工神 经网络虽然有很强的区分能力和处理统计数值的能力。但它具有在大类别学习中易产 生局部最优。而在小范围内效果较好的特性”。 ( 4 ) 很多说话人识别系统在实验室条件下测试达到了相当高的识别率,但在实际应 用中,由于环境条件的变化以及噪声等因素的影响,识别性能明显下降。其主要原因 就是系统的鲁棒性差“”。 墨丛星虚艺复爱鬯生爱:盎丘丝送! 鲎丛荔必 一直以来,人们都是用线性的方法对非线性的语音信号作线性的处理。这往往丢 失了许多蕴涵本质的重要信息,语音的重要性质在于它的非平稳,无序性,另外同样 频谱的信号可以是有规律的周期信号,也可以是很混乱的非周期信号,而周期信号的 复杂性为零,很乱的非周期信号其复杂性不为零,因此,复杂性算法至少多了一些信息, 而这正是频谱分析丢掉的东西因此可以说某种意义上,复杂性更能反映语音的特征。 所以本文主要是用非线性方法中的复杂性测度来分析非线性的语音信号,以提取 讲话者的个性特征。发现即使相同的一段话,不同受试者的语音特征遽然不同。这一 特征也就是所谓的声纹,可以象指纹一样,作为信息安全的一种手段应用于现代通信 系统中。 2 7 本课题的目的和任务 根据声纹信号的特性,本课题的主要任务是应用非线性动力学中的复杂性方法分 析声纹,进一步探索、拓宽和检验复杂性理论在实际应用中的领域和价值。具体任务 是: 复杂性方法理论基础的分析和研究: 第1 8 页共“页 浙江大学硕士学位论文 复杂性计算方法的改进; 声纹信号几种不同复杂性的计算 运用数学统计理论对不同状态下对照组中声纹复杂度进行分类判别,验证复 杂性方法的可行性; 第1 9 页共“页 浙江大学硕士学位论文 第三章非线性时间序列的复杂性分析 声道为一非线性系统,所产生的语音信号为典型的非线性时间序列。对语音信号 进行分析,所面对的就是如何更好的刻化非线性时间序列。 由第一章可知,定量描述混沌的参数有l y a p u n o v 指数、分维数、测度熵、及复杂 性测。l y a p u n o v 指数是衡量相邻轨道的收敛率和发散率的指标,描述了混沌系统对初 值敏感的程度,分维数给出了混沌自由度的信息,测度熵( 也称k s ) 是用以衡量信息 增长速度和信息流速率的。这一章我们将详细论述本课题中所研究的复杂性测度。 3 1 基本理论 这一节讨论一些下面所用到的基本理论 非线性时间序列的分析,首先要涉及到相空间重构。即对非线性时间序列,可从 时间序列建立嵌入空间,各种嵌入空间只要符合t a k e n s 【3 。定理,在数学上都是等价 的( 即微分同胚) 。为此,首先将一个动力系统所有可能的状态的集合看作一个空间, 则任一时刻系统的状态在这个空间中表示为一个点,这个空间就称为状态空间。系统 的状态随时间的演化在状态空间中描述为一条轨迹。所有的可能的初始状态的演化构 成了相流。它由非线性状态微分方程决定: s = f ( s )( 3 - 1 ) s 可看成状态变量,0 是非线性函数,则上式可写成: ( 3 2 ) 其中f ( ) 表示为状态空间到它自身的映射。将状态空间上所有的点作为上式的初 第2 0 页共“页 浙江大学硕士学位论文 值,并把它们放在一起形成f t s ,这就是项流。f t s 的维数就是s 的维数。一般来讲, 系统是所谓的耗散系统时,经过一定时间的演化,系统就会被压缩到一个低维集合中 ( 吸弓1 子) 。我们所感兴趣的就是存在于平滑流形m 上的这种吸引予,一般情况下,m 的维数小于状态空间的维数。在吸引子上,系统具有较小的维数,因而,只需要较小 的信息来说明。 所谓的“嵌入”就是说c 是一个平滑的、从流形m 到空间v 的映射,它的像c ( m ) c v 是v 上的一个平滑子流形,并且在m 和谚( m ) 之间是微分同胚,换言之,m 在v 中 嵌入就是把m 作为v 的子流形实现,在子流形之间给出微分同胚意味着可以建立起可 微等价关系。“。在欧氏空间嵌入存在理论由w h i t n e y 证明:一个( c 2 ) 的平滑d 维流 形,它是致密的和h a u s d o r f f 流形,可以嵌入到r 维欧氏空间中,这种理论是由p a r k a r d 和t a k e n s 提出的,是从时间序列的测量来重构相图的理论基础。 由此重构理论,t a k e n s 在1 9 8 0 年提出奇怪吸引子可由时间序列重构出来;它的 基本思想是:系统中的任一分量的演化都是由与之相互作用的其它分量所决定的。因 此,这些分量的信息就隐含在任一分量的发展过程中,为了重构一个“等价”的状态 空间,只需考察一个分量。并将它在某些固定的时间延迟点( 比如一秒前、两秒前等) 上的测量作为新维处理,即延迟值被看成是新的坐标。它们确定了某个多维状态空间 中的一点。重复这一过程并测量相对于不同时间的各延迟量,就可以产生出许多这样 的点。然后再运用其它方法来检验这些点是否存在于一个混沌吸引子上。虽然这种表 示方法在许多方面是任意的,但已证明,它可以将吸引子的许多性质保存下来。我们 可以用这种方法将运行在一个低维吸引子上的系统,通过选择一个适当的延时时间, 将时间序列嵌入到一个较高维的状态空间中,然后分析计算原系统的维数、熵等。 它的意义在于,只需要对一个状态变量进行测量就可以得到整个系统的定性性质。 对于无限阶系统或一个及多个状态变量不可直接测量的系统,重构是仅有的方法。 状态空间的重构完成以后,就要用重构后的状态空间来训练某些非线性函数,该 阶段实际上是非线性函数的逼近,它分为参数类型和非参数类型两类,这是非线性建 模和预测的关键。模型建立后,预测就是确定系统的发散率。它决定预测系统在多长 第2 l 页共“页 浙江大学硕士学位论文 时间内的预测精度是可以保证的。 根据上述思路,我们就可以从一维时间序列中,获得原动力系统的有关信息。它 构成了非线性动力学理论在信号处理中的应用框架。 考虑一维离散时间动力系统,从闭区间a 到自身的映射f : f :a _ a x - - 只( ) ( 3 - 3 ) x a 是系统的状态,rer 是系统的参数空间。动力系统在时间上离散而在状态 空间上连续。如果动力系统在空间上是连续的,如任一微分方程,可以有多种方法变 换到离散时间上。 我们可以用不同的分割来离散状态空间a ,如下所述: ( 1 ) 同质分割( h o m o g e n o u sp a r t i t i o n ) p ” p ”是关于勒贝格测度相等的分割。这种分割是基于空间的同质概念,其元素的大 小是相等的:4 :p ”= 答,n 8 是状态空间a 中的状态数。建立在这种分割上的 测度是上下文无关的,因而是普遍适用的。 ( 2 ) 生成分割( g e n e r a t i n gp a r t i t i o n ) p 6 p 6 边界的产生由系统的动态特性决定。在系统的整个演化过程中,元素( c e l l ) 之间的边界总是映射到自身。这意昧着任何生成分割都是马尔克夫分割,反之则不一 定成立。但是必须对每个系统都建立各自的分割模式。即需要了解动态系统的动态规 则,在这个意义上产生规则说明( s y s t e m - s p e c i f i c ) ,因此是上下文相关 ( c o n t e x t d e p e n d e n t ) 的,非普适的。 生成分割由系统的动态过程p 6 = 舻) 答生成。n 6 是a 中状态数。砰、孵、钙 的下标”表示生成分割的时间间隔数,又称为生成分割的细化指数( o r d e ro f r e f i n e m e n t ) ,一个生成分割可按照细化指数”产生无穷多的元素。 生成分割砰是马尔克夫分割: 第2 2 页共“页 浙江大学硕士学位论文 f ( 彳f ) i 彳夕 ) = f ( 4 f ) 3 彳夕 v j ,k = 1 ,2 ,n 6 表示元素之间的边界映射到它们自身:用生成分割构建的元素,在系统的动态演 变过程中保持不变。而在同质分割尸8 下,元素的边界对与动态过程不是恒定的。 3 2 复杂性测度 同信息论的奠基过程相比,复杂性的刻化已经走过更长的道路,却远远为臻完备, 如想更好的客观定义和度量复杂性目前仍是研究非线性科学所面对的问题。 考察图3 1 的三种图案。它说明了三种具有不同复杂度的模式。从直觉判断,( a ) 是完全有规则,有序的结构,因而是简单的。( c ) 图中的点完全是随机产生的,就也 不会觉得有多么复杂。( b ) 看起来是最复杂的,它是上述两种结构的混合。 图3 - 1 从上述三张图观察可以看出,在有序和无序之间的状态是最复杂的,用什么来衡 量图b 更接近图a ,或更接近图c ,这就是复杂性所要研究的东西。 目前,关于复杂性的定义和相应的复杂性有很多,总的讲复杂性可分为两类:一类 是从符号动力系统,自动胞元机理论出发的。另一类是衍生于统计物理学,反映了研 究对象的统计学特性,他们都与信息论中的熵及其相关的概念密切相连。 不论是哪一类的复杂性测度,可根据它是侧重于描述系统的结构,还是系统的动 态特性,有两种测度: ( 1 ) 结构测度( s t r u c t u r em e a s u r e ) 第2 3 页共6 4 页 浙江大学硕士学位论文 记为s ,当系统缺乏关于它的动态特性的信息时,采用这种度量方法。概率p ,表 示这种分割下每个区间( 状态) 中的点集的数学测度,例如,概率分布就是一种典型 的结构测度,r e n y i 维数和r e n y i 熵就是这个意义上的结构测度。 ( 2 ) 动态测度 记为d ,它有时表征有明确动态特性的系统。其理论基础是连续的时间间隔下元 素( 状态) 之间的转移概率只,通过时间的演变来考察系统的动态行为。实际上如 果不用转移概率分布,是得不到这种测度的。在这个意义上,复杂性的动态测度似乎 只与系统的结构组成有关,一些复杂性测度如互信息( m u t u a li n f o r m a t i o n ) ,信息增 益( i n f o r m a t i o ng a i n ) ,就是用转移概率来定义的,但它们可以转化为状态概率,因 此这样的测度可以考虑为结构测度。 由以上两种点集的分割和测度方法的四种组合,本文将目前的复杂性分为下面四 类。 s p h 基于同质分割的结构测度 当在通常的外部位置空间r n 中可直接地考察系统的结构特性时,用同质均匀分割。 如果一个点集与正在形成的动力系统无关,上述方法是恰当的,( 如在不知动力系统的 情况下给出一个点集分布) ,应用于小系统时,可以对空间的局部同质性作调整,使之 更加合理。 s p 6 基于生成分割的结构测度 当系统以相空间表示时,对于系统的动态特性用s p 测度是合适的,但是需要了解 产生此结构的动态特性。一旦掌握了动态系统,生成分割的上下文规则就能唯一地决 定系统地演变。与位置空间结构是具体的相反,相空间是抽象的结构,相空间坐标与 位置空间坐标在形式上,概率上均不同。 第2 4 页共“页 浙江大学硕士学位论文 d 基于同质分割的动态测度 这类测度利用时间t 反应系统特性,t 定义为变化率,如( 外部)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论