




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 说话人识别是指通过说话人的语音来自动识别说话人的身份,它在许多领域 内有良好的应用前景。本文通过分析说话人识别基本原理与系统结构,考察现有 的说话人识别技术,研究采用线性预澜倒谱系数和梅尔倒谱系数为特征参数,运 用矢量置化的说话人识别方法,建立说话人识别系统。为了有效地提高系统的识 别效果,主要做了以下工作: l 、针对传统双门限端点检测算法无法及时适应环境变化的缺点,提出了一种 基于自相关函数的端点检测算法,能有效地检测出无声段并将其从语音中去除。 2 、本文对基本的v q 识别算法进行了改进,提出了一种矢量量化识别方法, 即基于标准差的加权失真测度的矢量量化。它针对不同分布的各维参数对系统识 别性能的不同贡献,根据标准差计算权值,使识别率得到有效提高。 关键词:说话人识别特征参数端点检测矢量量化 a b s t r a c t s p e a k e tr e c 0 弘i 妇i s t h ep m c e 辐o f 粕t 鲫a t 蛔l l yr c c o g i l i z i n gw h oi ss p c 吐血go t h eb a s i so fi n d i v i d u a li n f o 】m a t i o ni n d u d ei ns p c e c hs i 驴a l s i th 龉w e na p p l i c a t i p r o s p e d si m 鼬yf i e l d s b ya n a l y z m gl h cg c n c f a :ip r i n c i p l c s 柚ds y s t e ms m 咖r eo f s p e a l 【c f 坤c o 鲥曲n 锄do 衄s i d e r a 血gs u b s i s 岫t t e c h o l o g yo fs p e a k e rr e c 0 霉i t i o n , l m e a rp r c d i c t i o n p s 仃u mc o e 自f i d c n l ( l p c c ) a n dm e lc e p s t m mc o e 衄d e n t ( m f c c ) 撇 a d o p t c da sc h 锄c t e 矗s t i cp 猢e t 哪,t h ev e c l o rq u 趾t i z a t i o n ( v q ) i su s c da ss p e a k c r r c c o 鲫i o nm e t h o dt os e tu ps p e a l 【e rr c 驴m o ns y s t e m t oi m p m v et h er e 驴i t i 帆 e f 托c t t h ct a s k sa r e 嗡c i ca sf 0 o w s : 1 a i ma tt h ed i s a d v 柚t a g eo ft r a d i t i 衄a ld o u b l e - g a i et l l r e s h o l dp o i n td c t e c t i o m e i h o dt h a tc 姐n o la d a p tt h ec h a n g eo fe n v i 删皿e n t ,ae x 仃e m ep o i n td e t e c t i o nm e t h o d b a s e do ns e 璩伽玎c i a t i 衄f i l n d i o ni sb m u g h tu p i t 啪d c t e c ta n dw i p eo 任t h cs i l e n t s e c t i o n sd f c c t i v e l y 劬ms p c e c h 2 。1 1 l i sa n i d eh 笛m o d i 6 e dt h es t 趾d a r dv e c t o rq u 卸t i z a t i o n ( v q ) m c i h o d 粕d p m p o s c daf e c o 班t i o nm c t h o dt l l a ti sw b i g h td i s t o n i o nm e a s u r ev qb a s e d 0 ns t a n d a r d d e v i 融l o n i tc a l c l l l a t e st h ew e i g h tv a l u e st h a tr e n e c tt l l c n t r j b u t i o no fd i 蠡f e r e n t d i m e n s i o np 跏c t e r s ,w h ic :h 伽p r o v et h er e g n i t j o ne 埔e c t k e y w o r d :s p e | l 时驴i h f 明t i l tp a 糟眦k 瑙 e 1 【t l 蜘畦p o i 砒d e t h o n v | 蛐 q u a n t i z a t i o n ( 、r q ) 创新性声明 y 8 5 8 8 9 7 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文 中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大 学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究 所做的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:日期2 竺! :! :强 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文 在解密后遵守此规定) 本学位论文属于保密在一年解密后适用本授权书。 本人签名: 导师签名:纽 日期堡! :! :型 醐垒:三:兰7 第一章绪论 ! 第一章绪论 说话人识别( s p e a l 【c rr e c 0 倒t i ,s r ) 属于生物识别技术的一种,是一项根 据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技 术【n 。说话人识别和语音识别的区别在于,它不注重包含在语音信号中的文字符号 以及语义内容信息,而是着眼于包含在语音信号中的个人特征,提取说话人的这 些个人信息特征,以达到识别说话人的目的。 1 1 说话人识别的研究历史及现状 早期对说话人识别的研究工作主要集中在入耳听辨实验和探讨听音识别的可 能性方面。随着研究手段和工具的改进,研究工作逐渐脱离了单纯的人耳听辨。 b c n 实验室的l gk 髂t a 在1 9 6 2 年研究了通过可见的语谱图( s p e c 廿。掣珊) 进行 人工说话人识别,并将语谱图称为声纹( i c c n t ) 【2 j ,意思是同指纹( 弛聊r i m ) 类似。1 9 6 6 年美国法院第一次采用此方法进行了取证。2 0 世纪6 0 至7 0 年代早期 的说话人研究中,几乎所有的工作都使用语音时频能量特征。之后,随着电子技 术和计算机技术的发展,使通过机器自动识别人的声音成为可能,b c l l 实验室的 s p n l z a n s k y 提出了基于模式匹配和概率统计方差分析的说话人识别方法,其间的 工作主要集中在各种识别参数的提取、选择和实验上,并将倒谱和线性预测分析 等方法应用于说话人识别。由于计算机技术的发展,从七十年代起开始了自动说 话人识鄹的研究。7 0 年代中期b s a t “3 】研究了l p c 系数、声道的冲激响应、自 相关系数、声道面积函数及倒谱系数等不同的特征参数在自动说话人识别系统中 的有效性。并指出倒谱系数是较为有效的语音特征。说话人识别的方法和技术在 近几十年来得到了更加迅速的发展。识别的模型从单模板模型发展到多模板模型, 从模板模型发展到v q 模型、高斯混合模型、隐马尔可夫模型,再到人工神经网 络;识别环境从无噪声环境下对少数说话人的识别发展到复杂噪声环境下对大量 说话人的识另l j :所采用的识别技术从仅涉及动态规划发展到涉及统计信号处理、 矢量量化与编码、模糊系统理论与方法、最优估计理论、人工神经网络、灰色系 统分析等多学科领域。 从2 0 世纪6 0 年代到现在的4 0 多年间,随着数字滤波、快速傅立叶变换、线 性预测编码、同态信号处理、矢量量化等算法的不断出现和完善,加之微电子技 术的发展和计算机的普及,使说话人识别的研究取得了很大的进展。在商业领域, 衄t 应用说话人识另技术研制出了智慧卡( s m a nc a r d ) ,己应用于自动提款机。 欧洲电信联盟在电信与金融结合领域应用说话人识别技术,于1 9 9 8 年完成了 基于矢量量化的说话人识别技术研究 c 撼,e 计划,并于同年又启动了p i c a s s o 计划,在电信网上完成了说话人识别。 同时,m o t o r 0 1 a 和v i s a 等公司成立了v - c o m m e r c c 联盟,希望实现电子交易的自助 化,其中通过声音确定人的身份是此项目的重要组成部分f 5 1 。其他一些商用系统还 包括:i t t 公司的s p e a k c r k e ”k e ) w 甜c 公司的i o c g u a r d i a n 、t _ n 】玎1 ) ( 公司的 s p c a k e z 等。 国内的说话人识别研究主要由一些大学和研究所在进行。例如:北京大学迟 惠生教授领导的科研组、清华大学吴文虎教授领导的科研组、东南大学陈永斌教 授领导的科研组、中科院自动化所、中科院声学所、哈尔滨工业大学高文教授领 导的科研组等。 1 2 说话人识别的应用前景 说话人识别可以用于说话人身份未知,而说话人的身份问题又很重要的场合。 用语音来鉴别说话人的身份有着许多独特的优点,如语音是人的固有特征,不会 丢失或遗忘;语音信号的采集方便,系统设备成本低;另外利用电话网络还可以 实现远程客户服务等。 通过说话人识别技术,可以利用认本身的生物特性进行身份鉴别,例如为公 安部门进行语音验证,为一般用户提供防盗门开启功能等。在互联网应用及通信 领域,说话人识别技术可以应用于诸如语音拨号、电话银行、电话购物、数据库 访问、信息服务、语音e - m a i l 、安全控制、计算机远程登陆等领域。在呼叫中心 应用上,说话人识别技术同样可以提供更加个性化的人机交互界面。当顾客以电 话方式对呼叫中心进行请求时,系统能够根据话音判断出顾客的身份,从而提供 更个性化、更贴心的服务。另外,在军事领域,可以用于战场上的侦听,以辨认 出敌方的指挥员。在医疗领域,可以用于患者的确认等等。 虽然以上罗列并不完全,但却绘出了说话人识别的基本应用类型和一些典型 应用。由于与其他生物识别技术相比,说话人识别具有更为简便、准确、经济及 可扩展性良好等众多优势,故其具有广泛的应用前景。 1 3 说话人识别技术的难点 尽管目前说话人识别技术已经取得了相当大的进展,在实验室条件下获得了 良好的识别效果,但将说话人识别技术大规模地应用到实际生活中仍有很长的一 段路要走。这主要是因为实验室条件和实际条件的差异很大。方面,实验室条 件较少考虑到噪声的问题,而在实际应用中,噪声是不可避免的,尤其在一些特 殊应用中,如犯罪现场录制到的犯罪嫌疑人的声音不可能很清晰;又如h t c m e t 信 第一章绪论 息服务中,声音在通过通讯线路的传播时不可避免的会引入噪声。另一方面,实 验室使用到酊说话人集合往往是比较小的,而在实际应用中说话人集合可能非常 大,当说话人集合扩大时,不论是系统效率,还是识别率往往会急剧降低。具体 说来,说话人识别的难点包括以下几个方面: ( 1 ) 语音信号中既包含了说话人所说的内容信息,也包含了说话人的个性信 息,因此它是语音信息和说话人个性信息的混合体,而目前还不能将这两者完全 分离开来。 ( 2 ) 说话人的声音常常与环境、情绪、健康状况等有密切关系,具有长时变 动特性,会随着时间和年龄的变化而变化。 ( 3 ) 说话人的声音往往是可以模仿的,而且使用高精度的数字录音机可以窃 取他人的声音,从而降低了声音在身份验证方面的可靠性。 ( 4 ) 声音通过通讯线路传输时,不可避免地引入线路噪声,而且不同的通讯 线路所引入的噪声情况可能是不同的。 1 4 本论文的主要工作和内容安排 说话人识别系统的两个关键部分是特征提取和模式匹配。本文在前人研究的 基础上,针对这两部分的关键技术进行了探讨。在语音信号特征提取方面,分析 了当前最常用的两种特征参数:线性预测倒谱系数( l p c c ) 和m e l 频率倒谱系数 ( m f c c ) 。在模式匹配方面,选用目前已经成熟的矢量量化技术,选用u ;g 算法 进行码书设计,提出了一种新的失真测度:基于标准差的加权欧氏距离失真测度, 并通过m a n a b 进行仿真。实验证明,此失真测度能有效地提高识别系统的识别 率。 本论文主要分六章: 第1 章绪论。主要介绍了说话人识别的研究历史及现状、说话人识别的应 用前景、技术难点和本论文的主要工作及内容安排。 第2 章说话人识别技术概述。主要对说话人识别的基本原理、说话人识别 的分类、说话人识别的特征参数、识别方法和说话人识别系统的性能评价作了简 单介绍。 第3 章语音信号分析与预处理。主要介绍了说话人语音产生的机理、语音 信号的数学模型、预加重处理、短时特征参数及语音的端点检测。 第4 章语音特征参数提取。主要介绍了特征参数提取的基本过程,理论分 析了线性预测系数( l p c ) 、线性预测倒谱系数( c c ) 和m e l 频率倒谱系数 ( m f c c ) 。 第5 章矢量量化技术。介绍了矢最量化的基本原理、失真测度、识别模型 3 4 基于矢量量化盼说话入识别技术研究 和l b g 算法, 第6 章说话人识别系统的实现。针对传统双门限端点检测算法存在的缺点, 提出了一种基于自相关函数的端点检测算法。通过研究参数的分布情况,实现了 基于标准差的加权欧氏距离失真测度。还介绍了系统算法的实现,对比传统v q 和基于标准差的加权失真测度v q 的实验数据,得出了实验结果及分析。 整三童塑至望型垫查塑堕 一一 一! 第二章说话人识别技术概述 说话人识别是从说话人发出的语音信号中自动提取说话人信息,并对说话人 进行识别的研究领域。从信源角度看,说话人生理上的发音器官、说话时的心里 和情感等,都对说话人说话时的语言及其发音产生影响,因此这一领域涉及声学、 心理学、生理学、语言学等学科;从信号表述、自动信息提取和说话人识别的角 度,它涉及到数字信号处理、模式识别和大规模集成电路等学科和研究领域。因 此,说话人识别是跨学科的综合性应用研究领域。 2 1 说话人识别的基本原理 说话人识别系统一般由预处理、特征提取、建立模型、模式匹配、判决等部 分组成,其系统组成框图如图2 1 所示。 图2 1 说话人识别系统框图【2 要实现说话人识别,应解决如下基本问题: ( 1 ) 语音信号的预处理和特征提取 特征提取就是提取能够有效表征说话人特征的参数。实际上现在采用的特征 都是从语音信号模型中得到的,这些特征既包含了说话人的语音特征,又包含说 话人的个性特征,互相交织在一起,以复杂的形式存在于语音参数中,目前还没 有建立起准确分离和提取这两种特征的技术。 ( 2 ) 说话人模型的建立和模型参数的训练 模型的建立包括模型结构的表示或参数估计算法。模型训练要求系统能够识 别说话人,需要首先用说话人的语音对系统进行训练,并且在识别系统建立和识 别系统扩展时,都需要对模板进行训练。 ( 3 ) 模式匹配 模式匹配的目的也就是进行识别,包括矢量量化,模板匹配法,隐马尔可夫 模型,高斯混合马尔可夫模型,人工神经网络方法等。 ( 4 ) 判决策略 根据匹配结果判决说话人是否是所声称的说话人,即说话人确认,或说话人 到底是谁,即说话人辨认。 基于矢量量化的说话人识别技术研究 ( 5 ) 自适应部分 考虑人的状况不断变化,为提高系统适应说话人特征的长时间变动情况,有 些系统设有这一部分,从而能够根据说话人识别的结果得到正确识别的说话人的 模型参数进行实时修正。 2 2 说话人识别的分类 根据说话人识别是通过对说话人语音信号的分析和提取,确定说话人是否在 所登记的说话人的集合中,以及说话的人是谁的过程,可以将说话人识别分为说 话人辨认和说话入确认。图2 2 是说话人辨认和说话人确认的图示。 ( 1 ) 说话人辨认( s p e a l 【e fi d 衄衄c a t i 加) 说话人辨认是把待测的说话人的语音判定为属于多个参考说话人之中的某一 个,是多选一的问题。在这种应用中,通常不要求使用人提供个人姓名或个人编 号,系统把说话人的信号特征与计算机中预留下的众多人员的特征相比较,从而 确定是谁的说话。 ( 2 ) 说话人确认( s p c a k e r 、,c i 谲t i o n ) 说话人确认是根据待测说话人的语音,确定是否与所声称的参考说话人相符, 这种确认只有两种情况,即得到确认或拒绝承认。在这种应用中,通常要求使用 人提供个人姓名或编号,系统验证说话人与声言人是否为同一人。这时系统把说 话人信号特征与计算机中预留下的声言为某人的特征相比较从而做出判别,是接 受还是拒绝。 是 a t 的 讲 话 ? 记录讲话者 ( a ) 辨认( ”确认 图2 2 说话人辨认和说话人确认嘲 用户在使用说话人识别系统时,需要向系统提供一段语音,根据发音材料, 可分为与文本有关和与文本无关两种。 ( 1 ) 文本有关( t 既t d e n d 锄t ) 与文本有关的识别系统要求用户按照规定的内容发音,并根据特定的发音内 容建立精确的模型,从而达到较好的识别效果,但系统需要用户配合,如果用户 的发音与规定的内容不符合,则无法正确识别该用户。 第二章说话人识别技术概述 ( 2 ) 文本无关( t c x t i 1 1 d e p e n d e n t ) 与文本无关的识别系统则不规定说话人的发音内容,因而要建立精确的模型 较为困难,识别效果较差。另外,与其他生物识别技术类似,若考虑待识别的说 话人是否在注册的说话人集合内,则说话人识别分为开集( 叩e n s e t ) 识别和闭集 ( d o s e s e t ) 识别,显而易见,闭集识别的结果要好于开集识别,但开集识别与实 际情况更为一致。 2 3 说话人识别的特征参数 入和计算机能够根据语音信号将说话人识别出来,是因为语音信号中包含了 与说话人有关的信息。首先,语音信号中包含了与说话人有关的一些高级信息 ( 1 i g h 1 c v e lh i f o 帅a t i o ) 。如方言、遣词用旬的特点、说话的习惯风格等。这些高 级信息是人类区分不同说话人的主要依据,也是说话人识别系统最理想的特征参 数。除了上述高级信息外,还有一些低级信息( l o w 1 c v e lh f o m a t i o n ) 。不同人的 发声器官的生理结构有所差别,在不同的环境中成长的人即使发同一个音时发声 器官的动作也不尽相同。这种能够表征说话人的信息,是通过共振峰频率及带宽、 平均基频、频谱基本形状等这些物理可测量的参数特征表现出来的。从语音信号 中提取出的特征参数应满足以下准则:对局外变量( 例如,说话人的健康状况、 情绪、系统的传输特性) 不敏感:能够长期的保持稳定;可以经常表现出来;易 于对之进行溅量;与葵它特征不相关。但是,同时满足以上的特征通常不易找到, 一般要采取一些折衷措施。 按照参数的稳定性,说话人特征参数可大致分为两类:一类是说话人生理决 定的固有特性( 例如,声道构造的个性差异等) ,主要表现在语音的频率结构上, 代表性的特征参数有基音和共振峰。这类特征不易模仿,但容易受健康的影响。 另一类是声道运动的动态特钲,也就是发音方式、发音习惯等。主要表现在语音 频率结构的时间变化上,包含了特征参数的动态特征,这类特性相对稳定却比较 容易模仿。代表性的特征参数是倒谱和基音的线性回归系数倒谱和基音参数。 在说话人识别系统中经常用到的特征参数有线性预测系数或其派生参数、由 语音频谱直接导出的参数、其他鲁棒性参数、混合参数。 ( 1 ) 线性预测系数或其派生参数 线性预测系数是能够有效地表征语音的全极点模型参数。由它推演出的多种 参数,例如部分相关系数、声道面积比函数、线谱对系数以及l p c 倒谱系数等, 都是可以应用的。 ( 2 ) 由语音频谱直接导出的参数 语音短时谱中包含有激威源和声道的特性,因而可以反映说话人生理上的差 7 8 基于矢量量化的说话人识别技术研究 别。而短时谱随时间变化,又在一定程度上反映了说话人的发音习惯,因此,由 语音短时谱中导出的参数可以有效地用于说话人识别中。已经使用过的参数包括 功率谱、基音轮廓、共振峰及其带宽、语音强调及其变化等。 ( 3 ) 其他鲁棒性参数 包括m e l 频率倒谱系数,以及经过信道谱减或噪声谱减的去噪倒谱系数等。 ( 4 ) 混合参数 为了提高系统的识别率,许多系统采用了混合参数构成的矢量。如果组成矢 量的各参数之间的相关性不大,则会更有效一些,因为它们分别反映了语音信号 中不同的特征。 2 4 说话人识别的方法 随着计算机和数字信号处理、人工智能等不断地发展,人们尝试了多种说话 人识别方法,使说话入识别率逐步提高。说话人模型已从单一地模板模型向矢量 量化( v q v c c t 讲q u 卸l i 髓t i ) 模型、高斯混合模型( g m m g 种s s i 姐m i x t 呲 m 0 d e l ) 、隐马尔可夫模型( h m m 礤d d 蛐m a 斑o vm 0 d c i ) 、人工种经网络( n n n c u r a l n e l 、o r k ) 模型以及它们的混合模型多方向发展,对说话人个性特征的描述也越来 越精细和完善。说话人识别的主要方法可以分为三类:非参数模型方法、参数模 型方法和人工神经网络方法。 ( 1 ) 非参数模型方法 非参数模型方法包括两种方法,即基于模板匹配方法和基于矢量量化方法。 基于模板的说话人识别方法是为每个说话人所发的每一个字音建立这个语音 特征序列的模板。识别时待测音特征序列与每个说话人的每个字音的模板进行比 较和匹配。 基于矢量量化的说话人识别方法是由于每个说话人的语音特征序列在特征空 间中都形成了它特定的特征聚类中心,在矢量量化中称这些聚类中心为说话人的 码本,所以用这些聚类中心作为说话人个性特征的描述模型,识别时求出待测音 特征与每个说话人特征聚类中心的距离。以最小距离作为识别出说话人的准则。 ( 2 ) 参数模型方法 参数模型方法包括基于高斯混合模型和隐马尔可夫模型两种方法。 基于高斯混合模型的说话人识别方法是鉴于每个说话人的语音特征序列在特 征空间中都形成了特定的分布,可以用这一分布来描述说话人的个性。高斯混合 模型使用多个高斯分布的线性组合近似说话人的特征分布,识别时将最能够产生 待测音特征的说话人分布模型对应的说话人作为识别结果。 基于隐马尔可夫模型的说话人识别方法是考虑每个说话人的语音特征都是随 篁三童递重望型堇查塑堕 一 ! 着时间的变化而变化的,如果将这种特征的变化过程用状态间的转移来描述,这 构成了说话人的隐马尔可夫模型。 ( 3 ) 基于人工神经网络( a n n ) 的说话人识别 人工神经网络模仿人脑的信息处理机制,把大量结构非常简单的计算单元互 相连接起来,实现高度并行和分散的信息处理,适合说话人识别这类与人的感知 有关的信息处理问题。用人工神经网络进行说话人识别有三种基本结构:为说话 人集合中的每一说话人建立一个人工神经网络,以将这一说话人与其他说话人区 分开;用一个人工神经网络实现对说话人的分类:为每一对说话人建立一个神经 网络,以将每一对说话人区分开。 2 5说话人识别系统的性能评价 评价个说话人识别系统的识别性能有多种指标,其中最主要的指标是识别 结果的正确性,丽这个指标对于说话人辨认和说话人确认系统又有所差别。对于 说话人辨认来说,识别的结果只可能是正确或错误两种,并且正确识别的概率与 错误识别的概率之和为1 ,因此,可简单地用正确识别的概率( 常称为识别率) 或 者错误识别的概率( 常称为错误率) 作为评价识别系统性能的指标。 对于说话人确认系统的评价则稍微复杂一些。说话人确认有四种可能的组合 f 埘。当未知语音确实是本人语音时,状态定义为s ,当未知语音为非本人语音时, 状态定义为n 。若对上述两种状态接受时定义为s ,若不接受而拒绝时定义为n , 则四种可能的组合为p ( s ,s ) 、联s 纽) 、p c n 压 、p ( n 细) 。其中p ( s s ) 表示正确接受的 概率;p ( s n ) 表示错误接受的概率,称为错误接受率,即是将冒名顶替者作为真正 的说话人加以接受,用e 久表示( f 司s c a c c c p t a n c e ) 。p ( n 抬) 表示错误拒绝的概率, 称为错误拒绝率,即是将真正的说话人当成冒名顶替者加以拒绝,用f r 表示( f a l s e r c i c c t i o n ) 。这肘因为存在如下关系: 篙;暑:嚣:端 c p ( s ,耳) + p ( n ) 。1 。一 因此,只采用p ( s ,s ) 和p ( s n ) ,就可以评价一个说话人确认系统。说话人确认 系统最重要的两个性能指标是错误拒绝率和错误接受率,判决门限和两种错误概 率的关系如图2 3 所示。 门限的选取不是使两种错误概率都小,而是使一个小了另一个就会变大( 如a , b 点) 。门限的选取应根据具体的应用情况而确定。比如在非常机密场所控制下, 应该使e a 尽量低以免非法进入者造成严重后果。在大量使用者访问公共数据库的 情况下,太高的错误拒绝率会g l 起用户的不满,而错误的接受不至于引起严重的 后果,这时可以将e a 定得较高一些。而在图2 _ 3 中得c 点,两种错误概率相等, 1 0 基于矢量量化的说话人识别技术研究 这时的性能完全可由两个氆误概率中的任意一个来确定,所以等错误概率也可以 作为评价说话人确认系统的指标。 判决门限 图2 3 说话人确认的判决门限和错误率的关系【1 3 j 说话人辨认系统和说话人确认系统的不同之处还在于识别率和用户数的关 系,图2 4 表明了两种系统的误识率与用户数的关系。 l o 录5 i - 鬟o 5 n 2 2 5l o,o1 0 0 使用人数 图2 4 说话人辨认、确认系统性能与用户数的关系1 ” 从图2 4 中可以看出,说话人确认系统的差错率基本不随用户数的变化,因为 它的判别是选择与声明身份的匹配得分来决定的。说话人辨认系统的误识率随着 用户数的增加而增加,这相当于在有限的概率空间中区分多个点,显然点数越多 越难分离【瑚。因此,在评价说话人辨认系统时,必须充分考虑说话人数目对错误 率的影响。 第三章语音信号分析与预处理 第三章语音信号分析与预处理 了解语音信号产生的机理、获取语音信号,分析研究语音信号的数字模型及 其特性,才能进行语音信号处理,即预处理和特征提取等工作。语音信号预处理 一般包括预加重、加窗和分帧等。当然,在分析处理之前必须把要分析的语音信 号部分从输入信号中找出来,这项工作叫语音信号的端点检测。 3 1 语音产生的机理 人类的发声过程是由于肺部的收缩,压迫气流由支气管经过声门和声道引起 音频振荡而产生的。发音过程中声道各处的截面积取决于舌、唇、颌以及小舌的 位置。声道截面积随纵向位置而变的函数,称为声道面积函数,声道的共振峰特 性主要决定子声道截面积函数,它决定所发声音的频谱特性,即音色。 人类发音过程有三类不同的激励方式,因而能产生三类不同的声音:浊音、 清音和爆破音。当气流通过声门时,声带的张力刚好使声带发生较低频率的张驰 振荡,形成准周期性的空气脉冲,这些空气脉冲激励声道便产生浊音。这些周期 脉冲的周期称作基音周期,其倒数称为基音频率。如果声道某处面积很小,气流 高速冲过此处时产生湍流,当气流速度与横截面积之比大于某个门限时便产生摩 擦音,即清音。如果声道某处完全闭合建立起气压,然后突然释放而产生的声音 就是爆破音。声道是一个谐振腔,气流激励声道发生共振产生语音信号。声道发 生共振的不同的谐振频率称为共振峰频率,简称共振峰,它是声道的重要声学特 性。 通过对大量语音信号的观察和分析发现,语音信号主要有下面两个特点:在 频域内,语音信号的频谱分量主要集中在3 0 睢3 4 0 0 k 的范围内;在时域内,语音 信号具有“短时性”的特点,即在总体上,语音信号的特征是随着时间而变化的, 但在一段较短的时间间隔内,语音信号保持平稳。在浊音段表示出周期性信号的 特征,在清音段表现出随机噪声的特征。 3 2 语音信号的数学模型 完整的语音信号的数学模型可以用三个子模型:激励模型、声道模型和辐射 模型的串联来表示- 语音信号产生模型如图3 1 所示。它的传输函数h ( z ) 可表示为: h ( z ) 一u 扛) 矿( z ) a ( z ) ( 3 1 ) 基于矢量量化的说话人识别技术研究 语音 图3 1 语音信号产生的离散时域模型【2 】 这里,u 是激励信号。发浊音时,由于声带不断张开和关闭,将产生间歇的 脉冲波。此时的激励信号是一个以基音周期为周期的斜三角脉冲串,可看作加权 的单位脉冲串激励单个斜三角脉冲的结果,浊音激励模型可表示为: u 。) - g 。) 。e ( 力- i 争石南( 3 - 2 ) 式中,c 为常数,t 为基音周期,e ( z ) 为单位脉冲串的z 变换形式。 发清音时,无论是发阻塞音或摩擦音,声道都被阻碍形成湍流。所以,可以 把清音激励模拟成随机自噪声。实际情况一般使用均值为0 的、方差为1 的,并 在时间或幅度上为随机分布的序列。 v ( z ) 是声道传输函数,既可用声管模型,也可用共振峰模型等来描述。实际上 就是全极点模型: 矿( z ) - 1 产一 ( 3 - 3 ) 1 一? 口4 舟 辐射模型r ( z ) 是一阶类高通滤波器的形式: r 0 ) - 且o ( 1 一z 1 ) ( 3 - 4 ) 3 3 语音信号的预加重处理 在语音信号模型中,如果不考虑冲激脉冲串模型e ( z ) ,则斜三角波模型是二 阶低通,而辐射模型是一阶高通,所以实黼;信号分析中常采用“预加重技术”。即 在对信号取样之后,插入一个一阶的高通滤波器,这样,就只剩下声道部分,便 于对声道参数进行分析。在语音合成时再进行“去加重”处理就可以恢复原来的 语音。常用的预加重因子为1 一【r ( 1 ) 矧:0 ) 】z ,其中r ( n ) 是语音信号的自相关函 数。 由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,它在大约8 0 0 比 以上的高频端按6 d b 倍频程跌落,为此要在预处理中进行预加重。预加重的目的 第三章语音信号分析与预处理 是提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。 预加重可在a d 变换前的反混叠滤波之前进行,这样不仅能够进行预加重,而且 可以压缩信号的动态范围,有效地提高信噪比。同时,预加重也可在a d 变换后 进行,用具有6 d b 倍频程的提升高频特性的预加重数字滤波器实现,它一般是一 阶的日0 ) - 1 一膨一,式中,芦值接近于1 。加重后的信号在分析处理后,需要进 行去加重处理,即加上6 d b f 爵频程的下降的频率特性来还原成原来的特性。 3 4 语音信号的短时特征参数 人的语音基本上由两类构成。一类是浊音,如汉语中的韵母【a 】、【i 】、【u 】;一 类是清音,如汉语中的声母【s 】、【b 】、f q 、【s h 】。浊音的语音信号具有较强的周期性, 称为基音周期,其倒数称作基音频率,它主要和声带的特征有关。一般来说,成 年男性的语音的基音频率在6 0 h z 2 0 0 h z ,而成年女性和儿童语音的基音频率在 2 0 0 h z 4 5 0 h z 。基音频率是语音信号的一个重要参数。清音的语音信号具有随机 噪声的特点,一般来说清音的幅度小于浊音的幅度。 由于人在说话中,清音与浊音交替出现,并且每种音通常只延续很短的一段 时间,因此,从波形上语音信号表现出很强的“时变特性”。语音信号特征只在较 短的时间间隔中保持基本不变。“短时性”是语音的重要特性,所以对语音要进行 短时分析,将语音信号分为一段一段来分析,其中每一段称一“帧”。语音信号通 常在1 0 3 0 m s 之内是保持相对平稳的,因此帧长一般取为1 0 3 0 m s 。 常用的窗函数有两种( 其中n 为帧长) : 矩腧嘶) - 仨。善 ( 3 - 5 ) 汉嗨砸) | 嚣4 一紫驯 瑚0 绷州。( 3 - 6 ) 在时域分析时,经常使用方窗。但在频域分析时,由于使用方窗时窗外数据 为0 ,窗内数据突起,在窗边界处信号不连续,计算出的参数会不够准确;若用汉 明窗,在窗边出信号平滑地衰减,没有使用方窗时的不连续现象。因此,在频域 分析时经常使用汉明窗。 3 4 1 短时能量和短时平均幅度 语音信号的能量分析是基于语音信号能量随时间有相当大的变化,特别是清 音段的能量一般比浊音段的小得多。能量分析包括能量和幅度两个方面。 1 4 基于矢量量化的说话入识掰技术研究 短时能量计算公式: 玩。蝥( m 如。一册) 】21 三窖) o 一川) 】2 短时平均幅度计算公式: m 。一k ( 槐) p o m ) 一陆o _ 珊o ) 短时能量和短时平均幅度都是表示一段语音信号能量大小的参数, 映信号强度的参数,但其特性有所不同。 3 4 2 短时过零分析 ( 3 7 ) ( 3 _ 8 ) 即都是反 过零分析是语音时域分析中最简单的一种,过零就是信号通过零僮。对于连 续语音信号,可以考察其时域波形通过时间轴的情况。而对于离散时间信号,如 果相邻的取样值改变符号则称为过零。由此可以计算过零数。过零数就是样本改 变符号的次数。单位时间内的过零数称为平均过零数。 语音信号x ( n ) 的短时平均过零数定义为: z - f s g n 睡似) j s g n 【砌一1 ) l o m ) 一l s 萨f 工小) 1 一s g n l 厅一1 ) 1 ( ) ( 3 9 ) 式中,s 印【】是符号函数,即 娜m 裟冀 而( ) 为窗口序列,其作用与短时平均能量及短时平均幅度时一样。设 嘶) 。j 素,眙肌1 ( 3 _ 1 1 ) h 其他 利用短时平均过零数可以从背景噪声中找出语音信号,可用于判断无声段和 有声段的起点和终点位置1 5 】。在背景噪声较小时用平均能量识别较为有效,而在 背景噪声较大时用平均过零数识别较为有效。但是在以某些音为开头或结尾时 必须同时使用这两个参数。 3 4 3 短时自相关函数 相关分析是一种常用的时域波形分析方法,它有自相关和互相关的不同,分 别由自相关函数和互相关函数来定义。相关函数用于测定两个信号在时域内的相 似性。 第三章语音信号分析与预处理 短时自相关函数的定义如下: r 。似) a 罗毒( 坍) 珊伽一州弦( _ i ,l + 七) o m 一七) ( 3 1 2 ) 荔 自相关函数具有以下性质: ( 1 ) 如果序列是周期的( 设周期为n d ) ,则自相关函数也是同周期的周期函 数,即r = r $ + n p ) 。 ( 2 ) 它是偶函数,即r 伍) = i 沁k ) 。 ( 3 ) 当k = o 时,自相关函数具有楹大值,邸r ( o ) = 1r ( k ) j 。 ( 4 ) r 们) 等于确定性信号序列的能量或随机性序列的平均功率。 自相关函数的这些性质,可应用于语音信号的时域分析中。对应于浊音语音 的自相关函数,具有一定的周期性。在相隔一定的取样后,自相关函数达至最大 值。浊音语音的周期可用自相关函数中的第一个峰值的位置来估算。 3 - 4 4 短时基音周勰估计 基音周期是语音信号的一个重要参数。基音周期估计的方法主要有基于求短 时自相关函数和基于求短时平均幅度差函数( a m d f ) 、基于同态信号处理和线性 预测编码等方法。 ( 1 ) 自相关法 语音信号s ( m ) 经窗长为n 的窗口截取为一段加窗语音信号s 。( m ) 后,定义s 文m ) 的自相关函数( a c f ) r n ( 亦即语音信号s ( 神的短时自相关函数) 为: 二 1 吸( 量) 一 :s 。( m 梦。( m + 七) ( 3 1 3 ) 篇 r 。;为零的范围为k = ( 羽+ 1 ) - 1 ) ,且为偶函数。浊音信号的自相关函数 在基音周期的整数倍位置上出现峰值;而清音的自相关函数没有明显的峰值出现。 因此检测是否有峰值就可判断是清音或浊音,检测峰值的位置就可提取基音周期 斟2 1 【1 5 l 。 ( 2 ) 平均幅度差函数法( a m d f ) 语音信号的短时平均幅度差函数( 舡疆) f 。( 蝻定义为: 只( 七) 一罗p ( 册+ t ) 一s 。伽) i ( 3 1 4 ) 翩 与短时自相关函数一样,对周期性的浊音语音,f 也呈现与浊音语音周期 相一致的周期特性,不过不同的是f ( k ) 在周期的各个整数倍点上具有谷值特性而 不是峰值特性,因而通过f j 的计算同意可以来确定基音周期。而对于清音语音 信号,r 却没有这种周期特性。利用f j o 【) 的这种特性。可以判定一段语音是浊 基于矢量量化的说话人识别技术研究 音还是清音,并估计出浊音语音的基音周期。 3 5语音信号的传统双门限端点检测 找到语音信号的起止点,从而减小语音信号处理过程中的计算量,是众多语 音信号处理领域中一个基本而且重要的问题。端点作为语音分割的重要特征,在 很大程度上影响识别的性能。 利用短时能量和短时平均过零率相互配合,可以实现可靠的语音端点检测, 称为双门限算法。这种方法普遍用于有话、无话鉴别或词语前端检测。在开始进 行端点检测之前,首先为短时能量和过零率分别确定两个门限。一个是比较低的 门限,其数值比较小,对信号的变化比较敏感,很容易被超过。另一个是比较高 的门限,数值比较大,信号必须达到一定的强度,该门限才可能被超过。低门限 被超过未必就是语音的开始,有可能是时间很短的噪声引起的。高门限被超过则 可以基本确信是由于语音信号引起的。 整个语音信号的端点检测可以分为四段:静音、过渡段、语音段、结束。程 序中使用一个变量来表示当前所处的状态。在静音段,如能景或过零率超过了低 门限,就应该开始标记起始点,进入过渡段。在过渡段,由于参数的数值比较小, 不能确信是否处于真正的语音段,因此只要两个参数的数值都回落至8 低门限以下, 就将当前状态恢复到静音状态。如果在过渡段中两个参数中的任一个超过了高门 限,就可以确信进入语音段了。 一些突发性的噪声也可以引起短时能量或过零率的数值很高,但往往不能持 续足够长的时间。如门窗的开关、物体的碰撞等引起的噪声,这些都可以通过设 定最短时间门限来判别。当前状态处于语音段时,如果两个参数的数值降低到低 门限以下,而且总的计时长度小于最短时闯门限,则认为这是段噪音,继续扫 描以后的语音数据。否则就标记好结束端点,并返回。 第四章语音特征参数提取 第四章语音特征参数提取 特征提取是任何一个模式识别处理问题首先要解决的问题。说话人所发语音 信号中既包括了所发话音的特征,也包括了说话入的个性特征,是话音特征和说 话人个性特征的混合体,它们以及其复杂的形式交织在一起。说话人识别系统的 特征提取是将语义内容舍去而保留个人特征信息。声音中所包含的个人特征信息 有两种:一种是声道长度、声带等先天性发音器官的个人差别所产生的,是以共 振峰频率的商低、带宽的大小、平均基频、频谱基本形状的斜率等所表现的;另 一种是由方言、语调等后天性讲话习惯产生的,是以基频、共振峰频率的时间图 案、单词的时间长等所表现的。两种特征要准确分量并提取是困难的,多采用同 时含有两者特征的特征参数。可见如何选取能更好地表征说话人的特征参量,是 说话人识别系统面临的一个基本问题。 在众多的参数中,线性预测系数是能够有效地表征语音的全极点模型参数。 由它推演出的多种参数,如部分相关系数、声道面积比函数、线谱对系数以及l p c 倒谱系数等,都是可以应用的。当然还有一些鲁棒性参数,包括m d 频率倒谱系 数,以及经过信道谱减或噪声谱减的倒谱等。 本文的说话人识别系统中,选用线性预测系数倒谱系数( c c ) 和梅尔倒谱 系数( 陀c ) 作为说话人识别的特征参数。”c c 考虑声道特性,m f c c 考虑人 的听觉特性,两者相结合共同描述说话人的特征。 4 1线性预测系数l p c 线性预测( i j n e 越p t c d i c l i o n ) 这一术语是维纳1 9 4 7 年首次提出的,此后,线 性预测技术应用于许多领域中。1 7 年,日本学者板仓( 王t a l 【u f a ) 等人最先将线 性预测技术直接应用到语音分析和合成中。目前,线性预测作为一种工具,几乎 普遍地应用于语音信号处理的各个方面,是最有效和最流行的语音分析技术之一, 在各种语音分析技术中,它是第一个真正得到时间应用的技术。线性预测技术产 生至今,语音处理又有许多突破,但这种技术目前仍然是非常重要的分析技术基 础。 4 1 1 线性预测基本原理 线性分析的基本原理是将被分析的信号用一模型来表示,即将信号看作是某 一个模型或系统的输出。这样,就可以用模型参数来描述信号。 1 7 基于矢量量化的说话入识剐技术研究 模型的系统函数可以写成有理分式的形式: 1 + 穹6 ,z 。 凹( z ) 一g - j 一 ( 4 一1 ) 1 一亨口;z 4 何 式中,系数a t 及增益因子g 就是模型的参数,雨p 和q 是选定的模型的阶。 因而信号可以用有限数目的参数构成的模型来表示。根据h ( z ) 的形式不同,有三 种不同的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年药品检验技术专项考核试题
- 3.12 大一统王朝的巩固 说课稿 2024-2025学年统编版七年级历史上册
- 2025年全国燃气管网工安全生产理论考试题库(含答案)
- 销售考试题目及答案
- 操作作业人员考试题库及答案
- 2025年高考化学试题分类汇编:实验探究综合题(含解析)
- 2025合同条款调整事项
- 2025官方版房屋租赁长期居住合同范本
- 2025年国家叉车证理论考试题库(含答案)
- 2025年新型皮革加脂剂项目合作计划书
- 九年级语文下册3武松打虎省公开课一等奖新名师获奖
- “一带一路”倡议与国际合作课件
- DL-T 572-2021电力变压器运行规程-PDF解密
- (高清版)TDT 1055-2019 第三次全国国土调查技术规程
- 2024年儿童保健考试复习题库(含答案)
- 02J401 钢梯【含03年修改】图集
- 人教版(2019)高中英语必修一二三各单元话题作文与范文汇编(共3册)
- 乳果糖口服溶液说明书用法
- 内科学第一章 肺部感染性疾病概述
- 高等学校英语应用能力考试大纲
- CATIA各模块功能全面讲解经典收藏(基础)
评论
0/150
提交评论