(通信与信息系统专业论文)与文本无关的说话人识别技术研究.pdf_第1页
(通信与信息系统专业论文)与文本无关的说话人识别技术研究.pdf_第2页
(通信与信息系统专业论文)与文本无关的说话人识别技术研究.pdf_第3页
(通信与信息系统专业论文)与文本无关的说话人识别技术研究.pdf_第4页
(通信与信息系统专业论文)与文本无关的说话人识别技术研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(通信与信息系统专业论文)与文本无关的说话人识别技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 由于语音本身的特点和现今社会的需要,说话人识别技术的研究有很大的学术 价值和应用价值。但目前存在的说话人识别技术与人们的期望还有很大的差距,将 该技术很好地应用于现实生活中还存在很多困难。 本文主要对与文本无关的说话人识别技术进行研究,重点对特征参数选取、匹 配算法和判决方法进行研究,尤其对开集部分的说话人提出了解决方案,从而进一 步确定适用于本文系统的语音库和系统反馈信息。 在特征参数选取方面,对基频、共振峰和m e l 倒谱系数进行了详细的研究和分 析,确定将m e l 倒谱系数作为说话人识别的特征参数,将基频和共振峰作为对说话 人分类的依据,识别时先判断待识别人属于哪个子集,然后再进行匹配计算。实验 结果表明,与不分类方法比较,不仅缩短了识别时间,而且提高了识别率。 在匹配计算方面,采用欧氏距离进行计算,用该算法进行说话人识别,在建模 时不必对说话人进行严格的训练,只需要从用于建模的语音中提取相应的特征参数 存储即可。 在确定判决方法方面,采用确定范围而不是只指定一个人作为最后识别结果的 方法,所以本文输出结果是三个而不是一个,这样可以有效减少错误说话人被接受 或正确说话人被拒绝的错误。应用于公安司法领域也可以很大程度上减小侦查的范 围。 本文对开集部分也进行了研究,将待识别语音先选取不同的两段进行匹配计算, 然后再对该语音进行识别的相应计算,将自身语音得到的结果和其他结果比较,得 出该说话人是否存在语音库中 一 关键词说话人识别;基频:共振峰:m e l 倒谱系数;欧氏距离 河北科技大学硕士学位论文 a b s t r a c t i ) u et 0t h ec h a r a 烈e r i s t i 璐o ft h ev o i c c 锄dt l l en e c d so fm o d e ms o c j e t y ,t h er e s e 眦h 0 fs p e a k e fr 。c 0 印i t i o nt e c h n o l o g yh a sa 伊a td e a l0 fa c a d e m i c 绷dp m c t i c a lv a l u e b u t t h ee x i s t i n gs p e a k e rr e o d g n i t i o nt e c h n o l o g yi sf a r 蠡舢t h eh o p e so fp e 叩1 e i ti sv e r y d i f i 伽l tt l l a tt h et e c h n o l o g yt 0b c 憾e di n 删l i f e w t h ei m p o r t 柚t 佗s e 砌o ft h j sp a p e ri st e x t i i i d e p e n d e n t0 ft l l cs p e a k e fr e c 0 9 n i t i o n , 蕾b c u s i i l g 伽c h a r a c t e r i s t i c 肼咖e t e 墙s e l e c t i o n ,t l l em a t c h i n ga l g p l r j t h ma n dj u d 9 1 i l e n t m e l h o d s ,e s p 晒a u yt l l ed i s p o s em e t h o do fo 饪p a no ft h ep 加忡s e ds p e 威c r t h c ns l ,c c 毋 t h ea p p l i c z l b l ev 0 i c eb a n ka n df e e d b a c ki 1 1 f b 衄a t i o n0 f s y s t e m ht h ep a j t0 ff e a t i l r cp 猢e t e r ss e l 洲伽,u 1 i sp a p c rh 勰ad e t a i l c dr c s c 卸c h 锄d 锄a l y s i s 彻t h ep i t c h ,f b 皿柚t 柚dm c l 缸q u e n c ) rc c p s 咖mc o e f c i c i t a n dt h em c l c c p s t m m0 0 e 伍c i e n t si sb e 惦e dt ot h ec h 撒c t e j 砖t i cp 咖e t e 璐o fs p e a l 【e rr c 咖t i o n t h ep i t c h 觚df 0 加锄ta r eb c 惦c dt od 弱s i 母t h cs p c a k e 硌w h 如i d 曲t i f y i n 吕i ts h o u l db c j u d g c df i r s t i y t h a tw i l i c hd 硒st h c 驴a l 【c r b e l 彻g st o ,锄dt l l 蛐m a k em a t c h i n g c a l l c u l a t i o 璐t h ec x p c r i m e n t a lr 骼u l t ss h o wt h a t t l l i sm c t h o dn o to n l ys h o n c nt h et i l n eo f 他c 0 印i t i o n ,b u ta l i l p 剃et l i er 既唧t i o nr a t c 1 nt l l cm a t c h i n gc a j c i i l a t i o 嬲,t l i ce u c h d 啪d i s t 锄c ci sb cu s c d u s i n g 恤a l g 吲t h mi i i s p e a | 【c rr e c o g n i t i o n ,i tn o th a v et o 蛐蚵c t :i yp l c o p l ci nm o d e l i n g i to i l l yn c c l dt 0e x t m c t t h e 略e f u lc h 嬲l c t e r i s 龀p 觚衄e t e 璐锄dt l l cs t 0 i cj t 弱s p 蜘m o d c l s i l l 也em 甜脚o f j u d g m c 鸣u s i n ga 文cr 蛆g ci n 妣a d0 fs p 蝴g 蚰e p 懿明弱a 血a l 他c 0 鲥t i o nr 豁l d t s ,t h i sp a p 盯,s 叫t p u th 勰t h r p a ) p l c t 1 l i sm c t h o d 伽 c 侬x 蚵v c l yr c d u c ct h cm j s t a k ct h a tt h e 册m 肿n t 0b ca c c 印t e d0 rt h ec 0 饿斌p e 俗t o b c 他删u s i n g t h j sm c t h o di nt h c 丘e l do fp 0 融柚dj 啦t i c 姐址删y 砌u c ct h c s c o p e o ft h ci 1 1 v 骼t i g a t i o n 1 k sp a p 钉w 笛a l s 0 碳;e a i c h 地o l j fp a no fp e o p l c s c i t i n g 抑od i 脏阍嚏ts p c h 胁t h ev o i w m c hj st 0b c n f 唧n c d 鲫dc a l l 砒ct h i st w ov o i c 懿惦i n gm a t c h i n g d l 饥i a t i o mn 如吣i n g l i ss 】p c c 吐蛔d 0t h c 玎峪p o n d i 玎哆c a l c l i l a t i 佃t h 钮i ti st 0b c 伽删t h a t 此磷u l t so b l 疵同b y 也e i ro 帆v 0 妣a n d0 也c f 舢l t s ,t h ev o i 倪u b 唧 w h c t h c r i n v o l 懈t h c s p c 姗甜n o t i s b c a c q 僦 k 凹帅r d ss p c a l 【钉础的鲥妇;p i t c h ;f 0 珊卸t :m df r c q u c n c y0 叩s 虮岫q 删c i i t ; e i l d dd i s t 岫 第1 章绪论 第1 章绪论 1 1 说话人识别研究的意义 语音中不仅包含内容,也包含话者身份、情绪等。有些场合不是要知道语音的 内容而是要确定话者的身份,所以在这种情况下,语音识别是做不到的,这就要进 行说话人识别。 说话人识别技术是一种生物认证技术,是根据某说话人的语音信号波形中能够 充分反映该说话人个性特征的某些参数,将由待识别信号得到的该参数与预先提取 的说话人的声音特征参数相比较。从而来确定或鉴别说话人身份。 由于各说话人发音器官都会存在先天性的差异,并且由于后天周身环境的影响 也会形成某些固定的特征,先天差异如声管形状和声带的差异,后天差异如说话时 发音习惯的差异等,这些差异都会反映在说话人声音的波形中,并且这种差异都是 以特别复杂的形式存在的,正是由于这些差异使得每个人的语音都具有不同的个人 特征,进而可以用于鉴别说话人的身份。对于正常人来说,每个人的语音都是随时 存在的,是固有的,不会随着时间遗忘或丢失;每个人的口腔、咽喉、声带和鼻腔 的结构不可能是完全相同的,并且由于每个人的发音方式不相同使得每个人在肺部 收缩,压迫气流由支气管经过声门和声道的方式也不同,这些因素造成的结果就是 每个人的语音都有极强的个性特征;语音信号相对于指纹、人脸等采集方便,系统 设备成本低。作为最自然的生物特征识别身份鉴定方式,它的准确性、方便性和经 济性等优势受到人们的瞩目。 说话人识别根据识别任务可分为说话人辨认和说话人确认l 。前者是多选一的问 题,即是判断某段语音是某些人中的哪一个说的;后者是一对一的问题,即是确定 某段语音是不是希望的那个说话人说的。 根据识别对象还可分为与文本有关的、与文本无关的和文本提示型的。与文本 有关的说话人识别是在训练阶段要求说话人所说内容是固定的,并且在识别时也要 说相同的内容:与文本无关的是无论在训练阶段还是识别阶段说话内容是没有要求 的;文本提示型的说话人识别技术是每一次识别时,系统在进行识别前会先在一个 文本集合中选择某个提示文本,说话人必须按该提示文本的内容发音,判决过程是 在说话人正确说出文本内容的前提下进行的。 与文本有关的说话人识别技术虽然比较容易实现,但是应用范围比较小,受限 制很大。提示文本的说话人识别实际上与文本有关的说话人识别类似,只是存储内 容比较多提示文本型的目的是防止说话人的语音被盗用,但是当文本集合规模比 较小时,防盗能力就会很弱,当文本集合规模大时,训练是比较困难的,在实际中 河北科技人学硕十学何论文 = = = = = = = = ;= = = = = = = = = ;= = = = = = = = = ;= = = = = = = ;= = = = = = = = = = = ;= = = = = = = = = = = = = = = = = = ;= = = = = := ;= : ;= := ;目;:= = := := = := = := ;= j 昌:= =昌 根本无法实现。这两种说话人识别实用性都不是很明显。与文本无关的说话人识别 技术受限制小,不会规定说话人的发音内容,但是实现要困难的多。因为语音的环 境是无法控制的,可能是比较安静的环境也可能是嘈杂的环境,所以要想实现识别 就必须能在目前所得到的语音信号中找到能表征说话人个性信息的特征和方法。 本文是对与文本无关的说话人识别进行研究。由于与文本无关的说话人识别技 术不限制说话人的发音内容,所以应用范围比较广,并且对于用户使用很方便。例 如在法庭鉴别、安全监控等领域,涉及到的说话人不可能会按预先规定的语音文本 内容发音,而且所处环境也是无法控制的,与文本无关的说话人识别就可以在不要 求语音内容和发音环境的情况下实现识别。 在对说话人识别技术研究的过程中,一些实用技术和产品相继出现,有些已经 与生活息息相关。并且它一直与当前最热门的前沿学科有密切关系,如神经网络、 小波变换、支持向量机等,这些理论都将说话人识别作为应用实例,所以说话人识 别技术的研究成果具有重要的学术价值和应用价值。 1 2 国内外研究现状 2 0 世纪3 0 年代,人们就开始对说话人识别技术进行研究,当时主要是着手于听 音识别可能的探讨和人耳听辨实验方面。随着研究的进行,研究手段和研究工具都 有了一定的改进,研究工作不仅仅局限于单纯的人耳听辨而有了更深入的研究。b e u 实验室的lck 终t a 目视观察语谱图进行识别( s p e c 仃0 印皿m a t c i l i n g ) ,提出了“声 纹 ( 、b i c 印血t ) 的概念;随后计算机科学技术的发展,使先前只能局限于理论方面 的有了实现的可能,如通过机器自动识别说话人的声音【2 l 。b c n 实验室的s p 毗皿a l 【s v 提出了基于模式匹配( t c m p l a t cm a t c l l i n g ) 和概率统计方差分析的说话人识别方法, 该成果受到很多语音信号研究学者的重视,使该研究方向达到一个高潮,这段时间 主要是在用于识别的特征参数选取和不断试验上。 6 0 年代,有人提出了线性预测分析技术l p ( m c 缸p 砌甜伽) 和动态规划d p ( d y n a 血cp 蓼锄i n g ) ,将语音信号生成为一利于研究的数学模型是研究的重点, 而i j p 比较好的解决了这个问题。d p 则是实现了不等长语音的匹配问题i 卿。 从7 0 年代,各种声学参数的线性或非线性处理、新的模式匹配方法成为说话人 识别的研究重点,如矢量量化v q ( 、奴细rc l l 柚t i z 撕彻) 悯、动态时间规整e i t w ( d ) r n a 血cm m cw 却i l l g ) i 堋,实现了基于线性预测倒谱和唧技术的特定人孤 立词语音识别系统。 舳年代,隐马尔可夫模型瑚删( h i d d 锄m a 成0 、rm 0 d c h n g ) 阻m n l 、神经网络 n n ( n c u m ln e “帕r k ) 嗍成功应用在语音识别中用于识别的匹配算法从模板匹配技 术转向基于统计模型技术。1 9 鼹年美国卡耐基梅隆大学基于v q ,h m m 开发的9 9 r 7 词非特定人连续语音识别系统s p 砌怄对语音信号的研究具有重要意义 2 第1 章绪论 9 0 年代,r c r o s e 和d a r e y n o i d s 对高斯混合模型g m m ( g a u s s i a nm i x i u r e m o d e i i n g ) 【4 7 9 i 做了详尽的研究,该算法能精确地描述语音特征空间概率分布,并且 模型灵活、简单、有效且具有较好的鲁棒性,迅速成为当今与文本无关的说话人识 别研究中的主流技术。支持向量机s v m ( s u p p o r tv e c t o rm a c h i n e ) 【1 4 1 5 ,1 6 】由于具有 良好的区分性,也开始用于说话人识别的建模中,并迅速成为研究的热点,并且还 出现了多种用于说话人识别的核心方法。近年来,虽然没有应用于说话人识别的新 的模型的提出,但在前期处理和特征参数提取方面出现了大量的新技术。在端点检 测方面,有人提出了一种利用子带谱熵来检测语音信号与噪声的新方法【1 7 ,1 8 ,1 引,其性 能与传统的算法相比,具有明显的优越性。在语音信号增强方面,应用传统谱减法 对信号去噪后会存在音乐噪声,有人提出了与信噪比相关的自适应语音增强算法1 2 0 j , 该算法有效的减少了这种音乐噪声。还有在提取参数前对语音数据进行频率掩蔽滤 波1 2 l 】。在特征参数提取方面,对传统的m e l 频率倒谱系数m f c c ( m e lf r c q u e n c y c c p s t m mc o e f i c i e n t ) 参数作了许多改进,例如,对m e l 滤波器组进行加权处理i 挖,2 3 l , 对得到的m f c c 参数进行倒谱均值相减1 2 4 j 或者进行倒谱提升1 2 ,在m c l 子带域上对 m f c c 特征参数进行改进1 2 5 1 ,将m e l 倒谱和其差分m e l 倒谱相结合使用【硐,以及将 。m f c 与表征语音其它信息特征的参数相组合等,所有这些新提出或改进的技术的 运用都在不同程度上提高了语音特征参数表征不同语音信息的能力,并在很大程度 上提高了特征参数的抗噪声能力,为系统从仅在理论实验上走向实际应用提供了大 量的技术支持。另外,大规模连续语音识别l 、,i 巧r ( l a r l 驴v o i c c p 咖tc 【 n t i l l u a t i 彻 s p k 盱r c c 0 鲥t i o n ) 、a n n 、s v m 、h m m 及各种模型之间相结合( 如g m m s v m ) 1 1 4 坷、基于评分的说话人规整技术、对语音的高层信息的探讨、以及针对信道失配 问题的补偿技术等等,在与文本无关的说话人识别中都得到了应用。 在我国,识别技术别国外起步晚,但是该研究领域受到国家的高度重视,把该 项研究列入国家“8 6 3 计划,所以研究进度很快,中国科学院自动化究所高技术创 新中心、北京大学、中国科学院声学研究所都取得了一定的成果。如1 9 9 0 年建立的 单字语音识别系统。1 9 9 6 年开始研究非特定人大词汇量连续语音识别,到2 0 0 0 年在 该方面取得了重大突破,其识别的准确率接近国际水平。在说话人分割技术、说话 人聚类等方面也取得了很大的成果。 由于与汉语有关的说话人识别的产品具有良好的市场前景,许多国际著名的大 公司都已在中国设立了研究中心并进行这方面的研发,如m i c m s o j c t ,m m 等。 1 3 应用前景 随着人们对说话人识别研究的不断深入,以及电子技术计算机技术的不断进步, 与说话人识别有关的一些系统已经成功的应用于很多领域。例如,可以应用于大楼 的门禁系统,利用说话人识别作为出入的凭证,如用某些特定的人的声音对出入机 3 河北科技人学硕十学位论文 皇昌昌兰= 篁昌蛊篁= = 曹= 皇搴= = 高毒= = = 毒= 穹= = = = 盘昌= 盎宣= = 盅= = = = = = 皇= 皇毒= = 暑昌皇昌皇= = = 篁皇= 皇= = 穹= 昌昌= = 宣= 量昌;鲁= 皇 密场所的人员进行检查,用工厂职工的一些口令来对职工签到进行管理等。在公安 司法领域,可以利用说话人识别对犯罪嫌疑人进行身份鉴定,如可以根据犯罪现场 记录的声音判断罪犯是多个嫌疑犯中的哪一个人的声音,还可以判断嫌疑犯中是否 包含真正的罪犯,有时虽然不能准确判断出罪犯是哪一个,但是可以缩小范围,从 而使公安司法领域在侦破案件上有了更专业的技术,获得了更好的效果。在军事领 域,可以利用说话人识别技术鉴别敌方的指挥员,判断各位置上的指挥员是谁,可 以进一步获取敌方作战部署的意图,从而在战争中可以做到知己知彼,增加最终胜 利的可能性。在信息服务领域,同样也可以利用说话人识别作为身份认证的工具, 因为现今网络服务越来越发达,人们足不出户就可享受到各种服务,这样网络安全 也越来越重要,如自动信息检索或电子商务等网络信息服务中的声音身份确认等。 在财经领域,可以利用说话人识别作为身份确认的有效手段,如电话预约业务中的 声音确认余额通知、自动转账汇款和股票行情咨询等。在医学应用中,说话人识别 系统可以为假肢患者服务,响应患者的要求,从而实现只有拥有者本人才可对机器 假肢进行控制,解决任何人都能控制该假肢的弊端。还可以应用到p c 或网络等的安 全系统等。 在国外,a t & t 公司运用说话人识别技术研制出了智慧卡,并已经应用于自动提 款机。欧洲电信联盟将说话人识别技术应用于金融与电信结合领域,于1 9 9 8 年完成 了啪计划,可在电信网上进行说话人识别。2 0 0 7 年,美国某科学家为行动不便 的人设计了一个受声音控制的房屋,它可以对主人所发出的一些声音命令进行处理 并执行,比如可以利用o p e nc o m p lj t 醯这个命令来打开电脑等。 1 4 目前存在的问题 尽管说话人识别的研究也已经取得了很大的进展,但是要使其和指纹识别一样 成为十分可靠的生物识别技术仍然存在很多问题: 1 ) 说话人的语音会随着时间的推移而变化,并且由于说话人的情感、健康状况 及所处的环境不同也会变化。表征说话人个性特征的参数不是静态的而是变动的, 即使在相同人说相同话的基础上提取的特征参数也不一定是相同的。 2 ) 理论上来说,人耳能识别的机器也应能识别但是在实际中,由于每一说话 人模型包含的信息是有限的,必然会出现相同的信息,这样就会增加系统的识别难 度 。 3 ) 声音也会被模仿,在某些情况下,这个问题至关重要。某些人可能会模仿他 人声音进行非法活动 4 ) 一次识别需要将待测试的语音与所有说话人的语音模型进行一一匹配,然后 找出与测试语音距离最近的话者模型所对应的说话人作为识别结果这样,随着语 音库中存储说话人数的增加,一次辨认花费的时间会随之增加,当注册人数达到 。 4 第1 章绪论 定数量时,系统就很难做出及时响应。 5 ) 在实际应用中,外界环境是复杂的,这就对系统的抗干扰性能提出了较高的 要求。 6 ) 现今存在的模型使说话人识别所需的时间很长,在训练阶段为了获得最大的 似然度和精确的说话人模型,要进行多次迭代计算。在测试阶段,比较待识别的语 音需要计算每个模型的得分,都需要大量的时间。 1 5 论文的结构 由于语音不会丢失和遗忘、采集方便、需要的设备简单成本低等,引起越来越 多人的兴趣,并且说话人识别系统使用方便,属于非接触性的,可用于远程验证, 容易被用户接受,所以研究出安全、可靠、识别正确率高的识别技术,是人们一直 努力的方向。在实际应用中存在的众多问题,使得结果都不尽如人意,但是通过不 断努力,在说话人识别方面也有了很大的突破。本文对与文本无关的说话人识别技 术进行研究,并通过实验进行验证。 本文的主要研究内容和安排如下: 第一章主要介绍了说话人识别技术研究的现状,应用前景和目前存在的问题。 第二章确定本文说话人识别系统的实现方案。首先说明说话人识别中所需要解 决的问题,然后确定实现说话人识别所要做的工作,强调系统实现的重要部分。 第三章是特征参数选取的思路。先对语音信号进行预加重、分帧加窗、端点检 测、滤波后提取特征参数,分别对基频、共振峰和m d 倒谱系数进行研究,制定实 验方案,根据实验结果分析各特征参数的特点和用途,最后确定特征参数在本文的 应用方案。 第四章主要对匹配算法和判决方法进行研究。确定说话人模型建立所用的特征 参数后,确定用于说话人识别的匹配算法及匹配计算后对结果的判决问题,并通过 实验验证系统的识别率。实验方案比较全面的包含各种可能情况。 第五章确定语音库的功能和建立方法。确定语音库存储内容及特征参数在语音 库建立中的应用,将最能代表说话人个性特征的m f c c 值作为语音库的存储内容, 并依据基频和共振峰将语音库进行分类。依据输出结果确定语音库的其他存储信息, 如应包含说话人的基本信息等。 最后是对本文工作的总结和对下一步发展的思考。 5 河北科技人学硕十学位论文 第2 章系统研究方案 说话人识别系统最终的识别结果是该语音是谁说的,而不是识别出说话的内容 是什么。所以说话人识别注重的是说话者之间的个性差异,而忽略说话内容,即尽 可能的将语音信号中的语义信息平均化,突出不同人之间的特征差异。 本文是对与文本无关的说话人识别技术进行研究,该系统是根据语音信号识别 出该语音是谁说的,并且不管待识别人所说内容是否与建立语音库所用的语音内容 相同,不论所处环境好坏,都能得出正确结果。说话人识别系统如图2 1 所示,分为 5 个模块,各模块的功能及相互间如何衔接工作在第二节进行详细说明。 2 1 说话人识别中需解决的问题 本文研究的是与文本无关的说话人识别技术,所以不可能以原语音信号作为识 别对象,因为每次说话内容不一定是相同的,所以要从已知的语音信号中得到某种 能代表说话人特征的参数,且该参数随着不同说话人的变化而变化,并且还要有一 个方法能得出表明不同说话人的参数不同的表现形式。所以本文要解决的问题有: 1 ) 特征参数选择问题 2 ) 待识别的语音不可能音质都特别好,为了提高识别率,要通过预处理提高语 音质量,得到比较纯净的语音信号,以便进行特征参数提取。 3 ) 如何对待识别语音与存储的语音特征参数进行匹配计算。 4 ) 如何设定判决门限。 5 ) 语音库存储内容问题。 6 ) 如何缩短识别时间。 问题2 ) 预处理所采用的方法都是选择现有方法完成,不是本文的重点。本文主 要解决的问题是1 ) 和3 ) 一6 ) 。 2 2 论文的主要研究内容 结合第一节提到的所要解决的问题得出图2 1 识别系统中主要的部分为特征参 数提取,匹配计算,语音库、判决、结果的输出5 个部分,所以本文主要对这5 个 方面进行研究。 以下详细说明各模块的功能: 1 ) 前期处理包括预加重、分帧加窗、端点检测和滤波4 部分,对信号进行前 期处理的目的是得到质量比较高、比较纯净的语音信号录音设备、周围环境等都 会使信号发生变化i 语音信号本身也不是稳定的,这些因素会影响到特征参数的提 取和说话人的匹配,所以为了得到可靠的特征参数及提高系统的识别率对语音信号 第2 章系统研究方案 进行前期处理。但该部分不是本文的研究重点,这部分只是保证后续工作的顺利进 行,所以前期处理的4 个方面所用的都是现今存在的方法。 语音 图2 - l 说话人识别系统框图 2 ) 特征参数选取。选择合适的特征参数至关重要,既要能表征说话人的特征又 易于提取,还要尽量受外界因素的影响比较小。本文主要对基频、共振峰和m e l 倒 谱系数( m f c c ) 三个参数进行研究,通过理论和实验分析各参数的性能,最终确定 本文进行说话人识别时选用的特征参数。 3 ) 匹配算法。选定特征参数后就可进行说话人识别,匹配计算部分就是研究采 用什么方法根据特征参数可以区分不同说话人。要尽可能保证能有比较高的识别率, 还要计算量尽可能小。匹配算法是整个识别系统最核心的部分,所以一个有效的识 别算法对系统性能的影响非常明显。 4 ) 判决。确定匹配算法后,什么情况下确定是同一说话人,什么情况下为不同 说话人由判决部分完成。选取的判决方法要能保证识别结果的准确性。 5 ) 语音库。主要解决参数存储问题。本文中语音库不是最主要的研究部分,但 是是必不可少的,语音库中存储内容的选择直接影响系统的识别率。语音库的建立 要满足:存储内容要能充分代表说话人的个性特征并且所占空间尽可能小;语音库 内容的存储方式要保证搜索时间比较短。该部分根据本文的研究需要确定语音库的 存储内容和存储方式。语音库的存储内容不是采集的语音本身,而是要和匹配算法 部分所用到的参数保持一致,即为特征参数m f ( 、c 。 由图2 1 可以看出识别系统各部分之问相互工作情况如下: 1 ) 对待测试语音信号进行预加重、分帧加窗、端点检测和滤波4 步前期处理, 得到噪声比较小、频谱比较平缓的语音信号 2 ) 从经过前期处理的语音信号中提取特征参数,包括基频、共振峰和m f c c 。 3 ) 根据第二步得到的基频和共振峰判定该识别语音所属类别,再与预先建立的 语音库中相应类别下的特征参数m f ( 根据匹配算法依次进行比较,全部比较完后, 再做进一步处理匹配算法将在第四章做详细研究 4 ) 将得到的匹配计算的结果采用判决方法得出最终识别结果输出,输出结果应 7 河北科技人学硕十学位论文 包括说话人的相关信息,如姓名、性别、出生年月、职业、工作单位等。具体的结 果输出形式将在第四章进行详细说明。 2 3 本章小结 本章明确系统实现需解决的问题,然后确定完成系统需要做的工作,对系统框 图中各部分进行详细说明,根据主要解决的问题表明系统中本文的主要研究部分是 特征选取、匹配算法、语音库问题和判决方法。选择合适的特征参数和有效的匹配 算法是识别系统顺利实现且结果良好的关键。语音库的存储内容与之前的采集内容 是不同的,即不是存储语音信号本身,而应该是由语音信号提取的特征参数,要保 证选取的特征参数和语音库存储的特征参数的一致性。最后的判决部分也是非常重 要的,选用什么样的判决方法直接会影响系统的性能。所以要保证系统有比较高的 识别率就要靠各部分共同实现。 8 第3 章说话人识别特征参数的选取 _ _ _ _ _ _ _ _ _ l _ _ l l l - _ _ _ 目l _ e = 日自自= 目目自= = = = : ;目= = = = 目l - 目| i _ _ _ i _ _ l - _ _ :- _ 第3 章说话人识别特征参数的选取 在说话人识别系统中的一个重要问题就是特征参数的选取,在系统识别时,一 般不会直接用声音信号本身进行比较,而是采用有效的特征参数对说话人进行匹配 比较,所以首要问题就是对语音信号进行特征提取f 2 7 1 。 为了使机器能够正确识别出说话人,选取的特征参数应具有很高的区别说话人 的能力,能充分体现说话人个体间的较大的差异,而在说话人本身的语音发生变化 时保持相对稳定;在输入语音信号受到外界环境的影响时,如传输信道、噪声等, 特征参数能够具有较好的顽健性:易于提取、易于计算,并且在特征的各维参数之 间应有良好的独立性,在保持高识别率的情况下,应有尽可能少的特征维数;不易 被模仿i 堋。 辨识不同人的特征参数主要有嗓音源、基频、共振峰、时长、线性预测系数、 倒谱系数等例。本文主要对基频、共振峰和m e l 倒谱系数进行研究,通过理论和实 验分析它们各自的性能。 采集语音信号不可能都是在绝对安静的环境下进行的,有些信号不可避免的会 含有噪声,另外人类发音器官本身和采集设备带来的混叠也会对信号产生影响。为 了保证语音信号的质量,使信号更均匀、平滑、含噪声少,需要对信号进行前期处 理。 3 1 语音信号前期处理 本文前期处理包括预加重、分帧加窗、端点检测和滤波。以下分别说明前期处 理各部分的作用。 1 ) 预加重 由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在8 0 0 h z 以上会按6 d b 倍频程衰减,这样对于求得的语音信号频谱,频率越高相应的成分就 越少,预加重的目的就是为了提升高频成分,使信号的频谱变得平坦。 本文采用常规的预加重方法,即使信号通过一个一阶数字滤波器,滤波器的传 递函数为: 日( 2 ) 一1 一肛1 式中,弘为接近l 的常数。 2 ) 语音信号的分帧加窗 ( 3 1 ) 语音信号是一个时变、非平稳信号,表征语音本质特征的参数都是随时问变化 的,处理难度很大,不能用处理平稳信号的处理技术对其进行分析处理。由于语音 9 河北科技大学硕士学位论文 的产生与人的口腔肌肉运动密切相关,这种运动比声带振动速度缓慢很多,在短时 间内其特性认为是基本保持不变的。研究表明,语音信号在5 讹s 的范围内其频谱 特征和特征参数基本不变,所以语音信号是短时平稳信号,任何语音信号的研究都 要建立在短时的基础上,这就要将信号进行分段。分段是通过加窗来完成的,即将 窗函数在语音信号上平滑地滑动来实现。分帧有连续分段和交叠分段的方法,为了 使帧与帧之间平滑过度,一般采用交叠分段,交叠部分为帧长的1 2 。 在语音信号数字处理中,常用的窗函数有矩形窗、汉明窗、汉宁窗等,窗函数 的选择对短时参数的特性影响很大,一般一个好的窗函数要减小语音帧之间的截断 效应,使通过窗函数截取的各帧波形缓慢降为零,就要减小时间窗两端的坡度,使 窗口边缘两端不引起急剧变化而平滑过渡到零,汉明窗可以很好的做到,所以本文 采用汉明窗,窗函数为: 忡卜o s 【南】,州 协2 , 1 0 ,其他 其中n 的值在做不同语音信号处理时的设置都不同,在后面的实验条件将分别 说明。 汉明窗的主辨宽度和带外衰减都比较大,能保留语音信号的高频成分,不会丢 失波形的细节,该窗函数使其短时参数能更好地反映语音信号特性的变化。 3 1 端点检测 端点检测不仅能去除背景噪声的干扰,而且能去掉信号的无声段,降低系统的 运算复杂度,使处理时间减少。本文用端点检测的另一个目的是将得到的无声段信 号在下一步滤波时作为噪声。目前端点检测的方法有基于信号短时能量和过零率的 双门限端点检测算法,该方法计算量小,易于实现,但抗噪性能不高;基于子带谱 熵的端点检测算法虽然抗噪声能力比较强,但是当语音的谱分布和噪声的相近时, 两者的谱熵值近似,检测到的端点没有可靠性【3 0 j ;基于频带方差的端点检测算法, 该方法抗噪比较好,但是门限值不容易确定,没有鲁棒性总体来说各方法各有利 弊,本文采用双门限端点检测方法 a ) 语音信号短时能量分析【3 语音信号的能量随时间变化比较明显,短时能量分析能描述出语音的能量幅度 变化短时能量主要应用于清音浊音的区分,一般清音部分的能量比浊音部分小得 多,可以对有声段和无声段进行判定。 b ) 语音信号短时过零率分析网 短时平均过零率可以在一定程度上反映语音信号的频谱特性,一般在低频段具 第3 章说话人识别特征参数的选取 有较低的过零率,在高频段具有较高的过零率。 本文将短时能量和短时平均过零率结合使用来判断语音起止点的位置。在背景 噪声小的情况下短时能量比较准确;在噪声大的情况下,短时平均过零率比较准确, 所以结合使用可以得到好的端点检测效果。 对整个语音信号进行端点检测分为四部分:静音段、过渡段、语音段、结束。 在静音段,如果过零率和能量有一个超过了低门限,就要将该点作为起始点,说明 进入了过渡段。在过渡段中,由于参数的数值比较小,不能确定从现在开始就进入 了真正的语音段,如果两个参数的值都又降到低门限以下,就将当前状态恢复到静 音状态,而如果在过渡段中两个参数中的任意一个超过了高门限,就确定进入了语 音段。 对于一些特殊情况,如突发噪声,也可能会使短时能量过高而超过高门限值, 为了防止误判为语音段,可以设定最短持续时间来处理,因为噪声一般都不能维持 足够长的时间。当前状态处于语音段时,所以如果短时能量从超过高门限到降低到 低门限以下总的时间小于最短时间门限,则认为是一段噪音。 本文用于端点检测的门限值设置情况为: 短时过零率:低门限为5 ,高门限为1 0 ; 短时能量:初始值低门限为2 ,高门限为1 0 ,但是在端点检测过程中随时调整, 对信号分帧,帧长为3 0 m s ,帧移为l m 略,即式( 3 2 ) 中n 为4 8 0 ,设第七帧的短时能 量为娴,则低门限取2 和p ( 七) 临两者的最小值,高门限取1 0 和p 胆两者的最小值; 最短时间门限:1 5 0 n l s 。 4 ) 滤波 与文本无关的说话人识别是不考虑待识别人的说话内容和所处环境的,所以当 信号含有噪声时,要从含有背景噪声的语音中提取出比较纯净的信号,以便进行下 一步的研究。 本文采用谱减法进行噪声消除。该方法认为在短时谱上含噪信号的能量谱可表 示为信号的能量谱加噪声的能量谱,可以将噪声能量谱从含噪信号能量频谱中减去 从而提高信噪比这样就需要对当前的噪声能量谱进行估计本文噪声的能量谱由 无声段的平均值得到 蜘) 为带噪信号,y o ) 为噪声,算法实现公式为: 喇= 聃鼬) ( 3 3 ) 式中踯) 去噪后信号的能量; 雄) 带噪信号的能量; 鼬) 噪声能量 去噪后信号s o ) 的相位与带噪信号一致,这样就可以得到去噪后的信号 1 l 河北科技人学硕十学位论文 3 2 基频的应用 3 2 1 基频特性分析 发浊音时,气流通过绷紧的声带时冲激声带产生振动,使声门处产生准周期性 的脉冲串,并用其激励声道,当声带绷紧的程度不同时,振动频率也不同,该频率 即为基音频率。发清音时,声带是松弛的,不会产生振动,气流通过声门直接进入 声道1 3 3 1 。所以基音是发浊音时声带振动引起的周期性。基音频率是用于描述语音激 励源特征的一个重要参数,一般不同人的基频是不同的。 自进行语音信号分析研究以来,基音提取一直是一个重要的研究课题,但存在 很多难点: 1 ) 语音信号的头尾部不具有声带振动那样的周期,对有些清浊音的过渡帧很难 判定是属于周期性还是非周期性的,从而也就无法估计出基音周期。 2 ) 要完全去除声道对语音信号的影响是不可能的,而声道共振峰有时会严重影 响激励信号的谐波结构。 3 ) 在浊音段很难精确地判定每个基音周期的起止位置,因语音信号本身也是准 周期性的,并且波形的峰受共振峰和噪声的影响很大。 4 ) 基音周期变化范围较大,并且浊音可能包含三四十次谐波分量,而基波分量 一般都不是最强的。 提取基频的方法有很多种。大致可以分为三类,波形估计法、相关处理法和变 换法。波形估计法是计算信号的波峰、波谷和过零率,典型的方法有g o l d 和r a b 缸c r 提出的并行处理方法【3 4 j 。波形估计法计算量很小且原理比较简单。变换法主要是将 信号变换到其他域,典型方法有中央消波自相关法i 弼、平均幅度差分函数法、倒谱 法,相对来说该方法提取基频的精度要高。本文采用变换法提取基音周期,即将语 音信号变换到倒谱域,利用同态分析方法将声道的影响消除,得到属于激励部分的 信息,进一步求取基频。 只有浊音才有基音周期。发清音时,声门激励是能量较小,频谱为均匀分布的 白噪声;发浊音时,声门激励是有一定周期的冲激序列,该周期与基音周期相同。 一个周期冲激的有限长度序列,其倒谱也是一个周期序列。发浊音时产生的一长度 为m 的周期冲激序列为: 。 s o ) 一乏口j 6 0 f ) ( 3 _ 4 ) 式中n 二正整数: 诉振幅因子; l 基音周期 砸) 的傅里叶变换为: 1 2 第3 章说话人识别特征参数的选取 跗) 2 驴) e x 州等威) , ( 3 - 5 ) 七l 一+ s o ) 也为周期序列,然后对l n p ) l 进行傅里叶逆变换,即得5 0 ) 的倒散o ) 。 工o ) t 胛( 1 n | s ( 七) i )( 3 6 ) 对于倒谱,不仅将语音信号中的卷积运算变为加法运算,而且与基音有同一个 周期,所以可以用于求取基频。 倒谱域上周期不会发生变化,且振幅随着f 值的增大而衰减,衰减速度比时域上 快。这样便可用倒谱法提取基频,并且效果比较好。 3 2 2 基频的实验方案及结果分析 实验环境i i l t e l ( r ) c o r e o m ) 2d u ot 6 4 0 0 ,2 g h z 内存,w i i l d o w s ) 系统, m 棚a b 7 0 开发平台,实验所用语音数据采用c 0 0 ie d i tp r 0 进行录制,采样频率 1 6 0 0 0 h z ,采样精度1 6 位,单声道,录制语音的人的年龄在8 御岁之间,均说普通话, 录音内容包括元音、辅音、汉语句子、英文、数字,每句时间2 1 2 s 不等。所有实验 所用语音信号都是经前期处理后的信号。提取基频时帧长为6 0 m s ,帧移3 0 m s ,分帧 函数采用公式( 3 2 ) ,其中n = 9 6 0 。 通过实验研究分析,确定基频是否可以用于说话人识别,若可以作为有效的参 数,具体有什么样的要求? 从4 个方面对基频进行分析: 1 ) 保证能正确提取出基频的情况下对说话时间长短的要求。 2 ) 不同说话人不同语音内容在语速不同的情况下对基频是否有影响。 3 ) 说话内容有很大相关性与完全不相关时对基频范围的变化情况 4 ) 男女老少基频范围的区别。 以下分别对各方面进行实验: 1 ) 保证能正确提取出基频的情况下对说话时问长短的要求。 语音内容:语音信号处理实验语音时长2 s 左右,最短的语音信号分帧后共3 3 帧 a ) 将语音信号分段后,每帧都提取一个基频值,观察不同帧时刻的基频值情况 实验说话人年龄为2 4 6 0 岁不等,所得结果如表3 1 所示 表3 1 中f 代表女声,m 代表男声,以下的表格均相同所有基频真实值数据由时 域得到 理论上来说i 说话时间越短,出现相似的基频值的机率越大,越不好识别,即 便是人耳在某个人只发一个音的情况下也不能做到完全正确听出该说话人是谁,所 ,3 河北科技大学硕士学位论文 以说话时间越长应该越容易识别。由表3 1 可知,从第3 帧到第6 帧之间提取的基频与 根据时域信号波形得到的基频接近。前两帧提取的基频值不是太低就是太高,与真 实值的差距比较大,因为语音从非稳定状态到稳定状态需要一定的时间,语音的开 头和结尾不具有声带振动的周期性,这也说明在发音时间很短的情况下很难识别。 由实验数据得,提取的基频一般在开始的第3 帧连续2 4 帧比较稳定,虽然在后面的 语音中可能会提取到更加准确的基频值,但是不够稳定( 如f l 在第2 3 帧提取的基频 值更接近于实际值,但相邻帧提取的值为1 8 4 h z ) ,前后相邻帧得到的基频值与真实 值相差很多,有些相邻帧中提取的基频差距可达到2 5 9 h z 左右( 如m 1 ) ,因为在加窗 分帧时必然存在清浊音的过渡帧,而这些帧是不容易判断是否有周期性的,所以相 对而言,从第3 巧帧提取的基频值比较有价值。 表3 1 不同帧提取的基颁值 ”测试不同时间长度,提取基频的效果如何? 下表的实验数据都是从第3 帧开始 提取,将从不同测试长度的语音中提取的所有基频的最大值作为结果。分别选取 6 0 m s ,1 2 0 m s ,1 8 0 m s ,2 4 0 磁,3 0 0 皿略,o 矗,1 s ,1 & ,2 s 测试长度进行实验,所 得结果如表3 2 所示。 由表3 2 可看出,虽然f 1 在选取l & 长度的语音信号得到的基频值更接近于真

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论