




已阅读5页,还剩79页未读, 继续免费阅读
(计算机软件与理论专业论文)基于唇动的身份识别关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于唇动的身份识别关键技术研究 计算机软件与理论专业 研究生薛留清指导教师袁丁 摘要随着科学技术的飞速发展,人们的安全意识不断提高。传统的识别 手段己不适应现代生活的需要,基于多通道混合特征的身份识别技术进入了迅 速发展的阶段,其中,基于唇动的身份识别因为采用了视昕混合的识别方法 ( a v s r ) 取得了较好的识别效果。本论文主要研究的是基于唇动的身份识别的 关键技术,主要研究工作如下: ( 1 ) 唇动实验平台的搭建。本文搭建了一个稳定、合理的实验平台,所 使用的视听化数据库是t u l i p s l ,相应的噪音数据数据库是a u r o r a 2 0 。同时 本文采用了第三方数据库o p e n c v l 0 作为图像处理开发的辅助工具,提高了开 发效率。 ( 2 ) 科学的实验检验方法的设计。首先,本文设计了一种加入噪音的方 法,以配合a u r o r a 2 0 数据库的使用。其次,本文较为细致地分析了多种实验 效果评估的方法,并采用留一交叉错误率预测法作为本文的实验效果评估法。 ( 3 ) 唇动语音特征的提取。本文通过实验,比对了梅尔倒谱系数( m f c c ) 、 感知线性预测参数( p l p c ) 、音量结合过零率( z r c ) 三种语音特征的提取方 法,并通过实验结果说明了最终采用梅尔倒谱系数的原因。 ( 4 ) 设计了一个多通道特征识别系统。本文提出了一种新的动态时间扭 曲( d t w ) 识别的方法,该法融合了语音和图像两方面的特征进行识别,最后 本文用实验证明了该方法的有效性。 关键词:唇动 a v s rm f c cd t w 多通道特征识别 r e s e a r c ho nk e y t e c h n o l o g i e so fh u m a n i d e n t i f i c a t i o nb a s e dl i pr e a d i n g m a j o r :c o m p u t e rs o f t w a r ea n dt h e o r y g r a d u a t e :l i u q i n gx u es u p e r v i s o r :d i n gy u a n a b s t r a c tw i t ht h er a p i dd e v e l o p m e n to fs c i e n c ea n dt e c h n o l o g y , h u m a n s c o n s c i o u s n e s so fs e c u r i t yi si m p r o v e dg r a d u a l l y t h et r a d i t i o n a ls e c u r i t y t e c h n o l o g yd o e s n tm e e tt h er e q u i r e m e n t so fs e c u r i t yq u a l i t ya tp r e s e n t t h e n ,t h e p e o p l et u n at om u l t i c h a n n e lr e c o g n i t i o nt e c h n o l o g ya n dm a k ei td e v e l o pf a s t n o w , t h et e c h n o l o g i e so fh u m a ni d e n t i f i c a t i o nb a s e dl i pr e a d i n gm a t c hr e s u l tm o r e e f f e c t i v ef o ra v s r ( a u d i ov i s u a ls p e e c hr e c o g n i t i o n ) i nt h i sp a p e r , s o m ek e y i s s u e so fl i pr e a d i n gt e c h n o l o g yh a v eb e e ns t u d i e d t h em a i nw o r k sa sf o l l o w s : d e s i g nae x p e r i m e n t a lp l a t f o r m f o r l i pr e a d i n g t h e a v s rd a t d b a s ei s t u l i p s ia n dt h en o s i et e s e tb a s e do na u r o r a 2 0 b e s i d e s ,t h ep l a t f o r mh a sb e e n i m p l e m e n t e db yo p e n c v 1 0f o ri m a g ef e a t u r ee x t r a c t i o ne f f e c t i v e d e s i g nat e s tm e t h o d sf o re x p e r i m e n t i nt h i sp a p e r ,w ea n a l y s e dt h em e t h o d s o fe x p e r i m e n tv e r yc l o s e l y ,e s p e c i a l l yt h ee r r o re s t i m a t i o na n dt h ea d d i n gm e t h o d o fn o i s e f i n a l l y ,u s er o t a t i o ne r r o re s t i m a t i o n e x t r a c t i o ns p e e c hf e a t u r ef o rl i pr e a d i n g i nt h i sp a p e r ,w eh a v ec o m p a r e d t h r e em e t h o d st oe x t r a c ts p e e c hf e a t u r ei n t h i ss t u d y , i n c l u d i n g :m f c c ( m e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t s ) ;p l p c ( p e r c e p t i o n o fl i n e a rp r e d i c t i o n c o e f f i c i e n t s ) ;e n e r g yc o m b i n ez r c ( z e r oc r o s s i n gr a t e ) t h ec o n c l u s i o ni s t h a t m f c ci st h eb e s tm e t h o do nt h ed a t a b a s et h a tw ec h o s e d d e s i g nam u l t i c h a n n e lr e c o g n i t i o ns y s t e mf o rh u m a ni d e n t i f i c a t i o n i nt h i s p a p e r ,an e wd t w ( d y n a m i ct i m ew a r p i n g ) f o rr e c o g n i t i o nh a sb e e np r o p o s e d t h e r e s u l to fe x p e r i m e n ts h o wt h a tt h en c wd t wi sm o r ee f f e c t i v e b o t hi m a g ef e a t u r e a n ds p e e c hf e a t u r eh a v eb e e nf u s e di nt h i sm e t h o d s k e yw o r d s :l i pr e a d i n g a v s rm f c cd t w m u l t i c h a n n e lr e c o g n i t i o n i l l 四川师范大学学位论文独创性及 使用授权声明 本人声明:所呈交学位论文,是本人在导师塞工丝撞指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任 何其他个人或集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。 本人承诺:己提交的学位论文电子版与论文纸本的内容一致。如因不符而 引起的学术声誉上的损失由本人自负。 本人同意所撰写学位论文的使用授权遵照学校的管理规定: 学校作为申请学位的条件之一,学位论文著作权拥有者须授权所在大学拥 有学位论文的部分使用权,即:1 ) 已获学位的研究生必须按学校规定提交印 刷版和电子版学位论文,可以将学位论文的全部或部分内容编入有关数据库供 检索;2 ) 为教学、科研和学术交流目的,学校可以将公开的学位论文或解密 后的学位论文7资料在图书馆、资料室等场所或在有关网络上供阅读、浏览。 本人授权中因科学技术信息研究所将本学位论文收录到中国学位论文 全文数据库,并通过网络向社会公众提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 一签名礴害滔 签字醐力吖峰硼7 日 翩虢锄 辩醐撇巾7 日 四j f i n 范大学硕士学位论文 1 引言 1 1 论文研究的背景 随着社会信息化程度的不断提高,人们对安全问题越来越重视,基于人 脸、指纹、虹膜、语音等生物特征的识别技术应运而生。 身份识别的不准确性给全球经济及社会的安全带来了巨大的威胁。据 m a s t e rc a r d 公司估计,美国每年约有4 5 亿美元的信用卡诈骗案件发生。特 别是“9 1 1 事件以后,人们意识到仅仅依靠口令、密码和身份证号码等手段 进行身份识别方法是不可靠的,任何人都可以利用这些信息将自己装扮成其他 人。传统的身份识别方法由于其易遗忘、易假冒等缺点,己经不符合现代社会 的需求。 身份识别方法可分为三类:拥有型、知识型和生物型引。 生物型又可以分为两类:生理型和行为型。生理型特征与生俱来,多为 先天性的,如指纹、人脸和虹膜。行为型特征则是习惯使然,多为后天形成, 如:声音、签名和步态。 拥有型和知识型都属于传统的身份识别方法,拥有型身份识别指对钥匙 类等身份授权的拥有,知识型身份识别指对密码类等信息的使用。可以看出与 生物特征相比,钥匙容易丢失或被盗,密码容易忘记或被窃取。 为了克服传统身份识别方法的缺点,人们提出了基于人体生物特征的识 别技术。它利用人体本身所固有的生理特征( 如指纹、虹膜、人脸等) 及行为特 征( 如书写、声音、击键等) ,通过模式识别的方法识别个人身份。由于这些生 物特征具有稳定、便捷、不易伪造等优点,近年来已成为身份识别研究的热点。 传统的计算机模式识别可以按照识别对象的不同分为两类,一是语音识 别,二是图像识别。通常,在不考虑运算成本的情况下,尽可能多地采用多通 道( 语音、图像甚至于其它方式的混合就是多通道混合) 技术可以提高识别率。 计算机模式识别识别是一门涵盖领域很广泛的科学,从个人计算机普及到如 今,各式各样的信息获取方式不断地出现,同时,各式各样的机率统计模型也 在不断改良。然而,模式识别应用于各个不同的应用领域时,也同时赋予了整 套识别系统不同的面貌,因而我们并无法定义出哪些方法绝对是“最好的识 四川师范大学硕士学位论文 别方法。一种方法在某应用中获得了极佳的识别率并无法表示同样的方法套用 在另一个应用上也能同样获得极佳的识别率,系统识别率的好坏往往取决于系 统设计者对该领域背景知识是否足够。 利用计算机科学的身份识别啪1 是一个以计算机科学为主,多学科为辅的 研究领域。在这个领域中,有着多种的识别理论和方法,基于唇语动态轮廓的 识别方法是其中起步较晚的一种,原因是,在传统的利用计算机科学的唇语研 究中,研究者往往只是注意唇语的语音特征,而忽略唇语的轮廓特征( 当然这 些忽略有其历史原因) 。直到1 9 9 6 年,瑞士的l u e t t i n 提出可以利用唇语轮 廓( t g 就是唇动) 进行身份识别n 朝,这样,基于基于唇语轮廓的识别方法才进 入了计算机科学研究的范畴。1 3 年间,许多科学工作者和研究组织投身其间, 其中不乏i b m ,i n t e l 这样的实力派机构。相较国外,国内对此的研究较为落 后。所以,在国内,基于唇语动态轮廓的身份识别更是一个崭新的研究主题。 随着多模态融合技术的发展n ,视觉信息和语音信息相融合口( a u d i o v i s u a ls p e e c hr e c o g n i t i o n :a v s r ) 将成为可能,它是指将说话时口形变化的 视频信息与语音信号相结合,共同完成语音识别。分而言之,首先,在应用上, 自动化身份识别技术本身就有着广大的前景。科学发展的一个主要目的就是以 机器的自动化解放人类的身体力行,从而提高生产力,比如在2 0 0 8 年北京奥 运中,部分分会场就采用了人脸识别门票阻刳,一方面取得了较好的效果,但另 一方面也还存在部分情况下需要人工干预验票的情况。作为自动化身份识别的 “新贵 ,基于唇语动态轮廓的识别方法能弥补传统方法的一些不足( 如:辅 助语音识别,辅助人脸识别等等) ,能够对自动化身份识别技术进行补充和完 善甚至革新,这就是一种价值。另外,在学术上,基于唇语轮廓的识别方法尚 处于起步阶段,所以有探讨的价值和必要。进而言之,本论文( 基于唇语动态 轮廓的身份识别关键技术研究) 是有其价值和前景的。其研究结果可以用于辅 助语音识别,辅助手语识别,聋人发音学习,身份识别等等。 唇读技术n 踟研究领域主要有两方面:一是与语音识别相结合的视觉特征 提取与识别。二是关于说话人个性特征的提取和识别。这两个研究领域并不是 互相割裂的,就应用而言甚至是相互交融的,随着多模态融合技术的发展,将 视觉信息和语音信息相融合( a u d i ov i s u a ls p e e c hr e c o g n i t i o n :a v s r ) 将成 2 四川师范大学硕士学位论文 为可能。 1 2 国内外研究现状 典型的生物特征识别系统( 见图一1 1 ) 由两个模块组成:注册和识别认 证。在注册过程中,首先登记用户的相关信息,然后通过传感器获取用户的生 物特征信息,接着利用特征提取单元提取特征,并形成用户的特征模版。在识 别认证过程中,除了要进行与注册过程相同的特征采集和提取外,还要把提 取的特征与预先注册在数据库中的特征模版进行匹配,从而验证用户的身份。 注册 书物特征识 别佟鐾器 颅缝髯和 梅铡:提取 颁处熙翮 特钰e 挺取 特征 “辑让 图一1 1 生物特征识别系统 系统教 据库 唇读”的概念n 踟起源很早,其意思是指通过说话者的嘴型变化,识别 出说话者的说话内容的过程( 也就是上面提到的的基于唇语动态轮廓的识别) 。 “唇读技术 是指用计算机对说话时口型变化的理解,广义讲也是对人脸表情 的理解。世界上第一个科学的唇读系统于1 9 8 4 年由p e t a j a n 完成,而后,在 世界范围内针对唇读的研究迅速兴起并成为人机交互领域的热点。美国,瑞士, 日本等国家的研究机构,对唇读的关键技术的研究取得了一些进展,其研究领 域主要有两方面: ( 1 ) 与语音识别相结合的视觉特征提取与识别。 ( 2 ) 关于说话人个性特征的提取和识别。 3 四川师范大学硕士学位论文 唇读技术的国内外发展历程如表一1 1 所示: 表一1 1 唇读技术的国内外发展历程 年份成果 1 9 5 4 年 1 9 8 4 年 1 9 8 9 年 1 9 9 1 年 1 9 9 3 年 1 9 9 4 年 1 9 9 5 年 1 9 9 6 年 1 9 9 8 年 1 9 9 8 年 2 0 0 0 年 2 0 0 0 年 2 0 0 4 年 2 0 0 8 年 s u n b y 等提出唇动( 1 i pm o v e m e n t ) 有助于语音理解。【2 0 1 p e t a j a n 等完成第一个唇读系统。剀 y u h a s n 等直接对像素进行特征提取,并用神经网络完成识别。阎 m a s e 等采用了光流法提取特征。 2 3 1 g o l d s c h e n 等采用了h m m ( 隐马尔科夫模型) 识别特征。 2 4 1 r a o 等利用可变模板提取特征1 9 1 。 w a b e l 等引入p c a ( 主成分分析) 结合t d n n ( 延迟性神经网络) 主 研究。 l u e t t i n 提出可以利用唇语轮廓进行身份识别。 p e n t l a n d 等引入3 d 建模。 ( 中) 徐彦君等完成中国第一个双语语料库c a v r s l 0 。【2 6 】 c 0 0 t e s 等采用a m m ( 主动面模型) 提取特征。 2 5 1 g r a n t 采用多尺度分析。【2 刀 a l e l 【s i c 结合m p e g - 4 描述唇动。1 2 8 】 m i l b o r r o ws 提出t r i m m e d m o d e l 模型。【l 】【2 9 】 2 0 0 9 年至今多种方法混合。 4 四川师范大学硕士学位论文 综上所述,唇读技术日趋完善,但是通过观察可以发现,唇读技术的研 究领域主要还是还是集中在与语音识别相结合的视觉特征提取与识别( 另一个 是关于说话人个性特征的提取和识别) ,其原因不外两点: ( 1 ) 语音识别技术更为成熟,信度更高,所以,当然以语音识别为主, 视觉识别技术为辅。 ( 2 ) 关于个人特征的提取和识别的有效方式较多,如:指纹识别,唇动 识别,步态识别,耳廓识别,人脸识别,语音识别等等,这些技术方法较之唇 动的视觉识别技术更为成熟。 其中,语音识别技术涉及到的具体技术大致如下: ( 1 ) 端点检测技术:基于时域、基于频域、结合其它特征。 ( 2 ) 特征提取技术:基于能量特征、基于m f c c 谱特征啼6 姗、基于混合 特征。 ( 3 ) 识别技术:基于隐马尔科夫模型( h m m ) d 扪、基于神经网络、基于 动态时间扭曲( d t w ) n 。 除步态与语音识别以外,以上所提及的识别方法基本上都可以归入单一 静态模式识别中( 当然其预处理可以动态修正) ,所以更为稳定,信度更高。 研究多通道的识别技术的理由如下: ( 1 ) 个人特征的提取与识别本来就应该是多方面的,人是“立体”的人, 人的每一部分都不是孤立的,都是有联系的,识别方式的多样化有助于提高识 别信度。 ( 2 ) 关于说话人个性特征的提取和识别自有其无法替代的独到的应用, 比如0 6 世界杯马特拉齐事件。 1 3 论文内容与结构 首先,本文的主题是是基于多通道混合特征识别。这里所谓的混合特征 就是图像特征和语音特征的综合。这是是一个属于多通道识别的范畴。 本文的主要研究内容是基于唇动的身份识别的关键技术。说话人的身份 识别成功与否取决与两个方面: ( 1 ) 对说话人信息的采集程度 5 四川师范大学硕士学位论文 ( 2 ) 所采用的识别方法 所采用的识别方法受制于第( 1 ) 点中对说话人信息的采集程度。本论文 按照就简不就繁的原则,在此给出说话人信息的采集程度的假设如下: ( 1 ) 说话内容指定 ( 2 ) 说话内容为孤立词 综上,本论文的章节排列如: l 引言 本章主要介绍了论文的研究背景、国内外研究现状以及论文的结构。 2 实验环境及相关设定 本章主要介绍了实验环境及相关的设定、搭建了实验平台、设定了实验 效果的检验方法。 3 唇动语音特征提取 本章主要是通过三种语音特征的提取方法的比对,选定最优的特征提取 方法。详细介绍了梅尔倒谱系数的提取流程。 4 唇动图像预处理 本章主要介绍了图像特征的预处理过程,为后面的特征识别打下基础。 5 特征的识别 本章主要介绍d t w 的识别算法,提出了基于多通道融合( 语音和图像特 征的融合) 的新的d t w ,并用实验证明了新方法的有效性。 6 四川师范大学硕士学位论文 2 实验环境及相关设定 2 1 实验平台的搭建 一个科学研究的成功与否需要一个科学客观的评价标准来判定,而一个 。 科学客观的评价标准离不开这一标准所指的对象。在本论文中这一对象就是产 生实验结果,凸显实验结论的实验平台。本论文所谓的实验平台由三方构成: 一是实验数据库;二是开发平台;三是第三方程序库。准确地说,所采用的操 作系统、硬件结构等等都是实验平台的要素,但是为了凸显起决定性作用的要 素,本论文只考虑以上三方的构成。 2 1 1 唇动数据库 本文所采用的唇动数据库是t u l i p s l ( 郁金香一号) 。t u l i p s l 是一个免 费的小型可视化语音数据库( a u d i o v i s u a ld a t a b a s e ) ,由j a v i e rr m o v e l l a n 收集建立。具体情况参见表一2 1 和图一2 1 。 表一2 1t u l i p s l 技术参数 技术对象技术参数 被采集人9 男、3 女共计1 2 人 采集对象 唇形格式 语音格式 采样率 文件大小 1 到4 的英文发音的唇动、 每人发音两组 p g m 格式、 8 - b i t 灰度图、1 0 0 7 5 像素、 每组6 幅( 帧) a u 格式 3 0 h z 1 3 刀 7 四川i 师范大学硕士学位论文 围一21t u l i p s l 詹形 t u l i p s l 数据库的优点是免费、公开、使用方便。缺点似乎是稍嫌。小巧”, 只有1 2 个人的4 样( o n e 到f o u r ) 发音,但是考虑到本文的要旨是研究基于 唇动的身份识别研究,那么关键在于是否是能满足研究需要现有的唇动数据 库要么是不能对外公开( 当然可以申请使用,但是不方便) ,要么是对外公开 却“体积”巨大。出于科学研究需要,最主要的是所选数据库能够体现出研究 的核心,能用、够用,能给出一个合理的、公开的研究平台。基于以上考虑, 本文采用t u l i p s 作为实验数据库。 t u l i p s l 可以在h t t p :m p l a bu c s de d u ? p a g e i d = 3 6 或是通过匿名阿p 在h t t p :e r g ou c s de d u l a b sh t m l 访问下载。 2 1 2 噪音数据库 本论文采用的噪音数据库是a u r o r a 20 “”。a u r o r a 2 0 是欧洲电信标准协 会( e u r o p e a nt e l e c o r m u n i c a t i o n ss t a n d a r d si n s t i t u t e ,e t s i ) 提供的标准 语料库。a u r o r a 2 0 提供了八种不同的噪音材料如下:地下铁( s u b w a y ) 、人声 ( b a b b l e ) 、汽车( c a r ) 、展览馆( e x h i b i t i o n ) 、餐厅( r e s t a u r a n t ) 、街道 ( s t r e e t ) 、机场( a i r p o r t ) 、火车( t r a i n ) 。相关的a u r o r a 2 0 技术细节如表一2 2 所示: 表一22a u r o r a 20 技术细节 技术对象技术参数 语音格式 采样率 文件大小 p c m 8 k h z 1 6 b i t 采用盯s ia u r o r a 2 0 的理由是:首先,e t s i 组织是一个非赢利性的电信 四川师范大学硕士学位论文 标准化组织;其次,e t s i 制定的推荐性标准常被欧共体作为欧洲法规的技术 基础而采用并被要求执行。综上,a u r o r a 2 0 语料库的使用同时具有免费性和 科学性,这为营造一个良好的实验环境提供了便利。 a u r o r a 2 0 可以在h t t p :w w w e l d a o r g a r t i c l e 2 0 h t m l 查阅下载。 2 1 3 开发平台 出于开发便利考虑,开发平台采用v i s u a lc + + 6 0 。v i s u a lc + + 是一个 功能强大的可视化软件开发工具。自1 9 9 3 年m i c r o s o f t 公司推出v i s u a l c + + 1 0 后,随着其新版本的不断问世,v i s u a lc + + 以其操作便利、帮助齐全 成为专业程序员进行软件开发的首选工具。 出于通用性考虑,开发平台采用v i s u a lc + + 6 0 。虽然微软公司推出了 v i s u a lc + + n e t ( v i s u a lc + + 7 0 ) ,但它的应用的很大的局限性,只适用于 w i n d o w s2 0 0 0 ,w i n d o w sx p 和w i n d o w sn t 4 0 。所以实际中,更多的是以v i s u a c + + 6 0 为平台。 考虑到第三方程序库( o p e n c v l 0 ,以下将介绍) 的配合使用,开发平台 采用v i s u a lc + + 6 0 。由于o p e n c v 的更新较慢、且新版较不稳定的,至今为 止,与稳定的o p e n c v l 0 兼容最好的仍旧是v i s u a lc + + 6 0 。 2 1 4 第三方程序库 本论文采用o p e n c v l 0 m 3 作为第三方程序库辅助开发。o p e n c v 的全称是: o p e ns o u r c ec o m p u t e rv is i o nl i b r a r y ( 开源计算机视觉库) 。o p e n c v 由i n t e l 公司支持,是一个开源的计算机视觉库。它轻量级而且高效。其由一系列c 函 数和少量c + + 类构成,实现了图像处理和计算机视觉方面的很多通用算法。 综上,采用o p e n c v l 0 的原因如下:首先是通用算法的支持带来的开发 便利,其次是开源带来的低成本,再有i n t e l 作为其支撑后台带来了技术优势, 最后是c 语言为基础的跨平台特性使得基于o p e n c v 的程序可移植性较强。 o p e n c v 的中文说明可在o p e n c v 中文网站:h t t p :w v a w o p e n c v o r g c n 取得。 9 四川师范大学硕士学位论文 2 2 实验检验方法 实验检验方法就是实验优劣的判定法,也就是判定实验效果的基本方法。 这个方法是最后实验效果好坏与否的“发言人一。只有统一了实验优劣判定法 才可以说是科学的实验,才会有科学的结论以下部分将介绍本论文所采用的 实验检验方法。 2 2 1 噪音的加入 为了模拟实际的识别环境,需要对所测试语音信号加入噪音,也就是将 a u r o r a 中的噪音按照一定的原则加入到t u l i p s 中去,藉以测试识别方法的有 效性。 本论文中的噪音加入法按照设定信噪比( s i g n a lt on o i s er a t i o ,s n r ) 的原则来进行。通俗的讲,所谓的设定信噪比,就是指将t u l i p s l 中的信号视 为“干净一的语音信号,而将a u r o r a 中的信号视为“不干净 的噪音,这样 的一个“干净”和“不干净的信号的比值就是s n r 值。具体的操作如图一2 2 。 _ 一忑 p 4 、1 r 齐戤售昌i 严状! 乡 o 、竺垮p 2 : 一 图一2 2 嗓音加入法示意图 1 计算平均能量。 以图一2 2 1 1 为例,在对齐两个信号p 1 _ p 2 、p 3 一p 4 信号的起点后,需 要计算信号p 1 p 5 、p 3 p 4 各自的平均能量五,g ) 、e ”o ) ,公式如下: 删= 古o ) 仫t , 1 0 四川师范大学硕士学位论文 其中, e p o ) :信号序列p 的平均能量。 z d l _ z ,:第i 个采样点的信号值。 彤:信号序列中的采样点的总数。 2 求得实验用信号。 以图一2 2 1 1 为例,因为本方案是基于固定s n r 的,所以只需改变噪音 信号p 1 1 2 的振幅,得到新的信号e 品g ) ,固定e 3 。( f ) 的信号不变,然后再将 e 0 ( i ) 与e 弘o ) 叠加即可。而改变噪音信号p 1 1 2 的振幅的比例就是s n r 。公 式如下: k ( f ) = ( f ) + 艺妇。( f ) 乙( f ) = x , 岫e ( i ) x k l( 2 2 ) 肛l u e o t a ( i ) ) x 1 0 - 詈r ) -le 妇( f ) 其中, ( f ) :得到的可用于实验的新信号的第i 个采样点的信号值。 x o 。4 ( i ) :原有的语音信号第i 个采样点的信号值,来之于t u l i p s 。 ( f ) :根据固定s n r 得到的新的噪音信号第i 个采样点的信号值。 妇( f ) :原有噪音信号第i 个采样点的信号值,来之于a u r o r a 。 k :为了固定s n r 而求得的配比系数。 e 脯( f ) :原有语音信号的平均能量。 k 。( f ) ;原有噪音信号的平均能量。 s n r :固定的信噪比。特别的,在本文中,s n r 设置为无、5 d b 、l o d b 、1 5 d b 、 2 0 d b 共计5 类进行测试,其中“无”意味着完全没有用到噪音时的状态。 只有加入噪音后的语音信号才可以进行实验比对。 2 2 2 预测错误率 预测错误率( e r r o re s t i m a t i o n ) 指的是所采用的实验手段发生分类判 定错误的机率,与预测错误率相对的另一个术语是预测正确率( r e c o g n i t i o n 四川师范大学硕士学位论文 r a t e ) ,指的是分类判定正确的机率,两者总和等于1 0 0 9 6 通常,要对实验 的优劣进行判定,就需要将所有的样本数据( s a m p l ed a t a ) 分成两部分,一 部份用以设计分类器( 在这里泛化地讲就是所采用的实验手段) ,其过程称之 为教师数据( t r a i n i n gd a t a ) l 一部份用以求得预测错误率错误率,其过程 称之为测试数据( t e s td a t a ) 。预测错误率的公式如下: 预测错误率z 坌毒蓁警 c 2 其中,对实验的优劣进行判定时,通常令测试数据为总的样本,测试数 据中分类错误的样本为分类错误的样本。 如果是有实验手段a 、实验手段b 相较,如若a 的预测错误率 b 的预测 错误率,那么就可以说实验手段a 优于实验手段b 2 2 2 1 外视预测错误率法 外视预测错误率法( a p p a r e n te r r o re s t i m a t i o n ) 指的是使用全部的数 据进行训练以设计分类器,之后再以同一组数据进行测试。这样的方式虽然充 分运用每一笔数据进行分类器设计,然而却欠缺对新数据的学习力,往往掣过 拟合一。这种全体数据参加设计分类器的实验手段测试,使得外视预测错误率 法估测出来的错误率往往较其它预测错误率法来小,因此欠缺科学客观性。以 二维散点拟合曲线为例,若是将所有相邻两点间直接连接得到折线视为是拟合 曲线的话,那么选取任意一个已知散点,都可以发现其必然在所拟合的曲线( 折 线) 上,继而得出结论,所有数据都通过检测! 这显然这是不科学的,因为对 大多数科学实验而言,实验的目的不是为了重现已有的数据结果而设计实验, 而是为了探求数据背后的实质,为了扩展实验适用的范围而设计的。 2 2 2 2 拒绝式预测错误率法 为了解决外视预测错误率法带来的问题,最简单的方式是将数据一分为 二,其中一部份a 用作分类器的设计,a 是教师数据,另外一部份b 用作测试, b 是测试数据。这种办法叫做拒绝式预测错误率法n 3 儿铂( h o l d o u te r r o r e s t i m a t i o n ) ,该法克服了外视预测错误率法的问题,能得到一个较为客观的 预测错误率,不过拒绝式预测错误率法就需要较多的数据,有浪费数据的可能。 1 2 四川师范大学硕士学位论文 在实际生活中中,数据量是有限的,拒绝式错误率却必须分出一部分的数据进 行错误测试,因而将导致设计出的分类器错误率较高( 一般而言,教师数据的 数据量越大,分类器的精确度越高) 。 将拒绝式预测错误率法做进一步的推广,可以分三步完成测试: 1 测试时以a 为教师数据,以b 为测试数据,得预测错误率e 1 2 改以b 为教师数据,a 为测试数据,得预测错误率e 2 3 最后再求这两次预测的平均错误率,得预测错误率: e :生竺 ( 2 4 ) 2 f ( z 4 ) 而这样的方法称之为双向拒绝式预测错误率法( t w o - w a yh o l d o u te r r o r e s t i m a t i o n ) ,e 就是双向拒绝式预测错误率。采用本法可以弥补简单拒绝式 预测错误率法浪费数据的问题,同时更充分地应用了数据,使得所得错误率更 加客观科学。 2 2 2 3 留一预测错误率法 留一预测错误率法口儿羽( 1 e a v e o n e - o u te r r o re s t i m a t i o n ) 是特征识别 中最常用的预测错误率方法,该法中每个测试数据都没有参与分类器的设计, 因此是一种较为公平的预测错误率方式。 求解整个预测错误率过程又称镰刀式流程( j a c k k n i f ep r o c e d u r e ) ,其 主要步骤如下所述: 1 f o ri = 1t on 2 先从教师数据( t r a i n i n gp a t t e r n s ) s n 中取出一笔数据x i 3 以剩余的数据s n - i 设计分类器,再以x i 对这个分类器进行测试, 求得单步预测错误率e i 4 e n d 5 得留一预测错误率: yp _ 一 o e = 卫b 旦_ 一 ( 2 5 ) 门 1 3 四川师范大学硕士学位论文 2 2 2 4 留一交又错误率法 最后要介绍的预测错误率法结合了“拒绝式错误率 及“留一错误率 的预测错误率法。假设我们有n 笔数据,留一交叉错误率法n 3 ( r o t a t i o ne r r o r e s t i m a t i o n ) 一开始必须先给定某个常数v ,然后将这n 笔数据任意分成n v 个子集合( s 。,s :,s 。a ) : 1 f o ri :1 n v 2 以s j 作为分类器设计的教师数据,其中,j = l ,2 ,n v ,j i 3 以s i 进行测试,求得单步预测错误率e i 4 e n d 5 得留一交叉错误率: q e 誊互生竺一 ( 2 6 ) 力 其中,当v = 1 时,留一交叉错误率即和留一预测错误率相等;当v = n 2 时,留一交叉错误率即和双向拒绝式预测错误率相等。可以看出,留一交叉错 误率法是一种广义的、有效的预测错误率的方法。本论文采用留一交叉错误率 法求得预测错误率。 在针对t u l i p s 的实际测试中,共计2 4 组数据集,每组数据集由语音和 图片两部分组成。v 的取值必然要被2 4 整除,2 4 有约数l 、2 、3 、4 、6 、8 、 1 2 、2 4 。那么去掉较大的v 值8 、1 2 、2 4 ,v 共计有1 、2 、3 、4 、6 五种取值。 本文中所得的留一交叉错误率e 即是这五种取值下的错误率的均值: q ;, p 皇上垃殳一 ( 2 7 ) 5 最后,根据预测错误率所求的识别率就是: e - l - e ( 2 8 ) 本文实验所采用的识别率就是的值。 1 4 四川师范大学硕士学位论文 2 3 本章小结 本章的目的有二,一是构建一个的可靠的实验环境;二是设定一种合理 的实验检验方法。进一步而言,首先是根据研究方向搭建一个实验平台,然后 在这一平台上研究不同的实验手段,以事先设定的实验检验方法检验实验手段 的有效性。综上,实验环境和实验检验方法是进行本论文研究的起点。 本论文所谓的实验平台由三方构成:一是实验数据库;二是开发平台; 三是第三方程序库。本论文所采用的唇动数据库是t u l i p s l ( 郁金香一号) 。 本论文采用的噪音数据库是a u r o r a 2 0 。开发平台采用v i s u a lc + + 6 0 。本论 文采用o p e n c v l 0 作为第三方程序库辅助开发。 本论文详细讨论了实验的检验方法。一方面是提出了噪音的加入方法、 另一方面是预测错误率的选定。本论文中的噪音加入法按照设定信噪比 ( s i g n a lt on o i s er a t i o ,s n r ) 的原则来进行。本论文采用留一交叉错误率 法求得预测错误率。 本论文通过以上的实验平台的搭建以及实验检验方法的设定,构建出了 一个科学、合理的实验环境。 1 5 四川师范大学硕士学位论文 3 唇动语音特征提取 3 1 语音信号处理准备 3 1 1 语音信号特性概述 一般来说,语音信号是属于时变性h 副( t i m e - v a r y i n g ) 的信号,其波形 变化快速。但从频率领域( f r e q u e n c yd o m a i n ) 上来观察数字语音信号,可发 现其频谱( s p e c t r u m ) 在短时间内变化缓慢,因此我们可把短时距内的语音信 号视为短时间稳定( s h o r tt i m es t a t i o n a r y ) 信号,这种看法直接产生了语 音信号处理的基本方法,那就是将语音信号视为可短时距处理( s h o r tt i m e p r o c e s s i n g ) 的。这种方法假设在一短时距中,语音信号的特性是固定的,通 常我们称这个短时距为一个音框( f r a m e ) ,示意见图一3 1 。 图一3 1 音框示意 基于以上的理论基础,可以初步地认定两点: ( 1 ) 音框内是线性时不变系统( l i n e rt i m e - i n v a r i a n ts y s t e m s ,简称 l t i s ) 。理由是音框内的语音信号为短时间稳定( s h o r tt i m es t a t i o n a r y ) 信号。 ( 2 ) 语音信号的特征就是其系统的固有函数( e i g e nf u n c t i o n ) 。理由 是在音框中语音信号的特性是固定的。更本质的原因是人体本身的发音系统就 是一个信号系统。人发音的过程,是由信号源( 声带) ,经过滤波器( 口、鼻、 嘴、舌) ,得到最后的声音,这个过程可以和频谱信号对应。 通过以上的分析,可以得出结论语音信号的识别就是信号系统滤波器的 1 6 四川师范大学硕士学位论文 识别。按照信号处理的惯例,首要的就是信号预处理。 3 1 2 语音信号预处理 语音信号预处理,主要有下列步骤,见图一3 2 。 图一3 2 语音信号预处理步骤 囤 3 1 2 1 取音框 取音框( t a k i n gf r a m e s ) 是语音处理必须的一个步骤。音框就是一个抽 象的包含信息点的范围。本文取2 5 6 点信号( 因为2 5 6 是2 的8 次幂便于处理) 为一个音框( 3 2 m s ) ,音框与音框之间重迭1 2 8 点( 1 6 m s ) ,即每次位移1 2 8 点后再取下一个音框,避免音框之间的特性变化太剧烈。取音框的过程参见图 一3 3 。 1 百 1 i 搋= 1 2 8 点 音框i 、,音榧i + 1 , xl 毳 。 时 矗 7 图一3 3 取音框 1 7 四川师范大学硕士学位论文 3 1 2 2 正规化处理 音量的大小会和每个音框的能量值息息相关,不同说话人、不同的声音 摄取设备( 如不同型号的麦克风) 所得到的音量有着差异,为了使得语音的比 较识别能够在一个统一的标准下( 此处是能量为标准) 进行,必须对语音信号 的能量( 音量) 做正规划( n o r m a l i z a t i o n ) 处理。 正规化的目标就是求得这样的个变换,使得变化后的测试数据能够和 已有的教师数据相比较,也就是说二者具有定程度( 此处就是音量) 上的可 比性。 对于某个完备的语音信号片段,假设, s 。( 历) :表示该信号第刀个音框中按时序编号为的信号值的大小。 n :一次完备的片段中切分后的音框总数,亦即音量强度曲线的长度。 :按时序,每一音框中的信号值所对应的编号最大值,即是音框大小。 按此,该完备的语音信号片段音量强度曲线y a g ( n ) 定义为: 一 ,一l , g a g ( n ) 毒万1 i ( 用) l ( 3 1 ) 。 i u 其中,厨:0 一肜一1 ,n :0 一n 一1 。语音信号正规化参见图一3 4 和图一3 5 ,其中l g a 9 2 ( i ) 墨3 。 曩a e 2 ( i ) l ( 6 + 3 + t + 2 + 0 ) 0 , = 3 图一3 4 语音信号正规化音框示意 1 8 四川师范大学硕士学位论文 - 不失一般性的,可以假设两条不同音量强度曲线:( j r 7 ) :彳、b 间存 在线性变换关系: 其中, - 彳0 + e = b (
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年永新县面向社会公开招聘城市社区专职网格员【37人】考前自测高频考点模拟试题及答案详解(历年真题)
- 2025福建漳州市南靖县住房和城乡建设局招聘1人考前自测高频考点模拟试题及答案详解(名校卷)
- 2025河南明珠集团招聘8人考前自测高频考点模拟试题及答案详解参考
- 2025黑龙江鸡西市社会治安综合治理中心招聘公益性岗位就业人员1人模拟试卷有答案详解
- 2025广东深圳九州光电子技术有限公司招聘生产主管等2人考前自测高频考点模拟试题(含答案详解)
- 贵州国企招聘2025黔南州国有企业工作人员招聘48人笔试历年参考题库附带答案详解
- 浙江国企招聘2025宁波甬江软件产业园开发投资有限公司招聘1人笔试历年参考题库附带答案详解
- 2025重庆市城市建设投资(集团)有限公司招聘7人笔试历年参考题库附带答案详解
- 2025重庆千信外经贸集团有限公司数字贸易部副部长招聘1人笔试历年参考题库附带答案详解
- 2025贵州黔东南州凯里瑞禾农业投资(集团)有限责任公司招聘工作人员缴费成功人数与招聘岗位人数达不到31比例岗位截止9月17笔试历年参考题库附带答案详解
- 乡镇卫生院管理制度
- 洗车店卫生管理制度
- JT-T 495-2025 公路交通安全设施产品质量检验抽样方法
- 2025-2030中国铜软连接行业市场现状分析及竞争格局与投资发展研究报告
- 2024-2025学年山东省济南市高一上册第一次月考数学学情检测试题
- 2025年印刷行业趋势分析报告
- 劳动教育的跨学科融合
- 2025年中考英语高频词汇表
- 《钠离子电池简介》课件
- 十八项核心制度
- 《水的组成说课课案》课件
评论
0/150
提交评论