(电路与系统专业论文)基于面部表情分析的情感语音识别[电路与系统专业优秀论文].pdf_第1页
(电路与系统专业论文)基于面部表情分析的情感语音识别[电路与系统专业优秀论文].pdf_第2页
(电路与系统专业论文)基于面部表情分析的情感语音识别[电路与系统专业优秀论文].pdf_第3页
(电路与系统专业论文)基于面部表情分析的情感语音识别[电路与系统专业优秀论文].pdf_第4页
(电路与系统专业论文)基于面部表情分析的情感语音识别[电路与系统专业优秀论文].pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东人学硕上学位论文 摘要 随着计算机在各个领域的广泛应用,语音识别作为人机交互的 关键技术越来越受到人们的重视。为了更全面的反映说话人的信 息,听视觉多模态语音识别逐渐成为研究的热点。语音情感识别是 多模态识别的一种,它让计算机在识别语音内容的同时又能判别说 话人的情感状态。本文以基于矢量量化( v q ) 算法的孤立词识别系统 和基于主成分分析( p c a ) 算法的图像识别系统为基础,构建听视觉 情感语音识别系统。 孤立词识别系统包括声学层识别和语法层修正两部分。为了改 善声学层识别系统的不足,本文研究了一种适用于孤立词识别、基 于词汇、短旬统计的2 元语法规则。该语法模型由词语矩阵和短句 矩阵两大部分组成,按照相应的规则对原始识别结果加以修正。测 试实验表明,识别率在语法规则的帮助下有了较为明显的改善。 本文从摄像设备录制的连续视频流中抓取特定时刻的人脸表 情图像,经过预处理和主成分分析,与表情模板库中的样本比较, 进而判别图像所属的情感类别。 为了在时间轴上实现语音识别和图像识别结果的同步对应,首 先在语音信号端点检测时,利用语音段之间的时间的差异产生标点 符号,以标点符号的产生时刻作为图像识别程序从视频中抓取图像 的时间点。再利用标点符号和图像的对应关系,把语音识别的输出 结果和图像识别的输出结果进行融合,最终产生带有情感标记的语 音识别结果。实验测试表明,这种综合识别系统能在识别语音内容 的同时反映说话人的情感状况。 关键字:孤立词识别;矢量量化;语法模型;表情识别;主成分分析 山东入学硕: :学位论文 a b s t r a c t w i t ht h ew i d ea p p l i c a t i o n so fc o m p u t e rt e c h n o l o g yi nv a r i o u s f i e l d s ,s p e e c hr e c o g n i t i o nb e c o m e sm o r ea n dm o r ei m p o r t a n tt o p e o p l e r e c e n t y e a r s a st h e k e yt e c h n o l o g y o fm a n m a c h i n e i n t e r a c t i o n i no r d e rt of u l l yr e f l e c tt h es p e a k e r sm e s s a g e ,t h es t u d y o fa v s r ( a u d i ov i s u a ls p e e c hr e c o g n i t i o n ) h a sb e c o m eah o t s p o t e s r ( e m o t i o ns p e e c hr e c o g n i t i o n )i s ab r a n c ho fa v s r ,i t r e c o g n i z e st h ec o n t e n to fv o i c ea n ds p e a k e r se m o t i o na t t h es a m e t i m e t h i sp a p e rc o n s t r u c t sa v s rs y s t e mw i t ha n i s r ( i s o l a t e d s p e e c hr e c o g n i t i o n ) s y s t e mb a s e do nv q ( v e c t o rq u a n t i z a t i o n ) a n d f e r( f a c i a l e x p r e s s i o nr e c o g n i t i o n ) b a s e do n p c a ( p r i - n c i p a l c o m p o n e n ta n a l y s i s ) a s i m p l es e m a n t i cm o d e li sp u tf o r w a r di nt h i sp a p e r ,t h em a i n c o n s t i t u t i o n so ft h i sm o d e la r ew o r dm a t r i xa n ds e n t e n c em a t r i x ,t h e y c o r r e c td e v i a t i o no fa c o u s t i cm o d e lb ym i n i m u m d i s t a n c ec r i t e r i o n a n dm a x i m u mp r o b a b i l i t yc r i t e r i o ni nt e m p l a t em a t c h i n g e x p e r i m e n t r e s u l ts h o w st h a tr e c o g n i t i o nr a t ei si m p r o v e dw i t ht h eh e l po ft h i s s i m p l es e m a n t i cm o d e l w eg e tf a c i a le x p r e s s i o np i c t u r e sf r o mc o n t i n u o u sv i d e os t r e a m s w h i c hr e c o r d e db yc a m e r a a f t e r p r e p r o c e s s i n g a n d p r i n c i p a l c o m p o n e n ta n a l y i n g ,w ed e t e r m i n ew h i c he m o t i o nk i n dt h ep i c t u r e b e l o n g st ob ym a t c h i n gu pw i t ht h et e m p l a t el i b r a r y i no r d e rt or e a l i z es y n c h r o n i z a t i o nb e t w e e ni s rr e s u l t sa n df e r r e s u l t s ,w eu s ep u n c t u a t i o n sw h i c hp r o d u c e di ni s rs y s t e mt oc o n t r o l t h et i m e sw h e nf e rs y s t e mg e t sp i c t u r ef r o mv i d e os t r e a m s ,a n df u s e t h o s ei n f o r m a t i o nb ym a r k i n gp u n c t u a t i o na n dp i c t u r e e x p e r i m e n t r e s u l t ss h o wt h a tt h i si n t e g r a t e ds y s t e mc a nr e f l e c ts p e a k e r se m o t i o n 3 山东人学硕士学位论文 w h i l er e c o g n i z i n gs p e e c h k e y w o r d s :i s o l a t e d - s p e e c h - r e c o g n i t i o n ;v e c t o rq u a n t i z a t i o n ; s e m a n t i cm o d e l ;f a c i a le x p r e s s i o nr e c o g n i t i o n ;p r i n c i p a lc o m p o n e n t a n a l y s i s 4 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师 的指导下,独立进行研究所取得的成果。除文中已经注 明引用的内容外,本论文不包含任何其他个人或集体已 经发表或撰写过的科研成果。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:丝鲷 日期:至旦旦星三z 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的 规定,同意学校保留或向国家有关部门或机构送交论文 的复印件和电子版,允许论文被查阅和借阅;本人授权 山东大学可以将本学位论文的全部或部分内容编入有 关数据库进行检索,可以采用影印、缩印或其他复制手 段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:蕉盟导师签名:昏丝日期:塑:f 彬 山东人学硕上学位论文 1 1 引言 第一章绪论 传统的语音识别只是从语音方面辩别说话人所说的内容,忽视 了人在说话时的表情,神态等信息。而表情是人类用来表达情绪的 一种基本方式,是非语言交流中的一种有效手段。人们可通过表情 准确而微妙地表达自己的思想感情,也可通过表情辨认对方的态度 和内心世界【。 近些年来,随着多媒体技术的不断发展,计算机在识别语音的 同时又能识别说话人的面部表情、情感等信息的研究越来越引起人 们的兴趣。这种综合识别系统融合了语音和说话人面部表情等多方 面的信息。不仅表达了更丰富的内容,而且生动形象,易于被人们 所接受,在玩具、语音短信、教育等行业中也更易于推广。 1 2 语音识别技术的发展 语音识别的研究工作开始于5 0 年代,第一个语音识别器 ( s p e e c hr e c o g n i z e r ) 是美国贝尔( b e l l ) 实验室的d a v i s 等人l9 5 2 年设 计的1 2 ,该系统利用模拟电路将语音频带以9 0 0 h z 为界,形成第一, 第二“共振峰”,与参考模板进行匹配。以此完成10 个语音数字的 识别【3 】【4 1 。 7 0 年代是语音识别研究的关键时期,这期间最具代表性的成果 是线性预测编码( 1 i n e a rp r e d i c t i v ec o d i n g ,l p c ) 方法【5j 和动态时间规 整( d y n a m i ct i m ew a r p i n g ,d t w ) 技术【6 1 。这些技术的成熟使得孤立 词发音和孤立语句发音的识别成为了现实。 8 0 年代,连续词识别成为了研究的重点。用于连接词识别的分 层构筑技术得到发展。另一个重要的发展是语音识别算法从模板匹 5 山东人学硕上学位论文 配技术发展到基于统计模型的技术。其问,美国c m u 大学的 j k b a k e r 等人将隐马尔可夫模型( h m m ) 【7j 【8 1 应用到语音识别领域, 取得极大的成功,成为语音识别的主要研究方法。 进入9 0 年代,语音识别研究的重点转向自然语言的识别处理, 同时,人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k s ,a n n ) i9 j 技术的应 用成为语音识别的一条新途径。 2 0 0 0 年以后,人机语音交互成为研究的焦点。重点包括机器对 人们自然口语的识别、理解,以及多语种的语音同声翻译。 国内的语音识别研究工作最早开始于中科院声学所。五十年代 后期,中科院声学所用频谱分析的方法研究了汉语10 个元音的语音 识别【1 0 】,到7 0 年代后期,构建了基于模板匹配的孤立词语音识别 系统。从19 8 7 年开始施行国家8 6 3 计划后,国家8 6 3 智能计算机专家 组为语音识别技术研究专门立项。在汉语语音识别方面,我国科研 人员取得了一系列研究成果,总体上已达到国际先进水平。中科院 自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海 交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机 构都在进行语音识别方面的研究。 1 3 语音识别的主要方法 实现语音识别,最常用的方法有如下几种: 1 3 1 动态时间规整模型( d t w ) 动态时间规整算法( d t w :d y n a m i ct i m ew a r p i n g ) 是由6 0 年代 学者i t a k u r a 提出的】。其思想就是把未知量均匀的伸长或缩短, 直到与参考模式的长度一致。在这一过程中,未知单词的时间轴要 不均匀地扭曲或弯折,以使其特征与模型特征对正。d t w 算法的不 足之处是运算量大,对语音信号的端点检测数过大和未能充分利用 语音信号的时序动态信息等等。因此,主要用于孤立词、小词汇等 6 山东人学硕i :学位论文 相对简单的汉语语音识别系统。 1 3 2 隐马尔可夫模型( hm m ) 隐马尔可夫模型( h m m ) 7 0 年代被引入语音识别技术,它使得非 特定人连续语音识别成为了可能。目前,h m m 方法现已成为语音 识别的主流技术,大多数大词汇量、连续语音的非特定人语音识别 系统都是基于h m m 模型的。h m m 是对语音信号的时间序列结构建 立统计模型,将之看作一个数学上的双重随机过程:一个是用具有 有限状态数马尔可夫( m a r k o v ) 链来模拟语音信号统计特性变化的 隐含的随机过程,另一个是与m a r k o v 链的每一个状态相关联的观 测序列的随机过程。前者通过后者表现出来,但前者的具体参数是 不可测的。人的言语过程实际上就是一个双重随机过程,语音信号 本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要 ( 不可观测的状态) 发出的音素的参数流。可见h m m 合理地模仿了这 一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是 较为理想的一种语音模型。 1 3 3 矢量量化( v q ) 矢量量化是2 0 世纪7 0 年代末才发展起来的2 引。它是一种重 要的信号压缩方法,广泛应用与语音编码、语音识别、语音合成等 领域。其过程是:将语音信号波形的k 个样点的每一帧,或有k 个参 数的每一参数帧,构成k 维空间中的一个矢量,然后对矢量进行 量化。量化时,将k 维无限空间划分为m 个区域边界,然后将 输入矢量与这些边界进行比较,并被量化为“距离 最小的区域边 界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出 好的码书,并从实际效果出发寻找到好的失真测度定义公式,设计 出最佳的矢量量化系统,使得能够用最少的搜索和计算失真的运算 量,实现最大可能的平均信噪比。矢量量化虽然会带来一定程度的 7 山东大学硕士学位论文 信息损失,但由于其有良好的数据压缩性,又无需时问规整,因此 在小词汇量、孤立词的语音识别中得到广泛的应用。 1 3 4 人工神经网络( a n n ) 方法 人工神经网络( a n n ) 是8 0 年代末期提出的一种新的语音识别 途径。它本质上是一个自适应非线性动力学系统,模拟了人类神经 活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性, 其强大的分类能力和输入输出映射能力在语音识别中都很有吸引 力。目前应用于语音识别领域的神经网络主要有多层感知器网络、 k o h o n e n 自适应神经网络和预测神经网络,而多层感知器网络中的 径向基函数神经网络( r a d i a lb a s i sf u n c t i o nn e u r a ln e t w o r k ,r b f n n ) 应用很普遍i l4 1 。r b f 神经网络可以根据具体问题确定相应的网络拓 扑结构,具有很强的自适应和自组织能力,学习速度快,且不会出 现局部极小值问题。 1 3 5 语音识别中的语言模型 良好的语言模型对中、大词汇量的语音识别系统非常重要。语 言是建立在语法基础之上的文字组合,当声学层判决分类错误时, 可以利用语言模型对结果进行纠正。语言模型应用于语音识别中要 解决两个问题:一是能够用数学模型来描述语言中词的语言结构;二 是在给定这样一种结构的基础上,如何把它和模式识别器结合找出 一种有效的识别算法。目前比较成功的语言模型通常是采用统计语 法的语言模型,如二元文法( b i g r a m ) 和三元文法( t r i g r a m ) 【】,或 者基于规则语法结构命令语言模型。语法结构可以限定不同词之间 的相互连接关系,减少识别系统搜索空间,因而有利于提高系统的 识别率。语言模型主要分为规则模型和统计模型两种。统计语言模 型是用概率统计的方法来揭示语言单位内在的统计规律,其中n 元 语言模型( n g r a m ) 。简单有效,被广泛使用。n g r a m 模型基于这样 r 山东人学硕i j 学位论文 一种假设,第n 个词的出现只与前面n 1 个词相关,而与其它任何词 都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以 通过直接从语料中统计n 个词同时出现的次数得到。 1 4 人脸表情识别技术的发展 l9 71 年美国心理学家e k m a n 和f r i e s e n 定义了6 种基本情感类 别【l6 】:惊奇、恐惧、厌恶、愤怒、高兴、悲伤。并于l9 7 8 年开发 了面部动作编码系统( f a c i a la c t i o nc o d i n gs y s t e m ,f a c s ) 来检测 面部表情的细微变化【i 。系统将人脸划分为若干个运动单元a u ( a c t i o nu n i t ) 来描述面部动作,这些运动单元显示了人脸运动与表 情的对应关系。6 种基本表情和f a cs 的提出具有里程碑的意义, 成为后来表情识别研究工作的基础。19 9 1 年m a s e 和p e n f l a n d 利用8 个方向上跟踪光流特征的变化来检测f a c s 中的运动单元。19 9 7 年e s s a 提出了基于视频的动态表情描述方法f a c s + ! ”】,解决了 f a c s 中没有时间描述信息的问题。f a c s + 充分考虑了时间和空间 变化特性,可用于动态建模和运动估计,克服了f a c s 对动态表情 特性描述的不足,在进行表情分析时通过光流法来分析视频中的脸 部数据。鉴于表情识别领域绝大多数是基于二维图像的,2 0 0 5 年 中国科技大学的研究者提出了一种基于三维数据的人脸表情识别 方法,给出了基于三维特征的眼角和嘴角新的提取算法。 清华大学、哈尔滨工业大学、中科院、中国科技大学等都有人 脸表情识别的研究。第一届中国情感计算与智能交互学术会议和 首届国际情感计算及智能交互学术会议在中国的举行,极大推动了 我国表情识别技术的发展。国家“8 6 3 计划、国家自然科学基金 等都对此提供了项目资助。 1 5 人脸表情识别的主要方法 人脸表情识别系统主要包括三方面的内容:人脸检测与定位, 9 山东人学硕士学位论文 脸部表情特征提取和表情分类。 1 5 1 人脸检测与定位 人脸检测与定位就是在输入图像中找到人脸确切的位置,它是 人脸表情识别的第一步。人脸检测的基本思想是用知识或统计的方 法对人脸建模,比较待检测区域与人脸模型的匹配程度,从而得到 可能存在人脸的区域。其方法大致可分为以下两类【”1 : 基于统计的人脸检测:将人脸图像视为一个高维向量,将人脸 检测问题转化为高维空间中分布信号的检测问题。 基于知识的人脸检测:利用人的知识建立若干规则,从而将人 脸检测问题转化为这些规则下的判别问题。人脸遵循一些普遍适用 的规则。比如脸部不同区域的明暗关系不变、眼睛的灰度总是比前 额和颧骨低、鼻梁的灰度一般比两侧亮、人脸的轮廓可以简单地看 成一个近似椭圆等。 1 5 2 表情的特征提取 表情特征的提取根据图像性质的不同主要分为两大类:静态图 像特征提取和序列图像特征提取【20 1 。静态图像中提取的是表情的 形变特征,即表情的暂态特征。而对于序列图像不仅要提取每一帧 的表情形变特征还要提取连续序列的运动特征。形变特征提取必须 依赖中性表情或模型,把产生的表情与中性表情做比较从而提取特 征,而运动特征的提取则直接依赖于表情产生的面部变化。静态图 像特征提取的常用方法有:主成分分析( p r i n c i p a lc o m p o n e n t a n a l y s i s ,p c a ) ,小波法( g a b o r ) 等。动态图像特征提取的常用方法 有:光流法,特征点跟踪法和差分图像法。 1 0 山东人学硕j j 学位论文 1 5 3 表情识别方法分类 表情识别方法主要分为以下四种: 基于模板的匹配方法:为每一类要识别的表情建立一个模板集 合,将待测表情与每种表情模板进行匹配,匹配度越高,则待测表 情与某种表情越相似。对6 种典型的基本人脸表情可以建立相应的 6 种模板集合。 基于神经网络的方法:神经网络很适合于解决非线性问题。网 络的输出节点对应于6 种基本表情和中性表情。p a d g e t t 等使用反向 传播算法训练人工神经网络在e k m a n 人脸表情库上能够达到8 6 的识别率。 基于概率模型的方法:估计表情图像的参数分布模型,分别计 算被测表情属于每个类的概率,取最大概率的类别为识别结果。如 b a y s 决策,h m m 等。隐马尔可夫模型是一个统计模型,具有十分 健壮的数学结构,适用于动态过程时间序列建模并具有强大的时序 模式分类能力,理论上可以处理任意长度的时序。19 9 5 年s a k a g u c h i 首先将h m m 应用到图像序列,实现人脸表情的识别。 基于支持向量机( s v m ) 的方法:支持向量机s v m 2 1 1 是一种两 类分类器,其基本思想是将训练样本经非线性变换映射到另一高维 空间中,在变换后的高维空间内寻找一最优的分界面,在类间空隙 最大的情况下将样本无错误或接近无错误分开。由于表情识别一般 是多类别的分类问题,因此需要将s v m 方法扩展到多类别的情形。 主要有两种策略,一种是将多类别问题分解成一系列二类别问题来 求解;另外一种是将包含一类不同样本的多类别问题分解成一个二 类别问题,每次任选c 类样本作为二类别问题的一类,剩下的c 1 类样本作为另一类。 1 6 论文内容安排 本文涉及的内容主要集中在语音识别系统中的语言模型设计 山东人学硕士学位论文 以及表情识别系统的设计两方面。提出了在语音识别系统中通过用 表情分析获取人的情感信息的方法后,为检验其有效性,在m a t l a b 程序环境中构建了一个由语音识别和表情识别组成的综合识别系 统,并对该系统进行了测试。 在本文的第二章中详细介绍了基于矢量量化算法的语音识别 系统的实现过程以及实验结果分析。第三章介绍了基于主成分分析 方法的人脸表情识别系统的实现过程以及实验结果分析。第四章主 要介绍了语音识别系统和表情识别系统如何同步结合,并分析了综 合识别结果。第五章对本文所做的工作进行了总结。 1 2 山东大学硕七学位论文 2 1 系统原理 第二章语音识别系统 本章实现了基于矢量量化( v q ) 算法的以单音节为识别单位的 小词汇量识别系统,该系统主要由声学层和语法层两部分组成,其 原理如图2 1 所示: 2 2 语音库 图2 1 语音识别原理 本文中的语音库由语音信息和语法信息两部分构成。 2 2 1 语法文本 词语的搭配方式、长短句的组成规则等丰富的语法信息都包含 在文章中。因此,为了让系统掌握语法规则,必须让程序“阅读一 相关的文章材料,这些文章材料由系统默认和使用者自行添加两部 分组成。材料越多,文字组合越丰富,系统掌握的语法规则越多, 越有助于提高识别率。 2 2 2 音库 系统以音节为最小识别单位。音库由音频文件库和其对应的文 字表两部分组成,每一个文字都对应几个经过训练的音频样本。为 1 3 山东大学硕士学位论文 了在模板匹配时提高程序运行速度,系统将音库按照用途分类,对 于小词汇量系统,我们可以分为日常用语、人名地名、专业名词和 其它词汇这四类。在应用时可以根据实际情况具体选择相应的音 库。音库选择范围越小,程序运行时间越快,但由于匹配模板数目 的下降,识别率会有所降低。 音库文字表的具体内容取决于语法文本,一般情况下,应包括 语法文本中的所有字。实际应用中如果文字表字数少于语法文本中 的字数,对识别率影响不大,但如果文字表中出现语法文本中没有 的新字,由于其不包含语法相关信息,识别时出错。为提高新字的 识别率,应该在语法文本中添加新字相关的词语或者短句,使程序 掌握新字的语法规则。 文字表形成后,要建立与其对应的音频样本。为了提高自然语 音的识别率,音频样本构建时,使用者先以较慢的语速阅读语法文 本中的文章段落,再通过端点检测程序将之前阅读的连续语音流切 分成单字语音集合,从而形成单字音频样本。为了保证这些单字音 频样本和文字表中的字一一对应,在语速较快时要进行必要的人工 干预修复,为了提高模板匹配的正确率,每个单字对应不低于两个 音频样本,即使用者至少阅读相关材料两遍以上。 2 3 声学层语音识别系统 2 3 1 预处理及端点检测 语音信号是时间和幅度都连续变化的一维模拟信号,要想在计 算机中处理,就要先进行采样和量化,使其变为时间和幅度都离散 的数字信号。在本程序中,语音录入时,通过声卡采样,将连续语 音信号变为一组离散数据流。虽然语音信号是非平稳时变信号,但 在3 0 m s 以内其特性基本保持不变【2 2 1 ,可将其看成一个平稳过程。 基于这样的考虑,要对已经采样得到的离散语音数据流做短时处 理,可利用m a t l a b 语音工具箱v o i c e b o x 中的e n f r a m e 函数实现对语音 1 4 山东人学硕上学位论文 的分帧处理【23 1 。考虑到帧长过长影响程序数据处理速度,每一帧 帧长我们取2 5 6 个采样点,帧移取12 8 个采样点。由于语音信号的功 率谱随频率的增加而减小,其能量大部分集中在低频范围内,这就 造成信号高频端的信噪比可能降到不能容许的程度,为了克服这 现象,在前端处理时加入一个预加重滤波器。选用的预加重滤波器 如下式: h ( z ) = | - - a z 2 一l 式中仅为预加重系数,范围为0 9 口 1 0 ,本文取0 9 37 5 。 语音信号的能量随着时间的变化比较明显,一般清音能量比 浊音能量小得多【24 1 。语音信号的短时的能量分析给出了反映这 些幅度变化的一个合适的描述方法。利用短时能量可以判定有声 段和无声段以及对连字分界。由于短时能量是对信号进行平方运 算,因而增加了高低信号之间的差距,这里采用短时平均幅度来 表示能量的变化,计算短时能量的公式为: n + _ - 1 b = lx w ( m ) i 2 2 式中n 为帧序号,为帧长。 语音信号中,清音的频率高于浊音的频率,依据这一特点,可 以对声母和韵母进行分界,短时过零率可以在一定程度上反映其频 率的特性。但短时平均过零率容易受到低频的干扰,在随机噪声 干扰下容易产生虚假过零率。为了解决此问题,可以设置一个门 限值s ,= 1 8 ,s ,= 2 3 ,将过零率的含义修改为跨过正负门限的次 数。计算短时过零率的公式为: z = 墨 l 唧【删卅印1 ) 卅l + i 印【删卅一酬砌一1 ) 卅i ) 砌一砷 2 3 其中,丁取经验值0 0 2 。 通过计算短时平均能量e 和短时平均过零率乙采用双门限法 判断每个音节的起点和终点。汉语音节由声母和韵母组成,声母多 为清音,而韵母多为浊音,浊音的能量较大,利用短时平均能量确 定浊音的大致位置,而清音的频率高,利用短时过零率确定清音的 1 5 山东大学硕。 :学位论文 起始位置。具体实现过程如下: 先根据经验设定一大一小两个固定的能量值e = 1 0 ,巨= 2 ,再 求得当前帧的最大能量e 一,确定高能量门限e 。= m i n ( 毛,e 一4 ) , 低能量门限e ,= m i n ( e i ,e 一8 ) 。这样既能把能量判决门限控制在固 定范围内,又能根据当前的实际能量大小相应的调节判决门限的大 小,实现自适应的效果。 端点检测时,如果能量幅度大于e 。,一定处于语音段,而且 很大的可能是浊音。当浊音段确定后,再以两个浊音确定点为起始 分别向前后搜索,只要短时能量幅度大于e ,还可以确定为语音段, 清音虽然能量很小,但频率却较大,用短时过零率来确定清音段。 在此之前,要先设定过零率判决门限乙,只有当过零率大于乙且能 量幅度大于e ,时才可确定为清音段。由于汉语音节尾音大部分都是 浊音,所以当尾音段的能量小于e ,即可认为语音段结束。 2 3 2 提取m f c c 特征参数 由于m e l 频率能更好的反映入耳的听觉特性,故采用m f c c ( m e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t s ) 作为语音段的特征参数【2 5 1 。 m e l 频率与物理频率的关系如下: m t n = 2 5 9 5 x t n ( 1 可7 0 0 ) 2 - 4 f ( m ) = 7 0 0 x ( e 刚笛一1 ) 2 5 m f c c 参数的提取过程如图2 2 所示 耳卫v l 埘 双叫 加窗 m e l 频率溏波d ( 玎求倒 _ d f t 厅。f t 器组 对数能量 _ _ _ 谱 图2 2h f c c 系数提取过程 为了克服帧边界的吉布斯( g ib b s ) 效应,要对所分的各帧加窗 处理,设帧信号为s ( n ) ,窗函数为w ( 力) ,则加窗后的信号x ( n ) 为: 石( 刀) = s ( 刀) 似,1 ) 2 - 6 式中:0 刀 n l ;为每帧的取样点数。 1 6 山东大学硕? 1 :学位论文 文中采用h a m m i n g 窗,其窗函数为: w ( n ) - 0 5 4 - o 4 6 c o s 【( 器) 】 ( o 胚n - 1 ) 2 - 7 式中为窗长,本文取为语音帧长。这一步得到每帧的时域信号 x ( 刀) 。 由于d f t ( 离散傅里叶变换) 的运算量较大,为提高程序运行速 度,采用高效的f f t ( 快速傅里叶变换) 把语音帧由时域变换到频域。 由于每一帧取样2 8 ,即2 5 6 个样值,可以调用m a t l a b 中的f f t 函数直 接计算。 实验表明,只有当两个频率分量相差一定带宽时,人类才能将 其区分,这个带宽称之为临界带宽,根据这一点,可以构造临界带 宽滤波器组来模仿人耳的听觉特性,这组滤波器的中心频率厂( 所) 在 m e l 频率域内呈线性分布,带宽在临界带宽之内。其计算公式为: 伽) _ ( 扣堋胁掣】 2 8 式中函数m ( f ) 和f ( x ) 如式2 - 4 和2 - 5 定义,只为采样频率,五、彳为 滤波器的频率应用范围的最高频率和最低频率,本文中z = 0 , 五= c 2 ,n 为f f t 窗宽。 滤波器的个数,一般在2 4 4 0 之间,本程序取m = 3 x l n ( f , ) ,其 中采样频率c = 2 2 0 5 0 h z ,故m = 3 0 。由于前若干维以及最后若干维 的m f c c 系数对语音的区分性能较大,同时考虑到程序运行速度和 计算复杂度,本文取前2 0 维系数。每个滤波器具有三角形滤波器特 性,中心频率为( 聊) ,当所值小时厂( 朋) 相邻的间隔也小,随着m 的 增加相邻厂( 坍) 的间隔逐渐增大。每个带通滤波器的传递函数如下: 以( 七) = ( 七 f ( m l ” ( 厂( 研1 ) k 厂( 加) ) ( 0 m m ) 2 9 ( 厂( 肌) k f ( m + 1 ) ) 为了使结果对噪声和谱估计误差有更好的鲁棒性,一般将上述 1 7 l “生肋恤一他m 一吖 。斛肋。 山东人学硕上学位论文 经过m e l 滤波器组得到的m e l 频率取对数能量,如下式 跏h n ( 和划2 ) 邮朋 m ,2 圳 这样就从线性频谱x ( k ) 得到了对数频谱s ( m ) 。 将上述对数频谱s ( 珑) 经过离散余弦变换( d c t ) 变换到倒频谱 域,得到m e l 频率倒谱系数( m f c c 参数) c ( n ) : c = m 萎- ! 跏胁( 驾掣) 邮聊 m ,2 州 2 3 3 基于v q 矢量量化算法的模板匹配 2 3 3 1 模板训练和码本的生成 v q 码本设计直接影响到v q 的量化质量。生成码本最基本也是 最常用的算法是l b g 算法,l b g 聚类算法是一个迭代的过程,总的 思路是首先求出m 个矢量的中心矢量c 0 及c 个质心,然后按最临近 原则将m 个矢量按质心分类,并求出总体失真,在归类的基础上求 出新的质心,在进行归类,并求出新的总体失真。如此循环,当前 后两次迭代使得总体失真的相对误差小于迭代精度时,迭代结束 2 6 1 o 首先训练语音库中的样本形成v q 码本,其过程如下: ( 1 ) 计算音库中所有样本语音的m f c c 特征参数集合 s = s l s 2 s 3 9 o o ,】,刀为样本语音个数。 ( 2 ) 设置迭代算法的最大迭代次数k 。 ( 3 ) 设置畸变改进阈值艿,艿设置的尽量小,我们取8 = 0 0 l 。 ( 4 ) 设置m 个初始码字z o ,p ,f ,o 。 ( 5 ) 设置畸变初值d ( 0 ) = c o 。 ( 6 ) 设置迭代初值m = l 。 ( 7 ) 根据最近邻准则将s 分成肘个子集s ,最刚,岛,府, d ( x ,y ) 表示x 和y 的欧氏距离,可计算d ( x ,x 卜1 ) d ( x ,y j l - i ) ) 。 1 8 山东人学硕一l :学位论文 ( 8 ) 计算总畸变d ”: 村 d 似) - d ( x ,矿”) i = ij e s ( 9 ) 计算畸变改进量衄m 的相对值万伽: 肚等:丁d m - 1 ) = d ( m ) ( 10 ) 计算新码字z 佃,e 佃,匕佃,册; 。 驴t 专, 2 12 2 一l3 2 14 ( 11 ) 万 j 否,若回答为是,转入第13 步执行,若回答为否, 转入弟12 步执行; ( 12 ) 聊 上否,若回答为否,转入第13 步执行,若回答为是,令 m = m + l ,转入第7 步执行; ( 13 ) 迭代终止,输出x ,e ,艺,”为码字。并且输出 总畸变d ( 。 ( 14 ) 结束。 上述l b g 算法中,阈值万需要设的远小于l ,以保证最后码本是 足够稳定的。在实际运算中,由于l b g 算法生成码本的好坏与初始 码本有很大关系,所以文中采用改进的l b g 算法,即先由分裂法产 生只有1 个矢量的初始码本,再由l b g 算法聚类,生成1 个子集;1 个子集分别用分裂法各产生1 个矢量的码本,再用l b g 算法优化, 如此反复8 次可产生含2 8 个矢量的码本。 2 3 3 2 模板匹配 音库中的模板样本经过训练后形成v q 码本。模板匹配就是待 识别语音和模板库中的所有样本相比较,通过计算它们之间的距 离,找出与测试语音最相似的模板样本语音作为输出结果。本文中 模板匹配过程如下: ( 1 ) 待识别语音经过预处理,提取m f c c 系数后得到2 0 行,列 1 9 山东大学硕上学位论文 的矩阵。记为x 。模板库中经过矢量量化后的模板样本语 音以2 0 行,k 列的矩阵形式保存,记为y 。其中k 是v q 码 本的尺寸,这里k 取16 。 ( 2 ) x 和y 的距离d 的计算过程如程序所示: d = d i s t e u ( v ,c o d e 1 ) ) ; 【m x ,n 】= s i z e ( x ) ; 【m y ,k 】= s i z e ( y ) ; i f ( m x - = m y ) e r r o r ;矩阵维数不一致,无法比较 e n d d = z e r o s ( n ,k ) ; i f ( n k ) c o p i e s = z e r o s ( 1 ,k ) ; f o rn = 1 :n d ( n ,:) = s u m ( ( x ( :,n + c o p i e s ) - y ) 2 ,1 ) ; e n d e l s e c o p i e s = z e r o s ( 1 ,n ) ; f o rp = 1 :k d ( :,p ) = s u m ( ( x - y ( :,p + c o p i e s ) ) 2 ,1 ) ; e n d e n d d = d 0 5 ; ( 3 ) 通过第二步求出距离d 是一个n xr 或者r x n 的矩阵,通过 下列步骤将矩阵d 变换为描述x 和y 相似度的标量d i s t ,从而 通过和判决门限比较输出结果。 d i s t m i n = i n f ; f o rj _ - 1 :l e n g t h ( c o d e ) ; d _ - d i s t e u ( v ,c o d e 1 ) ) ; d i s t = s u m ( m i n ( d ,【】,2 ) ) s i z e ( d ,1 ) ; 山东大学硕 :学位论文 i fd i s t d i s t m i n d i s t m i n = d i s t ; e n d e n d 2 4 语法修正模型 声学层识别结果由于缺乏语法相关的信息相互独立,在语速较 快的的情况下识别率大幅下降,并且无法区别同音字,对一些发音 相似的音节也容易产生混淆:为了提高识别率,应该在语法层利用 相应的语法规则,对声学层的识别结果加以修正,我们选择的语法 规则由词语矩阵和短句矩阵两大部分组成。 2 4 1 词法层判别 2 4 1 1 词语矩阵 词语矩阵建立前,先让程序“阅读语法文本,统计出语法文 本中所有不同的字,以及这些字后面出现过哪些字及其出现的概 率,将结果以a s c i i 码的形式保存在一个c e l l 矩阵中。例如: 语法文本中内容为:“你好,北京欢迎你,祝你愉快”,系统读 入后产生词语矩阵如图2 3 所示: 2 l 山东人学硕上学位论文 2 0 3 2 0 2 2 9 0 9 2 1 2 7 1 2 7 4 2 6 2 0 1 4 0 2 4 8 4 l 2 4 5 5 5 3 1 0 6 9 3 6 8 1 4 r i2 2 9 0 9 l i2 4 8 4l l r 【1 、- r l2 0 14 0 l r l3 6 814 l r i2 7 4 2 6 l r l2 4 5 5 5 l r , r l2 0 3 2 0 、 r i2 0 3 2 0 l o 3 3 0 3 3 0 o 图2 4 词法矩阵的a s c ii 码c e l1 矩阵 、j、j、j、j、j、j、j、j、j 山东大学硕j :学位论文 2 4 1 2 修正过程 在声学层,求出待识别样本和音库中所有模板的距离,与之距 离最小的那个模板作为识别结果输出。但加入语法规则后判别结果 由距离准则和语法规则共同决定,这样就会出现两个判决依据,究 竟侧重哪一方面,要视说话者的语速而定。语速越快,连接词越多, 音节之间的界限越模糊,发音畸变现象也越严重。所以在语速较快 的情况下,侧重于语法规则的判定结果。但语速较慢时,则更侧重 语音层的判别结果。具体判定过程如图2 5 所示: 山东人学硕i :学位论文 图2 - 5 词法矩阵对识别结果的修正过程 山东人学硕j :学位论文 图2 6词语矩阵中“北”后面的小字厍 待识别音节“x 首先和“北”字矩阵中的所有模板字求距离, 生成距离数组d = 【4 ,吐:,以,九】。这里考虑两种情况: 第一,如果m i n ( d ) d o ,说明待识别音节和某个模板字距离较 小,即“x ”可能是“京”,“方”,“面”,“大”中的某一个。这又分三 种情况: 1 如果s s 。,说明此段语音语速慢,吐字相对清晰,判决以最 小距离准则为主,输出与“x ”距离最小的那个模板字为输出结果。 2 如果鼠 s s ,说明此段语音语速中等,有一定的识别误差, 先查看“x ”和“北”字矩阵里概率最大的那个模板字的距离4 ,如果 d l a o ,则此样本为输出结果。否则,查看“x 和“北”字矩阵里 概率次最大的那个模板字的距离畋,比较破是否小于成,若是,则 输出样本,否,则继续按照概率由大到小的顺序比较下一个模板样 本,直到找出概率最大,同时又满足d a o 的模板样本作为输出结 果。 3 如果s , d o ,说明待识别量“x ”和矩阵中模板字的距 离都很大,很可能“x ”没有落在“北”字矩阵中,这可能是端点检测 切出的重复音节或者不完整信息音节,程序判定这是一个错误音 节,此次识别中断,输出标点“”。下一个待识别音节重新独立的 在大模板库中依据最小距离准则搜索。 2 4 2 句法层修正 2 4 2 1 句法矩阵 系统在词语矩阵的修正下输出初次识别结果。虽然这些输出结 果之间有一定的相关性联系,但这种联系仅限于前后字,仍局限于 词法层,缺乏整体关联性,再加上识别误差的干扰,识别结果不甚 理想。为了改善这一不足,利用句法矩阵对初次识别结果加以修正。 句法矩阵是在程序“阅读语法文本时,将语法文本文章中的 句子以标点为界分为众多短句,依据已求出的词法矩阵计算每个短 旬出现的概率。其计算的过程如下: 首先依据已经生成的词法矩阵,建立连接词概率映射表。用前 字的a s c i i 码与其后字的a s c i i 码求差值,再将此差值与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论