已阅读5页,还剩101页未读, 继续免费阅读
(信号与信息处理专业论文)语音中身份与情感信息提取及其在普适计算中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京交通大学硕士学位论文中文摘要 中文摘要 摘要:本文主要是对语音分析中的说话人和情感进行研究,并将此应用于一个普 适计算el e a r n i n g 系统。 说话人识别的工作重点在于对识别的实时性要求较高,将系统运行的时间 放在首要位置,同时还要保证系统的高识别率。为此,在特征提取算法上进行了 m f c c ( m e lf r 既l u e n c yc e p s t r a lc o e f f i c i e n t s ) 算法的改进,提出了快速差分m f c c 算 法,提高了系统的运行速度,同时还和n 叮,l p c 进行识别率的比较,得到了较 好的识别效果;在进行特征分类时,主要是对距离测算法,矢量量化法( v q ) 和 高斯混合模型( g m m ) 进行分析研究,根据各种方法的优缺点,提出一种v q 和 g m m 的混合分类算法,此方法兼顾了识别率和运行速度两方面的因素,能够较好 的满足实时性的要求。我们将提出的新方法和一些传统的方法进行实验对比,在 分类方法为欧式距离的条件下,采用l p c 算法的e e r 是1 4 3 ,采用f f t 算法的 e e r 是1 1 4 ,采用改进后的快速m f c c 算法的e e r 是4 3 ,同时快速m f c c 算法所用的时间为4 0 s ,完全满足实时的要求。 本文在基于快速m f c c 特征提取算法的基础上,引入差分m f c c ,同时经 过v q + g m m 分类算法,获得了比较好的识别效果:此时,采用l p c 算法的e e r 是1 4 4 ,采用f f t 算法的e e r 是1 2 5 ,采用改进后的快速m f c c 算法的e e r 是9 4 ,采用改进后的差分m f c c 算法的e e r 是6 9 ;最后是进行分类算法的 比较,在特征提取算法为差分m f c c 的基础上,采用欧式距离匹配法的e e r 是 1 5 ,采用v q 分类算法的e e r 是1 1 2 ,采用g m m 的e e r 是4 4 ,采用 v q + o m m 的e e r 是6 9 ,虽然v q + g m m 的方法识别率有所降低,但是其运行 时间从单独采用g m m 的6 o s 变为4 5 s ,能够更好的适应实时的要求。 在情感分析方面,主要用了语音中基频及其相关参数作为语音特征对说话 人的情感进行统计判断。最后将说话人识别和情感分析放入e - l e a m i n g 系统中,达 到了一种无处不在的普适服务。 关键词:m f c c ) l p c ;f f r r ;v q ;( 3 m m 分类号:t p 3 9 1 4 北京交通大学硕士学位论文 a b s t r a c t a b s t r a c r t h i sp a p e rm a i n l ys t u d i 髑t h es p e a k e rr e c o g n i t i o na n de m o t i o n e x p r e s s i o nb a s e do nt h ec h a r a c t e ro f u b i q u i t o u ss e r v i c e i np e r v a s i v e c o m p u t i n g m s p e a k e rr e c o g n i t i o nn e e d st ot a k ei n t oa c e m m tt h ee f f i c i e n c ya n da c c u r a c yo f r e c o g n i t i o nb u tn o to n l yt h ea c c u r a c yb e c a u s eo ft h er e q u i r e m e n to ft i m el i m i t a t i o no n t h er e a l - t i m em o m t o r i n gs y 8 t e m t h e r e f o r ew en e e dt oi m p r o v et h es y s t e m so p e r a t i n g s p e e d , a n dm e a nw h i l et ok e e pt h ea c c u r a c yo f r e c o g n i t i o n h e r ew em a i n l yi m p r o v et h e f e a t u r ee x t r a c t i o na n dc l a s s i f i c a t i o na l g o r i t h mf o rt h es y s t e m , a n dt h e nw em a k e 踟f f i l e i m p r o v e m e n to nm f c cf e a t u r ee x t r a c t i o na n dp r o p o s eaq u i c km f c ca l g o r i t h m 。n 地 p r o p o s e da l g o r i t h mc a nr e a c ht h er e q u i r e m e n to fr e a l - t i m es y s t e mi nc a s eo ft h eh i 曲 p r e c i s i o n t op r o v ei t , t h i sp a p e rc o m p 粼i t sa l g o r i t h mw i t hl p ca n df f rb a s e do n e u c l i d e a nd i s t a n c ec l a s s i f i c a t i o nm e t h o d 1 1 l ce x p e r i m e n ti n d i c a t e st h a tt h ee e ro f l p ci s1 4 3 a n dt h ee e ro f f f ti s1 1 4 。b u tb yu s i n gt h eq u i c km f c ct h ee e ri s o n l y4 3 a n dt h er u nt i m eo ft h es y s t e mi sa b o u t4 0 st h a tm e e tt h er e a l t i m e r e q u i r e m e n t s t h e nb a s e do nt h eq u i c km f c cw eu s ed i f f e r e n t i a li v i f c ct oc o m p a r ew i t ho t h e r s r e l y i n go i lt h ev q f u s ew i mg m mc l a s s i f i c a t i o nm e t h o d n 虻e x p e r i m e n ti n d i c a t e st h a t t h ee e ro f l p ci s1 4 4 a n dt h ee e ro f f f ti s1 2 5 a n dt h ee e r o f q u i c km f c ci s 9 4 a n dt h ee e ro fd i f f e r e n t i a lm f c ci s6 9 a tl a s t , w ec o m p a r ea l lt h e c l a s s i f i c a t i o nm e t h o d si nt h i sp a p e rw i 廿it h ef e a t u r ee x t r a c t i o na l g o r i t h mo fd i f f e r e n t i a l m f c c t h e nt h ee e ro fe u c l i d e a nd i s t a l l c em e t h o di s1 5 a n dt h ee e ro fv qi s 1 1 2 a n dt h ee e ro f g m mi s4 4 t h ee e ro f v qf u s e 惭t l lg m mi s6 9 a l t h o u g h t h eo m mm e t h o dc a n g e tb e s ta c c u r a c yo fr e c o g n i t i o n , t h el u l lt i m eo f i ti sa b o u t6 0 s n o ta sg o o da st h ef i n a lm e t h o dw h i c ho n l yu s ea b o u t4 5 st og e tt h er e s u l t a st ot h ee m o t i o ne x p r e s s i o n , w em a i n l yu s es o m ep i t c hp r o e e s s m gm e t h o d st o d e c i d et h es p e a k e r se m o t i o n t h e nw eu s et h et w om e t h o d sf o rt h ee _ l e a r n i n gs y s t e m , w h i e l lc a l lb es e e na sa u b i q u i t o u s8 c l v i o gt h a th a st h ec h a r a c t e ro f a n y t i m e ) a n y w h e r e , i n v i s i b l e k e y w o r d s :m f c c ;l p c ;f f r v q ;g m m c l a s s n 0 :t p 3 9 1 4 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印,缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:土壤 导师签名:舀维 t 签字日期:厶曲年,2 月如日签字日期:加7 年t z 月上一日 独创性声明 独创性声明 本人声明所里交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:三号不签字日期:五,0 1 年垃月2 埘日 1 0 7 致谢 在此我要向所有关心和帮助我的人表示衷心的感谢! 本论文的工作是在我的导师苗振江教授的悉心指导下完成的,苗振江教授严 谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢三年来 苗老师对我的关心和指导。 苗振江教授悉心指导我们完成了实验室的科研工作,在学习上和生活上都给 予了我很大的关心和帮助,在此向苗振江老师表示衷心的谢意。 苗振江教授对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷 心的感谢。 在实验室工作及撰写论文期间,实验室的师兄姐和师弟妹在我论文写作过程 中给予了热情帮助,在此向他们表达我的感激之情。 另外也感谢我的家人,他们的理解和支持使我能够在学校专心完成我的学业。 北京交通大学硕士学位论文序 序 本论文主要是对语音分析中的说话人识别和情感分析进行研究,并将其应用 在一个普适计算e - l e a m i n g 系统中。对说话人识别算法的前端预处理、中端特征提 取和后端分类算法都进行详细的论述。 本文的目的是通过对特征提取和分类算法的改进,使得说话人识别和情感分 析更能够适应普适计算e - l e a r n i n g 系统的要求,将我们的工作重点从提高系统的识 别精度,转型为兼顾精度和效率两个方面,既要使识别精度在与传统方法比较过 程中有所提高,同时还要对系统的运行速度有所改进,至少能满足最基本的实时 要求。 通过对周围环境的语音信息分析,可以保证系统能够正确地根据不同的环境 提供相应的服务。本课题正是基于这一方向,搭建说话人识别和情感分析平台, 从实时的角度去考虑,在兼顾识另i j 率的情况下,将系统的运行时间减至最低,通 过对不同分类算法和特征提取算法的组合和改进,努力做到系统运行流畅,保证 实时识别的稳定性和精确度,提高其鲁棒性。 本课题重点研究的内容是对特征提取和分类算法的应用比较,同时对前端预 处理上进行框架规模极的设计。在最终的实验中,语音分析中用到的改进算法较 其它传统方法,在实时性和识别精度上都有很大的提高,取得了非常好的效果, 这些将在后续内容中一一介绍。 本课题在完成过程中得到以下项目的支持: 9 7 3 国家重点基础研究计划( 2 0 0 6 c b 3 0 3 1 0 5 ) 9 7 3 国家重点基础研究计划( 2 0 0 4 c b 3 1 8 1 1 0 ) 校十五重大科研专项( 2 0 0 4 s z 0 0 2 ) 1 绪论 1 1 本文研究的背景及意义 1 9 6 2 年的b e l l 实验室的l g k o s t a 首先用目视观察语谱图的方法进行识别, 提出了“声纹”( v o i c c p f i n t ) 的概念【l 】。之后随着电子技术和计算机技术的发展,使 得通过计算机自动提取语音信息进行研究成为可能。之后的2 0 多年中,语音识别、 语意识别、说话人识别等领域都在逐渐走向成熟,至8 0 年代末,随着普适计算的 提出,语音处理分析有了新的发展方向。 自从l g k e s t a 第一次介绍了采用声纹进行发音人身份鉴定,1 9 6 6 年美国法院 第一次采用此方法进行了取证。近四十年来语音信息分析的研究取得了巨大的进 展。 在如今高度发达的信息社会中用数字化的方法进行语音的传送、储存、识别、 合成、增强等是整个数字化通信网中最重要、最基本的组成部分之一【2 】。语音作为 信息交流的最自然、最有效、最方便的途径,近年来在生物认证技术领域中越来 越受到研究者的关注,而利用语音进行发音人分析则被认为是最自然的利用语音 特征进行身份鉴别、情绪状态分析等计算机识别的方法。真正意义上的“自动” 语音信息分析的研究始于2 0 世纪6 0 年代f 3 ,4 】,从那时开始到现在的4 0 多年间,随 着数字滤波、快速傅立叶变换、线性预测编码、i 司态信号处理、矢量量化等算法 的不断出现和完善,加之微电子技术的发展和计算机的普及,使这一领域的研究 取得了很大的进展。如今,利用语音特征进行身份鉴别、情绪状态分析等方法已 逐渐走入实际应用。 在此,本文主要研究说话人识别和情感分析在实际过程中的应用: 语音分析的作用主要通过对说话人身份和情感信息进行分析,将所得结果反 馈给计算机,由计算机根据不同的识别结果做出不同的响应,如图1 1 所示。 北京交通大学硕士学位论文 图1 - 1 语音分析应用 f i g u r e1 - 1t h ea l ,p l i c a t i o ao f v o i c ea n a l y s i s 身份鉴定是通过发音人的语音来判断发音人与其声明的身份是否相符,或者 先判断发音人是否属于已知的一个人群集合,如果是,再迸一步从该集合中找出 发音人的正确身份;在进行身份验证时,根据输入的识别用测试语音来分,鉴定 系统又可分为与文本无关的啾h l d e p 伽d e i l _ t ) 和与文本有关的( 豫t d e p e n d t ) 嘲, 前者是不规定说话内容的身份鉴定,在识别时不限定所用的语音内容;后者是规 定说话内容的身份鉴定,在识别时只能用规定的语音内容【6 】。本文主要研究与文本 无关的情况,因为若要实现“无所不在的、随时随地”则不能对发音人做出过多 的限制。 关于情感分析研究,语音情感识别是建立在对语音信号的产生机制深入分析 的基础上,对语音中反映个人情感信息的一些特征参数进行提取,并利用这些参 数采用相应模式识别方法确定语音情感状态的技术。 随着新型的人机交互技术的快速发展,语音处理领域产生了许多热门的研究 方向,如个人机器人、语音识别、语音合成、语音的转换、语言翻译、个人隐私 保护等吼而语音情感识别技术的研究是伴随着这些主要的研究方向的兴起而发展 的,它在这些方向中具有广泛的运用。在个人机器人的研制中,提出最基本的要 求就是它能够领会人的情感,并能够在理解人的情感的同时以适当方式表达出自 已的情感;同时考虑到目前个人机器人在接受信息和自身运算上的限制,对于语 音情感的研究将是它理解情感的最有效途径。在语音识别中,对特定人的语音进 行训练时,即使说相同的内容,但在不同年龄段,不同的地点,不同的情绪等环 境下都会直接对训练效果产生重要的影响,而利用语音情感识别技术,可以尽量 将各种不同情感状态下的语音统一起来,保持主要的个人信息在统一刻度下,这 样就可以大大提高识别率。在语音合成中,特别是基于音素连接的文本到语音合 2 绪论 成系统中,可以通过结合语音情感识别技术,使重建的语音具有符合要求的情感 成分【刖,这样就可以避免为录制不同情感状态的语音库而付出昂贵费用。同时,重 建的语音需要进行相关的韵律修改工作,借以产生合适的基频、能量等信息。在 语音的转换和语言翻译中,目前的系统往往在对语音进行变换后,扭曲了原有语 音中的情感信息。通过采用语音情感识别技术可以对处理后的语音进行情感的恢 复,从而保证了语音中信息表达的完整与准确。语音情感识别还可以应用在教学 辅导、自动告警及娱乐等方面。随着i n t e r a c t 的普及以及计算机性能的提高,语音 情感识别技术将被广泛应用在更多的领域,会有非常好的经济效益和社会价值。 语音的情感识别在人工智能、虚拟现实技术、新型人机交互技术、心理学研 究等许多领域有着重要的意义1 9 , 1 0 l 。在人与人交流过程中,除了言语信息外,非言 语信息也起着非常重要的作用。同样,在人机交流过程中,为使其交流更自然、 更人性化,无论是对人机言语还是非言语交流方式的研究都是十分必要的。尽管 人们早已认识到非言语交流的重要性,但时至今日,大多数研究还仅仅是基于视 觉信息的工作,如面部表情识别、手势识别等。语音作为语言的声音表现形式其 中不仅包含了语言学信息,还包含了人们的感情和情绪等非言语信息。例如,同 样一句话,往往由于说话人的情感不同,其意思和给昕者的感觉就会不同。传统 的语音处理系统仅仅着眼于语音词汇传达的准确性,而完全忽视了包含在语音信 号中的情感因素,所以它只是反映了信息的一个方面。直到近年来,由于情感和 态度所引起的变化对语音合成,语音识别、话者证实的影响较大,其逐步引起了 人们的重视。目前许多研究者都在致力于情感对语音影响的研究,以及尝试对语 音处理算法适应技术的研究。 1 1 1 说话人识别的主要应用 对于说话人识别的研究和开发,目前已经到达了这样的阶段,即与文本有关 ( t e x t - d e p e n d e n t ) 的说话人确认系统已经商品化,并且在许多需要进行身份核查的 场所得到应用。许多国家正在研究和开发能通过公共电话网使用的系统,这涉及 到对信道条件的分析和对信道影响的补偿。而这也是本论文所涉及的项目的应用 背景。对于与文本无关( t e x t - i n d e p e n d e n t ) 的说话人识别系统的研究和开发也是当前 研究的热点之一,它所集中解决的问题是如何形成对人的有效而可靠的特征,并 且使处理更加实时化。心理语言学的实验表明,对于人识别人而言,为了达到足 够的精度,语音的长度应该至少在l o 秒以上( 一般应该在l o 至2 0 秒之阃) 。 说话人自动识别的研究始于6 0 年代。近3 0 年来,在这一领域的研究取得了 重大进展,商用系统已经在若干领域中得到应用。在司法领域,可以用来协助确 3 北京交通大学硕士学位论文 认嫌疑犯;在军事领域,可以用于战场的侦听,以辨认敌方指挥员。说话人确认 系统则更多的用于保安领域,如机密场所的进出控制、合法使用通信线路、机要 设备的身份核查以及电子银行的安全检查等等。在迅速发展的过程中,仍然有许 多的问题需要解决,其中关键的问题是,究竟用语音信号的哪些特征或特征变换 来刻画说话人才是有效而可靠的。这涉及到人是如何通过听话而识别人这一过程 的理解,而这一点很难在近期解决。因此,说话人识别系统的研究是一门涉及到 多学科的复杂过程。但是,随着研究的深入和技术手段的进步,发展出针对特定 领域应用的高性能系统是可能的。 语音信息分析技术有着广阔的市场应用前景。通过这种技术,可以利用人本 身的生物特性进行身份鉴别,例如为公安部门进行语音验证,犯罪测谎,为一般 用户提供防盗门开启功能等等 i t , t 2 。 在互联网应用及通信领域,可以应用于诸如声音拨号,电话银行、电话购物、 数据库访河、信息服务、语音e - m a i l 、安全控制、计算机远程登录等领域。 在呼叫中心应用上,可以提供更加个性化的人机交互界面。当顾客以电话方 式对呼叫中心进行请求时,系统能够根据话音判断出顾客的身份、状态、心情等, 从而提供更个性化、更贴心的服务。 另外,在军事领域,可以用于战场上的侦听,以辨认出敌方的指挥员,发布 命令的真伪等。 在医疗领域,可以用于患者的确认、身体状况分析、安全监护等。 总之,语音信息分析可以通过已经得到的语音样本,进行身份鉴定、状态分 析、情感分析等,可以得到非常多的发音人信息,有着广泛的应用前景。 1 1 2 情感分析的主要应用 对于情感分析分析,在实际应用中主要有三点; 辅助残疾人讲话 失语症是很多脑部疾病带来的直接后遗症,这些患者有着与健康人同样的情 感却苦于无法表达。为此v a e s s ( v o i c e s a t t i t u d e sa n de m o t i o n si ns y n t h e s i ss p e e c h ) 工程开发研制了一种不仅能够辅助残疾人说话,而且还能帮助他们表达情感的一 种便携式情感语音合成器。有种辅助残疾人进行情感语音输出的系统叫 c h a t a k o ,用户使用该系统输入文本信息后,可以选择某种情感选项,输出有情 感的合成语音。该系统使用的是日本a t r 实验室开发的语音合成器,采用波形拼 4 接的方法进行合成,拼接单元来源于6 个情感语音语料库,语料库包括男声和女 声的生气、高兴、悲伤等各3 种情感。该系统选择了基频平均值、基频标准差、 基频动态范围、停顿时长均值、能量均值等作为情感特征。对合成语音进行的不 依赖于上下文的感知测试表明,这种利用情感语音语料库进行波形拼接合成情感 语音,能够取得非常高的可懂度与较高的自然度。 情感语音将使人机界面更具人性化 随着计算机技术的发展,利用选单命令和目录方式进行信息的管理已不能完全 满足人们的需求,人们需要更自然,更智能、更人性化的人机界面,如语音方式, 新一代的用户界面离不开语音技术的发展。现在,人们可以通过互联网获取大量 的信息,在电子购物、网上医疗、网上聊天、电子会议以及有声电子邮件等应用 上,人们所希望听到的已不再是有很高可懂度的枯燥的机器音,而是更具“人情 味”的语音。人机之间的交互不仅仅是依靠键盘和鼠标,简单、易学、更具“人 性化”的语音操作界应当更符合人们的实际需求。这种人机之间的交互既需要情 感语音识别技术,又需要情感语音合成技术。 情感语音与其它多媒体技术相结合 前文提及的“谈话头”即是将情感语音配之以相应的面部特征的视频来传达 情感,通过将一些视觉效果,包括人的头部建模、唇形同步技术和表情因素等视 频信息加入,使声音、表情同步,这就是当前比较热门的“视觉语音( v i s u a ls p e e c h ) ” 技术。视觉语音可以使输出效果更具表现力和感染力,虚拟主持人的实现就是利 用了这一技术,英国报业联合通讯社推出的第一个虚拟新闻播报员“阿娜诺娃 ( a n a n o v a ) ”就是一个很好的应用实例。 1 2 语音信息分析的发展与现状 经过几十年的努力,说话人识别技术取得了很大的进展。从模型上说,高斯 混合模型( g a u s s i a nm i x t u r em o d e l s ,g m m ) 逐渐成为说话人倒谱特征模型的主要方 法【1 3 1 。最近对声学特征与似然打分的归一化有效地提高了g m m 系统的性能,文 献【1 4 1 提到,对特征的弯折( f e a t u r ew a r p i n g ) ,即将短时的观测声学特征映射为 一个归一化的概率分布,和标准的倒谱均减算法( c c p s t r a lm e a ns u b t r a c t i o n , c m s ) 相比,极大的提高了系统的性能【i s l 。文献【1 6 里使用了t - n o r m 算法,即对一群 假冒者的匹配分进行归一化来提高g m m 系统的性能。文献【1 7 1 对倒谱均值减 5 北京交通大学硕士学位论文 ( c m s ) ,方差归一化,特征弯折,t - n o r m , z - n o r m l 3 7 7 和c o h o r t 算法进行了比较, 并在n i s t2 0 0 2 测试数据上进行了单一说话人检测任务,发现特征弯折与t - n o r m 结合的方法得到的效果最好。在文献【1 8 1 里,i b m 的文本无关说话人确认系统 也对n i s t 2 0 ( y 2 的数据做了测试,取得了一个较低的误警率。在实际的说话人识别 系统中,语音数据通常是通过商用电话线路得到的。因此,不同的传输信道将造 成训练和测试数据的不匹配,从而使系统性能大幅下降。为了降低不匹配的程度, 很有必要对信道效应做出相应的补偿。而这种补偿可以发生在时域也可以发生在 特征域。经过多年的研究,一些技术被普遍用来降低信道的不匹配。它们中包括 倒谱均值归一法( c e p s t r a lm e a nn o r m a l i z a t i o n , c m n ) ,周期平均化的方法( p e r i o d g r a ma v e r a g i n g ) ,一致频谱平均( c o h e r e n ts p e c t r a la v e r a g i n g ) 等。日前许多系统的 做法是在特征或是模型方面做自适应处理,从统计学方面看主要采用两种算法: 一是最大后验概率算法( m a x i m u ma p o s t e r i o r , m a l 哆9 , 2 0 1 。该算法基于最大后验概率 准则,利用自适应语音训练出的统计量,对s i ( s p e a k e ri n d e p e n d e n t ) 系统参数进行 修正。m a p 算法具有渐进逼近s d ( s p e a t e rd e p e n d e n t ) 系统的优点,但是其自适应 速度较慢,因此适用于小词汇量语音识别系统;二是最大似然线性回归算法 ( m a x i m u ml i k e l yh o o dl i n e a rr e g r e s s i o n , m l l r ) 2 l , 2 2 1 。该算法是先将语音空间划分 为若干个变换类,利用自适应语音估计出各变换类的最大似然线性变换矩阵,对 各变换类中的语音特征参数进行线性变换以实现自适应由于m l l r 算法的变换 矩阵是共享的,即使在训练语音中没有出现过的语音的模型参数也可以得到自适 应,因此m l l r 算法具有较快的速度,适用于大词表语音识别系统。 2 0 0 2 年c l s p ( t h ec e n t e r 缸l a n g u a g ea n ds p e e c hp r o c e s s i n g ) 的w o r k s h o p 2 0 0 2 之一的j o h n sh o p k i n su n i v e r s i t y 的说话人鲁棒性的研究报告中提到,目前研究人员 使用不同层次的知觉特征来进行语音信息分柝,按从特征层次的由高到低,按特 征提取由难到易的顺序可以分为三层,如图1 - 2 所示。 语义、措辞、发音、牙质用语、 社会经济身份、教育程度、出生地等 r 口啦姆瓣恻船蛳鼢姆甓”瓣j 皇? 韵律节奏,语调速度、 音量、家族影响、个人习惯等 ,蕊镶瓣瓣糕嘞辔蒋彩麟嬲 糍铡髓黪鑫绺笋;一f 1 语音的声学特征、 鼻音、呼气声、声道的解剖结构等 n 州辩霸臻端嘲麓黪蒯鳞麓翱霸嘲黪瓣。一,、 图1 2 特征提取三层结构图 f i g t w e1 - 2t h es t r u c t u r eo f f e a t t e x t r a c t o n st h r e e - l a y e r s 6 绪论 现今系统大多依赖与第3 层的特征,如l p c c ,m f c c ,p i p 等。但这类的特 征受环境噪音与不同信道的影响是很大的。因此,不少研究人员将注意力放到了 更加鲁棒的特征研究上,如语速、习惯用语、习惯发音、基音模型等,并取得了 一些进展 2 3 2 4 1 。 对语音识别的研究 2 5 - 2 8 1 从5 0 年代初期已经开始,但是直到6 0 年代中期以后 才逐步取得了实质性的进展。早期的语音识别系统一般是小词汇量、特定人的孤 立词识别系统。这种语音识别系统大多采用模板匹配法。在训练阶段,特定的讲 话者将词汇表中的词汇各讲一遍,然后将它们对应的特征矢量序列储存起来,作 为各个单词的模板。在识别阶段,首先提取识别语音的特征矢量序列,然后和模 板库中的各个模板分别比较,最相似者对应的单词即为识别的结果。这种方法最 初要求训练语音和识别语音的讲话速度一致,以保证特征矢量序列长度的相同, 这在实际应用中是不可能的,因为即使同一个人读同一个单词,发音的持续时间 也不可能不变,而且这种变化往往是非线性的。 在6 0 年代中期和后期,学者m a r t i n 等人和v m t s y u k 分别用动态规划的方法解 决了训练和识别讲话速度不一致的问题,使这类语音识别系统的性能得到明显的 提高。但是,对于更高要求的语音识别任务,例如大词汇量的孤立词识别、连续 语音的识别、非特定人的语音识别等等,这种识别方法就不行了。 进入7 0 年代后,一些语音研究者尝试用人工智能或专家系统的方法进行语音 识别。语音学家通过研究不同语音的语谱及其变化后发现,虽然不同的人说不同 的语音时,相应的语谱及其变化有种种差异,但是总有一些共同的特点足以使它 们区分于其它语音,这些特点就是语音学家提出的“区别性特征”。例如,稍受训 练的语谱阅读者能够通过读识语谱以很高的识别率识别语音。另一方面,人类的 语言要受构词、句法、语义等约束,人在识别语音的过程中,应该充分应用这些 约束和对话环境的有关信息。将来自声学一一语音学的“区别性特征”( 称为识别系 统的“底层”) 与来自构词、句法、语义的约束( 称为识别系统的“项层”) 相互结 合,就可以构成一个“由底向上”和“由顶向下”交互作用的识别系统,如图1 3 所示。 7 北京交通大学硕士学位论文 图l - 3 顶层与底层的交互 f i g u r e1 - 3t h ei n t e r a 商v eo f t o pa n db o t t o m 不同层次的知识可以用若干规则来描述。尽管这种方法取得了一些成果,并 且目前还有些研究者在做进一步的努力,但已经不再是现代语音识别研究的主 流。 8 0 年代,语音识别的研究主流转向了统计模型方法,它是种使用隐马尔可 夫模型【2 9 】( 简称i - i m m ) 的概率参数来对似然函数进行估计与判决,从而得到识别结 果的方法。由于 l m m 具有状态函数,所以这个方法可以利用语音频谱的内在变 化( 如讲话速度、不同讲话者特性等) 和它们的相关性,较好得将语言结构的动态特 性用到识别中来。这种方法的优点还在于,从声学语音层一直到句法层,全部语 音的统计知识可以容纳在一个统一的h m m 框架之内。国际上8 0 年代在语音识别 方面进行的许多重大研究项目,如a t & t 公司b e l l 实验室在连接数字识别和语声 响应等方面的研究,m m 公司以j e l i n e k 为首的研究组在语音打字机方面所做的研 究,美国国防部高级研究规划局制订的执行期为1 9 8 5 年至1 9 8 9 年的d a r p 、规划, 还有欧洲、日本和中国许多重要研究项目等等,都采用以h m m 为基本框架的统 计方法。采用这种方法的研究成果远远大于过去采用其他方法的研究成果进入 9 0 年代,在细化模型的年设计、参数提取和优化、以及系统的自适应技术等方面 取得了一些关键进展,使得h m m 技术更加成熟。当然,这种方法还有一些缺陷 有待改进。 从8 0 年代中后期开始 3 0 - 3 3 1 ,探讨人工神经网络在语音信号处理中应用的研究 十分活跃,其中以在语音识别方面的应用最为令人注目。特别是在近几年,无论 从理论上还是在试验上,神经网络在语音识别系统中的应用都得到广泛的研究。 虽然有不少单独使用人工神经网络进行语音识别的成功报道,但报道更多的是人 工神经网络和h m m 的混合语音识别系统,简称a n n - h m m 语音识别系统。在这 种a n n h m m 系统中,语音识别的基本结构仍然使用h m m ,人工神经网络往往 用来模拟h m m 中每个状态下发生观察值的后验概率,这个后验概率可以转换为 h m m 中对应状态下发生观察值的似然概率。和传统的h m m 相比,a n n - h m m 8 有很多优点。例如,a n n - 1 i i 模型更为精确,因为它不需要对传统h m m 状态下 观察值概率分布的一些不太合理的一些假设;a n n - h m m 模型有更好的分辨率; a n n h m m 模型在c p u 和运行内存上更好的效率等等。许多试验表明,神经网络 能提高语音识别系统的性能。据报道,当前最好的基于纯h m m 的语音识别系统 的性能比基于a n n - h m m 的语音识别系统的性能要好,但是纯h m m 系统明显比 a n n 。h m m 系统复杂,所需参数数目多。 近年来,我国语音识别的研究发展很快。从8 7 年开始执行8 6 3 计划后,国家 8 6 3 “智能计算机主题”专家组为语音识别立项。目前我国对大词汇量连续语音识 别系统的研究已经接近国外最高水平。在国际上,由于我国政治地位和经济地位 的日益提高,汉语语音识别也越来越受到重视。m m ,a p p l e ,m o t o r l a , d r a g o n ,n o r t e l ,l & h 等公司相继投入到汉语语音识别系统的开发之中。 近几年,研究者对语音中的情感信息表现出日益浓厚的兴趣。他们从生理、 心理学角度的情感建模到语音情感的声学关联特征,以及各种针对语音情感识别 和合成的算法、理论展开了深入的研究。例如,美国的m r i 媒体实验室的情感计 算研究小组( a f f e c t i v ec o m p u t i n gr e s e a r c hg r o u p ) 就在专门研究机器如何通过对外 界信号的采样,如人体的生理信号( 血压、脉搏、皮肤电阻等) ,面部快照、语音信 号来识别人的各种情感,并让机器对这些情感做出适当的响应。 目前,关于情感的研究正处在不断深入之中,各国都投入了大量的资金进行 研究。而其中语音的情感识别是其中的热点之一,正越来越受到人们的重视。各 种模式识别方法,如线性判别分类( l i n e a rd i s c r i m i n a t ec l a s s i f i 刚,k 近邻法 ( k - n e a r e s tn e i g h b o r h o o d ) 、支持向量机( s u p p o r tv e c t o rm a c h i n e ) 、高斯混合模型 ( g a u s s i a nm i x t u r e s ) 、隐马尔可夫模型( h i d d e nm a r k o vm o d e l ) 等,都被应用于语音 的情感识别,也取得了不错的效果。 在日常生活中,人们可通过人脸的表情、语音、手势、心跳、体温和血压等 来识别情感状态,其中语音起着非常重要的作用。目前有许多关于语音和情感之 间相互联系的研究,如美国、日本、欧洲、韩国等许多国家的一些研究单位都在 进行情感语音处理研究工作。国际口语处理大会( i n t e r n a t i o n a lc o n f e r e n c e o ns p o k e n l a n g u a g ep r o c e s s i n g ,i c s l p ) 的论文集中,有关这方面的研究论文在逐渐增多。国 际语音通信协会( i n t e r n a t i o n a ls p e e c hc o m m u n i c a t i o na s s o c i a t i o n ,i s c a ) 还在2 0 0 0 年专门组织了一个大讨论,主题就是“情感与语音”。国内的东南大学也较早开始 了这方面的研究,中科院,清华大学,微软亚洲研究院,中国台湾的一些大学和 研究所也在进行研究。国家自然科学基金委也立项资助哈工大进行心理紧张等情 况下的鲁棒( r o b u s t ) 语音识别研究。 9 北京交通大学硕士学位论文 1 3 语音信息分析的一些技术挑战 尽管语音识别的研究已有半个世纪了,但现有的语音识别系统仍存在许多困 难,还远远达不到社会对其实用化的要求,主要表现在【1 2 1 : 尚未找到简单可靠的语音特征参数。语音信号中既包含了发音人的语义信 息,又包含了发音人发声特征的个性信息,是语音特征和发音人特征的混 合体到目前为止,还没有很好的方法将发音人的个体特征从语音特征中 分离出来,也没有找到简单的声学特征参数能够可靠的识别发音人。 语音信号的变异性。即使对于同一发音人和同一文本,语音信号也有很大 的变异性,发音人的语音特征( “声纹”) 不是静态的、固定不变的,它具 有时变特征,并常常与发音人所处的环境、情绪、健康状况有密切的关系, 并会随着时间的推移和年龄的变化而变化。另外,传输语音的通信信道的 时变效应问题也是语音信号产生变异的重要方面。语音信号的变异性从本 质上说使发音人特征空间发生移动,使语音特征发生变异,从而增加识别 过程中的不确定性。身份鉴定中存在的噪音,多通道,时飘,情感等热点 研究方向都属于这个方面。 大规模识别系统。发音人识别要将特征空间划分为n 个子空间( n = 发音人 个数) ,当自动发音人识别系统中的发音人数目n 增多的时候,发音人识 别系统的性能将受到极大的挑战,比如全体汉语发音人有1 2 亿。发音人识 别还在理论上存在将有限特征空间进行无穷划分的问题,这也是发音人识 别所面临的新问题。 其他问题。诸如发音伪装,短语音训练识别等。 1 4 本文主要研究内容与论文结构 本文主要是对语音中身份和情感信息的提取进行深入研究,并且将其应用在 普适计算e - l e a m i n g 系统中,同时提出一种适合e l e a r n i n g 系统的说话人快速识别 方法,该方法在特征提取上做了优化改进,为1 3 介绍的语音分析的技术挑战中找 到了简单、高效、可靠的语音特征参数,同时也试图解决语音信号的变异性难题。 本文的结构如下( 如图1 - 4 所示) : 第一章是本文的绪论部分,主要对说话人识别和情感分析的背景意义和发展 现状进行详细介绍,同时对目前语音信息分析的发展现状和研究过程中的重点和 难点进行总结。 第二章主要是对说话人识别和情感分析的基本理论进行研究,对语音信息分 1 0 析框架进行总体性介绍,同时还详细介绍了语音信息分析中常用的特征提取算法 和分类算法。 第三章主要介绍了说话人识别的具体研究过程。并根据e - l e a r n i n g 系统中对实 时性的要求,提出了一种基于m f c c 的改进算法,并在分类算法中将v q 和g m m 进行融合,使得系统在运行时间和识别精度上都能满足e - l e a r n i n g 系统的要求。 第四章主要是对情感分析的研究,通过对语音中的基频特性进行统计分析, 对不同情感得到基频信息加以归类,可以对采集到的语音信息进行情感分析,根 据分析得到的结果进行相应的服务。 第五章主要介绍身份与情感分析在普适计算e - i e a r n i n g 中的应用,分别从普适 计算的概念,e - l e a r n i n g 系统的构成和系统设计以及本文研究在e - l e a r n i n g 系统中 的具体实现都进行详细的诠释。 第六章是全文的结束语,对全文的研究工作进行总结,并且对未来研究的发 展方向进行展望。 图1 4 本文结构关系框图 f i g u r ei - 4s t r u c t u r er e l a t i o n s h i pd i a g r a m 北京交通大学硕士学位论文 1 5 小结 本章介绍了语音信息分析的应用背景及意义,重点分析了说话人识别和情感 分析在实际生活中的应用,同时对信息分析的重点及难点做了详细的介绍,最后 对本文的内容结构进行阐述 1 2 说话人识别及感情分析基本理论 2 说话人识别及情感分析基本理论 2 1 说话人识别及情感分析框架 说话人识别是通过对说话人的语音进行分析,对说话人身份做出正确识别、 判断的一个研究方向,它涉及了模式识别( p a t t e mr e :o g n i t i o n ) 、信号处理( s i 鄹i a l p r o c e s s i n g ) 、语言学( h l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- NBT 11197-2023 输变电工程三维设计技术导则
- DLT 5393-2023 高压直流换流站接入系统设计内容深度规定
- 化妆师考试题及答案
- 广誉远中药招聘试题及答案
- 公务员面试塑面试题及答案
- 公务员面试目面试题及答案
- 会计招聘笔试题及答案
- 恒瑞医药秋招面试题及答案
- 公务员面试考上公务员面试题及答案
- 公务员面试纪律面试题及答案
- 管制刀具班会课件
- 汽修维修记录管理制度
- JG/T 528-2017建筑装饰装修材料挥发性有机物释放率测试方法-测试舱法
- 林火监测与预警课件
- 会计中级职称《财务管理》电子书
- 学生学业成绩分析与进步跟踪表
- 2025年驾驶证资格考试科目一必刷题库及答案(共420题)
- 体育场馆羽毛球馆运营策略考核试卷
- 国开公共部门人力资源管理自检自测1-九
- 红旗河工程可行性报告
- 光伏区围栏施工方案
评论
0/150
提交评论