咳嗽音特征提取及在身份识别中的应用研究.pdf_第1页
咳嗽音特征提取及在身份识别中的应用研究.pdf_第2页
咳嗽音特征提取及在身份识别中的应用研究.pdf_第3页
咳嗽音特征提取及在身份识别中的应用研究.pdf_第4页
咳嗽音特征提取及在身份识别中的应用研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

咳嗽音特征提取及在身份识别中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电大学硕士研究生学位论文 abstract ii abstract at present, there are many biometrics in identification research areas, including fingerprints, palm prints, iris, retinal, vein, gait, ear, voice and hands, facial patterns, but some of these features easy to be forged and theft. in order to improve recognition accuracy and security, there are many scholars turn their attention to internal body information, such as dna, heart sound signals. cough is a common clinical symptom and has important diagnostic value. because of the differences in everyones articulator, sound track and pronunciation habit, the cough sound for each person is different. as the bodys physiological characteristics of information, cough sound is universal, unique and stabile. therefore, the application of cough sound in identification is theoretically feasible. this paper mainly studies the feature extraction of cough sound and its application in identification. at first, the paper introduces the research status of cough sound. then the generating mechanism and properties of cough sound in time and frequency domain is analyzed. the paper mainly focuses on the method of feature extraction. by studying the mfcc parameter which is widely used in speech recognition, an improved feature parameter mfcc_n is proposed. in addition, a combined feature parameter is put forward, which composes mfcc_n and short-term energy. the improved parameter can effectively describe the characteristics of cough sound. in order to verify the effectiveness of the improved parameter, the experiments are carried out based on dtw and gmm respectively. the results show that the improved feature parameter has high recognition and low computational complexity. also the experiments prove that the cough sound can be used as a biometric of identification and has great application prospect. keywords: identification, cough sound, feature extraction, mfcc_n , combined feature parameter 南京邮电大学硕士研究生学位论文 目录 iii 目录目录 摘要i abstractii 目录. iii 第一章 绪论. 1 1.1 研究背景. 1 1.2 咳嗽音识别的研究现状. 1 1.2.1 语音识别的研究历史及现状 . 2 1.2.2 咳嗽音识别的研究现状 . 3 1.3 本文研究内容. 4 1.3.1 研究内容. 4 1.3.2 组织结构及创新点 . 4 第二章 咳嗽音的基础知识 . 6 2.1 发声器官的结构. 6 2.2 咳嗽音信号的产生机理及模型. 8 2.2.1 咳嗽的产生机理. 8 2.2.2 咳嗽音信号的产生模型 . 8 2.3 咳嗽音信号特性分析. 9 2.3.1 咳嗽音信号的时域特性 . 9 2.3.2 短时能量. 10 2.3.3 短时平均幅度 12 2.3.4 短时平均过零率 13 2.3.5 咳嗽音信号频域特性分析 14 2.4 本章小结. 16 第三章 咳嗽音信号特征提取 . 17 3.1 预处理. 17 3.1.1 预加重 17 3.1.2 端点检测. 18 3.1.3 分帧加窗. 19 3.2 咳嗽音特征参数提取. 20 3.2.1 线性预测(lpc)特征参数 21 3.2.2 线性预测倒谱(lpcc)特征参数 . 22 3.2.3 美尔倒谱(mfcc)特征参数 23 3.2.4 差分 mfcc 特征参数 25 3.2.5 改进的 mfcc 特征参数 26 3.2.6 组合特征参数. 27 3.3 本章小结. 28 第四章 识别方法介绍. 29 4.1 动态时间规整方法(dtw) 29 南京邮电大学硕士研究生学位论文 目录 iv 4.1.1 dtw 基本原理 29 4.1.2 dtw 模板训练方法 31 4.2 高斯混合模型 (gmm) 32 4.2.1 gmm 基本原理. 32 4.2.2 gmm 的参数估计 . 33 4.2.3 gmm 参数初始化. 36 4.3 本章小结. 37 第五章 咳嗽音身份识别的实验研究 . 38 5.1 实验条件. 38 5.1.1 实验平台. 38 5.1.2 实验数据. 38 5.2 基于 dtw 的咳嗽音身份识别实验 39 5.2.1 结构框图. 39 5.2.2 实验结果及分析. 39 5.3 基于 gmm 的咳嗽音身份识别实验. 41 5.3.1 结构框图. 41 5.3.2 采用不同 gmm 阶数的实验结果及分析 42 5.3.3 采用不同特征参数的实验结果及分析 43 5.3.4 噪声环境下的实验结果及分析 . 44 5.4 本章小结. 46 第六章 总结与展望. 47 6.1 总结. 47 6.2 展望. 47 参考文献. 49 致 谢. 52 攻读硕士研究生期间研究成果 . 53 南京邮电大学硕士研究生学位论文 第一章 绪论 1 第一章第一章 绪论绪论 1.1 研究背景 研究背景 随着经济和科技的发展,我们正逐渐步入全球化、数字化、网络化、智能化时代,全球 网络信息化是大势所趋。网络信息化过程中面临的首要问题就是信息安全1,这就要求更高 的身份认证技术与之相适应,而传统的身份识别技术主要以个人密码为特征,很难以满足网 络信息高可靠性和高安全性的要求。在这样的情况下,迫切需要一种更安全,更便捷,更有 效的身份认证方式,因此,生物特征识别技术作为一种新的身份认证方法应运而生。 生物特征识别技术是融合计算机、光学、传感技术、红外扫描等信息采集和处理技术于 一体,利用人体固有的生理特征或行为特征进行身份识别和认证的技术。生物特征可以划分 为生理特征(如人脸、指纹、掌纹、虹膜等)和行为特征(如声音、步态、笔迹等) 。用于身 份识别的生物特征要具有以下四个特点:唯一性、稳定性、广泛性、可采集性。唯一性是指 每个样本所拥有的该特征互不相同,独一无二,即一个特征能唯一标识一个样本。稳定性是 指该特征在较长一段时间内是不变的, 而且不会随着时间或外界条件的变化而有太大的变化。 广泛性是指基本上人人都具有该特征。可采集性指该特征方便采集和处理。 与传统的身份识别技术相比,生物特征识别技术更安全、更可靠、更便捷、更准确,近 年来成为人们研究和关注的热点。 目前, 国内外研究领域中用于身份识别的生物特征有指纹、 掌纹、虹膜、视网膜、静脉、步态、耳廓、语音以及手部、面部模式等,但是这些特征中有 些很容易被人为的窃取和伪造,存在安全隐患 。为了提高识别的可靠性和安全性,目前已有 不少学者将目光投向 dna、心音信号等2人体内部的信息。 咳嗽是一种常见的临床症状,具有重要的诊断价值。由于每个人发音器官、发音声道以 及发音习惯的个性差异,使得每个人的咳嗽声互不相同。作为人体的生理特征信息之一,咳 嗽声具有独一无二的特性,满足生物特征的四个特点,因此用咳嗽音进行生物特征识别理论 上是可行的。 1.2 咳嗽音识别的研究现状 咳嗽音识别的研究现状 咳嗽音和语音一样,也是通过发声器官的振动发出声音,然后通过声道向外辐射。因此, 咳嗽音与语音有相似的声学特性,比如:它们都是典型的非平稳信号,都具有短时平稳性。 南京邮电大学硕士研究生学位论文 第一章 绪论 2 咳嗽音作为人体发声的一种,可以借鉴语音身份识别方面的技术成果。语音识别方面良好的 理论和实践基础,将有助于开展咳嗽音识别方面的研究。 1.2.1 语音识别的研究历史及现状 上世纪 50 年代,人们开始了语音身份识别的研究。1947 年,贝尔实验室发明了声音语 谱图,利用声纹将不同的人区分开来,这些研究为以后的自动说话人识别奠定了理论基础。 1956 年,belar 和 olson 通过提取语音信号的频谱参量,成功研究出可以识别 10 个单音节词 的系统。1962 年贝尔实验室的研究人员通过目视观察语谱图,成功实现了 12 个人的识别系 统。但是那个时期的特征提取主要是提取语音信号的频谱特征,而且是通过硬件滤波器实现 的,技术不是很先进。 60 到 70 年代,随着计算机技术的应用,语音识别技术得到了很快发展并取得了很多成 果。为了解决语音信号特征提取及语音匹配不等长的问题,60 年代末 70 年代初提出了语音 信号 lpc 特征参数和动态时间规整(dtw)识别技术。70 年代中期,线性预测技术进一步 发展,itakura 提出将线性预测残差原理应用于语音识别并取得了成功。davis 提出了基于听 觉特性的梅尔倒谱系数(mfcc) 。在识别方法上,70 年代末期,linda、buzo、gray 和 markel 等人尝试将矢量量化技术(vq)应用于语音编码,并在语音识别中得到广泛应用。 80 年代初期,语音识别研究取得重大进展。隐马尔可夫模型(hmm)作为一种统计模 型技术替代了模板匹配技术,并在语音识别研究中得到成功应用。一个成功的例子就是美国 卡内基梅隆大学用矢量量化技术和隐马尔可夫模型开发出识别系统 sphinx,实现了 997 个 词的非特定人连续语音识别,识别率达到 95.8%。 90 年代,人工神经网络(ann)开始应用于语音识别研究中。语音识别的研究重点开 始转向不同说话人个性特征的分离提取、不同特征的处理方法以及新的身份识别方法。语音 识别的研究逐渐从实验走向应用阶段。 在国外, 基于语音识别技术的产品在现实生活中已得到成功应用。 欧洲电信联盟在 1998 年完成了 cave(caller verification in banking and telecommunication)计划, 并于同年又启动了 picasso(pioneering call authentication for secure service operation)计划,在电信网上完成了 声纹识别。同时,motorola 和 visa 等公司成立了 v-commerce 联盟,该项目主要包括:通过 声音确定人的身份,并希望实现电子交易的自助化。 国内开展语音身份识别的研究机构有:清华大学、东南大学、中科院自动化所、北京大 学、中科院声学所、 哈尔滨工业大学等。投入使用的语音识别系统中,比较成功的主要有: 南京邮电大学硕士研究生学位论文 第一章 绪论 3 厦门天聪软件有限公司推出的智能声纹识别系统,该系统已成功应用于中国科技馆人类声纹 展项,用于体现声纹识别的最高科技成果。北京得意音通技术有限责任公司的基于声纹识别 的电话银行身份认证及服务系统,利用说话人声纹所具有的唯一性,将语音身份识别与传统 的密码验证相结合,来提高电话银行交易的安全性。另外还有中国科学院自动化所推出的 patiek sv 声纹识别产品及电话身份认证系统,成功实现了用户身份的认证。 1.2.2 咳嗽音识别的研究现状 目前,国内外对咳嗽音的研究主要集中在两方面。一方面是对咳嗽音的监测和记录,另 一方面是对咳嗽音的分类识别。 在咳嗽音的监测和记录方面,国外的研究有 40 多年的历史,目前已有设备投入使用。 1964,第一代咳嗽音监测装置面世,但这种设备是固定的,不方便携带。1994 年,hsu3等 人提出了便携式的咳嗽监测记录仪, 该仪器利用多道肌电图(emg)信号辅助咳嗽音信号分离, 可以 24 小时同步记录咳嗽音,并有效区分咳嗽音与其他语音信号。1996 年,subburaj4等人 研发出了一种多通道、长时、动态的咳嗽监测系统,该系统不单能记录咳嗽的次数,还能对 咳嗽的效能进行记录和分析。随着数字技术的发展,移动式咳嗽监测仪器逐渐被研发出来。 移动式咳嗽监测仪的优点是:体积小、重量轻、容量大、便于携带。在咳嗽音的监测中发挥 了较好的效果, 并在咳嗽音疗效评估中得到了广泛的应用。 文献5提出了基于低功耗 dsp 芯 片的便携式咳嗽自动监测装置设计,减少了大量需人工记录和分析的数据。目前国内还没有 能实际应用的咳嗽监测系统产品。 咳嗽音的分类识别方面的研究主要集中在提取咳嗽音的特征,比如不同类型咳嗽音的时 域,频域特征和基频特征6,然后采用隐马尔可夫模型或动态时间规整算法对咳嗽进行分类 识别。目前对咳嗽音分类识别,主要是借鉴语音识别方面的技术。2001 年,chedad 等7提 出了利用概率神经网络和功率谱密度函数进行咳嗽音识别。2006 年,matos 和 birring 等8 提出利用隐马尔可夫模型(hmm)和 mfcc 特征参数的连续咳嗽音检测方法,并取得了较 好的效果,平均识别率达到了 82%。文献9采集了咳嗽音,说话声,笑声和清喉音,通过提 取它们的 mfcc 特征参数,采用高斯混合模型成功实现了咳嗽音部分的检测。文献10对不 同类型的咳嗽音进行 mfcc 特征参数提取,并采用动态时间规整(dtw)方法进行分类,得 出分类错误率仅为 2.56%。 综上所述,目前国内对咳嗽音识别的研究还处于跟踪起步阶段,更没有将咳嗽音用于身 份识别方面的研究。本文研究的目的是借鉴语音分析与识别方面的技术,深入分析咳嗽音信 南京邮电大学硕士研究生学位论文 第一章 绪论 4 号特性,提取有效的特征参数,探讨其在身份识别方面的可行性。 与语音相比,采用咳嗽音进行身份识别更加经济、简便。表现在:咳嗽音简单,认证方 式更易于接受,用户只需要简单咳嗽几声即可,而语音容易受到文本内容和发音习惯以及方 言等的影响。不久的将来,基于咳嗽音的身份识别技术也会有广泛的应用前景。如公司考勤、 考试、声控开关以及银行系统的进入、计算机远程登录控制、司法鉴定、嫌疑犯的身份查证 等等。 1.3 本文研究内容 本文研究内容 1.3.1 研究内容 本文主要研究咳嗽音的特征提取及在身份识别中的应用。主要内容包括:咳嗽音的产生 机理,咳嗽音的时频域特性,预处理,咳嗽音特征参数提取,模型建立和咳嗽音身份识别实 验研究。 目前,语音识别中广泛应用的识别方法有很多。本文分别采用动态时间规整(dtw)和 高斯混合模型(gmm)两种识别方法进行基于咳嗽音的身份识别实验研究。原因是 dtw 算 法简单有效,在孤立词识别中已得到广泛应用,而咳嗽音和孤立词比较相似,它们都是孤立 非连续的,因此将 dtw 用于咳嗽音的分类识别应该是可行的。gmm 采用多个高斯密度函数 的线性组合来逼近特征矢量在特征空间的分布,并且容易处理、相当稳定。每个人的咳嗽音 特征在特征空间都有特定的分布,即不同人的咳嗽音特征对应不同的 gmm 模型,用 gmm 模型可以表征不同人的身份,因此采用 gmm 进行身份识别会有较好的识别效果。 1.3.2 组织结构及创新点 本文的组织结构安排如下: 第一章 绪论。介绍了本文的研究背景和咳嗽音识别的研究现状。 第二章 介绍了咳嗽音信号的相关基础知识。主要包括发声器官的结构,咳嗽音信号的产 生模型和产生机理及其时频域特性。 第三章 咳嗽音信号的特征参数提取。介绍了咳嗽音信号的预处理过程,特征参数方面介 绍了线性预测倒谱系数(lpcc)、mel 频率倒谱系数(mfcc)、一阶差分mfcc 参数、并提出 了改进的特征参数 mfcc_n,最后又介绍了一种组合特征参数,即 mfcc_n 参数与短时能 量结合。 南京邮电大学硕士研究生学位论文 第一章 绪论 5 第四章 识别方法介绍。主要介绍了 dtw 和 gmm 两种识别方法,首先介绍了 dtw 的 基本原理和模板训练方法,然后又介绍了 gmm 的基本原理,参数估计和参数初始化,为下 一章基于咳嗽音的身份识别做好准备。 第五章 咳嗽音身份识别的实现。 分别设计了基于 dtw 和 gmm 的咳嗽音身份识别系统, 并进行了咳嗽音身份识别的实验研究。 第六章 总结全文,并对课题进一步的研究方向进行展望。 本文主要创新点: (1) 结合咳嗽音的短时突发特性,提出了改进的 mfcc 特征参数,即 mfcc_n 参数,该 参数能很好地逼近咳嗽音信号的动态变化特性,而且维数少,能降低识别系统的计算复杂度, 并且还给出了一种基于 mfcc_n 参数与短时能量结合的组合特征参数描述方法。 (2) 根据不同人咳嗽音的个性差异,重点研究了基于 dtw 的咳嗽音身份识别,通过仿真 实验证明,将 mfcc_n 参数用于咳嗽音身份识别具有较好的识别效果。同时对基于 gmm 的 咳嗽音身份识别进行了初步研究和实验分析。 南京邮电大学硕士研究生学位论文 第二章 咳嗽音的基础知识 6 第二章第二章 咳嗽音的基础知识咳嗽音的基础知识 在分析和研究咳嗽音信号之前,必须先了解咳嗽音信号的产生机理、产生模型,以及一 些基本特性,在此基础上才可以对其进行特征参数提取,进而用于身份识别,它们是贯穿咳 嗽音信号处理的基础。 2.1 发声器官的结构 发声器官的结构 人的发声器官主要分为三部分:肺、喉和声道。下面分别介绍它们的结构和功能。 肺肺 肺位于胸腔内,是一团有弹性的海绵状物质。肺相当于一个动力源,将气流输送至喉部。 喉喉 喉位于气管的上端,由软骨、肌肉和韧带构成,是一个较复杂的系统。喉的主要作用是控 制声带11,俯视剖面图如图 2-1 所示12,喉的前端是甲状软骨,前后方围成一圈的称为环形 软骨。声带附着在甲状软骨上,一侧由两块杓状软骨支撑,另一侧由甲状软骨相连。杓状软 骨又与环形软骨相连。 (a) 发音 (b) 呼吸 图 2-1 喉的俯视剖面图 声带是由肌肉和韧带组成的组织,可以在喉的前后之间伸展。声带有两个重要特性:声 门大小和紧张程度。其中,声门是两片声带之间的裂缝,大小由杓状软骨和声带肌肉控制。 紧张程度则由声带的肌肉以及声带周围的软骨决定。 声带主要有三种状态:呼吸、发浊音和发清音。处于呼吸状态时,杓状软骨向外撑,声 带肌肉放松,声门较宽,来自于肺部的空气可以自由地通过声门,见图 2-1(b)。发声时,声 带阻碍气流。处于浊音状态时,两个杓状软骨相互靠拢,声带紧绷并相互靠近,见图 2-1(a), 南京邮电大学硕士研究生学位论文 第二章 咳嗽音的基础知识 7 此时紧绷的声带和狭窄的声门会引起声带的自激振动。 声带的最后一个状态是发清音,因为声带不参与振动,所以这个状态与呼吸状态类似。 不同的是,在发清音状态,声带更加靠拢和紧绷,这样也会在声带处产生湍流,我们称这种 声音为送气音(aspiration),比如“h”就是送气音。有时候也称这种声音为“耳语音” ,因为在 耳语时,声带处也产生这样的湍流。但耳语音并不是简单地降低音量,是因为耳语时声带不 振动。 除了上述三种典型状态(呼吸、发浊音和发清音) ,声带还有其他的运动方式,而且这些 非典型的发声形式并不罕见,而是经常出现的12。例如,在气泡音(vocal fry)发声中,声带变 得放松而厚实,基音变得异常低沉而没有规律13。而在一种叫做紧喉嗓音(creaky voice)的发 声状态下,声带非常紧绷,只有很短的一部分在振动,并发出刺耳的声音,这时基音很高而 且没有规律。这一点与咳嗽音比较相似。 声道声道 声道是气流从喉向上,经过口腔或鼻腔,最后从嘴或鼻孔向外辐射的传输通道。声道的解 剖图如图 2-2 所示11: 图 2-2 声道纵剖图 声道(vocal tract)包括空腔和鼻腔,口腔从喉部一直延伸到嘴唇,鼻腔则通过软腭与口腔 耦合。通过舌、牙、唇及腭的运动,口腔可以形成许多不同长度和截面积的腔体。男性和女 性的口腔长度是不同的,一般成年男性的口腔平均长度约为 17cm,女性则略短一些。 声道可以对某些声源的频谱进行“润色” ,还可以为发声提供新的声源11。不同的声道形 状能够产生不同的声源。例如,噪声性声源的产生方式是:舌面贴近上颚但不完全成阻,这 样会产生湍流而形成噪声性声源。又如,冲击性声源的产生方式是:声道完全关闭,舌头紧 抵上颚。声道还可以产生另外一种形式的声源,但对于口腔收缩产生的噪声声源和冲击性声 源,我们的了解还不够深入。这种声源主要是由于涡旋气流与声道边界的相互作用而产生的。 南京邮电大学硕士研究生学位论文 第二章 咳嗽音的基础知识 8 2.2 咳嗽音信号的产生机理及模型 咳嗽音信号的产生机理及模型 2.2.1 咳嗽的产生机理 咳嗽是哺乳动物(包括人类)的一种保护性呼吸反射动作。咳嗽的产生由完整的反射弧 完成,产生过程由咳嗽感受器、传入神经、咳嗽中枢、传出神经及效应器等参与14。具体产 生过程是:当异物、刺激性气体、呼吸道内分泌物等刺激呼吸道粘膜里的感受器时,冲动由 传入神经纤维传到延髓咳嗽中枢,然后经传出神经传递至效应器(膈肌、喉、胸部和腹肌群 等),从而引起咳嗽3。 咳嗽产生的特征是:动作短促深吸气,声门紧闭,呼吸肌、肋间肌和膈肌快速猛烈收缩。 一般完整的咳嗽包括以下三个步骤314: (1) 吸气阶段:此时声门打开,有时吸入的气量可以达到肺活量的一半,咳嗽反射与呼 气反射的最大区别在这个阶段体现出来(呼气反射没有预先吸气的过程)。 (2) 加压阶段:该阶段声门紧闭,腹肌、肋间肌收缩,横膈迅速收缩上移,声门下的气 道内压力急剧上升,与外界形成巨大的压差。 (3) 冲出阶段:声带突然急速打开,呼气肌持续收缩,声门下的高压空气快速排出,并 振动声带发出典型的咳嗽音。有时候声门从完全打开到恢复常态的过程中,后期的气流也会 引起声带振动发声。 2.2.2 咳嗽音信号的产生模型 在研究了发声器官和咳嗽音的产生机理以后, 非常需要建立一个咳嗽音信号的产生模型, 这有利于对咳嗽音做进一步的研究和具体应用。咳嗽音是人声的一种,与语音信号一样,也 是通过发声器官的振动发出声音,两者有许多相似的声学特性,因此了解语音信号的产生模 型有助于开展对咳嗽音信号的研究。图 2-3 是语音信号产生的离散时域模型。 语音信号的产生过程是:声门气流激励声道,然后从嘴唇辐射出来。完整的语音信号数 学模型可以由以下三个模型的串联来表示:激励模型、声道模型和辐射模型16。传递函数表 示为: )z(r) z(v)z(ua)z(h (2.1) 式中,a是增益,u(z)是激励信号,发浊音时,u(z)是一个周期脉冲信号,可以由一个脉 冲序列发生器来模拟;发清音时,由于声带不发生振动,u(z)可以看成是一个湍流,类似于 南京邮电大学硕士研究生学位论文 第二章 咳嗽音的基础知识 9 宽带噪声,此时可以用一个随机噪声发生器来模拟。 图 2-3 语音信号产生的离散时域模型15 声道模型的传输函数v(z),可以用两种模型来表示:声管模型或者共振峰模型。大多数 情况下,声道模型可以用一个全极点函数来表示: p 1k k kz a1 1 )z(v (2.2) 式中,ak(k=1,2, ,p) 是极点系数,p为全极点滤波器阶数, 一般p的取值范围是8,12。 模型传输函数与实际声道传输函数的吻合程度与p值密切相关,而且与p成正比关系。 r(z)是辐射模型的传递函数,可以表示为: )z1 (r)z(r 1 0 (2.3) 咳嗽音信号也可以基于这个模型产生。文献17就是采用这样的模型,然后利用线性预 测编码技术对咳嗽音的声道模型进行了重建。 2.3 咳嗽音信号特性分析 咳嗽音信号特性分析 2.3.1 咳嗽音信号的时域特性 通过对咳嗽音的研究发现:正常的单片段咳嗽音持续时间大约为0.35 秒,即使是患有 严重的喉、支气管病变,单个咳嗽音的持续时间也不超过1秒。根据thorpe等的观点18,一 个典型的咳嗽音可以分为三个部分: . 初始阶段,也称突发部分,此部分对应声门的瞬时张开,在这个阶段咳嗽音突然爆 发,能量突然升高。 . 中间阶段,也称相对平稳部分,此部分对应声门持续张开时一段气流相对平稳的间 南京邮电大学硕士研究生学位论文 第二章 咳嗽音的基础知识 10 隔,在这个阶段能量逐渐降低。 . 尾部,也称结束前的突起部分,此部分是收尾气流在声带回位时,由声带的周期性 振动产生的19。这部分还可以称为咳嗽音的第二声,但不是每个咳嗽音都会发生。 用matlab将单片段咳嗽音的时域波形图绘出,见图2-4。其中2-4(a)是由三部分构成 的咳嗽音信号,2-4(b)是由两部分构成的咳嗽音信号。 (a) (b) 图 2-4 咳嗽音时域波形图 (a)由三部分构成,(b)由两部分构成) 由咳嗽音信号的时域波形图可以清楚地看出,咳嗽音的持续时间不超过0.35秒,基本都 是在极短的时间内完成的,而且可以看出咳嗽音的突发性特征非常明显。 2.3.2 短时能量 研究发现,咳嗽音信号是随时间变化的非平稳过程,在一个较短的时间内其特性是基本 保持不变的,所以研究咳嗽音信号就要对其进行短时分析。咳嗽音信号的能量随着时间变化 比较明显,这种特征变化可以用短时能量来描述。短时能量大表示信号在这段时间内达到了 南京邮电大学硕士研究生学位论文 第二章 咳嗽音的基础知识 11 较高能量。另外,利用短时能量可以判断有声段和无声段,从而去除无用的噪声段和静音段 20,保留有用的信息段。 对于咳嗽音信号x(n),短时能量可以表示为21: m 2 n )mn(w)m(xe (2.4) 式中, w(n)是窗函数,这里采用矩形窗即: 其它, 0 1n0 , 1 )n( (2.5) 因此,短时能量还可以表示为: 2 1n 0m n mxe (2.6) 其中,n为帧长。 图2-5和图2-6分别是咳嗽音信号和语音信号在矩形窗函数不同窗长下的短时能量。 由2-5和2-6可以看出,短时能量的波形随着窗长的增加而变得更平滑,而且随着音频 信号幅度的变化而变化。短时能量体现了音频信号的时域特征,是音频信号一个重要的时域 特征参数。在咳嗽音识别中,将短时能量与其它特征结合,应该会得到很好的识别率。 对比咳嗽音信号与语音信号的短时能量,可以发现,由于咳嗽音的突发性特点,咳嗽音 的短时能量在开始后一个很短的时间内就达到极高的值,然后随着气流的冲出而慢慢下降, 可以看出这个过程是在很短的时间内完成的。语音信号的短时能量则是缓慢上升到最高点, 然后又缓慢下降的。 0500100015002000250030003500 -0.5 0 0.5 0500100015002000250030003500 0 5 0500100015002000250030003500 0 5 10 0500100015002000250030003500 0 5 10 咳嗽音信号 n=64 n=128 n=256 图 2-5 不同窗长下咳嗽音的短时能量 南京邮电大学硕士研究生学位论文 第二章 咳嗽音的基础知识 12 0500100015002000250030003500 -1 0 1 语 音 信 号 0500100015002000250030003500 0 50 100 n=256 05001000150020002500300035004000 0 50 100 n=512 05001000150020002500300035004000 0 100 200 n=1024 图 2-6 不同窗长下语音“好”的短时能量 2.3.3 短时平均幅度 短时能量是通过计算各个取样值的平方得到的,但平方运算带来的问题是:如果两相邻 取样值的振幅不相等,平方之后它们的幅度差别会更大。另外,计算短时能量还会遇到窗函 数宽度选择方面的困难。太窄的窗通过较多的高频信号,不能提供足够的匀化,难以产生平 滑的效果22。为了使平方后的信号幅度有较好的平滑效果,必须选择宽的窗函数。然而这可 能造成短时能量不能很好地反映咳嗽音能量的时变特点。基于这个原因,提出了短时平均幅 度的概念,定义如下: )n(w*)n(x)mn(w)m(xm m n (2.7) 式中,x(n)是咳嗽音信号,w(n)是矩形窗函数。 0500100015002000250030003500 -1 -0.5 0 0.5 1 0500100015002000250030003500 0 10 20 30 40 50 图 2-7 咳嗽音信号的短时平均幅度 南京邮电大学硕士研究生学位论文 第二章 咳嗽音的基础知识 13 短时平均幅度与短时能量相比,除了有一些相似的特性,还有一点不同的是,由于短时 平均幅度没有平方运算,所以更加逼近咳嗽音的实际时变特性。 图2-7是单片段咳嗽音信号的短时平均幅度。从图中可以看出,短时平均幅度粗略描述 了咳嗽音信号的幅度变化状态,由于没有平方运算,使得计算结果更能体现出咳嗽音能量的 实际时变规律。 2.3.4 短时平均过零率 过零定义为:时域波形穿过坐标轴,也就是通过零值,表现在离散信号序列上就是相邻 两个采样值异号。短时过零率是时域分析中最简单的一种23。单位时间内的过零数称为平均 过零率。短时平均过零率的定义表示如下: mnw1mxsgnmxsgnzcr m n (2.8) 式中, sgn(x)是符号函数,其定义如下: 0x, 1 0x, 1 xsgn (2.9) 短时平均过零率的作用是:一定程度上可以反映信号的频率特性,粗略描述信号的频谱 特性,即用多带滤波器把信号分为若干通道,分别计算各通道的短时平均过零率。 图2-8和图2-9分别是咳嗽音信号和语音信号“好”的过零率。 0510152025303540 0 10 20 30 40 帧 序 号 00.050.10.150.20.250.30.350.40.45 -1 -0.5 0 0.5 1 时 间 (s) 图 2-8 咳嗽音信号的过零率 南京邮电大学硕士研究生学位论文 第二章 咳嗽音的基础知识 14 0510152025303540 0 5 10 15 20 25 帧序号 00.050.10.150.20.250.30.350.40.45 -1 -0.5 0 0.5 1 时间(s) 图 2-9 语音信号“好”的过零率 从图2-8和图2-9可以看出,过零率与频率有密切的关系,在高频处有较高的过零率, 低频处有较低的过零率。对比语音信号和咳嗽音信号的过零率可以发现,咳嗽音比语音有更 高的过零率,咳嗽过程中的湍流使过零率升高,咳嗽结束时过零率缓慢下降。而语音的过零 率整体较平稳,在末尾才有显著的下降。 2.3.5 咳嗽音信号频域特性分析 研究表明,咳嗽音的频率范围是504000hz。病态咳嗽和正常生理咳嗽的频率有很大 区别。一般来说,正常人的咳嗽音频率集中在300500hz,而患有支气管炎症的病人的咳嗽 频率多集中在500,700和1200hz附近24。 咳嗽音信号的频率分布范围可以用其频谱图来表示,对单片段咳嗽音信号做fft变换, 并绘出频谱图,如图2-10所示。由于fft变换之后信号在频域上的分布是对称的,所以由图 2-10可以看出,咳嗽音信号的频率分布在4000hz以内。 另外, 咳嗽音信号也可以和语音信号一样, 用语谱图来展现其频域特性。 图2-11和图2-12 分别是咳嗽音信号和语音信号的语谱图,语谱图中纵坐标是频率,横坐标是时间,颜色的深 浅表示能量的大小,颜色越深,能量越大。 对比图2-11和2-12可以看出, 咳嗽音信号的共振峰条纹并没有语言信号的那么明显, 原 因可能是:咳嗽音信号与语音信号的产生机理有所差别,或者是咳嗽湍流的影响造成的。 南京邮电大学硕士研究生学位论文 第二章 咳嗽音的基础知识 15 00.050.10.150.20.250.30.35 -1 -0.5 0 0.5 1 时间(s) 幅度 咳嗽信号 010002000300040005000600070008000 0 10 20 30 40 50 频率(hz) 幅度 频谱图 图 2-10 咳嗽音信号的频谱图 00.050.10.150.20.250.30.350.40.45 -1 -0.5 0 0.5 1 时 间 (s) 幅度 咳 嗽 音 信 号 时 间 (s) 频率(hz) 咳 嗽 音 语 谱 图 00.050.10.150.20.250.30.35 0 1000 2000 3000 4000 -80 -60 -40 -20 0 20 图 2-11 咳嗽音信号的语谱图 00.050.10.150.20.250.30.350.40.45 -1 -0.5 0 0.5 1 时间(s) 幅度 语音信号 时间(s) 频率(hz) 语音语谱图 00.050.10.150.20.250.30.35 0 1000 2000 3000 4000 -80 -60 -40 -20 0 20 图 2-12 语音信号“好”的语谱图 南京邮电大学硕士研究生学位论文 第二章 咳嗽音的基础知识 16 2.4 本章小结 本章小结 本章主要介绍了咳嗽音信号的相关基础知识。首先介绍了咳嗽音信号的产生机理和产生 模型,然后分别从时域和频域详细分析了咳嗽音信号的特点,为后面进行咳嗽音特征提取和 在身份识别方面的应用奠定基础。 南京邮电大学硕士研究生学位论文 第三章 咳嗽音信号特征提取 17 第三章第三章 咳嗽音信号特征提取咳嗽音信号特征提取 咳嗽音信号特征参数提取是进行咳嗽音身份识别的关键环节。在特征参数提取之前要对 信号进行预处理,预处理主要包括预加重、端点检测和分帧加窗等。咳嗽音的特征参数提取 就是提取不同咳嗽音独有的个性特征信息,本文主要从咳嗽音的频谱结构中进行分析。本章 主要研究了咳嗽音的预处理过程,lpcc、mfcc以及改进mfcc特征参数的提取,最后将 改进的mfcc特征参数与短时能量结合作为一个组合特征参数。 3.1 预处理 预处理 预处理是信号处理系统中的重要环节,在对咳嗽音信号进行分析之前必须进行预处理。 预处理包括预加重、端点检测、分帧加窗。 3.1.1 预加重 咳嗽音信号同语音信号一样,在发声的过程中由于声带和嘴唇辐射的影响,高频部分会 发生衰减。在求信号频谱时,高频部分对应的成分较少,而且高频部分的频谱比低频部分的 难求, 因此,需要对信号进行预加重处理。预加重的作用是:提升咳嗽音信号的高频部分, 使信号频谱变得平坦,从而有利于进行频谱分析或声道参数分析1620。一般能量损耗具有如 下规律:信号的频率提高两倍,其功率谱的幅度约下降6db,所以预加重可以采用6db/oct 的数字滤波器对损耗的能量进行补偿,数字滤波器的传递函数为: 1 z1)z(h (3.1) 咳嗽音信号预加重前后的关系可以表示为: ) 1n(y*)n(y)n( y (3.2) 其中 为预加重系数,一般取值接近于 1,本文取值 0.97。 图 3-1 是预加重前后咳嗽音信号的时域波形图和对应的频谱图。 从图 3-1 可以看出,经过预加重的咳嗽音信号消除了原始信号的低频干扰,有用的高频 部分得到了提升,信号频谱在整个频带内变得更为平坦。 南京邮电大学硕士研究生学位论文 第三章 咳嗽音信号特征提取 18 00.10.20.3 -1 -0.5 0 0.5 1 时间(s) 幅度 原始咳嗽信号 02000400060008000 0 10 20 30 40 50 原始咳嗽信号频谱图 幅度 频率(hz) 00.10.20.3 -1 -0.5 0 0.5 1 时间(s) 幅度 预加重后的咳嗽信号 02000400060008000 0 10 20 30 40 50 预加重后咳嗽信号频谱图 幅度 频率(hz) 图 3-1 咳嗽音信号预加重前后的对比图 3.1.2 端点检测 端点检测就是准确地找出一段咳嗽音信号的起始点和终止点,这是咳嗽音预处理中的一 个重要环节。为了提取到真正有用的信号信息,为后续的识别工作做好准备,必须准确地找 到咳嗽音的起始点和终止点。有效的端点检测不仅能消除无声段的噪声干扰,而且可以缩短 咳嗽音信号的处理时间,提高系统效率25。 本文针对咳嗽音的声学特点,采用短时能量与短时过零率相结合的双门限方法进行端点 检测,以此来判断咳嗽音起止点的位置。 图3-2是单片段咳嗽音信号的端点检测图。 10002000300040005000600070008000 -1 0 1 咳嗽音 采 样 点 102030405060708090100 0 20 40 短时能量 帧 序 号 102030405060708090100 0 10 20 帧 序 号 短时过零率 图 3-2 咳嗽音信号的端点检测图 由图3-2可以看出,经过端点检测后,咳嗽音信号的无声段被消除了,短时能量和短时 南京邮电大学硕士研究生学位论文 第三章 咳嗽音信号特征提取 19 过零率两个门限很好地确定了咳嗽音信号的起止点,为后面对咳嗽音信号的进一步分析研究 做好了准备。 3.1.3 分帧加窗 进行预加重和端点检测之后,就要对信号进行分帧加窗处理。因为咳嗽音信号是非平稳 的,为了更好地研究咳嗽音的特性,需要将其分为一个个短时段,每个短时段称为一帧,在 这样一段短时间(1030ms)内,可以把咳嗽音看成是平稳信号。 本文采用交叠分帧的方法对咳嗽音信号进行分帧处理。交叠分帧的好处是:帧与帧之间 能平滑过渡,保证咳嗽音信号的连续性,而且可以避免产生吉布斯效应造成信息的丢失。相 邻帧之间重叠的部分称为帧移,一般取帧长的00.5。 对单片段咳嗽音信号进行分帧处理,取帧长256点,帧移128点,分帧效果如图3-3所 示。 由图3-3可以看出这段咳嗽音信号大约被分为20帧。该分帧效果图是对咳嗽音信号进行 的直接分帧,直接分帧相当于对咳嗽音信号加了一个矩形窗。矩形窗由于旁瓣较大,在信号 截断处会产生频谱泄露,而且帧长越短这种效应越明显26。为了克服频谱泄露问题,需要进 行加窗处理,加窗可以平滑信号,减小相邻帧之间的不连续性。 00.050.10.150.20.250.30.35 -1 -0.5 0 0.5 1 咳嗽信号 幅度 时间(s) 0510152025 -0.5 0 0.5 分帧效果图 幅度 帧数 图 3-3 咳嗽音信号分帧效果图 咳嗽音信号的短时特性与窗函数有密切的关系,因此,窗函数的选择非常重要。在选择 窗函数时需要考虑两个问题2728。其一是窗函数的形状,即窗函数的形式,窗口边缘应缓慢 变化,尽可能地减少帧之间的截断效应;其二是窗函数长度的选择,窗长越大,对信号的平 滑作用越好,窗长越小,对信号几乎没有平滑作用。但是窗长过大,容易丢失信号的细节信 南京邮电大学硕士研究生学位论文 第三章 咳嗽音信号特征提取 20 息。因

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论